پرش به محتویات

عملیات صوتی OpenAI#

از این عملیات برای تولید صدا، یا رونویسی یا ترجمه یک ضبط در OpenAI استفاده کنید. برای اطلاعات بیشتر در مورد نود OpenAI به OpenAI مراجعه کنید.

تولید صدا#

از این عملیات برای ایجاد صوت از یک متن وارد شده استفاده کنید.

این پارامترها را وارد کنید:

  • اعتبارنامه‌ برای کانکشن: یک اعتبارنامه‌ OpenAI جدید بسازید یا انتخاب کنید.
  • منبع: Audio را انتخاب کنید.
  • عملیات: Generate Audio را انتخاب کنید.
  • مدل: مدل مورد نظر برای تولید صدا را انتخاب کنید. برای اطلاعات بیشتر به TTS | OpenAI مراجعه کنید.
  • TTS-1: برای بهینه‌سازی سرعت استفاده شود.
  • TTS-1-HD: برای بهینه‌سازی کیفیت استفاده شود.
  • ورودی متن: متنی که می‌خواهید صدا برای آن تولید شود را وارد کنید. حداکثر طول ۴۰۹۶ کاراکتر است.
  • صدا: صدایی را که هنگام تولید صدا استفاده می‌شود، انتخاب کنید. پیش‌نمایش صداها در راهنمای تبدیل متن به گفتار | OpenAI قابل مشاهده است.

گزینه‌ها#

  • قالب پاسخ: قالب پاسخ صوتی را انتخاب کنید. گزینه‌های MP3 (پیش‌فرض)، OPUS، AAC، FLAC، WAV، و PCM.
  • سرعت صدا: سرعت تولید شده را از مقدار 0.25 تا 4.0 وارد کنید. مقدار پیش‌فرض 1 است.
  • قرار دادن خروجی در فیلد: پیش‌فرض data است. نام فیلد خروجی را وارد کنید تا داده‌های فایل باینری در آن قرار گیرد.

برای اطلاعات بیشتر به مستندات ایجاد گفتار | OpenAI مراجعه کنید.

رونویسی ضبط#

از این عملیات برای رونویسی صوت به متن استفاده کنید. حداکثر حجم فایل صوتی ۲۵ مگابایت است. در حالت پیش‌فرض، OpenAI از مدل whisper-1 استفاده می‌کند.

این پارامترها را وارد کنید:

  • اعتبارنامه‌ برای کانکشن: یک اعتبارنامه‌ OpenAI جدید بسازید یا انتخاب کنید.
  • منبع: Audio را انتخاب کنید.
  • عملیات: Transcribe a Recording را انتخاب کنید.
  • نام فیلد داده ورودی: پیش‌فرض data است. نام ویژگی باینری که حاوی فایل صوتی در یکی از فرمت‌های .flac، .mp3، .mp4، .mpeg، .mpga، .m4a، .ogg، .wav، یا .webm است را وارد کنید.

گزینه‌ها#

  • زبان فایل صوتی: زبان فایل صوتی ورودی را در ISO-639-1 وارد کنید. برای افزایش دقت و کاهش تأخیر از این گزینه استفاده کنید.
  • تصادفی بودن خروجی (دمای پاسخ): پیش‌فرض 1.0 است. میزان تصادفی بودن پاسخ را تنظیم کنید. دامنه بین 0.0 (منطقی و تکراری) و 1.0 (بیشترین تصادفی بودن). پیشنهاد می‌کنیم این مقدار یا تصادفی بودن خروجی (Top P) را تغییر دهید، اما هر دو را همزمان نه. با دمای متوسط (حدود 0.7) شروع کنید و بر اساس نتایجی که مشاهده می‌کنید تنظیم کنید. اگر پاسخ‌ها خیلی تکراری یا خشک است، دما را افزایش دهید. اگر خیلی بی‌نظم یا خارج از موضوع است، آن را کاهش دهید.

برای اطلاعات بیشتر به مستندات ایجاد رونویسی | OpenAI مراجعه کنید.

ترجمه یک ضبط#

از این عملیات برای ترجمه صوت به زبان انگلیسی استفاده کنید. حداکثر حجم فایل صوتی ۲۵ مگابایت است. در حالت پیش‌فرض، OpenAI از مدل whisper-1 استفاده می‌کند.

این پارامترها را وارد کنید:

  • اعتبارنامه‌ برای کانکشن: یک اعتبارنامه‌ OpenAI جدید بسازید یا انتخاب کنید.
  • منبع: Audio را انتخاب کنید.
  • عملیات: Translate a Recording را انتخاب کنید.
  • نام فیلد داده ورودی: پیش‌فرض data است. نام ویژگی باینری که حاوی فایل صوتی در یکی از فرمت‌های .flac، .mp3، .mp4، .mpeg، .mpga، .m4a، .ogg، .wav، یا .webm است را وارد کنید.

گزینه‌ها#

  • تصادفی بودن خروجی (دمای پاسخ): پیش‌فرض 1.0 است. میزان تصادفی بودن پاسخ را تنظیم کنید. دامنه بین 0.0 و 1.0 است. پیشنهاد می‌کنیم این مقدار یا تصادفی بودن خروجی (Top P) را تغییر دهید، اما هر دو را همزمان نه. با دمای متوسط (حدود 0.7) شروع کنید و بر اساس نتایج تنظیم کنید. اگر پاسخ‌ها خیلی تکراری یا خشک است، دما را افزایش دهید. اگر خیلی بی‌نظم یا خارج از موضوع است، کاهش دهید.

برای اطلاعات بیشتر به مستندات ایجاد رونویسی | OpenAI مراجعه کنید.

مشکلات رایج#

برای رفع خطاهای رایج یا مشکلات و مراحل پیشنهادی حل مشکل، به مشکلات رایج مراجعه کنید.