عملیات صوتی OpenAI#
از این عملیات برای تولید صدا، یا رونویسی یا ترجمه یک ضبط در OpenAI استفاده کنید. برای اطلاعات بیشتر در مورد نود OpenAI به OpenAI مراجعه کنید.
تولید صدا#
از این عملیات برای ایجاد صوت از یک متن وارد شده استفاده کنید.
این پارامترها را وارد کنید:
- اعتبارنامه برای کانکشن: یک اعتبارنامه OpenAI جدید بسازید یا انتخاب کنید.
- منبع: Audio را انتخاب کنید.
- عملیات: Generate Audio را انتخاب کنید.
- مدل: مدل مورد نظر برای تولید صدا را انتخاب کنید. برای اطلاعات بیشتر به TTS | OpenAI مراجعه کنید.
- TTS-1: برای بهینهسازی سرعت استفاده شود.
- TTS-1-HD: برای بهینهسازی کیفیت استفاده شود.
- ورودی متن: متنی که میخواهید صدا برای آن تولید شود را وارد کنید. حداکثر طول ۴۰۹۶ کاراکتر است.
- صدا: صدایی را که هنگام تولید صدا استفاده میشود، انتخاب کنید. پیشنمایش صداها در راهنمای تبدیل متن به گفتار | OpenAI قابل مشاهده است.
گزینهها#
- قالب پاسخ: قالب پاسخ صوتی را انتخاب کنید. گزینههای MP3 (پیشفرض)، OPUS، AAC، FLAC، WAV، و PCM.
- سرعت صدا: سرعت تولید شده را از مقدار
0.25
تا4.0
وارد کنید. مقدار پیشفرض1
است. - قرار دادن خروجی در فیلد: پیشفرض
data
است. نام فیلد خروجی را وارد کنید تا دادههای فایل باینری در آن قرار گیرد.
برای اطلاعات بیشتر به مستندات ایجاد گفتار | OpenAI مراجعه کنید.
رونویسی ضبط#
از این عملیات برای رونویسی صوت به متن استفاده کنید. حداکثر حجم فایل صوتی ۲۵ مگابایت است. در حالت پیشفرض، OpenAI از مدل whisper-1
استفاده میکند.
این پارامترها را وارد کنید:
- اعتبارنامه برای کانکشن: یک اعتبارنامه OpenAI جدید بسازید یا انتخاب کنید.
- منبع: Audio را انتخاب کنید.
- عملیات: Transcribe a Recording را انتخاب کنید.
- نام فیلد داده ورودی: پیشفرض
data
است. نام ویژگی باینری که حاوی فایل صوتی در یکی از فرمتهای.flac
،.mp3
،.mp4
،.mpeg
،.mpga
،.m4a
،.ogg
،.wav
، یا.webm
است را وارد کنید.
گزینهها#
- زبان فایل صوتی: زبان فایل صوتی ورودی را در ISO-639-1 وارد کنید. برای افزایش دقت و کاهش تأخیر از این گزینه استفاده کنید.
- تصادفی بودن خروجی (دمای پاسخ): پیشفرض
1.0
است. میزان تصادفی بودن پاسخ را تنظیم کنید. دامنه بین0.0
(منطقی و تکراری) و1.0
(بیشترین تصادفی بودن). پیشنهاد میکنیم این مقدار یا تصادفی بودن خروجی (Top P) را تغییر دهید، اما هر دو را همزمان نه. با دمای متوسط (حدود 0.7) شروع کنید و بر اساس نتایجی که مشاهده میکنید تنظیم کنید. اگر پاسخها خیلی تکراری یا خشک است، دما را افزایش دهید. اگر خیلی بینظم یا خارج از موضوع است، آن را کاهش دهید.
برای اطلاعات بیشتر به مستندات ایجاد رونویسی | OpenAI مراجعه کنید.
ترجمه یک ضبط#
از این عملیات برای ترجمه صوت به زبان انگلیسی استفاده کنید. حداکثر حجم فایل صوتی ۲۵ مگابایت است. در حالت پیشفرض، OpenAI از مدل whisper-1
استفاده میکند.
این پارامترها را وارد کنید:
- اعتبارنامه برای کانکشن: یک اعتبارنامه OpenAI جدید بسازید یا انتخاب کنید.
- منبع: Audio را انتخاب کنید.
- عملیات: Translate a Recording را انتخاب کنید.
- نام فیلد داده ورودی: پیشفرض
data
است. نام ویژگی باینری که حاوی فایل صوتی در یکی از فرمتهای.flac
،.mp3
،.mp4
،.mpeg
،.mpga
،.m4a
،.ogg
،.wav
، یا.webm
است را وارد کنید.
گزینهها#
- تصادفی بودن خروجی (دمای پاسخ): پیشفرض
1.0
است. میزان تصادفی بودن پاسخ را تنظیم کنید. دامنه بین0.0
و1.0
است. پیشنهاد میکنیم این مقدار یا تصادفی بودن خروجی (Top P) را تغییر دهید، اما هر دو را همزمان نه. با دمای متوسط (حدود 0.7) شروع کنید و بر اساس نتایج تنظیم کنید. اگر پاسخها خیلی تکراری یا خشک است، دما را افزایش دهید. اگر خیلی بینظم یا خارج از موضوع است، کاهش دهید.
برای اطلاعات بیشتر به مستندات ایجاد رونویسی | OpenAI مراجعه کنید.
مشکلات رایج#
برای رفع خطاهای رایج یا مشکلات و مراحل پیشنهادی حل مشکل، به مشکلات رایج مراجعه کنید.