محققان در شرکت آمازون مدل جدید زبان بزرگ (LLM) را برای تبدیل متن به گفتار آموزش دادهاند که ادعا میکنند دارای “ویژگیهای ظاهری” است.
مدل با 980 میلیون پارامتر به نام BASE TTS، بزرگترین مدل تبدیل متن به گفتار تا کنون است. محققان مدلهای مختلفی را با اندازههای مختلف بر تا 100,000 ساعت داده گفتار دامنه عمومی آموزش دادند تا ببینند آیا افزایش اندازه به مرور زمان باعث پیشرفتهای قابل مشاهده میشود، همانند مدلهای پردازش زبان طبیعی زمانی که از مقیاس معینی عبور میکنند.
آنها متوجه شدند که مدل متوسط با 400 میلیون پارامتر – که بر روی 10,000 ساعت صدایی آموزش دیده بود – بهبود قابل توجهی در چندگانگی و استحکام در جملات آزمون دشوار نشان داد.
جملات آزمون حاوی ویژگیهای لغوی، نحوی و پارالینگویستیک پیچیده مانند اسمهای مرکب، احساسات، کلمات خارجی و علائم نگارشی بودند که به طور عادی سیستمهای تبدیل متن به گفتار را گیج میکنند. در حالی که BASE TTS این ویژگیها را به صورت کامل اجرا نکرد، اما تعداد قابل توجهی از خطاها در تنزنی، تلفظ و لحن نسبت به مدلهای موجود دیگر انجام داد.
“این جملات برای حاوی وظایف چالشبرانگیز طراحی شدهاند – که هیچکدام از آنها به طور صریح برای اجرا توسط BASE TTS آموزش داده نشدهاند”، توضیح میدهند محققان.
نسخه با 980 میلیون پارامتر از این مدل – که بر روی 100,000 ساعت صدایی آموزش دیده بود – ویژگیهای جدیدی نشان نداد به جز نسخه با 400 میلیون پارامتر.
هر چند که این فرآیند تجربی است، ایجاد BASE TTS نشان میدهد که این مدلها میتوانند با افزایش اندازه به تاپیهای چندگانه جدیدی دست یابند – یک نشانه امیدبخش برای هوش مصنوعی گفتگویی. محققان قصد دارند کارهای بیشتری انجام دهند تا اندازه بهینه مدل برای ویژگیهای ظاهری را شناسایی کنند.
همچنین طراحی مدل به منظور سبک و قابل استریم کردن است، که دادههای احساسی و پروسودی را به صورت جداگانه بسته بندی میکند. این امکان را فراهم میکند که صدای گفتار طبیعی بدون افت کیفیت از طریق اتصالات پهنای باند کم انتقال یابد.