دستیار صوتی کمپانی گوگل (Google Assistant) به لطف WaveNet با صدایی طبیعیتر آغاز به کار خواهد کرد – یک سیستم جدید تبدیل نوشتار به گفتار (یا سیستم گفتاری) – که توسط بخش Google DeepMind ارائه خواهد شد. در ادامه با ترنجی همراه باشید.
WaveNet با Concatenative TTS قدیمی تفاوت دارد، به طوری که با استفاده از یک منبع بزرگ سخنرانیهای از پیش ضبط شده با میزان سرعت صحبت افراد سخنران، Parametric TTS (که صدای تولید شده را با استفاده از رایانه پردازش میکند) میتواند با سرعت امواج 16000 هرتز در هر ثانیه، نوشتار را به گفتار و یا فقط در حالت گفتاری، تبدیل نماید.
WaveNet با استفاده از مجموعه دادههای بزرگ از گفتار سخنرانان مختلف، مدت بیش از 12 ماه است که مورد آموزش قرار گرفته تا بتواند صداها را از هم تشخیص داده و صدایی واقعی و طبیعی برای کاربران این دستیار صوتی قدرتمند گوگل ارائه دهد.
فعالیتهای مختلفی در زمینهی کدنویسی پخش صدای طبیعیتر این دستیار صوتی صورت گرفته است. آیا میخواهید یک نمونهی عملی از این پروژه را بشنوید؟ به ویسهای زیر گوشی کنید.
قبل از ویرایش WaveNet
بعد از ویرایش WaveNet
WaveNet هم اکنون در زبانهای انگلیسی و ژاپنی ارائه شده و قطعا در آیندهای نزدیک تعداد زبانهای تحت پوشش افزایش خواهد یافت. تیم DeepMind کمپانی گوگل به مدت 12 ماه برای طراحی WaveNet زمان گذاشته تا بتواند فعالیت آن را بهبود بخشیده و سرعت پخش کلمات را افزایش دهد و در طول این مدت تمامی تلاش آنها بر این بوده که چگونه چنین سیستمی را به طور حرفهای طراحی کنند.
آیا برای شما این موضوع اهمیت دارد؟
چقدر صدارو از حالت ماشینی خارج کرد و این واقعاً ارزشمند