گوگل اخیراً از Gemini 3.5 Live Translate، مدل جدید ترجمه صوتی مبتنیبر هوش مصنوعی، رونمایی کرده است. این فناوری برای ترجمه همزمان گفتار به گفتار طراحی شده و میتواند مکالمات چندزبانه را بهصورت طبیعی، پیوسته و با حفظ ویژگیهای صوتی گوینده ترجمه کند. به گفته گوگل، سیستمهای ترجمه این شرکت اکنون ماهانه بیش از یک تریلیون کلمه را در محصولات مختلف پردازش میکنند و Gemini 3.5 Live Translate گام بعدی این شرکت برای بهبود ارتباطات چندزبانه در لحظه محسوب میشود.
🔷 گوگل مدل Gemini 3.5 Live Translate را برای ترجمه صوتی همزمان معرفی کرد.
🔷 این سیستم از بیش از 70 زبان بهصورت خودکار پشتیبانی میکند.
🔷 ترجمه در حین صحبت کاربر انجام میشود و نیازی به پایان جمله نیست.
🔷 لحن، سرعت بیان و زیر و بمی صدای گوینده در ترجمه حفظ میشود.
🔷 قابلیت جدید به Google Meet و اپلیکیشن Google Translate اضافه میشود.
🔷 توسعهدهندگان میتوانند از طریق Gemini Live API به این فناوری دسترسی داشته باشند.
🔷 تمامی خروجیهای صوتی دارای واترمارک SynthID برای شناسایی محتوای تولیدشده توسط هوش مصنوعی هستند.
برخلاف سیستمهای سنتی ترجمه که معمولاً منتظر پایان جمله میمانند، Gemini 3.5 Live Translate بهصورت پیوسته و همزمان گفتار را ترجمه میکند.
این مدل در حالی که فرد هنوز در حال صحبت کردن است، ترجمه را تولید میکند و تنها چند ثانیه تأخیر دارد تا بتواند مفهوم جمله را بهدرستی درک کرده و خروجی طبیعیتری ارائه دهد.
گوگل این فناوری را برای سناریوهای ارتباطی زنده توسعه داده است؛ از جمله:
به گفته گوگل، این مدل میتواند تجربهای نزدیک به حضور یک مترجم همزمان را برای کاربران فراهم کند.
گوگل دسترسی به این فناوری را از طریق Gemini Live API و Google AI Studio در اختیار توسعهدهندگان قرار داده است.
پلتفرمهایی مانند Agora ،Fishjam ،LiveKit ،Pipecat و Vision Agents در حال ادغام این فناوری هستند تا سرویسهای ترجمه صوتی و ارتباطات چندزبانه بلادرنگ را ارائه دهند.
همچنین شرکت Grab در حال آزمایش این مدل برای تسهیل ارتباط میان رانندگان و مسافران است. این پلتفرم ماهانه بیش از 10 میلیون تماس صوتی را مدیریت میکند.
Gemini 3.5 Live Translate بهزودی وارد Google Meet نیز خواهد شد و قابلیتهای ترجمه زنده جلسات را به شکل قابل توجهی ارتقا میدهد.
مهمترین تغییرات شامل:
این قابلیت از خرداد 1405 بهصورت آزمایشی برای برخی مشتریان سازمانی Google Workspace عرضه میشود و انتشار گستردهتر آن در ادامه سال انجام خواهد شد.
گوگل همچنین اعلام کرده که Gemini 3.5 Live Translate بهصورت جهانی در اپلیکیشن Google Translate برای اندروید و iOS عرضه خواهد شد.
از جمله قابلیتهای جدید این نسخه میتوان به موارد زیر اشاره کرد:
گوگل ویژگی جدیدی با نام Listening Mode را نیز برای کاربران اندروید معرفی کرده است.
در این حالت کاربران میتوانند گوشی را مانند یک تماس تلفنی کنار گوش خود قرار دهند و ترجمه صوتی مستقیماً از طریق بلندگوی مکالمه دستگاه پخش شود. این قابلیت برای شرایطی که هدفون در دسترس نیست یا کاربر به شنیدن خصوصیتر ترجمه نیاز دارد طراحی شده است.
تمامی صداهای تولیدشده توسط Gemini 3.5 Live Translate به فناوری SynthID مجهز هستند. این فناوری یک واترمارک نامرئی را در فایل صوتی قرار میدهد تا امکان شناسایی محتوای تولیدشده توسط هوش مصنوعی فراهم شود.
گوگل میگوید این اقدام با هدف افزایش شفافیت و کاهش خطر سوءاستفاده از محتوای تولیدشده توسط هوش مصنوعی انجام شده است.
| پلتفرم | وضعیت عرضه |
|---|---|
| Gemini Live API و Google AI Studio | پیشنمایش عمومی برای توسعهدهندگان |
| Google Meet | پیشنمایش محدود برای مشتریان Workspace |
| Google Translate | عرضه جهانی برای اندروید و iOS |
| اندروید | افزوده شدن Listening Mode |
Gemini 3.5 Live Translate یکی از مهمترین پیشرفتهای گوگل در حوزه ترجمه مبتنی بر هوش مصنوعی به شمار میرود. توانایی ترجمه همزمان بیش از 70 زبان، حفظ لحن و ویژگیهای صوتی گوینده، تأخیر کم و ادغام با سرویسهایی مانند Google Meet و Google Translate میتواند تجربه ارتباطات چندزبانه را به سطح جدیدی برساند.
به نظر شما ترجمه همزمان مبتنیبر هوش مصنوعی تا چه اندازه میتواند جای مترجمان انسانی را در جلسات و مکالمات بینالمللی بگیرد؟