حساب کاربری ندارید؟ ثبت نام کنید

گوگل از Gemini 3.5 Live Translate رونمایی کرد؛ ترجمه صوتی همزمان با حفظ لحن و صدای گوینده

نوشته

2 ساعت قبل | بدون دیدگاه | گوگل، هوش مصنوعی

گوگل اخیراً از Gemini 3.5 Live Translate، مدل جدید ترجمه صوتی مبتنی‌بر هوش مصنوعی، رونمایی کرده است. این فناوری برای ترجمه همزمان گفتار به گفتار طراحی شده و می‌تواند مکالمات چندزبانه را به‌صورت طبیعی، پیوسته و با حفظ ویژگی‌های صوتی گوینده ترجمه کند. به گفته گوگل، سیستم‌های ترجمه این شرکت اکنون ماهانه بیش از یک تریلیون کلمه را در محصولات مختلف پردازش می‌کنند و Gemini 3.5 Live Translate گام بعدی این شرکت برای بهبود ارتباطات چندزبانه در لحظه محسوب می‌شود.

خلاصه خبر در یک نگاه

🔷 گوگل مدل Gemini 3.5 Live Translate را برای ترجمه صوتی همزمان معرفی کرد.

🔷 این سیستم از بیش از 70 زبان به‌صورت خودکار پشتیبانی می‌کند.

🔷 ترجمه در حین صحبت کاربر انجام می‌شود و نیازی به پایان جمله نیست.

🔷 لحن، سرعت بیان و زیر و بمی صدای گوینده در ترجمه حفظ می‌شود.

🔷 قابلیت جدید به Google Meet و اپلیکیشن Google Translate اضافه می‌شود.

🔷 توسعه‌دهندگان می‌توانند از طریق Gemini Live API به این فناوری دسترسی داشته باشند.

🔷 تمامی خروجی‌های صوتی دارای واترمارک SynthID برای شناسایی محتوای تولیدشده توسط هوش مصنوعی هستند.

Gemini 3.5 Live Translate چگونه کار می‌کند؟

برخلاف سیستم‌های سنتی ترجمه که معمولاً منتظر پایان جمله می‌مانند، Gemini 3.5 Live Translate به‌صورت پیوسته و همزمان گفتار را ترجمه می‌کند.

این مدل در حالی که فرد هنوز در حال صحبت کردن است، ترجمه را تولید می‌کند و تنها چند ثانیه تأخیر دارد تا بتواند مفهوم جمله را به‌درستی درک کرده و خروجی طبیعی‌تری ارائه دهد.

مهم‌ترین قابلیت‌های Gemini 3.5 Live Translate

  • تشخیص خودکار بیش از 70 زبان مختلف
  • ترجمه همزمان گفتار بدون نیاز به پایان یافتن جمله
  • حفظ لحن، ریتم گفتار و زیر و بمی صدا
  • تأخیر بسیار کم در تولید ترجمه
  • مقاومت بالا در برابر نویز و صداهای محیطی
  • عدم نیاز به انتخاب دستی زبان مبدأ و مقصد
  • تجربه صوتی روان و بدون مکث‌های غیرطبیعی

کاربردهای Gemini 3.5 Live Translate

گوگل این فناوری را برای سناریوهای ارتباطی زنده توسعه داده است؛ از جمله:

  • جلسات کاری بین‌المللی
  • مکالمات تلفنی چندزبانه
  • کلاس‌های آموزشی آنلاین
  • پخش زنده و رویدادها
  • سیستم‌های ترجمه همزمان
  • دوبله زنده محتواهای صوتی و تصویری

به گفته گوگل، این مدل می‌تواند تجربه‌ای نزدیک به حضور یک مترجم همزمان را برای کاربران فراهم کند.

گوگل Gemini 3.5 Live Translate

گوگل Gemini 3.5 Live Translate

پشتیبانی از توسعه‌دهندگان و سرویس‌های شخص ثالث

گوگل دسترسی به این فناوری را از طریق Gemini Live API و Google AI Studio در اختیار توسعه‌دهندگان قرار داده است.

پلتفرم‌هایی مانند Agora ،Fishjam ،LiveKit ،Pipecat و Vision Agents در حال ادغام این فناوری هستند تا سرویس‌های ترجمه صوتی و ارتباطات چندزبانه بلادرنگ را ارائه دهند.

همچنین شرکت Grab در حال آزمایش این مدل برای تسهیل ارتباط میان رانندگان و مسافران است. این پلتفرم ماهانه بیش از 10 میلیون تماس صوتی را مدیریت می‌کند.

ارتقای ترجمه همزمان در Google Meet

Gemini 3.5 Live Translate به‌زودی وارد Google Meet نیز خواهد شد و قابلیت‌های ترجمه زنده جلسات را به شکل قابل توجهی ارتقا می‌دهد.

مهم‌ترین تغییرات شامل:

  • پشتیبانی از بیش از 70 زبان مختلف
  • امکان ایجاد بیش از 2000 ترکیب زبانی در یک جلسه
  • رابط کاربری جدید برای دسترسی سریع‌تر به ابزارهای ترجمه
  • بهبود تجربه ترجمه همزمان در جلسات آنلاین

این قابلیت از خرداد 1405 به‌صورت آزمایشی برای برخی مشتریان سازمانی Google Workspace عرضه می‌شود و انتشار گسترده‌تر آن در ادامه سال انجام خواهد شد.

قابلیت‌های جدید در Google Translate

گوگل همچنین اعلام کرده که Gemini 3.5 Live Translate به‌صورت جهانی در اپلیکیشن Google Translate برای اندروید و iOS عرضه خواهد شد.

از جمله قابلیت‌های جدید این نسخه می‌توان به موارد زیر اشاره کرد:

  • ترجمه مکالمات زنده با حفظ لحن اصلی گوینده
  • پشتیبانی از بیش از 70 زبان در حالت مکالمه
  • تولید صدای طبیعی‌تر و نزدیک‌تر به نحوه صحبت فرد اصلی

حالت Listening Mode در اندروید

گوگل ویژگی جدیدی با نام Listening Mode را نیز برای کاربران اندروید معرفی کرده است.

در این حالت کاربران می‌توانند گوشی را مانند یک تماس تلفنی کنار گوش خود قرار دهند و ترجمه صوتی مستقیماً از طریق بلندگوی مکالمه دستگاه پخش شود. این قابلیت برای شرایطی که هدفون در دسترس نیست یا کاربر به شنیدن خصوصی‌تر ترجمه نیاز دارد طراحی شده است.

واترمارک SynthID برای افزایش شفافیت

تمامی صداهای تولیدشده توسط Gemini 3.5 Live Translate به فناوری SynthID مجهز هستند. این فناوری یک واترمارک نامرئی را در فایل صوتی قرار می‌دهد تا امکان شناسایی محتوای تولیدشده توسط هوش مصنوعی فراهم شود.

گوگل می‌گوید این اقدام با هدف افزایش شفافیت و کاهش خطر سوءاستفاده از محتوای تولیدشده توسط هوش مصنوعی انجام شده است.

زمان عرضه Gemini 3.5 Live Translate

پلتفرم وضعیت عرضه
Gemini Live API و Google AI Studio پیش‌نمایش عمومی برای توسعه‌دهندگان
Google Meet پیش‌نمایش محدود برای مشتریان Workspace
Google Translate عرضه جهانی برای اندروید و iOS
اندروید افزوده شدن Listening Mode

جمع‌بندی

Gemini 3.5 Live Translate یکی از مهم‌ترین پیشرفت‌های گوگل در حوزه ترجمه مبتنی بر هوش مصنوعی به شمار می‌رود. توانایی ترجمه همزمان بیش از 70 زبان، حفظ لحن و ویژگی‌های صوتی گوینده، تأخیر کم و ادغام با سرویس‌هایی مانند Google Meet و Google Translate می‌تواند تجربه ارتباطات چندزبانه را به سطح جدیدی برساند.

به نظر شما ترجمه همزمان مبتنی‌بر هوش مصنوعی تا چه اندازه می‌تواند جای مترجمان انسانی را در جلسات و مکالمات بین‌المللی بگیرد؟

اشتراک در
اطلاع از
0 Comments
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
رپورتاژ آگهی پربازده
رپورتاژ آگهی پربازده
امیرحسین ملکی