گوگل با Gemini Robotics هوش مصنوعی را وارد دنیای فیزیکی ربات‌ها می‌کند

امروز، بخش گوگل DeepMind در خبر رسمی اعلام کرد که Gemini Robotics را راه‌اندازی کرده است تا هوش مصنوعی جمنای را به دنیای فیزیکی و ربات‌های هدف‌دار بیاورد. این مدل‌های جدید قادر به انجام «دامنه‌ای گسترده‌تر از وظایف دنیای واقعی» هستند، بیشتر از هر زمان دیگری.

گوگل Gemini Robotics

برای اینکه هوش مصنوعی در دنیای فیزیکی مفید و کمک‌کننده باشد، باید توانایی «استدلال جسمانی» را نشان دهد، توانایی انسان‌مانند برای درک و واکنش به دنیای اطراف ما و همچنین اقدامات ایمنی برای انجام وظایف مختلف.

هدف این است که ربات‌های عمومی ساخته شوند. ساندار پیچای، مدیرعامل گوگل، افزود که این شرکت همیشه رباتیک را «زمینه‌ای مفید برای آزمایش ترجمه پیشرفت‌های هوش مصنوعی به دنیای فیزیکی» درنظر گرفته است.

Gemini Robotics یک مدل Vision-Language-Action (VLA) است که بر پایه Gemini 2.0 ساخته شده و قابلیت جدید اعمال فیزیکی به‌عنوان یک حالت خروجی برای کنترل مستقیم ربات‌ها به آن اضافه شده است.

پیش از این، گوگل سه ویژگی اصلی برای مدل‌های هوش مصنوعی رباتیک تعیین کرده بود:

عمومیت (Generality):
«قابلیت تطبیق با موقعیت‌های مختلف»
- Gemini Robotics در مقابله با اشیاء جدید، دستورالعمل‌های متنوع و محیط‌های جدید، ماهر است، ازجمله وظایفی که هرگز در مرحله آموزش تجربه نکرده است، با استفاده از درک عمیق از دنیای زیربنایی Gemini.
تعامل‌پذیری (Interactivity):
«”درک و پاسخ سریع به دستورالعمل‌ها یا تغییرات در محیط»
- مدل جدید گوگل می‌تواند به دستوراتی که به زبان روزمره و محاوره‌ای و حتی به زبان‌های مختلف بیان می‌شوند، پاسخ دهد.
مهارت دستی (Dexterity):
«قادر به انجام کارهایی است که انسان‌ها معمولاً با دستان و انگشتان خود انجام می‌دهند، مانند دستکاری دقیق اشیاء.»
- Gemini Robotics می‌تواند وظایف بسیار پیچیده و چندمرحله‌ای را که نیاز به دستکاری دقیق دارند، مانند تاکردن اوریگامی یا قرار دادن یک تنقلات در کیسه زیپ‌دار، انجام دهد.

گوگل Gemini Robotics

Gemini Robotics-ER: درک مکانی پیشرفته

گوگل همچنین مدل Gemini Robotics-ER (استدلال جسمانی) را معرفی کرده است که درک مکانی پیشرفته‌تری از دنیا دارد و به‌ویژه بر استدلال مکانی تمرکز می‌کند. این مدل به متخصصان رباتیک اجازه می‌دهد آن را به کنترل‌کننده‌های سطح پایین موجود خود متصل کنند.

به‌عنوان‌مثال:

«هنگامی که یک فنجان قهوه به مدل نشان داده می‌شود، می‌تواند نوعی گرفتن مناسب با دو انگشت برای بلند کردن آن از دسته و یک مسیر ایمن برای نزدیک شدن به آن را تشخیص دهد.»

اجرا روی ربات‌های مختلف

این مدل‌ها روی انواع مختلف ربات‌ها اجرا می‌شوند، ازجمله ربات‌های دو‌بازو و ربات‌های انسان‌نما. شرکت‌های معتبری مانند Agile Robots ،Agility Robotics ،Boston Dynamics و Enchanted Tools به‌عنوان تست‌کنندگان اعتمادشده درحال استفاده از این فناوری هستند.

سخن پایانی

Gemini Robotics نشان‌دهنده گامی بزرگ در ترکیب هوش مصنوعی و رباتیک است. این مدل‌ها با ترکیب درک دنیای فیزیکی، تعامل‌پذیری و مهارت دستی، قادر به انجام وظایف پیچیده در دنیای واقعی هستند. این پیشرفت می‌تواند به توسعه ربات‌های عمومی کمک کند که در زندگی روزمره مفید و کاربردی باشند.

دیدگاه شما درباره ورود هوش مصنوعی در دنیای واقعی و ساخت ربات‌هایی با قابلیت درک از محیط اطراف چیست؟