شیائومی امروز ۱۲ فوریه (۲۳ بهمن ۱۴۰۴) بهصورت رسمی از نخستین مدل «بینایی-زبانی-کنشی» (VLA) خود با نام مدل متنباز Xiaomi-Robotics-0 رونمایی کرد. این مدل با ۴.۷ میلیارد پارامتر، نهتنها درک بصری و زبانی را با اجرای درنگ (Real-Time) ترکیب میکند، بلکه با ماهیت متنباز خود به توسعهدهندگان اجازه میدهد تا رباتهای هوشمند خود را بسازند.
🔹 انتشار مدل متنباز VLA با ۴.۷ میلیارد پارامتر
🔹 قابلیت اجرا روی کارت گرافیکهای معمولی (Consumer-grade)
🔹 معماری دوگانه «مغز و مخچه» برای درک و اجرا
🔹 حل مشکل «کندذهنی» مدل در یادگیری حرکات
🔹 رکوردشکنی در بنچمارکهای شبیهسازی و تستهای واقعی
این مدل جدید استانداردهای SOTA (لبه تکنولوژی) را در بنچمارکهای متعدد جابهجا کرده است. شیائومی با معرفی این مدل، شعار «ربات خود را بسازید» را محقق کرده و امکان دسترسی به هوش مصنوعی فیزیکی پیشرفته را برای طیف وسیعتری از کاربران و محققان فراهم آورده است.
برای ایجاد تعادل بین درک عمومی و کنترل دقیق حرکتی، مدل متنباز Xiaomi-Robotics-0 از معماری خاصی به نام «ترکیب ترنسفورمرها» (MoT) استفاده میکند. شیائومی این ساختار را به همکاری میان «مغز» و «مخچه» انسان تشبیه کرده است:

ساختار درونی مدل Xiaomi-Robotics-0 در یک نگاه
یکی از چالشهای بزرگ مدلهای VLA این است که هنگام یادگیری انجام کارهای فیزیکی، معمولاً قابلیتهای درک عمومی خود را از دست میدهند؛ پدیدهای که به آن «کندذهنی» یا Dumbing Down میگویند. شیائومی با یک روش آموزش ترکیبی (Hybrid Training) این مشکل را حل کرده است:

ترکیب ۸۲ میلیون داده زبانی-بصری با ۲۰۴ میلیون داده حرکتی ربات
شیائومی برای حل مشکل لرزش یا مکث در حرکت رباتها که ناشی از تأخیر در پردازش است، از تکنیک «استنتاج ناهمگام» (Asynchronous Inference) استفاده کرده است. این روش فرآیند تفکر مدل را از اجرای ربات جدا میکند تا حرکات پیوسته باقی بمانند. همچنین یک ماسک توجه ویژه ($\Lambda$-shape Attention Mask) مدل را وادار میکند تا بهجای تکیهبر اینرسی گذشته، روی بازخورد بصری لحظهای تمرکز کند.
نکته هیجانانگیز ماجرا، بهینهسازی فوقالعاده این مدل است. طبق اعلام رسمی، مدل متنباز Xiaomi-Robotics-0 قابلیت استنتاج درنگ (Real-Time) را روی کارتهای گرافیک مصرفی و معمولی دارد و نیازی به سرورهای قدرتمند صنعتی نیست.

برتری قاطع مدل شیائومی نسبت به رقبا در بنچمارکهای LIBERO و CALVIN
در جدول زیر عملکرد این مدل در مقایسه با رقبا و تستهای عملی آورده شده است:
| بخش تست | دستاوردها |
|---|---|
| شبیهسازی | رتبه اول در میان ۳۰ مدل در بنچمارکهای LIBERO، CALVIN و SimplerEnv |
| دنیای واقعی | هماهنگی عالی چشم و دست در کارهای طولانی مثل باز کردن قطعات و تا کردن پارچه |
| سختافزار | اجرای روان روی GPUهای دسکتاپ معمولی |

تستهای واقعی: موفقیت در تا کردن حوله و جداسازی قطعات لگو
بهنظر شما با متنباز شدن این مدل و امکان اجرای آن روی کامپیوترهای خانگی، آیا بهزودی شاهد ساخت رباتهای پیشخدمت توسط کاربران عادی خواهیم بود؟