حساب کاربری ندارید؟ ثبت نام کنید

شیائومی از مدل رباتیک متن‌باز Xiaomi-Robotics-0 رونمایی کرد؛ رویای ساخت ربات خانگی محقق شد

نوشته

11 ساعت قبل | بدون دیدگاه | شیائومی، علوم رباتیک، هوش مصنوعی

شیائومی امروز ۱۲ فوریه (۲۳ بهمن ۱۴۰۴) به‌صورت رسمی از نخستین مدل «بینایی-زبانی-کنشی» (VLA) خود با نام مدل متن‌باز Xiaomi-Robotics-0 رونمایی کرد. این مدل با ۴.۷ میلیارد پارامتر، نه‌تنها درک بصری و زبانی را با اجرای درنگ (Real-Time) ترکیب می‌کند، بلکه با ماهیت متن‌باز خود به توسعه‌دهندگان اجازه می‌دهد تا ربات‌های هوشمند خود را بسازند.

خلاصه در یک نگاه:

🔹 انتشار مدل متن‌باز VLA با ۴.۷ میلیارد پارامتر
🔹 قابلیت اجرا روی کارت گرافیک‌های معمولی (Consumer-grade)
🔹 معماری دوگانه «مغز و مخچه» برای درک و اجرا
🔹 حل مشکل «کندذهنی» مدل در یادگیری حرکات
🔹 رکوردشکنی در بنچمارک‌های شبیه‌سازی و تست‌های واقعی

این مدل جدید استانداردهای SOTA (لبه تکنولوژی) را در بنچمارک‌های متعدد جابه‌جا کرده است. شیائومی با معرفی این مدل، شعار «ربات خود را بسازید» را محقق کرده و امکان دسترسی به هوش مصنوعی فیزیکی پیشرفته را برای طیف وسیع‌تری از کاربران و محققان فراهم آورده است.

معماری فنی: همکاری مغز و مخچه

برای ایجاد تعادل بین درک عمومی و کنترل دقیق حرکتی، مدل متن‌باز Xiaomi-Robotics-0 از معماری خاصی به نام «ترکیب ترنسفورمرها» (MoT) استفاده می‌کند. شیائومی این ساختار را به همکاری میان «مغز» و «مخچه» انسان تشبیه کرده است:

  • مغز بینایی-زبانی (VLM): این بخش بر پایه یک مدل چندوجهی ساخته شده و مسئولیت درک دستورات مبهم انسانی (مانند “لطفاً حوله را تا کن”) و تحلیل روابط فضایی از ورودی‌های تصویری با وضوح بالا را برعهده دارد.
  • مخچه اجرایی (Action Expert): برای تولید حرکات نرم و با فرکانس بالا، یک «ترنسفورمر انتشار» (DiT) چندلایه در مدل تعبیه شده است. این بخش به‌جای تولید یک حرکت تکی، یک «قطعه کنشی» (Action Chunk) تولید می‌کند و با فناوری تطبیق جریان (Flow-matching)، دقت و روانی حرکت را تضمین می‌کند.
ساختار درونی مدل Xiaomi-Robotics-0 در یک نگاه

ساختار درونی مدل Xiaomi-Robotics-0 در یک نگاه

استراتژی آموزش: جلوگیری از «کندذهنی» مدل

یکی از چالش‌های بزرگ مدل‌های VLA این است که هنگام یادگیری انجام کارهای فیزیکی، معمولاً قابلیت‌های درک عمومی خود را از دست می‌دهند؛ پدیده‌ای که به آن «کندذهنی» یا Dumbing Down می‌گویند. شیائومی با یک روش آموزش ترکیبی (Hybrid Training) این مشکل را حل کرده است:

  1. آموزش هم‌افزای VLM: مکانیزم «پیشنهاد کنش» (Action Proposal)، مدل زبانی را مجبور می‌کند تا هم‌زمان با درک تصاویر، توزیع حرکتی را نیز پیش‌بینی کند. این کار فضای ویژگی‌های مدل را با فضای حرکتی هم‌سو می‌کند.
  2. آموزش تخصصی DiT: در این مرحله، بخش VLM منجمد (Freeze) می‌شود و بخش اجرایی (DiT) آموزش می‌بیند تا توالی‌های دقیق حرکتی را از نویز بازیابی کند. این فرآیند کاملاً متکی‌بر ویژگی‌های کلید-مقدار (KV Features) برای تولید شرطی است.
ترکیب ۸۲ میلیون داده زبانی-بصری با ۲۰۴ میلیون داده حرکتی ربات

ترکیب ۸۲ میلیون داده زبانی-بصری با ۲۰۴ میلیون داده حرکتی ربات

اجرای روان و سخت‌افزار موردنیاز

شیائومی برای حل مشکل لرزش یا مکث در حرکت ربات‌ها که ناشی از تأخیر در پردازش است، از تکنیک «استنتاج ناهمگام» (Asynchronous Inference) استفاده کرده است. این روش فرآیند تفکر مدل را از اجرای ربات جدا می‌کند تا حرکات پیوسته باقی بمانند. همچنین یک ماسک توجه ویژه ($\Lambda$-shape Attention Mask) مدل را وادار می‌کند تا به‌جای تکیه‌بر اینرسی گذشته، روی بازخورد بصری لحظه‌ای تمرکز کند.

نکته هیجان‌انگیز ماجرا، بهینه‌سازی فوق‌العاده این مدل است. طبق اعلام رسمی، مدل متن‌باز Xiaomi-Robotics-0 قابلیت استنتاج درنگ (Real-Time) را روی کارت‌های گرافیک مصرفی و معمولی دارد و نیازی به سرورهای قدرتمند صنعتی نیست.

بنچمارک‌ها و عملکرد واقعی

برتری قاطع مدل شیائومی نسبت به رقبا در بنچمارک‌های LIBERO و CALVIN

برتری قاطع مدل شیائومی نسبت به رقبا در بنچمارک‌های LIBERO و CALVIN

در جدول زیر عملکرد این مدل در مقایسه با رقبا و تست‌های عملی آورده شده است:

بخش تست دستاوردها
شبیه‌سازی رتبه اول در میان ۳۰ مدل در بنچمارک‌های LIBERO، CALVIN و SimplerEnv
دنیای واقعی هماهنگی عالی چشم و دست در کارهای طولانی مثل باز کردن قطعات و تا کردن پارچه
سخت‌افزار اجرای روان روی GPUهای دسکتاپ معمولی
تست‌های واقعی: موفقیت در تا کردن حوله و جداسازی قطعات لگو

تست‌های واقعی: موفقیت در تا کردن حوله و جداسازی قطعات لگو

به‌نظر شما با متن‌باز شدن این مدل و امکان اجرای آن روی کامپیوترهای خانگی، آیا به‌زودی شاهد ساخت ربات‌های پیشخدمت توسط کاربران عادی خواهیم بود؟

اشتراک در
اطلاع از
0 Comments
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
رپورتاژ آگهی پربازده
رپورتاژ آگهی پربازده
ساحل عطایی