مدل رانندگی خودکار شیائومی Xiaomi OneVL به صورت منبع‌باز منتشر شد

شیائومی، مدل جدید Xiaomi OneVL را به‌طور رسمی منتشر و منبع‌باز (Open Source) کرده است. این یک سیستم طراحی‌شده برای بهبود نحوه درک، استدلال و پیش‌بینی موقعیت‌های جاده‌ای توسط مدل‌های رانندگی خودکار است. به‌گفته این شرکت، OneVL نخستین چارچوب در صنعت است که چندین فناوری بزرگ را در یک سیستم واحد ترکیب می‌کند: VLA (بینایی-زبان-عمل)، مدل‌های جهانی (World Models) و استنتاج فضای نهان (Latent Space Inference).

خلاصه در یک نگاه

🔹شیائومی مدل Xiaomi OneVL را منبع‌باز کرد؛ نخستین سیستمی که VLA، مدل‌های جهانی و استنتاج فضای نهان را در یک معماری واحد ترکیب می‌کند.
🔹این چارچوب با یکپارچه‌سازی دو رویکرد VLA (تمرکز بر درک صحنه و تولید اقدامات رانندگی) و مدل‌های جهانی (پیش‌بینی تحول صحنه) از طریق استدلال فضای نهان، عملکرد قدرتمندی در معیارهای ادراک، استدلال و برنامه‌ریزی ارائه می‌دهد.
🔹مدل OneVL می‌تواند فرایند تصمیم‌گیری خود را هم به‌صورت زبانی و هم بصری توضیح دهد؛ برای مثال توضیح دهد چرا یک خودرو باید اقدام رانندگی خاصی انجام دهد و هم‌زمان پیش‌بینی‌هایی از اتفاقات بعدی جاده نشان دهد.
🔹این اقدام در ادامه روند منبع‌باز کردن مدل‌های هوش مصنوعی توسط شیائومی، ازجمله مدل تولید صدای Omnivoice، صورت می‌گیرد و موقعیت این شرکت را در فضای هوش مصنوعی و حمل‌ونقل هوشمند تقویت می‌کند.

مدل رانندگی خودکار شیائومی

ترکیب VLA و مدل‌های جهانی در یک سیستم واحد

در پژوهش‌های رانندگی خودکار، VLA و مدل‌های جهانی معمولاً به‌عنوان رویکردهای جداگانه در نظر گرفته می‌شدند. سیستم‌های VLA عمدتاً بر درک صحنه‌های ترافیکی و تولید اقدامات رانندگی تمرکز دارند، درحالی‌که مدل‌های جهانی پیش‌بینی می‌کنند که یک صحنه چگونه ممکن است تحول یابد.

شیائومی می‌گوید OneVL نخستین مدلی است که هر دو روش را از طریق استدلال فضای نهان یکپارچه می‌کند. این شرکت همچنین ادعا دارد که این چارچوب در چندین معیار اصلی (Benchmarks) برای ادراک، استدلال و برنامه‌ریزی عملکرد قدرتمندی از خود نشان می‌دهد.

این شرکت ادعا می‌کند OneVL محدودیت‌های روش‌های استنتاج نهان را جابه‌جا می‌کند و دقتی بالاتر از استدلال زنجیره‌ای صریح (Chain-of-Thought/CoT) ارائه می‌دهد، درحالی‌که سرعتی مشابه با سیستم‌های CoT فضای نهان که تنها بر پیش‌بینی پاسخ‌های نهایی تمرکز دارند را حفظ می‌کند.

قابلیت تفسیرپذیری و موقعیت‌یابی در بازار

یکی دیگر از تمرکزهای اصلی این چارچوب، تفسیرپذیری (Interpretability) است. شیائومی می‌گوید OneVL می‌تواند فرایند تصمیم‌گیری خود را هم به‌صورت زبانی و هم بصری توضیح دهد.

ازنظر عملی، این بدان‌معناست که سیستم می‌تواند توضیح دهد چرا یک خودرو باید اقدام رانندگی خاصی انجام دهد، درحالی‌که هم‌زمان پیش‌بینی‌هایی از آنچه ممکن است در جاده اتفاق بیفتد را نیز نشان می‌دهد.

این اقدام درست پس از آن صورت می‌گیرد که شیائومی اخیراً مدل تولید صدای خود به نام Omnivoice را نیز منبع‌باز کرده بود. با منبع‌باز کردن OneVL، شیائومی همچنین موقعیت خود را در فضای گسترده‌تر هوش مصنوعی و حمل‌ونقل هوشمند – حوزه‌هایی که رقابت در آن‌ها میان شرکت‌های بزرگ فناوری به‌طور مداوم افزایش یافته – تهاجمی‌تر تثبیت می‌کند.

به‌نظر شما آیا منبع‌باز کردن چارچوب‌های پیشرفته‌ای مانند OneVL می‌تواند استانداردهای صنعت رانندگی خودکار را متحول کند یا شرکت‌های رقیب همچنان به توسعه انحصاری فناوری‌های خود ادامه خواهند داد؟

منبع