شیائومی، مدل جدید Xiaomi OneVL را بهطور رسمی منتشر و منبعباز (Open Source) کرده است. این یک سیستم طراحیشده برای بهبود نحوه درک، استدلال و پیشبینی موقعیتهای جادهای توسط مدلهای رانندگی خودکار است. بهگفته این شرکت، OneVL نخستین چارچوب در صنعت است که چندین فناوری بزرگ را در یک سیستم واحد ترکیب میکند: VLA (بینایی-زبان-عمل)، مدلهای جهانی (World Models) و استنتاج فضای نهان (Latent Space Inference).
🔹شیائومی مدل Xiaomi OneVL را منبعباز کرد؛ نخستین سیستمی که VLA، مدلهای جهانی و استنتاج فضای نهان را در یک معماری واحد ترکیب میکند.
🔹این چارچوب با یکپارچهسازی دو رویکرد VLA (تمرکز بر درک صحنه و تولید اقدامات رانندگی) و مدلهای جهانی (پیشبینی تحول صحنه) از طریق استدلال فضای نهان، عملکرد قدرتمندی در معیارهای ادراک، استدلال و برنامهریزی ارائه میدهد.
🔹مدل OneVL میتواند فرایند تصمیمگیری خود را هم بهصورت زبانی و هم بصری توضیح دهد؛ برای مثال توضیح دهد چرا یک خودرو باید اقدام رانندگی خاصی انجام دهد و همزمان پیشبینیهایی از اتفاقات بعدی جاده نشان دهد.
🔹این اقدام در ادامه روند منبعباز کردن مدلهای هوش مصنوعی توسط شیائومی، ازجمله مدل تولید صدای Omnivoice، صورت میگیرد و موقعیت این شرکت را در فضای هوش مصنوعی و حملونقل هوشمند تقویت میکند.
در پژوهشهای رانندگی خودکار، VLA و مدلهای جهانی معمولاً بهعنوان رویکردهای جداگانه در نظر گرفته میشدند. سیستمهای VLA عمدتاً بر درک صحنههای ترافیکی و تولید اقدامات رانندگی تمرکز دارند، درحالیکه مدلهای جهانی پیشبینی میکنند که یک صحنه چگونه ممکن است تحول یابد.
شیائومی میگوید OneVL نخستین مدلی است که هر دو روش را از طریق استدلال فضای نهان یکپارچه میکند. این شرکت همچنین ادعا دارد که این چارچوب در چندین معیار اصلی (Benchmarks) برای ادراک، استدلال و برنامهریزی عملکرد قدرتمندی از خود نشان میدهد.
این شرکت ادعا میکند OneVL محدودیتهای روشهای استنتاج نهان را جابهجا میکند و دقتی بالاتر از استدلال زنجیرهای صریح (Chain-of-Thought/CoT) ارائه میدهد، درحالیکه سرعتی مشابه با سیستمهای CoT فضای نهان که تنها بر پیشبینی پاسخهای نهایی تمرکز دارند را حفظ میکند.
یکی دیگر از تمرکزهای اصلی این چارچوب، تفسیرپذیری (Interpretability) است. شیائومی میگوید OneVL میتواند فرایند تصمیمگیری خود را هم بهصورت زبانی و هم بصری توضیح دهد.
ازنظر عملی، این بدانمعناست که سیستم میتواند توضیح دهد چرا یک خودرو باید اقدام رانندگی خاصی انجام دهد، درحالیکه همزمان پیشبینیهایی از آنچه ممکن است در جاده اتفاق بیفتد را نیز نشان میدهد.
این اقدام درست پس از آن صورت میگیرد که شیائومی اخیراً مدل تولید صدای خود به نام Omnivoice را نیز منبعباز کرده بود. با منبعباز کردن OneVL، شیائومی همچنین موقعیت خود را در فضای گستردهتر هوش مصنوعی و حملونقل هوشمند – حوزههایی که رقابت در آنها میان شرکتهای بزرگ فناوری بهطور مداوم افزایش یافته – تهاجمیتر تثبیت میکند.
بهنظر شما آیا منبعباز کردن چارچوبهای پیشرفتهای مانند OneVL میتواند استانداردهای صنعت رانندگی خودکار را متحول کند یا شرکتهای رقیب همچنان به توسعه انحصاری فناوریهای خود ادامه خواهند داد؟