شیائومی بهتازگی اولین مدل زبانی بزرگ (LLM) هوش مصنوعی استدلالی خود با نام MiMo را رونمایی کرده است. این مدل ۷ میلیارد پارامتری، اولین مدل منبعباز این شرکت در حوزه تواناییهای استدلالی است و قادر به انجام وظایف پیچیده در زمینههای ریاضی و تولید کد است. عملکرد MiMo با مدلهای بزرگتری همچون o1-mini شرکت OpenAI و Qwen-32B-Preview علیبابا قابل مقایسه است.
درحالی که اغلب مدلهای مؤثر در زمینه استدلال از معماریهای بسیار بزرگتری مانند مدلهای ۳۲ میلیارد پارامتری استفاده میکنند، ارائه چنین قابلیتهایی در قالب یک مدل کوچک امری چالشبرانگیز است. شیائومی معتقد است که توانمندی MiMo در حل مسائل منطقی، مدیون استراتژیهای بهینهسازیشده قبل و بعد از آموزش است. این موضوع میتواند آن را به گزینه مناسبی برای استفاده در دستگاههای هوشمند و محیطهای کسبوکار با منابع محدود تبدیل کند.
فرآیند آموزش اولیه
استدلال منطقی در MiMo بر اساس یک فرآیند آموزش بهینهسازیشده استوار است. تیم توسعه شیائومی خط پیشپردازش دادهها را ارتقا داده، ابزارهای استخراج متن را بهبود بخشیده و از فیلترهای چندلایهای برای افزایش تراکم الگوهای استدلالی استفاده کرد.
در این فرآیند، مجموعهدادهای شامل ۲۰۰ میلیارد توکن استدلالی جمعآوری شده و از یک استراتژی سهمرحلهای برای مخلوط دادهها استفاده شده است. این مدل روی ۲۵ تریلیون توکن در طی سه مرحله پیشرو آموزش داده شده است. همچنین شیائومی از «پیشبینی چند واژهای» (Multiple-Token Prediction) بهعنوان هدف آموزشی برای افزایش کارایی و کاهش زمان پردازش استفاده میکند.
فرآیند آموزش ثانویه
در مرحله پس از آموزش، تیم شیائومی از یادگیری تقویتی (Reinforcement Learning) با استفاده از ۱۳۰,۰۰۰ مسئله ریاضی و برنامهنویسی استفاده کرده است. این مسائل از نظر دقت و سطح دشواری با استفاده از سیستمهای قاعدهمحور اعتبارسنجی شدهاند.
برای غلبه بر مشکل «پاداش نادر» در وظایف پیچیده، تیم این شرکت از سیستم «پاداش مبتنیبر سختی تست» (Test Difficulty Driven Reward) استفاده کرده و همچنین از «نمونهگیری مجدد دادههای آسان» (Easy Data Re-Sampling) برای پایداری بیشتر یادگیری تقویتی در مسائل سادهتر بهره برد.
برای شتابدهی در مراحل آموزش و اعتبارسنجی، شیائومی موتور «اجرای بیوقفه» (Seamless Rollout Engine) را معرفی کرده است که زمان عدم فعالیت GPU را کاهش میدهد. این سیستم باعث شده سرعت آموزش ۲.۲۹ برابر و سرعت اعتبارسنجی ۱.۹۶ برابر افزایش یابد. علاوهبر این، این موتور از «پیشبینی چند واژهای» در vLLM پشتیبانی میکند و پایداری سیستم یادگیری تقویتی را بهبود میدهد.
سری MiMo-7B شامل چهار نسخه مختلف است:
مدل MiMo-7B-RL در معیارهای مختلف عملکرد بسیار خوبی داشته است:
ریاضی:
برنامهنویسی:
عمومی:
کلیه مدلهای سری MiMo-7B بهصورت منبعباز منتشر شدهاند و در پلتفرم Hugging Face در دسترس عموم قرار دارند. گزارش فنی کامل و نقاط اجرایی مدل همراه با جزئیات آموزش و ارزیابی، در GitHub انتشار یافتهاند.
سخن پایانی
معرفی MiMo بهعنوان اولین مدل هوش مصنوعی منبعباز شیائومی، نویددهنده گسترش بیشتر تواناییهای هوش مصنوعی در مدلهای کوچکتر و قابل اجرا در دستگاههای با منابع محدود است. این دستاورد نشان از تعهد شیائومی در حوزه تحقیقاتی هوش مصنوعی دارد و میتواند نقطه شروعی برای همکاریهای بیشتر با جامعه توسعهدهندگان باشد.
نظر شما درباره اولین مدل هوش مصنوعی استدلالی منبعباز شیائومی چیست؟