شیائومی اولین مدل هوش مصنوعی استدلالی منبع‌باز خود با نام MiMo را رونمایی کرد

شیائومی به‌تازگی اولین مدل زبانی بزرگ (LLM) هوش مصنوعی استدلالی خود با نام MiMo را رونمایی کرده است. این مدل ۷ میلیارد پارامتری، اولین مدل منبع‌باز این شرکت در حوزه توانایی‌های استدلالی است و قادر به انجام وظایف پیچیده در زمینه‌های ریاضی و تولید کد است. عملکرد MiMo با مدل‌های بزرگتری همچون o1-mini شرکت OpenAI و Qwen-32B-Preview علی‌بابا قابل مقایسه است.

MiMo: اولین مدل هوش مصنوعی استدلالی متن‌باز شیائومی

درحالی که اغلب مدل‌های مؤثر در زمینه استدلال از معماری‌های بسیار بزرگتری مانند مدل‌های ۳۲ میلیارد پارامتری استفاده می‌کنند، ارائه چنین قابلیت‌هایی در قالب یک مدل کوچک امری چالش‌برانگیز است. شیائومی معتقد است که توانمندی MiMo در حل مسائل منطقی، مدیون استراتژی‌های بهینه‌سازی‌شده قبل و بعد از آموزش است. این موضوع می‌تواند آن را به گزینه مناسبی برای استفاده در دستگاه‌های هوشمند و محیط‌های کسب‌وکار با منابع محدود تبدیل کند.

فرآیند آموزش اولیه

استدلال منطقی در MiMo بر اساس یک فرآیند آموزش بهینه‌سازی‌شده استوار است. تیم توسعه شیائومی خط پیش‌پردازش داده‌ها را ارتقا داده، ابزارهای استخراج متن را بهبود بخشیده و از فیلترهای چندلایه‌ای برای افزایش تراکم الگوهای استدلالی استفاده کرد.

در این فرآیند، مجموعه‌داده‌ای شامل ۲۰۰ میلیارد توکن استدلالی جمع‌آوری شده و از یک استراتژی سه‌مرحله‌ای برای مخلوط داده‌ها استفاده شده است. این مدل روی ۲۵ تریلیون توکن در طی سه مرحله پیشرو آموزش داده شده است. همچنین شیائومی از «پیش‌بینی چند واژه‌ای» (Multiple-Token Prediction) به‌عنوان هدف آموزشی برای افزایش کارایی و کاهش زمان پردازش استفاده می‌کند.

اولین مدل هوش مصنوعی استدلالی متن‌باز شیائومی

فرآیند آموزش ثانویه

در مرحله پس از آموزش، تیم شیائومی از یادگیری تقویتی (Reinforcement Learning) با استفاده از ۱۳۰,۰۰۰ مسئله ریاضی و برنامه‌نویسی استفاده کرده است. این مسائل از نظر دقت و سطح دشواری با استفاده از سیستم‌های قاعده‌محور اعتبارسنجی شده‌اند.

برای غلبه بر مشکل «پاداش نادر» در وظایف پیچیده، تیم این شرکت از سیستم «پاداش مبتنی‌بر سختی تست» (Test Difficulty Driven Reward) استفاده کرده و همچنین از «نمونه‌گیری مجدد داده‌های آسان» (Easy Data Re-Sampling) برای پایداری بیشتر یادگیری تقویتی در مسائل ساده‌تر بهره برد.

برای شتاب‌دهی در مراحل آموزش و اعتبارسنجی، شیائومی موتور «اجرای بی‌وقفه» (Seamless Rollout Engine) را معرفی کرده است که زمان عدم فعالیت GPU را کاهش می‌دهد. این سیستم باعث شده سرعت آموزش ۲.۲۹ برابر و سرعت اعتبارسنجی ۱.۹۶ برابر افزایش یابد. علاوه‌بر این، این موتور از «پیش‌بینی چند واژه‌ای» در vLLM پشتیبانی می‌کند و پایداری سیستم یادگیری تقویتی را بهبود می‌دهد.

انواع مدل MiMo

سری MiMo-7B شامل چهار نسخه مختلف است:

MiMo-7B-Base: مدل پایه با ظرفیت بالای استدلال
MiMo-7B-RL-Zero: مدل یادگیری تقویت‌شده از مدل پایه
MiMo-7B-SFT: مدل ریز تنظیم‌شده تحت نظارت
MiMo-7B-RL: مدل یادگیری تقویت‌شده از مدل SFT با عملکردی برجسته که با o1-mini شرکت OpenAI قابل مقایسه است

عملکرد در بنچمارک‌های استاندارد

مدل MiMo-7B-RL در معیارهای مختلف عملکرد بسیار خوبی داشته است:

ریاضی:

MATH-500: دقت ۹۵.۸٪ (تک اجرا)
AIME 2024: دقت ۶۸.۲٪ (میانگین ۳۲ اجرا)
AIME 2025: دقت ۵۵.۴٪ (میانگین ۳۲ اجرا)

برنامه‌نویسی:

LiveCodeBench v5: دقت ۵۷.۸٪ (میانگین ۸ اجرا)
LiveCodeBench v6: دقت ۴۹.۳٪ (میانگین ۸ اجرا)

عمومی:

GPQA Diamond: دقت ۵۴.۴٪ (میانگین ۸ اجرا)
SuperGPQA: دقت ۴۰.۵٪ (تک اجرا)
DROP (3-shot F1): دقت ۷۸.۷٪
MMLU-Pro (Exact Match): دقت ۵۸.۶٪
IF-Eval (Prompt Strict): دقت ۶۱.۰٪ (میانگین ۸ اجرا)

در دسترس بودن

کلیه مدل‌های سری MiMo-7B به‌صورت منبع‌باز منتشر شده‌اند و در پلتفرم Hugging Face در دسترس عموم قرار دارند. گزارش فنی کامل و نقاط اجرایی مدل همراه با جزئیات آموزش و ارزیابی، در GitHub انتشار یافته‌اند.

سخن پایانی

معرفی MiMo به‌عنوان اولین مدل هوش مصنوعی منبع‌باز شیائومی، نویددهنده گسترش بیشتر توانایی‌های هوش مصنوعی در مدل‌های کوچکتر و قابل اجرا در دستگاه‌های با منابع محدود است. این دستاورد نشان از تعهد شیائومی در حوزه تحقیقاتی هوش مصنوعی دارد و می‌تواند نقطه شروعی برای همکاری‌های بیشتر با جامعه توسعه‌دهندگان باشد.

نظر شما درباره اولین مدل هوش مصنوعی استدلالی منبع‌باز شیائومی چیست؟