شرکت OpenAI بهتازگی دو مدل جدید خود، o3 و o4-mini، را بهعنوان پیشرفتهترین مدلهای استدلالی هوش مصنوعی خود معرفی کرده است. این مدلها بهبودهای قابلتوجهی در استفاده از ابزارها، استدلال چندوجهی، عملکرد و ایمنی ارائه میدهند. هر دو مدل از تاریخ ۱۶ آوریل ۲۰۲۵ (۲۷ فروردین) در ChatGPT و ازطریق API در دسترس هستند.
OpenAI این دو مدل را بهعنوان «هوشمندترین مدلهایی که تاکنون منتشر شدهاند» توصیف کرده است. این مدلها یک پرش بزرگ در تواناییها برای «همه افراد، از کاربران کنجکاو تا محققان پیشرفته» بهحساب میآیند.
ویژگیهای کلیدی:
o3 پیشرفتهترین مدل استدلالی OpenAI است که در زمینههایی مانند کدنویسی، علوم، ریاضیات و تحلیل بصری مرزهای جدیدی را تعیین کرده است. این مدل در معیارهای مختلفی مانند Codeforces SWE-bench (بدون قالببندی سفارشی) و MMMU نمرات State-of-the-Art (SOTA) ثبت کرده است.
مدل o4-mini برای استدلال سریع و مقرونبهصرفه طراحی شده است و در زمینههای ریاضیات، کدنویسی و وظایف بصری عملکرد قوی دارد. این مدل در معیارهای AIME 2024 و 2025 بالاترین امتیاز را کسب کرده است.
برای اولین بار، این مدلها میتوانند ابزارهای مختلفی را در ChatGPT ترکیب کنند، از جمله:
این مدلها میتوانند زمان و نحوه استفاده از ابزارها را بهطور موثر تصمیمگیری کنند. بهعنوانمثال، برای پاسخ به سؤالی مانند «مصرف انرژی تابستانی در کالیفرنیا نسبت به سال گذشته چگونه خواهد بود؟»، این مدل میتواند:
این رویکرد چندمرحلهای انعطافپذیر، استدلال با دادههای بهروز، ترکیب اطلاعات در فرمتهای مختلف و پاسخهای غنی و بصری را فراهم میکند.
یکی از پیشرفتهای اصلی این مدلها، توانایی «تفکر با تصاویر» است. این مدلها میتوانند عکسهای مبهم، نمودارها و حتی طرحهای دستی را بهعنوان بخشی از زنجیره استدلال خود تفسیر کنند. همچنین میتوانند تصاویر را بهصورت پویا (چرخش، زوم و غیره) دستکاری کنند تا فرآیند تفکر خود را پشتیبانی کنند.
این ویژگی عملکرد را در معیارهای چندوجهی بهبود میبخشد و مشکلاتی را که قبلاً غیرقابل حل بودند، قابل دسترس میکند.
OpenAI اعلام کرده است که هر دو مدل o3 و o4-mini عملکرد و هزینه بهتری نسبت به نسخههای قبلی دارند:
این شرکت انتظار دارد که این مدلها در اکثر موارد استفاده دنیای واقعی هوشمندتر و کارآمدتر باشند.
OpenAI اشاره کرد که آموزش o3 از همان روند محاسبات بیشتر = عملکرد بهتر که در پیشآموزش مدلهای سری GPT دیده میشود، پیروی کرده است. با مقیاسبندی یادگیری تقویتی (RL)، آنها به سطح جدیدی از استدلال در زمان استنتاج رسیدهاند. اجازه دادن به o3 برای تفکر طولانیتر عملکرد آن را بیشتر افزایش میدهد.
این مدلها نهتنها یاد گرفتهاند که چگونه از ابزارها استفاده کنند، بلکه یاد گرفتهاند که چه زمانی از آنها استفاده کنند، که این موضوع عملکرد آنها را در فرآیندهای باز و بصری بهبود میبخشد.
OpenAI دادههای آموزش ایمنی خود را بازسازی کرده و پیامهای رد در حوزههای حساس مانند:
را اضافه کرده است. مدلهای o3 و o4-mini در معیارهای داخلی نیز عملکرد عالی داشتهاند. یک مانیتور مبتنیبر LLM که با استفاده از مشخصات ایمنی نوشتهشده توسط انسان آموزش داده شده است، ۹۹٪ از مکالمات مرتبط با biorisk را در تستهای قرمز شناسایی کرده است.
هر دو مدل تحت چارچوب آمادگی OpenAI در حوزههای زیر آزمایش شدند:
نتایج نشان داد که هر دو مدل در تمام دستهها زیر آستانه «ریسک بالا» قرار دارند.
OpenAI همچنین Codex CLI را معرفی کرده است، یک آزمایش جدید که به کاربران امکان میدهد مدلهای استدلالی مانند o3 و o4-mini را ازطریق ترمینال اجرا کنند. این ابزار از ورودیهای چندوجهی (مانند عکسها یا طرحها) و دسترسی مستقیم به کدهای محلی پشتیبانی میکند.
Codex CLI بهصورت متنباز در github.com/openai/codex موجود است و OpenAI یک برنامه کمک مالی ۱ میلیون دلاری را با حمایت ۲۵٬۰۰۰ دلار اعتبار API برای پروژههایی که از آن استفاده میکنند، راهاندازی کرده است.
از تاریخ ۱۶ آوریل ۲۰۲۵، مدلهای o3 و o4-mini (از جمله o4-mini-high) در دسترس هستند:
کاربران رایگان میتوانند o4-mini را با انتخاب گزینه Think قبل از ارسال پرسش تجربه کنند. محدودیتهای استفاده بدون تغییر باقی میماند.
توسعهدهندگان میتوانند به هر دو مدل از طریق:
دسترسی داشته باشند. OpenAI برنامهریزی کرده است که o3-pro با پشتیبانی کامل از ابزارها را در هفتههای آینده منتشر کند. تا زمان انتشار، کاربران Pro میتوانند از o1-pro استفاده کنند.
OpenAI اعلام کرده است که مدلهای آینده بهدنبال ترکیب استدلال سری o با جریان مکالمهای سری GPT و استفاده پیشگیرانه از ابزارها هستند. این شرکت افزود:
«با ترکیب این نقاط قوت، مدلهای آینده ما مکالمات روان و طبیعی را درکنار حل مسائل پیشرفته پشتیبانی خواهند کرد.»
این پیشرفتها نشاندهنده یک گام بزرگ در جهت ترکیب هوش مصنوعی با نیازهای دنیای واقعی است.