صنعت هوش مصنوعی با سرعتی باورنکردنی و گاه خستهکننده درحال پیشرفت است، اما اقدام اخیر شرکت آنتروپیک (Anthropic) را نمیتوان نادیده گرفت. تنها ۱۲ روز پس از عرضه مدل قدرتمند Claude Opus 4.6، این شرکت نسخه جدید هوش مصنوعی میانرده خود یعنی Claude Sonnet 4.6 را منتشر کرده است؛ مدلی که با هدف انجام کاری شگفتانگیز طراحی شده است: ارائه هوشمندی در سطح مدل Opus اما با کسری از هزینه آن.
🔹مدل جدید Claude Sonnet 4.6 با عملکردی نزدیک به مدل پرچمدار Opus اما قیمت بسیار کمتر عرضه شد.
🔹هزینه استفاده از این مدل همچنان ۳ دلار بهازای هر یک میلیون توکن ورودی باقی مانده است.
🔹قابلیت کار با کامپیوتر (Computer Use) به سطح عملکرد انسانی نزدیک شده و امتیاز ۷۲.۵ درصد را کسب کرده است.
🔹این مدل در برنامهریزیهای بلندمدت و کدنویسی عملکرد بهتری نسبتبه رقبا و نسخههای قبلی دارد.
🔹هماکنون Claude Sonnet 4.6 برای همه کاربران، از جمله کاربران طرح رایگان در دسترس است.
در دنیای هوش مصنوعی همواره یک بدهبستان وجود داشته است؛ اگر مدلی با قابلیت استدلال پیچیده و کدنویسی بینقص میخواستید، باید هزینه زیادی برای مدلهای کلاس Opus پرداخت میکردید و اگر بهدنبال گزینهای ارزانتر بودید، باید به قدرت پردازش ذهنی کمتر رضایت میدادید.
اکنون Claude Sonnet 4.6 برای از بین بردن این فاصله طراحی شده است. شرکت آنتروپیک با وجود جهش عظیم در تواناییهای این مدل، قیمتگذاری را روی همان عدد ۳ دلار بهازای هر میلیون توکن ورودی (مانند نسخه قبلی) ثابت نگه داشته است. برای درک بهتر این موضوع، اجرای یک ایجنت هوش مصنوعی با عملکرد بالا اکنون تقریباً پنج برابر ارزانتر از چند هفته پیش تمام میشود. این موضوع برای سازمانهایی که روزانه میلیونها وظیفه خودکار را اجرا میکنند، خبری بسیار مهم و حیاتی است.
یکی از چشمگیرترین پیشرفتها در این نسخه، قابلیت «استفاده از کامپیوتر» (Computer Use) است. این قابلیت به هوش مصنوعی اجازه میدهد تا صفحهنمایش را ببیند، نشانگر موس را حرکت دهد و دقیقاً مانند یک انسان در برنامهها تایپ کند. زمانی که آنتروپیک برای اولینبار در اواخر سال ۲۰۲۴ این قابلیت را نمایش داد، عملکردی آزمایشی و کمی دستوپاشکسته داشت.
اما حالا بنا بر ادعای شرکت، Sonnet 4.6 به سطحی از مهارت رسیده که تقریباً مشابه انسان است. در بنچمارکهایی که برای آزمایش نحوه پیمایش هوش مصنوعی در وب و برنامههای دسکتاپ طراحی شدهاند، این مدل امتیاز ۷۲.۵ درصد را کسب کرده است که جهشی شیرین نسبتبه امتیاز ۶۱.۴ درصدی نسل قبلی محسوب میشود. این مدل اکنون در استفاده از کامپیوتر بهاندازهای ماهر است که عملاً با مدل پرچمدار و گرانقیمتتر Opus 4.6 رقابت میکند. این یک تغییر بزرگ برای خودکارسازی وظایف در سیستمهای قدیمی (Legacy) است که فاقد APIهای مدرن هستند.
برای توسعهدهندگان، مدل Claude پیشازاین به یک ابزار فنی محبوب تبدیل شده بود و نسخه Sonnet 4.6 این شهرت را دوچندان میکند. در آزمایشهای دنیای واقعی، توسعهدهندگان در ۷۰ درصد موارد خروجیهای این مدل را به نسخههای قبلی ترجیح دادهاند. گزارشها حاکی از آن است که این مدل کمتر دچار «تنبلی» میشود و دستورالعملهای پیچیده و چندمرحلهای را با ثبات بسیار بالاتری اجرا میکند.
فراتر از صرفاً نوشتن کد، این مدل نشان داده است که میتواند «بلندمدت فکر کند». در یک شبیهسازی رقابت تجاری به نام «Vending-Bench»، هوش مصنوعی مدیریت یک کسبوکار را برای یک سال کامل شبیهسازیشده برعهده گرفت. این مدل استراتژی سرمایهگذاری سنگین در ۱۰ ماه اول برای ایجاد ظرفیت و سپس تغییر جهت برای به حداکثر رساندن سود را تدوین کرد. درنهایت، شبیهسازی با موجودی بیش از دو برابر مدلهای قبلی به پایان رسید و ثابت کرد که این مدل میتواند برای ماهها برنامهریزی کند، نه فقط برای دقایق.
درحالیکه رقبایی مانند گوگل و OpenAI تاریخهای انتشار غیرقابل پیشبینی و تأخیرهای مکرر دارند، آنتروپیک به چرخه بهروزرسانی منظم چهارماهه خود پایبند است. این ثبات به مدیران فنی (CTO) و توسعهدهندگان اجازه میدهد تا نقشهراه خود را با اطمینان از اینکه مدلی بهتر و کارآمدتر همیشه در راه است، ترسیم کنند. آنتروپیک میتواند از این موضوع بهعنوان یک مزیت رقابتی در بازار سازمانی استفاده کند. لازمبهذکر است که Claude Sonnet 4.6 اکنون بهعنوان مدل پیشفرض برای همه، از جمله کاربران طرح رایگان، فعال شده است.
بهنظر شما آیا ارائه قابلیتهای سطح بالا با قیمت میانرده در مدل جدید آنتروپیک، میتواند باعث کوچ توسعهدهندگان از مدلهای OpenAI به سمت Claude شود؟