انتروپیک از مدل هوش مصنوعی Claude Sonnet 4.5 رونمایی کرد: یک متخصص کدنویسی، اما یک هم‌صحبت ضعیف

شرکت انتروپیک (Anthropic) به‌تازگی از کلود سونت ۴.۵ (Claude Sonnet 4.5) رونمایی کرده است؛ یک مدل هوش مصنوعی جدید که در وظایف کدنویسی خودکار و استفاده از ابزارها برتری دارد، اما در مکالمه جذابیت کمتری داشته و در استدلال بصری ضعیف‌تر از مدل‌های رقیب عمل می‌کند.

خلاصه و نکات کلیدی

🔹 انتروپیک از مدل جدید هوش مصنوعی خود، Claude Sonnet 4.5، رونمایی کرده که تخصص اصلی آن در زمینه کدنویسی خودکار است.
🔹 این مدل در بنچمارک‌های کدنویسی مانند SWE-bench امتیازات بالایی کسب کرده و قادر است به‌تنهایی یک وب‌سایت کامل را شبیه‌سازی کند.
🔹 با این حال، کلود ۴.۵ در استدلال بصری ضعیف عمل می‌کند و مکالمات با آن به‌دلیل ابراز احساسات کمتر، «کسل‌کننده‌تر» توصیف شده است.
🔹 این مدل کمترین میزان موفقیت را در برابر حملات تزریق پرامپت دارد که آن را به گزینه‌ای امن‌تر تبدیل می‌کند.

نقاط قوت: یک متخصص کدنویسی و اتوماسیون

مدل جدید Claude Sonnet 4.5 با عملکرد بهبودیافته در کدنویسی، برای کمک بهتر به توسعه‌دهندگان نرم‌افزار در ساخت اپلیکیشن‌ها طراحی شده است. این مدل در چندین بنچمارک بزرگ کدنویسی هوش مصنوعی، از جمله SWE-bench و Terminal-Bench، عملکرد خوبی از خود نشان داده است. توانایی آن در استفاده از ابزارهای کامپیوتری برای انجام وظایف به‌صورت خودکار بهبود یافته که نتیجه برجسته آن در بنچمارک OSWorld، این مدل را قادر ساخت تا به‌تنهایی یک کلون کاربردی از وب‌سایت claude.ai را ایجاد کند.

مدل هوش مصنوعی Claude Sonnet 4.5

امنیت بالا در برابر حملات

هکرها برای انجام کارهای مخرب مانند حملات تزریق پرامپت (prompt injection attacks) بهتر است به سراغ مدل‌های دیگر هوش مصنوعی بروند، زیرا Sonnet 4.5 در بین تمام مدل‌های هوش مصنوعی آزمایش‌شده، پایین‌ترین نرخ موفقیت را در اجرای این‌گونه حملات دارد.

نقاط ضعف: استدلال بصری و مکالمات نه‌چندان جذاب

اگرچه توانایی‌های این هوش مصنوعی در پاسخ به پرامپت‌های مربوط به حوزه‌های مالی، حقوقی، پزشکی و علوم پایه نسبت به مدل‌های قبلی انتروپیک بهبود یافته، اما همچنان در پاسخ به این نوع پرامپت‌ها تنها موفق به کسب نمره‌ای بین C و D می‌شود. این مدل همچنین در وظایف استدلال بصری (visual reasoning) در آزمون بنچمارک MMMU در مقایسه با سایر مدل‌های هوش مصنوعی عملکرد ضعیفی دارد.

کاربرانی که از یک چت هیجان‌انگیز با هوش مصنوعی لذت می‌برند، آخرین نسخه کلود را ناامیدکننده خواهند یافت. این مدل به‌دلیل کاهش نرخ صحبت خودجوش درمورد معنویت و ابراز مثبت‌اندیشی کمتر درمورد خودش، مکالمه‌ای «کسل‌کننده‌تر» را رقم می‌زند.

نحوه دسترسی به مدل هوش مصنوعی Claude Sonnet 4.5

علاقه‌مندان به چت با Claude Sonnet 4.5 می‌توانند اپلیکیشن آن را برای گوشی‌های هوشمند دانلود کرده یا از طریق وب‌سایت انتروپیک به این هوش مصنوعی دسترسی داشته باشند.

به‌نظر شما، آیا آینده هوش مصنوعی در مدل‌های همه‌فن‌حریف است یا مدل‌های متخصصی مانند کلود ۴.۵ که در یک زمینه خاص (مانند کدنویسی) برتری دارند، موفق‌تر خواهند بود؟