شرکت انتروپیک (Anthropic) بهتازگی از کلود سونت ۴.۵ (Claude Sonnet 4.5) رونمایی کرده است؛ یک مدل هوش مصنوعی جدید که در وظایف کدنویسی خودکار و استفاده از ابزارها برتری دارد، اما در مکالمه جذابیت کمتری داشته و در استدلال بصری ضعیفتر از مدلهای رقیب عمل میکند.
مدل جدید Claude Sonnet 4.5 با عملکرد بهبودیافته در کدنویسی، برای کمک بهتر به توسعهدهندگان نرمافزار در ساخت اپلیکیشنها طراحی شده است. این مدل در چندین بنچمارک بزرگ کدنویسی هوش مصنوعی، از جمله SWE-bench و Terminal-Bench، عملکرد خوبی از خود نشان داده است. توانایی آن در استفاده از ابزارهای کامپیوتری برای انجام وظایف بهصورت خودکار بهبود یافته که نتیجه برجسته آن در بنچمارک OSWorld، این مدل را قادر ساخت تا بهتنهایی یک کلون کاربردی از وبسایت claude.ai را ایجاد کند.
هکرها برای انجام کارهای مخرب مانند حملات تزریق پرامپت (prompt injection attacks) بهتر است به سراغ مدلهای دیگر هوش مصنوعی بروند، زیرا Sonnet 4.5 در بین تمام مدلهای هوش مصنوعی آزمایششده، پایینترین نرخ موفقیت را در اجرای اینگونه حملات دارد.
اگرچه تواناییهای این هوش مصنوعی در پاسخ به پرامپتهای مربوط به حوزههای مالی، حقوقی، پزشکی و علوم پایه نسبت به مدلهای قبلی انتروپیک بهبود یافته، اما همچنان در پاسخ به این نوع پرامپتها تنها موفق به کسب نمرهای بین C و D میشود. این مدل همچنین در وظایف استدلال بصری (visual reasoning) در آزمون بنچمارک MMMU در مقایسه با سایر مدلهای هوش مصنوعی عملکرد ضعیفی دارد.
کاربرانی که از یک چت هیجانانگیز با هوش مصنوعی لذت میبرند، آخرین نسخه کلود را ناامیدکننده خواهند یافت. این مدل بهدلیل کاهش نرخ صحبت خودجوش درمورد معنویت و ابراز مثبتاندیشی کمتر درمورد خودش، مکالمهای «کسلکنندهتر» را رقم میزند.
علاقهمندان به چت با Claude Sonnet 4.5 میتوانند اپلیکیشن آن را برای گوشیهای هوشمند دانلود کرده یا از طریق وبسایت انتروپیک به این هوش مصنوعی دسترسی داشته باشند.
بهنظر شما، آیا آینده هوش مصنوعی در مدلهای همهفنحریف است یا مدلهای متخصصی مانند کلود ۴.۵ که در یک زمینه خاص (مانند کدنویسی) برتری دارند، موفقتر خواهند بود؟