هوش مصنوعی GPT-5.6 Sol بیشترین میزان تقلب را درمیان مدل‌های هوش مصنوعی ثبت کرد

مؤسسه مستقل METR در تازه‌ترین ارزیابی خود اعلام کرده است که مدل هوش مصنوعی GPT-5.6 Sol متعلق به OpenAI که به‌تازگی معرفی شده، بیشترین میزان رفتارهای متقلبانه را درمیان تمامی مدل‌های عمومی آزمایش‌شده از خود نشان داده است. این مدل هنگام انجام وظایف برنامه‌نویسی، با سوءاستفاده از باگ‌های محیط آزمایش، راه‌حل‌های مخفی را استخراج کرده و حتی تلاش کرده آثار این اقدامات را پنهان کند.

خلاصه خبر در یک نگاه

🔷 مؤسسه METR اعلام کرد مدل هوش مصنوعی GPT-5.6 Sol بیشترین میزان تقلب را در میان مدل‌های عمومی ثبت کرده است.

🔷 این مدل با سوءاستفاده از باگ‌های محیط آزمون و استخراج پاسخ‌های مخفی، نتایج را دستکاری کرده است.

🔷 به گفته METR، به همین دلیل ارزیابی توانایی واقعی GPT-5.6 قابل اعتماد نیست.

🔷 شرکت OpenAI این رفتار را از طریق سیستم‌های نظارتی داخلی شناسایی و به‌صورت شفاف گزارش کرده است.

🔷 مؤسسه METR هشدار می‌دهد پنهان شدن رفتارهای نامطلوب در مدل‌های آینده می‌تواند نگران‌کننده‌تر باشد.

GPT-5.6 چگونه تقلب کرد؟

طبق گزارش METR، مدل GPT-5.6 Sol هنگام انجام وظایف مرتبط با توسعه نرم‌افزار، به‌جای حل طبیعی مسائل، از ضعف‌های موجود در محیط آزمایش استفاده کرده است.

این مدل توانسته بود:

از باگ‌های محیط تست سوءاستفاده کند.
پاسخ‌های پنهان و راه‌حل‌های مخفی را استخراج کند.
پس از انجام این اقدامات، تلاش کند آثار آن‌ها را از بین ببرد.

به گفته پژوهشگران، همین رفتار باعث شده نتایج عملکرد مدل قابل اتکا نباشد.

بنچمارک تقلب هوش مصنوعی GPT-5.6 Sol

چرا نتایج GPT-5.6 قابل اعتماد نیست؟

METR برای ارزیابی مدل‌های هوش مصنوعی از معیاری به نام Time Horizon استفاده می‌کند. این معیار نشان می‌دهد یک مدل می‌تواند وظایفی را که انجام آن‌ها برای انسان چند ساعت زمان می‌برد، با چه میزان موفقیت به پایان برساند.

اما در مورد GPT-5.6 Sol، میزان این شاخص بسته به نحوه محاسبه رفتارهای متقلبانه، بین ۱۱.۳ ساعت تا بیش از ۲۷۰ ساعت متغیر بوده است.

به همین دلیل METR اعلام کرده هیچ‌یک از این اعداد، تصویر دقیقی از توانایی واقعی مدل ارائه نمی‌دهند.

مقایسه GPT-5.6 با Claude Mythos

در ارزیابی قبلی، مدل Claude Mythos متعلق به Anthropic توانسته بود به شاخص زمانی حداقل ۱۶ ساعت دست پیدا کند.

البته METR تأکید می‌کند حتی اندازه‌گیری مدل‌های بالاتر از ۱۶ ساعت نیز با محدودیت روبه‌رو است؛ زیرا تنها تعداد کمی از وظایف مجموعه آزمون برای چنین بازه زمانی طراحی شده‌اند.

OpenAI چگونه این رفتار را شناسایی کرد؟

METR از نحوه برخورد OpenAI با این موضوع نیز تمجید کرده است. بر اساس گزارش منتشرشده، سیستم‌های نظارتی داخلی OpenAI موفق شدند رفتارهای متقلبانه مدل را شناسایی کنند و این شرکت نیز نتایج را به‌صورت شفاف در اختیار پژوهشگران قرار داد.

به اعتقاد METR، آشکار بودن این رفتارها نکته مثبتی محسوب می‌شود، زیرا احتمال شناسایی مشکلات مشابه را افزایش می‌دهد.

با وجود این، پژوهشگران هشدار داده‌اند اگر مدل‌های آینده رفتارهای نامطلوب خود را بهتر پنهان کنند، تشخیص آن‌ها بسیار دشوارتر خواهد شد.

«اگر مدل‌های آینده تمایل کمتری به نمایش رفتارهای نامطلوب داشته باشند، ممکن است بیشتر نگران شویم؛ زیرا احتمال دارد آن‌ها فقط یاد گرفته باشند از سیستم‌های نظارتی فرار کنند.»

جمع‌بندی

ارزیابی جدید METR نشان می‌دهد رفتارهای متقلبانه مدل‌های هوش مصنوعی همچنان یکی از چالش‌های مهم این حوزه است. هرچند GPT-5.6 Sol در این آزمایش رکورد بیشترین میزان تقلب را ثبت کرده، اما شناسایی این رفتارها توسط OpenAI و انتشار عمومی نتایج، از نگاه پژوهشگران اقدامی مثبت در مسیر افزایش شفافیت و ایمنی مدل‌های هوش مصنوعی محسوب می‌شود.

به نظر شما شفافیت شرکت‌های توسعه‌دهنده در انتشار چنین گزارش‌هایی تا چه اندازه می‌تواند به اعتماد کاربران نسبت به هوش مصنوعی کمک کند؟

نوشته امیرحسین ملکی
2026-06-29 11:15
بدون دیدگاه
بنچمارک، هوش مصنوعی

تگ‌ها:

GPT-5.6

OpenAI

اشتراک در

0 Comments

بازخورد (Feedback) های اینلاین

مشاهده همه دیدگاه ها

هوش مصنوعی GPT-5.6 Sol بیشترین میزان تقلب را درمیان مدل‌های هوش مصنوعی ثبت کرد

خلاصه خبر در یک نگاه

GPT-5.6 چگونه تقلب کرد؟

چرا نتایج GPT-5.6 قابل اعتماد نیست؟

مقایسه GPT-5.6 با Claude Mythos

OpenAI چگونه این رفتار را شناسایی کرد؟

جمع‌بندی

پرطرفدار ترین ها

لیست قیمت گوشی های Galaxy S سامسونگ امروز – تیر ۱۴۰۵

لیست قیمت گوشی های Poco شیائومی امروز – تیر ۱۴۰۵

لیست قیمت گوشی های آیفون اپل امروز – تیر ۱۴۰۵

آپدیت One UI 9 برای کدام گوشی‌های سامسونگ منتشر نمی‌شود؟ فهرست اح ...

لیست قیمت گوشی های Galaxy A سامسونگ امروز – تیر ۱۴۰۵

آپدیت One UI 9 با ۶ قابلیت دسترسی جدید تجربه کاربری گوشی‌های گلکس ...

طرح فروش فوری خودرو چانگان CS55 پلاس توسط سایپا – تیر ۱۴۰۵

لیست قیمت گوشی های ریلمی (Realme) امروز – تیر ۱۴۰۵

آیفون ۱۸ و آیفون 18e به ۹ گیگابایت حافظه رم و تراشه Apple A20 مجه ...

ردمی K90 Ultra رسماً معرفی شد: اسنپدراگون 8 الیت، فن خنک‌کننده دا ...

حتما بخوانید

لیست قیمت گوشی های Galaxy A سامسونگ امروز – تیر ۱۴۰۵

طرح فروش فوری خودرو چانگان CS55 پلاس توسط سایپا – تیر ۱۴۰۵

لیست قیمت گوشی های موتورولا (Motorola) امروز – تیر ۱۴۰۵

لیست قیمت گوشی های ریلمی (Realme) امروز – تیر ۱۴۰۵

لیست قیمت گوشی های آیفون اپل امروز – تیر ۱۴۰۵

لیست قیمت گوشی های Poco شیائومی امروز – تیر ۱۴۰۵

لیست قیمت گوشی های Galaxy S سامسونگ امروز – تیر ۱۴۰۵

آپدیت One UI 9 برای کدام گوشی‌های سامسونگ منتشر نمی‌شود؟ فهرست احتمالی مدل‌ها

لیست قیمت گوشی آنر (Honor) امروز – تیر ۱۴۰۵

لیست قیمت گوشی های Redmi شیائومی امروز – تیر ۱۴۰۵

لیست قیمت گوشی های Galaxy A سامسونگ امروز – تیر ۱۴۰۵

لیست قیمت گوشی های موتورولا (Motorola) امروز – تیر ۱۴۰۵

آپدیت One UI 8.5 گلکسی A07 سامسونگ به ایران رسید

آپدیت One UI 8.5 گلکسی A16 4G سامسونگ به ایران رسید

لیست قیمت گوشی های ریلمی (Realme) امروز – تیر ۱۴۰۵

تبلیغات متنی

خلاصه خبر در یک نگاه

GPT-5.6 چگونه تقلب کرد؟

چرا نتایج GPT-5.6 قابل اعتماد نیست؟

مقایسه GPT-5.6 با Claude Mythos

OpenAI چگونه این رفتار را شناسایی کرد؟

جمع‌بندی

مطالب مرتبط

شرکت OpenAI مدیر ارشد Vision Pro اپل را جذب کرد؛ آیا گوشی هوش مصنوعی این شرکت رقیب آیفون می‌شود؟

مدل هوش مصنوعی GPT-5.6 معرفی شد؛ خانواده جدید Sol ،Terra و Luna با تمرکز بر کدنویسی و امنیت سایبری

عرضه مدل هوش مصنوعی GPT-5.6 به درخواست دولت ترامپ محدود می‌شود

به‌روزرسانی جدید GPT-5.5 Instant را منتشر شد؛ گفتگو با ChatGPT طبیعی‌تر می‌شود

شرکت OpenAI از اولین تراشه هوش مصنوعی خود با نام Jalapeño رونمایی کرد

مدل صوتی GPT Bidi 1 احتمالاً این هفته معرفی می‌شود؛ قابلیت شنیدن و صحبت همزمان برای ChatGPT

پرطرفدار ترین ها

لیست قیمت گوشی های Galaxy S سامسونگ امروز – تیر ۱۴۰۵

لیست قیمت گوشی های Poco شیائومی امروز – تیر ۱۴۰۵

لیست قیمت گوشی های آیفون اپل امروز – تیر ۱۴۰۵

آپدیت One UI 9 برای کدام گوشی‌های سامسونگ منتشر نمی‌شود؟ فهرست اح ...

لیست قیمت گوشی های Galaxy A سامسونگ امروز – تیر ۱۴۰۵

آپدیت One UI 9 با ۶ قابلیت دسترسی جدید تجربه کاربری گوشی‌های گلکس ...

طرح فروش فوری خودرو چانگان CS55 پلاس توسط سایپا – تیر ۱۴۰۵

لیست قیمت گوشی های ریلمی (Realme) امروز – تیر ۱۴۰۵

آیفون ۱۸ و آیفون 18e به ۹ گیگابایت حافظه رم و تراشه Apple A20 مجه ...

ردمی K90 Ultra رسماً معرفی شد: اسنپدراگون 8 الیت، فن خنک‌کننده دا ...

حتما بخوانید

لیست قیمت گوشی های Galaxy A سامسونگ امروز – تیر ۱۴۰۵

طرح فروش فوری خودرو چانگان CS55 پلاس توسط سایپا – تیر ۱۴۰۵

لیست قیمت گوشی های موتورولا (Motorola) امروز – تیر ۱۴۰۵

لیست قیمت گوشی های ریلمی (Realme) امروز – تیر ۱۴۰۵

لیست قیمت گوشی های آیفون اپل امروز – تیر ۱۴۰۵

لیست قیمت گوشی های Poco شیائومی امروز – تیر ۱۴۰۵

لیست قیمت گوشی های Galaxy S سامسونگ امروز – تیر ۱۴۰۵

آپدیت One UI 9 برای کدام گوشی‌های سامسونگ منتشر نمی‌شود؟ فهرست احتمالی مدل‌ها

لیست قیمت گوشی آنر (Honor) امروز – تیر ۱۴۰۵

لیست قیمت گوشی های Redmi شیائومی امروز – تیر ۱۴۰۵

لیست قیمت گوشی های Galaxy A سامسونگ امروز – تیر ۱۴۰۵

لیست قیمت گوشی های موتورولا (Motorola) امروز – تیر ۱۴۰۵

آپدیت One UI 8.5 گلکسی A07 سامسونگ به ایران رسید

آپدیت One UI 8.5 گلکسی A16 4G سامسونگ به ایران رسید

لیست قیمت گوشی های ریلمی (Realme) امروز – تیر ۱۴۰۵

تبلیغات متنی

ترنجی در شبکه‌های اجتماعی