حساب کاربری ندارید؟ ثبت نام کنید

مدل هوش مصنوعی DeepSeek 3.1 عرضه شد: تغییرات جدید چیست؟

نوشته

14 ساعت قبل | بدون دیدگاه | هوش مصنوعی

شرکت چینی DeepSeek به‌تازگی نسخه 3.1 از مدل زبانی بزرگ هوش مصنوعی خود را منتشر کرده است؛ مدلی که با ۶۸۵ میلیارد پارامتر و کانتکست ۱۲۸ هزار توکنی حالا می‌تواند ورودی‌هایی به‌اندازه یک کتاب ۳۰۰ تا ۴۰۰ صفحه‌ای را پردازش کند. این ارتقا به‌طور ویژه برای تولید محتوای بلند، تحلیل اسناد فنی پیچیده و گفت‌وگوهای چندمرحله‌ای طولانی طراحی شده است. این خبر تنها از طریق گروه کاربری WeChat این شرکت منتشر شد و هیچ اطلاع‌رسانی رسمی در کانال‌های رسانه‌ای دیپ‌سیک صورت نگرفت.

مدل هوش مصنوعی DeepSeek 3.1

نسخه جدید همچنان از معماری Mixture-of-Experts (MoE) استفاده می‌کند و تنها ۳۷ میلیارد پارامتر در هر توکن فعال می‌شوند. این رویکرد باعث بهبود بهره‌وری و کاهش مصرف منابع می‌شود. DeepSeek V3.1 از فرمت‌های محاسباتی متنوعی مانند BF16 ،FP8 و F32 پشتیبانی می‌کند و همین موضوع، امکان استفاده در محیط‌های مختلف را فراهم می‌آورد. این مدل از طریق API یا به‌صورت متن‌باز در Hugging Face تحت لایسنس MIT در دسترس توسعه‌دهندگان قرار گرفته است.

عملکرد در بنچمارک‌ها

  • امتیاز ۷۱.۶٪ در تست برنامه‌نویسی Aider که بالاتر از Claude Opus 4 به‌عنوان یکی از قدرتمندترین مدل‌های متن‌باز در حوزه کدنویسی است.

  • بهبود در وظایف ریاضی و منطق.

  • کاربران گزارش داده‌اند که پیشرفت محسوسی در استدلال نسبت به مدل R1-0528 مشاهده نمی‌شود.

تغییر استراتژی: پایان مدل R1

DeepSeek تمامی اشاره‌ها به مدل R1 را از رابط چت خود را حذف کرده و به‌جای آن یک معماری ترکیبی واحد برای وظایف استدلالی و غیر‌استدلالی ارائه داده است. این حرکت نشان‌دهنده تغییر رویکرد شرکت به‌سمت یک مدل اصلی یکپارچه است.

مدل هوش مصنوعی DeepSeek V3.1

مدل هوش مصنوعی DeepSeek 3.1

چالش‌های توسعه و تأخیر در R2

انتظار می‌رفت مدل بعدی DeepSeek نسخه R2 با تمرکز بر قابلیت‌های استدلال باشد. اما مشکلات فنی در استفاده از تراشه‌های Ascend شرکت Huawei باعث تأخیر در توسعه شد.

  • دولت چین این شرکت را به استفاده از سخت‌افزار داخلی برای کاهش وابستگی به Nvidia تشویق کرده بود.

  • با وجود حمایت مهندسان هواوی، عملکرد Ascend در آموزش به‌دلیل مشکلات سازگاری و کارایی ضعیف بود.

  • درنهایت، DeepSeek برای آموزش به GPUهای Nvidia H800 بازگشت و از Ascend تنها در استنتاج (Inference) استفاده کرد؛ رویکردی که پیچیدگی‌های بیشتری به‌همراه داشت.

  • همچنین تأخیر در برچسب‌گذاری داده‌ها روند توسعه را کندتر کرد.

بر اساس گزارش‌ها، Liang Wenfeng بنیان‌گذار DeepSeek از این روند طولانی و ناکامی‌ها ابراز نارضایتی کرده است.

رقابت با بازیگران بزرگ

درحالی‌که DeepSeek با مشکلات زیرساختی دست‌وپنجه نرم می‌کند، رقبایی مانند Alibaba Qwen 3 توانسته‌اند الگوریتم‌های مشابه را با کارایی بالاتر وارد بازار کنند. این موضوع ضعف اکوسیستم سخت‌افزاری داخلی چین را بیش‌ازپیش آشکار ساخته است.

اگرچه عرضه R2 به‌طور کامل منتفی نشده، اما DeepSeek 3.1 درحال‌حاضر پرچم‌دار اصلی این شرکت است و وظایف متنوع ازجمله استدلال و تولید محتوای عمومی را در یک چارچوب ترکیبی ارائه می‌دهد. انتشار این نسخه نه‌تنها توانایی DeepSeek در حوزه مدل‌های زبانی متن‌باز را تقویت کرده، بلکه نشان‌دهنده چالش‌های ژئوپلیتیکی و فنی در مسیر خودکفایی چین در حوزه هوش مصنوعی است.

سخن پایانی

DeepSeek V3.1 گامی مهم در مسیر رقابت چین با غول‌های جهانی هوش مصنوعی محسوب می‌شود. افزایش کانتکست، عملکرد بهتر در برنامه‌نویسی و معماری ترکیبی یکپارچه، آن را به یکی از پیشرفته‌ترین مدل‌های متن‌باز فعلی تبدیل کرده است. بااین‌حال، تأخیر در R2 و محدودیت‌های سخت‌افزاری داخلی، همچنان مانع بزرگی بر سر راه این شرکت هستند. آینده نشان خواهد داد که آیا DeepSeek می‌تواند بر این چالش‌ها غلبه کرده و جایگاه خود را در رقابت جهانی تثبیت کند یا خیر.

نظر شما درباره هوش مصنوعی DeepSeek 3.1 چیست؟

اشتراک در
اطلاع از
0 Comments
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
رپورتاژ آگهی پربازده
رپورتاژ آگهی پربازده
امیرحسین ملکی