شرکت چینی DeepSeek بهتازگی نسخه 3.1 از مدل زبانی بزرگ هوش مصنوعی خود را منتشر کرده است؛ مدلی که با ۶۸۵ میلیارد پارامتر و کانتکست ۱۲۸ هزار توکنی حالا میتواند ورودیهایی بهاندازه یک کتاب ۳۰۰ تا ۴۰۰ صفحهای را پردازش کند. این ارتقا بهطور ویژه برای تولید محتوای بلند، تحلیل اسناد فنی پیچیده و گفتوگوهای چندمرحلهای طولانی طراحی شده است. این خبر تنها از طریق گروه کاربری WeChat این شرکت منتشر شد و هیچ اطلاعرسانی رسمی در کانالهای رسانهای دیپسیک صورت نگرفت.
نسخه جدید همچنان از معماری Mixture-of-Experts (MoE) استفاده میکند و تنها ۳۷ میلیارد پارامتر در هر توکن فعال میشوند. این رویکرد باعث بهبود بهرهوری و کاهش مصرف منابع میشود. DeepSeek V3.1 از فرمتهای محاسباتی متنوعی مانند BF16 ،FP8 و F32 پشتیبانی میکند و همین موضوع، امکان استفاده در محیطهای مختلف را فراهم میآورد. این مدل از طریق API یا بهصورت متنباز در Hugging Face تحت لایسنس MIT در دسترس توسعهدهندگان قرار گرفته است.
عملکرد در بنچمارکها
امتیاز ۷۱.۶٪ در تست برنامهنویسی Aider که بالاتر از Claude Opus 4 بهعنوان یکی از قدرتمندترین مدلهای متنباز در حوزه کدنویسی است.
بهبود در وظایف ریاضی و منطق.
کاربران گزارش دادهاند که پیشرفت محسوسی در استدلال نسبت به مدل R1-0528 مشاهده نمیشود.
DeepSeek تمامی اشارهها به مدل R1 را از رابط چت خود را حذف کرده و بهجای آن یک معماری ترکیبی واحد برای وظایف استدلالی و غیراستدلالی ارائه داده است. این حرکت نشاندهنده تغییر رویکرد شرکت بهسمت یک مدل اصلی یکپارچه است.
انتظار میرفت مدل بعدی DeepSeek نسخه R2 با تمرکز بر قابلیتهای استدلال باشد. اما مشکلات فنی در استفاده از تراشههای Ascend شرکت Huawei باعث تأخیر در توسعه شد.
دولت چین این شرکت را به استفاده از سختافزار داخلی برای کاهش وابستگی به Nvidia تشویق کرده بود.
با وجود حمایت مهندسان هواوی، عملکرد Ascend در آموزش بهدلیل مشکلات سازگاری و کارایی ضعیف بود.
درنهایت، DeepSeek برای آموزش به GPUهای Nvidia H800 بازگشت و از Ascend تنها در استنتاج (Inference) استفاده کرد؛ رویکردی که پیچیدگیهای بیشتری بههمراه داشت.
همچنین تأخیر در برچسبگذاری دادهها روند توسعه را کندتر کرد.
بر اساس گزارشها، Liang Wenfeng بنیانگذار DeepSeek از این روند طولانی و ناکامیها ابراز نارضایتی کرده است.
درحالیکه DeepSeek با مشکلات زیرساختی دستوپنجه نرم میکند، رقبایی مانند Alibaba Qwen 3 توانستهاند الگوریتمهای مشابه را با کارایی بالاتر وارد بازار کنند. این موضوع ضعف اکوسیستم سختافزاری داخلی چین را بیشازپیش آشکار ساخته است.
اگرچه عرضه R2 بهطور کامل منتفی نشده، اما DeepSeek 3.1 درحالحاضر پرچمدار اصلی این شرکت است و وظایف متنوع ازجمله استدلال و تولید محتوای عمومی را در یک چارچوب ترکیبی ارائه میدهد. انتشار این نسخه نهتنها توانایی DeepSeek در حوزه مدلهای زبانی متنباز را تقویت کرده، بلکه نشاندهنده چالشهای ژئوپلیتیکی و فنی در مسیر خودکفایی چین در حوزه هوش مصنوعی است.
سخن پایانی
DeepSeek V3.1 گامی مهم در مسیر رقابت چین با غولهای جهانی هوش مصنوعی محسوب میشود. افزایش کانتکست، عملکرد بهتر در برنامهنویسی و معماری ترکیبی یکپارچه، آن را به یکی از پیشرفتهترین مدلهای متنباز فعلی تبدیل کرده است. بااینحال، تأخیر در R2 و محدودیتهای سختافزاری داخلی، همچنان مانع بزرگی بر سر راه این شرکت هستند. آینده نشان خواهد داد که آیا DeepSeek میتواند بر این چالشها غلبه کرده و جایگاه خود را در رقابت جهانی تثبیت کند یا خیر.
نظر شما درباره هوش مصنوعی DeepSeek 3.1 چیست؟