مایکروسافت سرانجام از اولین مدل تولید تصویر هوش مصنوعی داخلی خود با نام MAI-Image-1 رونمایی کرد. این غول فناوری مستقر در ردموند، اولین مدل تبدیل متن به تصویر خود را در تالار رتبهبندی عمومی مدل LMArena معرفی کرد که آن را درمیان ۱۰ مدل برتر هوش مصنوعی تبدیل متن به عکس قرار میدهد. بهلطف مدل جدید، این غول فناوری دیگر تنها به شرکای خارجی مانند OpenAI متکی نخواهد بود.
از ابتدای امسال، مایکروسافت منابعی را برای ایجاد مدلهای هوش مصنوعی مولد داخلی تحت برچسب Microsoft AI (MAI) اختصاص داده است. چندی پیش این شرکت MAI-Voice-1 را معرفی کرده بود؛ یک مدل تولید گفتار که قادر به ایجاد خروجی صوتی گویا و با صدای طبیعی است. MAI-Image-1، اولین مدل تولید تصویر هوش مصنوعی مایکروسافت، جدیدترین گام در این مسیر است.
مایکروسافت تأکید کرده است که این مدل را برای پرداختن به کارهای خلاقانه عملی و واقعی ساخته است، نه اینکه یک سیستم عمومی و همهمنظوره باشد. این شرکت در ادامه بیان میکند که این مدل «تجربیات همهجانبهتر و پویاتری را در محصولاتش ممکن میسازد.» این یک تغییر رویکرد نسبتبه دیگر بازیگران هوش مصنوعی است که درحال ساخت مدلهای بزرگ و عمومی هستند.
تالار رتبهبندی LMArena، مدل MAI-Image-1 مایکروسافت را در جایگاه نهم لیست ۱۰ مدل برتر تولید تصویر هوش مصنوعی از متن قرار داده است. اگرچه این نتایج مقدماتی هستند، اما آزمایشهای اولیه پیش از عرضه، آینده امیدوارکنندهای را برای این مدل نشان میدهد.
درحالحاضر، مدلهایی مانند Nano Banana و Imagen 4 از گوگل و GPT-image-1 از OpenAI بالاتر از اولین محصول مایکروسافت در این بخش قرار دارند. مایکروسافت هنوز مشخصات فنی مدل MAI-Image-1 را بهصورت عمومی فاش نکرده است. بااینحال، این برند بر نقاط قوت این مدل در ایجاد تصاویر فتورئالیستی، از جمله نورپردازی پیچیده، مناظر و دیگر جلوههای بصری تأکید کرده است.
این شرکت ادعا میکند که اولین مدل هوش مصنوعی داخلیاش برای تولید تصویر، نتایج را سریعتر از بسیاری از مدلهای هوش مصنوعی بزرگتر و کندتر تولید میکند.
رتبه | نام مدل |
۱ | Google Nano Banana |
۲ | Google Imagen 4 |
۳ | OpenAI GPT-image-1 |
… | … |
۹ | Microsoft MAI-Image-1 |
مایکروسافت قصد دارد این مدل را در هفتههای آینده با Copilot و Bing Image Creator یکپارچه کند. این اقدام میتواند به بهبود قابلتوجهی در قابلیتهای تولید تصویر این دو سرویس منجر شود و تجربهای بومی و بهینهتر را برای کاربران فراهم آورد.
بهنظر شما، آیا استراتژی مایکروسافت مبنیبر ساخت مدلهای تخصصی و متمرکز میتواند در بلندمدت با مدلهای بزرگ و همهمنظوره رقبایی مانند گوگل و OpenAI رقابت کند؟