حساب کاربری ندارید؟ ثبت نام کنید

مدل هوش مصنوعی UniGen 1.5 اپل تصاویر را درک، تولید و ویرایش می‌کند

نوشته

3 ساعت قبل | بدون دیدگاه | اپل، هوش مصنوعی

اپل با ارتقاء مدل هوش مصنوعی قبلی خود به نام UniGen، از نسخه جدیدی با نام UniGen 1.5 رونمایی کرده است. این سیستم انقلابی قادر است سه وظیفه کلیدی درک، تولید و ویرایش تصویر را در قالب یک مدل واحد انجام دهد. جزئیات این فناوری را در ادامه بررسی می‌کنیم.

خلاصه در یک نگاه

  • 🔹 اپل از مدل هوش مصنوعی جدید خود با نام UniGen 1.5 رونمایی کرد.
  • 🔹 این مدل سه قابلیت درک، تولید و ویرایش تصویر را در یک سیستم واحد ترکیب می‌کند.
  • 🔹 استفاده از یک مرحله جدید به نام «هم‌راستاسازی دستورالعمل ویرایش» برای درک بهتر.
  • 🔹 عملکرد آن در بنچمارک‌های استاندارد، با مدل‌های پیشرفته رقابت می‌کند یا از آن‌ها بهتر است.
  • 🔹 این مدل همچنان در تولید متن و حفظ هویت یکپارچه با چالش‌هایی مواجه است.

تفاوت UniGen 1.5 با نسخه قبلی چیست؟

سال گذشته، تیمی از محققان اپل مطالعه‌ای با عنوان «UniGen: استراتژی‌های بهبودیافته آموزش و آزمون برای درک و تولید چندوجهی یکپارچه» را منتشر کردند. در آن تحقیق، آن‌ها یک مدل زبانی بزرگ چندوجهی (Multimodal Large Language Model) یکپارچه را معرفی کردند که قادر به درک و تولید تصویر در یک سیستم واحد بود.

مدل هوش مصنوعی UniGen

مدل هوش مصنوعی UniGen

اکنون، اپل در مقاله‌ای جدید با عنوان «UniGen-1.5: افزایش تولید و ویرایش تصویر از طریق یکپارچه‌سازی پاداش در یادگیری تقویتی»، این مدل را ارتقا داده است. این تحقیق جدید، قابلیت‌های ویرایش تصویر را به مدل اضافه می‌کند و همچنان هر سه قابلیت درک، تولید و ویرایش را در یک چارچوب واحد حفظ می‌کند.

یکپارچه‌سازی این قابلیت‌ها در یک سیستم واحد چالش‌برانگیز است، زیرا درک و تولید تصاویر به رویکردهای متفاوتی نیاز دارند. بااین‌حال، محققان معتقدند که یک مدل یکپارچه می‌تواند از توانایی درک خود برای بهبود عملکرد تولید استفاده کند.

نقش کلیدی مرحله «هم‌راستاسازی دستورالعمل ویرایش»

به‌گفته آن‌ها، یکی از چالش‌های اصلی در ویرایش تصویر این است که مدل‌ها اغلب در درک کامل دستورالعمل‌های پیچیده ویرایش، به‌خصوص زمانی که تغییرات ظریف یا بسیار خاص هستند، با مشکل مواجه می‌شوند.

برای حل این مشکل، UniGen 1.5 یک مرحله جدید پس از آموزش به نام هم‌راستاسازی دستورالعمل ویرایش (Edit Instruction Alignment) را معرفی می‌کند. به‌عبارت‌دیگر، پیش از آنکه از مدل خواسته شود خروجی‌های خود را از طریق یادگیری تقویتی (Reinforcement Learning) بهبود ببخشد، محققان ابتدا آن را آموزش می‌دهند تا بر اساس تصویر اصلی و دستورالعمل ویرایش، یک توصیف متنی دقیق از آنچه تصویر ویرایش‌شده باید شامل شود، استنباط کند. این مرحله میانی به مدل کمک می‌کند تا ویرایش مورد نظر را قبل از تولید تصویر نهایی، بهتر درونی‌سازی کند.

مدل هوش مصنوعی UniGen 1.5 اپل

مدل هوش مصنوعی UniGen 1.5 اپل

عملکرد مدل هوش مصنوعی UniGen 1.5 اپل در مقایسه با رقبا چگونه است؟

محققان سپس از یادگیری تقویتی به روشی استفاده می‌کنند که می‌توان آن را مهم‌ترین سهم این مقاله دانست: آن‌ها از یک سیستم پاداش یکسان برای هر دو فرآیند تولید و ویرایش تصویر استفاده می‌کنند. این موضوع قبلاً چالش‌برانگیز بود، زیرا ویرایش‌ها می‌توانند از تغییرات جزئی تا تحولات کامل متغیر باشند.

در نتیجه، هنگامی‌که UniGen 1.5 در چندین بنچمارک استاندارد صنعتی آزمایش شد، عملکردی هم‌سطح یا بهتر از چندین مدل زبانی بزرگ چندوجهی پیشرفته، چه متن‌باز و چه اختصاصی، از خود نشان داد. این مدل در بنچمارک‌های GenEval و DPG-Bench به‌طور قابل‌توجهی از روش‌های اخیر مانند BAGEL و BLIP3o بهتر عمل کرده و در بنچمارک ویرایش تصویر ImgEdit، از مدل‌های متن‌باز اخیر مانند OminiGen2 پیشی گرفته و با مدل‌های اختصاصی مانند GPT-Image-1 قابل‌رقابت است.

نقاط ضعف و محدودیت‌های UniGen 1.5 چیست؟

محققان اشاره می‌کنند که UniGen 1.5 در تولید متن و همچنین در حفظ هویت یکپارچه سوژه در شرایط خاص با مشکلاتی مواجه است. به‌عنوان‌مثال، این مدل در رندر دقیق کاراکترهای متنی با چالش مواجه است. همچنین در برخی نمونه‌ها، تغییرات قابل‌مشاهده‌ای در هویت سوژه، مانند تغییر در بافت و شکل خز گربه یا تفاوت در رنگ پر پرنده، دیده می‌شود. UniGen 1.5 برای رفع این محدودیت‌ها نیاز به بهبودهای بیشتری دارد.

نقاط ضعف و محدودیت‌های UniGen 1.5

نقاط ضعف و محدودیت‌های UniGen 1.5

به‌نظر شما اپل از این فناوری در کدام‌یک از محصولات آینده خود، مانند Apple Intelligence، استفاده خواهد کرد؟

اشتراک در
اطلاع از
0 Comments
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
رپورتاژ آگهی پربازده
رپورتاژ آگهی پربازده
امیرحسین ملکی