اپل با ارتقاء مدل هوش مصنوعی قبلی خود به نام UniGen، از نسخه جدیدی با نام UniGen 1.5 رونمایی کرده است. این سیستم انقلابی قادر است سه وظیفه کلیدی درک، تولید و ویرایش تصویر را در قالب یک مدل واحد انجام دهد. جزئیات این فناوری را در ادامه بررسی میکنیم.
سال گذشته، تیمی از محققان اپل مطالعهای با عنوان «UniGen: استراتژیهای بهبودیافته آموزش و آزمون برای درک و تولید چندوجهی یکپارچه» را منتشر کردند. در آن تحقیق، آنها یک مدل زبانی بزرگ چندوجهی (Multimodal Large Language Model) یکپارچه را معرفی کردند که قادر به درک و تولید تصویر در یک سیستم واحد بود.
اکنون، اپل در مقالهای جدید با عنوان «UniGen-1.5: افزایش تولید و ویرایش تصویر از طریق یکپارچهسازی پاداش در یادگیری تقویتی»، این مدل را ارتقا داده است. این تحقیق جدید، قابلیتهای ویرایش تصویر را به مدل اضافه میکند و همچنان هر سه قابلیت درک، تولید و ویرایش را در یک چارچوب واحد حفظ میکند.
یکپارچهسازی این قابلیتها در یک سیستم واحد چالشبرانگیز است، زیرا درک و تولید تصاویر به رویکردهای متفاوتی نیاز دارند. بااینحال، محققان معتقدند که یک مدل یکپارچه میتواند از توانایی درک خود برای بهبود عملکرد تولید استفاده کند.
بهگفته آنها، یکی از چالشهای اصلی در ویرایش تصویر این است که مدلها اغلب در درک کامل دستورالعملهای پیچیده ویرایش، بهخصوص زمانی که تغییرات ظریف یا بسیار خاص هستند، با مشکل مواجه میشوند.
برای حل این مشکل، UniGen 1.5 یک مرحله جدید پس از آموزش به نام همراستاسازی دستورالعمل ویرایش (Edit Instruction Alignment) را معرفی میکند. بهعبارتدیگر، پیش از آنکه از مدل خواسته شود خروجیهای خود را از طریق یادگیری تقویتی (Reinforcement Learning) بهبود ببخشد، محققان ابتدا آن را آموزش میدهند تا بر اساس تصویر اصلی و دستورالعمل ویرایش، یک توصیف متنی دقیق از آنچه تصویر ویرایششده باید شامل شود، استنباط کند. این مرحله میانی به مدل کمک میکند تا ویرایش مورد نظر را قبل از تولید تصویر نهایی، بهتر درونیسازی کند.
محققان سپس از یادگیری تقویتی به روشی استفاده میکنند که میتوان آن را مهمترین سهم این مقاله دانست: آنها از یک سیستم پاداش یکسان برای هر دو فرآیند تولید و ویرایش تصویر استفاده میکنند. این موضوع قبلاً چالشبرانگیز بود، زیرا ویرایشها میتوانند از تغییرات جزئی تا تحولات کامل متغیر باشند.
در نتیجه، هنگامیکه UniGen 1.5 در چندین بنچمارک استاندارد صنعتی آزمایش شد، عملکردی همسطح یا بهتر از چندین مدل زبانی بزرگ چندوجهی پیشرفته، چه متنباز و چه اختصاصی، از خود نشان داد. این مدل در بنچمارکهای GenEval و DPG-Bench بهطور قابلتوجهی از روشهای اخیر مانند BAGEL و BLIP3o بهتر عمل کرده و در بنچمارک ویرایش تصویر ImgEdit، از مدلهای متنباز اخیر مانند OminiGen2 پیشی گرفته و با مدلهای اختصاصی مانند GPT-Image-1 قابلرقابت است.
محققان اشاره میکنند که UniGen 1.5 در تولید متن و همچنین در حفظ هویت یکپارچه سوژه در شرایط خاص با مشکلاتی مواجه است. بهعنوانمثال، این مدل در رندر دقیق کاراکترهای متنی با چالش مواجه است. همچنین در برخی نمونهها، تغییرات قابلمشاهدهای در هویت سوژه، مانند تغییر در بافت و شکل خز گربه یا تفاوت در رنگ پر پرنده، دیده میشود. UniGen 1.5 برای رفع این محدودیتها نیاز به بهبودهای بیشتری دارد.
بهنظر شما اپل از این فناوری در کدامیک از محصولات آینده خود، مانند Apple Intelligence، استفاده خواهد کرد؟