هوش مصنوعی تولید تصویر GPT‑4o شرکت OpenAI با یادگیری متنی رونمایی شد

برند OpenAI به‌تازگی اعلام کرده است که هوش مصنوعی تولید تصویر GPT‑4o به‌عنوان پیشرفته‌ترین مدل تولید تصویر خود را منتشر کرده است. هدف این مدل که در GPT-4o یکپارچه شده است، ایجاد تصاویری است که «هم زیبا و هم کاربردی» باشند.

هوش مصنوعی تولید تصویر GPT‑4o

هوش مصنوعی GPT‑4o Image Generation

دقت در نمایش متن

GPT-4o به‌گونه‌ای طراحی شده است که می‌تواند نمادها و متن را به‌صورت هماهنگ در تصاویر جایگذاری کند. این ویژگی به کاربران اجازه می‌دهد اطلاعات را با شفافیت و دقت بیشتری منتقل کنند.

بهبود تعاملی

کاربران می‌توانند در تعاملات چندمرحله‌ای شرکت کنند و تصاویر را ازطریق مکالمه بهینه کنند. به‌عنوان‌مثال، در طراحی شخصیت یک بازی ویدیویی، GPT-4o اطمینان می‌دهد که ویژگی‌ها و مشخصات شخصیت در تمامی تکرارها یکسان باقی بمانند.

دنبال‌کردن دقیق دستورالعمل‌ها

OpenAI اشاره کرد که سیستم‌های قبلی در نمایش حدود ۵ تا ۸ شیء دچار مشکل می‌شدند، اما GPT-4o می‌تواند به‌طور دقیق دستورالعمل‌هایی شامل ۱۰ تا ۲۰ شیء را پردازش کند. این امر کنترل بهتری بر روی ویژگی‌ها، روابط و جزئیات فراهم می‌کند.

آگاهی از زمینه

این سیستم قادر است تصاویر بارگذاری‌شده توسط کاربران را تحلیل کند و از جزئیات آن‌ها برای بهبود و افزایش کیفیت تصاویر تولیدشده استفاده کند.

تنوع سبکی و واقع‌گرایی

با آموزش بر روی طیف گسترده‌ای از سبک‌ها، GPT-4o می‌تواند تصاویر واقع‌گرایانه تولید کند یا تصاویر را به نمایش‌های هنری تبدیل کند که با ترجیحات کاربران هماهنگ باشند.

هوش مصنوعی تولید تصویر GPT‑4o

بررسی محدودیت‌ها

با وجود پیشرفت‌های قابل‌توجه، OpenAI به برخی از نقاط ضعف GPT-4o Image Generation نیز اشاره کرده است. به‌عنوان‌مثال، این مدل گاهی تصاویر بلندتر، مانند پوسترها، را به‌صورت بیش از حد تنگ برش می‌دهد، به‌ویژه در بخش پایینی. OpenAI تأکید می‌کند که برنامه‌ریزی برای حل این مشکلات ازطریق به‌روزرسانی‌های بعدی در دست اقدام است.

OpenAI متعهد به استفاده اخلاقی و مسئولانه از هوش مصنوعی است و اقدامات زیر را اجرا کرده است:

متادیتا C2PA: تمامی تصاویر تولیدشده شامل متادیتا C2PA هستند تا با علامت‌گذاری به‌عنوان تصاویر تولیدشده توسط هوش مصنوعی، شفافیت فراهم شود.
ابزارهای جستجوی داخلی: ابزارهای اختصاصی برای تأیید منشأ محتوا با استفاده از ویژگی‌های فنی در دسترس هستند.
اجرای سیاست‌های سخت‌گیرانه: OpenAI درخواست‌های مرتبط با محتوای خشونت‌آمیز، تصاویر صریح یا دیپ‌فیک‌های مضر را مسدود می‌کند. اقدامات ایمنی تقویت‌شده‌ای برای تصاویر شامل افراد واقعی وجود دارد.
یکپارچه‌سازی مدل زبانی مبتنی‌بر استدلال: یک مدل زبانی مبتنی‌بر استدلال در طول توسعه استفاده شده است تا ابهامات موجود در سیاست‌های ایمنی را حل کند و تأیید شود که مطابق با استانداردهای اخلاقی OpenAI عمل می‌کند.

این شرکت همچنین توضیح می‌دهد که انسان‌ها از دیرباز از ابزارهای بصری، از نقاشی‌های غاری تا انفوگرافیک‌های مدرن، برای ارتباط و تحلیل اطلاعات استفاده کرده‌اند. GPT-4o شکاف بین بیان هنری و کاربرد عملی را پر می‌کند و امکان ایجاد تصاویری مانند لوگو، نمودارها و طرح‌های اطلاعاتی را فراهم می‌کند که معانی دقیق را منتقل می‌کنند.

دسترسی و در دسترس بودن

انتشار این قابلیت از تاریخ ۲۵ مارس ۲۰۲۵ (۵ فروردین ۱۴۰۴) برای کاربران Plus ،Pro ،Team و Free در ChatGPT آغاز شده است. دسترسی برای کاربران Enterprise و Edu نیز به‌زودی ارائه خواهد شد. همچنین، کاربران Sora اکنون می‌توانند از قابلیت‌های تولید تصویر GPT-4o استفاده کنند. OpenAI اعلام کرده است که توسعه‌دهندگان در هفته‌های آینده به API دسترسی خواهند داشت.

کاربران می‌توانند با توصیف ساده نیازهای خود ازطریق GPT-4o، تصاویر سفارشی تولید کنند. این سیستم از مشخصات دقیقی مانند نسبت‌های ابعاد، کدهای رنگ HEX و پس‌زمینه‌های شفاف پشتیبانی می‌کند. بااین‌حال، OpenAI تأکید کرد که تولید این تصاویر پیچیده ممکن است تا یک دقیقه زمان ببرد.

سخن پایانی

GPT-4o Image Generation با ترکیب دقت، تعامل و تنوع سبکی، یک ابزار قدرتمند برای تولید تصاویر زیبا و کاربردی است. این قابلیت نه‌تنها به کاربران اجازه می‌دهد خلاقیت خود را بیان کنند، بلکه در حوزه‌های مختلفی مانند طراحی، آموزش و ارتباطات کاربردی قابل‌توجهی دارد. با توجه به تلاش‌های OpenAI برای بهبود ایمنی و اخلاقی بودن این فناوری، انتظار می‌رود که این ابزار به‌سرعت محبوبیت پیدا کند.