برند OpenAI بهتازگی اعلام کرده است که هوش مصنوعی تولید تصویر GPT‑4o بهعنوان پیشرفتهترین مدل تولید تصویر خود را منتشر کرده است. هدف این مدل که در GPT-4o یکپارچه شده است، ایجاد تصاویری است که «هم زیبا و هم کاربردی» باشند.
دقت در نمایش متن
GPT-4o بهگونهای طراحی شده است که میتواند نمادها و متن را بهصورت هماهنگ در تصاویر جایگذاری کند. این ویژگی به کاربران اجازه میدهد اطلاعات را با شفافیت و دقت بیشتری منتقل کنند.
بهبود تعاملی
کاربران میتوانند در تعاملات چندمرحلهای شرکت کنند و تصاویر را ازطریق مکالمه بهینه کنند. بهعنوانمثال، در طراحی شخصیت یک بازی ویدیویی، GPT-4o اطمینان میدهد که ویژگیها و مشخصات شخصیت در تمامی تکرارها یکسان باقی بمانند.
دنبالکردن دقیق دستورالعملها
OpenAI اشاره کرد که سیستمهای قبلی در نمایش حدود ۵ تا ۸ شیء دچار مشکل میشدند، اما GPT-4o میتواند بهطور دقیق دستورالعملهایی شامل ۱۰ تا ۲۰ شیء را پردازش کند. این امر کنترل بهتری بر روی ویژگیها، روابط و جزئیات فراهم میکند.
آگاهی از زمینه
این سیستم قادر است تصاویر بارگذاریشده توسط کاربران را تحلیل کند و از جزئیات آنها برای بهبود و افزایش کیفیت تصاویر تولیدشده استفاده کند.
تنوع سبکی و واقعگرایی
با آموزش بر روی طیف گستردهای از سبکها، GPT-4o میتواند تصاویر واقعگرایانه تولید کند یا تصاویر را به نمایشهای هنری تبدیل کند که با ترجیحات کاربران هماهنگ باشند.
با وجود پیشرفتهای قابلتوجه، OpenAI به برخی از نقاط ضعف GPT-4o Image Generation نیز اشاره کرده است. بهعنوانمثال، این مدل گاهی تصاویر بلندتر، مانند پوسترها، را بهصورت بیش از حد تنگ برش میدهد، بهویژه در بخش پایینی. OpenAI تأکید میکند که برنامهریزی برای حل این مشکلات ازطریق بهروزرسانیهای بعدی در دست اقدام است.
OpenAI متعهد به استفاده اخلاقی و مسئولانه از هوش مصنوعی است و اقدامات زیر را اجرا کرده است:
این شرکت همچنین توضیح میدهد که انسانها از دیرباز از ابزارهای بصری، از نقاشیهای غاری تا انفوگرافیکهای مدرن، برای ارتباط و تحلیل اطلاعات استفاده کردهاند. GPT-4o شکاف بین بیان هنری و کاربرد عملی را پر میکند و امکان ایجاد تصاویری مانند لوگو، نمودارها و طرحهای اطلاعاتی را فراهم میکند که معانی دقیق را منتقل میکنند.
انتشار این قابلیت از تاریخ ۲۵ مارس ۲۰۲۵ (۵ فروردین ۱۴۰۴) برای کاربران Plus ،Pro ،Team و Free در ChatGPT آغاز شده است. دسترسی برای کاربران Enterprise و Edu نیز بهزودی ارائه خواهد شد. همچنین، کاربران Sora اکنون میتوانند از قابلیتهای تولید تصویر GPT-4o استفاده کنند. OpenAI اعلام کرده است که توسعهدهندگان در هفتههای آینده به API دسترسی خواهند داشت.
کاربران میتوانند با توصیف ساده نیازهای خود ازطریق GPT-4o، تصاویر سفارشی تولید کنند. این سیستم از مشخصات دقیقی مانند نسبتهای ابعاد، کدهای رنگ HEX و پسزمینههای شفاف پشتیبانی میکند. بااینحال، OpenAI تأکید کرد که تولید این تصاویر پیچیده ممکن است تا یک دقیقه زمان ببرد.
سخن پایانی
GPT-4o Image Generation با ترکیب دقت، تعامل و تنوع سبکی، یک ابزار قدرتمند برای تولید تصاویر زیبا و کاربردی است. این قابلیت نهتنها به کاربران اجازه میدهد خلاقیت خود را بیان کنند، بلکه در حوزههای مختلفی مانند طراحی، آموزش و ارتباطات کاربردی قابلتوجهی دارد. با توجه به تلاشهای OpenAI برای بهبود ایمنی و اخلاقی بودن این فناوری، انتظار میرود که این ابزار بهسرعت محبوبیت پیدا کند.