گوگل با معرفی مدل Gemini 2.5 Flash Image گام تازهای در عرصه تولید و ویرایش تصویر مبتنی بر هوش مصنوعی برداشته است. این مدل تازه، که با نام غیررسمی «nano-banana» نیز شناخته میشود، برای ارائه تصاویری دقیق، حفظ هماهنگی ظاهری سوژهها و ویرایش با دستورهای زبانی طبیعی طراحی شده است.
گوگل مدل هوش مصنوعی Gemini 2.5 Flash Image را بهعنوان تازهترین دستاورد خود در حوزه تولید و ویرایش تصویر معرفی کرد. این مدل بهطور ویژه بر دقت در حفظ ظاهر سوژهها، رعایت الگوهای بصری و انجام تغییرات هدفمند با استفاده از زبان طبیعی تمرکز دارد.
مطابق با گزارش منبع، این مدل جدید با قرار گرفتن در صدر جدول رتبهبندی Image Edit Arena در وبسایت LMArena، موفق شد مدل FLUX.1 Kontext را از نظر امتیاز و محبوبیت پشتسر بگذارد. اکنون این مدل بهطور مستقیم در اپلیکیشن Gemini در دسترس کاربران قرار گرفته تا بتوانند تصاویر دلخواه خود را خلق و ویرایش کنند.
حفظ ظاهر سوژه در همه تغییرات: کاربران میتوانند عکس خود یا حیوان خانگیشان را بارگذاری کرده و لباس، مکان یا پسزمینه تصویر را تغییر دهند، بدون آنکه هویت ظاهری سوژه دستخوش تغییر شود.
ترکیب چند تصویر برای خلق صحنه جدید: امکان بارگذاری چندین عکس و ادغام آنها با دستور زبانی ساده فراهم شده است.
ویرایش چندمرحلهای: کاربران میتوانند بهطور پیاپی ویرایشهای دلخواه خود را روی تصاویر اعمال کنند.
ترکیب سبکها و طراحی خلاقانه: میتوان بافت یا رنگ یک تصویر را روی اشیای تصویر دیگر اعمال کرد؛ برای مثال استفاده از رنگ گلبرگها برای طراحی کفش بارانی یا الگوی بال پروانه برای دوخت لباس.
مدل Gemini 2.5 Flash Image اکنون برای عموم کاربران از طریق اپلیکیشن Google Gemini در دسترس است. همچنین توسعهدهندگان میتوانند از طریق Gemini API ،Google AI Studio و کسبوکارها از طریق Vertex AI به این مدل دسترسی داشته باشند.
این سرویس با قیمت ۳۰ دلار برای هر یک میلیون توکن خروجی عرضه شده و هر تصویر معادل ۱۲۹۰ توکن (حدود ۰.۰۳۹ دلار) هزینه خواهد داشت.
تمامی تصاویر تولید یا ویرایششده با این مدل دارای نشانگذاری آشکار و واترمارک دیجیتال نامرئی SynthID هستند تا مشخص باشد که توسط هوش مصنوعی ساخته شدهاند.
رونمایی از مدل Gemini 2.5 Flash Image گام بزرگی برای گوگل در رقابت جهانی هوش مصنوعی است. این مدل نهتنها قدرت ویرایش تصاویر را با دقتی بیسابقه دارد، بلکه امکان طراحی خلاقانه و شخصیسازی شده را برای کاربران و توسعهدهندگان فراهم میآورد. نظر شما چیست؟