اگر تا کنون فکر میکردید که در میان ابزارهای آنلاین، سرویس ترجمه گوگل یا سرویسهای جستجو عکس بسیار توانا و عجیب و غریب هستند، باید بگوییم که سخت در اشتباه بودهاید. زیرا اکنون موتور تولید متن به تصویر متا معرفی شده است که قابلیت تبدیل متون به تصاویر را ارائه میدهد. با ترنجی همراه باشید.
در فراجهان، قوانینی متفاوت از کیهانی که ما در آن زندگی میکنیم وجود خواهد داشت. عملا هر کسی میتواند هر چیزی را که به ذهنش میآید خلق کند. به نوعی، هیچ محدودیتی وجود نخواهد داشت. اما از آنجایی که ما در مورد دنیای جدیدی صحبت میکنیم، جایی که کامپیوترها و انسانها در کنار هم زندگی و کار خواهند کرد، منطقی است که بدانیم این همکاری چگونه انجام خواهد شد.
یکی از این همکاریها، تبدیل متن به تصویر است که در حال حاضر بسیار محبوب و دوست داشتنی است. به عنوان مثال، OpenAI سرویس Craiyon خود را ارائه میدهد، در حالی که گوگل از Imagen AI استفاده میکند. اخیرا متا که یکی از بازیگران پیشرو در زمینه هوش مصنوعی است، موتور تبدیل متن به تصویر مبتنی بر هوش مصنوعی خود را معرفی کرده است. همانطور که شرکت متا گفته است، این موتور جدید به مردم کمک میکند تا هنر فراگیرتری را در متاورس خلق کنند. بنابراین حالا متا موتور تبدیل متن به تصویر مخصوص به خود را دارد.
تشریح عملکرد این موتور (تبدیل متن به تصویر ) بر روی کاغذ، کاملا ساده و راحت است. به عنوان مثال، وقتی جمله “اسبی در بیمارستان وجود دارد” را میگویید، موتور ابتدا آن را از طریق یک مدل ترانسفورماتور و یک شبکه عصبی عبور میدهد، سپس آنچه شما گفتهاید را درک کرده و درک متنی از رابطه آنها با یکدیگر را ایجاد میکند. هنگامی که این موتور، تمام مراحل ذکر شده را انجام داد و متوجه منظور شما شد، با استفاده از مجموعهای از GAN ها (Generative Adversarial Networks) را با کمک هوش مصنوعی تصویری ایجاد میکند.
به گفته GizChina، با توجه به توسعه سیستم یادگیری ماشین و تواناییهای ویژه آن در مبحث خودآموزی، موتورهای تبدیل متن به تصویر قادر به ایجاد هر مدل طرح تصویری که شما بخواهید، هستند. میتوان گفت که همه موتورها بر اساس یک اصل کار میکنند. با این حال، هرکدام از آنها از نظر پردازش هوش مصنوعی متفاوت هستند.
برای مثال، Imagen گوگل یک مدل Diffusion را ترجیح میدهد که ابتدا یاد میگیرد الگوی نقاط تصادفی را به تصاویر تبدیل کند. این تصاویر ابتدا با وضوح پایین شروع میشوند و سپس به تدریج وضوح آنها افزایش مییابد. از سوی دیگر، Parti AI گوگل، ابتدا مجموعهای از تصاویر را به دنبالهای از ورودیهای کد، شبیه به قطعات پازل، تبدیل میکند. سپس یک دستور متن داده شده به این ورودیهای کد ترجمه میشود و یک تصویر جدید ایجاد میگردد.
با این حال، باید بدانید که به عنوان یک کاربر، کنترلی بر جنبههای خاص تصویر خروجی ندارید. مارک زاکربرگ، مدیرعامل متا، روز سهشنبه در وبلاگ خود گفت که برای درک پتانسیل هوش مصنوعی جهت پیشبرد بیان خلاقانه، مردم باید بتوانند محتوایی را که یک سیستم تولید میکند، شکل داده و کنترل نمایند.