موتور تبدیل متن به تصویر متا معرفی شد

اگر تا کنون فکر می‌کردید که در میان ابزارهای آنلاین، سرویس ترجمه گوگل یا سرویس‌های جستجو عکس بسیار توانا و عجیب و غریب هستند، باید بگوییم که سخت در اشتباه بوده‌اید. زیرا اکنون موتور تولید متن به تصویر متا معرفی شده است که قابلیت تبدیل متون به تصاویر را ارائه می‌دهد. با ترنجی همراه باشید.

موتور تبدیل متن به تصویر متا با رویکردی خلاقانه معرفی شد

در فراجهان، قوانینی متفاوت از کیهانی که ما در آن زندگی می‌کنیم وجود خواهد داشت. عملا هر کسی می‌تواند هر چیزی را که به ذهنش می‌آید خلق کند. به نوعی، هیچ محدودیتی وجود نخواهد داشت. اما از آنجایی که ما در مورد دنیای جدیدی صحبت می‌کنیم، جایی که کامپیوترها و انسان‌ها در کنار هم زندگی و کار خواهند کرد، منطقی است که بدانیم این همکاری چگونه انجام خواهد شد.

یکی از این همکاری‌ها، تبدیل متن به تصویر است که در حال حاضر بسیار محبوب و دوست داشتنی است. به عنوان مثال، OpenAI سرویس Craiyon خود را ارائه می‌دهد، در حالی که گوگل از Imagen AI استفاده می‌کند. اخیرا متا که یکی از بازیگران پیشرو در زمینه هوش مصنوعی است، موتور تبدیل متن به تصویر مبتنی بر هوش مصنوعی خود را معرفی کرده است. همانطور که شرکت متا گفته است، این موتور جدید به مردم کمک می‌کند تا هنر فراگیرتری را در متاورس خلق کنند. بنابراین حالا متا موتور تبدیل متن به تصویر مخصوص به خود را دارد.

موتور تولید متن به تصویر متا

تشریح عملکرد این موتور (تبدیل متن به تصویر ) بر روی کاغذ، کاملا ساده و راحت است. به عنوان مثال، وقتی جمله “اسبی در بیمارستان وجود دارد” را می‌گویید، موتور ابتدا آن را از طریق یک مدل ترانسفورماتور و یک شبکه عصبی عبور می‌دهد، سپس آنچه شما گفته‌اید را درک کرده و درک متنی از رابطه آن‌ها با یکدیگر را ایجاد می‌کند. هنگامی که این موتور، تمام مراحل ذکر شده را انجام داد و متوجه منظور شما شد، با استفاده از مجموعه‌ای از GAN ها (Generative Adversarial Networks) را با کمک هوش مصنوعی تصویری ایجاد می‌کند.

به گفته GizChina، با توجه به توسعه سیستم یادگیری ماشین و توانایی‌های ویژه آن در مبحث خودآموزی، موتورهای تبدیل متن به تصویر قادر به ایجاد هر مدل طرح تصویری که شما بخواهید، هستند. می‌توان گفت که همه موتورها بر اساس یک اصل کار می‌کنند. با این حال، هرکدام از آن‌ها از نظر پردازش هوش مصنوعی متفاوت هستند.

برای مثال، Imagen گوگل یک مدل Diffusion را ترجیح می‌دهد که ابتدا یاد می‌گیرد الگوی نقاط تصادفی را به تصاویر تبدیل کند. این تصاویر ابتدا با وضوح پایین شروع می‌شوند و سپس به تدریج وضوح آن‌ها افزایش می‌یابد. از سوی دیگر، Parti AI گوگل، ابتدا مجموعه‌ای از تصاویر را به دنباله‌ای از ورودی‌های کد، شبیه به قطعات پازل، تبدیل می‌کند. سپس یک دستور متن داده شده به این ورودی‌های کد ترجمه می‌شود و یک تصویر جدید ایجاد می‌گردد.

با این حال، باید بدانید که به عنوان یک کاربر، کنترلی بر جنبه‌های خاص تصویر خروجی ندارید. مارک زاکربرگ، مدیرعامل متا، روز سه‌شنبه در وبلاگ خود گفت که برای درک پتانسیل هوش مصنوعی جهت پیشبرد بیان خلاقانه، مردم باید بتوانند محتوایی را که یک سیستم تولید می‌کند، شکل داده و کنترل نمایند.

GizChina