ترکیب بینایی و زبان در هوش مصنوعی می‌تواند کلید آینده بهتر این علم باشد

هوش مصنوعی پدیده‌ای است که در یک دهه اخیر بیش از هر زمان دیگری مورد توجه قرار گرفته است. علت آن نیز بی شک پیشرفت بشر در زمینه توسعه نرم‌افزاری و سخت‌افزاری است. اما با این وجود، ترکیب بینایی و زبان در هوش مصنوعی می‌تواند کلید آینده بهتر این علم باشد. با ترنجی همراه باشید.

ترکیب بینایی و زبان در هوش مصنوعی باعث انقلابی در این علم خواهد شد

بسته به تئوری هوشی که معتقد به آن هستید، دستیابی به هوش مصنوعی در سطح انسانی، به سیستمی نیاز دارد که بتواند از روش‌های متعددی مانند صدا، بینایی و متن برای استدلال درباره جهان استفاده کند. به عنوان مثال، هنگامی که تصویری از یک کامیون سرنگون شده و یک قایق پلیس در یک آزادراه برفی نشان داده می‌شود، یک هوش مصنوعی در سطح انسانی ممکن است استنباط کند که شرایط جاده خطرناک باعث تصادف شده است. یا با دویدن روی یک ربات، وقتی از آن‌ها خواسته می‌شود یک قوطی نوشابه را از یخچال بیرون بیاورند، در اطراف افراد، مبلمان و حیوانات خانگی حرکت می‌کنند تا قوطی را بازیابی کنند و آن را به درخواست‌ دهنده تحویل دهند.

هوش مصنوعی امروزی محدود و کم عمق است. اما تحقیقات جدید نشانه‌هایی از پیشرفت امیدوار کننده علم بشری در توسعه روبات‌هایی که می‌توانند گام‌هایی را برای برآورده کردن دستورات اولیه تا سیستم‌های تولید متن که از توضیحات یاد می‌گیرند را نشان می‌دهد. در این مطلب، درباره آخرین پیشرفت‌های هوش مصنوعی و حوزه علمی گسترده‌تر و کارهایی از DeepMind، Google و OpenAI صحبت خواهیم کرد که می‌تواند به سمت سیستم‌هایی که قادر به تفکر است گام بردارند.

آزمایشگاه تحقیقاتی هوش مصنوعی DALL-E، نسخه بهبود یافته OpenAI که DALL-E 2 است، به راحتی چشمگیرترین پروژه‌ای است که از اعماق یک آزمایشگاه تحقیقاتی درباره هوش مصنوعی بیرون آمده است. همانطور که Devin Coldewey می‌نویسد، DALL-E اصلی توانایی قابل توجهی در ایجاد تصاویری برای مطابقت با هر درخواستی نشان داده است (به عنوان مثال، “سگی که کلاه بر سر دارد”)، حالا تصور کنید که DALL-E 2 این توان را حتی فراتر نیز می‌برد. تصاویری که این هوش مصنوعی تولید می‌کند بسیار دقیق‌تر هستند. DALL-E 2 می‌تواند به طور هوشمندانه‌ای جایگزین یک ناحیه معین در یک تصویر شود. به عنوان مثال، قرار دادن یک جدول در عکسی از یک کف مرمری پر از بازتاب‌های مناسب.

ترکیب بینایی و زبان در هوش مصنوعی

هوش مصنوعی DALL-E 2 در این هفته بیشتر مورد توجه قرار گرفت. اما روز پنجشنبه، محققان گوگل در پستی که در وبلاگ هوش مصنوعی این شرکت منتشر شد، گفته‌اند که یک سیستم هوش مصنوعی بسیار توانمند برای درک بصری به نام VDTTS (مخفف Visually-Driven Prosody for Text-to-Speech ) را توسعه داده‌اند. VDTTS می‌تواند گفتاری با صدای واقع گرایانه و همگام سازی لب ایجاد کند که چیزی بیشتر از متن و فریم‌های ویدئویی از فردی که در حال صحبت کردن است، نیست.

گفتار تولید شده توسط VDTTS، اگرچه یک پایه کامل برای دیالوگ‌های ضبط شده نیست، اما بازهم خیلی خوب و شگفت انگیز است که با بیان و زمان بندی متقاعد کننده‌ای، شبیه به انسان صحبت می‌کند. گوگل می‌گوید که یک روز از آن در یک استودیو برای جایگزینی صدای اصلی که ممکن است در شرایط نویز ضبط شده باشد استفاده می‌کند.

البته درک بصری تنها یک قدم در مسیر رسیدن به هوش مصنوعی توانمندتر است. مؤلفه دیگر درک زبان است که در بسیاری از جنبه‌ها عقب مانده است. حتی با کنار گذاشتن جهت‌ گیری‌های مستند هوش مصنوعی. در یک مثال واضح، یک سیستم پیشرفته از PaLM گوگل (مخفف Pathways Language Model)، طبق یک مقاله، ۴۰ درصد از داده‌هایی را که برای آموزش آن استفاده می‌شد، حفظ کرد و در نتیجه PALM متن را به سرقت ادبی تا اطلاعیه‌های حق نسخه‌برداری در آن تبدیل کرد.

دیپ مایند گوگل به دنبال توسعه راهکارهای خلاقانه‌تری است

خوشبختانه، DeepMind، آزمایشگاه هوش مصنوعی که توسط Alphabet پشتیبانی می‌شود، یکی از آن‌هایی است که در حال بررسی تکنیک‌هایی برای رفع این مشکل است. در یک مطالعه جدید، محققان DeepMind بررسی کردند که آیا سیستم‌های زبان هوش مصنوعی که یاد می‌گیرند متن را از بسیاری از نمونه‌های متن موجود (کتاب‌های فکری و رسانه‌های اجتماعی) تولید کنند، می‌توانند از توضیح آن متون بهره ببرند یا خیر.

پس از حاشیه‌ نویسی ده‌ها تکلیف زبانی (مثلا با مشخص کردن اینکه آیا جمله دوم عبارت استعاری مناسبی از جمله اول است یا نه، به این سؤال‌ها پاسخ دهید) همراه با توضیحات (مثلا چشم‌های داوود به معنای واقعی کلمه خنجر نبود، این استعاره‌ای است که نشان می‌دهد که داوود به شدت به پل نگاه می‌کرد) و با ارزیابی عملکرد سیستم‌های مختلف روی آن‌ها، تیم DeepMind دریافت که نمونه‌ها، واقعا عملکرد سیستم‌ها را بهبود می‌بخشند.

رویکرد DeepMind، اگر در جامعه آکادمیک به نتیجه برسد، می‌تواند روزی در علم رباتیک به کار گرفته شود و بخش‌های مهم سازنده رباتی را تشکیل دهد که می‌تواند درخواست‌های مبهم (مثلا آشغال‌ها رو ببر بذار بیرون) بدون دستور العمل‌های گام به گام درک کند. پروژه جدید گوگل با نام «آنطور که می‌توانم انجام بده، نه آنطور که می‌گویم» نگاهی اجمالی به این آینده دارد که البته با محدودیت‌های قابل توجه همراه است.

ترکیب بینایی و زبان در هوش مصنوعی

همکاری بین Robotics در Google و تیم Everyday Robotics در آزمایشگاه Do As I Can, Not As I Say آلفابت به دنبال شرطی کردن یک سیستم زبان هوش مصنوعی است تا اقدامات “امکان پذیر” و “مناسب” را برای یک ربات، با توجه به شرایط دلخواه، ارائه دهد. وظیفه ربات به‌عنوان دست‌ها و چشم‌های سیستم زبان عمل می‌کند، در حالی که سیستم دانش معنایی سطح بالایی را در مورد کار ارائه می‌کند، این تئوری این است که سیستم زبان، دانش مفیدی را برای ربات رمزگذاری می‌کند.

به گفته TechCrunch، سیستمی به نام SayCan، با در نظر گرفتن احتمال مفید بودن یک مهارت و امکان اجرای موفقیت آمیز آن مهارت مذکور، انتخاب می‌کند که ربات کدام مهارت را در پاسخ به یک دستور انجام دهد. به عنوان مثال، در پاسخ به کسی که می‌گوید «من چایم را ریختم، می‌توانی چیزی برای من بیاوری تا آن را تمیز کنم؟ SayCan می‌تواند ربات را هدایت کند تا اسفنجی را پیدا کند، سپس اسفنج را بردارد و آن را برای شخصی که درخواست کرده است بیاورد.

SayCan توسط سخت افزار روباتیک محدود شده است و در بیش از یک مورد، تیم تحقیقاتی رباتی را مشاهده کردند که آن‌ها برای انجام آزمایشاتی انتخاب کردند که به طور تصادفی اشیا را رها کند. با این حال، همراه با DALL-E 2 و کار DeepMind در درک زمینه‌ای، تصویری از این واقعیت است که چگونه سیستم‌های هوش مصنوعی در صورت ترکیب می‌توانند ما را به آینده‌ای پیشرفته‌تر نزدیک کنند. نظر شما در مورد ترکیب بینایی و زبان در هوش مصنوعی چیست؟ آیا دستیابی به چنین سیستم هوش مصنوعی قدرتمندی که توان درک و تحلیل منطقی داشته باشد امکان پذیر است؟

TechCrunch