هوش مصنوعی پدیدهای است که در یک دهه اخیر بیش از هر زمان دیگری مورد توجه قرار گرفته است. علت آن نیز بی شک پیشرفت بشر در زمینه توسعه نرمافزاری و سختافزاری است. اما با این وجود، ترکیب بینایی و زبان در هوش مصنوعی میتواند کلید آینده بهتر این علم باشد. با ترنجی همراه باشید.
بسته به تئوری هوشی که معتقد به آن هستید، دستیابی به هوش مصنوعی در سطح انسانی، به سیستمی نیاز دارد که بتواند از روشهای متعددی مانند صدا، بینایی و متن برای استدلال درباره جهان استفاده کند. به عنوان مثال، هنگامی که تصویری از یک کامیون سرنگون شده و یک قایق پلیس در یک آزادراه برفی نشان داده میشود، یک هوش مصنوعی در سطح انسانی ممکن است استنباط کند که شرایط جاده خطرناک باعث تصادف شده است. یا با دویدن روی یک ربات، وقتی از آنها خواسته میشود یک قوطی نوشابه را از یخچال بیرون بیاورند، در اطراف افراد، مبلمان و حیوانات خانگی حرکت میکنند تا قوطی را بازیابی کنند و آن را به درخواست دهنده تحویل دهند.
هوش مصنوعی امروزی محدود و کم عمق است. اما تحقیقات جدید نشانههایی از پیشرفت امیدوار کننده علم بشری در توسعه روباتهایی که میتوانند گامهایی را برای برآورده کردن دستورات اولیه تا سیستمهای تولید متن که از توضیحات یاد میگیرند را نشان میدهد. در این مطلب، درباره آخرین پیشرفتهای هوش مصنوعی و حوزه علمی گستردهتر و کارهایی از DeepMind، Google و OpenAI صحبت خواهیم کرد که میتواند به سمت سیستمهایی که قادر به تفکر است گام بردارند.
آزمایشگاه تحقیقاتی هوش مصنوعی DALL-E، نسخه بهبود یافته OpenAI که DALL-E 2 است، به راحتی چشمگیرترین پروژهای است که از اعماق یک آزمایشگاه تحقیقاتی درباره هوش مصنوعی بیرون آمده است. همانطور که Devin Coldewey مینویسد، DALL-E اصلی توانایی قابل توجهی در ایجاد تصاویری برای مطابقت با هر درخواستی نشان داده است (به عنوان مثال، “سگی که کلاه بر سر دارد”)، حالا تصور کنید که DALL-E 2 این توان را حتی فراتر نیز میبرد. تصاویری که این هوش مصنوعی تولید میکند بسیار دقیقتر هستند. DALL-E 2 میتواند به طور هوشمندانهای جایگزین یک ناحیه معین در یک تصویر شود. به عنوان مثال، قرار دادن یک جدول در عکسی از یک کف مرمری پر از بازتابهای مناسب.
هوش مصنوعی DALL-E 2 در این هفته بیشتر مورد توجه قرار گرفت. اما روز پنجشنبه، محققان گوگل در پستی که در وبلاگ هوش مصنوعی این شرکت منتشر شد، گفتهاند که یک سیستم هوش مصنوعی بسیار توانمند برای درک بصری به نام VDTTS (مخفف Visually-Driven Prosody for Text-to-Speech ) را توسعه دادهاند. VDTTS میتواند گفتاری با صدای واقع گرایانه و همگام سازی لب ایجاد کند که چیزی بیشتر از متن و فریمهای ویدئویی از فردی که در حال صحبت کردن است، نیست.
گفتار تولید شده توسط VDTTS، اگرچه یک پایه کامل برای دیالوگهای ضبط شده نیست، اما بازهم خیلی خوب و شگفت انگیز است که با بیان و زمان بندی متقاعد کنندهای، شبیه به انسان صحبت میکند. گوگل میگوید که یک روز از آن در یک استودیو برای جایگزینی صدای اصلی که ممکن است در شرایط نویز ضبط شده باشد استفاده میکند.
البته درک بصری تنها یک قدم در مسیر رسیدن به هوش مصنوعی توانمندتر است. مؤلفه دیگر درک زبان است که در بسیاری از جنبهها عقب مانده است. حتی با کنار گذاشتن جهت گیریهای مستند هوش مصنوعی. در یک مثال واضح، یک سیستم پیشرفته از PaLM گوگل (مخفف Pathways Language Model)، طبق یک مقاله، ۴۰ درصد از دادههایی را که برای آموزش آن استفاده میشد، حفظ کرد و در نتیجه PALM متن را به سرقت ادبی تا اطلاعیههای حق نسخهبرداری در آن تبدیل کرد.
خوشبختانه، DeepMind، آزمایشگاه هوش مصنوعی که توسط Alphabet پشتیبانی میشود، یکی از آنهایی است که در حال بررسی تکنیکهایی برای رفع این مشکل است. در یک مطالعه جدید، محققان DeepMind بررسی کردند که آیا سیستمهای زبان هوش مصنوعی که یاد میگیرند متن را از بسیاری از نمونههای متن موجود (کتابهای فکری و رسانههای اجتماعی) تولید کنند، میتوانند از توضیح آن متون بهره ببرند یا خیر.
پس از حاشیه نویسی دهها تکلیف زبانی (مثلا با مشخص کردن اینکه آیا جمله دوم عبارت استعاری مناسبی از جمله اول است یا نه، به این سؤالها پاسخ دهید) همراه با توضیحات (مثلا چشمهای داوود به معنای واقعی کلمه خنجر نبود، این استعارهای است که نشان میدهد که داوود به شدت به پل نگاه میکرد) و با ارزیابی عملکرد سیستمهای مختلف روی آنها، تیم DeepMind دریافت که نمونهها، واقعا عملکرد سیستمها را بهبود میبخشند.
رویکرد DeepMind، اگر در جامعه آکادمیک به نتیجه برسد، میتواند روزی در علم رباتیک به کار گرفته شود و بخشهای مهم سازنده رباتی را تشکیل دهد که میتواند درخواستهای مبهم (مثلا آشغالها رو ببر بذار بیرون) بدون دستور العملهای گام به گام درک کند. پروژه جدید گوگل با نام «آنطور که میتوانم انجام بده، نه آنطور که میگویم» نگاهی اجمالی به این آینده دارد که البته با محدودیتهای قابل توجه همراه است.
همکاری بین Robotics در Google و تیم Everyday Robotics در آزمایشگاه Do As I Can, Not As I Say آلفابت به دنبال شرطی کردن یک سیستم زبان هوش مصنوعی است تا اقدامات “امکان پذیر” و “مناسب” را برای یک ربات، با توجه به شرایط دلخواه، ارائه دهد. وظیفه ربات بهعنوان دستها و چشمهای سیستم زبان عمل میکند، در حالی که سیستم دانش معنایی سطح بالایی را در مورد کار ارائه میکند، این تئوری این است که سیستم زبان، دانش مفیدی را برای ربات رمزگذاری میکند.
به گفته TechCrunch، سیستمی به نام SayCan، با در نظر گرفتن احتمال مفید بودن یک مهارت و امکان اجرای موفقیت آمیز آن مهارت مذکور، انتخاب میکند که ربات کدام مهارت را در پاسخ به یک دستور انجام دهد. به عنوان مثال، در پاسخ به کسی که میگوید «من چایم را ریختم، میتوانی چیزی برای من بیاوری تا آن را تمیز کنم؟ SayCan میتواند ربات را هدایت کند تا اسفنجی را پیدا کند، سپس اسفنج را بردارد و آن را برای شخصی که درخواست کرده است بیاورد.
SayCan توسط سخت افزار روباتیک محدود شده است و در بیش از یک مورد، تیم تحقیقاتی رباتی را مشاهده کردند که آنها برای انجام آزمایشاتی انتخاب کردند که به طور تصادفی اشیا را رها کند. با این حال، همراه با DALL-E 2 و کار DeepMind در درک زمینهای، تصویری از این واقعیت است که چگونه سیستمهای هوش مصنوعی در صورت ترکیب میتوانند ما را به آیندهای پیشرفتهتر نزدیک کنند. نظر شما در مورد ترکیب بینایی و زبان در هوش مصنوعی چیست؟ آیا دستیابی به چنین سیستم هوش مصنوعی قدرتمندی که توان درک و تحلیل منطقی داشته باشد امکان پذیر است؟