ترکیب بینایی و زبان در هوش مصنوعی می‌تواند کلید آینده بهتر این علم باشد

هوش مصنوعی پدیده‌ای است که در یک دهه اخیر بیش از هر زمان دیگری مورد توجه قرار گرفته است. علت آن نیز بی شک پیشرفت بشر در زمینه توسعه نرم‌افزاری و سخت‌افزاری است. اما با این وجود، ترکیب بینایی و زبان در هوش مصنوعی می‌تواند کلید آینده بهتر این علم باشد. با ترنجی همراه باشید.

ترکیب بینایی و زبان در هوش مصنوعی باعث انقلابی در این علم خواهد شد

بسته به تئوری هوشی که معتقد به آن هستید، دستیابی به هوش مصنوعی در سطح انسانی، به سیستمی نیاز دارد که بتواند از روش‌های متعددی مانند صدا، بینایی و متن برای استدلال درباره جهان استفاده کند. به عنوان مثال، هنگامی که تصویری از یک کامیون سرنگون شده و یک قایق پلیس در یک آزادراه برفی نشان داده می‌شود، یک هوش مصنوعی در سطح انسانی ممکن است استنباط کند که شرایط جاده خطرناک باعث تصادف شده است. یا با دویدن روی یک ربات، وقتی از آن‌ها خواسته می‌شود یک قوطی نوشابه را از یخچال بیرون بیاورند، در اطراف افراد، مبلمان و حیوانات خانگی حرکت می‌کنند تا قوطی را بازیابی کنند و آن را به درخواست‌ دهنده تحویل دهند.

هوش مصنوعی امروزی محدود و کم عمق است. اما تحقیقات جدید نشانه‌هایی از پیشرفت امیدوار کننده علم بشری در توسعه روبات‌هایی که می‌توانند گام‌هایی را برای برآورده کردن دستورات اولیه تا سیستم‌های تولید متن که از توضیحات یاد می‌گیرند را نشان می‌دهد. در این مطلب، درباره آخرین پیشرفت‌های هوش مصنوعی و حوزه علمی گسترده‌تر و کارهایی از DeepMind، Google و OpenAI صحبت خواهیم کرد که می‌تواند به سمت سیستم‌هایی که قادر به تفکر است گام بردارند.

آزمایشگاه تحقیقاتی هوش مصنوعی DALL-E، نسخه بهبود یافته OpenAI که DALL-E 2 است، به راحتی چشمگیرترین پروژه‌ای است که از اعماق یک آزمایشگاه تحقیقاتی درباره هوش مصنوعی بیرون آمده است. همانطور که Devin Coldewey می‌نویسد، DALL-E اصلی توانایی قابل توجهی در ایجاد تصاویری برای مطابقت با هر درخواستی نشان داده است (به عنوان مثال، “سگی که کلاه بر سر دارد”)، حالا تصور کنید که DALL-E 2 این توان را حتی فراتر نیز می‌برد. تصاویری که این هوش مصنوعی تولید می‌کند بسیار دقیق‌تر هستند. DALL-E 2 می‌تواند به طور هوشمندانه‌ای جایگزین یک ناحیه معین در یک تصویر شود. به عنوان مثال، قرار دادن یک جدول در عکسی از یک کف مرمری پر از بازتاب‌های مناسب.

ترکیب بینایی و زبان در هوش مصنوعی

هوش مصنوعی DALL-E 2 در این هفته بیشتر مورد توجه قرار گرفت. اما روز پنجشنبه، محققان گوگل در پستی که در وبلاگ هوش مصنوعی این شرکت منتشر شد، گفته‌اند که یک سیستم هوش مصنوعی بسیار توانمند برای درک بصری به نام VDTTS (مخفف Visually-Driven Prosody for Text-to-Speech ) را توسعه داده‌اند. VDTTS می‌تواند گفتاری با صدای واقع گرایانه و همگام سازی لب ایجاد کند که چیزی بیشتر از متن و فریم‌های ویدئویی از فردی که در حال صحبت کردن است، نیست.

گفتار تولید شده توسط VDTTS، اگرچه یک پایه کامل برای دیالوگ‌های ضبط شده نیست، اما بازهم خیلی خوب و شگفت انگیز است که با بیان و زمان بندی متقاعد کننده‌ای، شبیه به انسان صحبت می‌کند. گوگل می‌گوید که یک روز از آن در یک استودیو برای جایگزینی صدای اصلی که ممکن است در شرایط نویز ضبط شده باشد استفاده می‌کند.

البته درک بصری تنها یک قدم در مسیر رسیدن به هوش مصنوعی توانمندتر است. مؤلفه دیگر درک زبان است که در بسیاری از جنبه‌ها عقب مانده است. حتی با کنار گذاشتن جهت‌ گیری‌های مستند هوش مصنوعی. در یک مثال واضح، یک سیستم پیشرفته از PaLM گوگل (مخفف Pathways Language Model)، طبق یک مقاله، ۴۰ درصد از داده‌هایی را که برای آموزش آن استفاده می‌شد، حفظ کرد و در نتیجه PALM متن را به سرقت ادبی تا اطلاعیه‌های حق نسخه‌برداری در آن تبدیل کرد.

دیپ مایند گوگل به دنبال توسعه راهکارهای خلاقانه‌تری است

خوشبختانه، DeepMind، آزمایشگاه هوش مصنوعی که توسط Alphabet پشتیبانی می‌شود، یکی از آن‌هایی است که در حال بررسی تکنیک‌هایی برای رفع این مشکل است. در یک مطالعه جدید، محققان DeepMind بررسی کردند که آیا سیستم‌های زبان هوش مصنوعی که یاد می‌گیرند متن را از بسیاری از نمونه‌های متن موجود (کتاب‌های فکری و رسانه‌های اجتماعی) تولید کنند، می‌توانند از توضیح آن متون بهره ببرند یا خیر.

پس از حاشیه‌ نویسی ده‌ها تکلیف زبانی (مثلا با مشخص کردن اینکه آیا جمله دوم عبارت استعاری مناسبی از جمله اول است یا نه، به این سؤال‌ها پاسخ دهید) همراه با توضیحات (مثلا چشم‌های داوود به معنای واقعی کلمه خنجر نبود، این استعاره‌ای است که نشان می‌دهد که داوود به شدت به پل نگاه می‌کرد) و با ارزیابی عملکرد سیستم‌های مختلف روی آن‌ها، تیم DeepMind دریافت که نمونه‌ها، واقعا عملکرد سیستم‌ها را بهبود می‌بخشند.

رویکرد DeepMind، اگر در جامعه آکادمیک به نتیجه برسد، می‌تواند روزی در علم رباتیک به کار گرفته شود و بخش‌های مهم سازنده رباتی را تشکیل دهد که می‌تواند درخواست‌های مبهم (مثلا آشغال‌ها رو ببر بذار بیرون) بدون دستور العمل‌های گام به گام درک کند. پروژه جدید گوگل با نام «آنطور که می‌توانم انجام بده، نه آنطور که می‌گویم» نگاهی اجمالی به این آینده دارد که البته با محدودیت‌های قابل توجه همراه است.

ترکیب بینایی و زبان در هوش مصنوعی

همکاری بین Robotics در Google و تیم Everyday Robotics در آزمایشگاه Do As I Can, Not As I Say آلفابت به دنبال شرطی کردن یک سیستم زبان هوش مصنوعی است تا اقدامات “امکان پذیر” و “مناسب” را برای یک ربات، با توجه به شرایط دلخواه، ارائه دهد. وظیفه ربات به‌عنوان دست‌ها و چشم‌های سیستم زبان عمل می‌کند، در حالی که سیستم دانش معنایی سطح بالایی را در مورد کار ارائه می‌کند، این تئوری این است که سیستم زبان، دانش مفیدی را برای ربات رمزگذاری می‌کند.

به گفته TechCrunch، سیستمی به نام SayCan، با در نظر گرفتن احتمال مفید بودن یک مهارت و امکان اجرای موفقیت آمیز آن مهارت مذکور، انتخاب می‌کند که ربات کدام مهارت را در پاسخ به یک دستور انجام دهد. به عنوان مثال، در پاسخ به کسی که می‌گوید «من چایم را ریختم، می‌توانی چیزی برای من بیاوری تا آن را تمیز کنم؟ SayCan می‌تواند ربات را هدایت کند تا اسفنجی را پیدا کند، سپس اسفنج را بردارد و آن را برای شخصی که درخواست کرده است بیاورد.

SayCan توسط سخت افزار روباتیک محدود شده است و در بیش از یک مورد، تیم تحقیقاتی رباتی را مشاهده کردند که آن‌ها برای انجام آزمایشاتی انتخاب کردند که به طور تصادفی اشیا را رها کند. با این حال، همراه با DALL-E 2 و کار DeepMind در درک زمینه‌ای، تصویری از این واقعیت است که چگونه سیستم‌های هوش مصنوعی در صورت ترکیب می‌توانند ما را به آینده‌ای پیشرفته‌تر نزدیک کنند. نظر شما در مورد ترکیب بینایی و زبان در هوش مصنوعی چیست؟ آیا دستیابی به چنین سیستم هوش مصنوعی قدرتمندی که توان درک و تحلیل منطقی داشته باشد امکان پذیر است؟

TechCrunch

تگ‌ها:

اشتراک در

0 Comments

بازخورد (Feedback) های اینلاین

مشاهده همه دیدگاه ها

ترکیب بینایی و زبان در هوش مصنوعی می‌تواند کلید آینده بهتر این علم باشد

ترکیب بینایی و زبان در هوش مصنوعی باعث انقلابی در این علم خواهد شد

دیپ مایند گوگل به دنبال توسعه راهکارهای خلاقانه‌تری است

پرطرفدار ترین ها

شرایط فروش ۴ محصول ایران خودرو بدون قرعه‌کشی اعلام شد؛ تارا، دنا، ...

گوشی رباتیک آنر در دستان قهرمان جام جهانی ۲۰۲۶ دیده شد

طرح فروش فوری MVM X33 Cross مدیران خودرو تیر ۱۴۰۵

لیست قیمت گوشی های پوکو شیائومی امروز – تیر ۱۴۰۵

لیست قیمت همه گوشی های سامسونگ امروز – تیر ۱۴۰۵

لیست قیمت گوشی های آیفون اپل امروز – تیر ۱۴۰۵

لیست قیمت گوشی های Redmi شیائومی امروز – تیر ۱۴۰۵

لیست قیمت گوشی های Galaxy S سامسونگ امروز – تیر ۱۴۰۵

مشخصات گوشی رباتیک آنر سرانجام فاش شد: پرچم‌داری با دوربین ۲۰۰ مگ ...

آنر زمان رونمایی Robot Phone را با انتشار طراحی نهایی این گوشی اع ...

حتما بخوانید

لیست قیمت گوشی های پوکو شیائومی امروز – تیر ۱۴۰۵

لیست قیمت گوشی های Galaxy S سامسونگ امروز – تیر ۱۴۰۵

شرایط فروش ۴ محصول ایران خودرو بدون قرعه‌کشی اعلام شد؛ تارا، دنا، رانا و سورن با تحویل ۳۰ روزه

لیست قیمت گوشی های Redmi شیائومی امروز – تیر ۱۴۰۵

لیست قیمت همه گوشی های سامسونگ امروز – تیر ۱۴۰۵

طرح فروش فوری MVM X33 Cross مدیران خودرو تیر ۱۴۰۵

لیست قیمت گوشی های آیفون اپل امروز – تیر ۱۴۰۵

لیست قیمت گوشی های پوکو شیائومی امروز – تیر ۱۴۰۵

لیست قیمت گوشی های Galaxy S سامسونگ امروز – تیر ۱۴۰۵

طرح فروش فوری ایران خودرو تیر ۱۴۰۵ – بدون قرعه کشی

لیست قیمت مدیران خودرو تیر ۱۴۰۵ – افزایش قیمت ام وی ام، فونیکس و اکستریم

لیست قیمت گوشی آنر (Honor) امروز – تیر ۱۴۰۵

لیست قیمت گوشی های ردمی شیائومی امروز – تیر ۱۴۰۵

لیست قیمت گوشی های گلکسی A سامسونگ امروز – تیر ۱۴۰۵

لیست قیمت گوشی های موتورولا (Motorola) امروز – تیر ۱۴۰۵

تبلیغات متنی

ترکیب بینایی و زبان در هوش مصنوعی باعث انقلابی در این علم خواهد شد

دیپ مایند گوگل به دنبال توسعه راهکارهای خلاقانه‌تری است

مطالب مرتبط

پایان یک اپلیکیشن محبوب گوگل در زمینه هوش مصنوعی

هوش مصنوعی گوگل Gemini Go برای دستگاه‌های اقتصادی عرضه می‌شود

سرمایه گذاری ۸۰ میلیارد دلاری گوگل در هوش مصنوعی

هوش مصنوعی مولد گوگل Gemini Omni برای «خلق هر چیز» معرفی شد

مدل هوش مصنوعی Gemini 3.5 Flash گوگل معرفی شد

گوگل قابلیت‌های هوش مصنوعی Gemini Intelligence را برای اندروید معرفی کرد

پرطرفدار ترین ها

شرایط فروش ۴ محصول ایران خودرو بدون قرعه‌کشی اعلام شد؛ تارا، دنا، ...

گوشی رباتیک آنر در دستان قهرمان جام جهانی ۲۰۲۶ دیده شد

طرح فروش فوری MVM X33 Cross مدیران خودرو تیر ۱۴۰۵

لیست قیمت گوشی های پوکو شیائومی امروز – تیر ۱۴۰۵

لیست قیمت همه گوشی های سامسونگ امروز – تیر ۱۴۰۵

لیست قیمت گوشی های آیفون اپل امروز – تیر ۱۴۰۵

لیست قیمت گوشی های Redmi شیائومی امروز – تیر ۱۴۰۵

لیست قیمت گوشی های Galaxy S سامسونگ امروز – تیر ۱۴۰۵

مشخصات گوشی رباتیک آنر سرانجام فاش شد: پرچم‌داری با دوربین ۲۰۰ مگ ...

آنر زمان رونمایی Robot Phone را با انتشار طراحی نهایی این گوشی اع ...

حتما بخوانید

لیست قیمت گوشی های پوکو شیائومی امروز – تیر ۱۴۰۵

لیست قیمت گوشی های Galaxy S سامسونگ امروز – تیر ۱۴۰۵

شرایط فروش ۴ محصول ایران خودرو بدون قرعه‌کشی اعلام شد؛ تارا، دنا، رانا و سورن با تحویل ۳۰ روزه

لیست قیمت گوشی های Redmi شیائومی امروز – تیر ۱۴۰۵

لیست قیمت همه گوشی های سامسونگ امروز – تیر ۱۴۰۵

طرح فروش فوری MVM X33 Cross مدیران خودرو تیر ۱۴۰۵

لیست قیمت گوشی های آیفون اپل امروز – تیر ۱۴۰۵

لیست قیمت گوشی های پوکو شیائومی امروز – تیر ۱۴۰۵

لیست قیمت گوشی های Galaxy S سامسونگ امروز – تیر ۱۴۰۵

طرح فروش فوری ایران خودرو تیر ۱۴۰۵ – بدون قرعه کشی

لیست قیمت مدیران خودرو تیر ۱۴۰۵ – افزایش قیمت ام وی ام، فونیکس و اکستریم

لیست قیمت گوشی آنر (Honor) امروز – تیر ۱۴۰۵

لیست قیمت گوشی های ردمی شیائومی امروز – تیر ۱۴۰۵

لیست قیمت گوشی های گلکسی A سامسونگ امروز – تیر ۱۴۰۵

لیست قیمت گوشی های موتورولا (Motorola) امروز – تیر ۱۴۰۵

تبلیغات متنی

ترنجی در شبکه‌های اجتماعی