گوگل از مدل Gemini 2.5 Computer Use رونمایی کرد: هوش مصنوعی که کامپیوتر شما را کنترل می‌کند

گوگل درحال ارائه یک مدل هوش مصنوعی جدید و جاه‌طلبانه است که برای تعامل با اینترنت به شیوه‌ای کاملاً انسانی طراحی شده است. این مدل هوش مصنوعی تخصصی که Gemini 2.5 Computer Use نام دارد، می‌تواند در مرورگرهای وب پیمایش کند، روی دکمه‌ها کلیک کند، فرم‌ها را پر کند و حتی در صفحات پیمایش کند و همه این‌ها بر اساس یک متن ساده انجام می‌شود. این یک گام مهم به‌سوی ایجاد عامل‌های هوش مصنوعی (AI agents) است که می‌توانند وظایف پیچیده دیجیتال را به‌صورت خودکار انجام دهند. این مدل همچنین می‌تواند فراتر از پاسخ‌های ساده چت‌بات باشد تا به‌طور فعال با رابط‌های کاربری تعامل داشته باشد.

خلاصه و نکات کلیدی

🔹 گوگل نسخه پیش‌نمایش عمومی مدل Gemini 2.5 Computer Use را منتشر کرد؛ یک هوش مصنوعی تخصصی که می‌تواند رابط‌های کاربری گرافیکی مانند مرورگرها را کنترل کند.
🔹 این مدل با دریافت اسکرین‌شات و درخواست کاربر، اقداماتی مانند کلیک کردن، تایپ کردن و کشیدن و رها کردن را به‌صورت خودکار انجام می‌دهد.
🔹 در مثال‌های ارائه‌شده، این هوش مصنوعی توانست به‌صورت خودکار اطلاعات را از یک وب‌سایت استخراج و در سایت دیگری وارد کند و یادداشت‌های دیجیتال را مرتب نماید.
🔹 این مدل از امروز، چهارشنبه ۱۶ مهر، از طریق Gemini API در Google AI Studio و Vertex AI در دسترس توسعه‌دهندگان قرار گرفته است.

مدل هوش مصنوعی Gemini 2.5 Computer Use چگونه کار می‌کند؟

این «مدل تخصصی» می‌تواند با رابط‌های کاربری گرافیکی (GUI)، به‌ویژه مرورگرها و وب‌سایت‌ها، تعامل داشته باشد. این فرآیند در یک حلقه و طی چند مرحله انجام می‌شود تا زمانی که وظیفه کامل شود:

ارسال درخواست به مدل: ورودی‌ها شامل «درخواست کاربر، اسکرین‌شات از محیط و تاریخچه اقدامات اخیر» است.
تولید پاسخ توسط مدل: مدل این ورودی‌ها را تحلیل کرده و یک پاسخ، معمولاً به شکل یک فراخوانی تابع (function call) که یکی از اقدامات رابط کاربری مانند کلیک کردن یا تایپ کردن را نشان می‌دهد، تولید می‌کند.
اجرای پاسخ: کد سمت کلاینت، اقدام دریافت‌شده را اجرا می‌کند.
ارسال بازخورد و تکرار: پس از اجرای اقدام، یک اسکرین‌شات جدید از GUI و URL فعلی به‌عنوان پاسخ تابع به مدل ارسال می‌شود و حلقه دوباره آغاز می‌گردد.

دیگر اقدامات رابط کاربری که توسط این مدل پشتیبانی می‌شوند شامل بازگشت/جلو رفتن، جستجو در وب، رفتن به یک URL خاص، نگه داشتن نشانگر موس، ترکیب‌های صفحه‌کلید، اسکرول کردن و کشیدن و رها کردن (drag/drop) است.

مدل هوش مصنوعی Gemini 2.5 Computer Use

نمونه‌هایی از قابلیت‌های Gemini 2.5 Computer Use

گوگل دو مثال از دستورات پیچیده‌ای که این مدل می‌تواند انجام دهد را به اشتراک گذاشته است:

«از آدرس [X]، تمام جزئیات مربوط به هر حیوانی با اقامت کالیفرنیا را دریافت کن و آن‌ها را به‌عنوان مهمان در CRM اسپای من در آدرس [Y] اضافه کن. سپس، یک قرار ملاقات پیگیری با متخصص آنیما لاوار برای ۱۰ اکتبر هر زمانی بعد از ساعت ۸ صبح تنظیم کن. دلیل مراجعه همان درمانی است که درخواست کرده‌اند.»
«باشگاه هنری من برای نمایشگاه آینده وظایفی را ایده‌پردازی کرده است. تخته یادداشت‌ها شلوغ است و برای سازماندهی وظایف به کمک تو نیاز دارم. به آدرس [Z] برو و اطمینان حاصل کن که یادداشت‌ها به وضوح در بخش‌های درست قرار دارند. اگر نیستند، آن‌ها را به آنجا بکش کش.»

محدودیت‌ها، عملکرد و نحوه دسترسی

مدل Gemini 2.5 Computer Use «در درجه اول برای مرورگرهای وب بهینه‌سازی شده است». بااین‌حال، گوگل یک بنچمارک به نام «AndroidWorld» دارد که «پتانسیل قوی برای وظایف کنترل رابط کاربری موبایل» را نشان می‌دهد، درحالی‌که این مدل «هنوز برای کنترل در سطح سیستم‌عامل دسکتاپ بهینه‌سازی نشده است».

این مدل بر پایه قابلیت‌های درک و استدلال بصری Gemini 2.5 Pro ساخته شده و فناوری اصلی پشت پروژه Mariner و قابلیت‌های عامل‌محور AI Mode است. این مدل از امروز، چهارشنبه ۱۶ مهر، در نسخه پیش‌نمایش عمومی از طریق Gemini API در Google AI Studio و Vertex AI در دسترس قرار گرفته است.

به‌نظر شما، آیا این نوع هوش مصنوعی عامل‌محور که می‌تواند به‌صورت خودکار وظایف را در کامپیوتر انجام دهد، آینده تعامل ما با نرم‌افزارها خواهد بود و جایگزین روش‌های دستی فعلی می‌شود؟