
در جدیدترین دور رقابتهای شدید در حوزه هوش مصنوعی، شرکت گوگل با معرفی مدل جدید خود به نام Gemini 2.5 Computer Use، گامی انقلابی در توسعه عاملهای هوش مصنوعی (AI Agents) برداشته است. این مدل که درست پس از بهروزرسانیهای بزرگ ChatGPT توسط OpenAI معرفی شد، میتواند مانند یک کاربر واقعی با رابطهای گرافیکی وب تعامل برقرار کند و به طور خودکار وظایف پیچیده را در محیط مرورگر انجام دهد.
کنترل مرورگر بدون دخالت انسان
برخلاف مدلهای قبلی که تنها از طریق API به دادهها دسترسی داشتند، جمینای ۲.۵ Computer Use با بهرهگیری از قابلیتهای پیشرفته «استدلال و درک بصری» میتواند مستقیماً در مرورگر وب فعالیت کند. این هوش مصنوعی با تحلیل بصری اسکرینشاتها و شناسایی المانهای تعاملی مانند دکمهها و فیلدهای متنی، تصمیم میگیرد چه اقداماتی انجام دهد.
قابلیتهای این مدل شامل کلیک کردن روی دکمهها، اسکرول کردن در صفحات، پر کردن فرمها، باز کردن منوهای کشویی و پیمایش در URLها است. این ویژگی، امکان دسترسی و استخراج اطلاعاتی را فراهم میکند که پیش از این برای هوش مصنوعی غیرقابل دسترس بود.
سرویس یکپارچه Gemini Enterprise برای کسبوکارها
در خبری دیگر، گوگل پلتفرم Gemini Enterprise را رونمایی کرد. این پلتفرم با هدف سادهسازی پذیرش هوش مصنوعی برای کاربران سازمانی طراحی شده و تمام ابزارهای هوش مصنوعی گوگل از جمله مدلهای پیشرفته جمینای ۲.۵ پرو، مدل تولید ویدیوی Veo 3 و همچنین ابزارهای داخلی مانند Deep Research و Data Insights را در یک محیط یکپارچه جمعآوری کرده است.
برجستهترین قابلیت این سرویس، معرفی «ایجنت علم داده» (Data Science Agent) است که فرایند آمادهسازی دادهها، شناسایی الگوهای پنهان و ساخت مدلهای تحلیلی را برای کسبوکارها خودکارسازی میکند. این اقدامات گوگل نشاندهنده تمرکز جدی این شرکت بر افزایش خودکارسازی و هوشمندی عملیاتی در فضای کسبوکار است و رقابت در عرصه هوش مصنوعی سازمانی را وارد مرحله جدیدی میکند.



