ИИ Google теперь может искать ... Заметка
RSS VentureBeat

ИИ Google теперь может искать информацию в Интернете за вас, нажимать на кнопки и заполнять формы с помощью Gemini 2.5 Computer Use.

DeepMind от Google выпустила Gemini 2.5 Pro Computer Use, ИИ-модель, разработанную для работы в качестве виртуального агента в интернете. Эта новая модель может перемещаться по веб-сайтам, заполнять формы и выполнять действия от имени пользователей, подобно предложениям от OpenAI и Anthropic. Генеральный директор Google Сундар Пичаи подчеркнул ее важность в разработке универсальных ИИ-агентов. Хотя модель не доступна напрямую потребителям, она доступна через платформу Browserbase и Gemini API для разработчиков. Модель основана на возможностях Gemini 2.5 Pro с акцентом на взаимодействие с пользовательскими интерфейсами. Она позволяет ИИ-системам работать визуально и функционально, в отличие от моделей, зависящих от API. Ранние тесты показывают успех в навигации по веб-сайтам и выполнении задач, хотя ей не хватает прямого доступа к файловой системе, как у конкурентов. Google утверждает, что Gemini 2.5 Computer Use лидирует в бенчмарках управления интерфейсами и предлагает более низкую задержку. Модель работает в цикле взаимодействия, анализируя скриншоты и запросы пользователей для рекомендации действий. Меры безопасности включают пошаговую проверку и инструкции, определенные разработчиком. Она поддерживает различные действия пользовательского интерфейса, такие как клики и ввод текста, с нормализованными координатами экрана. Ценообразование аналогично Gemini 2.5 Pro, но Computer Use является эксклюзивным платным предложением. Данные, полученные от использования платного уровня, не улучшают продукты Google, в отличие от бесплатного уровня Gemini 2.5 Pro.
CdXz5zHNQW_IjVm0ltTV5.png