L'IA de Google peut désormais ... Note

L'IA de Google peut désormais naviguer sur le Web pour vous, cliquer sur des boutons et remplir des formulaires avec Gemini 2.5 Computer Use.

DeepMind de Google a publié Gemini 2.5 Pro Computer Use, un modèle d'IA conçu pour agir comme un agent virtuel sur le Web. Ce nouveau modèle peut naviguer sur les sites Web, remplir des formulaires et effectuer des actions au nom des utilisateurs, à l'instar des offres d'OpenAI et d'Anthropic. Le PDG de Google, Sundar Pichai, a souligné son importance dans le développement d'agents d'IA à usage général. Bien qu'il ne soit pas directement disponible pour les consommateurs, il est accessible via la plateforme Browserbase et l'API Gemini pour les développeurs. Le modèle s'appuie sur les capacités de Gemini 2.5 Pro, en se concentrant sur l'interaction avec les interfaces utilisateur. Il permet aux systèmes d'IA de fonctionner visuellement et fonctionnellement, contrairement aux modèles dépendants des API. Les premiers tests montrent un succès dans la navigation sur les sites Web et l'accomplissement des tâches, bien qu'il manque d'accès direct au système de fichiers de ses concurrents. Google affirme que Gemini 2.5 Computer Use est en tête des benchmarks de contrôle d'interface et offre une latence plus faible. Le modèle fonctionne dans une boucle d'interaction, analysant les captures d'écran et les invites de l'utilisateur pour recommander des actions. Les mesures de sécurité comprennent une inspection à chaque étape et des instructions définies par le développeur. Il prend en charge diverses actions d'interface utilisateur telles que le clic et la saisie, avec des coordonnées d'écran normalisées. La tarification est similaire à celle de Gemini 2.5 Pro, mais Computer Use est exclusivement une offre payante. Les données provenant de l'utilisation du niveau payant n'améliorent pas les produits Google, contrairement au niveau gratuit de Gemini 2.5 Pro.
CdXz5zHNQW_IjVm0ltTV5.png