Googles KI kann mit Gemini 2.5... Notiz

Googles KI kann mit Gemini 2.5 Computer Use jetzt das Web für Sie durchsuchen, auf Schaltflächen klicken und Formulare ausfüllen.

Googles DeepMind hat Gemini 2.5 Pro Computer Use veröffentlicht, ein KI-Modell, das als virtueller Agent im Web fungieren soll. Dieses neue Modell kann Websites navigieren, Formulare ausfüllen und Aktionen im Namen von Benutzern ausführen, ähnlich wie Angebote von OpenAI und Anthropic. Googles CEO Sundar Pichai hob seine Bedeutung für die Entwicklung von Allzweck-KI-Agenten hervor. Obwohl es für Verbraucher nicht direkt verfügbar ist, ist es über die Browserbase-Plattform und die Gemini API für Entwickler zugänglich. Das Modell baut auf den Fähigkeiten von Gemini 2.5 Pro auf und konzentriert sich auf die Interaktion mit Benutzeroberflächen. Es ermöglicht KI-Systemen, visuell und funktional zu agieren, im Gegensatz zu API-abhängigen Modellen. Erste Tests zeigen Erfolge bei der Navigation auf Websites und der Erledigung von Aufgaben, obwohl es den direkten Dateisystemzugriff von Wettbewerbern vermissen lässt. Google behauptet, Gemini 2.5 Computer Use führe bei Benchmarks zur Steuerung von Benutzeroberflächen und biete eine geringere Latenz. Das Modell arbeitet in einer Interaktionsschleife, analysiert Screenshots und Benutzereingaben, um Aktionen zu empfehlen. Sicherheitsmaßnahmen umfassen eine schrittweise Überprüfung und vom Entwickler definierte Anweisungen. Es unterstützt verschiedene UI-Aktionen wie Klicken und Tippen mit normalisierten Bildschirmkoordinaten. Die Preisgestaltung ähnelt der von Gemini 2.5 Pro, aber Computer Use ist ausschließlich ein kostenpflichtiges Angebot. Daten aus der kostenpflichtigen Nutzung verbessern Google-Produkte nicht, im Gegensatz zur kostenlosen Version von Gemini 2.5 Pro.
CdXz5zHNQW_IjVm0ltTV5.png