RSS VentureBeat
フォロー
GoogleのAIは、Gemini 2.5コンピューター使用により、ウェブをサーフィンしてボタンをクリックし、フォームを入力できる
GoogleのDeepMindは、Gemini 2.5 Pro Computer UseというAIモデルをリリースしました。このモデルは、ウェブ上で仮想エージェントとして機能するように設計されており、OpenAIやAnthropicのサービスに似ています。ウェブサイトのナビゲーション、フォームの入力、ユーザーの代理でアクションを実行することができます。GoogleのCEO、サンダー・ピチャイは、汎用AIエージェントの開発におけるこのモデルの重要性を強調しています。消費者に直接提供されていませんが、開発者向けのBrowserbaseプラットフォームとGemini APIを通じてアクセスできます。このモデルは、Gemini 2.5 Proの機能を基にしており、ユーザーインターフェースとのやり取りに重点を置いています。APIに依存しないモデルとは異なり、視覚的におよび機能的にAIシステムを操作することができます。初期のテストでは、ウェブサイトのナビゲーションとタスクの完了に成功していますが、競合他社のモデルと比較して直接ファイルシステムへのアクセスが制限されています。Googleは、Gemini 2.5 Computer Useがインターフェース制御のベンチマークでトップであり、遅延が低いと主張しています。このモデルは、スクリーンショットとユーザーのプロンプトを分析してアクションを推奨するインタラクションループで動作します。安全対策として、ステップごとの検査と開発者定義の指示が含まれています。クリックやタイプなどのさまざまなUIアクションをサポートしており、正規化されたスクリーン座標を使用しています。価格はGemini 2.5 Proと似ていますが、Computer Useは有料ティアでのみ提供されます。有料ティアでの使用データは、Gemini 2.5 Proの無料ティアとは異なり、Googleの製品を改善しません。