RSS VentureBeat
팔로우
구글의 AI가 Gemini 2.5 Computer Use를 통해 이제 여러분을 대신해 웹 서핑을 하고, 버튼을 클릭하고, 양식을 작성할 수 있습니다.
Google의 DeepMind는 웹에서 가상 에이전트 역할을 하도록 설계된 AI 모델인 Gemini 2.5 Pro Computer Use를 출시했습니다. 이 새로운 모델은 OpenAI 및 Anthropic의 제품과 유사하게 사용자를 대신하여 웹사이트를 탐색하고, 양식을 작성하고, 작업을 수행할 수 있습니다. Google CEO Sundar Pichai는 범용 AI 에이전트 개발의 중요성을 강조했습니다. 소비자가 직접 사용할 수는 없지만 개발자를 위한 Browserbase 플랫폼과 Gemini API를 통해 액세스할 수 있습니다. 이 모델은 사용자 인터페이스와의 상호 작용에 중점을 두고 Gemini 2.5 Pro의 기능을 기반으로 합니다. 이를 통해 AI 시스템은 API 종속 모델과 달리 시각적으로나 기능적으로 작동할 수 있습니다. 초기 테스트에서는 웹 사이트 탐색 및 작업 완료에 성공했지만 경쟁업체의 직접적인 파일 시스템 액세스는 부족합니다. Google은 Gemini 2.5 컴퓨터 사용이 인터페이스 제어 벤치마크에서 선두를 달리고 더 낮은 대기 시간을 제공한다고 주장합니다. 이 모델은 상호 작용 루프에서 작동하여 스크린샷과 사용자 프롬프트를 분석하여 작업을 권장합니다. 안전 조치에는 단계별 검사 및 개발자 정의 지침이 포함됩니다. 정규화된 화면 좌표와 함께 클릭 및 입력과 같은 다양한 UI 작업을 지원합니다. 가격은 Gemini 2.5 Pro와 유사하지만 컴퓨터 사용은 독점적으로 유료 계층 제품입니다. 유료 등급 사용 데이터는 Gemini 2.5 Pro의 무료 등급과 달리 Google 제품을 개선하지 않습니다.