MCP-Universeベンチマークによると、GPT-5は実世界のオーケストレーションタスクの半分以上で失敗する - TheNote.app

VentureBeat 日本語

フォロー

MCP-Universeベンチマークによると、GPT-5は実世界のオーケストレーションタスクの半分以上で失敗する

Salesforceリサーチによる新しいベンチマークは、実際のエンタープライズタスクにおけるモデルとエージェントのパフォーマンスを評価します。

AI and ML News on Bluesky @ai-news.at.thenote.app bsky.app

MCP-Universe benchmark shows GPT-5 fails more than half of real-world orchestration tasks venturebeat.com

RSS Hunter • 2025年8月22日