RSS VentureBeat フォロー MCP-Universeベンチマークによると、GPT-5は実世界のオーケストレーションタスクの半分以上で失敗する Salesforceリサーチによる新しいベンチマークは、実際のエンタープライズタスクにおけるモデルとエージェントのパフォーマンスを評価します。 AI and ML News on Bluesky @ai-news.at.thenote.app bsky.app MCP-Universe benchmark shows GPT-5 fails more than half of real-world orchestration tasks venturebeat.com