MCP-Universeベンチマークによると、GPT-5は実... ノート
RSS VentureBeat

MCP-Universeベンチマークによると、GPT-5は実世界のオーケストレーションタスクの半分以上で失敗する

Salesforceリサーチによる新しいベンチマークは、実際のエンタープライズタスクにおけるモデルとエージェントのパフォーマンスを評価します。
CdXz5zHNQW_vfUUZPYFj1.png