サプライズの番狂わせ:GPT-5.5が、過酷な新ベンチマーク... ノート
RSS VentureBeat

サプライズの番狂わせ:GPT-5.5が、過酷な新ベンチマーク「Agents' Last Exam」でClaude Fable 5を上回る

経済的に価値のある、長期間にわたる専門的なタスクを実行するAIの能力を評価するために、Agents' Last Exam (ALE) という新しいベンチマークが開始されました。驚くべきことに、OpenAIのGPT-5.5が24.0%の合格率でトップを獲得し、AnthropicのClaude Fable 5モデルを上回りました。ALEは、推論、知覚、オーケストレーション、ツール呼び出し、ランタイム基盤の5つの機能レイヤーにわたる現実的なワークフローでAIを評価することにより、以前のベンチマークとは異なります。これは、エージェントがターミナルコマンドとグラフィカルインターフェースの両方を使用して仮想マシンを操作することを要求し、採点の90%以上が決定論的かつコードベースで行われます。ベンチマークのタスクは、実際の専門的な履歴から調達され、ソフトウェア開発、3Dモデリング、データ分析を含む55の業界サブドメインをカバーしています。現在のトップAIモデルは、これらの本物の長期間にわたるワークフローで失敗していると報告されており、最も難しいティアでの合格率は、一部の高度な構成では0.0%と低くなっています。ALEは、評価データの90%以上を非公開に保ち、タスクを段階的にリリースすることで、ベンチマーク汚染と戦います。また、プロプライエタリソフトウェアへのアクセスありとなしのパフォーマンスを区別するために、「Full」と「Unlicensed」のリーダーボードを提供しています。ベンチマークの厳格な採点曲線は、AI業界に現実的なチェックを提供し、最先端のモデルでさえ、プロの労働力に対応できるようになるまでには大幅な改善の余地があることを強調しています。
CdXz5zHNQW_uh8k3LCWo9.png