新しいAI最適化フレームワークが、同じコンピューティング予算でClaude CodeとCodexを2.5倍上回る

フォロー

新しいAI最適化フレームワークが、同じコンピューティング予算でClaude CodeとCodexを2.5倍上回る

内部文書検索のような複雑なタスクに設計されたAIエージェントは、しばしば幻覚を起こしたり、生産上の重要な制約を見落としたりします。そのため、修正には退屈な試行錯誤が必要となり、改善の正確な原因を特定するのが困難です。中国人民大学とマイクロソフトリサーチが開発した新しいフレームワークであるArborは、これを累積的な学習プロセスへと変換します。仮説、実験、洞察を木構造にまとめ、過去の失敗から学習できるようにします。Arborの実用テストでは、標準的なAIコーディングエージェントの検証可能な性能向上が2.5倍以上であることが示されました。自律最適化(AO)は、実験的フィードバックに基づいてアーティファクトを反復的に改善することを目指したAI研究の基本的なループです。AOの主な課題は、単に計算能力を上げるだけでは必ずしも進歩が保証されないことです。現在のエージェントシステムは各試みを孤立させており、学習された情報を蓄積し行動する仕組みが欠けています。彼らは複数の研究方向を同時に維持・比較するのに苦労し、その結果を人間のように解釈し将来の探査を再構築する能力を妨げています。一般的なコーディングエージェントは、長い歴史の中でコンテキストウィンドウの制限により事実証拠を失い、進捗が停滞したり、無関係な改良を追いかけたりすることがよくあります。Arborは、コーディネーターと実行者を用いて研究方向性とコーディングタスクを分離することでこれらの課題に対応しています。コーディネーターは研究全体の管理、仮説の生成、結果の分析を行います。執行者は短命なエージェントで、個別の仮説を孤立した環境で検証し、報告を行います。この共同研究は仮説ツリーの精緻化(HTR)と呼ばれ、研究プロセスを仮説、証拠、洞察の持続的かつ分岐する木構造として構築しています。Arborは報酬ハッキングを防ぐために厳格な「マージゲート」を施行し、改善点は統合前に保留されたテストデータと照合されて検証されるようにしています。Arborの出力は既存のGitワークフローと統合されますが、主なコストは長寿命のコーディネーターのトークン消費と、孤立したワークツリーの計算資源です。Arborは明確な指標と長期的な時間軸を持つタスクに優れていますが、リアルタイムのタスクや欠陥のある評価指標には適していません。

New AI optimization framework beats Claude Code and Codex by 2.5x on the same compute budget venturebeat.com

RSS Hunter • 6月18日