研究者たちは、AIエージェントが自身のルールを書き換え、パフォーマンスを最大60%向上させるフレームワーク「Self-Harness」を発表しました。

フォロー

研究者たちは、AIエージェントが自身のルールを書き換え、パフォーマンスを最大60%向上させるフレームワーク「Self-Harness」を発表しました。

ほとんどの企業は自社で高度なAI言語モデルを構築することはできませんが、それらを制御する「ハーネス」と呼ばれるシステムをカスタマイズすることは可能であり、またそうすべきです。ハーネスエンジニアリングは現在、直感と場当たり的なデバッグに依存した手作業で行われており、時間がかかり、進化するAIに追いつくのが困難です。研究者たちは、AI言語モデルが実行トレースを分析することで自身の動作ルールを改善する新しいアプローチである「Self-Harness」を導入しました。この方法は推測を経験的証拠に置き換え、モデルの弱点に適応する堅牢でカスタムなAIエージェントを可能にします。ハーネスには、プロンプト、ツール、メモリなどのコンポーネントが含まれており、多くのAIの失敗は、コアモデル自体ではなく、ハーネスの問題に起因しています。手作業によるハーネスエンジニアリングは、直感への依存と体系的なフィードバックループの欠如により、ボトルネックとなっています。新しいAIモデルが急速にリリースされるにつれて、手作業によるチューニングはますます非現実的かつ高コストになります。Self-Harnessは、AIエージェントが弱点マイニング、ハーネス提案、提案検証を通じてハーネスを反復的に改善することを可能にします。このプロセスにより、エージェントは失敗パターンを特定し、厳密にテストされるターゲットを絞ったハーネスの変更を生成できます。実験では、Self-Harnessを適用したAIエージェントのパフォーマンスが大幅に向上し、編集は繰り返し発生するモデルの問題に特化していることが示されています。Self-Harnessはハーネスエンジニアリングを自動化しますが、かなりの計算リソースを必要とし、正確な評価パイプラインに大きく依存します。コーディングやDevOpsのように、失敗を測定でき、試行錯誤が安全な環境に最も適しています。人間のエンジニアの役割は、手作業でのプロンプト調整から、AIの自己改善を可能にするフィードバックシステムの設計へと移行し、「フィードバックアーキテクト」となります。

Researchers introduce Self-Harness, a framework that lets AI agents rewrite their own rules, boosting performance up to 60% venturebeat.com

RSS Hunter • 6月22日