ReasoningBank:エージェントが経験から学習するこ... ノート

ReasoningBank:エージェントが経験から学習することを可能にする

エージェントは、長期間にわたる現実世界のタスクにおいて、過去の経験から学習することに苦労しています。既存のメモリ手法は、徹底的な行動を記録するか、成功したワークフローのみを記録するかのどちらかで、より高レベルな推論を抽出することに失敗し、失敗を無視しています。ReasoningBankは、エージェントの自己進化のために、成功と失敗の両方の経験から有用な洞察を抽出することで、この問題に対処します。タイトル、説明、そして抽出された推論ステップ、意思決定の根拠、または運用上の洞察を含む構造化されたメモリを作成します。メモリワークフローには、継続的な検索、抽出、統合が含まれ、LLM-as-a-judgeが軌跡を評価します。他の手法とは異なり、ReasoningBankは、予防的な教訓と戦略的なガードレールを学ぶために、積極的に失敗を分析します。メモリ対応のテスト時スケーリング(MaTTS)と統合し、並列および逐次スケーリングを使用して、より豊かな学習シグナルを生成します。MaTTSにより、エージェントは広範囲に探索し、自己対比と反復的な洗練を通じて高品質なメモリを抽出できます。Webブラウジングとソフトウェアエンジニアリングのベンチマークでの評価では、ReasoningBankがエージェントの有効性(成功率の向上)と効率性(タスクステップの削減)の両方を向上させることが示されています。MaTTSを使用すると、パフォーマンスがさらに向上し、メモリとスケーリングの間の強力な相乗効果が示されています。このシステムはまた、単純なルールを時間の経過とともに複雑で予防的なロジック構造へと進化させる、出現的な戦略的成熟度を示しています。ReasoningBankは、LLMベースのエージェントにおける継続的な学習のための強力なフレームワークを提供し、メモリ駆動型の経験スケーリングを重要なフロンティアとして強調しています。
CdXz5zHNQW_SlEGinFE7U.png