推理库:赋能智能体从经验中学习
智能体在长期运行的现实任务中难以从过往经验中学习。现有的记忆方法要么记录详尽的操作步骤,要么仅保存成功的流程,既无法提炼高层推理能力,也忽视了失败案例。ReasoningBank 通过从成功与失败的经验中共同提炼有价值的洞察,推动智能体的自我进化。该方法构建结构化记忆,包含标题、描述、提炼后的推理步骤、决策依据或操作洞见。其记忆工作流程涵盖持续检索、提取与整合,并由“大模型作为裁判”对执行轨迹进行评估。与其他方法不同,ReasoningBank 主动分析失败案例,从中汲取预防性教训并制定战略防护机制。该方法与记忆感知的测试时扩展(MaTTS)相结合,利用并行与顺序扩展生成更丰富的学习信号。MaTTS 使智能体能够广泛探索,并通过自对比与迭代 refinement 提炼高质量记忆。在网页浏览与软件工程基准测试中,ReasoningBank 同时提升了智能体的有效性(成功率更高)与效率(所需任务步骤更少)。结合 MaTTS 后,性能进一步显著增强,彰显了记忆机制与扩展策略之间的强大协同效应。该系统还展现出涌现的战略成熟度,能够随时间推移将简单规则演化为复杂且具预防性的逻辑结构。ReasoningBank 为基于大语言模型的智能体提供了强大的持续学习框架,凸显了以记忆驱动的经验扩展作为关键前沿方向。