新 AI 优化框架在相同计算预算下,性能超越 Claude ... 笔记

新 AI 优化框架在相同计算预算下,性能超越 Claude Code 和 Codex 达 2.5 倍

为搜索内部文档等复杂任务设计的人工智能代理,常常会出现幻觉或遗漏生产中的关键约束。这需要经过繁琐的反复试验,难以准确定位改进的原因。Arbor是中国人民大学和Microsoft研究院的新框架,将这一过程转化为累积学习过程。它将假设、实验和见解组织成树状结构,使系统能够从过去的失败中学习。Arbor的实际测试显示,其可验证的性能提升超过标准AI编码代理的2.5倍以上。自主优化(AO)是人工智能研究的基本循环,旨在基于实验反馈迭代改进工件。AO的主要挑战是,仅仅提升计算能力并不能保证一定能有进展。当前智能体系统将每次尝试孤立对待,缺乏积累和处理已学会信息的机制。他们难以同时维护和比较多个研究方向,这阻碍了他们像人类那样解读结果和重塑未来探索的能力。通用编码代理由于上下文窗口限制,在漫长历史中常常丢失事实证据,导致进展停滞或追求无关改进。Arbor通过将研究方向与编码任务分离,使用协调员和执行者来解决这些问题。协调员负责管理整体研究状态,提出假设并分析结果。执行者是短命的代理,在孤立环境中测试单个假设并反馈。这种合作被称为假设树细化(HTR),将研究过程构建为一个持续的分支假设、证据和洞见树。Arbor 严格执行“合并门”以防止奖励黑客攻击,确保改进内容在集成前与未完成的测试数据进行验证。虽然 Arbor 的输出与现有的 Git 工作流程集成,但其主要成本是对长期协调器的令牌消耗以及孤立工作树的计算资源。Arbor 擅长具有明确指标和长时间范围的任务,但不适合实时任务或有缺陷的评估指标。
CdXz5zHNQW_aWEwSRahRP.png