RSS DEV 社区

为何前加载规则在长评估器与代理循环中会发生漂移

作者探讨了在长程语言模型交互中保持指令保真度的挑战,特别是在多轮对话场景下。核心问题在于:尽管系统提示规则仍保留在上下文窗口中,但其影响力会随时间衰减。在上下文窗口中“可见”并不自动意味着在模型行为中“有效”。近期竞争、自条件化以及轮次边界共同导致了这种漂移。注意力汇(attention sinks)可能产生误导,表现为模型持续关注提示内容,但这并不意味着模型正在遵循规则。KV 缓存是一种优化手段,而前缀缓存则更多涉及架构与成本考量。作者以销售邮件评估器为例,说明模型输出如何偏离评估标准。为缓解指令漂移,作者建议采用无状态调用,并将策略与情景记忆分离。在决策前重新锚定规则以及增加规则召回步骤是有效的策略。此外,还建议对输出进行结构化处理,并在模型之外实施硬性保障。作者强调应跨轮次、跨种子测量漂移。该文章聚焦于推理时的机制,指出训练时的修复是另一条不同的杠杆。最终,作者得出结论:指令漂移往往属于控制路径的失效,而非存储问题。
favicon
dev.to
Why front-loaded rules drift in long evaluator and agent loops
Create attached notes ...