您的 AI 代理发出的 API 调用次数远超预期——成本究竟藏在哪里？

文章讨论了从简单聊天机器人过渡到基于大语言模型（LLM）的复杂代理工作流时，成本意外增加的问题。与简单聊天机器人不同，代理工作流涉及多次 LLM 调用，包括规划、工具选择和结果评估，从而导致成本显著上升。作者观察到成本增加了 5 至 20 倍，原因包括规划开销和上下文窗口膨胀。冗余的工具调用以及回退失败进一步推高了成本，不同模型之间的分词差异也加剧了这一现象。为控制支出，作者实施了多项策略，重点提升可观测性和控制能力。这些策略包括在网关层面进行分词计费以实现精确的成本追踪和按请求分解成本；设置带硬性上限的迭代预算，以防止因代理行为低效导致的成本失控；通过上下文压缩和用户级支出限额提供额外的成本控制措施；以及利用智能模型路由，为简单任务分配更便宜的模型，从而优化资源分配。推荐的架构涉及一个网关，用于在两端管理分词预算、模型选择和成本归因。核心结论是：代理成本问题的根源在于缺乏适当的测量和可见性，而不仅仅是模型定价。网关层面的分词计费被视为成功扩展代理部署的关键初始投资。

dev.to

Your AI Agent Is Sending 10x More API Calls Than You Think — Here's Where the Cost Hides

RSS Hunter

2026-05-01