团队在优化 LLM 成本时往往聚焦于基础设施,而忽视了提示词缓存(prompt caching)。提示词缓存可显著降低 token 成本,但系统提示词中的动态内容常导致缓存失效。例如,时间戳或用户数据等动态元素会破坏缓存,致使按全额 token 计费。ProjectDiscovery 通过将动态内容移至用户消息中,成功提升了缓存命中率,大幅节省了成本。其核心原则是保持系统提示词静态,以最大化缓存收益。指令和工具定义等静态元素应置于动态内容之前。若提示词读取 token 的缓存命中率较低,则表明提示词结构可能存在潜在问题。相较于基础设施调整,优先优化提示词结构可大幅降低成本。许多团队因系统提示词中包含动态数据而错失显著节省机会。审查提示词结构并分离静态与动态元素,是实现 LLM 成本效益使用的关键。节省效果立竿见影,通常能迅速改善账单。
dev.to
Fix Your Prompt Structure Before You Touch Your Infrastructure
Create attached notes ...
