作者探讨了使用 Amazon Bedrock 构建 AI 驱动应用的成本问题,特别是在处理重复用户查询时。他们提出了一种三层缓存管道,该管道构建在单个 AWS Lambda 函数内,并采用 ElastiCache(Redis)作为缓存后端。第一层采用基于哈希的缓存,用于精确匹配重复问题,实现最快的检索速度。第二层利用语义相似度,将提示词转换为向量并与缓存中的向量进行比较,以捕获改写后的问题。第三层实施提示词压缩,移除填充词,从而在必须调用 Bedrock 时减少 token 用量。Lambda 函数的处理器按顺序检查每一层缓存,仅在缓存未命中时才调用 Bedrock,随后存储响应及提示词的向量。测试表明,该管道能有效减少不必要的 Bedrock 调用。该模式在高查询量、相似问题以及冗长提示词的场景下最为有效,其性能通过集成向量搜索(用于存储的嵌入)和 CloudWatch 指标进行优化。作者建议从哈希缓存开始,然后逐步集成语义相似度和压缩层,以优化成本。这种方法通过最小化 Bedrock 调用次数,实现了显著的成本节约。
dev.to
Cut Amazon Bedrock Costs with a 3-Layer Caching Pipeline on AWS Lambda + ElastiCache
Create attached notes ...
