使用 AWS Lambda 和 ElastiCache 的三层缓存管道降低 Amazon Bedrock 成本

关注

使用 AWS Lambda 和 ElastiCache 的三层缓存管道降低 Amazon Bedrock 成本

作者探讨了使用 Amazon Bedrock 构建 AI 驱动应用的成本问题，特别是在处理重复用户查询时。他们提出了一种三层缓存管道，该管道构建在单个 AWS Lambda 函数内，并采用 ElastiCache（Redis）作为缓存后端。第一层采用基于哈希的缓存，用于精确匹配重复问题，实现最快的检索速度。第二层利用语义相似度，将提示词转换为向量并与缓存中的向量进行比较，以捕获改写后的问题。第三层实施提示词压缩，移除填充词，从而在必须调用 Bedrock 时减少 token 用量。Lambda 函数的处理器按顺序检查每一层缓存，仅在缓存未命中时才调用 Bedrock，随后存储响应及提示词的向量。测试表明，该管道能有效减少不必要的 Bedrock 调用。该模式在高查询量、相似问题以及冗长提示词的场景下最为有效，其性能通过集成向量搜索（用于存储的嵌入）和 CloudWatch 指标进行优化。作者建议从哈希缓存开始，然后逐步集成语义相似度和压缩层，以优化成本。这种方法通过最小化 Bedrock 调用次数，实现了显著的成本节约。

Cut Amazon Bedrock Costs with a 3-Layer Caching Pipeline on AWS Lambda + ElastiCache dev.to

RSS Hunter • 5月5日