RSS DEV 社区
关注
基于 OpenSearch Serverless 的智能检索增强生成:一种模式解析
作者批评了面向代理式 AI 的新版 OpenSearch Serverless,指出其潜在陷阱,如冷启动、成本激增,以及误认为 Serverless 架构可消除架构需求。经典 RAG 在处理代理式场景时存在局限,其中 LLM 需跨多样化数据迭代调用工具并重构查询。金融类代理需要跨多个索引进行快速、低延迟的向量搜索。OpenSearch Serverless 的 OCU(On-Demand Collection Units)按集合进行扩展,空闲集合的冷启动会显著增加延迟。代理式 RAG 模式涵盖数据摄入、嵌入以及由编排器、工具和记忆支持的迭代检索 - 生成循环。关键配置包括用于低延迟的 HNSW 索引,以及用于提升检索质量的分层分块与元数据过滤。使用交叉编码器对检索到的文档进行重排序可显著提升精度。 sizing 考量因素包括 OCU 内存限制、P99 向量搜索延迟及冷启动时间。该模式适用于流量波动、知识增长非均匀及多租户场景。若端到端代理响应 SLO 低于 500ms,则不适用。反模式包括:多租户共用单一索引且无过滤、未缓存查询嵌入、高 k 值但未重排序、忽视批量摄入时的 OCU 成本,以及非幂等摄入管道。安全要求包括使用 KMS CMK、最小权限 IAM 角色、VPC 端点及查询审计。可观测性需监控基础设施、应用追踪及离线检索质量指标。