基于 OpenSearch Serverless 的智能检索增强生成：一种模式解析

关注

基于 OpenSearch Serverless 的智能检索增强生成：一种模式解析

作者批评了面向代理式 AI 的新版 OpenSearch Serverless，指出其潜在陷阱，如冷启动、成本激增，以及误认为 Serverless 架构可消除架构需求。经典 RAG 在处理代理式场景时存在局限，其中 LLM 需跨多样化数据迭代调用工具并重构查询。金融类代理需要跨多个索引进行快速、低延迟的向量搜索。OpenSearch Serverless 的 OCU（On-Demand Collection Units）按集合进行扩展，空闲集合的冷启动会显著增加延迟。代理式 RAG 模式涵盖数据摄入、嵌入以及由编排器、工具和记忆支持的迭代检索 - 生成循环。关键配置包括用于低延迟的 HNSW 索引，以及用于提升检索质量的分层分块与元数据过滤。使用交叉编码器对检索到的文档进行重排序可显著提升精度。 sizing 考量因素包括 OCU 内存限制、P99 向量搜索延迟及冷启动时间。该模式适用于流量波动、知识增长非均匀及多租户场景。若端到端代理响应 SLO 低于 500ms，则不适用。反模式包括：多租户共用单一索引且无过滤、未缓存查询嵌入、高 k 值但未重排序、忽视批量摄入时的 OCU 成本，以及非幂等摄入管道。安全要求包括使用 KMS CMK、最小权限 IAM 角色、VPC 端点及查询审计。可观测性需监控基础设施、应用追踪及离线检索质量指标。

Agentic RAG with OpenSearch Serverless: Anatomy of a Pattern dev.to

RSS Hunter • 今天