Agentic RAG와 OpenSearch Server... 노트

Agentic RAG와 OpenSearch Serverless: 패턴의 해부

저자는 새로운 에이전트 AI 중심의 OpenSearch Serverless를 비판하며, 콜드 스타트, 폭발적인 비용, 서버리스가 아키텍처적 필요성을 제거한다는 오해와 같은 잠재적 함정을 강조합니다. 고전적인 RAG는 LLM이 다양한 데이터에 걸쳐 도구를 반복적으로 호출하고 쿼리를 재구성하는 에이전시에서 어려움을 겪습니다. 금융 에이전트는 여러 인덱스에 걸쳐 빠르고 낮은 지연 시간의 벡터 검색이 필요합니다. OpenSearch Serverless OCU는 컬렉션별로 확장되며, 유휴 컬렉션의 콜드 스타트는 상당한 지연 시간 문제입니다. 에이전트 RAG 패턴은 오케스트레이터, 도구 및 메모리를 사용한 수집, 임베딩 및 반복적인 검색-생성 주기를 포함합니다. 주요 구성에는 낮은 지연 시간을 위한 HNSW 인덱싱과 검색 품질을 위한 메타데이터 필터링을 포함한 계층적 청킹이 포함됩니다. 검색된 문서를 크로스 인코더로 재순위 지정하면 정밀도가 크게 향상됩니다. 크기 조정 고려 사항에는 OCU 메모리 제한, P99 벡터 검색 지연 시간 및 콜드 스타트 시간이 포함됩니다. 이 패턴은 가변 트래픽, 비균일 지식 성장 및 멀티 테넌시에 적합합니다. 500ms 미만의 엔드투엔드 에이전트 응답 SLO에는 부적합합니다. 안티 패턴에는 필터 없는 멀티 테넌트 단일 인덱스, 캐시되지 않은 쿼리 임베딩, 재순위 지정 없는 높은 k, 배치 수집에 대한 OCU 비용 무시, 비멱능적 수집 파이프라인이 포함됩니다. 보안은 KMS CMK, 최소 권한 IAM 역할, VPC 엔드포인트 및 쿼리 감사를 의무화합니다. 관찰 가능성은 인프라 모니터링, 애플리케이션 추적 및 오프라인 검색 품질 메트릭을 필요로 합니다.