RSS DEV コミュニティ
フォロー
OpenSearch ServerlessによるエージェンティックRAG:パターンの解剖
著者は、新しいエージェンティックAI中心のOpenSearch Serverlessを批判し、コールドスタート、コストの爆発、サーバーレスがアーキテクチャの必要性をなくすという誤解といった潜在的な落とし穴を強調しています。古典的なRAGは、LLMがツールを反復的に呼び出し、多様なデータ間でクエリを再構築するエージェンシーに苦労します。金融エージェントは、複数のインデックスにわたる高速で低遅延のベクトル検索を必要とします。OpenSearch Serverless OCUsはコレクションごとにスケーリングされ、アイドルコレクションのコールドスタートは重大な遅延問題です。エージェンティックRAGパターンは、取り込み、埋め込み、およびオーケストレーター、ツール、メモリを備えた反復的な検索-生成サイクルを含みます。主要な構成には、低遅延のためのHNSWインデックス作成と、検索品質のためのメタデータフィルタリングを備えた階層的なチャンキングが含まれます。取得したドキュメントをクロスエンコーダーで再ランク付けすると、精度が劇的に向上します。サイジングの考慮事項には、OCUメモリ制限、P99ベクトル検索遅延、およびコールドスタート時間があります。このパターンは、トラフィックの変動、知識の不均一な成長、およびマルチテナンシーに適しています。エンドツーエンドのエージェント応答が500ms未満のSLOには不適切です。アンチパターンには、フィルタリングのないマルチテナント単一インデックス、キャッシュされていないクエリ埋め込み、再ランク付けなしの高k、バッチ取り込みのOCUコストの無視、および冪等性のない取り込みパイプラインが含まれます。セキュリティは、KMS CMK、最小権限IAMロール、VPCエンドポイント、およびクエリ監査を義務付けています。オブザーバビリティには、インフラストラクチャの監視、アプリケーショントレース、およびオフライン検索品質メトリックが必要です。