Агентный RAG с OpenSearch Serverless: Анатомия паттерна

Автор критикует новый OpenSearch Serverless, ориентированный на агентный ИИ, указывая на потенциальные проблемы, такие как "холодные старты", взрывной рост затрат и заблуждение о том, что бессерверность устраняет необходимость в архитектуре. Классический RAG испытывает трудности с агентностью, когда LLM итеративно вызывают инструменты и переформулируют запросы к разнообразным данным. Финансовые агенты требуют быстрых векторных поисков с низкой задержкой по нескольким индексам. OCUs OpenSearch Serverless масштабируются на коллекцию, а "холодные старты" неактивных коллекций являются значительной проблемой задержки. Паттерн агентного RAG включает в себя загрузку, встраивание и итеративный цикл извлечения-генерации с оркестраторами, инструментами и памятью. Ключевые конфигурации включают индексирование HNSW для низкой задержки и иерархическое разбиение с фильтрацией по метаданным для качества извлечения. Переранжирование извлеченных документов с помощью кросс-энкодера значительно повышает точность. Соображения по размеру включают ограничения памяти OCU, задержку векторного поиска P99 и время "холодного старта". Этот паттерн подходит для переменного трафика, неравномерного роста знаний и многопользовательского режима. Он не подходит для SLO ниже 500 мс сквозного ответа агента. Антипаттерны включают многопользовательские одиночные индексы без фильтров, некэшированные встраивания запросов, высокий k без переранжирования, игнорирование затрат OCU для пакетной загрузки и неидемпотентные конвейеры загрузки. Безопасность требует KMS CMK, IAM-ролей с минимальными привилегиями, VPC-эндпоинтов и аудита запросов. Наблюдаемость требует мониторинга инфраструктуры, трассировки приложений и метрик качества офлайн-извлечения.

Agentic RAG with OpenSearch Serverless: Anatomy of a Pattern dev.to

RSS Hunter • Сегодня