Сократите расходы на Amazon Bedrock с помощью трехслойного кэширующего конвейера на AWS Lambda + Ela

Сократите расходы на Amazon Bedrock с помощью трехслойного кэширующего конвейера на AWS Lambda + ElastiCache

Автор рассматривает стоимость использования Amazon Bedrock для приложений на основе искусственного интеллекта, особенно при повторных запросах пользователей. Они представляют трехслойный конвейер кэширования, построенный в рамках одной функции AWS Lambda, использующей ElastiCache (Redis). Первый слой использует кэширование на основе хэшей для точных дубликатов вопросов, обеспечивая самый быстрый поиск. Второй слой использует семантическую схожесть, преобразуя запросы в векторы и сравнивая их с кэшированными векторами, чтобы улавливать перефразированные вопросы. Третий слой реализует сжатие запросов, удаляя слова-заполнители, чтобы уменьшить использование токенов, когда необходим вызов Bedrock. Обработчик функции Lambda последовательно проверяет каждый слой кэша, переходя к Bedrock только при промахе, а затем сохраняя ответ и вектор запроса. Тесты показывают, что конвейер эффективно сокращает ненужные вызовы Bedrock. Шаблон наиболее эффективен при больших объемах запросов, похожих вопросах и многословных запросах, в то время как производительность оптимизируется за счет включения векторного поиска для сохраненных вложений и метрик CloudWatch. Автор рекомендует начать с хэш-кэширования, а затем постепенно интегрировать семантический и компрессионный слои для оптимизации затрат. Этот подход обеспечивает значительную экономию средств за счет минимизации вызовов Bedrock.

Cut Amazon Bedrock Costs with a 3-Layer Caching Pipeline on AWS Lambda + ElastiCache dev.to

RSS Hunter • 5 мая