AWS Lambda + ElastiCache를 이용한 ... 노트

AWS Lambda + ElastiCache를 이용한 3계층 캐싱 파이프라인으로 Amazon Bedrock 비용 절감

저자는 AI 기반 애플리케이션에 Amazon Bedrock을 사용하는 비용, 특히 반복적인 사용자 쿼리에 대한 비용을 다룹니다. 그들은 ElastiCache(Redis)를 활용하여 단일 AWS Lambda 함수 내에 구축된 3계층 캐싱 파이프라인을 제시합니다. 첫 번째 계층은 정확히 중복된 질문에 대해 해시 기반 캐싱을 사용하여 가장 빠른 검색을 제공합니다. 두 번째 계층은 의미론적 유사성을 사용하여 프롬프트를 벡터로 변환하고 캐시된 벡터와 비교하여 의역된 질문을 포착합니다. 세 번째 계층은 프롬프트 압축을 구현하여 Bedrock 호출이 필요한 경우 토큰 사용량을 줄이기 위해 불필요한 단어를 제거합니다. Lambda 함수의 핸들러는 각 캐시 계층을 순차적으로 확인하고, 놓쳤을 때만 Bedrock으로 진행한 다음 응답과 프롬프트의 벡터를 저장합니다. 테스트 결과 이 파이프라인은 불필요한 Bedrock 호출을 효과적으로 줄이는 것으로 나타났습니다. 이 패턴은 높은 쿼리 볼륨, 유사한 질문 및 장황한 프롬프트에서 가장 효과적이며, 저장된 임베딩에 대한 벡터 검색 및 CloudWatch 메트릭을 통합하여 성능을 최적화합니다. 저자는 비용 최적화를 위해 해시 캐싱으로 시작한 다음 의미론적 및 압축 계층을 점진적으로 통합할 것을 권장합니다. 이 접근 방식은 Bedrock 호출을 최소화하여 상당한 비용 절감을 제공합니다.