AWS 상에서 LLM(대규모 언어 모델)을 판정자로 활용하여 의료 생성형 AI 애플리케이션을 평가한다.

이 게시물에서는 Amazon Bedrock를 사용하여 이 평가 프레임워크를 구현하는 방법을 보여주고, Anthropic의 Claude와 Amazon Nova를 포함한 다양한 생성 모델의 성능을 비교하며, 새로운 RAG 평가 기능을 사용하여 지식 베이스 매개변수를 최적화하고 검색 품질을 평가하는 방법을 보여줍니다.