이 포스트에서는 사실적 지식과 품질을 평가하는 질문 답변 애플리케이션에 대한 기초 모델 평가 라이브러리(FMEval)와 함께 작동하는 최적의 방법론을 논의합니다. 특히, 기초 진실 조정 및 지표 해석에 대한 평가 방법을 다룹니다.
aws.amazon.com
Ground truth curation and metric interpretation best practices for evaluating generative AI question answering using FMEval