RSS AWS 머신 러닝 블로그

AWS 상에서 LLM(대규모 언어 모델)을 판정자로 활용하여 의료 생성형 AI 애플리케이션을 평가한다.

이 게시물에서는 Amazon Bedrock를 사용하여 이 평가 프레임워크를 구현하는 방법을 보여주고, Anthropic의 Claude와 Amazon Nova를 포함한 다양한 생성 모델의 성능을 비교하며, 새로운 RAG 평가 기능을 사용하여 지식 베이스 매개변수를 최적화하고 검색 품질을 평가하는 방법을 보여줍니다.
favicon
aws.amazon.com
Evaluate healthcare generative AI applications using LLM-as-a-judge on AWS
기사 이미지: AWS 상에서 LLM(대규모 언어 모델)을 판정자로 활용하여 의료 생성형 AI 애플리케이션을 평가한다.