RSS 구글 AI 블로그
팔로우
건강 언어 모델 평가를 위한 확장 가능한 프레임워크
대규모 언어 모델(LLM)은 복잡한 건강 데이터를 분석하여 개인 맞춤형 응답을 생성할 수 있습니다. 이러한 LLM 응답을 평가하는 것은 정확성과 안전성을 위해 매우 중요하지만, 현재의 인간 전문가 평가는 비용이 많이 들고 확장성이 부족합니다. 본 논문은 적응형 정밀 불리언 루브릭을 사용하여 건강 LLM을 평가하는 새로운 프레임워크를 소개합니다. 이러한 루브릭은 복잡한 질문을 세분화된 예/아니오 기준(Yes/No criteria)으로 나누어 일관성과 효율성을 향상시킵니다. 이 프레임워크는 대사 건강 분야에서 테스트되었으며, 전통적인 리커트 척도(Likert scales)보다 평가자 간 신뢰도(inter-rater reliability)가 현저히 높았습니다. 또한 적응형 정밀 불리언 루브릭은 평가 시간을 50% 이상 단축시켰습니다. 이 방법은 리커트 척도에 비해 응답 품질의 변화에 더 민감한 것으로 나타났습니다. 제로샷 분류기(zero-shot classifier)를 사용하여 루브릭 필터링 프로세스를 자동화한 결과, 유사한 평가 개선 효과가 유지되었습니다. 이 프레임워크는 실제 참가자 데이터가 변경되었을 때 LLM 응답의 품질 저하를 안정적으로 감지했습니다. 제안된 접근 방식은 전문 분야에서 LLM 평가를 위한 확장 가능하고 간소화된 방법을 제공합니다.