대규모 언어 모델(LLM)의 출력을 정확하게 평가하는 것은 중요하지만, LLM을 심판으로 사용하면 편향과 불완전성이 발생할 수 있습니다. LLM 심판은 체계적으로 잘못되어, 사실적 정확성보다 유창성을 과대평가하고, 미묘한 추론을 놓치고, 자신의 출력과 유사한 답변을 선호할 수 있습니다. 이러한 편향은 예측 가능한 방식으로 평가 결과를 왜곡시킬 수 있으므로 이를 보정하는 것이 필수적입니다. 문제의 정도를 정량화하기 위해, 소규모의 금 표준 예제를 사용하여 심판을 감사하고 편향을 측정할 수 있습니다. 심리학, 의학, 기계 학습에서 사용되는 측정 이론에 기반한 보정 공식을 적용하여 관찰된 승률을 편향 보정할 수 있습니다. 그러나 이 공식은 심판의 오류가 모델의 정체와 독립적이라고 가정하지만, 실제로는 이 가정이 souvent 위반됩니다. 심판이 특정 모델 유형을 선호하는 경우에도 이 공식은 편향될 수 있으므로 모델 유형에 걸쳐 심판의 공정성을 검증하는 것이 필요합니다. LLM 심판 편향을 해결하는 대체 접근 방식에는 금 인간 레이블링, 심판 앙상블, 자체 일관성, 중재, 메타 평가자 훈련 및 확신 학습이 있습니다. 평가자는 제한, 편향 및 매개변수가 있는 모델로 간주하여 이해, 감사 및 보정하여 모델 평가의 무결성 및 투명성을 보장해야 합니다. 이러한 편향을 인정하고 해결함으로써 우리는 우리의 지표 및 평가의 신뢰성을 개선할 수 있습니다.
dev.to
Debiasing LLM Judges: Understanding and correcting AI Evaluation Bias
