大規模言語モデルの出力の評価は正確に行うことが重要だが、LLMを審判として使用するとバイアスや不完全さを導入するおそれがある。LLM審判は、事実の正確さよりも流暢さを過大評価し、微妙な推理を逃し、自分の出力に似ている回答を好む傾向にある。これらのバイアスは、評価結果を予測可能な方法で歪めるため、これらを補正することが必要となる。問題の大きさを量るために、小さなゴールドラベル例集合を使用して審判を監査し、バイアスを測定することができる。心理学、医療、機械学習における測定理論に基づく補正式を適用することで、観測された勝率をデバイアスすることができる。この式は、審判のエラーがモデルのアイデンティティーとは独立していることを仮定しているが、実際にはこの仮定がしばしば破られる。補正式は、審判が特定のモデルのタイプを好む場合にはバイアスを持つ可能性があるため、モデルのタイプ別の公平性を検証する必要がある。LLM審判のバイアスに対処するための代替アプローチとして、ゴールドヒューマンラベル、審判アンサンブル、自己一致、裁定、メタ・エバリュエーターのトレーニング、コンフィデントラーニングがある。評価者を、限界、バイアス、パラメーターのあるモデルとして扱い、理解、監査、補正することが、モデルの評価における公平性と透明性を確保するために不可欠である。我々がこれらのバイアスを認識し対処することで、メトリクスと評価の信頼性を高めることができる。
dev.to
Debiasing LLM Judges: Understanding and correcting AI Evaluation Bias
Create attached notes ...
