Точная оценка результатов работы больших языковых моделей (LLM) имеет решающее значение, но использование LLM в качестве судей может привнести предвзятости и недостатки. Судьи LLM могут систематически ошибаться, переоценивая беглость речи в ущерб фактической правильности, упуская тонкие рассуждения и отдавая предпочтение ответам, похожим на собственные результаты. Эти предвзятости могут искажать результаты оценки предсказуемым образом, что делает необходимым их исправление. Чтобы количественно оценить проблему, для аудита судьи и измерения его предвзятости можно использовать небольшой набор примеров с золотыми метками. Для устранения предвзятости наблюдаемой частоты побед может быть применена формула коррекции, основанная на теории измерений, используемой в психологии, медицине и машинном обучении. Эта формула предполагает, что ошибки судьи не зависят от идентичности модели, но на практике это предположение часто нарушается. Формула коррекции все еще может быть предвзятой, если судья предпочитает определенные типы моделей, что подчеркивает необходимость проверки справедливости судьи для разных типов моделей. Альтернативные подходы к устранению предвзятости судей LLM включают в себя использование золотых человеческих меток, ансамблирование судей, самосогласованность, арбитраж, обучение мета-оценщика и уверенное обучение. Важно относиться к оценщикам как к моделям с ограничениями, предвзятостями и параметрами, которые должны быть поняты, проверены и исправлены для обеспечения целостности и прозрачности при оценке моделей. Признавая и устраняя эти предвзятости, мы можем повысить доверие к нашим метрикам и оценкам.
dev.to
Debiasing LLM Judges: Understanding and correcting AI Evaluation Bias
