より良いAIベンチマークの構築:いくつの評価者で十分か?
機械学習における再現性は、信頼を構築し、累積的な進歩を可能にするために非常に重要です。しかし、人間の正解データは、本質的な意見の不一致のために課題をもたらします。現在のAIベンチマークは、複数の評価者からデータを収集するコストが高いこともあり、この人間のばらつきを見過ごしがちです。ある研究では、多数の項目を少数の評価者で評価することと、少数の項目を多数の評価者で評価することのトレードオフを調査しました。歴史的に、AI評価は「フォレスト」アプローチ、つまり項目ごとに少数の評価者しか使用しない方法を好んできましたが、これは人間の意見のニュアンスを捉えるには不十分な場合が多いです。これに対処するため、固定された予算内でさまざまな規模の項目と評価者の数をストレステストするためのシミュレーターが開発されました。このシミュレーションでは、毒性検出のような主観的なタスクを含む、多様な現実世界のデータセットを使用しました。主な発見は、項目あたり3〜5人の評価者しか使用しないという標準的な慣行に異議を唱え、信頼できる結果を得るには10人以上が必要であることが多いことを示唆しています。最適な戦略はメトリックによって異なり、多数決には幅(より多くの項目)が適しており、意見のばらつきを捉えるには深さ(より多くの評価者)が必要です。効率的な再現性は、選択されたメトリックに対して項目あたりの評価者数の比率を正しく最適化することで、適度な予算で実現可能です。この研究は、「単一の真実」というパラダイムから脱却し、信頼できるAIを構築するためには、人間の意見の不一致を理解することが合意と同じくらい重要であることを認めています。