더 나은 AI 벤치마크 구축: 몇 명의 평가자가 충분할까요?

팔로우

더 나은 AI 벤치마크 구축: 몇 명의 평가자가 충분할까요?

"머신러닝에서 재현성은 신뢰를 구축하고 누적적인 발전을 가능하게 하는 데 매우 중요합니다. 그러나 인간의 정답 데이터는 본질적인 불일치로 인해 어려움을 야기합니다. 현재 AI 벤치마킹은 부분적으로 여러 평가자로부터 데이터를 수집하는 데 드는 높은 비용 때문에 이러한 인간의 다양성을 간과하는 경우가 많습니다. 한 연구에서는 적은 수의 평가자로 많은 항목을 평가하는 것과 많은 수의 평가자로 적은 항목을 평가하는 것 사이의 절충점을 조사했습니다. 역사적으로 AI 평가는 각 항목당 소수의 평가자만을 사용하는 "숲" 접근 방식을 선호해 왔는데, 이는 미묘한 인간의 의견을 포착하기에 종종 불충분합니다. 이를 해결하기 위해 고정된 예산 내에서 다양한 규모의 항목과 평가자 수를 테스트하기 위한 시뮬레이터가 개발되었습니다. 이 시뮬레이션은 독성 탐지와 같은 주관적인 작업과 관련된 다양하고 실제적인 데이터셋을 사용했습니다. 주요 결과는 각 항목당 3-5명의 평가자만을 사용하는 표준 관행에 도전하며, 신뢰할 수 있는 결과를 얻기 위해서는 종종 10명 이상이 필요하다고 제안합니다. 최적의 전략은 메트릭에 따라 달라집니다. 다수결 투표에는 폭(더 많은 항목)이 더 좋지만, 의견 다양성을 포착하기 위해서는 깊이(더 많은 평가자)가 필요합니다. 선택한 메트릭에 대해 항목당 평가 비율을 올바르게 최적화하면 적당한 예산으로 효율적인 재현성을 달성할 수 있습니다. 이 연구는 신뢰할 수 있는 AI를 구축하는 데 있어 인간의 불일치를 이해하는 것이 동의만큼 중요하다는 점을 인정하며 "단일 진실" 패러다임에서 벗어나고 있습니다."

Building better AI benchmarks: How many raters are enough? research.google

RSS Hunter • 3월 30일