Создание лучших бенчмарков для ИИ: Сколько оценщиков достаточно?

Воспроизводимость в машинном обучении имеет решающее значение для построения доверия и обеспечения кумулятивного прогресса. Однако данные, основанные на человеческой истине, создают проблемы из-за присущих разногласий. Текущее тестирование ИИ часто игнорирует эти человеческие вариации, отчасти из-за высокой стоимости сбора данных от нескольких оценщиков. Исследование изучило компромисс между оценкой большого количества элементов с небольшим количеством оценщиков и оценкой меньшего количества элементов с большим количеством оценщиков. Исторически сложилось так, что оценка ИИ отдавала предпочтение подходу "лес", используя всего несколько оценщиков на элемент, что часто недостаточно для улавливания нюансов человеческого мнения. Для решения этой проблемы был разработан симулятор для стресс-тестирования различных масштабов элементов и количества оценщиков в рамках фиксированного бюджета. Эта симуляция использовала разнообразные наборы данных из реального мира, включающие субъективные задачи, такие как обнаружение токсичности. Основные выводы ставят под сомнение стандартную практику использования всего 3-5 оценщиков на элемент, предполагая, что для надежных результатов часто требуется более 10. Оптимальная стратегия зависит от метрики: широта (больше элементов) лучше для большинства голосов, в то время как глубина (больше оценщиков) необходима для улавливания вариаций мнений. Эффективная воспроизводимость достижима при скромном бюджете путем правильной оптимизации соотношения оценок на элемент для выбранной метрики. Это исследование отходит от парадигмы "единой истины", признавая, что понимание человеческих разногласий так же важно, как и согласие, для создания надежного ИИ.

Building better AI benchmarks: How many raters are enough? research.google

RSS Hunter • 30 мар.