ConvApparel: Измерение и сокращение разрыва в реализме симуляторов пользователей

Современный разговорный ИИ может выполнять сложные задачи, но испытывает трудности с длительными взаимодействиями, часто забывая детали или становясь неуместным. Тестирование на реальных людях для улучшения дорогостоящее и трудно масштабируемое. Симуляторы пользователей, основанные на больших языковых моделях, предлагают масштабируемую альтернативу, но часто не хватает реализма, проявляя необычное терпение или знания. Для устранения этого пробела в реализме был разработан новый набор данных под названием ConvApparel. Этот набор данных состоит из диалогов человека и ИИ в области покупок одежды, собранных с использованием протокола с двумя агентами. Участники взаимодействовали либо с полезным, либо с намеренно бесполезным ИИ-агентом. ConvApparel включает подробные пошаговые аннотации состояний пользователя, таких как удовлетворенность и разочарование. Была создана трехкомпонентная система валидации для оценки точности симулятора. Эта система включает статистическое выравнивание на уровне популяции, оценку человекоподобия и контрфактическую валидацию. Контрфактическая валидация оценивает, как симуляторы адаптируются к неожиданному, выходящему за рамки распределения поведению помощника. Эксперименты показали, что, хотя симуляторы, основанные на данных (ICL и SFT), превзошли симуляторы, основанные на подсказках, пробел в реализме сохраняется. Однако симуляторы, основанные на данных, продемонстрировали устойчивость, реалистично меняя поведение при взаимодействии с разочаровывающим "плохим агентом". Набор данных ConvApparel и система предоставляют инструменты для измерения и преодоления пробела в реализме пользовательских симуляторов, что крайне важно для разработки надежного разговорного ИИ.

ConvApparel: Measuring and bridging the realism gap in user simulators research.google

RSS Hunter • 8 апр.