Обучение уточнению: Многоходовые разговоры с контрастным самообучением на основе действий

Большие языковые модели (LLM) стали ведущей парадигмой для разработки интеллектуальных диалоговых агентов, но им часто не хватает навыков многооборотного диалога, таких как устранение неоднозначности. Чтобы решить эту проблему, авторы предлагают Action-Based Contrastive Self-Training (ACT) [Контрастное самообучение на основе действий] - квази-онлайн алгоритм оптимизации предпочтений, который обеспечивает эффективное с точки зрения данных обучение политики диалога в моделировании многооборотной беседы. ACT демонстрирует существенные улучшения в моделировании беседы по сравнению со стандартными подходами к настройке, такими как контролируемая тонкая настройка и DPO (Direct Preference Optimization - прямая оптимизация предпочтений). Авторы также представляют AmbigSQL, новую задачу для устранения неоднозначности запросов на поиск информации для генерации сложного кода Structured Query Language (SQL). ACT включает в себя построение набора данных предпочтений, синтез отклоненных ответов и настройку модели политики с использованием целевой функции DPO. Авторы экспериментируют с ACT, используя LLM с открытым весом на разнообразном наборе разговорных наборов данных, и сравнивают его с различными конкурентоспособными базовыми линиями, включая контролируемую тонкую настройку, итеративную оптимизацию предпочтений рассуждений и подсказки Gemini и Claude с примерами обучения в контексте. ACT достигает наилучшей производительности по всем метрикам, с относительным улучшением до 19,1% по сравнению с контролируемой тонкой настройкой при измерении способности настроенной модели неявно распознавать неоднозначность. Авторы также проводят абляционные исследования, чтобы понять преимущества каждого компонента ACT, и обнаруживают, что предпочтения на основе действий, выборка на основе политики и моделирование траектории имеют решающее значение для улучшения многооборотного достижения цели. В целом, ACT - это не зависящий от модели подход, который может улучшить производительность независимо от существующего соответствия с отзывами людей.

Learning to clarify: Multi-turn conversations with Action-Based Contrastive Self-Training research.google

RSS Hunter • 2 июн. 2025 г.