Lernen, zu klären: Mehrfach-Gespräche mit aktionsbasiertem Selbst-Training durch Kontrast

Folgen

Lernen, zu klären: Mehrfach-Gespräche mit aktionsbasiertem Selbst-Training durch Kontrast

Große Sprachmodelle (LLMs) sind zu einem führenden Paradigma für die Entwicklung intelligenter konversationeller Agenten geworden, aber sie fehlen oft an mehrfachen konversationellen Fähigkeiten wie der Disambiguierung. Um dies anzugehen, schlagen die Autoren Action-Based Contrastive Self-Training (ACT) vor, einen quasi-Online-Präferenz-Optimierungsansatz, der dateneffizientes Dialog-Policy-Lernen in mehrfachen Konversationsmodellierungen ermöglicht. ACT weist beträchtliche Verbesserungen bei der Konversationsmodellierung gegenüber Standard-Ansätzen wie überwachtem Feintuning und DPO auf. Die Autoren führen auch AmbigSQL ein, eine Aufgabe zur Disambiguierung von Informationen-suchenden Anfragen für komplexe Structured Query Language (SQL)-Code-Generierung. ACT umfasst das Erstellen eines Präferenz-Datensatzes, die Synthese abgelehnter Antworten und das Feintuning des Policy-Modells unter Verwendung des DPO-Ziels. Die Autoren experimentieren mit ACT unter Verwendung offener Gewichts-LLMs auf einer vielfältigen Menge von Konversations-Datensätzen und vergleichen es mit verschiedenen wettbewerbsfähigen Baselines, einschließlich überwachtem Feintuning, iterativer Vernunft-Präferenz-Optimierung und dem Auslösen von Gemini und Claude mit in-Kontext-Lernbeispielen. ACT erreicht die beste Leistung bei allen Metriken, mit bis zu 19,1% relativen Verbesserung gegenüber überwachtem Feintuning bei der Messung der Fähigkeit des angepassten Modells, Ambiguität implizit zu erkennen. Die Autoren führen auch Ablationsstudien durch, um die Vorteile jeder Komponente von ACT zu verstehen und finden, dass action-basierte Präferenzen, On-Policy-Stichproben und Trajektorien-Simulation für verbesserte mehrfache Ziel-Erreichung entscheidend sind. Insgesamt ist ACT ein modell-agnostischer Ansatz, der die Leistung unabhängig von vorheriger Ausrichtung auf menschliche Rückmeldung verbessern kann.

Learning to clarify: Multi-turn conversations with Action-Based Contrastive Self-Training research.google

RSS Hunter • 2. Juni 2025