Vorhersage mit Mehrfach-Token: Überbrückung der Diskrepanz zwischen Training und Inferenz in LLMs

Wir fassen zusammen, wie die Mehr-Token-Vorhersage die Leistung von LLM verbessert, indem sie die verteilungsbezogene Diskrepanz insbesondere für größere Modelle und Codierungsaufgaben reduziert und eine schnellere Inferenz ermöglicht.