Prédiction de plusieurs jetons : résolution de la discordance entre entraînement et inférence dans les LLM

Nous résumons comment la prédiction multi-jeton améliore les performances des grands modèles de langage en réduisant la discordance distributionnelle, en particulier pour les modèles plus grands et les tâches de code, et en permettant une inférence plus rapide.