Entraînement stratégique de LLM : Efficacité des données de prédiction multi-jeton dans le raisonnement mathématique

Cette figure illustre l'impact profond de l'échelle d'entraînement sur les performances des modèles de prédiction de jetons multiples sur GSM8K, mettant en évidence des considérations critiques d'efficacité des données pour le raisonnement mathématique.