Comparaison du temps d'entraînement : prédiction multi-jeton vs. prédiction de jeton suivant

Ce tableau (S5) quantifie la surcharge de temps d'entraînement de la prédiction multi-jeton par rapport à la prédiction de jeton suivant, démontrant son efficacité computationnelle à travers différentes tailles de modèle de langage large (LLM).