Vergleich der Trainingszeit: Multi-Token-Vorhersage vs. Next-Token-Vorhersage

Diese Tabelle (S5) quantifiziert den Mehraufwand an Trainingszeit, der durch Multi-Token-Vorhersage im Vergleich zur Vorhersage des nächsten Tokens entsteht, und demonstriert damit ihre Recheneffizienz bei verschiedenen LLM-Größen.