Сравнение времени обучения: многотокеновое предсказание против предсказания следующего токена

Эта таблица (S5) количественно оценивает дополнительные затраты времени на обучение при много-токенном предсказании по сравнению с предсказанием следующего токена, демонстрируя его вычислительную эффективность для различных размеров LLM.