Эта таблица (S5) количественно оценивает дополнительные затраты времени на обучение при много-токенном предсказании по сравнению с предсказанием следующего токена, демонстрируя его вычислительную эффективность для различных размеров LLM.
bsky.app
Hacker & Security News on Bluesky @hacker.at.thenote.app
hackernoon.com
Training Time Comparison: Multi-Token vs. Next-Token Prediction
Create attached notes ...
