Multi-Token Prediction: Bridging Training-Inference Mismatch in LLMs

We summarize how multi-token prediction enhances LLM performance by reducing distributional mismatch, particularly for larger models and code tasks, and enabling faster inference.