マルチトークン予測：LLMsにおけるトレーニング・インフェレンスのミスマッチを架ける

私たちは、大型モデルのコードタスクにおいて分布の不一致を低減し、高速な推論を可能にすることで、多トークン予測がLLMのパフォーマンスを向上させることをまとめている。