マルチトークンLLMの自己推測的デコーディングスピード

図S10は、4トークンの予測コードモデルに対して、k個のヘッドを持つ自己推測デコーディングの相対的なスループットと待ち時間の改善を、さまざまなバッチサイズに対して示している。