Selbstspekulative Dekodierungsgeschwindigkeiten für Multi-Token-LLMs

Abbildung S10 veranschaulicht die relativen Durchsatz- und Latenzverbesserungen der selbstspekulativen Decodierung mit k Köpfen für ein 4-Token-Vorhersagemodell bei verschiedenen Batch-Größen.