RSS HackerNoon

Selbstspekulative Dekodierungsgeschwindigkeiten für Multi-Token-LLMs

Abbildung S10 veranschaulicht die relativen Durchsatz- und Latenzverbesserungen der selbstspekulativen Decodierung mit k Köpfen für ein 4-Token-Vorhersagemodell bei verschiedenen Batch-Größen.
favicon
bsky.app
Hacker & Security News on Bluesky @hacker.at.thenote.app
favicon
hackernoon.com
Self-Speculative Decoding Speeds for Multi-Token LLMs