La figure S10 illustre les améliorations relatives du débit et de la latence du décodage auto-spéculatif avec des têtes k pour un modèle de code de prédiction de 4 jetons à travers différentes tailles de lots.
hackernoon.com
Self-Speculative Decoding Speeds for Multi-Token LLMs
bsky.app
Hacker & Security News on Bluesky @hacker.at.thenote.app
