Vitesses de décodage auto-spéculatives pour les LLM à plusieurs jetons

La figure S10 illustre les améliorations relatives du débit et de la latence du décodage auto-spéculatif avec des têtes k pour un modèle de code de prédiction de 4 jetons à travers différentes tailles de lots.