Скорости самоспекулятивного декодирования для многосимвольных языковых моделей

Рисунок S10 иллюстрирует относительные улучшения пропускной способности и задержки при использовании само-спекулятивного декодирования с k головами для модели предсказания 4 токенов при различных размерах пакетов.