다중 토큰 LLM에 대한 자체 추측 디코딩 속도

그림 S10는 4토큰 예측 코드 모델에서 다양한 배치 크기에 대한 k 헤드 selbst-speculative 디코딩의 상대 처리량 및 지연 개선도를 보여줍니다.