RSS 해커누

다중 토큰 LLM에 대한 자체 추측 디코딩 속도

그림 S10는 4토큰 예측 코드 모델에서 다양한 배치 크기에 대한 k 헤드 selbst-speculative 디코딩의 상대 처리량 및 지연 개선도를 보여줍니다.
favicon
hackernoon.com
Self-Speculative Decoding Speeds for Multi-Token LLMs
favicon
bsky.app
Hacker & Security News on Bluesky @hacker.at.thenote.app