RSS 해커누

터보스퍼스: dReLU Sparsity를 통한 엘리트 추론 속도

RTX 4090 및 모바일 기기에서 TurboSparse를 사용하여 LLM 디코딩 속도를 2~5배 향상시키세요. 성능 저하 없이 97%의 파라미터 희소성을 경험하세요.
favicon
bsky.app
Hacker & Security News on Bluesky @hacker.at.thenote.app
favicon
hackernoon.com
TurboSparse: Elite Inference Speed via dReLU Sparsity