RSS HackerNoon

TurboSparse: Элитная скорость вывода через dReLU Sparsity

Достигните в 2-5 раз более быстрого декодирования LLM на RTX 4090 и мобильных устройствах с использованием TurboSparse. Испытайте 97% разреженность параметров без потери производительности.
favicon
hackernoon.com
TurboSparse: Elite Inference Speed via dReLU Sparsity