Unweight: как мы сжали большую языковую модель на 22% без ущерба для качества

Запуск моделей LLM в сети Cloudflare требует от нас быть умнее и более эффективными в отношении пропускной способности памяти GPU. Именно поэтому мы разработали Unweight, систему сжатия без потерь во время вывода, которая обеспечивает сокращение размера модели до 22%, что позволяет нам предоставлять более быстрое и дешевое выводное моделирование, чем когда-либо прежде.