KVQuant: Запуск больших языковых моделей 70B на 8 ГБ ОЗУ с 4-битной квантизацией KV-кэша

Я сжал GPT-2 для работы на Arduino! Вот как я это сделал с помощью KVQuant.Проблема: Большие языковые модели требуют огромной памяти для кэшей ключ-значение во время инференса.Решение: 4-битная квантизация кэша ключ-значение, которая уменьшает потребление памяти в 4 раза при потере точности менее 1%.Результаты:GPT-2: 512 МБ → 128 МБ (уменьшение в 4 раза) LLaMA-7B: 8 ГБ → 2 ГБ LLaMA-70B: 280 ГБ → 70 ГБКод: github.com/AmSach/kvquant

KVQuant: Run 70B LLMs on 8GB RAM with 4-bit KV Cache Quantization dev.to

RSS Hunter • 30 апр.