Сообщество RSS DEV
Подписаться
KVQuant: Запуск больших языковых моделей 70B на 8 ГБ ОЗУ с 4-битной квантизацией KV-кэша
Я сжал GPT-2 для работы на Arduino! Вот как я это сделал с помощью KVQuant.Проблема: Большие языковые модели требуют огромной памяти для кэшей ключ-значение во время инференса.Решение: 4-битная квантизация кэша ключ-значение, которая уменьшает потребление памяти в 4 раза при потере точности менее 1%.Результаты:GPT-2: 512 МБ → 128 МБ (уменьшение в 4 раза)
LLaMA-7B: 8 ГБ → 2 ГБ
LLaMA-70B: 280 ГБ → 70 ГБКод: github.com/AmSach/kvquant