KVQuant: 4ビットKVキャッシュ量子化で8GB RAM上で70B LLMを実行

フォロー

KVQuant: 4ビットKVキャッシュ量子化で8GB RAM上で70B LLMを実行

KVQuant を使用して、Arduino で実行できるように GPT-2 を圧縮しました。その方法を以下に示します。問題: LLM は推論中にキー・バリュー・キャッシュに大量のメモリを必要とします。解決策: 4 ビット KV キャッシュ量子化により、精度損失 <1% でメモリを 4 倍削減します。結果:GPT-2: 512MB → 128MB (4 倍削減) LLaMA-7B: 8GB → 2GB LLaMA-70B: 280GB → 70GBコード: github.com/AmSach/kvquant

KVQuant: Run 70B LLMs on 8GB RAM with 4-bit KV Cache Quantization dev.to

RSS Hunter • 4月30日