RSS DEV コミュニティ
フォロー
KVQuant: 4ビットKVキャッシュ量子化で8GB RAM上で70B LLMを実行
KVQuant を使用して、Arduino で実行できるように GPT-2 を圧縮しました。その方法を以下に示します。問題: LLM は推論中にキー・バリュー・キャッシュに大量のメモリを必要とします。解決策: 4 ビット KV キャッシュ量子化により、精度損失 <1% でメモリを 4 倍削減します。結果:GPT-2: 512MB → 128MB (4 倍削減)
LLaMA-7B: 8GB → 2GB
LLaMA-70B: 280GB → 70GBコード: github.com/AmSach/kvquant