KVQuant: 4비트 KV 캐시 양자화를 통해 8GB RAM에서 70B LLM 실행

팔로우

KVQuant: 4비트 KV 캐시 양자화를 통해 8GB RAM에서 70B LLM 실행

KVQuant를 사용하여 GPT-2를 Arduino에서 실행할 수 있도록 압축했습니다! 방법은 다음과 같습니다.문제점: LLM은 추론 중에 키-값 캐시에 막대한 메모리가 필요합니다.해결책: 4비트 KV 캐시 양자화로 정확도 손실 <1%로 메모리를 4배 줄입니다.결과:GPT-2: 512MB → 128MB (4배 감소) LLaMA-7B: 8GB → 2GB LLaMA-70B: 280GB → 70GB코드: github.com/AmSach/kvquant

KVQuant: Run 70B LLMs on 8GB RAM with 4-bit KV Cache Quantization dev.to

RSS Hunter • 4월 30일