Huaweis neue Open-Source-Techn... Notiz

Huaweis neue Open-Source-Technik schrumpft LLMs, damit sie auf weniger leistungsfähiger und kostengünstigerer Hardware laufen

Das Computing Systems Lab von Huawei hat SINQ vorgestellt, eine Open-Source-Quantisierungsmethode für große Sprachmodelle (LLMs). SINQ reduziert den Speicherbedarf erheblich um 60-70 %, ohne die Ausgabequalität zu beeinträchtigen, und macht LLMs auf kostengünstigerer Hardware zugänglich. Diese Technik ermöglicht es Modellen, die zuvor High-End-Enterprise-GPUs erforderten, auf Consumer-Hardware zu laufen. SINQ ist schnell, kalibrierungsfrei und einfach in bestehende Arbeitsabläufe zu integrieren. Die Methode verwendet eine dual-achsige Skalierung und eine Normalisierung im Stil von Sinkhorn-Knopp, um Quantisierungsfehler zu minimieren. Sie übertrifft andere kalibrierungsfreie Techniken in verschiedenen Benchmarks. SINQ unterstützt nicht-uniforme Quantisierung und kann für noch bessere Leistung mit Kalibrierungsmethoden kombiniert werden. Der Open-Source-Code ist unter einer Apache 2.0-Lizenz auf GitHub und Hugging Face verfügbar. Diese Initiative zielt darauf ab, die Hürde für die Bereitstellung von LLMs zu senken, indem eine effiziente Modellverkleinerung ermöglicht wird.
CdXz5zHNQW_dY7aVaURSP.png