Flux RSS VentureBeat
Suivre
La nouvelle technique open source de Huawei réduit les LLM pour les faire fonctionner sur du matériel moins puissant et moins cher.
Le laboratoire de systèmes informatiques de Huawei a présenté SINQ, une méthode de quantification open-source pour les grands modèles de langage (LLM). SINQ réduit considérablement l'utilisation de la mémoire de 60 à 70 % sans compromettre la qualité de la sortie, rendant les LLM accessibles sur du matériel plus abordable. Cette technique permet aux modèles qui nécessitaient auparavant des GPU d'entreprise haut de gamme de fonctionner sur des configurations de qualité grand public. SINQ est rapide, ne nécessite pas d'étalonnage et s'intègre facilement aux flux de travail existants. La méthode utilise une mise à l'échelle à double axe et une normalisation de type Sinkhorn-Knopp pour minimiser les erreurs de quantification. Elle surpasse les autres techniques sans étalonnage sur divers benchmarks. SINQ prend en charge la quantification non uniforme et peut être combinée avec des méthodes d'étalonnage pour des performances encore meilleures. Le code open-source est disponible sous licence Apache 2.0 sur GitHub et Hugging Face. Cette initiative vise à abaisser la barrière au déploiement des LLM en permettant une réduction efficace des modèles.