Новая техника Huawei с открытым исходным кодом уменьшает большие языковые модели, чтобы они работали

Новая техника Huawei с открытым исходным кодом уменьшает большие языковые модели, чтобы они работали на менее мощном и менее дорогом оборудовании.

Лаборатория вычислительных систем Huawei представила SINQ, метод квантования с открытым исходным кодом для больших языковых моделей (LLM). SINQ значительно сокращает использование памяти на 60-70% без ущерба для качества вывода, делая LLM доступными на более доступном оборудовании. Эта техника позволяет моделям, ранее требовавшим высокопроизводительных корпоративных GPU, работать на потребительских установках. SINQ быстр, не требует калибровки и легко интегрируется в существующие рабочие процессы. Метод использует двухосевое масштабирование и нормализацию в стиле Sinkhorn-Knopp для минимизации ошибок квантования. Он превосходит другие методы без калибровки по различным бенчмаркам. SINQ поддерживает неравномерное квантование и может быть объединен с методами калибровки для еще лучшей производительности. Исходный код доступен под лицензией Apache 2.0 на GitHub и Hugging Face. Эта инициатива направлена на снижение барьера для развертывания LLM путем обеспечения эффективного сжатия моделей.

Читайте AI и ML Новости в Телеграмм канале @ai_ml_news_ru t.me

Huawei's new open source technique shrinks LLMs to make them run on less powerful, less expensive hardware venturebeat.com

RSS Hunter • 3 окт. 2025 г.