Новая техника Huawei с открыты... Заметка
RSS VentureBeat

Новая техника Huawei с открытым исходным кодом уменьшает большие языковые модели, чтобы они работали на менее мощном и менее дорогом оборудовании.

Лаборатория вычислительных систем Huawei представила SINQ, метод квантования с открытым исходным кодом для больших языковых моделей (LLM). SINQ значительно сокращает использование памяти на 60-70% без ущерба для качества вывода, делая LLM доступными на более доступном оборудовании. Эта техника позволяет моделям, ранее требовавшим высокопроизводительных корпоративных GPU, работать на потребительских установках. SINQ быстр, не требует калибровки и легко интегрируется в существующие рабочие процессы. Метод использует двухосевое масштабирование и нормализацию в стиле Sinkhorn-Knopp для минимизации ошибок квантования. Он превосходит другие методы без калибровки по различным бенчмаркам. SINQ поддерживает неравномерное квантование и может быть объединен с методами калибровки для еще лучшей производительности. Исходный код доступен под лицензией Apache 2.0 на GitHub и Hugging Face. Эта инициатива направлена на снижение барьера для развертывания LLM путем обеспечения эффективного сжатия моделей.
CdXz5zHNQW_dY7aVaURSP.png