RSS VentureBeat
フォロー
ファーウェイの新オープンソース技術、LLMを小型化し、低性能・低コストのハードウェアでの実行を可能に
Huaweiのコンピューティングシステムラボは、大規模言語モデル(LLM)向けのオープンソース量子化手法であるSINQを発表しました。SINQは、出力品質を損なうことなくメモリ使用量を60〜70%削減し、より安価なハードウェアでLLMを利用できるようにします。この技術により、これまでハイエンドのエンタープライズGPUを必要としていたモデルが、コンシューマーグレードのセットアップで実行できるようになります。SINQは高速で、キャリブレーション不要、既存のワークフローに簡単に統合できます。この手法は、量子化エラーを最小限に抑えるために、デュアルアクシススケーリングとSinkhorn-Knoppスタイルの正規化を採用しています。さまざまなベンチマークにおいて、他のキャリブレーション不要の手法を上回っています。SINQは非一様量子化をサポートしており、さらに優れたパフォーマンスのためにキャリブレーション手法と組み合わせることができます。オープンソースコードは、GitHubとHugging FaceでApache 2.0ライセンスの下で利用可能です。この取り組みは、効率的なモデル縮小を可能にすることで、LLM展開の障壁を下げることを目的としています。