RSS クラウドフレア ブログ フォロー Unweight:私たちが品質を犠牲にすることなくLLMを22%圧縮した方法 クラウドフレアのネットワーク全体でLLMを実行するには、GPUメモリ帯域幅についてより賢く効率的にする必要があります。 そのため、私たちはUnweightを開発しました。Unweightは、最大22%のモデルフットプリント削減を実現する損失なしの推論時圧縮システムです。 これにより、以前よりも速く安い推論を提供できるようになりました。 Unweight: how we compressed an LLM 22% without sacrificing quality blog.cloudflare.com AI and ML News on Bluesky @ai-news.at.thenote.app bsky.app