GoogleのDiffusionGemmaは、256個のトークンを並列生成し、進行中に自己修正を行います。

フォロー

GoogleのDiffusionGemmaは、256個のトークンを並列生成し、進行中に自己修正を行います。

生成AI画像ジェネレーターは、ノイズから始まり、画像全体を繰り返し洗練させる拡散モデルを使用しています。この拡散原理を大規模なテキスト生成に適用することは、これまで困難でした。標準的な言語モデルは、タイプライターのようにトークンごとにテキストを生成するため、ローカルデプロイメントではGPUのアイドル時間が発生する可能性があります。GoogleのDiffusionGemmaは、生産規模でのテキスト生成に拡散モデルをもたらす実験的なオープンソースモデルです。これは、256トークンのブロックを並列で処理し、各トークン位置が他のすべてのトークンにアテンションを向けることで、生成速度を大幅に向上させます。DiffusionGemmaは、特にバッチサイズが小さい場合に、GPU上で標準モデルよりも最大4倍速くテキストを生成します。このモデルは、ランダムなプレースホルダートークンから始まり、ブロック全体を段階的に洗練させることで、自己修正と双方向のコンテキストを可能にします。このアーキテクチャは、数独パズルを解く上での成功によって実証されたように、制約のある生成タスクに有利であることが証明されています。Googleは、DiffusionGemmaの全体的な出力品質は、標準的なGemma 4よりも低いことを認めています。その速度の利点は、主にGPUコンピューティングが豊富にあるローカル推論および低並行性シナリオで見られます。高スループットのクラウドサービングでは、その利点は低下し、標準的な自己回帰モデルがより効率的です。DiffusionGemmaは、逐次的なトークン予測ではなく、並列ブロックのデノイズに焦点を当てた、生成におけるパラダイムシフトを表しています。

Google's DiffusionGemma generates 256 tokens in parallel and self-corrects as it goes venturebeat.com

RSS Hunter • 6月11日