Google TPUでのLLM推論の超高速化:拡散モデル風の... ノート

Google TPUでのLLM推論の超高速化:拡散モデル風の投機的デコーディングによる3倍の速度向上

UCSDの研究者は、Google TPU上でブロック拡散投機的デコーディング手法であるDFlashを実装し、従来の自己回帰ドラフトの逐次的なボトルネックを回避することに成功しました。トークン候補のブロック全体を一度に予測するのではなく、一度のフォワードパスで「ペイント」することで、システムは平均3.13倍の速度向上を達成し、ピーク性能はEAGLE-3のような既存の手法をほぼ2倍にしました。vLLMエコシステムへのこのオープンソース統合は、「無料」の並列検証と複雑な推論タスクのための高品質なドラフト予測を活用することで、TPUハードウェアを最適化します。