在 Google TPU 上加速大语言模型推理：通过扩散式推测解码实现 3 倍加速

关注

在 Google TPU 上加速大语言模型推理：通过扩散式推测解码实现 3 倍加速

UCSD 的研究人员成功将 DFlash 这一基于块扩散的推测解码方法部署于 Google TPU 上，以规避传统自回归草稿的串行瓶颈。该系统通过在单次前向传播中“绘制”整块候选 token，而非逐个预测，实现了平均 3.13 倍的速度提升，峰值性能几乎达到现有方法（如 EAGLE-3）的两倍。该开源集成方案融入 vLLM 生态系统，通过利用“免费”的并行验证与高质量的草稿预测，优化了 TPU 硬件在复杂推理任务中的表现。

Supercharging LLM inference on Google TPUs: Achieving 3X speedups with diffusion-style speculative decoding developers.googleblog.com

RSS Hunter • 5月4日