UCSD 的研究人员成功将 DFlash 这一基于块扩散的推测解码方法部署于 Google TPU 上,以规避传统自回归草稿的串行瓶颈。该系统通过在单次前向传播中“绘制”整块候选 token,而非逐个预测,实现了平均 3.13 倍的速度提升,峰值性能几乎达到现有方法(如 EAGLE-3)的两倍。该开源集成方案融入 vLLM 生态系统,通过利用“免费”的并行验证与高质量的草稿预测,优化了 TPU 硬件在复杂推理任务中的表现。
developers.googleblog.com
Supercharging LLM inference on Google TPUs: Achieving 3X speedups with diffusion-style speculative decoding
Create attached notes ...
