Google 的 DiffusionGemma 可并行生成 ... 笔记

Google 的 DiffusionGemma 可并行生成 256 个 token,并在生成过程中进行自我修正。

生成式 AI 图像生成器采用扩散模型,从噪声出发并迭代优化整张图像。将这一扩散原理应用于大规模文本生成此前一直难以实现。标准语言模型按 token 逐个生成文本,如同打字机,这可能导致本地部署中 GPU 闲置。Google 的 DiffusionGemma 是一款实验性开源模型,将扩散技术引入生产级文本生成。该模型在 256 token 的块上并行运行,每个 token 位置均可关注所有其他位置,从而实现显著更快的生成速度。在 GPU 上,DiffusionGemma 的生成速度比标准模型快达四倍,尤其在低批量大小场景下表现突出。该模型从随机占位符 token 开始,逐步优化整个块,支持自我修正和双向上下文。这种架构在受限生成任务中展现出优势,例如成功解决数独谜题。尽管速度更快,Google 也承认 DiffusionGemma 的整体输出质量低于标准 Gemma 4。其速度优势主要体现于本地推理和低并发场景,此时 GPU 算力充裕;而在高吞吐云端服务中,其收益逐渐减弱,标准自回归模型仍更高效。DiffusionGemma 代表了生成范式的转变,聚焦于并行块去噪而非顺序 token 预测。