Google 的 DiffusionGemma 可并行生成 256 个 token，并在生成过程中进行自我修正。

关注

Google 的 DiffusionGemma 可并行生成 256 个 token，并在生成过程中进行自我修正。

生成式 AI 图像生成器采用扩散模型，从噪声出发并迭代优化整张图像。将这一扩散原理应用于大规模文本生成此前一直难以实现。标准语言模型按 token 逐个生成文本，如同打字机，这可能导致本地部署中 GPU 闲置。Google 的 DiffusionGemma 是一款实验性开源模型，将扩散技术引入生产级文本生成。该模型在 256 token 的块上并行运行，每个 token 位置均可关注所有其他位置，从而实现显著更快的生成速度。在 GPU 上，DiffusionGemma 的生成速度比标准模型快达四倍，尤其在低批量大小场景下表现突出。该模型从随机占位符 token 开始，逐步优化整个块，支持自我修正和双向上下文。这种架构在受限生成任务中展现出优势，例如成功解决数独谜题。尽管速度更快，Google 也承认 DiffusionGemma 的整体输出质量低于标准 Gemma 4。其速度优势主要体现于本地推理和低并发场景，此时 GPU 算力充裕；而在高吞吐云端服务中，其收益逐渐减弱，标准自回归模型仍更高效。DiffusionGemma 代表了生成范式的转变，聚焦于并行块去噪而非顺序 token 预测。

Google's DiffusionGemma generates 256 tokens in parallel and self-corrects as it goes venturebeat.com

RSS Hunter • 6月11日