RSS Google 开发者博客 关注 MaxText 扩展了后训练能力:在单台主机 TPU 上引入监督微调(SFT)和强化学习(RL) MaxText 现已为单主机 TPU 配置新增了对监督微调(SFT)和强化学习(RL)的支持,借助 JAX 和 Tunix 库实现高性能模型优化。这些功能使开发者能够利用 GRPO 和 GSPO 等高效算法,轻松将预训练模型适配至特定任务与复杂推理场景。此次更新简化了后训练流程,提供了从单主机部署扩展至更大规模多主机配置的可行路径。 MaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUs developers.googleblog.com