MaxText 扩展了后训练能力：在单台主机 TPU 上引入监督微调（SFT）和强化学习（RL）

关注

MaxText 扩展了后训练能力：在单台主机 TPU 上引入监督微调（SFT）和强化学习（RL）

MaxText 现已为单主机 TPU 配置新增了对监督微调（SFT）和强化学习（RL）的支持，借助 JAX 和 Tunix 库实现高性能模型优化。这些功能使开发者能够利用 GRPO 和 GSPO 等高效算法，轻松将预训练模型适配至特定任务与复杂推理场景。此次更新简化了后训练流程，提供了从单主机部署扩展至更大规模多主机配置的可行路径。

MaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUs developers.googleblog.com

RSS Hunter • 4月16日