RSS Google 开发者博客 关注 社区如何利用 Tunix 和 TPU 训练 Gemma 进行“思考” Kaggle 举办的 Google Tunix 黑客松挑战开发者利用 Kaggle TPU 和有限的计算预算,将小型非推理基座模型转化为通用推理引擎。获胜团队通过实施多阶段后训练流程,将监督微调(SFT)与 GRPO、SimPO 等高级对齐技术相结合,实现了这一目标。最终,该竞赛通过证明高度 capable、结构化的推理模型可由社区利用可访问的开源资源成功训练,推动了人工智能开发的民主化。 How the community trained Gemma to "Think" with Tunix and TPUs developers.googleblog.com