MaxText が事後学習機能を拡張:シングルホスト TPU 上での SFT と RL を導入
MaxText は、JAX と Tunix ライブラリを活用し、単一ホスト TPU 構成での教師ありファインチューニング (SFT) と強化学習 (RL) の新しいサポートを導入しました。これにより、高性能なモデルの洗練が可能になります。これらの機能により、開発者は、GRPO や GSPO などの効率的なアルゴリズムを使用して、事前学習済みのモデルを専門的なタスクや複雑な推論に簡単に適応させることができます。このアップデートは、ポストトレーニングワークフローを合理化し、単一ホスト構成からより大規模なマルチホスト構成へのスケーラブルなパスを提供します。