MaxText расширяет возможности после обучения: представление SFT и RL на однохостовых TPU

MaxText представил новую поддержку для контролируемой тонкой настройки (SFT) и обучения с подкреплением (RL) на однохостовых конфигурациях TPU, используя JAX и библиотеку Tunix для высокопроизводительной доработки моделей. Эти функции позволяют разработчикам легко адаптировать предварительно обученные модели для специализированных задач и сложного рассуждения, используя эффективные алгоритмы, такие как GRPO и GSPO. Это обновление упрощает рабочий процесс после обучения, предлагая масштабируемый путь от однохостовых настроек к более крупным многохостовым конфигурациям.

MaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUs developers.googleblog.com

RSS Hunter • 16 апр.