RSS Блог разработчиков Google
Подписаться
MaxText расширяет возможности после обучения: представление SFT и RL на однохостовых TPU
MaxText представил новую поддержку для контролируемой тонкой настройки (SFT) и обучения с подкреплением (RL) на однохостовых конфигурациях TPU, используя JAX и библиотеку Tunix для высокопроизводительной доработки моделей. Эти функции позволяют разработчикам легко адаптировать предварительно обученные модели для специализированных задач и сложного рассуждения, используя эффективные алгоритмы, такие как GRPO и GSPO. Это обновление упрощает рабочий процесс после обучения, предлагая масштабируемый путь от однохостовых настроек к более крупным многохостовым конфигурациям.