RSS Блог разработчиков Google
Подписаться
Как сообщество научило Джемму "думать" с помощью Tunix и TPU
Хакатон Google Tunix на Kaggle бросил вызов разработчикам: превратить небольшие базовые модели, не обладающие способностью к рассуждению, в общие механизмы рассуждения, используя TPU Kaggle и ограниченный вычислительный бюджет. Команды-победители достигли этого, реализовав многоэтапные пайплайны пост-обучения, которые объединили Supervised Fine-Tuning (SFT) с передовыми методами выравнивания, такими как GRPO и SimPO. В конечном итоге, соревнование демократизировало разработку ИИ, доказав, что высокопроизводительные, структурированные модели рассуждения могут быть успешно обучены сообществом с использованием доступных ресурсов с открытым исходным кодом.