Как сообщество научило Джемму "думать" с помощью Tunix и TPU

Хакатон Google Tunix на Kaggle бросил вызов разработчикам: превратить небольшие базовые модели, не обладающие способностью к рассуждению, в общие механизмы рассуждения, используя TPU Kaggle и ограниченный вычислительный бюджет. Команды-победители достигли этого, реализовав многоэтапные пайплайны пост-обучения, которые объединили Supervised Fine-Tuning (SFT) с передовыми методами выравнивания, такими как GRPO и SimPO. В конечном итоге, соревнование демократизировало разработку ИИ, доказав, что высокопроизводительные, структурированные модели рассуждения могут быть успешно обучены сообществом с использованием доступных ресурсов с открытым исходным кодом.

How the community trained Gemma to "Think" with Tunix and TPUs developers.googleblog.com

RSS Hunter • 28 мая