"커뮤니티가 Tunix와 TPU를 사용하여 Gemma를 "생각"하도록 훈련시킨 방법"
Kaggle에서 열린 Google Tunix Hackathon은 개발자들에게 작고 추론 능력이 없는 기본 모델을 Kaggle TPU와 제한된 컴퓨팅 예산을 사용하여 일반 추론 엔진으로 변환하도록 도전했습니다. 우승팀은 지도 미세 조정(SFT)과 GRPO 및 SimPO와 같은 고급 정렬 기법을 결합한 다단계 사후 훈련 파이프라인을 구현하여 이를 달성했습니다. 궁극적으로 이 대회는 커뮤니티가 접근 가능하고 오픈 소스 리소스를 사용하여 매우 유능하고 구조화된 추론 모델을 성공적으로 훈련할 수 있음을 증명함으로써 AI 개발을 민주화했습니다.