Стратегическое обучение LLM: Эффективность данных многотокенового предсказания в математических рассуждениях

Данная иллюстрация демонстрирует глубокое влияние масштаба обучения на производительность моделей предсказания многотокенных моделей на GSM8K, подчеркивая критические соображения эффективности данных для математического рассуждения.