Исследователи говорят, что они обучили базовую модель с нуля примерно за 1500 долларов.

Обучение больших языковых моделей с нуля непомерно дорого, часто обходится в миллионы и требует огромных объемов данных масштаба Интернета. Sapient разработала HRM-Text, более экономичный подход, который использует иерархическую рекуррентную модель (HRM) вместо стандартных Трансформеров. HRM-Text обучается исключительно на парах "инструкция-ответ", отражая реальные сценарии использования в корпоративной среде. Этот метод обеспечивает эффективное обучение на малом количестве данных, позволяя создать HRM-Text с 1 миллиардом параметров на тщательно отобранном наборе данных за малую долю обычной стоимости. Модель демонстрирует производительность, конкурентоспособную с гораздо более крупными, устоявшимися открытыми моделями на ключевых отраслевых бенчмарках. Это нововведение означает, что фундаментальное предварительное обучение теперь доступно организациям с меньшими ресурсами. Основная неэффективность текущих LLM заключается в их опоре на грубую силу предсказания следующего токена, что приводит к пустой трате вычислительных ресурсов на запоминание данных из Интернета. Генеральный директор Sapient подчеркивает экономические ограничения текущих практик, где масштабирование моделей приводит к убывающей отдаче. Дообучение существующих моделей часто требует значительных объемов данных общего назначения, что делает его вычислительно затратным и трудным для контроля. Предприятиям с проприетарными данными нужны компактные ядра рассуждений, а не массивные модели общего назначения. HRM-Text разделяет вычисления на стратегический и исполнительный уровни, повышая эффективность. Архитектура обеспечивает стабильный семантический контекст и локальное итеративное уточнение. Sapient представила MagicNorm и метод "разогрева" для стабилизации обучения и предотвращения проблем с градиентами. Переход от предсказания следующего токена к выполнению задачи с парами "инструкция-ответ" является ключевым отличием. HRM-Text достиг впечатляющих результатов на бенчмарках со значительно меньшим объемом обучающих данных и вычислительных ресурсов. Эта эффективность означает, что компании могут развертывать специализированные модели рассуждений, которые используют внешние хранилища знаний вместо запоминания огромных наборов данных.

Researchers say they trained a foundation model from scratch for about $1,500 venturebeat.com

RSS Hunter • 10 июн.