Исследователи Nvidia повышают навыки рассуждения больших языковых моделей, заставляя их «думать» во

Исследователи Nvidia повышают навыки рассуждения больших языковых моделей, заставляя их «думать» во время предварительного обучения.

Исследователи из Nvidia разработали новую технику под названием предварительное обучение с подкреплением, которая интегрирует обучение с подкреплением в начальную фазу обучения больших языковых моделей. Этот подход побуждает модель мыслить независимо, прежде чем предсказывать следующее слово, обучая ее рассуждать на обычном тексте без необходимости использования внешних верификаторов. Типичный цикл обучения больших языковых моделей включает предварительное обучение на огромных объемах текста с использованием цели предсказания следующего токена, за которым следует фаза пост-обучения, где они приобретают сложные навыки рассуждения. Однако этот последовательный процесс не соответствует человеческому пониманию, которое представляет собой параллельную интеграцию входных данных с предыдущими знаниями. Новая техника, RLP, переосмысливает процесс предварительного обучения, рассматривая генерацию цепочки рассуждений как действие, которое модель выполняет перед предсказанием следующего токена. Модель получает вознаграждение в зависимости от того, насколько ее рассуждения улучшили точность предсказания, устраняя необходимость во внешних верификаторах или данных, размеченных человеком. RLP продемонстрировал значительные улучшения в обучении сложным задачам рассуждения, при этом модели, обученные с использованием этой техники, последовательно превосходят свои аналоги, обученные традиционным способом. Преимущества RLP накапливаются, а не исчезают на последующих этапах дообучения, и техника демонстрирует впечатляющую масштабируемость и универсальность. Исследователи считают, что RLP указывает на будущее, в котором предварительное обучение больше не будет монолитным процессом предсказания следующего токена, а скорее гибридом целей, который создает ИИ, обучающийся мыслить более надежно с первого дня. В целом, RLP имеет потенциал революционизировать способ обучения больших языковых моделей, позволяя им развивать более глубокое, более структурированное мышление гораздо раньше в процессе обучения.

AI and ML News on Bluesky @ai-news.at.thenote.app bsky.app

Nvidia researchers boost LLMs reasoning skills by getting them to 'think' during pre-training venturebeat.com

Читайте AI и ML Новости в Телеграмм канале @ai_ml_news_ru t.me

RSS Hunter • 9 окт. 2025 г.