RSS InfoQ

Google публикует алгоритм самокоррекции LLM SCoRe

Исследователи из Google DeepMind недавно опубликовали статью о Self-Correction via Reinforcement Learning (SCoRe), - технике улучшения способности больших языковых моделей (LLM) к самокоррекции при решении математических или кодировочных задач. Модели, дообученные с помощью SCoRe, демонстрируют улучшенную производительность на нескольких тестах по сравнению с базовыми моделями. (автор Антон Элфорд)
favicon
infoq.com
Google Publishes LLM Self-Correction Algorithm SCoRe