Исследователи из Google DeepMind недавно опубликовали статью о Self-Correction via Reinforcement Learning (SCoRe), - технике улучшения способности больших языковых моделей (LLM) к самокоррекции при решении математических или кодировочных задач. Модели, дообученные с помощью SCoRe, демонстрируют улучшенную производительность на нескольких тестах по сравнению с базовыми моделями. (автор Антон Элфорд)
infoq.com
Google Publishes LLM Self-Correction Algorithm SCoRe
