Les chercheurs de Google DeepMind ont récemment publié un article sur la correction d'elle-même via l'apprentissage par renforcement (SCoRe), une technique pour améliorer la capacité des modèles de langage de grande taille (LLMs) à se corriger eux-mêmes lors de la résolution de problèmes mathématiques ou de codage. Les modèles affinés avec SCoRe atteignent des performances améliorées sur plusieurs benchmarks par rapport aux modèles de référence. Par Anthony Alford.
infoq.com
Google Publishes LLM Self-Correction Algorithm SCoRe
