Google DeepMindの研究者たちは最近、数学やコーディングの問題を解く際の自己訂正能力を改善するための技術、Self-Correction via Reinforcement Learning(SCoRe)に関する論文を発表しました。SCoReでファインチューニングされたモデルは、ベースライン・モデルと比較して複数のベンチマークで性能を向上させています。— Anthony Alford
infoq.com
Google Publishes LLM Self-Correction Algorithm SCoRe
