Google、LLMの自己訂正アルゴリズムSCoReを公開

Google DeepMindの研究者たちは最近、数学やコーディングの問題を解く際の自己訂正能力を改善するための技術、Self-Correction via Reinforcement Learning（SCoRe）に関する論文を発表しました。SCoReでファインチューニングされたモデルは、ベースライン・モデルと比較して複数のベンチマークで性能を向上させています。— Anthony Alford