RSS VentureBeat
フォロー
NVIDIAの研究者たちが、LLM(大規模言語モデル)の事前学習中に「思考」させることで、LLMの推論能力を向上させた。
Nvidiaの研究者たちは、大規模言語モデルの初期トレーニング段階に強化学習を統合した、強化学習事前学習と呼ばれる新しい技術を開発しました。このアプローチは、モデルが次に何が来るかを予測する前に、自律的に思考することを促し、外部の検証者なしでプレーンテキストで推論することを学習させます。大規模言語モデルの典型的なトレーニングサイクルは、次のトークン予測を目的とした膨大な量のテキストでの事前学習と、複雑な推論能力を学習する事後学習フェーズで構成されています。しかし、この逐次的なプロセスは、入力と事前知識を並行して統合する人間の理解とは一致しません。新しい技術であるRLPは、連鎖思考生成を、モデルが次のトークンを予測する前に行うアクションとして扱うことで、事前学習プロセスを再構築します。モデルは、その思考が予測の精度をどれだけ向上させたかに基づいて報酬を受け取り、外部の検証者や人間がラベル付けしたデータを必要としません。RLPは、複雑な推論タスクの学習において著しい改善を示しており、この技術でトレーニングされたモデルは、従来のトレーニングを受けたモデルを常に上回っています。RLPの利点は、その後のファインチューニング段階で消滅するのではなく、複合的に作用し、この技術は印象的なスケーラビリティと汎用性を示しています。研究者たちは、RLPが、事前学習がもはや次のトークン予測のモノリシックなプロセスではなく、最初からより堅牢に思考することを学習するAIを生み出す、目的のハイブリッドとなる未来を示唆していると考えています。全体として、RLPは、大規模言語モデルのトレーニング方法に革命を起こし、トレーニングの初期段階で、より深く、より構造化された思考を開発できるようにする可能性を秘めています。