AIモデルの小さな部分のみを再トレーニングすることで、コスト... ノート
RSS VentureBeat

AIモデルの小さな部分のみを再トレーニングすることで、コストを削減し、忘却を防ぐことができると研究者が発見

企業は大規模言語モデル(LLM)をファインチューニングする際、モデルが以前に学習した能力を失うという問題によく直面します。これは破滅的忘却として知られています。イリノイ大学アーバナ・シャンペーン校の研究者たちは、これを回避するための新しい手法を提案しました。その手法は、LLMの狭い部分のみを再トレーニングすることに焦点を当てています。このアプローチは、計算コストを削減し、モデルの既存の知識を保持することを目的としています。研究チームは、破滅的忘却は真の記憶喪失ではなく、バイアスドリフトの副作用であると示唆しています。彼らはこのことを調査するために、2つの視覚言語LLMであるLLaVAとQwen 2.5-VLを特定のタスクでトレーニングし、保留されたベンチマークでのパフォーマンスを観察しました。驚くべきことに、自己注意投影レイヤーのみを調整することで、既存のタスクでのパフォーマンス低下なしに新しいタスクを学習できることがわかりました。この研究は、多層パーセプトロン(MLP)を調整すると、出力バイアスと一時的な忘却を引き起こす可能性があることを示しています。特定のMLPコンポーネントを選択的に調整し、他のコンポーネントをフリーズしたままにすることで、最小限の忘却で効果的な学習を達成しました。この狭い再トレーニング手法は、LLMを更新するための、より費用対効果が高く、制御可能な方法を提供します。現在の研究は視覚言語モデルに限定されていますが、その発見はさまざまなモダリティにわたる他のLLMにも適用可能であると期待されています。
CdXz5zHNQW_ErvqWM29Xr.png