LLMの全レイヤーを活用して精度を向上させる ノート

LLMの全レイヤーを活用して精度を向上させる

大規模言語モデルは、事実性に関してしばしば問題を抱え、誤った情報を「ハルシネーション」することがあります。この問題は、偏った、または不完全な学習データなど、さまざまな要因から生じます。事実性、つまり真実性の高いコンテンツを生成する能力は、信頼性の高いLLMアプリケーションにとって不可欠です。新しいデコーディング手法であるSLEDは、外部知識ベースを使用せずに事実性を向上させることを目指しています。SLEDは、最終層だけでなく、LLMのすべての層からの情報を活用して予測を洗練させます。より正確な出力を得るために、初期の層を使用してトークン確率を計算し、それぞれに重みを割り当てます。複数のタスクとベンチマークでの実験により、SLEDがさまざまなLLMで事実精度を向上させることが示されています。たとえば、数学的な誤りを修正したり、多肢選択問題で正しい答えを選択したりできます。SLEDは簡単に実装でき、さまざまなLLMと互換性があり、他の手法と組み合わせることもできます。主なトレードオフは、他の代替手段と比較して、推論時間のわずかな増加です。SLEDは、広範なファインチューニングを必要とせずに、最先端の精度向上を示しています。今後の研究では、SLEDを教師ありファインチューニングと組み合わせたり、他のタスクに適用したりすることが考えられます。
CdXz5zHNQW_pbrRdL3gvF.png