コンテキスト圧縮が本番環境でついに機能:新しい研究により、精... ノート
RSS VentureBeat

コンテキスト圧縮が本番環境でついに機能:新しい研究により、精度を損なわずにLLMの入力を16倍削減

大規模言語モデルにおけるコンテキストウィンドウは、蓄積されたデータとともに増大するにつれて、重大な計算上のボトルネックになりつつあります。既存の圧縮方法は、精度を低下させるか、実際の速度向上につながらないことがよくあります。研究者たちは、エンコーダー・デコーダー圧縮モデルの新しいファミリーであるLatent Context Language Models(LCLMs)を導入しました。LCLMsは、デコーダーに到達する前にインプットコンテキストを圧縮し、直接的に計算とメモリの要求を削減します。それらは大幅な速度向上を達成しており、ある報告ではKVキャッシュベースラインと比較して16倍の圧縮率で8.8倍高速な出力を示しています。LCLMsは、メモリと計算コストを低く抑えながら、はるかに長いコンテキストを処理することを可能にし、精度の低下を最小限に抑えます。大幅な圧縮率であっても、LCLMsはRULERのようなベンチマークで競争力のある精度を示しています。それらのアーキテクチャは、より小さいエンコーダーとより大きいデコーダーをペアにし、圧縮されたデータと圧縮されていないデータをインターリーブした多様なデータセットでトレーニングされています。これらのモデルは、既存のエージェンティックスタックにシームレスに統合できるように設計されており、データがLLMに入る前のコンプレッサーとして機能します。これにより、モデルは膨大な量の情報を効率的に「スキミング」し、関連する詳細に焦点を当てることができます。企業は、コンテキスト長の増大に伴い推論コストが増加するという課題に直面しており、LCLMsは、非常に大きなコンテキストであっても、ハードウェアメモリの範囲内に計算を収めるためのソリューションを提供します。LCLMsを検索拡張生成(RAG)パイプラインに統合するには、最適なパフォーマンスのためにチューニングが必要です。残された課題は、エージェントによって生成された推論トレースのオンライン圧縮です。