投機的カスケード:よりスマートで高速なLLM推論のためのハイブリッドアプローチ
大規模言語モデル(LLM)は強力ですが、計算コストが高く、推論が遅く、費用がかかります。この問題に対処するため、カスケードは、より小さく、より高速なモデルを使用して、単純なクエリを処理し、より大きく、より高性能なLLMに頼る前に処理します。このアプローチは、複雑なタスクにのみ高価なモデルを使用することで、コスト削減を目指しています。一方、投機的デコーディングは、より小さなモデルが将来のトークンをドラフトし、それをより大きなモデルが並行して検証することで、LLMの推論を加速します。これにより、最終的な出力を変更することなく生成が高速化されますが、メモリ使用量が増加する可能性があります。この論文では、「投機的カスケード」という、カスケードと投機的デコーディングの両方の利点を組み合わせた新しい手法を紹介しています。投機的カスケードは、より小さなモデルのドラフトが、より大きなモデルの出力と完全に一致しなくても受け入れられるようにする、柔軟な「延期ルール」を採用しています。このハイブリッドアプローチは、どちらの技術単独よりも優れたコストと品質のトレードオフを提供します。さまざまな言語タスクでの実験により、投機的カスケードがより高い速度向上とより優れた品質指標を達成することが実証されました。延期ルールの柔軟性により、信頼度、費用対効果分析、またはトークン固有のチェックに基づいてカスタマイズできます。この革新により、LLMアプリケーションは、計算コストと出力品質のバランスを最適化することで、より高速かつスマートになります。