大規模言語モデル：推論プロセスとKVキャッシュ構造

LLM 推論の基礎的な概念を探索し、prefill および decode フェーズ、Transformer アーキテクチャー、および KV キャッシュの詳細な構造と用語を学びます。