Les grands modèles de langage : processus d'inférence et structure de cache KV

Explorer les concepts fondamentaux de l'inférence de modèle de langage (LLM), notamment les phases de préremplissage et de décodage, l'architecture de transformateur et la structure détaillée et la terminologie du cache KV.