RSS Vers les Sciences des Données - Medium

Mistral 7B Expliqué : Vers des Modèles de Langage Plus Efficaces

Mistral 7B est un modèle de langage grand et puissant développé par Mistral AI, une startup basée à Paris fondée par d'anciens employés de Meta et de Google DeepMind. Le modèle utilise une architecture décodeur-seul, qui est courante dans les modèles conçus pour les tâches de génération de langage naturel. Il est disponible sous forme de base et d'instruction, la version de base étant similaire aux variantes de chat et adaptée aux tâches de conversation et d'instruction. Les performances de Mistral 7B sont solides par rapport aux modèles plus grands, surpassant Llama 2 13B et égalant ou dépassant Llama 1 34B dans la plupart des benchmarks. L'efficacité du modèle est obtenue grâce aux progrès réalisés dans les architectures de transformateurs, notamment la normalisation des moyennes quadratiques (RMS Norm), l'intégration de positions rotatives (RoPE), l'attention de requête groupée (GQA), l'attention à fenêtre glissante (SWA), le cache de tampon roulant KV et la fonction d'activation SwiGLU. Ces composants seront explorés en détail dans les sections suivantes.
favicon
towardsdatascience.com
Mistral 7B Explained: Towards More Efficient Language Models
Create attached notes ...