Mistral 7B ist ein leistungsfähiges und effizientes großes Sprachmodell, entwickelt von Mistral AI, einem in Paris ansässigen Start-up, das von ehemaligen Mitarbeitern von Meta und Google DeepMind gegründet wurde. Das Modell verwendet eine Decoder-only-Architektur, die bei Modellen für natürlichsprachliche Generierungsaufgaben üblich ist. Es ist sowohl in Base- als auch in Instruct-Form verfügbar, wobei die Base-Version ähnlich wie Chat-Varianten ist und sich für sowohl konversationelle als auch anweisungsorientierte Aufgaben eignet. Die Leistung von Mistral 7B ist im Vergleich zu größeren Modellen stark, da es Llama 2 13B übertroffen und Llama 1 34B in den meisten Benchmarks entweder erreicht oder übertroffen hat. Die Effizienz des Modells wird durch Innovationen im Bereich der Transformer-Architekturen erreicht, darunter Root Mean Square Normalization (RMS Norm), Rotary Position Embedding (RoPE), Grouped Query Attention (GQA), Sliding Window Attention (SWA), Rolling Buffer KV Cache und die SwiGLU-Aktivierungsfunktion. Diese Komponenten werden in den folgenden Abschnitten ausführlich erörtert.
towardsdatascience.com
Mistral 7B Explained: Towards More Efficient Language Models
Create attached notes ...
