Mistral 7Bは、パリを拠点とするスタートアップMistral AIが開発した大型言語モデルです。Mistral AIは、元MetaとGoogle DeepMindの従業員によって設立された組織です。このモデルは、デコーダーのみのアーキテクチャーを使用し、自然言語生成タスク向けに設計されたモデルで一般的なものです。ベース版とインストラクション版の2種類があり、ベース版はチャットバリエーションと似ているため、会話や命令ベースのタスク両方に向いています。Mistral 7Bの性能は、より大きなモデルと比較しても強く、Llama 2 13Bを上回り、Llama 1 34Bと同じかそれ以上の性能を多くのベンチマークで示しています。このモデルの効率性は、トランスフォーマーアーキテクチャーの進化によって実現されており、Root Mean Square Normalization (RMS Norm)、Rotary Position Embedding (RoPE)、Grouped Query Attention (GQA)、Sliding Window Attention (SWA)、Rolling Buffer KV Cache、SwiGLUアクティベーション関数などが含まれます。これらのコンポーネントは、以下のセクションで詳しく説明します。
towardsdatascience.com
Mistral 7B Explained: Towards More Efficient Language Models
Create attached notes ...
