Mistral AIは、言語と視覚処理を組み合わせた多モーダルAIモデルであるPixtral 12Bをリリースしました。Pixtral 12Bは、テキストでプロンプトされた画像の内容に関する質問に答えることができます。このモデルは、Hugging Face、GitHub、Torrentでダウンロード可能です。Pixtralのトレーニングデータの詳細は機密ですが、任意のサイズの画像をネイティブでサポートし、40レイヤー、隠れ次元サイズが14,336、32つのアテンションヘッドで広範囲の計算処理を提供します。また、先進的な画像処理のために専用のビジョンエンコーダーも備えています。Mistral AIが多モーダルモデルに進出したことで、OpenAIやAnthropicのようなAIリーダーとの競争が生じますが、Pixtral 12Bのユニークな特徴、例えば任意の画像サイズと数量のサポートなどが競争相手と区別する要因かもしれません。
slashdot.org
Mistral Releases Pixtral 12B, Its First-Ever Multimodal AI Model
Create attached notes ...
