Mistral AI a lancé Pixtral 12B, un modèle d'IA multimodal qui combine le traitement du langage et de la vision. Pixtral 12B peut analyser des images et répondre à des questions sur leur contenu lorsqu'il est sollicité par du texte. Le modèle est disponible pour téléchargement sur Hugging Face, GitHub et via torrent. Bien que les détails sur les données d'entraînement de Pixtral soient confidentiels, il prend en charge nativement un nombre arbitraire d'images de taille quelconque. Avec 40 couches, une taille de dimension cachée de 14 336 et 32 têtes d'attention, Pixtral 12B offre un traitement computationnel étendu. Il dispose également d'un encodeur de vision dédié pour un traitement d'image avancé. La démarche de Mistral AI dans les modèles multimodaux la place en concurrence avec les leaders de l'IA comme OpenAI et Anthropic, dont les modèles possèdent déjà des capacités de traitement d'image. Cependant, les fonctionnalités uniques de Pixtral 12B, telles que son soutien à des tailles et des quantités d'images arbitraires, pourraient le différencier de ses concurrents.
slashdot.org
Mistral Releases Pixtral 12B, Its First-Ever Multimodal AI Model
