Flux RSS VentureBeat
Suivre
«Western Qwen»: IBM impressionne avec le lancement de son LLM Granite 4 et son architecture hybride Mamba/Transformer
IBM a lancé Granite 4.0, une nouvelle famille de grands modèles de langage open-source conçus pour des performances et une efficacité élevées. Cette sortie marque le retour d'IBM sur le marché concurrentiel des LLM, en particulier face aux modèles chinois comme Qwen d'Alibaba. Granite 4.0 utilise une nouvelle architecture hybride combinant les conceptions Transformer et Mamba. Les Transformers excellent dans la gestion du contexte mais sont coûteux en calcul, tandis que Mamba est plus efficace pour les longues séquences. Cette approche hybride vise à tirer parti des forces des deux, réduisant considérablement la consommation de mémoire GPU de plus de 70 %. Les modèles sont disponibles sous une licence permissive Apache 2.0, encourageant l'utilisation commerciale et les modifications. Granite 4.0 démontre de solides performances sur les benchmarks pour le suivi d'instructions et l'appel de fonctions. IBM met l'accent sur la confiance et la sécurité, Granite étant la première famille de modèles ouverts certifiée selon la norme ISO/IEC 42001. Les modèles sont entraînés sur un vaste corpus de 22 billions de tokens, incluant des ensembles de données pertinents pour les entreprises. IBM prévoit une expansion supplémentaire avec des modèles additionnels pour divers besoins d'entreprise. Les modèles Granite 4.0 sont accessibles via des plateformes comme Hugging Face et IBM watsonx.ai, avec un soutien élargi des partenaires attendu. Cette sortie positionne IBM comme un fournisseur de solutions d'IA prêtes pour l'entreprise, rentables et sécurisées.