RSS VentureBeat
Folgen
„Western Qwen“: IBM begeistert mit der Einführung des Granite 4 LLM und der hybriden Mamba/Transformer-Architektur
IBM hat Granite 4.0 auf den Markt gebracht, eine neue Familie von Open-Source-Sprachmodellen, die für hohe Leistung und Effizienz entwickelt wurden. Mit dieser Veröffentlichung kehrt IBM in die wettbewerbsintensive Landschaft der Sprachmodelle zurück, insbesondere im Wettbewerb mit chinesischen Modellen wie Qwen von Alibaba. Granite 4.0 verwendet eine neuartige hybride Architektur, die Transformer- und Mamba-Designs kombiniert. Transformer sind hervorragend im Kontext, aber rechenintensiv, während Mamba für lange Sequenzen effizienter ist. Dieser hybride Ansatz zielt darauf ab, die Stärken beider zu nutzen und den GPU-Speicherverbrauch um über 70 % zu reduzieren. Die Modelle sind unter einer permissiven Apache 2.0-Lizenz verfügbar, was die kommerzielle Nutzung und Modifikationen fördert. Granite 4.0 zeigt eine starke Leistung bei Benchmarks für die Befolgung von Anweisungen und Funktionsaufrufe. IBM legt Wert auf Vertrauen und Sicherheit, wobei Granite die erste offene Modellfamilie ist, die nach ISO/IEC 42001 zertifiziert ist. Die Modelle werden auf einem riesigen Korpus von 22 Billionen Tokens trainiert, einschließlich unternehmensrelevanter Datensätze. IBM plant eine weitere Expansion mit zusätzlichen Modellen für verschiedene Unternehmensanforderungen. Granite 4.0-Modelle sind über Plattformen wie Hugging Face und IBM watsonx.ai zugänglich, wobei eine breitere Partnerunterstützung erwartet wird. Diese Veröffentlichung positioniert IBM als Anbieter von unternehmensgerechten, kostengünstigen und sicheren KI-Lösungen.