RSS VentureBeat
Подписаться
«Western Qwen»: IBM впечатляет запуском LLM Granite 4 и гибридной архитектурой Mamba/Transformer
IBM выпустила Granite 4.0, новое семейство больших языковых моделей с открытым исходным кодом, разработанных для высокой производительности и эффективности. Этот релиз знаменует возвращение IBM на конкурентный рынок больших языковых моделей, особенно в противостоянии с китайскими моделями, такими как Qwen от Alibaba. Granite 4.0 использует новую гибридную архитектуру, сочетающую дизайны Transformer и Mamba. Transformer превосходно справляются с контекстом, но вычислительно затратны, в то время как Mamba более эффективен для длинных последовательностей. Этот гибридный подход направлен на использование сильных сторон обоих, значительно снижая потребление памяти GPU более чем на 70%. Модели доступны под разрешительной лицензией Apache 2.0, что поощряет коммерческое использование и модификации. Granite 4.0 демонстрирует высокую производительность в тестах на следование инструкциям и вызов функций. IBM делает акцент на доверии и безопасности, при этом Granite является первым семейством открытых моделей, сертифицированных по ISO/IEC 42001. Модели обучены на огромном корпусе из 22 триллионов токенов, включая наборы данных, релевантные для предприятий. IBM планирует дальнейшее расширение с выпуском дополнительных моделей для различных корпоративных нужд. Модели Granite 4.0 доступны через платформы, такие как Hugging Face и IBM watsonx.ai, с ожидаемой поддержкой более широкого круга партнеров. Этот релиз позиционирует IBM как поставщика готовых для предприятий, экономически эффективных и безопасных решений в области искусственного интеллекта.