Baidu запустила ERNIE-4.5-VL-28B-A3B-Thinking, новую модель ИИ для понимания изображений, видео и текста. Модель использует сложную архитектуру маршрутизации, активируя одновременно только 3 миллиарда параметров из 28 миллиардов общего количества, что повышает эффективность. Этот дизайн позволяет ей хорошо выполнять задачи, такие как понимание документов, анализ графиков и визуальное рассуждение. Одной из ключевых функций является "Мыслительная деятельность с изображениями", которая имитирует человеческое визуальное решение проблем путем масштабирования. Модель также имеет улучшенную "визуальную привязку" для идентификации объектов. Baidu утверждает, что эта модель превосходит конкурентов, таких как Gemini 2.5 Pro от Google и GPT-5-High от OpenAI, хотя независимое тестирование еще ожидается. Модель выпускается под открытой лицензией Apache 2.0, что позволяет использовать ее для неограниченного коммерческого использования. ERNIE-4.5-VL-28B-A3B-Thinking использует архитектуру Mixture-of-Experts (MoE) для эффективной обработки. Baidu предоставляет обширные инструменты для разработчиков и поддержку интеграции через ERNIEKit. Выпуск ориентирован на растущий рынок корпоративного ИИ, фокусируясь на обработке документов, контроле качества производства и приложениях для обслуживания клиентов. Эта модель может быть более доступной благодаря тому, что она помещается на один 80 ГБ GPU.
t.me
AI и ML Дайджест в Телеграмм канале @ai_ml_news_ru
venturebeat.com
Baidu just dropped an open-source multimodal AI that it claims beats GPT-5 and Gemini
Create attached notes ...
