RSS VentureBeat

Внимание НЕ ВСЁ, ЧТО ВАМ НУЖНО?! Новый вариант Qwen3 Brumby-14B-Base использует технику сохранения мощности

В 2017 году архитектура трансформера революционизировала ИИ, став основой для крупных языковых моделей. Однако квадратичная вычислительная стоимость механизма внимания ограничивает его масштабируемость для длинных контекстов. В 2025 году Manifest AI представила Brumby-14B-Base, модель, которая заменяет внимание на Power Retention, рекуррентный и аппаратно-эффективный механизм. Brumby достигает сопоставимой производительности с трансформерами, такими как Qwen3-14B и GLM-4.5-Air, при минимальной стоимости обучения в размере 4000 долларов. Power Retention использует рекуррентное обновление состояния, сохраняя матрицу памяти, которая сжимает прошлую информацию, в результате чего получается вычисление за постоянное время на каждый токен, в отличие от трансформеров. Эффективность Brumby обусловлена повторным обучением существующей модели трансформера, сохранением предварительных знаний и адаптацией их к новой архитектуре. Тесты показывают, что Brumby соответствует или превышает производительность трансформера в задачах рассуждения, особенно тех, которые включают длинные контексты. Местные операции с матрицами Power Retention обеспечивают значительную аппаратную эффективность и потенциальные ускорения при выводе. Manifest AI стремится демократизировать разработку ИИ, обеспечивая экономически эффективное повторное обучение крупных моделей, облегчая более простую адаптацию моделей трансформера. Конечной целью Manifest AI является моделирование интеллектуальных процессов, выходящее за рамки простого моделирования артефактов интеллекта с их новой архитектурой модели.
favicon
t.me
AI и ML Дайджест в Телеграмм канале @ai_ml_news_ru
favicon
venturebeat.com
Attention ISN'T all you need?! New Qwen3 variant Brumby-14B-Base leverages Power Retention technique
Create attached notes ...