RSS VentureBeat
Подписаться
Локальные ИИ-агенты упираются в жесткий лимит памяти. Новая архитектура Apple обходит его.
Модели ИИ на устройстве были ограничены емкостью DRAM, что сдерживало их размер и возможности. Новые базовые модели Apple AFM 3 решают эту проблему, храня веса моделей в памяти NAND flash вместо DRAM. Семейство AFM 3 включает как модели на устройстве, так и серверные модели, разработанные в сотрудничестве с Google и работающие в рамках Apple Private Cloud Compute. AFM 3 Core Advanced на устройстве — это модель с 20 миллиардами параметров, использующая новую архитектуру для преодоления низкой пропускной способности NAND-to-DRAM. Вместо обработки каждого токена, она принимает решения о маршрутизации один раз за запрос. Это позволяет ей загружать конкретных "экспертов" из flash в DRAM для выполнения определенной задачи. Количество активных параметров может масштабироваться от 1 миллиарда до 4 миллиардов в зависимости от сложности запроса. Хотя технический отчет Apple подробно описывает дизайн памяти, отсутствует критически важная информация, касающаяся энергопотребления, тепловых ограничений и прозрачного выгрузки в облако. Этот пробел создает проблемы с соблюдением нормативных требований для регулируемых предприятий, которым необходимо документировать места выполнения выводов. Внедрение AFM 3 Core Advanced предлагает предприятиям значительно более мощный вариант ИИ на устройстве. Однако его масштабируемость зависит от дополнительных деталей, ожидаемых в предстоящем техническом отчете. Выбор между локальным и облачным выполнением выводов теперь становится более тонким архитектурным решением для бизнеса.