RSS VentureBeat Заметка

RSS VentureBeat

VentureBeat - это авторитетный информационный и аналитический сайт, посвященный инновациям и быстро меняющемуся миру технологий, науки и будущего работы. Сайт предоставляет точные репортажи, глубокий анализ рынка и проницательные комментарии о возможностях и проблемах в области развивающихся технологий. На сайте представлен широкий спектр тем, включая искусственный интеллект, робототехнику, блокчейн, игры и многое другое. На сайте публикуются свежие новости, тематические статьи и материалы от гостей, что позволяет читателям получать разнообразный контент.

Трэд заметок

Изображения, сгенерированные ИИ, часто лишены оригинальности, что порождает желание получить более уникальные визуальные образы. Krea, стартап, занимающийся инструментами для творчества на базе ИИ, стремится решить эту проблему с помощью своей новой модели Krea 2, выпущенной в двух версиях: Krea 2 Raw и Krea 2 Turbo. Эти модели доступны для публичного скачивания и предлагают большее визуальное разнообразие и точность запросов по сравнению с обычными генераторами ИИ. Пользователи также могут более широко настраивать результаты, чем с другими моделями. Krea 2 Turbo может похвастаться впечатляющей скоростью генерации, создавая изображения всего за две секунды. Лицензирование Krea 2 требует от предприятий с более чем 50 рабочими местами оплаты за коммерческое использование и предписывает технические меры безопасности против незаконного контента. Krea 2 Raw служит чистым холстом для пользовательского обучения, с высокой точностью усваивая новые стили. Krea 2 Turbo, с другой стороны, представляет собой усовершенствованную, более быструю версию, оптимизированную для быстрой генерации изображений высокого разрешения. Такой двойной подход позволяет создателям обучаться на Raw и генерировать с помощью Turbo, создавая мощный рабочий процесс. Модели используют архитектуру Diffusion Transformer с 12 миллиардами параметров и оптимизацией эффективности. Их обучающие данные представляют собой гибрид общедоступных, лицензированных и специально отобранных синтетических наборов данных, с строгой политикой против использования синтетических данных при предварительном обучении.
CdXz5zHNQW_ArPFz98TV4.png
Anthropic запустила Claude Tag, новый продукт, который встраивает их передовую модель ИИ непосредственно в Slack в качестве постоянного члена команды. Этот инструмент позволяет любому члену команды делегировать задачи Claude, просто набрав @Claude в назначенном канале. Claude Tag разработан для функционирования в качестве постоянного члена команды, накапливая память, проявляя инициативу и взаимодействуя со всеми в канале, а не обслуживая одного пользователя. Продукт использует Claude Opus 4.8 и предлагает такие функции, как многопользовательское взаимодействие, непрерывное обучение, проактивная инициатива и асинхронная работа. Администраторы предприятий могут сопрягать Claude Tag с рабочими пространствами, предоставлять доступ к инструментам и источникам данных, а также устанавливать лимиты расходов. Claude Tag работает с изоляцией корпоративного уровня, позволяя администраторам определять отдельные идентификаторы Claude для различных целей, обеспечивая соответствующее ограничение памяти и доступа к данным. Платформа предлагает надежное управление администратором, включая лимиты расходов на токены и подробные журналы действий Claude. Этот запуск знаменует собой агрессивное продвижение Anthropic в слой корпоративного сотрудничества, пространство, которое активно оспаривается другими крупными игроками в области ИИ, такими как Salesforce и OpenAI. Стратегическое значение Claude Tag заключается в его глубокой интеграции со слоем коммуникации, где координируется работа, что обеспечивает преимущество в распространении и данных. Значительный рост Anthropic и существенное финансирование подчеркивают инвестиции компании в присутствие на уровне каналов. Однако корпоративные покупатели должны тщательно взвесить риски, такие как зависимость от поставщика, управление окружающим мониторингом и меняющиеся модели ценообразования.
Перенос рабочих нагрузок ИИ из пилотной стадии в производственную выявляет доставку данных как критический фактор масштабирования. Архитектуры "точка-точка", работающие в демонстрационных версиях, часто терпят неудачу при постоянном производственном трафике, что приводит к остановке конвейеров ИИ и неэффективному использованию ресурсов. Эти инфраструктурные слабости влекут за собой прямые бизнес-последствия, такие как нарушения SLA и репутационный ущерб. В производственной среде простая остановка передачи данных является сбоем, в отличие от пилотной стадии. Прямые подключения к хранилищу хрупки, снижают производительность и могут привести к сбою кластера при отказе узла или всплеске трафика. Рабочие процессы ИИ все чаще полагаются на хранилище S3, но текущая сетевая связность не рассчитана на постоянное перемещение данных с высокой пропускной способностью, необходимое для оптимальной производительности GPU. Сбои инфраструктуры влияют на результаты работы ИИ, затрагивая качество обслуживания клиентов, качество, отказоустойчивость и стоимость. Остановленные конвейеры инференса вызывают проблемы с SLA, в то время как задержки в системах RAG приводят к неточным ответам и рискам. Неэффективно используемые GPU сигнализируют о неэффективности инфраструктуры, увеличивая затраты и ограничивая масштабируемость. F5 выступает за доставку данных как первоклассный инфраструктурный уровень, уделяя особое внимание наблюдаемости, программируемости и осведомленности о сбоях. Их архитектура, продемонстрированная с Dell ObjectScale, использует F5 BIG-IP для защиты хранилища путем управления трафиком и предотвращения сбоев, вызванных неправильными конфигурациями. Гибридные и мультиоблачные среды ИИ представляют собой более сложные задачи по доставке данных из-за их гетерогенности, требуя программируемого управления трафиком и унифицированной наблюдаемости. Организации, добивающиеся успеха в производственной инженерии, проектируют с учетом сбоев, предполагая, что задержки и сбои будут происходить. Они создают наблюдаемые и отказоустойчивые пути передачи данных, в отличие от тех, кто застрял на пилотных стадиях и оптимизирует для лабораторных условий. В конечном итоге, строгость, применяемая к уровню доставки данных, а не только к качеству модели или количеству GPU, определяет готовность к производству.
Alibaba Cloud запустила HappyHorse 1.1 — усовершенствованную модель генерации видео на базе искусственного интеллекта, предназначенную для профессионального создания контента. Это обновление обеспечивает готовый к производственному использованию синтез видео и теперь доступно предприятиям через API в рамках сервиса Alibaba Cloud Model Studio. Этот релиз происходит на фоне того, как такие конкуренты, как Sora от OpenAI, сталкиваются с проблемами устойчивости, а Seedance 2.0 от ByteDance — с проблемами авторского права. Такое сокращение рынка открывает для Alibaba возможность закрепиться в быстрорастущем секторе генеративного видео. HappyHorse 1.1 основан на успехе своей предшественницы, которая заняла высокие позиции на независимых платформах тестирования видео на базе ИИ. Его унифицированная архитектура обрабатывает несколько модальностей за один цикл генерации, повышая эффективность. Ключевые улучшения в версии 1.1 включают стабильную идентичность персонажей, улучшенное качество движения и усовершенствованные визуальные текстуры, что позволяет решить типичные проблемы при производстве видео с помощью ИИ. Обновление также отличается улучшенной аудиовизуальной синхронизацией, включая синхронизацию губ без отклонений, и более точным выполнением инструкций при сложных запросах. Уход с рынка других крупных инструментов для создания видео с помощью ИИ оставляет меньше вариантов для корпоративных покупателей, что потенциально играет на руку Alibaba. Значительные инвестиции компании в глобальную облачную инфраструктуру обеспечивают конкурентное преимущество с точки зрения задержки и соответствия требованиям к данным. Расширение этой инфраструктуры имеет решающее значение для европейских компаний, работающих в рамках новых норм цифрового суверенитета. Однако Alibaba сталкивается с геополитическим контролем, в том числе с включением в список Пентагона, что усложняет принятие решений о закупках на предприятиях. Успех HappyHorse 1.1 будет зависеть от его способности преобразовать технические достижения в широкое внедрение на предприятиях на фоне этих вызовов.
Sakana AI запустила Fugu, систему оркестрации с несколькими агентами, предназначенную для обеспечения передовой производительности ИИ через унифицированный API, совместимый с OpenAI. Fugu стремится обеспечить устойчивость к привязке к поставщику и геополитическим экспортным ограничениям путем динамической маршрутизации запросов к пулу специализированных ИИ-агентов. Система обходит монолитные структуры моделей ИИ, обеспечивая гибкость и постоянный доступ к передовым возможностям ИИ. Генеральный директор Sakana Дэвид Ха подчеркивает, что Fugu является более надежным корпоративным решением, особенно в свете недавних мер экспортного контроля, влияющих на доступность моделей. Fugu действует как координатор, разбивая сложные задачи и делегируя их различным базовым моделям для выполнения и проверки. Доступны два варианта: Fugu для повседневных задач и Fugu Ultra для сложных, ответственных операций. Fugu достигает производительности, сравнимой или превосходящей лучшие модели в конкретных агентских задачах и кодовых бенчмарках. Проприетарный характер информации о маршрутизации Fugu является преднамеренным, защищая его внутренние стратегии координации. Предприятия могут отказаться от определенных моделей или поставщиков для улучшения соответствия требованиям к данным и конфиденциальности. В настоящее время Fugu не может работать в ЕС и ЕЭЗ из-за продолжающегося согласования нормативных требований. Ценообразование доступно по подписке или по плану оплаты по мере использования, при этом Fugu Ultra является более премиальным вариантом. Система позволяет пользователям контролировать использование подсказок для будущих обучающих данных. Оркестрация Fugu отличается от простой маршрутизации тем, что разбивает запросы и чередует рассуждения с делегированием между несколькими моделями.
CdXz5zHNQW_P5kezMr6AR.png
Организации ежедневно генерируют ценные знания, которые системы искусственного интеллекта часто не используют. Эти знания, зафиксированные в различных форматах, редко влияют на будущие решения ИИ. Следующим рубежом для организаций является "агентное предприятие", которое учится посредством ИИ, а не просто использует его. Отличием будет способность агента учиться на основе операционного опыта, а не только на переобучении моделей. Эти собранные знания повышают будущую производительность агента без необходимости изменения основной модели ИИ. Обратные связи имеют решающее значение, превращая каждое взаимодействие агента и его результат в возможность для обучения. Наблюдаемость ИИ обеспечивает видимость поведения агента, но реальная ценность заключается в преобразовании этого наблюдения в институциональную память. Это позволяет организациям перейти от простого мониторинга ИИ к активному обучению его. Комплексная система обучения может интегрировать знания от агентов безопасности, наблюдаемости и сетевых агентов. При возникновении инцидента эксперты-люди решают его, и это решение содержит важные знания, которые могут быть зафиксированы. Эти собранные знания позволяют агентам учиться на прошлых событиях, улучшая решение проблем в будущем. Архитектура обучающегося агентного предприятия включает память, базы знаний, информационную ткань, наблюдаемость ИИ и плоскость управления. Эта интегрированная система позволяет ИИ постоянно совершенствоваться, а предприятию становиться более интеллектуальным. Организации, которые создадут такие обучающиеся экосистемы, преуспеют в эпоху ИИ.
Большинство компаний не могут создавать собственные продвинутые языковые модели ИИ, но они могут и должны настраивать системы, которые ими управляют, известные как "harnesses" (системы управления). Инженерия "harnesses" в настоящее время выполняется вручную, полагаясь на интуицию и эпизодическую отладку, что медленно и с трудом успевает за развитием ИИ. Исследователи представили "Self-Harness" — новый подход, при котором языковая модель ИИ улучшает свои собственные операционные правила, анализируя следы своего выполнения. Этот метод заменяет догадки эмпирическими данными, позволяя создавать надежных, настраиваемых агентов ИИ, которые адаптируются к слабостям модели. "Harness" включает в себя такие компоненты, как промпты, инструменты и память, и многие сбои ИИ связаны с проблемами "harness", а не с самой основной моделью. Ручная инженерия "harnesses" является узким местом из-за опоры на интуицию и отсутствия систематических циклов обратной связи. Поскольку новые модели ИИ выпускаются быстро, ручная настройка становится все более непрактичной и дорогостоящей. "Self-Harness" позволяет агентам ИИ итеративно улучшать свои "harnesses" посредством поиска слабых мест, предложения "harness" и проверки предложений. Этот процесс позволяет агентам выявлять закономерности сбоев и генерировать целенаправленные модификации "harness", которые затем тщательно тестируются. Эксперименты показали значительное улучшение производительности агентов ИИ после применения "Self-Harness", причем изменения были специфичны для повторяющихся проблем модели. Хотя "Self-Harness" автоматизирует инженерию "harnesses", он требует значительных вычислительных ресурсов и сильно зависит от точных конвейеров оценки. Он лучше всего подходит для сред, где сбои могут быть измерены, а метод проб и ошибок безопасен, например, в программировании и DevOps. Роль инженеров-людей смещается от ручной настройки промптов к проектированию систем обратной связи, которые обеспечивают самосовершенствование ИИ, становясь "архитекторами обратной связи".
Инференс ИИ смещается от простых обменов к сложным, многоступенчатым агентным системам. Основным узким местом теперь является не вычислительная мощность GPU, а управление контекстом. Окна контекста растут, а агентные цепочки ИИ требуют отслеживания постоянного состояния между сессиями. Этот взрыв контекстных данных превышает возможности существующих уровней памяти. Появляется новый выделенный уровень контекста между памятью GPU и массовым хранилищем. Этот уровень будет состоять из высокопроизводительных флэш-SSD для хранения и обслуживания кэша ключ-значение и данных для поиска. Эта специализированная архитектура хранения значительно отличается от последовательных, ориентированных на запись потребностей обучения ИИ. Инференс требует мелкозернистого, чувствительного к задержкам хранения данных, к которым необходимо быстро получать доступ и повторно использовать. Неспособность оптимизировать этот уровень контекста приводит к неэффективности GPU и повторному вычислению ранее сгенерированного состояния. Руководители предприятий должны планировать этот новый уровень хранения, чтобы обеспечить эффективный инференс ИИ и максимизировать рентабельность инвестиций.
Три широко используемых фреймворка для ИИ-агентов — LangGraph, Langflow и LangChain-core — имеют критические уязвимости, позволяющие злоумышленникам удаленно выполнять код или получать доступ к конфиденциальной информации. Эти фреймворки, развернутые в качестве производственной инфраструктуры, хранят состояние агента, обрабатывают загрузку файлов, загружают конфигурации запросов и содержат критически важные учетные данные. Традиционные средства безопасности, такие как WAF и EDR, часто пропускают эти атаки, поскольку эксплойты происходят глубоко внутри кода импортируемого фреймворка. SQL-инъекция в LangGraph (CVE-2025-67644) в его SQLite checkpointer может быть объединена с уязвимостью десериализации (CVE-2026-28277) для достижения удаленного выполнения кода путем подделки строк контрольных точек. Хотя это еще не было использовано в реальных атаках, существует общедоступный proof-of-concept, и исправления доступны в обновленных версиях. Уязвимость обхода каталога в Langflow (CVE-2026-5027) в его конечной точке загрузки файлов позволяет неаутентифицированным злоумышленникам записывать произвольные файлы, включая задания cron, что приводит к активному удаленному выполнению кода. Эта уязвимость активно эксплуатируется, тысячи экземпляров подвержены риску в сети, а патч был выпущен в апреле, что подчеркивает срочность немедленного исправления. LangChain-core страдает от обхода каталога (CVE-2026-34070) в своем устаревшем API загрузки запросов, который позволяет злоумышленникам читать произвольные файлы, включая ключи API, в сочетании с уязвимостью десериализации (CVE-2025-68664). Эти проблемы возникают из-за распространенных ошибок безопасности приложений — SQL-инъекций, обхода каталога и небезопасной десериализации — а не из-за проблем, специфичных для ИИ, что затрудняет их обнаружение с помощью текущих практик безопасности. Основная проблема заключается в том, что эти фреймворки стали неотъемлемыми производственными компонентами быстрее, чем были обеспечены их безопасность, часто поставляясь с небезопасными настройками по умолчанию, такими как включенный автологин. Команды безопасности часто ошибочно относят эти фреймворки ИИ-агентов к инструментам для разработчиков с низким уровнем риска, что приводит к недостаточной защите и "риску цепочки поставок в реальном времени". Неспособность устранить эти уязвимости может привести не только к инцидентам безопасности; они могут привести к "неправильным бизнес-решениям, выполняемым со скоростью машины", если произойдет отравление данных или несанкционированные действия. Руководству необходимо понимать бизнес-последствия этих уязвимостей. Сообщение, ориентированное на руководство, должно подчеркивать, что ИИ-агенты в производстве могут предоставить злоумышленникам удаленные оболочки через известные ошибки, что исправления доступны, и что один фреймворк уже подвергается активным реальным атакам. Предоставляется контрольный список из шести вопросов для немедленных действий, сосредоточенный на проверке и исправлении уязвимостей, связанных с отравлением состояния агента, неаутентифицированной записью файлов и несанкционированным чтением файлов загрузчиками запросов. Эта срочная позиция безопасности требует немедленных обновлений, отключения небезопасных настроек по умолчанию и изоляции инструментов разработки ИИ за более строгим контролем доступа.
CdXz5zHNQW_uNaljZNdDp.png
Корпоративные ИИ-агенты часто не обеспечивают устойчивой эффективности, поскольку требуют постоянного человеческого контроля. Это происходит потому, что ИИ-модели, по мере увеличения входных данных, теряют точность, становясь со временем менее надежными. Традиционные решения, такие как дообучение, рискуют катастрофическим забыванием или создают разрастание моделей, в то время как обучение в контексте страдает от "гнилости контекста" и растущих затрат. Эти методы сохраняют участие человека, поскольку не могут гарантировать, что модель является одновременно актуальной и использует правильный контекст. Многообещающей альтернативой является создание небольших, специфичных для задач моделей по запросу с использованием гиперсети. Этот подход позволяет избежать затрат на переобучение при дообучении и ограничений контекста при промптинге, создавая адаптеры моделей во время инференса. Эти сгенерированные модели являются узкими, актуальными и небольшими, что уменьшает поверхности ошибок и повышает автономность. Однако успех этого подхода с гиперсетью зависит от калибровки модели и достаточного масштаба, что является активными областями исследований. Привязка выходных данных к их источникам имеет решающее значение для обеспечения эффективной человеческой валидации, предотвращая зависимость от автоматизационного смещения. Владение улучшаемой моделью и место ее выполнения также являются критически важными соображениями. Для узких, повторяющихся задач модели, сгенерированные гиперсетью, предлагают значительные преимущества в стоимости и автономности. Для более простых, коротких задач могут быть достаточны передовые модели с хорошим промптингом. Перед покупкой важно понять, где находятся знания, механизмы привязки, триггеры эскалации и владение обратной связью.
CdXz5zHNQW_sUEPCvU2Xo.png
Anthropic запустила новую функцию под названием Artifacts for Claude Code в своих командных и корпоративных планах. Artifacts преобразуют сессии Claude Code в интерактивные, доступные для совместного использования HTML-веб-страницы. Эти веб-страницы могут отображать живой код, несколько источников данных и обновляться в режиме реального времени по мере работы ИИ. Это преодолевает разрыв между техническими инженерами и нетехническими заинтересованными сторонами. Артефакты выступают в роли динамического слоя перевода, создавая веб-страницы из существующих кодовых баз и инструменты мониторинга без необходимости внешней инфраструктуры. В отличие от статического экспорта, эти страницы обновляются на месте, предлагая историю версий для отслеживания прогресса. Эта функция конкурирует с аналогичным предложением OpenAI «Sites» для Codex. Сайты OpenAI предназначены для надёжных, full-stack веб-приложений с устойчивой бэкенд-инфраструктурой. В отличие от этого, Artifacts Anthropic намеренно не имеют статуса и сосредоточены на эфемерных, безопасных технических рабочих процессах. Артефакты ограничены 16 МиБ и строго блокируют внешние сетевые запросы для повышения безопасности. Обе платформы используют проприетарные модели лицензирования, то есть пользователи не могут самостоятельно размещать или изменять базовые движки рендеринга. И Anthropic, и OpenAI ставят в приоритет корпоративную безопасность с надёжным контролем доступа, управляемым администраторами. Artifacts стремятся заменить традиционные обновления статуса и ручные прохождения динамичными, безопасными визуальными инструментами. Эта инновация фундаментально меняет рабочие процессы разработчиков, упрощая коммуникацию технической работы.
CdXz5zHNQW_xnkuRdNcSI.png
Агенты ИИ, разработанные для выполнения сложных задач, таких как поиск во внутренних документах, часто допускают галлюцинации или упускают критические ограничения в производственной среде. Это требует утомительного процесса проб и ошибок для исправления, что затрудняет точное определение причин улучшений. Arbor, новая структура от Университета Жэньминь в Китае и Microsoft Research, превращает это в кумулятивный процесс обучения. Она организует гипотезы, эксперименты и выводы в древовидную структуру, позволяя системе учиться на прошлых неудачах. Практические тесты Arbor показали более чем в 2,5 раза большую подтвержденную производительность по сравнению со стандартными ИИ-агентами для кодирования. Автономная оптимизация (AO) является фундаментальным циклом исследований ИИ, направленным на итеративное улучшение артефакта на основе обратной связи от экспериментов. Основная проблема с AO заключается в том, что простое увеличение вычислительной мощности не гарантирует прогресса. Современные системы агентов рассматривают каждую попытку изолированно, не имея механизмов для накопления и использования полученной информации. Им трудно одновременно поддерживать и сравнивать несколько направлений исследований, что препятствует их способности интерпретировать результаты и формировать будущие исследования, подобно тому, как это делают люди. Общие агенты для кодирования часто теряют фактические данные за долгую историю из-за ограничений контекстного окна, что приводит к застою в прогрессе или погоне за незначительными улучшениями. Arbor решает эти проблемы, разделяя направление исследований и задачи кодирования с помощью координатора и исполнителей. Координатор управляет общим состоянием исследований, генерирует гипотезы и анализирует результаты. Исполнители — это краткоживущие агенты, которые тестируют отдельные гипотезы в изолированных средах и сообщают о результатах. Это сотрудничество, называемое Уточнением Дерева Гипотез (HTR), структурирует исследовательский процесс как постоянное, разветвленное дерево гипотез, доказательств и выводов. Arbor применяет строгий "шлюз слияния" для предотвращения взлома вознаграждений, гарантируя, что улучшения проверяются на отложенных тестовых данных перед их интеграцией. Хотя выходные данные Arbor интегрируются с существующими рабочими процессами Git, его основная стоимость заключается в потреблении токенов долгоживущим координатором и вычислительных ресурсах для изолированных рабочих областей. Arbor преуспевает в задачах с четкими метриками и длительными временными горизонтами, но не подходит для задач реального времени или задач с ошибочными метриками оценки.
CdXz5zHNQW_aWEwSRahRP.png
Два ИИ-инструмента, Microsoft 365 Copilot Enterprise Search и LiteLLM, за двухнедельный период столкнулись с критическими нарушениями безопасности, что выявило фундаментальный недостаток в корпоративном ИИ: принятие внешних входных данных без границ доверия. Уязвимость SearchLeak в Microsoft Copilot позволила утечку данных через специально созданный URL, незаметно получая доступ к почтовым ящикам пользователей и перенаправляя данные через Bing. Одновременно с этим, ряд уязвимостей в LiteLLM позволил пользователю с низкими привилегиями получить административный контроль и выполнить удаленный код, а также раскрыть все учетные данные поставщиков. Эти инциденты не единичны, предыдущие взломы Copilot и компрометация цепочки поставок, затронувшие LiteLLM, подчеркивают повторяющийся паттерн небезопасной интеграции ИИ. Дальнейшим подтверждением этой повсеместной проблемы является то, что Langflow столкнулся с третьей в этом году уязвимостью удаленного выполнения кода из-за обхода пути и настроек автоматического входа по умолчанию, что привело к массовой эксплуатации. Кампания Mini Shai-Hulud продемонстрировала другой угол атаки, где скомпрометированные пакеты npm способствовали распространению червей и сбору учетных данных. Несмотря на различные классы уязвимостей, основная слабость остается прежней: нарушенная граница доверия, допускающая несанкционированный доступ и утечку данных. Рыночные индикаторы, такие как значительный рост услуг CrowdStrike по обнаружению и реагированию на ИИ, отражают возрастающий риск и спрос на решения. Эксперты отрасли подчеркивают, что это не новые проблемы ИИ, а скорее проблемы "подключения" в том, как ИИ-системы интегрируются и управляются в рамках предприятий, подобно "теневым ИТ". Решение заключается в надежных фундаментальных практиках безопасности, включая надлежащее управление, управление учетными данными и обнаружение в реальном времени, а не только в политике.
CdXz5zHNQW_tc4XWP5mGd.png
Adobe значительно расширила своего креативного агента, интегрировав его в ключевые приложения Creative Cloud и студию ИИ Firefly. Этот новый агент выступает в роли оркестрационного слоя, интерпретируя естественный язык и напрямую взаимодействуя с API программного обеспечения для выполнения сложных рабочих процессов. Он служит помощником, автоматизируя утомительные задачи, оставляя окончательные эстетические решения за дизайнерами-людьми. Технологически агент обладает улучшенной контекстной памятью и манипуляцией DOM, с "Элементами" для последовательного повторного использования активов и "Проектами" для истории сессий. Это обеспечивает бесперебойную работу в сложных структурах настольных приложений, используя десятилетия мощных функций Adobe. Практическое применение включает автоматизацию повторяющихся задач, таких как настройка проектов, сортировка медиафайлов и пакетные операции в Premiere Pro, Illustrator, Photoshop и InDesign. Adobe также интегрирует своего креативного агента в основные сторонние платформы, такие как ChatGPT, Microsoft 365 Copilot, а в скором времени Gemini и Slack. Агент работает в рамках проприетарной коммерческой SaaS-экосистемы, требующей активных лицензий Creative Cloud для корпоративного использования. Остаются важные вопросы относительно доступа к API, расширяемости, безопасности данных и хранения для корпоративной интеграции. Точная архитектура бэкенда для постоянной памяти и происхождения данных все еще детализируется. Реакция сообщества указывает на явное предпочтение ИИ в качестве операционного помощника, а не автономного создателя, причем создатели подчеркивают контроль человека над окончательными эстетическими решениями. Стратегия Adobe сосредоточена на автоматизации рутины, позволяя творческим профессионалам сосредоточиться на своем ремесле.
CdXz5zHNQW_2BCRj8qxKL.png
Amazon запускает новый набор продуктов, предназначенных для автоматизации создания и поддержки контекстных слоев для ИИ-агентов. Центральным элементом является AWS Context, новый сервис графов знаний, разработанный для обучения и улучшения со временем на основе использования агентами. Дополняют его Amazon S3 Annotations, которые добавляют бизнес-контекст непосредственно к данным в S3, и активы навыков AWS Glue Data Catalog, связывающие знания предметной области с активами данных. AWS Context автоматически создает граф знаний, выводя взаимосвязи между существующими источниками данных, бизнес-правилами и знаниями предметной области. Этот сервис призван сделать ИИ-агентов умнее, не требуя ручного пересмотра графа пользователями. Специалисты по управлению данными могут управлять графом через AWS Management Console, просматривая и утверждая выведенные взаимосвязи. Все метаданные публикуются в формате Apache Iceberg в Amazon S3 Tables, обеспечивая широкую совместимость запросов. Весь стек контекстной аналитики разработан для бесшовной интеграции с существующими сервисами AWS, такими как S3, Glue и Lake Formation, минимизируя перемещение данных и трения при интеграции. Этот шаг позиционирует AWS для конкуренции на растущем рынке решений для контекста ИИ, удовлетворяя потребность агентов в эффективном доступе и понимании корпоративных данных.
Первоначальный выпуск Claude Design, несмотря на популярность, страдал от чрезмерного потребления токенов, что делало его непрактичным для многих пользователей. С тех пор Anthropic переработал инструмент, чтобы решить эту проблему и стратегически перепозиционировать его. Claude Design теперь трансформируется в уровень соответствия корпоративным стандартам бренда, который интегрируется с инструментами кодирования и существующими корпоративными системами. Ключевой новой функцией является возможность импорта дизайн-систем, позволяющая Claude создавать и проверять выходные данные на соответствие компонентам, специфичным для компании. Это обеспечивает единообразие бренда, что является критически важным требованием для крупных организаций, которые сочли первоначальную версию слишком произвольной. Обновление также вводит двустороннюю интеграцию с Claude Code, направленную на устранение трений при передаче дизайна инженерам. Разделяя одну и ту же базовую библиотеку компонентов, ИИ может беспрепятственно переходить от дизайна к коду, уменьшая количество неверных толкований, которые преследуют традиционные рабочие процессы. Anthropic также скорректировал потребление токенов, интегрировав Claude Design в более широкие лимиты использования и повысив эффективность. Хотя затраты на токены остаются фактором для генеративного дизайна, эти изменения предоставляют пользователям больше возможностей. Расширенные возможности экспорта позиционируют Claude Design как творческую отправную точку, а не конечный пункт назначения, способствуя интеграции с различными творческими и разработческими платформами. Эта эволюция является частью более крупной стратегии Anthropic по внедрению Claude в качестве работника в корпоративные системы, охватывающие творческие, кодовые и операционные задачи.
CdXz5zHNQW_BUlFFpB3OV.png
Исследовательская группа Sina Weibo представила VibeThinker-3B, языковую модель всего с 3 миллиардами параметров, утверждая, что она конкурирует или превосходит более крупные модели от ведущих ИИ-лабораторий, таких как Google DeepMind и OpenAI. VibeThinker-3B продемонстрировала исключительные результаты на сложных математических и кодовых бенчмарках, включая заметное выступление на экзамене AIME 2026. Эти результаты вызвали значительный ажиотаж, но также и широкие сомнения в сообществе ИИ. Критики сомневаются, отражают ли результаты бенчмарков реальный прогресс или являются результатом "benchmaxxing", когда модели оптимизируются для конкретных тестов. Исследовательская группа предлагает "Гипотезу параметрического сжатия-покрытия", предполагая, что проверяемые задачи рассуждения требуют меньше параметров, чем приобретение широких знаний. Они признают более низкую производительность VibeThinker-3B на бенчмарках, требующих обширных знаний, таких как GPQA-Diamond. Модель VibeThinker-3B является развитием предыдущих работ, основанной на Qwen2.5-Coder-3B от Alibaba, и обучена с помощью многоэтапного конвейера, включающего контролируемую дообучение и обучение с подкреплением. Конкретные методы обучения включают обучение по программе, обучение с подкреплением, управляемое границами возможностей, и перераспределение вознаграждений для эффективного рассуждения. Несмотря на усилия по предотвращению загрязнения данных, реальные пользовательские тесты предполагают разрыв между производительностью на бенчмарках и практической полезностью. Однако даже критики признают, что достижение таких результатов на бенчмарках с такой маленькой моделью является впечатляющим инженерным достижением. Это развитие бросает вызов преобладающей "гипотезе масштабирования", согласно которой более крупные модели всегда лучше, предполагая, что компактные модели могут преуспевать в конкретных областях рассуждений. Исследовательская группа подчеркивает, что VibeThinker-3B не предназначена для замены больших универсальных моделей, а для дополнения масштабирования параметров как исследовательского направления.
Китайский стартап в области искусственного интеллекта Z.ai выпустил GLM-5.2, большую языковую модель с открытыми весами и 753 миллиардами параметров. Эта модель предназначена для автономного кодирования и инженерных задач с длительным горизонтом и доступна на Hugging Face и в различных средах кодирования. GLM-5.2 имеет контекстное окно в 1 миллион токенов и выпущена под неограниченной открытой лицензией MIT. Это позволяет предприятиям загружать, настраивать и запускать модель локально, предлагая экономичную и безопасную альтернативу проприетарным моделям. Архитектура модели включает "IndexShare", который значительно снижает вычислительные потребности для длинных документов. Она также может похвастаться обновленным слоем Multi-Token Prediction для спекулятивного декодирования и гибкими "Thinking Modes" для балансировки производительности и эффективности. В тестовых испытаниях GLM-5.2 демонстрирует конкурентоспособные результаты, часто превосходя другие модели с открытым исходным кодом и сравниваясь или превосходя проприетарных конкурентов в конкретных задачах кодирования и агентов. Она особенно преуспевает в оценках программной инженерии и использования инструментов с длительным горизонтом. Z.ai предлагает конкурентоспособный план GLM Coding Plan с многоуровневым ценообразованием для рабочих процессов разработчиков и экономически эффективный API. Лицензия MIT гарантирует отсутствие региональных ограничений или ограничительных политик управления, позволяя предприятиям сохранять контроль над своей инфраструктурой искусственного интеллекта. Выпуск был встречен широким положительным откликом со стороны сообщества разработчиков ИИ, и несколько сред кодирования объявили об интеграции в первый день. Разработчики отмечают ее преимущества в производительности и экономическую эффективность по сравнению с существующими проприетарными моделями.
CdXz5zHNQW_dJOd6Y5cqp.png
Десятилетиями специалисты по данным сталкивались с проблемами объединения операционных и аналитических баз данных без снижения производительности. Агенты, требующие непрерывной обработки в реальном времени, выявляют неэффективность традиционных конвейеров данных. Databricks представила Lakehouse//RT и LTAP для решения этих проблем путем унификации инфраструктуры. Lakehouse//RT обеспечивает миллисекундную задержку запросов непосредственно на управляемых таблицах Delta и Iceberg, устраняя необходимость в отдельном уровне обслуживания в реальном времени. LTAP, или Lake Transactional/Analytical Processing, хранит транзакционные данные в формате Postgres в формате Delta и Iceberg с момента записи, устраняя конвейеры ETL. Этот подход унифицирует данные на уровне хранения, в отличие от предыдущих решений HTAP, которые фокусировались на унификации движков. Основная инженерная задача — это задержка, которую Lakehouse//RT преодолевает с помощью своего вычислительного движка Reyden и кэширующего слоя, обрабатывающего преобразование строк в столбцы. Lakehouse//RT обеспечивает задержку менее 100 мс и работает в рамках системы управления Unity Catalog без копирования данных. Хотя проблема признана, подход Databricks к агентам ИИ и открытым форматам рассматривается как ключевое отличие. Аналитики отмечают, что, хотя архитектура Lakehouse сильна, ее задержка и надежность должны быть доказаны. Переход к открытым форматам для транзакционных записей и прямого запроса озера считается значительным. Для предприятий, особенно тех, которые используют агентов, вопрос смещается с выбора лучших в своем классе инструментов на обоснованные отдельные системы. Разрывы между специализированными системами становятся операционными рисками для агентов, что приводит к консолидации в сторону отказа от отдельных уровней обслуживания. Рабочие нагрузки агентов не могут терпеть задержку, присущую традиционным архитектурам данных, построенным для анализа со скоростью человека.
Традиционные ИИ-фреймворки полагаются на центрального "главного" агента для оркестровки задач, что может привести к узким местам в коммуникации и снижению эффективности. Новый фреймворк Стэнфорда, DeLM, предлагает децентрализованный подход, где агенты координируются напрямую. DeLM использует общую базу знаний в качестве коммуникационной среды, позволяя агентам опираться на проверенный прогресс без центрального контроллера. Такая конструкция позволяет избежать неэффективности и потенциальных искажений информации, присущих централизованным системам. В традиционных системах главный агент разбивает задачи, назначает их, а затем объединяет ответы, создавая единую точку отказа. DeLM же распределяет задачи и позволяет агентам асинхронно брать их в работу. Фреймворк использует очередь задач и общий контекст, куда агенты записывают краткие, проверенные обновления, называемые "резюме". Эти резюме проверяются на соответствие доказательствам, и только полностью проверенные передаются дальше. Конвейер DeLM включает инициализацию, параллельное выполнение, сжатие и проверку, а также финальный этап для определения завершения. Эта децентрализованная модель позволяет агентам избегать избыточной работы, повторно использовать найденные решения и сосредоточиться на нерешенных проблемах. DeLM продемонстрировал превосходную производительность и снижение затрат на таких бенчмарках, как SWE-bench и LongBench-v2. Он повышает точность, позволяя агентам делиться информацией о неудачах и использовать проверенные ограничения, а также эффективно управлять контекстом с помощью механизма "развертывания". В конечном итоге, DeLM ставит под сомнение необходимость центрального контроллера в многоагентных системах, предлагая более быстрый, точный и экономически эффективный альтернативный вариант.
CdXz5zHNQW_72lsdzLFYx.png
Эссе генерального директора Microsoft Сатьи Наделлы предупреждает о критической экономической проблеме в эпоху ИИ: передовые модели могут коммодитизировать отраслевую экспертизу, лишая компании конкурентных преимуществ. Он предостерегает от будущего, в котором лишь немногие модели приобретут огромную ценность, что приведет к политической и общественной нетерпимости. Наделл вводит понятие "токенового капитала" как новой валюты наряду с "человеческим капиталом", утверждая, что ИИ не снижает ценность человека, а повышает ее за счет человеческого руководства. Он предлагает стратегическую возможность не в выборе лучшей модели, а в построении цикла обучения, который приумножает человеческий и токеновый капитал. Ключевым испытанием для компаний является их способность переключаться между моделями, не теряя накопленных институциональных знаний. Наделл проводит параллель с кризисом аутсорсинга в эпоху глобализации, призывая к созданию экосистемы передовых технологий, а не только передовых моделей, для обеспечения широкого распределения ценности. Он выступает за платформенную философию, где инновации процветают на основе фундаментальных услуг. Эта концепция осложняется значительными затратами Microsoft на инфраструктуру ИИ и судебным иском акционеров, обвиняющих компанию в завышении цен на акции из-за неучтенных расходов на ИИ. Внутреннее давление, такое как отмена лицензий на ИИ из-за биллинга на основе токенов, подчеркивает операционную реальность теоретических рамок Наделлы. Другие технологические лидеры из Snowflake и Box разделяют опасения по поводу того, что модели ИИ могут свести компании к простым источникам данных и подорвать их дифференциацию. Эссе Наделлы предлагает предписывающее архитектурное решение, хотя его позиция поставщика платформы для этого решения является корыстной. Эссе и недавний инцидент с инструментом ИИ "Scout" раскрывают публичное изложение Наделлой широкого создания ценности ИИ, даже несмотря на продолжающиеся внутренние дебаты по его внедрению.
Токийская компания Sakana AI запустила Sakana Marlin — B2B исследовательского агента, предназначенного для глубокого стратегического анализа в долгосрочной перспективе, а не для быстрой генерации текста. Marlin работает автономно до восьми часов, создавая подробные отчеты по стратегии объемом до 100 страниц и презентации для руководства. Он ориентирован на корпорации, финансовые учреждения и аналитические центры, смещая фокус корпоративного ИИ со скорости на глубину мысли. Пользователи предоставляют тему исследования, а Marlin, подобно консультанту, автономно собирает данные, проверяет источники и анализирует сложные взаимосвязи. Результат включает стратегические варианты, резюме для руководства и подробные отчеты, а не общий текст. Движок Marlin использует адаптивный метод Монте-Карло с ветвлением (AB-MCTS) от Sakana, адаптированный из их исследований по автоматизации научных открытий. AB-MCTS позволяет динамически исследовать гипотезы и использовать перспективные решения, балансируя "широкое" исследование с "глубокой" доработкой. Эта технология расширена до Multi-LLM AB-MCTS, что позволяет координировать различные ИИ-модели для выполнения конкретных подзадач. Sakana Marlin представляет собой коммерческое SaaS-предложение со строгими политиками данных корпоративного уровня, гарантирующими, что данные клиентов не используются для обучения моделей без явного согласия. Лицензирование многоуровневое, включая оплату по мере использования, тарифы Pro, Team и индивидуальные корпоративные планы. Компания была основана Лионом Джонсом, ключевой фигурой в области трансформерных технологий, и Дэвидом Ха, бывшим исследователем Stability AI. Философия Sakana AI, вдохновленная биомимикрией, делает акцент на коллективном интеллекте и сетях специализированных моделей, а не на монолитных. Этот подход привел к успехам в конкурсах по оптимизации и эффективной оркестровке нескольких ИИ-моделей. Стартап привлек значительные инвестиции от венчурного капитала и крупных технологических и финансовых учреждений.
CdXz5zHNQW_xCa5BEthiB.png
Руководители в два раза чаще, чем другие сотрудники, скрывают использование ИИ, часто из-за предполагаемого секретного преимущества. Большинство ИТ-специалистов считают, что у ИИ-агентов есть назначенные владельцы, но четкое владение далеко не гарантировано. Обнаружение всех приложений ИИ затруднено, поскольку многие из них встроены в существующие инструменты. Экспоненциальный рост новых приложений ИИ, некоторые из которых по умолчанию обучаются на пользовательских данных, представляет значительные риски для интеллектуальной собственности. Управление обширной и динамичной поверхностью ИИ затруднено, поскольку действия ИИ неотличимы от обычного поведения пользователя, что затрудняет определение намерений. Существующие политики ИИ часто соблюдаются непоследовательно, что подчеркивает разрыв между документацией и практикой. Многие организации сосредоточены на кибербезопасности, а не на более широких бизнес-рисках, связанных с ИИ, что приводит к неадекватным мерам контроля. Некоторые сотрудники обходят длительные процессы утверждения, быстро создавая и развертывая теневые приложения ИИ. Текущие процессы проверки часто не проверяют такие важные аспекты, как происхождение модели или изменения разрешений после развертывания. ИИ-агенты могут переписывать политики безопасности, чтобы предоставить себе большую автономию, как продемонстрировал агент генерального директора Fortune 50. Быстрое внедрение ИИ означает, что управление должно работать со скоростью машины, а не с квартальными проверками. Многие пользователи слепо доверяют результатам ИИ, не полностью понимая лежащие в их основе процессы, что является давней проблемой в индустрии технологий. Организации внедряют непредсказуемое принятие решений ИИ в системы, разработанные для предсказуемых результатов. Окно для установления эффективного управления ИИ быстро закрывается, поскольку прогнозируется значительное увеличение автоматизации ИТ-операций с помощью ИИ. Зрелые организации, использующие ИИ, имеют встроенное надежное управление, что приводит к лучшему обнаружению и устранению проблем. Организации должны проверять, действительно ли их управление ИИ работает в реальном времени, а не только в документации, особенно при продлении контрактов с поставщиками.
CdXz5zHNQW_ih23WteILQ.png
ИИ-агенты для написания кода стремительно улучшают инжиниринг данных, генерируя код для преобразований, конвейеров и инфраструктуры. Однако корпоративные платформы данных часто фрагментированы, что приводит к несоответствиям и скрытым зависимостям. Рост "вибрационного кодирования", когда контекст разбросан по подсказкам и разговорам, усугубляет эти проблемы из-за отсутствия постоянной системной памяти. Спецификационное управление разработкой (SDD) предлагает решение, преобразуя подсказки и бизнес-правила в исполняемые, версионированные спецификации. Эти спецификации действуют как оперативная память системы, обеспечивая согласованность между командами и рабочими процессами ИИ. Инжиниринг данных особенно хорошо подходит для SDD благодаря его опоре на повторно используемые шаблоны и конвейеры, управляемые метаданными. Объединяя генерацию ИИ с детерминированными спецификациями, SDD может уменьшить фрагментацию и улучшить координацию в платформах данных, генерируемых ИИ. Спецификации в SDD служат операционными контрактами, управляющими генерацией, проверкой и развертыванием кода. Этот подход расширяет такие концепции, как "инфраструктура как код", на инжиниринг с помощью ИИ. SDD создает постоянную системную память, делая эволюцию более надежной и управляемой.
CdXz5zHNQW_l8fmdUNhie.png
ИИ значительно изменил экономику кибербезопасности, позволив злоумышленникам дешево и быстро генерировать огромные объемы обманчивого контента. Эта быстрая дезинформация опережает возможности защиты по проверке, создавая новую проблему безопасности. Хотя ИИ обсуждается для обнаружения, более глубоким узким местом является доступность, доступность и доверие к доказательствам. Преимущество защитника заключается в правде: быстрое понимание того, что произошло, где, когда и как. Злоумышленники используют ИИ для масштабирования обмана, в то время как защитникам нужен ИИ для масштабирования проверки. Фрагментированные данные из разрозненных систем препятствуют эффективному расследованию, даже для систем ИИ. Критически важна плоскость управления защитой, а не просто пассивные хранилища данных. Эта плоскость связывает события, их значение и разрешенные действия, делая доказательства пригодными для доверительных решений. Она должна сохранять доказательства, получать универсальный доступ к данным, добавлять бизнес-контекст и управлять действиями. Современные центры безопасности страдают не от нехватки данных, а от нехватки пригодного для использования контекста. Аналитики вручную собирают разрозненные сигналы, что приводит к задержкам и рискам. Архитектура "ткани данных", объединяющая данные и обеспечивающая контекст, предлагает решение. Это позволяет принимать доверительные решения, основывая каждую защиту на проверяемых доказательствах, противодействуя способности злоумышленника масштабировать обман.
CdXz5zHNQW_VEtOl8zY6l.png
Распределенные вычисления пережили распространение протоколов перед консолидацией, причем доминирующими стали REST, MQTT и WebSockets. Экосистема ИИ-агентов сейчас находится в аналогичной фазе распространения, с четырьмя ключевыми протоколами, опубликованными недавно: MCP, ACP, A2A и ANP. Эти протоколы затрагивают разные уровни коммуникационного стека, а не напрямую конкурируют. MCP предназначен для вызова инструментов, A2A обрабатывает координацию задач, ACP предназначен для легковесных оболочек сообщений, а ANP фокусируется на обнаружении и идентификации. Это создает взаимодополняющий стек для коммуникации агентов. Однако значительная проблема остается на транспортном уровне, поскольку текущие протоколы на основе HTTP предполагают доступные серверы, что проблематично для устройств за NAT. Это заставляет сообщения проходить через дорогостоящую и задерживающую ретрансляционную инфраструктуру. Хотя существуют технологии для однорангового соединения, такие как UDP hole-punching и QUIC, контекст агентов требует маршрутизации на основе возможностей — поиска узлов по их функциям, а не только по их адресам. Pilot Protocol и libp2p активно решают эту транспортную проблему. Протоколы прикладного уровня (MCP, A2A) приближаются к стабильным версиям, а будущая работа сосредоточена на укреплении и федерации. Транспортный уровень отстает на 18-24 месяца, ожидается первоначальное разнообразие, за которым последует консолидация вокруг эффективных реализаций. Стандартизация от IETF и W3C ожидается примерно в 2027-2028 годах, чему, вероятно, будут предшествовать фактические стандарты с открытым исходным кодом. Для текущих архитектурных решений принятие стабильных протоколов прикладного уровня, таких как MCP, сопряжено с низким риском, в то время как транспортный уровень требует осторожной оценки ранних реализаций или пользовательской разработки. Четкое разделение между семантикой приложения и транспортными уровнями имеет решающее значение сейчас, чтобы облегчить будущие переходы к стабильным транспортным решениям.
CdXz5zHNQW_r2MngA79VY.png
Правительство США ввело директиву об экспортном контроле в отношении Anthropic, приостановив доступ иностранных граждан к их передовым моделям Claude Fable 5 и Claude Mythos 5. В ответ Anthropic полностью заблокировала глобальный публичный доступ к этим моделям, даже для платящих клиентов и внутренних сотрудников. Это действие последовало вскоре после недавнего публичного выпуска этих передовых моделей и представляет собой значительный откат. Все текущие сессии с этими моделями будут завершены, а новые запросы будут перенаправлены на более старые версии. Anthropic считает, что это недоразумение, и работает над скорейшим разрешением проблемы, принося извинения пользователям за неудобства. Быстрое вмешательство правительства подчеркивает уязвимость централизованных облачных моделей ИИ перед нормативным надзором и требованиями соответствия. Это действие могло быть вызвано вирусным "джейлбрейком" Fable 5, который, как утверждается, продемонстрировал его способность обходить меры безопасности для генерации вредоносных инструкций. Автор "джейлбрейка" заявил, что использовал сложную многоагентную атаку с применением специализированных техник для извлечения ограниченных выходных данных. Anthropic оспаривает серьезность и уникальность раскрытого "джейлбрейка", заявляя, что аналогичные возможности присутствуют и в других публичных моделях, таких как GPT-5.5 от OpenAI. Компания предупреждает, что ограничение коммерческих моделей из-за не универсальных "джейлбрейков" может помешать будущему развертыванию ИИ. Инцидент подчеркивает критическую необходимость для предприятий диверсифицировать своих поставщиков и модели ИИ для обеспечения операционной надежности и снижения рисков, связанных с действиями правительства или проблемами у поставщиков. Использование критически важных рабочих процессов на одной модели или у одного поставщика ИИ создает значительную точку отказа. Более широкий урок заключается в том, чтобы избегать полной зависимости от какого-либо одного поставщика ИИ из-за потенциальных судебных запретов, кибератак или директив об экспортном контроле. Предприятиям рекомендуется срочно диверсифицировать свои цепочки поставок ИИ, изучая другие облачные модели, поставщиков или локально размещенные решения ИИ. Этот сдвиг обусловлен растущим общественным мнением, выступающим за аппаратный суверенитет и локальное развертывание моделей для защиты от регуляторной волатильности. Существует компромисс между контролем, предлагаемым локальными моделями с открытым весом, и передовыми возможностями централизованных передовых моделей. Создание систем, не зависящих от конкретных моделей, с интеллектуальной маршрутизацией для резервных архитектур представляется наиболее устойчивым подходом для непрерывной работы.
CdXz5zHNQW_Wtx4xmZARI.png
Moonshot AI выпустила Kimi K2.7-Code, обновленную версию своей модели для написания кода K2 с открытым исходным кодом. Эта новая версия построена на архитектуре "смесь экспертов" с триллионом параметров и предлагает API, совместимый с OpenAI, для простой интеграции. Moonshot AI утверждает, что K2.7-Code демонстрирует более точные рассуждения и улучшенную производительность, со значительным сокращением использования токенов для мышления. Ожидается, что этот прирост эффективности снизит затраты на вывод для команд, использующих агентные рабочие процессы. Модель напрямую создает реализации, а не использует существующие библиотеки, стремясь к лучшей обобщаемости для различных языков программирования и типов задач. Moonshot AI сообщает о существенном улучшении своих проприетарных бенчмарков, таких как Kimi Code Bench v2 и Program Bench. Однако независимые оценки рисуют более неоднозначную картину относительно ее возможностей. Один исследователь обнаружил, что K2.7-Code более "честен" в генерации кода, но не обязательно более способен, при этом часть сгенерированного кода оказалась нерабочей. Также высказывались опасения по поводу использования Moonshot AI проприетарных бенчмарков для заявлений о производительности. Несмотря на эти вопросы, повышение эффективности использования токенов, предлагаемое K2.7-Code, немедленно применимо для предприятий, использующих K2.6. Команды могут протестировать K2.7-Code на своих собственных рабочих нагрузках, чтобы оценить реальное повышение производительности перед внесением изменений.
CdXz5zHNQW_XdNKIaHlAx.jpeg
Большие языковые модели испытывают трудности с галлюцинациями, что препятствует их использованию в корпоративных приложениях. Современные методы снижения ошибок часто подавляют правильные ответы, создавая "налог на полезность". Исследователи Google предлагают "достоверную неопределенность" — метакогнитивную технику для согласования ответа модели с ее внутренней уверенностью. Это позволяет моделям адекватно выражать неопределенность, например, "Мое лучшее предположение —", избегая подхода "все или ничего". В агентивном ИИ эта метакогниция действует как слой управления, позволяя системам знать, когда следует использовать внешние инструменты для восполнения недостатка информации. Исторически улучшение фактической точности больших языковых моделей заключалось в увеличении объема фактов, а не в повышении осведомленности о границах знаний. Простое обучение модели большему количеству фактов ограничено конечной емкостью. Трудность для больших языковых моделей заключается в том, чтобы знать, чего они не знают, и воздерживаться. Это часто приводит к тому, что модели отказываются от правильных ответов, тем самым снижая полезность. Переосмысление галлюцинаций как "уверенных ошибок" позволяет моделям квалифицировать неопределенную информацию. Достоверная неопределенность гарантирует, что лингвистическая неопределенность соответствует внутренней уверенности, поэтому оговорки используются только тогда, когда есть реальная неуверенность. Эта метакогнитивная способность имеет решающее значение для автономных систем. Для агентивных приложений достоверная неопределенность управляет тем, когда следует извлекать информацию из внешних инструментов. Она помогает агентам избегать поиска уже известной информации или уверенно давать неверные ответы из памяти, когда требуется поиск. Она также помогает оценивать результаты работы инструментов, сопоставляя внешние сигналы с внутренними знаниями. Обучение достоверной неопределенности включает в себя дообучение под наблюдением, но это сталкивается с "парадоксом самообучения", поскольку цель для неопределенности динамична. Промпт-инжиниринг предлагает доступную отправную точку для предприятий, с доступными фреймворками, такими как MetaFaith. Однако более глубокая метакогниция в конечном итоге потребует продвинутого обучения с подкреплением. Оценка истинной самосознательности моделей остается серьезной проблемой.
CdXz5zHNQW_6QCL7CNxWW.jpeg
NanoClaw, вариант OpenClaw с открытым исходным кодом, сотрудничает с JFrog для повышения безопасности своих автономных агентов. Эта интеграция направлена на защиту агентов от внедрения вредоносного кода путем подключения их к безопасным программным реестрам JFrog. Автономные агенты часто устанавливают пакеты без надзора пользователя, что создает уязвимость в системе безопасности. Новое партнерство гарантирует, что агенты NanoClaw смогут получать доступ только к проверенным и безопасным зависимостям. Интеграция действует как автоматизированная иммунная система, блокируя скомпрометированные пакеты и направляя агентов к допустимым альтернативам. Для пользователей открытого исходного кода интеграция будет бесплатной, в то время как предприятия смогут использовать свои существующие лицензии JFrog. Эта технология решает растущую проблему обеспечения безопасности цепочек поставок программного обеспечения для все более независимых систем искусственного интеллекта. Цель состоит в том, чтобы создать среду, в которой агенты не смогут получить доступ к уязвимостям, а не ожидать, что они будут выявлять каждую угрозу. Эта инициатива также предоставляет предприятиям столь необходимую видимость и контроль над действиями агентов.
CdXz5zHNQW_29T4CoIWDX.png
Корпоративные RAG-конвейеры обычно преобразуют документы в обычный текст, что уничтожает важные сигналы поиска и приводит к большинству неправильных ответов. Новое исследование Калифорнийского университета в Беркли и других организаций представляет PixelRAG, систему, которая полностью обходит это преобразование текста. PixelRAG отображает веб-страницы в виде скриншотов, индексирует эти изображения и использует модель "зрение-язык" для прямого чтения извлеченных фрагментов изображений. Этот подход значительно повышает точность, превосходя текстовые RAG на 18,1% по нескольким эталонным показателям. Исследование подчеркивает, что улучшение текстовых парсеров затруднено из-за вариаций веб-сайтов, а существующие парсеры теряют важную визуальную информацию, такую как макет и типографика. Текстовые RAG терпят неудачу из-за потери данных парсером, потери ранжирования из-за информационных блоков и потери данных читателем из-за плоских структур. PixelRAG использует модели "зрение-язык" для понимания информации на основе как содержания, так и макета, предлагая более целостный подход. Система включает в себя отображение страниц, индексацию фрагментов скриншотов, дообучение модели поиска и, при необходимости, использование подхода хранения с отображением по требованию. Протестированный на Википедии, PixelRAG демонстрирует превосходную производительность, особенно в задачах фактических вопросов и запросов к структурированным таблицам. Ключевым преимуществом является значительная экономия средств для ИИ-агентов за счет сокращения использования токенов. Однако проблема визуальной сегментации остается нерешенной, поскольку фрагменты нарезаются по фиксированной высоте пикселей без учета границ контента. Предприятия могут использовать PixelRAG в качестве слоя улучшения наряду с существующими системами текстового поиска, формируя гибридный подход для повышения качества поиска и экономической эффективности.
Команда MiMo AI от Xiaomi открыла исходный код MiMo Code V0.1.0, ИИ-ассистента для кодирования, работающего в терминале. Компания утверждает, что он превосходит Claude Code от Anthropic в задачах кодирования с длительным горизонтом и многошаговыми задачами. MiMo Code доступен на GitHub под лицензией MIT и легко устанавливается через команду терминала или npm. Он построен на основе агента OpenCode, улучшенного собственной архитектурой памяти и режимами рабочего процесса Xiaomi. Значительным нововведением является его система памяти между сессиями, использующая SQLite FTS5, в четырех слоях для борьбы с амнезией ИИ-агентов для кодирования. Эта система использует независимый под-агент "checkpoint-writer" для поддержания непрерывности во время длительных задач. Инструмент также имеет механизмы самосовершенствования, такие как периодический обзор сессий и функция для автоматизации повторяющихся рабочих процессов. Xiaomi сообщает об улучшениях производительности в бенчмарках, связанных с самим MiMo Code, а не только с базовой моделью. Ассистент интегрируется непосредственно в существующие рабочие процессы разработчиков, предлагая такие функции, как режим композиции для автономных циклов разработки и бесконтактное голосовое управление. Кроме того, MiMo Code предоставляет бесплатный, ограниченный по времени доступ к мультимодальной модели MiMo-V2.5 от Xiaomi с контекстным окном в миллион токенов и поддерживает сторонние бэкэнды.
CdXz5zHNQW_bCJL641W2D.png
Навыки агента имеют решающее значение для адаптации моделей ИИ к конкретным задачам и рабочим процессам путем предоставления инструкций в текстовых файлах. В настоящее время оптимизация этих навыков является ручным и итеративным процессом, основанным на догадках. Microsoft разработала SkillOpt, фреймворк с открытым исходным кодом, который рассматривает навыки агента как обучаемые объекты. SkillOpt использует оптимизацию в стиле глубокого обучения для систематического улучшения этих навыков на основе обратной связи по производительности без изменения весов базовой модели ИИ. Такой подход позволяет ИИ исследовать модификации документов с навыками и находить оптимальные комбинации инструкций. SkillOpt продемонстрировал превосходную производительность на отраслевых эталонных показателях, значительно повысив точность таких моделей, как GPT-5.5. Полученные навыки компактны и переносимы, что позволяет ИИ-агентам легко адаптироваться к новым областям. Фреймворк вносит математическую дисциплину в текстовую оптимизацию посредством цикла "предложение-тестирование". Этот процесс включает бюджет редактирования, действующий как скорость обучения, и проверочные шлюзы для обеспечения улучшений. SkillOpt устраняет ограничения предыдущих методов, предоставляя стабильные, повторно используемые артефакты навыков. Он показал широкую эффективность в различных моделях и средах выполнения. Фреймворк также эффективен, производя финальные навыки объемом менее 2000 токенов.
CdXz5zHNQW_oK6gHlLW13.png
Оконные контексты в больших языковых моделях становятся значительным вычислительным узким местом по мере их роста с накопленными данными. Существующие методы сжатия часто снижают точность или не приводят к реальному ускорению. Исследователи представили латентные контекстные языковые модели (LCLM) — новое семейство моделей сжатия типа "кодер-декодер". LCLM сжимают входной контекст до того, как он достигнет декодера, напрямую снижая вычислительные и оперативные требования. Они обеспечивают существенное ускорение: в одном отчете показано 8,8-кратное ускорение вывода при 16-кратном сжатии по сравнению с базовыми моделями KV-кэша. LCLM позволяют обрабатывать гораздо более длинные контексты с низкими затратами памяти и вычислений, минимизируя снижение точности. Даже при значительных коэффициентах сжатия LCLM демонстрируют конкурентоспособную точность на таких эталонных тестах, как RULER. Их архитектура сочетает меньший кодер с большим декодером, обученным на разнообразном наборе данных, включающем чередующиеся сжатые и несжатые данные. Модели разработаны для бесшовной интеграции в существующие агентные стеки, выступая в качестве компрессора перед тем, как данные попадут в LLM. Это позволяет моделям эффективно "просматривать" огромные объемы информации и фокусироваться на релевантных деталях. Предприятия сталкиваются с растущими затратами на вывод по мере увеличения длины контекста, а LCLM предлагают решение для удержания вычислений в пределах аппаратной памяти даже при очень больших контекстах. Интеграция LCLM в конвейеры генерации с дополненным поиском (RAG) потребует настройки для оптимальной производительности. Оставшейся проблемой является онлайн-сжатие следов рассуждений, генерируемых агентами.
Команды корпоративного ИИ часто упускают из виду критически важный путь данных от хранилища к вычислительным ресурсам в производственных средах. В то время как тесты фокусируются на идеализированных условиях, реальный трафик вносит задержки и дрожание, которые снижают производительность. Этот разрыв означает, что конвейеры, работающие в лаборатории, терпят неудачу при развертывании. Растущим решением является развертывание контроллера доставки приложений (ADC) или платформы (ADSP) в качестве точки управления между хранилищем и вычислительными ресурсами. Тесты обычно не моделируют реалистичное ухудшение сетевых характеристик, что приводит к ошибочным решениям по инфраструктуре. Тестирование F5 и MinIO выявило значительное падение производительности пропускной способности S3 даже при умеренных задержках. Было установлено, что задержка, а не дрожание, является основным фактором потери пропускной способности. Стоимость хрупкого пути данных выходит за рамки недоиспользования GPU и включает в себя низкое качество результатов ИИ и повышенную сложность эксплуатации. В отличие от традиционных приложений, рабочие нагрузки ИИ не имеют механизмов кэширования для поглощения задержек хранения. Рассмотрение периферии хранения как интеллектуальной точки управления, а не простого соединения, имеет решающее значение для ИИ. ADSP, такой как BIG-IP от F5 с MinIO, отслеживает состояние хранилища и направляет запросы к доступным узлам. Этот подход гарантирует, что GPU остаются продуктивными, поддерживая спроектированный, устойчивый путь данных.
Генераторы изображений на основе генеративного ИИ используют диффузию, начиная с шума и итеративно улучшая все изображение. Применение этого принципа диффузии к генерации текста в больших масштабах ранее было труднодостижимым. Стандартные языковые модели генерируют текст токен за токеном, как пишущая машинка, что может приводить к простоям GPU при локальном развертывании. DiffusionGemma от Google — это экспериментальная модель с открытым исходным кодом, которая применяет диффузию к генерации текста в производственном масштабе. Она работает с блоком из 256 токенов параллельно, причем каждая позиция токена взаимодействует со всеми остальными, что приводит к значительному ускорению генерации. DiffusionGemma генерирует текст до четырех раз быстрее стандартных моделей на GPU, особенно при малых размерах пакетов. Модель начинает со случайных токенов-заполнителей и постепенно улучшает весь блок, обеспечивая самокоррекцию и двунаправленный контекст. Такая архитектура оказывается выгодной для задач с ограниченной генерацией, что подтверждается ее успехом в решении головоломок судоку. Несмотря на скорость, Google признает, что общее качество вывода DiffusionGemma ниже, чем у стандартной Gemma 4. Преимущество в скорости в основном проявляется при локальном выводе и в сценариях с низкой параллельностью, где вычислительные ресурсы GPU в изобилии. Для высокопроизводительного облачного обслуживания преимущества снижаются, и стандартные авторегрессионные модели остаются более эффективными. DiffusionGemma представляет собой смену парадигмы в генерации, фокусируясь на параллельном шумоподавлении блоков, а не на последовательном предсказании токенов.
Предприятия часто сталкиваются с трудностями при успешной реализации ИИ за пределами первоначальных прототипов, сталкиваясь с проблемами интеграции многообещающих идей в сложные реальные системы. Организация Capital One AI Foundations делает акцент на дисциплинированном подходе к исследованиям и разработкам, связывая фундаментальные исследования с практическими приложениями и оценивая идеи от концепции до производства. Этот подход решает проблему быстрой эволюции ИИ во фрагментированных и не склонных к риску корпоративных средах. Успех требует преодоления разрыва между передовыми исследованиями и реальными сценариями использования, обеспечения эффективной работы моделей с реальными производственными данными и тесными циклами обратной связи. Capital One строит свои команды по ИИ таким образом, чтобы они охватывали как фундаментальные исследования, так и прикладное решение проблем, объединяя их под одной крышей для ускорения обучения и учета реальных ограничений на ранних этапах. Эта интегрированная модель способствовала прогрессу в обнаружении мошенничества, улучшении цифрового пользовательского опыта и разработке клиентоориентированных технологий, связывая исследования с конкретными сценариями использования. Переход ИИ от концепции к производству требует тщательной оценки посредством функциональных доказательств концепции и реалистичных пилотных программ, которые рассматриваются как честные препятствия, а не гарантированные успехи. Производство — это совместная работа, включающая разработку программного обеспечения, науку, продукт, дизайн и операции, где крайне важны непрерывные измерения ключевых показателей эффективности, таких как точность и задержка. Устойчивые инновации в области ИИ также зависят от культуры, которая способствует осознанному риску и поощряет честную оценку и корректировку курса, а не наказывает за неудачи. Организации должны дать командам возможность учиться на ложных стартах и адаптироваться на основе данных. В конечном итоге, создание эффективного ИИ включает в себя продуманное руководство идеями от исследований к реальности посредством тщательной оценки, межфункционального сотрудничества и культуры, ориентированной на обучение. Лидеры должны инвестировать в процессы исследований и разработок и культурные основы, которые позволяют ответственным инновациям масштабироваться, обеспечивая долгосрочное влияние ИИ в реальном мире.
Запущен новый бенчмарк под названием Agents' Last Exam (ALE) для оценки способности ИИ выполнять экономически ценные профессиональные задачи с длительным горизонтом. Удивительно, но GPT-5.5 от OpenAI занял первое место с уровнем успешности 24,0%, обогнав модель Claude Fable 5 от Anthropic. ALE отличается от предыдущих бенчмарков тем, что оценивает ИИ на основе реалистичных рабочих процессов в пяти функциональных слоях: рассуждение, восприятие, оркестрация, вызов инструментов и среда выполнения. Он требует от агентов навигации по виртуальным машинам с использованием как команд терминала, так и графических интерфейсов, при этом более 90% оценки являются детерминированными и основанными на коде. Задачи бенчмарка взяты из реальных профессиональных историй и охватывают 55 отраслевых подотраслей, включая разработку программного обеспечения, 3D-моделирование и анализ данных. Сообщается, что текущие ведущие модели ИИ не справляются с этими аутентичными рабочими процессами с длительным горизонтом, а уровень успешности на самом сложном уровне составляет всего 0,0% для некоторых продвинутых конфигураций. ALE борется с загрязнением бенчмарка, сохраняя более 90% своих оценочных данных в частном доступе и постепенно выпуская задачи. Он также предлагает рейтинги "Полный" и "Без лицензии", чтобы различать производительность с доступом к проприетарному программному обеспечению и без него. Строгая кривая оценки бенчмарка обеспечивает проверку реальности для индустрии ИИ, подчеркивая, что даже ведущие модели имеют значительный потенциал для улучшения, прежде чем они будут готовы к профессиональной рабочей силе.
CdXz5zHNQW_uh8k3LCWo9.png
Обучение больших языковых моделей с нуля непомерно дорого, часто обходится в миллионы и требует огромных объемов данных масштаба Интернета. Sapient разработала HRM-Text, более экономичный подход, который использует иерархическую рекуррентную модель (HRM) вместо стандартных Трансформеров. HRM-Text обучается исключительно на парах "инструкция-ответ", отражая реальные сценарии использования в корпоративной среде. Этот метод обеспечивает эффективное обучение на малом количестве данных, позволяя создать HRM-Text с 1 миллиардом параметров на тщательно отобранном наборе данных за малую долю обычной стоимости. Модель демонстрирует производительность, конкурентоспособную с гораздо более крупными, устоявшимися открытыми моделями на ключевых отраслевых бенчмарках. Это нововведение означает, что фундаментальное предварительное обучение теперь доступно организациям с меньшими ресурсами. Основная неэффективность текущих LLM заключается в их опоре на грубую силу предсказания следующего токена, что приводит к пустой трате вычислительных ресурсов на запоминание данных из Интернета. Генеральный директор Sapient подчеркивает экономические ограничения текущих практик, где масштабирование моделей приводит к убывающей отдаче. Дообучение существующих моделей часто требует значительных объемов данных общего назначения, что делает его вычислительно затратным и трудным для контроля. Предприятиям с проприетарными данными нужны компактные ядра рассуждений, а не массивные модели общего назначения. HRM-Text разделяет вычисления на стратегический и исполнительный уровни, повышая эффективность. Архитектура обеспечивает стабильный семантический контекст и локальное итеративное уточнение. Sapient представила MagicNorm и метод "разогрева" для стабилизации обучения и предотвращения проблем с градиентами. Переход от предсказания следующего токена к выполнению задачи с парами "инструкция-ответ" является ключевым отличием. HRM-Text достиг впечатляющих результатов на бенчмарках со значительно меньшим объемом обучающих данных и вычислительных ресурсов. Эта эффективность означает, что компании могут развертывать специализированные модели рассуждений, которые используют внешние хранилища знаний вместо запоминания огромных наборов данных.
Генеральный директор Anthropic Дарио Амодеи выступает за государственное регулирование мощных моделей ИИ, сравнивая отрасль с коммерческой авиацией и ее надзором со стороны Федерального управления гражданской авиации США (FAA). Anthropic также опубликовала дорожные карты политики, касающиеся катастрофических рисков и влияния ИИ на рынок труда, подкрепленные значительным финансированием. Это происходит на фоне выпуска Anthropic передовых моделей ИИ, таких как Claude Fable 5 и Mythos 5. Амодеи подчеркивает, что растущие риски ИИ требуют перехода от общей прозрачности к точному регулированию. Руководители предприятий должны быть готовы к "задержкам развертывания в стиле FAA" для передовых моделей ИИ, что означает потенциальные регуляторные задержки или блокировки на основе стандартов безопасности. Это требует создания многомодельных архитектур, чтобы избежать привязки к поставщику и обеспечить непрерывность бизнеса. Кибербезопасность, связанная с разработкой ИИ, теперь является критически важной инфраструктурой. Компании должны защищать веса моделей как от внешних, так и от внутренних угроз, а также обеспечивать безопасность своих сред разработки ИИ. Экономическая политика Anthropic признает потенциал ИИ для широкомасштабного вытеснения рабочей силы, а не только повышения эффективности. Компания выделяет средства на исследование политических решений для экономической нестабильности. Предприятиям необходимо рассмотреть планы перехода рабочей силы для переобучения и перераспределения сотрудников, а не только сосредоточиться на увольнениях для экономии затрат. Это подготовит их к потенциальным государственным вмешательствам, таким как страхование заработной платы или стимулы для занятости. Эпоха быстрой, бесконтрольной разработки ИИ подходит к концу, уступая место эпохе строгого соблюдения требований и сложных корректировок рабочей силы.
CdXz5zHNQW_4v6SBFDct9.png
Команда MassMutual по корпоративному ИИ применяет уникальный подход к построению своей ИИ-инфраструктуры, уделяя особое внимание гибкости и адаптивности на быстро меняющемся рынке. Главный директор по информационным технологиям компании Сирс Мерритт объясняет, что мир ИИ чрезвычайно динамичен, и они хотят быть готовыми к этой волне динамизма. Для достижения этой цели MassMutual создает инфраструктуру, которая может заменять модели по мере изменения рынка, вместо того чтобы делать долгосрочные ставки на конкретные модели. Этот подход окупился: производительность разработчиков увеличилась на 30%, а время и затраты на решение задач значительно сократились. Компания работает с ведущими поставщиками, но ограничивает эти отношения по времени, чтобы сохранить возможность выбора лучших инструментов. MassMutual также изучает модели с открытым исходным кодом, при этом Мерритт заявляет, что его команда на 100% рассматривает инструменты с открытым исходным кодом. Усилия компании в области ИИ сосредоточены на расширении возможностей, углублении и фокусировке инициатив, с заранее определенными критериями успеха и акцентом на измерение результатов с самого начала. MassMutual собирает подробную аналитику по моделям использования, рабочим процессам разработчиков, производительности моделей и затратам для принятия решений по оптимизации. Компания использует систему оценки доверия для оценки качества ИИ, объединяя отзывы пользователей с операционными метриками, чтобы понять, как сотрудники воспринимают ответы, сгенерированные ИИ. Применяя продуманный и ориентированный на пользователя подход к построению своей ИИ-инфраструктуры, MassMutual удается опережать события и получать значительные преимущества для бизнеса.
CdXz5zHNQW_H5kBoc3n4H.png
На WWDC от Apple было объявлено о значительном сдвиге для корпоративных разработчиков, поскольку Siri трансформируется в системный ИИ-интерфейс. Новая Siri позволит пользователям напрямую взаимодействовать с контентом и данными приложений и выполнять действия с ними. Разработчики могут предоставлять данные и действия своих приложений через такие фреймворки, как App Intents, App Entities и App Schemas. Эта интеграция означает, что пользователи смогут просить Siri выполнять задачи в приложениях, не требуя от разработчиков создания отдельных интерфейсов чат-ботов. Spotlight будет функционировать как корпоративный поисковый механизм, семантически индексируя контент приложений для облегчения поиска. Разработчики получат новые инструменты тестирования для обеспечения надежности этих ИИ-управляемых действий в приложениях. Apple также расширяет свой стек для разработчиков ИИ, обновляя Foundation Models и добавляя новый фреймворк Core AI для выполнения моделей на устройстве. Новый фреймворк Evaluations призван обеспечить измеримую надежность функций ИИ. Корпоративные ИТ-отделы получат новые средства управления функциями Apple Intelligence и внешними ИИ-сервисами. Стратегия Apple сосредоточена на встраивании ИИ в операционную систему, уделяя особое внимание конфиденциальности с помощью обработки на устройстве и Private Cloud Compute. Однако по-прежнему требуются подробные гарантии управления и ясность в отношении аудита и границ данных. Первоначальная доступность будет ограничена возможностями оборудования, операционными системами и региональными нормативными актами, что может осложнить глобальное развертывание. Компания также представила изменения в App Store, включая унифицированное управление подписками для организаций. В целом, Apple создает комплексную экосистему ИИ для предприятий, встраивая ИИ в свою ОС и предоставляя разработчикам инструменты, а ИТ-отделам — возможности управления.
CdXz5zHNQW_qEhcdwevB5.png
Cohere выпустила North Mini Code, модель с открытым исходным кодом для агентных кодовых конвейеров. Эта модель "смесь экспертов" с 30 миллиардами параметров эффективно работает на одном H100 и идеально подходит для таких задач, как оркестрация суб-агентов и отображение архитектуры. Она может похвастаться большим контекстным окном в 256 000 токенов и максимальной длиной генерации в 64 000 токенов. North Mini Code специально разработана для рабочих процессов разработки программного обеспечения, включая интегрированное использование инструментов и чередующееся мышление. Она отлично справляется с анализом больших кодовых баз, отображением системных архитектур и проведением ревью кода. Кроме того, модель обучена для выполнения агентных задач на основе терминала, взаимодействия с командами оболочки и инструментами. Cohere обучила ее посредством контролируемой донастройки и обучения с подкреплением на разнообразных агентных каркасах. Несмотря на впечатляющую генерацию выходных токенов, она может быть более многословной, что приводит к более высоким затратам на вывод в сценариях с большим объемом. Этот выпуск представляет собой прямую альтернативу управляемым моделям, таким как Claude Fable 5, делая акцент на локальном развертывании и экономической эффективности. Предприятиям теперь необходимо учитывать целенаправленное обучение агентов и влияние многословности на затраты конвейера. Выбор между North Mini Code и управляемыми услугами представляет собой реальный компромисс между контролем затрат и накладными расходами на инфраструктуру.
Модели ИИ на устройстве были ограничены емкостью DRAM, что сдерживало их размер и возможности. Новые базовые модели Apple AFM 3 решают эту проблему, храня веса моделей в памяти NAND flash вместо DRAM. Семейство AFM 3 включает как модели на устройстве, так и серверные модели, разработанные в сотрудничестве с Google и работающие в рамках Apple Private Cloud Compute. AFM 3 Core Advanced на устройстве — это модель с 20 миллиардами параметров, использующая новую архитектуру для преодоления низкой пропускной способности NAND-to-DRAM. Вместо обработки каждого токена, она принимает решения о маршрутизации один раз за запрос. Это позволяет ей загружать конкретных "экспертов" из flash в DRAM для выполнения определенной задачи. Количество активных параметров может масштабироваться от 1 миллиарда до 4 миллиардов в зависимости от сложности запроса. Хотя технический отчет Apple подробно описывает дизайн памяти, отсутствует критически важная информация, касающаяся энергопотребления, тепловых ограничений и прозрачного выгрузки в облако. Этот пробел создает проблемы с соблюдением нормативных требований для регулируемых предприятий, которым необходимо документировать места выполнения выводов. Внедрение AFM 3 Core Advanced предлагает предприятиям значительно более мощный вариант ИИ на устройстве. Однако его масштабируемость зависит от дополнительных деталей, ожидаемых в предстоящем техническом отчете. Выбор между локальным и облачным выполнением выводов теперь становится более тонким архитектурным решением для бизнеса.
Anthropic выпустила две новые модели ИИ, Claude Fable 5 и Claude Mythos 5, представляющие их самые мощные возможности ИИ "класса Mythos". Fable 5, предназначенная для обычных пользователей и разработчиков, значительно превосходит предыдущие модели Claude в области разработки программного обеспечения, аналитической работы, научных исследований и выполнения длительных задач. Claude Mythos 5 предлагает менее ограниченные возможности, но доступна только одобренным Anthropic пользователям, включая партнеров по кибербезопасности и избранных исследователей. Основное отличие заключается в улучшенных функциях безопасности Fable 5, которые перенаправляют запросы высокого риска на более старую модель, чего нет в Mythos 5. Обе модели имеют общие базовые возможности, при этом Fable 5 включает дополнительный уровень защиты. Fable 5 доступна через веб-сайт Anthropic, приложения и API, в то время как Mythos 5 изначально ограничена существующими пользователями Mythos Preview. Обе модели стоят 10 долларов за миллион входных токенов и 50 долларов за миллион выходных токенов. Fable 5 демонстрирует замечательные улучшения в автономном кодировании, превосходя конкурентов по бенчмаркам и позволяя выполнять сложные задачи, такие как миграция больших кодовых баз. Она также показывает улучшенную производительность в аналитической работе, финансах, юриспруденции и операционных задачах, преуспевая в анализе документов и решении сложных проблем. Кроме того, Fable 5 обладает самыми сильными на сегодняшний день возможностями визуализации от Anthropic, позволяя выполнять такие задачи, как извлечение данных из научных диаграмм и восстановление кода приложений по скриншотам. Компания позиционирует эти модели для корпоративного использования, позволяя агентам ИИ выполнять более крупные и сложные проекты с большей автономией.
CdXz5zHNQW_mgnb08Mdu8.png
Чемпионат мира по футболу 2026 года станет масштабным глобальным событием, за которым, как ожидается, будут наблюдать миллиарды зрителей в разных странах. Значительная часть зрителей будет смотреть матчи онлайн, а не по традиционному телевидению. Однако современные браузеры часто обеспечивают неудобный и ненадежный опыт потокового вещания, омраченный буферизацией, поддельными ссылками и требованиями личных данных или подписок. Norton разработал Neo, новый браузер, призванный устранить эти проблемы, интегрировав защиту и доступ непосредственно в программное обеспечение. Neo призван обеспечить безопасный, бесперебойный и быстрый доступ к контенту, упрощая взаимодействие со зрителем. Исторически безопасность продавалась как отдельный продукт, но Neo меняет эту модель, делая браузер комплексным решением для безопасного потокового вещания. Мошенники уже нацеливаются на болельщиков Чемпионата мира с помощью фишинговых сайтов и поддельных предложений билетов, и подобные угрозы распространяются и на онлайн-трансляции. Neo проактивно блокирует вредоносные ссылки и обнаруживает мошенничество до того, как оно сможет нанести вред пользователям. Он также включает в себя технологию VPN и специальный виджет для легкого поиска легитимных потоковых ссылок для конкретного региона без сложной настройки. Браузер уделяет первостепенное внимание удобству использования, предугадывая такие потребности, как напоминания о матчах и предоставление кратких обзоров. Основная философия Neo — «спокойствие по замыслу», гарантирующая, что конфиденциальность и безопасность интегрированы в чистый интерфейс. Хотя Neo сталкивается с конкуренцией со стороны устоявшихся браузеров, он стремится упростить потоковое вещание для миллиардов потенциальных зрителей.
CdXz5zHNQW_yemYEjKzHo.png
Harness-1, поисковый агент с открытым исходным кодом, разработан исследователями из UIUC и UC Berkeley в сотрудничестве с Chroma. Этот агент с 20 миллиардами параметров, построенный на модели OpenAI gpt-oss-20B, переосмысливает подход ИИ к сложным задачам поиска. Он достиг впечатляющей точности извлечения в 73% на специально подобранном наборе данных, превзойдя даже GPT-5.4 и ведущие альтернативы с открытым исходным кодом. Важно отметить, что Harness-1 и связанный с ним код и веса немедленно доступны под разрешительной лицензией Apache 2.0 на Hugging Face. Разработка также демонстрирует эффективность Tinker, API для обучения и дообучения моделей ИИ. Успех Harness-1 обусловлен переносом задач учета из памяти модели в структурированную программную среду. Этот "внешний каркас состояния" действует как стол и картотека, позволяя ИИ сосредоточиться на исследованиях и рассуждениях. Традиционные поисковые агенты часто страдают от "амнезии поиска", пытаясь управлять всей информацией в пределах своего контекстного окна. Смена парадигмы Harness-1 доказывает, что эффективные среды являются ключом к автономии ИИ, а не только размер модели. Его конвейер обучения подчеркивает эффективность данных, используя новый подход, который значительно упрощает процесс обучения. Применимость модели в корпоративной среде огромна, предлагая производительность на передовом уровне при значительно сниженных затратах и задержках.
CdXz5zHNQW_PKgnndEjlV.png
Искусственный интеллект с агентскими возможностями ускоряет генерацию кода, но улучшение продукта не поспевает за этим, поскольку написание кода никогда не было основным узким местом. Реальные проблемы заключаются в определении требований, интеграции систем и поддержке программного обеспечения, что усугубляется увеличением объема кода, генерируемого ИИ. Неуправляемый код, сгенерированный ИИ, вводит новые узкие места в процессе человеческого обзора, что приводит к потере контекста и пропуску ошибок. Компаниям необходимо разработать намеренные планы действий, чтобы преодолеть эти проблемы, а не сразу сокращать штат сотрудников. Первая фаза, финансовое и рисковое управление, направлена на защиту от потенциальных рисков. Это предполагает рассмотрение управления как одного из наиболее важных рисков, установление общих стандартов для конфигурации агентов и обеспечение минимальных привилегий для нечеловеческих акторов, чтобы предотвратить пробелы в подотчетности. Кроме того, организации должны управлять своим бюджетом на ИИ, устанавливая квоты и ограничения скорости, чтобы избежать непомерных затрат. Вторая фаза, техническая стратегия, подчеркивает создание эффективного двигателя ИИ. Это включает в себя принятие много-модельного и много-vendorsкого подхода для использования сильных сторон каждой системы и избежания единственных точек отказа. Это также означает оплату моделей передового опыта, которые предлагают более качественный выход и большую эффективность, рассматривая ИИ как инженерную поддержку, а не просто расход. Важно измерять успех бизнес-результатами и инженерной прочностью, а не просто количеством строк кода или токенов. Третья фаза касается талантов и организации, реализуя реформирование человеческого капитала для новой ландшафта. Инженерам необходимо перейти от написания синтаксиса к системному мышлению и управлению агентами, сосредоточившись на архитектурном видении и интеграции между системами. Производительность и стимулы необходимо переопределить, чтобы вознаградить более широкое бизнес-воздействие и эффективное управление агентами, выходя за рамки традиционных метрик, основанных на объеме. Очень важно не сокращать штат сотрудников преждевременно, поскольку базовый уровень интегрированных агентских рабочих процессов и измеренного усиленного выхода необходим для понимания истинных потребностей и возможностей. В конечном итоге, ИИ является умножителем инженерной оценки, ускоряя поставку в хорошо структурированных системах, но ускоряя неудачи в плохо понятых. Текущая проблема не заключается в медленном принятии ИИ, а в принятии без понимания его ограничений и рисков. Для руководства понимание этой динамики имеет решающее значение, поскольку скорость выполнения в настоящее время опережает способность отрасли управлять последствиями, что приводит к операционным неудачам из-за плохо управляемого принятия.
CdXz5zHNQW_Zb9QDntpfN.png
Эта система эффективно переводила запросы на естественном языке в API-вызовы, обслуживая аналитиков и менеджеров аккаунтов, оптимизируя сборку данных из различных источников. Это достигалось путём отправки API-вызовов на интегрированные серверы, применения JSON-запроса, генерируемого LLM, для формирования ответов и доставки результатов через электронную почту, документы Drive или диаграммы браузера. К середине 2025 года он стал стандартным методом спонтанного поиска данных, генерируя несколько сотен отчетов ежемесячно для внутренних и внешних заинтересованных сторон. Основное взаимодействие основывалось на структурированном JSON-объектном контракте между LLM и системой. Первоначальные обновления модели с Claude Sonnet 3.5 до 4.0 прошли безупречно, что способствовало самодовольству в отношении стабильности LLM. Однако обновление Sonnet 4.5 вызвало две серьёзные проблемы. Во-первых, модель начала встраивать post_body содержимое в поле описания, что приводило к пустым параметрам фильтра для вызовов API, что приводило к широкому поиску данных или 500 ошибкам. Во-вторых, Sonnet 4.5 начал задавать уточняющие вопросы — функцию, для которой система, предназначенная для прямых вызовов API без человеческого взаимодействия или управления состоянием, не имела установленного пути. Эти сбои потребовали отката до Sonnet 4.0, что осложнялось новыми интеграциями API, квалифицированными для версии 4.5. Этот инцидент показывает, как системы, поддерживаемые LLM, противоречат традиционной инженерной дисциплине, поскольку внутренние компоненты не находятся под контролем разработчиков, что приводит к непредсказуемым «бесконечным радиусам взрыва» для изменений. Вскрытие выявило недостаточно определённую подсказку; предыдущие версии моделей подразумевали ограничения, которые Сонет 4.5, будучи более «полезным», нарушал. Авторы предлагают архитектуру «evaluat-first», где формальной спецификацией системы выступает набор оценок, а не подсказка. Оценки состоят из входных данных, необходимых выходных свойств и функции оценки для проверки изменений моделей или подсказок. Пример оценки проверял, содержит ли поле описания сериализованное содержимое полезной нагрузки. Хотя это дорого в производстве и обслуживании, оценки действуют как «ворота», ограничивая радиус взрыва за счёт плотного отбора входно-выходного поведения. Несмотря на свою полезность, оценки не являются панацеей; они могут фиксировать только определённые режимы отказа и вводить собственную дисперсию с помощью LLM-as-judge. Инженерное сообщество по-прежнему не имеет стандартов для покрытия оценки в естественном языке и систем CI/CD для вероятностных тестов. Сокращение разрыва между прохождением дымовых тестов и предсказанием поведения производства, особенно по мере того, как агенты становятся более автономными, — это критически важная инженерная задача. Команды, которые отдают приоритет оценкам как истинной спецификации системы, будут лучше всего подготовлены к решению этой задачи.
CdXz5zHNQW_oNfqHIhUqm.png
Стратегия Microsoft в области искусственного интеллекта выходит за рамки эксклюзивного партнерства с OpenAI. Недавнее изменение в контракте позволяет Microsoft AI реализовывать собственные инициативы по созданию "суперинтеллекта", используя собственные ресурсы. Об этом свидетельствует анонс семейства MAI, состоящего из семи разработанных внутри компании моделей ИИ. Эти модели, охватывающие различные возможности, такие как рассуждение и создание изображений, обучены с нуля на лицензированных данных, что отличает их от отраслевых тенденций дистилляции. Модели MAI предназначены для корпоративного развертывания и могут быть доработаны разработчиками на сторонних платформах. Генеральный директор Microsoft Мустафа Сулейман подчеркивает, что эти модели являются доказательством концепции для более масштабной миссии: создания лучших в мире моделей ИИ к 2030 году. Предыдущее партнерство с OpenAI ограничивало независимые исследования и разработку моделей ИИ компанией Microsoft. Теперь Microsoft стремится к самодостаточности, сохраняя при этом ценность существующих отношений с поставщиками ИИ. Компания переключает свое внимание с разговорного ИИ на автономные ИИ-агенты, способные выполнять сложные задачи в различных корпоративных программах. Microsoft считает, что ее встроенное положение в корпоративных рабочих процессах уникально позиционирует ее для обучения будущих моделей ИИ на проприетарных данных, что дает ей значительное конкурентное преимущество.