Новая платформа оптимизации ИИ превосходит Claude Code и Codex в 2,5 раза при том же бюджете вычисле

Новая платформа оптимизации ИИ превосходит Claude Code и Codex в 2,5 раза при том же бюджете вычислений.

Агенты ИИ, разработанные для выполнения сложных задач, таких как поиск во внутренних документах, часто допускают галлюцинации или упускают критические ограничения в производственной среде. Это требует утомительного процесса проб и ошибок для исправления, что затрудняет точное определение причин улучшений. Arbor, новая структура от Университета Жэньминь в Китае и Microsoft Research, превращает это в кумулятивный процесс обучения. Она организует гипотезы, эксперименты и выводы в древовидную структуру, позволяя системе учиться на прошлых неудачах. Практические тесты Arbor показали более чем в 2,5 раза большую подтвержденную производительность по сравнению со стандартными ИИ-агентами для кодирования. Автономная оптимизация (AO) является фундаментальным циклом исследований ИИ, направленным на итеративное улучшение артефакта на основе обратной связи от экспериментов. Основная проблема с AO заключается в том, что простое увеличение вычислительной мощности не гарантирует прогресса. Современные системы агентов рассматривают каждую попытку изолированно, не имея механизмов для накопления и использования полученной информации. Им трудно одновременно поддерживать и сравнивать несколько направлений исследований, что препятствует их способности интерпретировать результаты и формировать будущие исследования, подобно тому, как это делают люди. Общие агенты для кодирования часто теряют фактические данные за долгую историю из-за ограничений контекстного окна, что приводит к застою в прогрессе или погоне за незначительными улучшениями. Arbor решает эти проблемы, разделяя направление исследований и задачи кодирования с помощью координатора и исполнителей. Координатор управляет общим состоянием исследований, генерирует гипотезы и анализирует результаты. Исполнители — это краткоживущие агенты, которые тестируют отдельные гипотезы в изолированных средах и сообщают о результатах. Это сотрудничество, называемое Уточнением Дерева Гипотез (HTR), структурирует исследовательский процесс как постоянное, разветвленное дерево гипотез, доказательств и выводов. Arbor применяет строгий "шлюз слияния" для предотвращения взлома вознаграждений, гарантируя, что улучшения проверяются на отложенных тестовых данных перед их интеграцией. Хотя выходные данные Arbor интегрируются с существующими рабочими процессами Git, его основная стоимость заключается в потреблении токенов долгоживущим координатором и вычислительных ресурсах для изолированных рабочих областей. Arbor преуспевает в задачах с четкими метриками и длительными временными горизонтами, но не подходит для задач реального времени или задач с ошибочными метриками оценки.

New AI optimization framework beats Claude Code and Codex by 2.5x on the same compute budget venturebeat.com

RSS Hunter • 18 июн.