새로운 AI 최적화 프레임워크, 동일 컴퓨팅 예산으로 Claude Code 및 Codex 대비 2.5배 성능 향상

팔로우

새로운 AI 최적화 프레임워크, 동일 컴퓨팅 예산으로 Claude Code 및 Codex 대비 2.5배 성능 향상

내부 문서를 검색하는 것과 같은 복잡한 작업을 위해 설계된 AI 에이전트는 프로덕션 환경에서 종종 환각을 일으키거나 중요한 제약 조건을 놓칩니다. 이는 수정하기 위해 지루한 시행착오 과정을 필요로 하며, 개선의 정확한 원인을 파악하기 어렵게 만듭니다. 중국 인민대학교와 Microsoft Research의 새로운 프레임워크인 Arbor는 이를 누적 학습 과정으로 전환합니다. 가설, 실험 및 통찰력을 트리 구조로 구성하여 시스템이 과거의 실패로부터 학습할 수 있도록 합니다. Arbor의 실질적인 테스트는 표준 AI 코딩 에이전트의 검증 가능한 성능 향상보다 2.5배 이상 높은 결과를 보여주었습니다. 자율 최적화(AO)는 실험 피드백을 기반으로 아티팩트를 반복적으로 개선하는 것을 목표로 하는 AI 연구의 근본적인 루프입니다. AO의 주요 과제는 단순히 컴퓨팅 파워를 늘리는 것만으로는 진전을 보장할 수 없다는 것입니다. 현재 에이전트 시스템은 각 시도를 개별적으로 처리하며, 학습된 정보를 축적하고 활용할 메커니즘이 부족합니다. 이들은 여러 연구 방향을 동시에 유지하고 비교하는 데 어려움을 겪으며, 인간처럼 결과를 해석하고 미래 탐색을 재구성하는 능력을 저해합니다. 일반 코딩 에이전트는 컨텍스트 창 제한으로 인해 긴 기록에서 사실적 증거를 자주 잃어버려, 진전이 정체되거나 관련 없는 개선을 추구하게 됩니다. Arbor는 코디네이터와 실행자를 사용하여 연구 방향을 코딩 작업과 분리함으로써 이러한 문제를 해결합니다. 코디네이터는 전반적인 연구 상태를 관리하고, 가설을 생성하며, 결과를 분석합니다. 실행자는 격리된 환경에서 개별 가설을 테스트하고 결과를 보고하는 단기 에이전트입니다. 가설 트리 정제(HTR)라고 불리는 이 협업은 가설, 증거 및 통찰력의 지속적이고 분기되는 트리로 연구 과정을 구조화합니다. Arbor는 보상 해킹을 방지하기 위해 엄격한 "병합 게이트"를 시행하여, 개선 사항이 통합되기 전에 보류된 테스트 데이터에 대해 검증되도록 합니다. Arbor의 출력은 기존 Git 워크플로와 통합되지만, 주요 비용은 장기 실행 코디네이터의 토큰 소비와 격리된 작업 트리(worktree)에 대한 컴퓨팅 리소스입니다. Arbor는 명확한 지표와 긴 시간 범위를 가진 작업에 뛰어나지만, 실시간 작업이나 결함 있는 평가 지표에는 적합하지 않습니다.

New AI optimization framework beats Claude Code and Codex by 2.5x on the same compute budget venturebeat.com

RSS Hunter • 6월 18일