RSS VentureBeat
팔로우
깜짝 반전: GPT-5.5, 잔혹한 신규 Agents’ Last Exam 벤치마크에서 Claude Fable 5를 제치다
경제적으로 가치 있는 장기 전문 작업을 수행하는 AI의 능력을 평가하기 위해 Agents' Last Exam(ALE)이라는 새로운 벤치마크가 출시되었습니다. 놀랍게도 OpenAI의 GPT-5.5가 24.0%의 합격률로 1위를 차지하며 Anthropic의 Claude Fable 5 모델을 능가했습니다. ALE는 추론, 인식, 오케스트레이션, 도구 호출, 런타임 서브스트레이트의 다섯 가지 기능 계층에 걸쳐 현실적인 워크플로우에서 AI를 평가함으로써 이전 벤치마크와 차별화됩니다. 이 벤치마크는 에이전트가 터미널 명령과 그래픽 인터페이스를 모두 사용하여 가상 머신을 탐색하도록 요구하며, 채점의 90% 이상이 결정론적이고 코드 기반입니다. 벤치마크의 작업은 실제 전문 이력에서 가져왔으며 소프트웨어 개발, 3D 모델링, 데이터 분석을 포함한 55개의 산업 하위 도메인을 다룹니다. 현재 최고의 AI 모델은 이러한 실제 장기 워크플로우에서 실패하고 있으며, 일부 고급 구성의 경우 가장 어려운 계층의 합격률이 0.0%까지 낮다고 보고되었습니다. ALE는 평가 데이터의 90% 이상을 비공개로 유지하고 작업을 점진적으로 공개함으로써 벤치마크 오염에 대응합니다. 또한 독점 소프트웨어 액세스 유무에 따른 성능을 구별하기 위해 "Full" 및 "Unlicensed" 리더보드를 제공합니다. 벤치마크의 엄격한 채점 곡선은 AI 산업에 현실 점검을 제공하며, 선도적인 모델조차도 전문 인력 준비 전에 상당한 개선의 여지가 있음을 강조합니다.