Сенсационное поражение: GPT-5.5 побеждает Claude Fable 5 на жестком новом бенчмарке Agents' Last Exa

Сенсационное поражение: GPT-5.5 побеждает Claude Fable 5 на жестком новом бенчмарке Agents' Last Exam

Запущен новый бенчмарк под названием Agents' Last Exam (ALE) для оценки способности ИИ выполнять экономически ценные профессиональные задачи с длительным горизонтом. Удивительно, но GPT-5.5 от OpenAI занял первое место с уровнем успешности 24,0%, обогнав модель Claude Fable 5 от Anthropic. ALE отличается от предыдущих бенчмарков тем, что оценивает ИИ на основе реалистичных рабочих процессов в пяти функциональных слоях: рассуждение, восприятие, оркестрация, вызов инструментов и среда выполнения. Он требует от агентов навигации по виртуальным машинам с использованием как команд терминала, так и графических интерфейсов, при этом более 90% оценки являются детерминированными и основанными на коде. Задачи бенчмарка взяты из реальных профессиональных историй и охватывают 55 отраслевых подотраслей, включая разработку программного обеспечения, 3D-моделирование и анализ данных. Сообщается, что текущие ведущие модели ИИ не справляются с этими аутентичными рабочими процессами с длительным горизонтом, а уровень успешности на самом сложном уровне составляет всего 0,0% для некоторых продвинутых конфигураций. ALE борется с загрязнением бенчмарка, сохраняя более 90% своих оценочных данных в частном доступе и постепенно выпуская задачи. Он также предлагает рейтинги "Полный" и "Без лицензии", чтобы различать производительность с доступом к проприетарному программному обеспечению и без него. Строгая кривая оценки бенчмарка обеспечивает проверку реальности для индустрии ИИ, подчеркивая, что даже ведущие модели имеют значительный потенциал для улучшения, прежде чем они будут готовы к профессиональной рабочей силе.

Surprise upset: GPT-5.5 beats Claude Fable 5 on brutal new Agents’ Last Exam benchmark venturebeat.com

RSS Hunter • 10 июн.