惊喜 upset:GPT-5.5 在残酷的新版"Agents... 笔记

惊喜 upset:GPT-5.5 在残酷的新版"Agents' Last Exam"基准测试中击败 Claude Fable 5

一项名为"Agents' Last Exam"(ALE)的新基准测试已发布,旨在评估人工智能执行具有经济价值、长周期专业任务的能力。令人意外的是,OpenAI 的 GPT-5.5 以 24.0% 的通过率位居榜首,超越了 Anthropic 的 Claude Fable 5 模型。与以往基准不同,ALE 通过在五个功能层(推理、感知、编排、工具调用和运行时底层)上对人工智能进行真实工作流评估来体现其差异。该基准要求智能体同时使用终端命令和图形界面在虚拟机中导航,其中超过 90% 的评分基于确定性代码。基准的任务源自真实的专业历史,涵盖 55 个行业子领域,包括软件开发、3D 建模和数据分析。据报道,当前领先的 AI 模型在这些真实、长周期的工作流中表现不佳,部分高级配置的最难层级通过率低至 0.0%。为应对基准污染问题,ALE 将超过 90% 的评估数据保密,并逐步发布任务。此外,它提供“完整版”和“未授权版”排行榜,以区分有无专有软件访问权限下的性能表现。该基准严格的评分曲线为 AI 行业提供了现实检验,凸显出即使是最先进的模型,在投入专业 workforce 之前仍有显著的提升空间。
CdXz5zHNQW_uh8k3LCWo9.png