惊喜 upset：GPT-5.5 在残酷的新版"Agents' Last Exam"基准测试中击败 Claude Fable 5

关注

惊喜 upset：GPT-5.5 在残酷的新版"Agents' Last Exam"基准测试中击败 Claude Fable 5

一项名为"Agents' Last Exam"（ALE）的新基准测试已发布，旨在评估人工智能执行具有经济价值、长周期专业任务的能力。令人意外的是，OpenAI 的 GPT-5.5 以 24.0% 的通过率位居榜首，超越了 Anthropic 的 Claude Fable 5 模型。与以往基准不同，ALE 通过在五个功能层（推理、感知、编排、工具调用和运行时底层）上对人工智能进行真实工作流评估来体现其差异。该基准要求智能体同时使用终端命令和图形界面在虚拟机中导航，其中超过 90% 的评分基于确定性代码。基准的任务源自真实的专业历史，涵盖 55 个行业子领域，包括软件开发、3D 建模和数据分析。据报道，当前领先的 AI 模型在这些真实、长周期的工作流中表现不佳，部分高级配置的最难层级通过率低至 0.0%。为应对基准污染问题，ALE 将超过 90% 的评估数据保密，并逐步发布任务。此外，它提供“完整版”和“未授权版”排行榜，以区分有无专有软件访问权限下的性能表现。该基准严格的评分曲线为 AI 行业提供了现实检验，凸显出即使是最先进的模型，在投入专业 workforce 之前仍有显著的提升空间。

Surprise upset: GPT-5.5 beats Claude Fable 5 on brutal new Agents’ Last Exam benchmark venturebeat.com

AI and ML News on Bluesky @ai-news.at.thenote.app bsky.app

RSS Hunter • 6月10日