“智能体最后的考试”，Fable 5竟然不敌GPT 5.5_健康_健康资讯

没想到打脸来得如此之快！！

刚刚，UC伯克利放出了一场号称“智能体最后的考试”的全新基准测试。

它把当今最强的AI Agent们拉到考场上，让它们干真正的活——

在Siemens NX里建3D模型、在Unreal Engine里搭游戏场景、在Adobe After Effects里做特效合成。

结果成绩令人傻眼：

最难的一档，当今公认最强的Claude Fable 5、GPT 5.5，全是大写的零蛋。

你说难度稍微放低一点呢？分数倒是有了，但结果也相当令人意外——

GPT 5.5竟然还小胜了Claude Fable 5。

我没听错吧，A家刚发布的最强模型Claude Fable 5，被几个月前的GPT 5.5打败了？？

要知道在此前几乎所有主流benchmark上，Fable 5对GPT 5.5都是碾压级别的存在——SWE-Bench Pro上80.3%对58.6%，Humanity’s Last Exam上64.5%对52.2%。

但换到这场“真干活”的考试里，局面却反了过来。

这个新基准叫Agents’ Last Exam（ALE），背后团队来头不小，之前MMLU、MATH、CyberGym、ExploitGym这些你耳熟能详的基准都是他们提的。

取这个名估计也是参考之前Scale AI那个“Humanity’s Last Exam”（人类最后的考试），只不过这次被考的不是人类知识的极限，而是AI Agent干活的极限。

该说不说，这个测评一出来，以前天天喊着“Agent要取代人类工作”的人，这下是真干沉默了…

“智能体最后的考试”，赢家竟是GPT 5.5！

先看完整排行榜。

从最核心的任务通过率指标来看，GPT 5.5直接包揽冠亚军：

第1名是GPT 5.5搭配OpenAI自家的Codex框架，通过率24.0%。

第2名还是GPT-5.5，只不过换了ALE Claw框架，通过率23.0%。

（ALE Claw是团队自己写的一个baseline Agent，跟Codex、Claude Code、Cursor CLI这些商业框架并列参赛）

直到第3名，我们才看到Claude Fable 5的身影——搭配Claude Code，拿下22.0%的通过率。

往下看更有意思。

第4、第5、第8名全是GPT 5.5，只是换了不同的框架。

前10名里GPT 5.5出场了5次，加上第6名的GPT 5.4，OpenAI模型直接占了6席。

而Claude家族呢？

Fable 5拿了第3，Opus 4.7第9（18.4%），Opus 4.8垫底第10（15.8%），不敌之势一目了然。

也不怪OpenAI研究员喜庆发帖，欢欢喜喜过大年了：

而在成绩之外，这里还有这样几个值得细品的信号。

一是天花板低得惊人。

冠军通过率才24%，综合得分最高也不过45.8%。

意思是，就算按最宽松的“部分得分”算，最强的Agent也只能拿到不到一半的分。

而这些题全部来自真人专家已经完成的项目——人类专家的完成率理论上就是100%。

二是Claude烧钱烧得惊人。

这张榜单新增了一列“Estimated Total Cost”，一下子把贫富差距拉出来了：

Fable 5跑完全部任务花了2315美元，Opus 4.8花了1838美元，Opus 4.7也要1144美元。

而GPT-5.5这边呢？

最贵的Codex也就566美元，Cursor CLI只要174美元。

等于说，Fable 5花了Codex四倍多的钱，成绩还低了两个百分点。

三是效率差距同样触目。

Ale Claw跑完全部任务花了47小时20分钟，Cursor CLI只花了67小时。

而Opus 4.8呢？451小时——将近19天。

干的活最少，花的时间最长，收的钱最多（居然真有模型能同时做到？）

当然如果只看Claude Fable 5、GPT 5.5这两个最顶的，GPT 5.5的时间优势依旧明显。

而最扎眼的数字，还是那个零。

ALE把任务分成了三个难度档：

Near-Term（近期可解）

Full-Spectrum（全面覆盖）

Last-Exam（终极难题）

在最难这一档，所有主流配置的平均通过率只有2.6%，包括GPT 5.5和Fable 5在内的大多数模型直接吃了零蛋。

所以这张成绩单的核心信息很简单：别看平时考试成绩好，一到真干活全露馅了。

答题学霸≠干活能手，这话在AI世界也一样适用。

什么是ALE？

要理解ALE为什么能把这帮“学霸”打回原形，得先看它跟以前的考试有什么不一样。

之前的Humanity’s Last Exam（HLE）是2025年初由Dan Hendrycks和Scale AI搞出来的，2500道跨学科难题，本质上还是闭卷答题——

给你一个问题，你给我一个答案，再难也是静态的知识检索。

而ALE完全不同，它考你“能干什么”。

核心作者Yiyou Sun在

科氪 | 两轮电动车没有天花板，爱玛黑翼要用AI与硬核科技赢得年轻男性的心
0评论2026-06-18

蔚来补上“智驾课”，任少卿总结：智驾技术创新将重构竞争
0评论2026-06-18

美国AI狂飙，亚洲抢先吃饱
0评论2026-06-18

在世界杯创造历史的，除了梅西还有一群无名之辈
0评论2026-06-18

三星、SK海力士等5家巨头，吸干了整个韩国？

一边是AI热潮推动半导体出口狂飙，另一边则是传统制造业深陷寒冬，韩国经济呈现出鲜明的“冰火两重天”现象。今年一季度，三星电子和SK海力士等五大龙头企业出口额占韩国总出口的比重首次突破40%，增量贡献率更是高达82.8%。半导体出口同比飙升139%，直接推动KOSPI指数创下历史新高，SK海力士市值更是突破1万亿美元大关。然而，在这片繁荣之下，钢铁、汽车、石化等传统产业却普遍下滑，零售消费和设备投资

0评论2026-06-185

河南制造，新质崛起
0评论2026-06-18

马斯克花600亿美元，买了个中国模型底座的代码编辑器
0评论2026-06-18

「治未病」从口号变成生意，为什么智能戒指是关键入口？
0评论2026-06-18

氪星晚报｜BilibiliWorld 2026成国内首个海外售票的综合性ACG展会；让AI走进千家万户，17项举措推进“人工智能+消费”发展；快舟十一号遥十三运载火箭发射成功

大公司：滴滴自动驾驶参加伦敦MOVE 2026大会6月17至18日，MOVE 2026大会在英国伦敦召开，滴滴自动驾驶在会上分享了来自中国的自动驾驶落地实践。在AI技术方面，滴滴自动驾驶已实现L4级全栈核心技术的自主可控；硬件方面，与广汽埃安联合打造的新一代Robotaxi车型R2已于今年1月交付，正持续在广州和北京等地开展道路测试；在场景应用上，自去年四季度在广州、北京部分示范应用区域开启全天候

0评论2026-06-183

首届机器人智能感知峰会在京举办，金钢科技重磅发布三编码器产品
0评论2026-06-18