没想到打脸来得如此之快!!
刚刚,UC伯克利放出了一场号称“智能体最后的考试”的全新基准测试。
它把当今最强的AI Agent们拉到考场上,让它们干真正的活——
在Siemens NX里建3D模型、在Unreal Engine里搭游戏场景、在Adobe After Effects里做特效合成。
结果成绩令人傻眼:
最难的一档,当今公认最强的Claude Fable 5、GPT 5.5,全是大写的零蛋。
你说难度稍微放低一点呢?分数倒是有了,但结果也相当令人意外——
GPT 5.5竟然还小胜了Claude Fable 5。
我没听错吧,A家刚发布的最强模型Claude Fable 5,被几个月前的GPT 5.5打败了??
要知道在此前几乎所有主流benchmark上,Fable 5对GPT 5.5都是碾压级别的存在——SWE-Bench Pro上80.3%对58.6%,Humanity’s Last Exam上64.5%对52.2%。
但换到这场“真干活”的考试里,局面却反了过来。
这个新基准叫Agents’ Last Exam(ALE),背后团队来头不小,之前MMLU、MATH、CyberGym、ExploitGym这些你耳熟能详的基准都是他们提的。
取这个名估计也是参考之前Scale AI那个“Humanity’s Last Exam”(人类最后的考试),只不过这次被考的不是人类知识的极限,而是AI Agent干活的极限。
该说不说,这个测评一出来,以前天天喊着“Agent要取代人类工作”的人,这下是真干沉默了…
“智能体最后的考试”,赢家竟是GPT 5.5!
先看完整排行榜。
从最核心的任务通过率指标来看,GPT 5.5直接包揽冠亚军:
第1名是GPT 5.5搭配OpenAI自家的Codex框架,通过率24.0%。
第2名还是GPT-5.5,只不过换了ALE Claw框架,通过率23.0%。
(ALE Claw是团队自己写的一个baseline Agent,跟Codex、Claude Code、Cursor CLI这些商业框架并列参赛)
直到第3名,我们才看到Claude Fable 5的身影——搭配Claude Code,拿下22.0%的通过率。
往下看更有意思。
第4、第5、第8名全是GPT 5.5,只是换了不同的框架。
前10名里GPT 5.5出场了5次,加上第6名的GPT 5.4,OpenAI模型直接占了6席。
而Claude家族呢?
Fable 5拿了第3,Opus 4.7第9(18.4%),Opus 4.8垫底第10(15.8%),不敌之势一目了然。
也不怪OpenAI研究员喜庆发帖,欢欢喜喜过大年了:
而在成绩之外,这里还有这样几个值得细品的信号。
一是天花板低得惊人。
冠军通过率才24%,综合得分最高也不过45.8%。
意思是,就算按最宽松的“部分得分”算,最强的Agent也只能拿到不到一半的分。
而这些题全部来自真人专家已经完成的项目——人类专家的完成率理论上就是100%。
二是Claude烧钱烧得惊人。
这张榜单新增了一列“Estimated Total Cost”,一下子把贫富差距拉出来了:
Fable 5跑完全部任务花了2315美元,Opus 4.8花了1838美元,Opus 4.7也要1144美元。
而GPT-5.5这边呢?
最贵的Codex也就566美元,Cursor CLI只要174美元。
等于说,Fable 5花了Codex四倍多的钱,成绩还低了两个百分点。
三是效率差距同样触目。
Ale Claw跑完全部任务花了47小时20分钟,Cursor CLI只花了67小时。
而Opus 4.8呢?451小时——将近19天。
干的活最少,花的时间最长,收的钱最多(居然真有模型能同时做到?)
当然如果只看Claude Fable 5、GPT 5.5这两个最顶的,GPT 5.5的时间优势依旧明显。
而最扎眼的数字,还是那个零。
ALE把任务分成了三个难度档:
Near-Term(近期可解)
Full-Spectrum(全面覆盖)
Last-Exam(终极难题)
在最难这一档,所有主流配置的平均通过率只有2.6%,包括GPT 5.5和Fable 5在内的大多数模型直接吃了零蛋。
所以这张成绩单的核心信息很简单:别看平时考试成绩好,一到真干活全露馅了。
答题学霸≠干活能手,这话在AI世界也一样适用。
什么是ALE?
要理解ALE为什么能把这帮“学霸”打回原形,得先看它跟以前的考试有什么不一样。
之前的Humanity’s Last Exam(HLE)是2025年初由Dan Hendrycks和Scale AI搞出来的,2500道跨学科难题,本质上还是闭卷答题——
给你一个问题,你给我一个答案,再难也是静态的知识检索。
而ALE完全不同,它考你“能干什么”。
核心作者Yiyou Sun在