Transformer亲爹痛斥：当前AI陷死胡同，微调纯属浪费时间！_健康_健康资讯

【新智元导读】Transformer曾是AI革命的巅峰之作，但其发明者Llion Jones警告：它并非终点。就像RNN被取代一样，当前无数微调研究可能只是局部优化，而真正的AGI突破或藏在生物启发的全新架构中。

Transformer是AI的终点吗？

不是，绝对不是。

那Scaling是唯一通向AGI的路径吗？

在Transformer架构上研究最久的人，告诉你：不是。

Sakana AI的创始人、研究科学家Llion Jones，和其他7位合著者，一起发明了Transformer。

除了那七位共同作者，没有人比他在Transformer上的研究更久。

尽管如此，去年，他做出了一个重要决定：大幅减少自己在Transformer上的研究投入。

不是因为这个领域没有新鲜事，而是因为它已经被挤得水泄不通。

他直言，他成了自己成功的受害者：

我不认为Transformer就是终点，也不相信我们只需要继续无限扩大规模。

某一天，我们会再次迎来突破，然后回头发现，现在很多研究其实在白白浪费时间。

Transformer或重演RNN的悲剧

在Transformer出现之前，RNN是主流。

RNN的确是AI历史上的重大突破。

突然间，所有人都开始致力于改进RNN。

但结果总是对同一架构做些微调，比如把门控单元换个位置，将语言建模的性能提升到 1.26、1.25 比特每字符。

在Transformer出现后，当我们把非常深的仅解码器Transformer应用于同一任务时，立刻就达到了1.1 比特/字符。

于是，所有关于RNN的研究突然之间显得白费了。

而现在的论文，似乎又回到了老路子：在同一个架构上，做无数微小的改动——比如调整normalization层的位置，或略微改良训练方式。

2020年，时任谷歌DeepMind的研究员Sarah Hooker提出了「硬件彩票」：

通往AGI的道路不止一条，深度神经网络刚好碰上了GPU这样的硬件彩票。

论文链接：https://hardwarelottery.github.io/

「硬件彩票」这一术语，描述了某种研究思路之所以胜出，是因为它恰好契合现有的软件和硬件条件，而非因为该思路在所有备选研究方向中具有普遍优越性。

而Llion Jones则认为，Transformer是一种架构彩票，而业界恐怕重蹈RNN的覆辙。

哪怕已经有一些架构在论文中表现得比Transformer还好。但问题在于，新架构还不足够好到让整个行业放弃Transformer。

原因很现实：大家对Transformer的理解已经非常成熟，训练方法、微调方式、配套软件工具一应俱全。

你要大家从头换一套，除非新架构好到「碾压式胜出」，否则不可能。

Transformer取代RNN，是因为差距大到无法忽视。

深度学习的兴起也是一样。曾经大家还相信符号主义更靠谱，直到神经网络在图像识别上展现出压倒性的优势。

Llion Jones认为Transformer太成功了，反而让大家陷入了「陷阱」：

这就像有个巨大的「重力井」，所有尝试离开的新方法都会被拉回来。

哪怕你真的做出了一个效果更好的新架构，只要OpenAI再把Transformer扩大十倍，那你的成果就被比下去了。

现在的LLM并非通用智能

Llion Jones进一步指出，目前的大语言模型并非通用智能，呈现出「锯齿状智能」（jagged intelligence）的特性。

也就是说，它们能在某些任务上表现得像天才一样，但转眼就能犯出低级错误，让人出戏。

它刚才还解出了一个博士级的问题，下一秒却说出一个连小学生都不会错的答案，这种反差非常刺眼。

他认为，这其实揭示了当前架构中某种根本性的问题。

问题在于，它们太「万金油」了。

你可以让它们做任何事，只要训练足、调参准。

但正因为这样，我们反而忽视了关键问题──「有没有更好的方式来表示知识、思考问题」。

现在，大家把所有东西都往Transformer里堆，把它当成万用工具来用，缺什么功能，就往上面硬加模块。

我们明明知道要有不确定性建模、要有自适应计算能力，但我们却选择把这些特性外挂上去，而不是从架构本身去重新思考。

为了逃脱这个循环，Jones在2025年初大幅减少Transformer相关研究，转向更具探索性的方向。

他和Sakana AI的同事Luke Darlow等人，借鉴生物学和自然启发，设计了连续思维机（Continuous Thought Machines，CTM）。

传送门：https://sakana.ai/ctm/

这不是天马行空的发明，而是对大脑运作的简化模拟。

大脑里的神经元不是静态的开关，而是通过同步振荡来传递信息。

CTM捕捉了这个精髓：它用神经动态作为核心表示，让模型在「内部思考维度」上逐步展开计算。

他说，「我们并没有追求完全生物学可行性，因为大脑并不是靠有线方式让所有神经元同步的。但这种思路带来了全新的研究可能。」

重要的是，他们在做这项研究时，并没有任何学术圈常见的「抢发压力」。

因为没人做这个方向。他们有充分的时间去打磨这篇论文，把研究做实，把对照实验做足。

他希望这项研究能成为一个「示范案例」，鼓励其他研究者去尝试那些看似风险高、但更可能通向下一个大突破的研究方向。

后人哀之而不鉴之

这是近期AI领域最坦诚的言论之一。

Llion Jones承认，当前多数研究可能只是在局部最优解上修修补补，而真正的突破或许在完全不同的方向。

他对此深有体会——毕竟他曾亲手让上一代研究者的成果黯然失色。

令人不安的是：如果他是对的，那么所有埋头改进Transformer变体的人都在浪费时间。

所有混合专家模型、所有架构微调、所有注意力机制变体——都可能在新范式出现时瞬间过时。

但陷阱在于：除非有人真正突破，否则你永远无法确定自己是否困在局部最优里。

身在局中时，一切看似都是进步。直到Transformer出现前，RNN的改进不也看起来势不可挡吗？

同样， Ilya近期也评论道，仅靠Scaling当前架构并不足以实现AGI：

Scaling时代的一个后果是：Scaling吸走了房间里所有的氧气。

正因如此，所有人开始做同样的事。我们走到了今天这个局面——公司数量多于创新电子的世界。

那么该如何抉择？

Llion Jones并未声称知道未来方向，只是坦言Transformer可能不是长期答案。这很诚实，却缺乏可操作性。

这个难题在于：每次范式转移，在事后看来都像是徒劳，但在当时却是必要的探索。我们无法跳过这个阶段，只能祈祷有人能更快找到出口。

更多阅读：

Transformer已死？DeepMind正在押注另一条AGI路线

谷歌祭出Transformer杀手，8年首次大突破！掌门人划出AGI死线

终结Transformer统治！清华姚班校友出手，剑指AI「灾难性遗忘」

一封来自Transformer之父的分手信：8年了！世界需要新的AI架构

参考资料：

https://www.youtube.com/watch?v=DtePicx_kFY&t=1s

本文来自微信公众号“新智元”，作者：新智元，36氪经授权发布。

贝壳联合创始人连续两年捐年薪，年薪变守护金
0评论2026-04-26

贾跃亭，到账230亿

贾跃亭，又有新的融资到账。近日，法拉第未来宣布获得美国某机构投资者4500万美元新融资，加上这笔钱，FF成立至今累计融资已达约32.1亿美元，折合人民币230亿元。就在融资落地不到一个月前，困扰FF长达四年的SEC调查正式宣告终结，且未对公司或任何相关高管采取任何执法行动。监管阴影散去，主流机构投资者重新愿意坐下来谈，这是FF近年来最接近"正常公司"状态的一个时刻。从2014年在洛杉矶注册公司、喊

0评论2026-04-264

欧莱雅BRANDSTORM 2026中国总决赛落幕，AI成美妆创新核心议题｜最前线

欧莱雅全球青年创新策划大赛BRANDSTORM 2026中国总决赛于4月24日在上海收官。本届赛事聚焦奢华香氛领域，中国赛区吸引超72000人报名，经多轮选拔后六支队伍进入总决赛。最终，UNIBLOCK、SOS和Move with Scent三支队伍分获冠亚季军，将代表中国赛区赴巴黎参加全球总决赛。BRANDSTORM大赛已举办34年，覆盖全球40多个国家和地区，累计参与人数超37万。中国赛区自2

0评论2026-04-2611

“700台机器没日没夜打”，有年轻人靠它“月赚10万”
0评论2026-04-26

800亿买卫星，贝索斯杠上马斯克
0评论2026-04-26

顶级985校友，正在排队IPO
0评论2026-04-26

业绩“双降”！360亿“血王”，遭遇至暗时刻

A股“血王”正经历至暗时刻。有“血王”之称的上海莱士近日发布2025年年报，这份财报为这家血液制品龙头企业的“黄金时代”画上了沉重的句号。财报显示，上海莱士2025年实现营业收入73.48亿元，同比下降10.13%；归母净利润15.77亿元，同比大幅下滑28.1%；扣除非经常性损益净利润15.60亿元，同比下降24.25%。这是上海莱士自2019年以来首次出现营收与净利润“双降”，业绩降幅远超市场

0评论2026-04-265

AI长视频风起，爱奇艺们的出路在哪里？
0评论2026-04-26

36氪首发 | 全球唯二、中国唯一造出微米级磁悬浮魔毯，已大规模量产
0评论2026-04-26