统治AI十年的Transformer，要被亲爹亲手砸碎？_健康_健康资讯

80分钟的拳击式辩论！Transformer联合发明人亲自下场为自己的作品辩护，对面三位挑战者直指五大死穴。这是AI架构十年来最硬的一次正面交锋。统治AI黄金十年的架构，地基是不是已经松了？

Transformer凭什么统治AI这么久？

长上下文、记忆、推理这些短板，新架构真能突破吗？

所谓「后Transformer」，到底是更强的记忆机制、更高效的序列建模，还是从训练到系统都得换一套？

5月5日，旧金山，Pathway搞了场拳击擂台式的辩论赛。

这不是比喻，是真擂台。

一边是Transformer的共同发明人Łukasz Kaiser，另一边是主张「后Transformer时代」的新架构派。

注意一个细节：注意力机制的两位联合发明人，「Transformer八子」之一LlionJones，坐在了Kaiser的对立面。。

话题就一个：下一代AI架构到底长什么样。

现场坐满研究者、创业者和投资人。输赢不靠投票，靠「clapometer」——拍手计分器，谁掌声响谁赢。

这是一场刀刀见红、指名道姓的硬碰硬。

当裁判宣布比赛开始，统治了全球AI架构近十年的神话，第一次被它的缔造者亲自拉上了被告席进行自卫辩护。

这场思想界的重量级对决，从Transformer的五大死穴开始。

苦Transformer久矣

五大死穴

Łukasz Kaiser的身份让这场辩论的分量直接拉满。

他是Transformer的联合发明人。

2017年那篇改变整个AI格局的论文「Attention Is All You Need」，他是作者之一。之后他参与了ChatGPT、GPT系列和o1的实际工程开发。

他是当事人。他今天坐在这里，是为自己的作品做辩护。

对面的三位挑战者，来头同样不小。

Llion Jones，Transformer的另一位联合发明人，Sakana AI联合创始人。

Adrian Kosowski，Pathway首席科学官，BDH架构的发明人。

Matthias Lechner，Liquid AI首席技术官，MIT液态神经网络的共同发明人。

这本身就是技术史上极其罕见的画面。创造同一个东西的人，对它的未来产生了根本性分歧。

Kaiser开场用了一个类比。

他说Transformer的注意力机制，就像图书管理员的卡片索引系统。

你走进图书馆，说出你要找的内容（query），管理员翻开卡片目录（key），找到对应的书架位置，把书取出来交给你（value）。

简洁。高效。全局检索。

但挑战者们要问的是：如果这个图书馆有一亿本书呢？每次查询都要翻遍所有卡片，这个系统还能撑住吗？

这就是O(n²)，悬在Transformer头上的达摩克利斯之剑。

三位挑战者没有笼统地说「Transformer不行了」。他们拆出了五个具体的、当前Transformer架构无法在设计层面解决的开放难题。

每一个都直指要害。

挑战者们最尖锐的隐喻，直指Transformer的记忆与持续学习缺陷：「土拨鼠之日」。

在电影《土拨鼠之日》中，主角每天醒来，世界都会重置，昨天的记忆荡然无存。

目前，Transformer也是如此。

每一次推理（Forward Pass），它的权重（Weights）都是完全冻结的。

哪怕你今天跟它聊了十个小时，它学到了绝妙的新知识，在下一次会话启动时，它依然是一个失忆的白痴。

现在工业界为了解决这个问题，拼命往里塞RAG（检索增强生成）、长上下文（KV Cache）。

但这根本不是架构级的解法，而是用昂贵的算力在伤口上贴创可贴。

五大死穴，每一个单拎出来都不是小事。合在一起，构成了一张完整的起诉书。

但起诉书不等于判决书。

Kaiser的底牌

你行你上，拿曲线说话

面对五大攻击，Kaiser没有一一辩驳。

他没说O(n²)不是问题，没说灾难性遗忘不存在，没说Transformer完美无缺。

他抛出了一句话，成了整场辩论的核心：

除非Post-Transformer证明更好的scaling曲线，否则Transformer仍然是主流。

这句话的杀伤力在于，它把举证责任推回了挑战者。

什么是scaling曲线？

简单说，就是「投入更多算力和数据，AI能力提升多少」。

Transformer统治近十年，最核心的原因不是它没缺陷，而是它的scaling曲线至今没被任何架构超越。

这是OpenAI敢砸几十亿美元训练GPT、Anthropic持续扩大Claude规模的底气。

Kaiser的逻辑极其清晰：

你说Transformer有五个问题？我同意。

但有问题的东西和应该被替换的东西之间，有一道鸿沟。跨过它，你需要的不是五篇论文，是一条更好的scaling曲线。

然后，他展开了更具体的辩护，而且带着工程现场的铁锈味。

并行性是硬道理。

上周，在最新的Nvidia硬件上，Kaiser重新实现了Transformer和几个老式RNN，并做了对比。

非常小的GRU，比一个大得多的Transformer还要慢50倍。

RNN确实优美，但它的顺序执行特性在当前硬件上就是一场灾难。

如果真存在一种更好的架构，你需要用50倍的时间去证明它——而大多数实验室没有这个耐心。

十年的工程积累。

不只是GPU优化，编译器、训练框架（PyTorch、JAX）、推理引擎（vLLM、TensorRT-LLM）、量化工具——整个AI工程栈都围绕Transformer搭建。

换架构意味着这一切都要重来。

隐式的「持续学习」，早已发生。

Kaiser指出，Transformer在大规模预训练后，前向传播中表现出的上下文学习（In-Context Learning），在数学上其实完美模拟了反向传播中的梯度下降。

换句话说，你们说它不会学，它其实在以另一种方式偷偷地学。

他的辩护不是「Transformer永远是最优解」，而是「Transformer现在是最优解，除非你证明不是」。

然后他甩出一句让对面哑口无言的话：

也许找到下一个架构的，恰恰会是Transformer本身——而不是你们。

全场笑声。

但大家都听出来了：这是认真的。

AI：无人可挡的光明未来

Kaiser的结束陈词，没有说「Transformer永远是最优解」。他说的是：「目前，Transformer仍然赢。」

「目前」这个词，是他留给挑战者的唯一缝隙。

更微妙的是，他亲手交出了一件本属于自己阵营的武器。

后Transformer阵营此前最大的短板，是「缺乏大算力的工程和硬件验证」——新架构跑得慢、没人愿意为它改芯片。但Kaiser自己承认，这道壁垒正在被瓦解：

现在，AI Agent已经学会了写极高难度的CUDA和Triton核函数。

即便一个新架构最初运行慢50倍，你只需要把代码丢给Agent，它就能在短时间内帮你优化出几乎能榨干GPU算力的专用内核。

硬件彩票的壁垒，正在被智能体开发生态自己砸碎。

这意味着，一旦有人在百万Token、千万Token的极长上下文任务上，用Post-Transformer架构跑出一条更漂亮的困惑度曲线，哪怕只有一点点优势，也会在scaling的放大镜下，形成对旧帝国的致命一击。

Kaiser甚至主动提议：应该建立一个统一的测试标准——用困惑度衡量所有架构在同等条件下的学习能力。

「我们应该在这件事上达成共识，然后各自去证明自己的架构更好。」

这句话的潜台词是：挑战赛正式开始。

而Jones的最后一句话更直接：

今天我没有得到任何理由让我怀疑自己的信念：有更好的东西存在。当那个突破到来，我们所有人都会进入后Transformer时代，Łukasz也不例外——因为他届时别无选择。

这场「拳击赛」看似戏谑，但它的胜负直接决定了Claude、ChatGPT等硅谷双雄的底层地基是否需要被全部推倒重建。

如果后Transformer（Post-Transformer）阵营拥有更优越的Scaling Law（缩放定律）曲线，整个人类通往AGI的物理路线图都将被改写。

参考资料：

https://x.com/probnstat/status/2057522470760914957?s=20

https://www.youtube.com/watch?v=hCjoMLuCuLQ

本文来自微信公众号“新智元”，作者：ASI启示录，编辑：大卫，36氪经授权发布。