80分钟的拳击式辩论!Transformer联合发明人亲自下场为自己的作品辩护,对面三位挑战者直指五大死穴。这是AI架构十年来最硬的一次正面交锋。统治AI黄金十年的架构,地基是不是已经松了?
Transformer凭什么统治AI这么久?
长上下文、记忆、推理这些短板,新架构真能突破吗?
所谓「后Transformer」,到底是更强的记忆机制、更高效的序列建模,还是从训练到系统都得换一套?
5月5日,旧金山,Pathway搞了场拳击擂台式的辩论赛。
这不是比喻,是真擂台。
一边是Transformer的共同发明人Łukasz Kaiser,另一边是主张「后Transformer时代」的新架构派。
注意一个细节:注意力机制的两位联合发明人,「Transformer八子」之一LlionJones,坐在了Kaiser的对立面。。
话题就一个:下一代AI架构到底长什么样。
现场坐满研究者、创业者和投资人。输赢不靠投票,靠「clapometer」——拍手计分器,谁掌声响谁赢。
这是一场刀刀见红、指名道姓的硬碰硬。
当裁判宣布比赛开始,统治了全球AI架构近十年的神话,第一次被它的缔造者亲自拉上了被告席进行自卫辩护。
这场思想界的重量级对决,从Transformer的五大死穴开始。
苦Transformer久矣
五大死穴
Łukasz Kaiser的身份让这场辩论的分量直接拉满。
他是Transformer的联合发明人。
2017年那篇改变整个AI格局的论文「Attention Is All You Need」,他是作者之一。之后他参与了ChatGPT、GPT系列和o1的实际工程开发。
他是当事人。他今天坐在这里,是为自己的作品做辩护。
对面的三位挑战者,来头同样不小。
Llion Jones,Transformer的另一位联合发明人,Sakana AI联合创始人。
Adrian Kosowski,Pathway首席科学官,BDH架构的发明人。
Matthias Lechner,Liquid AI首席技术官,MIT液态神经网络的共同发明人。
这本身就是技术史上极其罕见的画面。创造同一个东西的人,对它的未来产生了根本性分歧。
Kaiser开场用了一个类比。
他说Transformer的注意力机制,就像图书管理员的卡片索引系统。
你走进图书馆,说出你要找的内容(query),管理员翻开卡片目录(key),找到对应的书架位置,把书取出来交给你(value)。
简洁。高效。全局检索。
但挑战者们要问的是:如果这个图书馆有一亿本书呢?每次查询都要翻遍所有卡片,这个系统还能撑住吗?
这就是O(n²),悬在Transformer头上的达摩克利斯之剑。
三位挑战者没有笼统地说「Transformer不行了」。他们拆出了五个具体的、当前Transformer架构无法在设计层面解决的开放难题。
每一个都直指要害。
挑战者们最尖锐的隐喻,直指Transformer的记忆与持续学习缺陷:「土拨鼠之日」。
在电影《土拨鼠之日》中,主角每天醒来,世界都会重置,昨天的记忆荡然无存。
目前,Transformer也是如此。
每一次推理(Forward Pass),它的权重(Weights)都是完全冻结的。
哪怕你今天跟它聊了十个小时,它学到了绝妙的新知识,在下一次会话启动时,它依然是一个失忆的白痴。
现在工业界为了解决这个问题,拼命往里塞RAG(检索增强生成)、长上下文(KV Cache)。
但这根本不是架构级的解法,而是用昂贵的算力在伤口上贴创可贴。
五大死穴,每一个单拎出来都不是小事。合在一起,构成了一张完整的起诉书。
但起诉书不等于判决书。
Kaiser的底牌
你行你上,拿曲线说话
面对五大攻击,Kaiser没有一一辩驳。
他没说O(n²)不是问题,没说灾难性遗忘不存在,没说Transformer完美无缺。
他抛出了一句话,成了整场辩论的核心:
除非Post-Transformer证明更好的scaling曲线,否则Transformer仍然是主流。
这句话的杀伤力在于,它把举证责任推回了挑战者。
什么是scaling曲线?
简单说,就是「投入更多算力和数据,AI能力提升多少」。
Transformer统治近十年,最核心的原因不是它没缺陷,而是它的scaling曲线至今没被任何架构超越。
这是OpenAI敢砸几十亿美元训练GPT、Anthropic持续扩大Claude规模的底气。
Kaiser的逻辑极其清晰:
你说Transformer有五个问题?我同意。
但有问题的东西和应该被替换的东西之间,有一道鸿沟。跨过它,你需要的不是五篇论文,是一条更好的scaling曲线。
然后,他展开了更具体的辩护,而且带着工程现场的铁锈味。
并行性是硬道理。
上周,在最新的Nvidia硬件上,Kaiser重新实现了Transformer和几个老式RNN,并做了对比。
非常小的GRU,比一个大得多的Transformer还要慢50倍。
RNN确实优美,但它的顺序执行特性在当前硬件上就是一场灾难。
如果真存在一种更好的架构,你需要用50倍的时间去证明它——而大多数实验室没有这个耐心。
十年的工程积累。
不只是GPU优化,编译器、训练框架(PyTorch、JAX)、推理引擎(vLLM、TensorRT-LLM)、量化工具——整个AI工程栈都围绕Transformer搭建。
换架构意味着这一切都要重来。
隐式的「持续学习」,早已发生。
Kaiser指出,Transformer在大规模预训练后,前向传播中表现出的上下文学习(In-Context Learning),在数学上其实完美模拟了反向传播中的梯度下降。
换句话说,你们说它不会学,它其实在以另一种方式偷偷地学。
他的辩护不是「Transformer永远是最优解」,而是「Transformer现在是最优解,除非你证明不是」。
然后他甩出一句让对面哑口无言的话:
也许找到下一个架构的,恰恰会是Transformer本身——而不是你们。
全场笑声。
但大家都听出来了:这是认真的。
AI:无人可挡的光明未来
Kaiser的结束陈词,没有说「Transformer永远是最优解」。他说的是:「目前,Transformer仍然赢。」
「目前」这个词,是他留给挑战者的唯一缝隙。
更微妙的是,他亲手交出了一件本属于自己阵营的武器。
后Transformer阵营此前最大的短板,是「缺乏大算力的工程和硬件验证」——新架构跑得慢、没人愿意为它改芯片。但Kaiser自己承认,这道壁垒正在被瓦解:
现在,AI Agent已经学会了写极高难度的CUDA和Triton核函数。
即便一个新架构最初运行慢50倍,你只需要把代码丢给Agent,它就能在短时间内帮你优化出几乎能榨干GPU算力的专用内核。
硬件彩票的壁垒,正在被智能体开发生态自己砸碎。
这意味着,一旦有人在百万Token、千万Token的极长上下文任务上,用Post-Transformer架构跑出一条更漂亮的困惑度曲线,哪怕只有一点点优势,也会在scaling的放大镜下,形成对旧帝国的致命一击。
Kaiser甚至主动提议:应该建立一个统一的测试标准——用困惑度衡量所有架构在同等条件下的学习能力。
「我们应该在这件事上达成共识,然后各自去证明自己的架构更好。」
这句话的潜台词是:挑战赛正式开始。
而Jones的最后一句话更直接:
今天我没有得到任何理由让我怀疑自己的信念:有更好的东西存在。当那个突破到来,我们所有人都会进入后Transformer时代,Łukasz也不例外——因为他届时别无选择。
这场「拳击赛」看似戏谑,但它的胜负直接决定了Claude、ChatGPT等硅谷双雄的底层地基是否需要被全部推倒重建。
如果后Transformer(Post-Transformer)阵营拥有更优越的Scaling Law(缩放定律)曲线,整个人类通往AGI的物理路线图都将被改写。
参考资料:
https://x.com/probnstat/status/2057522470760914957?s=20
https://www.youtube.com/watch?v=hCjoMLuCuLQ
本文来自微信公众号“新智元”,作者:ASI启示录,编辑:大卫,36氪经授权发布。