分享好友 健康资讯首页 健康资讯分类 切换频道

曝GPT-5.5用上“全球最快芯片”,Claude慌了

2026-05-18 20:141036kr

120B模型飙到2000 token/秒,CFO更放话已在跑GPT-5.5!Cerebras 560亿美元IPO首日暴涨68%,但SemiAnalysis万字拆解直指死穴。

SemiAnalysis,硅谷最硬核的芯片分析机构,4月份光是AI工具的订阅费就烧到了年化1000万美元。

其中80%花在同一个地方,Anthropic的Opus 4.6 fast模式。

它比标准模式贵6倍,但token输出速度快2.5倍!

然后Opus 4.7来了。更聪明,跑分全面碾压上一代,但工程师集体拒绝升级。

理由只有一个,4.7没有fast模式。

他们宁可用更笨的模型,也要更快的token!

而这个趋势的最大受益者,是一家刚刚以560亿美元估值登陆纳斯达克的芯片公司,Cerebras。

2000 token/秒,怎么来的

OpenAI今年2月甩出了GPT-5.3-Codex-Spark。

名字挂着GPT-5.3的招牌,但底层是一个从完整版GPT-5.3 Codex蒸馏出来的小模型,参数量只有原版的十分之一,120B。

虽然是用智能换来的,但速度确实夸张到离谱——2000 token/秒。

作为对比,Anthropic最快的Opus 4.6 fast大约70-100 token/秒,GPT-5系列在英伟达GPU上是大约130 token/秒。

而Codex-Spark一脚油门踩到了一个数量级开外。

让它跑这么快的,正是Cerebras的WSE-3,一块餐盘大小的晶圆级芯片。

这件事直接引爆了一笔246亿美元的合同,也把Cerebras一路推进了纳斯达克。5月14日首日暴涨68%,2026年至今最大科技IPO。

但Cerebras CFO Bob Komin说,这还只是开胃菜。

IPO前夜,他在采访中亮了一张没人预料到的牌——

我们服务所有模型,对模型大小没有限制。今天,我们正在跑万亿参数的模型。我们正在跑OpenAI内部的GPT-5.4和GPT-5.5。

如果这是真的,Cerebras就不只是一个「小模型快跑」的玩家了,IPO当天的疯狂涨幅立刻站得住脚。

但SemiAnalysis偏偏在同一周甩出了一篇两万字的技术拆解报告,直接把这个故事撕开了一道口子。

Cerebras公开云上,最大的生产模型是GPT-OSS,总参数120B;预览模型最大355B。曾经上过的Llama 70B和405B,后来也被悄悄下了架。

2025年最火,但体量也更大的开源模型(比如DeepSeek),从头到尾就没出现在Cerebras Cloud上。

CFO口中的那个数字,目前只存在于「OpenAI内部」,外界无法验证。

要搞清楚这中间的裂缝有多大,得先看看这块晶圆到底是怎么回事。

一整块硅的赌注

半导体行业干了50年的事情就是切硅片。

一整块晶圆刻出几十颗芯片,切割,封装,各干各的。英伟达的B300已经把单颗芯片撑到了858平方毫米,基本上是光刻的极限了。

相比之下,Cerebras却反其道而行——它不切。

整块晶圆就是一颗芯片。

46,225平方毫米,比英伟达的GPU大58倍,大约一个餐盘的尺寸。上面集成了4万亿个晶体管、90万个计算核心,和44GB的SRAM内存。

重点来了,SRAM。

GPU用的是HBM(高带宽内存),容量大但速度相对慢。一块B300配了288GB的HBM,带宽在TB/秒级别。

WSE-3只有44GB的SRAM,但内存带宽高达21PB/秒。

Cerebras速度碾压的秘密就在这里。

SRAM带宽大到解码时几乎可以把全部计算核心喂饱。GPU的计算核心只能饿着等内存。

而推理的瓶颈,正是解码。

模型一个token一个token往外吐的时候,每吐一个就要把全部权重从内存里读一遍。带宽越高,读得越快,token出得越快。

SemiAnalysis做了一个很直观的对比。

同样只给一个用户生成token的场景下,GPU能实际利用的算力只有理论峰值的零头。WSE-3理论上可以把全部15.6 PFLOPS的FP16算力吃满。

差距不是百分之几十,而是数量级的。

用他们的原话形容,这就像是公交车和F1的区别。

GPU是公交车,一次拉很多人但每个人都慢。WSE-3是F1赛车,一次只拉一个人但飞快。

想用赛车的客户,甚至愿意付6倍价格来买速度。Opus 4.6 fast已经证明了这一点。

但这辆「车」有一个致命问题——它的「油箱」只有44升。

对于小模型来说,WSE-3的44GB SRAM绰绰有余,但放到今天的大模型面前根本不够看。

DeepSeek V4有1.6万亿参数,即使用最激进的压缩方式(FP8量化),光权重就要490GB。一块WSE-3装不下,要切成至少12块塞进12块晶圆。

分布就要通信,而这也是Cerebras最致命的短板。

每块WSE-3对外带宽只有150GB/秒。

英伟达一块Blackwell GPU通过NVLink5能跑到900GB/秒,是Cerebras的6倍。被英伟达收购的Groq更夸张,单颗LPU3就有9.6Tb/秒,8倍。

带宽加不了。这是物理层面的死结。

WSE-3的制造方式决定了一切。整块晶圆用同一套模板反复曝光,12列7行,84个完全相同的die拼成一颗芯片。

想加高速通信端口(SerDes),就得在每个die里都加。但84个die里只有边缘的能接到外面,中间的全是摆设,纯粹浪费硅面积。

更要命的是,SerDes是模拟电路,面积大,还会干扰旁边的数字逻辑。在die中间放SerDes,等于在自家的高速公路上挖坑。

所以Cerebras被困在了一个岛屿上。岛上的高速公路四通八达,但通往外界的桥只有一座单车道。

如此一来,Cerebras跑大模型只剩一条路,把模型按层切开,每块晶圆放几层,晶圆之间只传中间计算结果(比完整的模型权重小得多)。

但流水线越长,延迟越高。

SemiAnalysis算了一笔账,12块晶圆跑DeepSeek V4,光是层间传输的固定延迟就要叠加12次,缓存数据的搬运时间高达数毫秒。

所以CFO在CNBC上说的那番话,至少目前更像是路线图上的故事。

但在120B以下这个区间,Cerebras交出的成绩单没什么好挑的。

代价是什么呢

知名评测机构Artificial Analysis用Llama 4 Maverick做过实测,Cerebras 2400 token/秒,英伟达Blackwell 1040 token/秒,直接碾了一倍多。

AI编程工具Devin背后的Cognition已经把Cerebras接进了产品,快速模式下1000 token/秒。Notion、LiveKit、GSK等也已经在用。

但代价是,公开云跑得动的上限就是GPT-OSS级别,最大上下文只有128K。

根据SemiAnalysis从Claude Code、Cursor等工具中采集的43.2万条真实请求,其中有将近50%都超过了128K。

而Agent时代的上下文只会越来越长,128K很快就是瓶颈。

速度快,但模型小、上下文短、选择少。这就是开发者今天拿到手的Cerebras。

但这里藏着一个很多人还没注意到的细节,足以改变整个竞争格局。

Cerebras与OpenAI的协议里写着一条排他条款,合同期内不得向「特定OpenAI竞争对手」出售产品。

CEO Feldman没有点名,但所有人都知道指的是谁,Anthropic。

12%股权、10亿美元贷款、246亿美元订单锁定。Cerebras已经被牢牢绑在了OpenAI的战车上。

推理战争,OpenAI刚刚换了一把枪

如今,AI军备竞赛的主战场已经变了。

训练只做一次,推理每天做数十亿次。

2026年三分之二的AI算力消耗在推理上,到2027年预计达到80%。

根据OpenAI的计划,AWS的Trainium负责理解用户输入,Cerebras负责生成输出token,GPU负责训练和长上下文,三套硬件各管一段。这套组合拳只为一件事,成本打下来,速度拉上去。

对比之下,Opus 4.6 fast的速度已经从100 token/秒退化到了70 token/秒,Cerebras也在合同里把它锁在了门外。

那么问题来了,Anthropic的极速推理方案在哪里?

参考资料:

https://x.com/dee_bosa/status/2055351401472020949?s=20

https://newsletter.semianalysis.com/p/cerebras-faster-tokens-please

本文来自微信公众号“新智元”,作者:ASI启示录,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
两个高校学者研究AI炒股3个月,他们告诉我AI很像巴菲特
让一个绝顶聪明的 AI 自动帮你自动炒股,然后你躺着赚钱,可能是很多人的梦想。 那么,这个梦想是可行的吗?AI 的能力边界到底在哪里? 知危找到了伊利诺伊大学计算机系助理教授尤佳轩( 知危访谈时间:2025 年 11 月 )和香港大学数据科学研究所及计算与数据科学学院助理教授黄超( 知危访谈时间:2026 年 1 月 )探讨了相关问题。 去年年末,AI 大模型实时投资比赛 Alpha Arena

0评论2026-05-180

马斯克的三次访华
5 月的北京,马斯克再次降落。对他来说,这片土地既熟悉又陌生。熟悉是因为特斯拉的超级工厂还在运转,陌生是因为每次来,中国汽车产业都已经变成了另一副面孔。特斯拉是第一条游进这片深海的外来鲶鱼。而现在,它已经被自己催生的鱼群包围。来得太早2014年4月22日,北京酒仙桥恒通商务园。43岁的埃隆·马斯克,以特斯拉CEO的身份站上舞台,把Model S的车钥匙递给中国首批车主。那份名单足够耀眼:曹国伟、俞

0评论2026-05-181