老黄200亿“钞能力”回应谷歌：联手Groq，补上推理短板_健康_健康资讯

Jay 发自凹非寺量子位 | 公众号 QbitAI

老黄稳准狠，谷歌的TPU威胁刚至，就钞能力回应了。

200亿美元说砸就砸，只为拉拢一家炙手可热的「铲子新工厂」——Groq。

这无疑也标志这家芯片巨头，面向AI新时代的一次重大布局。但在某种程度上，也的确反映出老黄对包括TPU在内等一众新芯片范式的担忧。

所以，Groq究竟能为英伟达带来什么？

针对这个问题，知名科技投资人Gavin Baker发表了自己的观点。

而他的这一连串技术剖析，纷纷指向了英伟达帝国防守最薄弱的那块领土——推理。

推理方面，Groq LPU的速度远超GPU、TPU，以及目前所见的任何ASIC。

Gavin Baker

这一观点得到大量网友点赞：

GPU架构根本无法满足推理市场对低延迟的需求，片外HBM显存速度实在太慢了。

网友观点

但也有网友指出，LPU所采用的SRAM，或许并不能胜任长下文decode。

对此，Gavin认为英伟达可以通过产品「混搭」的方式解决。

Gavin Baker

下面具体来看——

Groq：英伟达斥200亿美元购入的一剂疫苗

Gavin认为，GPU在新时代水土不服的根本原因在于——推理过程的两个阶段，prefill和decode，对芯片能力有截然不同的要求。

先看prefill：

这一步，简单来说就是让模型「读题」，把用户提供的关键信息在脑子里记好，用于后续调用。

读题过程中，模型会一次性吃下用户所给的上下文，所有输入token都可以同时计算。

这正是GPU最擅长的舞台，其为图形处理而生，可以一次性计算数千个像素，天生适合处理并行任务。

在这个准备阶段，模型不用急着响应用户问题。即便有延迟，模型也完全可以通过显示「思考中」来掩盖等待时间。

因此，相比「速度」，prefiil需要芯片有更大的上下文容量。

但到了decode，这套逻辑不再适用。

decode是串行任务，必须得一个一个token挨着算。更重要的是，用户还会亲眼看到token被一个个「打」出来的过程。这种情况下，延迟对用户体验来说是致命的。

然而，GPU的数据主要存放在HBM，而不是紧贴算力核心的片上存储。这意味着，每生成一个token，GPU都需要重新从内存中读取数据。

这时候，GPU的问题就暴露出来了——大部分算力都处于闲置，FLOPs根本用不满，常常在等内存把数据搬过来，实际计算量远小于prefill。

相比之下，Groq有更好的解决方案——LPU。

比起HBM，LPU使用直接集成在芯片硅片中的SRAM。这种片上存储的模式不需要读取数据，这让其速度比GPU快100倍。即使只处理单个用户，它也能跑出每秒300–500个token的速度，并能始终保持满负荷运转。

事实证明，在速度这一块，LPU几乎打遍天下无敌手——不仅是GPU，就连TPU，以及市面上绝大多数ASIC都难以望其项背。

但这并非没有代价的。

相比GPU，LPU的内存容量小的多。单颗Groq的LPU芯片，片上SRAM只有230MB。

作为对比，即便是英伟达的H200 GPU，也配备了高达141GB的HBM3e显存。

结果就是：你必须把成百上千颗LPU芯片连在一起，才能跑起一个模型。

以Llama-3 70B为例，用英伟达GPU的话，只需要两到四张卡，塞进一个小型服务器盒子里就能搞定。而同样的模型，需要数百颗LPU，占地面积也将远大于使用GPU的数据中心。

这意味着，即便单颗LPU价格更低，整体硬件投资依然会非常巨大。

因此，AI公司在考虑LPU时，最重要的问题是——

用户是否愿意为「速度」付费？

对于这个问题，一年前的市场还不无法给出答案。但从Groq如今的业绩情况来看已经非常明确：「速度」是个真实存在的巨大需求，并且仍在高速成长。

而对英伟达而言，这不仅是一个新的业务盘，更是一个颠覆者暗流涌动的高风险地带。倘若错失这个风口，英伟达在AI时代的机会可能会被新玩家颠覆，就像英伟达当年通过游戏业务颠覆其他竞争对手一样。

为了抵抗这些竞争者蚕食自己的护城河，英伟达选择注射名为Groq的疫苗。希望通过人才收购引入新血液，补齐这块低延迟场景的推理短板，帮助英伟达这艘巨舰摆脱创新者窘境。

「铲子」进入新时代

TPU的崛起，给英伟达的金钟罩撕开了一道裂缝。

通过自研芯片，谷歌成功摆脱了对英伟达天价GPU的依赖，这在很大程度上帮助谷歌削薄了训练和推理成本，这让谷歌在服务大量免费用户的情况下，依然能维持相当健康的财务账面。

谷歌通过Gemini 3 Pro的绝地翻盘，证明了GPU并非AI时代的唯一解。在技术周期高速迭代的背景下，作为AI「心脏」的芯片，也需要根据不同的发展阶段做出相应的调整。

随着基础模型的进展放缓，AI竞争的重点开始从训练层转向应用层。而在AI应用市场，「速度」对用户体验而言至关重要。

而这次人才收购Groq，虽然也是变相承认了公司在推理赛道的不足，但同样标志着英伟达帝国的又一次扩张。

称霸预训练的英伟达，这次要借Groq的东风，入局竞争对手喷涌而出的「推理大陆」。

而在这个新市场，英伟达或许不再能像如今这样风光。

正如Groq CEO所言，推理芯片是项高销量、低利润的苦活。这与即便炒到天价也有客户抢着要，毛利率高达70-80%的GPU截然不同。

参考链接：[1]https://x.com/gavinsbaker/status/2004562536918598000[2]https://www.uncoveralpha.com/p/the-20-billion-admission-why-nvidia

本文来自微信公众号“量子位”，作者：关注前沿科技，36氪经授权发布。

抛弃“不作恶”，谷歌和五角大楼签订协议、承接美军机密AI业务，超700名员工联名反对

谷歌，这个曾以“不作恶”为行为准则的科技巨头，如今正深陷一场前所未有的内部风暴。28日，美国消费者新闻与商业频道（CNBC）援引科技媒体“The Information”报道，谷歌已与美国国防部签署协议，承接机密人工智能业务。一位知情人士透露，美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称，本周，700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊，要

0评论2026-04-2912

AI对话框成“赛博魅魔”：它越懂你，为什么越危险？
0评论2026-04-29

一季度净利环比暴增27倍，剑桥科技股价一年涨三倍，险资与社保基金加仓，股东高管减持

4月27日盘后，光模块概念大牛股剑桥科技（603083.SH、06166.HK）发布2026年一季报，公司一季度营收同比增长43.98%至12.87亿元；归母净利润同比增长276.44%至1.18亿元。从环比来看，剑桥科技今年第一季度营收环比下滑约12%；净利润环比增长2722.62%，而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股，剑桥科技H股曾在11个交易日完成了翻倍，4月2

0评论2026-04-2912

32美元一辆车，Tesla为什么不认？（下）

本案真正值得关注的，不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是，如果法院最终认为这类平台许可条款不能进入FRAND审查，那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时，实施者还能不能有效挑战其许可条件？这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看，Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-2914

英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍
0评论2026-04-29

靠补贴扭亏为盈？摩尔线程仍需打“硬仗”
0评论2026-04-29

AI时代，“10后”沉迷于捡“电子垃圾”
0评论2026-04-29

“保本”又“看病”？监管部门约谈健康险公司，中介平台下架热销“医疗金”产品

早在前两年，市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长，这类产品的资产增值属性被放大，经过长期现金价值积累，配合可以累积的医疗保险金，使得产品有着不输理财型产品的收益率，这也是引起监管部门关注的原因之一。2026年4月初，当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时，他可能不会想到，体验活动中的重磅产品“岁月长安·特定疾病保险（互联网版）”即将面临下架。4月

0评论2026-04-298

比亚迪、奇瑞汽车的供应商冲击IPO，上市前巨额分红，来自山东济宁
0评论2026-04-29

第一批押注AI的酒店、民宿，已经不看OTA脸色了？
0评论2026-04-29