GTC2026：Agent应用爆发，倒逼推理算力和模型革新_健康_健康资讯

Agent类型的AI应用，在2025年和2026年迎来了爆发，典型的产品是Claude Code和OpenClaw。它们分别服务的是程序员群体和知识工作者群体，其中Claude Code的年化收入在今年2月已突破25亿美元。

尽管ChatGPT已经拥有近10亿月活用户，但以ChatGPT为代表的ChatBot范式，用户平均每日的token消耗量大概在十万到百万量级。而在Agent范式下，用户每日token消耗量可达到千万甚至上亿，直接提升了一个数量级。

单用户token消耗量的指数级提升，对于推理计算系统提出了新要求。

对于NVIDIA，以往它们的GPU是针对模型训练计算需求优化的，对于推理计算需求，它有精度冗余（训练要求FP32，推理只需要INT8），能耗高，延迟高的问题，其实并不适用。

此后，NVIDIA通过在硬件上引入Tensor Core，在软件上加入TensorRT，一定程度上缓解了在推理算力上的不足，但是直到2026年的NVIDIA GTC大会，它才真正解决了这个问题。

Groq LPU的加入，平衡了推理算力的高吞吐、低延迟需求

先分析下推理算力对于算力系统有什么需求。

站在云厂商的角度，首先是吞吐量，也就是计算中心每花一兆瓦的能量，在每秒可以生成多少token。这既是一个性能指标，也是一个成本指标。

一个算力数据中心的总瓦数是确定的，每兆瓦能产生更多的token，在给定的成本下，能效和经济效益都会提升。

吞吐量是ToB客户关心的指标，对于C端用户，延迟是使用体验中感知最明显的部分。但是在技术上，高吞吐和低延迟是互斥的。

这背后主要的技术瓶颈在于推理计算式批处理 (Batching) 带来的等待和内存墙 (Memory Wall)。

内存墙的主要问题是，在高吞吐（高并发）状态下，多个请求同时去抢夺有限的显存带宽，会导致数据传输拥堵，计算单元被迫排队等待数据，从而拉长了所有请求的延迟。

GPU在吞吐量上本身很有优势，所以打破内存墙，成为现在AI推理算力产品主要优化的方向。

此前，我们介绍过Google TPU团队创立的MatX，它解决这个内存墙的方法是采用混合存储架构（SRAM和HBM结合）。HBM储存适用于高吞吐的并行计算，SRAM则适合低延迟的decode和token生成。

图片来源：NVIDIA官方

NVIDIA的解决办法也是SRAM和HBM结合，只不过它是通过一整个算力系统实现的。

在2025年12月花200亿美金收购来Groq后，NVIDIA在2026年GTC上发布了Groq 3 LPU，而且已经量产。

Groq 3 LPU搭载的是片上SRAM储存，但是问题在于SRAM虽快但容量极小，单颗Groq 3 LPU只有500MB SRAM。与Groq 3 LPU搭配使用的Rubin GPU，它有288GB HBM4储存。但这就有一个问题，它们俩的储存容量差了500多倍，根本存不下万亿参数的模型。

NVIDIA对此的解决方法是一套叫Dynamo的软件，它可以把推理过程拆成两半，Rubin负责prefill和attention（高并发运算部分，处理上下文），Groq负责feed-forward部分的decode和token生成（需要极低延迟和极高带宽）。

两者通过数据中心内部的以太网紧耦合，实现了延迟减半。黄仁勋在发布会上把这种技术定义为解耦推理（disaggregated inference）。在这种架构下，每兆瓦推理吞吐量最高可提升35倍。

事实上，与以往的发布会不同，此次NVIDIA拿出的不是单个的GPU，而是算力系统平台。上文讲的Groq 3 LPU+Rubin GPU的结合，在实际部署中，是平台与平台的结合。

Vera Rubin平台包括Vera CPU（ARM架构）、Rubin GPU、NVLink 6交换机、NVIDIA ConnectX 9网卡、BlueField4 DPU和Spectrum-6以太网交换机。

具体来说，Vera Rubin NVL72机架上集成了72个Rubin GPU和36个Vera CPU，它们通过NVLink 6连接，并配备ConnectX-9 SuperNIC和BlueField-4 DPU。

图片来源：NVIDIA官方

Groq 3 LPU以LPX机架形式存在，可以无缝集成到Vera Rubin平台中，一个LPX机架包含了256个LPU处理器，提供128GB片上SRAM和640TB/s的纵向互联带宽。

在大规模部署时，大量LPU可以协同工作，像一个巨型单一处理器一样运行；当与Vera Rubin NVL72机架一起部署时，它们可以很好的实现万亿参数模型与百万token上下文的推理，在功耗、内存与计算效率之间实现平衡。

黄仁勋还剧透了Feynman架构，在2028年，现有计算系统的七个组件将全部换代，会有全新GPU、LP40 LPU、Rosa CPU、BlueField 5 DPU，ConnectX-10 SuperNIC，NVLink 8。并且机架会同时支持铜缆和CPO光学互连。

所谓CPO（共封装光学），指的是将光通信模块与核心计算芯片（如交换机ASIC或GPU）直接封装在同一个物理基板上的技术。它能让交换机的网络能效提升约3.5倍到5倍，网络延迟大幅降低，同时可靠性大幅度提升，NVIDIA宣称其网络信号完整性提升了64倍。LPX机架无缝集成到Vera Rubin平台中，靠的就是这种技术。

Agent应用爆发，倒逼推理算力和模型革新

除了硬件，NVIDIA此次发布的软件，重点集中在Agent上，包括NemoClaw和Nemotron 3 Super。

图片来源：NVIDIA官方

NemoClaw本质就是一套让OpenClaw更容易部署、也更安全运行的基础软件工具，相当于给它套了一层安全的壳，让企业更容易使用。

它的核心组件叫OpenShell，包含策略引擎接口（对接企业已有的安全合规系统）、网络护栏（限制Agent网络访问边界）和隐私路由（防止敏感数据外传）。

它让 AI 智能体在执行任务、调用工具或访问外部网络时，依然能够受到安全、网络和隐私策略的约束。

Nemotron 3 Super是专为Agent打造的模型，黄仁勋展示了一张图，表示它在OpenClaw上的表现排行前列，仅次于Anthropic和OpenAI的顶尖模型。

图片来源：NVIDIA官方

从这两个软件类产品的发布，可以看出NVIDIA并不满足于当一个单纯的AI基础设施厂商，它们渴望向AI价值链的更前端攀升。黄仁勋在GTC前写了一篇署名文章，提出了AI的“五层蛋糕”架构，现在NVIDIA就要从第四层的算力，第三层的基础设施，往第二层的模型攀登。

图片来源：NVIDIA官方

毕竟，算力是AI的基石，但是AI的价值，终究要在应用层真正体现。

而且，在生成式AI发展几年后，现在AI在应用端的需求已经明确，开始倒逼模型和基础设施根据应用需求进行针对性的优化了。

在2023-2024年，产品思路是以模型能力为基础，进行应用的搭建，那时还有一些套壳应用的生存空间。

当Agent崛起后，AI真正切入生产环境，开始产生真实的商业价值（很多企业的程序员已经大比例使用Agent编程，法律和客服等领域的Agent渗透率也较高），就出现了Claude这样为编程优化的模型，以及Nemotron 3 Super和GLM5-Turbo这样针对Agent优化的模型。

另一方面，与云端AI相比，物理AI还处于早期，无论是AI原生硬件、端侧模型，AI OS，还是具身智能数据，都还大有机会，阿尔法公社已经在这个领域布局了不少优秀的创业公司。

本文来自微信公众号 “阿尔法公社”（ID：alphastartups），作者：发现非凡创业者的，36氪经授权发布。

抛弃“不作恶”，谷歌和五角大楼签订协议、承接美军机密AI业务，超700名员工联名反对

谷歌，这个曾以“不作恶”为行为准则的科技巨头，如今正深陷一场前所未有的内部风暴。28日，美国消费者新闻与商业频道（CNBC）援引科技媒体“The Information”报道，谷歌已与美国国防部签署协议，承接机密人工智能业务。一位知情人士透露，美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称，本周，700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊，要

0评论2026-04-2913

AI对话框成“赛博魅魔”：它越懂你，为什么越危险？
0评论2026-04-29

一季度净利环比暴增27倍，剑桥科技股价一年涨三倍，险资与社保基金加仓，股东高管减持

4月27日盘后，光模块概念大牛股剑桥科技（603083.SH、06166.HK）发布2026年一季报，公司一季度营收同比增长43.98%至12.87亿元；归母净利润同比增长276.44%至1.18亿元。从环比来看，剑桥科技今年第一季度营收环比下滑约12%；净利润环比增长2722.62%，而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股，剑桥科技H股曾在11个交易日完成了翻倍，4月2

0评论2026-04-2912

32美元一辆车，Tesla为什么不认？（下）

本案真正值得关注的，不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是，如果法院最终认为这类平台许可条款不能进入FRAND审查，那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时，实施者还能不能有效挑战其许可条件？这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看，Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-2914

英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍
0评论2026-04-29

靠补贴扭亏为盈？摩尔线程仍需打“硬仗”
0评论2026-04-29

AI时代，“10后”沉迷于捡“电子垃圾”
0评论2026-04-29

“保本”又“看病”？监管部门约谈健康险公司，中介平台下架热销“医疗金”产品

早在前两年，市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长，这类产品的资产增值属性被放大，经过长期现金价值积累，配合可以累积的医疗保险金，使得产品有着不输理财型产品的收益率，这也是引起监管部门关注的原因之一。2026年4月初，当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时，他可能不会想到，体验活动中的重磅产品“岁月长安·特定疾病保险（互联网版）”即将面临下架。4月

0评论2026-04-299

比亚迪、奇瑞汽车的供应商冲击IPO，上市前巨额分红，来自山东济宁
0评论2026-04-29

第一批押注AI的酒店、民宿，已经不看OTA脸色了？
0评论2026-04-29