分享好友 健康资讯首页 健康资讯分类 切换频道

阿里云换地基了

2026-05-20 17:000036kr

5月20号,杭州,阿里云峰会。

我到时,场馆外头已经排起了长队。说实话,我本来以为就是例行发布会,结果进去一看,展区密度比我想的高不少。

AI原生应用全家桶、合作伙伴展台、还有那个号称能把人吓一跳的超节点服务器实体,一路走下来,信息量是真大。

芯片、模型、平台、官网,一上午发布的东西轮着来,但真正让我停下来多看了两眼的,是千问云的官网。

千问云官网,有什么好看的?

阿里云成立17年,头一回在主站之外单独给一个产品做官网。打开首页,只有一行代码。这首页,是给Agent读的。

一家给人类用户做了17年服务的云公司,把新官网的首页做成了一条机器指令。我琢磨了半天:这场大会发了一堆东西,好像都在讲同一件事。

...

什么事?先把发的东西摊开看。

芯片层,平头哥掏出了新AI芯片,真武M890。又配了自己做的互联芯片ICN Switch,全装进一台叫磐久AL128的超节点服务器里。

128张卡拼成一台计算机,已经上线百炼,跑着Qwen、DeepSeek、Kimi的模型服务。路线图也亮出来了,V900、J900排着队,一年一代,不会停。

模型层,千问发了旗舰模型Qwen3.7-Max,各榜单国产第一。

现场给了一个实战案例:模型在一块全新芯片上自己干了35个小时,从零写出了生产级kernel。性能比官方版本高了10倍。全程没人碰。

平台层,百炼推理服务全面升级,上下文缓存、弹性调度、机密推理,六家头部模型公司的产品全部接进来了。

最后,才是千问云官网。

品类多,信息量大。但我在现场越听越觉得,这不只一堆产品发布,属于一次大切换。

刘伟光在台上说了一句话:人类员工与Agent已经形成了混合工作网络;他甚至说,未来自己可能要接受一个Agent做他的manager。

李飞飞讲云基础设施,核心判断是「从资源调度转向任务调度」。传统云卖的是算力资源,你买多少用多少。Agent时代的云,要干的事完全不同:理解任务、分派任务、干完了把资源收回来。调度的对象从机器变成了事情。

千问云更直接。所有模型服务封装成Skills和CLI,Agent一条指令就能学会全站能力,自主调用。人类开发者连集成代码都不用写。

三个信号放在一起,指向就清楚了。云计算这个行业,三十年来第一次换用户了。

回头看,计算范式的每一次大切换,换的都是用户;大型机服务的是大机构,PC让个人第一次有了算力,互联网把用户搬到了线上,云计算让开发者成了最核心的客户群体。

现在,用户变成了Agent,屏幕都不需要了;听起来好像没什么大不了的,对吧?这次真不一样。以前换「哪些人在用云」,这次换的,是用云的还是不是人?

....

你可能说了:换个用户,至于这么大动静吗?至于。

云计算从1990年代中期开始冒头,到今天差不多三十年。这三十年里,不管底下技术怎么翻新,有三样东西一直没人动过,也不需要动。它们是整个行业的默认设置,所有产品都长在这上面。

第一样:活是可以预估的。

一个电商网站,双11的流量峰值提前两个月就能算出来。一个SaaS应用,每天多少人用、每秒多少请求,翻翻历史数据就知道。

云厂商那套弹性伸缩,人多开窗口、人少关窗口,全是围着一个假设设计的:活有规律,有波峰有波谷,有周期。

Agent的活没规律。

一个Agent接到任务,可能瞬间拉起一万个临时场子同时跑,三分钟后全拆光。下一个任务什么时候来、要多少资源、干多久,没人知道。连Agent自己都不知道,它是边干边决定下一步的。

这不叫波峰波谷,波峰波谷的前提是你能画出一条曲线,然后沿着曲线调配资源。Agent的活根本画不出曲线。

第二样:用户是人。

控制台有菜单、按钮、仪表盘。API文档是写给人看的,权限体系是按公司的组织架构设计的。什么管理员、开发者、运维,理得清清楚楚。

可Agent呢?

它要可编程的接口、结构化的能力描述、机器能读懂的反馈。你给它一个漂漂亮亮的控制台页面,对它来说就是一面墙。

更难搞的是权限,管人那套权限逻辑,前提是一个人一次只干一件事,权限跟着角色走。

Agent可以一次干一百件事,每件事要的权限都不一样,干完就释放。按角色分权限那套老办法,管不住这种动态的、逐任务的权限需求。

李飞飞在台上把这个事讲得很直接:

要给Agent发身份证。不是给人设计的那种账号密码。这事企业真要落地,第一道坎不是Agent够不够聪明,是你敢不敢给它开门禁。

第三样:程序是长期跑的。

传统云上跑的东西,不管是网页服务、数据库还是微服务容器,部署上去就一直跑着。

偶尔更新、重启,生命周期按月甚至按年算。云的资源分配、监控告警、计费模式,全是给长期跑的程序设计的。

Agent的任务是短命的,启动,干活,完事,销毁。下一个任务来了,重新启动一个全新的,生命周期可能就几秒钟。

你要按传统云的方式给它分配资源、挂载存储、配网络,光准备环境的时间就比干活的时间还长。

李飞飞讲了一个数字:

他们的临时场子可以做到眨个眼的功夫就准备好,一分钟能拉起两万个。为什么要做到这种程度?因为Agent的活不等人。Agent等不了。

打个比方:

你开了一家酒店,住的一直是人。房间有门有窗有床有灯,前台会说话,电梯按楼层。这套东西用了三十年,运转得很好。

现在来了一批新客人:机器人。它们不睡觉,不需要床,不走电梯,直接从窗户飞进来;同时入住一万间房,住三分钟就退房。你需要一栋完全不同的建筑。

三个假设同时失效,意味着每一层的设计前提都不成立了。弹性伸缩的前提没了,权限体系的前提没了,资源分配的前提没了。

李飞飞在演讲里总结了六个核心挑战:

活干几秒就结束、数据又多又杂要地方存、流量说来就来毫无规律、环境每次都不一样、安全管控要到任务级别、资源调度要搞大规模动态分配。

六个挑战,没有一个是传统云计算的老问题。全是新的。

所以,阿里云这次的动作是「重做」;从芯片到操作系统到安全体系到调度逻辑,每一层都要按新的假设重来一遍,这就是我说的:大切换。

...

切换,说着容易,关键是地基怎么打?

最直觉的思路是按产品线排:芯片做了什么,云做了什么,模型做了什么。但听完整场之后我觉得,换个角度可能更清楚。

按Agent的需求看。一个Agent要能上岗干活,到底需要什么?

先说力气。力气就是算力。Agent跟过去的chatbot不一样。一个chatbot调一次模型就完事了。

一个Agent执行一个任务,可能要连续调几十次模型,中间还要去查数据库、跑代码、操作浏览器。成千上万个Agent同时在线上干活,每个都在密集调用,算力压力是指数级翻上去的。

这就是真武M890要解决的事。

144GB显存,片间互联带宽800GB/s,性能是上一代的3倍。搭配自己做的互联芯片ICN Switch,128张卡在一个机柜里组成一台计算机,卡跟卡之间通信,时延低于150纳秒。

150纳秒是什么概念?人类眨一次眼大约要300毫秒。150纳秒是眨眼时间的两百万分之一。Agent的世界里,通信速度就要快到这种程度。

光有芯片还不行,芯片的能力得被释放出来。

平头哥有一套全自研的软件栈叫SAIL,从底层驱动到编程接口到通信库全部自己写的,6月份在官网上线,同步在GitHub开源。

大会上还公布了一个事实:真武芯片已经累计出货56万片,400多家客户,20多个行业。这不是实验室里的东西,是跑真实业务的。

有了力气,还得有地方干活,这个「地方」就是运行环境。Agent执行任务需要一个独立的空间,可以理解成工位。传统云上的工位是虚拟机或者容器,启动要几秒甚至几十秒,Agent用不了,太慢。

阿里云给Agent做的工位叫沙箱,百毫秒级启动,一分钟可以拉起两万个;干完活,沙箱自动销毁,资源释放。下次再来,重新分配一个全新的。

这里有个细节值得说:

Agent跟Agent之间、任务跟任务之间,隔离要求非常高。特别是企业级场景,一个Agent在处理A公司数据,另一个在处理B公司的,两边绝对不能串。

阿里云用的是硬件级别的隔离,从物理上彻底隔开。

更底层的地方也在动,龙蜥操作系统在内核级别做了Agent Task OS;操作系统本来是给人写的程序服务的,现在要给Agent的活服务,内核层面的资源调度逻辑都得改。

有力气、有工位了,还得有身份。

阿里云推了Agent ID服务,给每个Agent独立的身份认证、权限边界、行为审计;等于给Agent办入职手续:工牌、门禁卡、权限表,一样不能少。

配套的还有Agent Ops,管Agent整个生命周期,从开发到上线、从考核到进化,全链路可追踪;跟管人其实是一个逻辑。你招了一个员工进来,不能发完工牌就不管了。

有了身份,还得有记忆。

一个Agent如果每次执行任务都从零开始,什么都不记得,效率会很低。李飞飞讲记忆的时候用了一个词:承上启下。他说人做复杂任务,靠的就是记忆力,长的短的都要有。

阿里云把Agent的记忆分了三层:

短期记忆,一次对话里的上下文,类似你跟同事开会时的工作记忆。长期记忆,跨越多次对话,Agent上周干过什么、学到了什么,下次还能记得。

知识记忆,是外挂的企业知识库,公司多少年的文档、流程、规则,向量化之后Agent可以随时翻。

三层记忆各有各的存法,短期放高速缓存,长期用数据库存,知识库走向量检索。阿里云把自家数据库、大数据、存储产品线全拉进来了,各管各的。

有力气、工位、身份、记忆,还差一样:安全。

你去银行租了一个保险柜,往里放什么,银行不知道,也看不到。银行只管一件事:保证你的柜子只有你能打开。

阿里云的机密推理技术C-MASK,干的就是这件事。

你的数据进到模型里做推理,全程加密,连阿里云自己都看不见;数据能用,内容你看不到。等于说,你用阿里云的算力、环境、模型,但你最核心的数据,只有自己能碰。

百炼的技术负责人于文渊说了一句话,我觉得说到了点上:「安全不是Agent的可选项,是出厂标配。」

最后,Agent要能变聪明,这就是模型的事;Qwen3.7-Max这次展示了一种新的模型能力:自主完成复杂工程任务。

周靖人在台上说:

大模型正在从对齐人类偏好,转向对齐任务目标;过去追求模型说得好,现在要求模型做得到。这个转变对Agent来说是决定性的。

Agent需要一个能独立干活的大脑。35个小时无人干预写出生产级kernel,证明的就是这件事。

算力、运行环境、身份、记忆、安全、智能。六个模块,每一个都是从头做的,没有一个是在老系统上打补丁。

而且这套东西已经在跑了,MiniMax的MaxCloud产品,就跑在阿里云这套Agent基础设施上,从沙箱隔离到弹性调度到安全防护,全链路都用的上面说的这些能力。

全部重做,值不值最后还得看一件事:有没有人买单。

....

我查了一下阿里上周的财报。AI模型及应用服务的ARR已经超过80亿。管理层给的指引是年底突破300亿。消息出来那天,阿里股价涨了8%。

80亿到300亿,一年翻将近四倍。资本市场不傻,用脚投的票比嘴上说的话诚实。

这里面有一个更值得看的信号:Token驱动的MaaS收入,正在取代ECS成为阿里云最大的产品线。这句话值得停下来想一想。

ECS是什么?云服务器,阿里云起家的东西,卖了十几年的核心产品。按台收费,你买多少机器用多少。现在这个位置要让给Token了。计费单位从「台」变成了「Token」,整个增长逻辑都变了。

卖机器靠什么增长?靠客户买更多机器。客户的IT预算有天花板,一年就这么多钱,买完了就没了。

卖Token靠什么增长?靠Agent干更多的活。Agent越多、越自主、跑的时间越长,Token消耗就越大;一个Agent执行一次复杂任务可能消耗几万个Token,一天执行一百次,一年365天不休息。

这是一个自己转起来就停不下来的飞轮。

Agent越好用,企业越愿意部署更多Agent。Agent越多,Token消耗越大。Token收入越高,平台越有钱投入芯片和模型的迭代。

芯片和模型越好,Agent越好用。这个飞轮,才是阿里云全栈重做的真正驱动力。

生态也在跟着聚拢,大会现场,智谱、MiniMax、月之暗面等六家头部模型公司的代表一起上台,产品全部接入百炼。

刘伟光在台上翻出了2023年蔡崇信说的一句话:

阿里云要做AI时代最开放的云;三年过去,百炼变成了一个多模型、多模态的统一入口。

什么叫统一入口?开发者接一套API,就能调所有模型。不用给每家模型公司单独做适配,不用操心底层的算力调度和成本优化,百炼全包了。

对模型公司来说,上架百炼等于多了一个分发渠道,算力、调度、计费都不用自己操心;对企业来说,在一个地方就能挑到各家最好的模型,还能做对比、做精调、做评估。两头都有好处,生态才聚得起来。

还有一个事实容易被忽略:

阿里云是从芯片到HPC、到模型矩阵、到模型平台、到应用,完整打通五层全栈的云厂商。

全栈的意思是,从最底下的芯片到最上面的应用,中间每一层都是自己的。芯片是平头哥的,云是阿里云的,模型是千问的,平台是百炼的。

哪一层出了问题,自己就能改,不用等别人。哪一层有优化空间,自己就能动,不用跟别人协调。

Agent时代,这种全栈能力的价值会被放大。

因为Agent的工作负载穿透所有层,一个Agent执行任务,同时在消耗芯片算力、占用沙箱、调用模型推理、走平台调度。

任何一层出瓶颈,整个链路就卡住。每一层都能动,才有可能做到端到端的优化。

钱在跟着走,生态在聚拢,全栈能力在发挥作用;三件事加在一起,说明一件事:全部重做,才有很多想想空间。

本文来自微信公众号“王智远”(ID:Z201440),作者:王智远,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0