2026年,正处于产业跃升关键期的AI硬件,告别了零散的概念堆砌阶段。
工业和信息化部、商务部、市场监管总局联合发布的《人工智能终端智能化分级》系列国家标准,为这个躁动的赛道划定出了一个明确的刻度,将终端智能划分为L1到L4四个等级,从响应级逐步上升到协同级。
这套标准体系明确了感知、认知、执行、记忆、学习五个能力要素,覆盖了手机、电脑、电视、眼镜、汽车座舱、音箱、耳机七个品类,基本框定了第一批有望规模普及的AI硬件形态,并给出了具体的测试方法。
对消费者来说,从此一台设备到底有多聪明,不用再费力参透技术逻辑,也不用再听厂商自说自话。
与标准发布几乎同一时期,阿里云在5月20日举办的阿里云峰会上展示了多款AI硬件的落地成果,同时宣布与天猫共同发布“千问智能硬件X天猫合作计划”,计划包括千问模型专享权益、天猫亿级流量扶持、以及全域品牌曝光资源等,双方将共同投入1亿+资源,从技术、品牌、销售渠道三个维度帮助硬件厂商完成价值跃迁,加速AI硬件新物种爆发。
天猫618大促即将开启,搭载千问能力的多款AI硬件将在天猫亮相,双方平台联合提供流量与品牌曝光资源,推动AI硬件加速商业化落地。国家为AI硬件划出了金字塔,云厂商则提供了登上金字塔所需要的能力底座。
这些迅速发生的改变,指向了同一个趋势:
AI硬件正在从端侧的概念验证,走向端云协同的规模普及,而AI云服务的能力释放则恰好踩在了这个转折点上。
01. 谁停在了L1,谁冲向了L4?
从L1到L4,每一级跃升都对应着能力门槛的抬高。
L1设备只能执行预设指令,本质上是传统电器的智能化翻版;L2则开始具备工具属性,用户可以主动调用某些功能。
中国电子技术标准化研究院副院长于秀明在解读标准时指出,经过调研与测试分析,目前用户持有率较高的产品普遍处于L1和L2级,部分新品可达到L3级水平。
整体来看,AI终端正在沿着传统终端升级、新兴终端扩量、未来终端探索三条路径并行演进。
真正的分水岭在L3辅助级。L3的核心是终端能够全面理解用户的指令和意图,并且具备主动识别和主动提供服务的能力。
以智能空调为例,L3级别的设备可以自动识别用户额头上是否冒汗,然后主动调低温度,用户按下离家模式后,摄像头会先判断家里是否还有人,等人穿好鞋离开后再关灯。这些动作需要综合音频、视频、传感器多种输入,做出复杂的意图识别和判断。标准要求设备具备复杂意图理解、链式推理及长期记忆能力,意味着设备不能只回答是什么,还要理解为什么,甚至预判接下来该做什么。
有些硬件厂商过去几年在L1级别原地踏步,呈现出了几种典型特征。
一种是产品定义过于封闭,只解决单一功能,没有为后续升级预留传感器或者算力冗余;另一种是过度依赖端侧的轻量模型,导致在复杂场景下能力断裂。
还有一种更加隐蔽:把L1的功能包装成L2、L3的噱头,这类产品会在标准测试面前迅速现形,消费者也会用脚投票。
对此,阿里云智能集团公共云事业部解决方案架构部副总经理陈立伟的判断是,整个硬件行业正处于从L2向L3迈进的阶段,谁能率先构建起L3的基础架构,实现L3级别的产品体验,谁就能拿下更大的市场空间。
停在L1、甚至L2,都不再是安全区。而想要平稳进入L3阶段,需要的是多模态感知与泛化推理的配合。
本次阿里云峰会还重磅发布千问旗舰模型Qwen3.7-Max。在三方机构Arena全球大模型盲测总榜中,Qwen3.7-Max位列国产模型第一,对标全球最强模型。
Qwen3.7-Max的设计初衷,其实就是让模型成为Agent的内核,具备自主规划、持续迭代、跨端协同的能力,技术升级恰好对应了L3级别对感知和认知要素的要求。目前,阿里云面向智能硬件行业提供的多模态交互开发套件已全面支持接入Qwen3.7-Max。
云端泛化能力越强,硬件的L3适配成本就越低。陈立伟也指出:“今天没有任何一款硬件产品可以通过单一的模型达成端到端的闭环用户体验,解法一定是多模型组合的方式。”
02. 端云协同,成为必选项
在L3辅助级之后,L4协同级会是一次更大的跃迁。
从现有定义来看,L4的核心特征关注的不是单个设备是否更聪明,而是多个设备组成一个智能系统。用户走进家门,眼镜、音箱、机器人、座舱之间就会自动共享记忆,进而在物理世界中服务用户。
因此,未来想要让技术和产品平稳落地在L4,硬件厂商面临的最大挑战,就是系统集成与设备协同。
标准分类表中,从移动终端到眼镜、耳机,大部分产品标注的是端云协同,背后的逻辑很直接:实时响应依赖端侧,复杂推理依赖云端,是当下的智能化最优解。
科沃斯管家机器人“八界”就是一个典型例子。基于对开源及模型持续迭代能力的考虑,科沃斯很早就选择接入了千问大模型。
管家机器人的核心挑战,来自于家庭环境的非标性,其安全等级要求高、信息密度大、需求非常长尾。科沃斯“八界”的解决方案之一是,将机器人的原子能力(抓拿、取放、感知、规划)封装成容易被模型理解的API接口,云端基于Qwen3.6-Plus处理环境感知和动作拆解等复杂任务。
当用户说出整理客厅这样的模糊指令,可以先结合云端理解客厅包含哪些物体、整理的标准是什么,然后拆解为一系列动作指令下发给机械臂。这一系列理解的背后可以不用预编程,“八界”上的智能体主动串联出了任务。
目前,科沃斯还将“八界”的系统、原子能力和仿真平台开放了出来,让更多生态伙伴通过“八界”很方便地参与到家用机器人的算法开发和应用落地中。
杭州研极微旗下的神眸系列产品同样印证了端云协同的必要性。作为一家专注低功耗智能影像的公司,研极微的产品核心是把摄像头的供电和网络通讯难题做优化,做到无网无电。低功耗带来的挑战是,端侧芯片的算力有限,无法承载大规模模型的推理负载。
他们的解决方案是,端侧做实时打标和初步处理,通过端侧的AI芯片识别画面中有人、有车、有非机动车,然后将文本图片信息通过低功耗的4G信标上传到云端;云端再基于千问大模型做深度理解和结构化记忆,让用户可以像搜索相册一样提问相机,比如“昨天下午门口出现过什么颜色的猫”。而这种体验在纯端侧方案下几乎不可能实现。
基于这套架构,这家公司的付费转化率提升了25%,平均客单价提升30%,付费用户持续留存率达到75%以上。AI能力直接转化为了商业竞争力。
端云协同的分工模式,正在成为行业共识,云厂商的角色也随之发生了巨大变化。
过去,云厂商只提供算力、存储等云资源,现在则变成了提供端云协同、围绕Agent的基础设施底座,将视觉理解、任务规划、甚至前端代码生成能力打包成可调用的服务,从提供平台、提供模型到提供Agentic Coding,从开发层降低硬件厂商将AI能力嵌入到现有系统中的门槛。
陈立伟也总结了阿里云当下的四个核心挑战:模型的组合、工程的复杂性、持续运营的能力、数据的闭环。
谈及模型组合与工程化,值得提及的是此前发布的新一代全模态大模型Qwen3.5-Omni。
Qwen3.5-Omni在音视频理解、识别、交互等215项任务中取得了SOTA,大幅增强了实时交互体验,拥有了“高情商”。更令人惊喜的是,Qwen3.5-Omni展现出了音视频Vibe Coding的能力,用户对着镜头阐述需求,模型就能自主生成APP、网页、游戏等复杂产品代码。实时全模态能力,为AI硬件从L1、L2走向L3、L4提供了关键的技术基础。
全模态模型不断成熟的同时,硬件厂商们也在探索差异化的落地路径。
比如,乐森机器人作为专注toC人形机器人的公司,正在布局一个有趣的端云协同尝试。用户可以通过家庭局域网,用自己的电脑或本地智能体完全接管机器人的AI系统,从而让机器人拥有智能家居控制、方言对话、个性化话题等定制化能力。
刚刚发售全球首款具备视觉感知能力AI耳机的光帆科技,观察到过去一年AI硬件行业最大的变化就是“快”,软硬件迭代速度惊人,AI从单纯的聊天进化出智能体和自学习能力,能做的事情每天都在大幅增加。而光帆的实践路径是构建一套比OpenClaw范围更广的AI原生操作系统,涵盖多模态交互、硬件调度、软件调度和算力调度。
“一线玩家”们的探索,证明了端云协同是一个“难而正确”的长期主题。云端智能正在快速进化,而端侧的执行能力和硬件调度能力,仍然是决定AI硬件智能化阶段的关键变量。
03. 协同边界在哪,市场就在哪
除了技术指引之外,分级标准的意义还有商业化层面的信号释放。
消费者可以依据L1到L4来评判产品,以此为动力,硬件厂商也会随之出现明确的升级路线图。
尤其是对于创业公司来说,自研多模态模型和推理框架是不现实的,更多厂商需要的是标准化的AI底座和明确的商业回报路径。
AI硬件服务的商业想象力,从噜咔博士AI拍学机的高用户黏性中有迹可循。噜咔博士公开数据显示,早期用户的日均使用时长只有30多分钟;接入Qwen3.6-Plus之后,日均时长提升了50%,每个月约有5000万张用户拍摄的照片与AI互动。更精准的万物识别和OCR能力带来了更高频的图片识别,泛化推理的增强带来了问答轮次的提升,可量化的AI底座进步,直接反馈为用户黏性的质变。
用户每天在硬件设备上产生上百次交互、积累了大量个人兴趣数据之后,一个自然的需求也浮现出来:这些记忆和偏好,如何才能联动到其他设备上?比如在学校的设备上继续基于数据制定学习任务。
单个设备的智能化水平达到一定高度后,市场真正的想象力就会来到全场景共生下的系统智能。
标准里提到的L4协同级,核心特征就是跨设备协同与用户偏好记忆。一台手机、一副眼镜、一个座舱、一个音箱,围绕用户形成一张智能网络。
你戴着眼镜走进车里,座舱自动切换你的驾驶偏好;你对着音箱说一句话,机器人开始整理客厅。一致的体验需要所有设备共享同一个云端智能底座,也需要云厂商提供统一的身份、记忆与执行调度体系。
全场景共生,会直接改变AI硬件的商业化逻辑。
过去做硬件,大多靠供应链赚钱,每卖出去一台就完成了一次交易。如今AI的叠加打开了全新的想象力,未来也可以通过订阅的方式持续产生溢价服务。
在协同场景下,用户更愿意为跨设备的连续体验付费,比如订阅个人助理服务、购买场景化技能包。由此,整个赛道的价值分配也会重新洗牌。
举个已经存在的例子,Rokid眼镜在端侧接入阿里版OpenClaw产品JVS Claw后,职场人士能高效地完成创建日历、回复微信、支付等操作,这些高频行为如果能进一步被整合和沉淀为提升工作效率的场景,就可以延伸出生活助理的订阅服务。
618大促期间,天猫也上线了数十个搭载了JVS Claw的主机品牌,全面接入智能助手,迎来Agent PC时代。
硬件变成了服务的入口,而不是终点。
市场重构的浪潮,会涌向那些能够融入这张智能网络的产品,逐渐抛弃孤岛般的L1级别设备。
分级标准给出了产业终局的指引,端云协同提供了确定性的路径,而云厂商的标准化能力也正在让这条路变得更宽、更平。