分享好友 健康资讯首页 健康资讯分类 切换频道

马斯克大赞阿里AI,9B参数硬刚120B,海外网友:这叫小模型?

2026-03-03 17:216036kr

马斯克又双叒叕下场点赞中国 AI 了。 

昨天深夜,阿里通义千问团队在 X 平台正式发布了 Qwen3.5 小模型系列,覆盖 0.8B、2B、4B 和 9B 四个参数规格。甫一发布,便在海外科技圈引发强烈反响。 

马斯克也在该推文下评论称:「Impressive intelligence density」(令人印象深刻的智能密度)。这股热度的背后,APPSO 也好奇,为什么这几款小模型能够激起如此大的波澜?

又小又猛,凭什么 

Qwen 官方在 X 平台发帖宣布这批模型上线,言简意赅地将其定位为「更强的智能,更少的算力」。 

官方强调,四款小模型共享同一套 Qwen3.5 基础架构,原生支持多模态,并经过架构层面的专项改良与大规模强化学习训练。 

Qwen 团队表示,希望这批模型能更好地支撑学术研究、实验探索与真实工业场景的创新落地,同时也宣布同步发布对应的 Base 基础模型。 

Qwen3.5 系列模型核心采用「门控增量网络与稀疏混合专家」相结合的混合注意力架构,注意力层以 3:1 的比例排列,即 3 个 Gated DeltaNet 层搭配 1 个 Gated Attention 层。 

这一设计的关键在于,模型在前向传播时只激活对当前任务必要的网络部分,而非全量计算,从而在极低延迟与算力开销下实现高吞吐推理。 

附上 HuggingFace 地址: https://huggingface.co/Qwen/Qwen3.5-2B 

多模态这块也有讲究。Qwen3.5 采用「早期融合」训练机制,文本、图像、视频在底层就一起处理,不是在文本模型上事后挂个视觉编码器。 

这个差异直接决定了小参数模型在视觉问答、OCR 文档理解等任务上,能打出远超同量级传统轻量多模态模型的表现。 

全系列同时支持长达 26 万 Token 的上下文窗口,并引入「思考」与「非思考」双模式,可在深度逻辑推理与快速响应之间灵活切换。 

0.8B 与 2B 模型均为 24 层结构,隐藏维度分别为 1024 和 2048,专为物联网设备等极端边缘场景设计,也可直接在主流手机上原生运行。 

尽管 0.8B 在语言基准 MMLU-Pro 上得分 29.7,表现平平,但受益于早期融合架构,其在视觉任务 MathVista 上达到 62.2,OCRBench 达到 74.5,展现出与参数量不相称的视觉理解能力。2B 模型的 OCRBench 进一步提升至 84.5,表现亮眼。 

4B 模型为 32 层结构,隐藏维度 2560,能够流畅运行于消费级移动硬件。官方将其定性为「出乎意料强大的多模态轻量智能体底座」。 

9B 则再进一步,同为 32 层结构,但隐藏维度提升至 4096,FFN 维度扩展至 12288,可以在 Mac 上流畅运行。

其 MMLU-Pro 得分达到 82.5,不仅超越了参数量为其三倍的上一代 Qwen3-30B,在视觉任务上更以两位数优势超过 GPT-5-Nano 与 Gemini 2.5 Flash Lite。 

MMMU-Pro 得分高达 70.1,MathVision 达到 78.9,证明了其在复杂物理和数学图像解析上的实力。官方将 9B 的目标明确为「缩小与前沿大模型的能力差距」,从基准数据来看,这一目标已初步实现。 

海外开发者对这批模型的实际表现给出了高度正面的评价。 

有开发者直言,称其为「小模型」不过是低估了它,就好比把飓风叫做微风。 

另有观点认为,真正值得关注的指标是每十亿参数所能释放的智能密度。如今只需 3 万美元的硬件,就能跑出一年前需要 20 万美元 GPU 配置才有的推理能力。 

已有开发者演示了在 iPhone 17 Pro 上通过针对 Apple Silicon 优化的 MLX 框架本地运行 Qwen3.5-2B 6-bit 版本,模型可实时完成视觉理解与问答任务。 

网友在本地 Vision Agents 应用中实时识别手写内容并即时回答问题,并感叹这在几个月前根本无法实现。 

还有用户这样总结道,9B 模型性能与规模达 120B 的 ChatGPT 开源模型相当,体积却只有其十三分之一,且完全免费,可在任何笔记本电脑乃至手机上运行。 

知名开源推理工具 Ollama 也迅速跟进,官宣支持 Qwen3.5 全系四个尺寸,并配套提供原生工具调用、思维链推理与多模态功能,只需一行命令即可拉取运行。 

附上地址:https://ollama.com/library/qwen3.5 

跑分是起点,AI+硬件才是终局 

在谈及阿里为何坚持追求开源与发布全尺寸模型时,千问技术负责人林俊旸曾在清华 AGI-Next 峰会上转述其师弟的观点,给出了一个朴素的答案。 

他表示,小模型起源于内部实验需求,是为了让资源有限的学生也能参与研究。他回忆道,7B 规模的模型已让很多硕士博士生无力承担实验成本,若将 1.8B 的模型开源出去,很多同学就有机会顺利毕业,「这是很好的初心」。

平心而论,Qwen 系列一路开源走下来,客观上确实让很多人用上了本来用不起的 AI 模型。而对于普通用户而言,想亲身体验这批最新的小模型其实也不复杂。 

目前,你可以通过 PocketPal AI 这款手机应用,直接下载并在本地运行 Qwen3.5 系列模型,无需任何 API,模型推理全程在设备端完成。 如果不习惯英文界面,可以在设置 (Setting) 里找到语言 (Language) 选项,切换成中文。 

(具体教程可参考 APPSO 此前的文章:《我在 iPhone 17 Pro Max 上跑 AI 模型,体验了一把十年前「越狱」的快乐》)。 

不过有一个细节,比选哪个模型更重要:选对量化版本。

BF16 是接近原始精度的半精度权重,回答稳定性最好,推理细节与对齐效果最接近原版,但 2B 的 BF16 权重文件就要 4.45GB,运行时还需额外占用内存用于 KV cache 和运行缓冲区,极易触发系统杀后台或直接加载失败。 

因此手机端的选择逻辑应该是:可用内存长期能剩 6GB 以上,优先选 IQ4_NL;可用内存常在 3GB 至 5GB 之间,优先选 Q3_K_M;可用内存更低,才考虑 Q3_K_S 等等。 

说到底,一个无法独立运行的模型,不过是一堆权重文件。真正有价值的,是与正确硬件深度绑定、以正确量化格式部署的小模型,那才能成为真正的产品。

智能手机时代本质上是「单向输入」的范式,而即将到来的 AI 硬件浪潮,是要以更碎片化、更有粘性的方式接管人类的记忆与生活。小模型,正是给这些硬件注入灵魂的关键。 

阿里已将 Qwen 小模型嵌入 AI 眼镜等可穿戴硬件,实现毫秒级端侧视觉解析。在真实物理场景中,向眼镜询问前方障碍物时哪怕延迟三秒也会失去全部意义,而这恰恰是云端大模型无法克服的物理瓶颈。 

简言之,遇到需要深度推理的复杂问题,再作为路由器把请求交给云端的大模型处理。端云协同架构,才是接下来几年计算平台的基本形态。

包括在 iPhone 的「视觉智能」中,当用户把摄像头对准餐厅或商品,端侧实时完成场景解析、文本提取,甚至直接唤起购买流程,全程在设备上完成。 

此外有媒体报道称,苹果下一步还在开发带摄像头的 AirPods 和智能眼镜,这些设备会变成用户的「第二双眼睛和耳朵」。 

工业方面,IoT 设备、工厂传感器、医疗监测终端,这些场景里数据隐私更敏感,本地推理同样是硬需求。而端侧小模型实时处理第一视角多模态数据,则是绕不过去的基础设施。 

就像今天没有人会专门写一篇文章夸手机能打电话一样。AI 眼镜、AI 手表、AI 耳机等可穿戴设备,现在听起来还有点新鲜,但在未来,它们也会变得稀松平常。 

而让这件事成为可能的,恰恰是一批又一批看似没什么存在感的小模型。它们很小,但如无意外,它们将无处不在。

附上 HuggingFace 地址: 

https://huggingface.co/collections/Qwen/qwen35 

本文来自微信公众号“APPSO”,作者:发现明日产品的,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
抛弃“不作恶”,谷歌和五角大楼签订协议、承接美军机密AI业务,超700名员工联名反对
谷歌,这个曾以“不作恶”为行为准则的科技巨头,如今正深陷一场前所未有的内部风暴。28日,美国消费者新闻与商业频道(CNBC)援引科技媒体“The Information”报道,谷歌已与美国国防部签署协议,承接机密人工智能业务。一位知情人士透露,美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称,本周,700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊,要

0评论2026-04-297

一季度净利环比暴增27倍,剑桥科技股价一年涨三倍,险资与社保基金加仓,股东高管减持
4月27日盘后,光模块概念大牛股剑桥科技(603083.SH、06166.HK)发布2026年一季报,公司一季度营收同比增长43.98%至12.87亿元;归母净利润同比增长276.44%至1.18亿元。从环比来看,剑桥科技今年第一季度营收环比下滑约12%;净利润环比增长2722.62%,而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股,剑桥科技H股曾在11个交易日完成了翻倍,4月2

0评论2026-04-297

32美元一辆车,Tesla为什么不认?(下)
本案真正值得关注的,不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是,如果法院最终认为这类平台许可条款不能进入FRAND审查,那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时,实施者还能不能有效挑战其许可条件?这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看,Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-297

“保本”又“看病”?监管部门约谈健康险公司,中介平台下架热销“医疗金”产品
早在前两年,市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长,这类产品的资产增值属性被放大,经过长期现金价值积累,配合可以累积的医疗保险金,使得产品有着不输理财型产品的收益率,这也是引起监管部门关注的原因之一。2026年4月初,当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时,他可能不会想到,体验活动中的重磅产品“岁月长安·特定疾病保险(互联网版)”即将面临下架。4月

0评论2026-04-295