分享好友 健康资讯首页 健康资讯分类 切换频道

世界模型与世界的距离:数据、技术路线和落地预期

2026-06-15 21:160036kr

在过去一年里,“世界模型”在AI领域的关注度迅速升温。

而在当下投融资两端火热的具身智能赛道,它被寄予的期待并不低,如果一个模型能够理解物理世界,预测未来状态,并在交互中不断修正自身行为,那么机器人就有可能从当前依赖模仿学习和场景数据的执行系统,走向真正具备规划、试错和持续学习能力的智能体。

然而,目前业界对于“世界模型”似乎仍未有明确的边界。

在第八届“北京智源大会”的演讲中,智源研究院院长王仲远对现有技术路线进行了分类:第一类是以语言为中心的世界模型,包括VLM、VLA等;第二类是以像素为中心的世界模型,例如视频生成类模型,在视觉空间中学习视频或图像;第三类是以三维结构为中心的世界模型,包括3D重建及相关空间模型;第四类是以视觉表征为中心的世界模型,例如JEPA系列模型。

6月13日,在北京智源大会上的一场世界模型的圆桌讨论中,多位来自机器人、大模型、3D生成和具身智能公司的研究者给出了更审慎的判断:世界模型仍处于早期阶段,距离真正进入生产落地环节还有相当长的路。

参与讨论的嘉宾包括极佳视界联合创始人、首席科学家朱政,蚂蚁灵波科技首席科学家沈宇军,自变量机器人联合创始人兼CTO王昊,腾讯混元3D及世界模型负责人郭春超,星源智联合创始人、智源研究院具身交互世界模型实验室负责人孙振国。圆桌由智源研究院研究员于智薇主持。

以下为「明亮公司」整理精编后的论坛内容:

世界模型在真实系统中处于什么阶段?

郭春超首先从互联网和数字内容行业视角判断,世界模型距离严肃生产系统仍有距离。

在他看来,如果以工业生产或游戏管线为参照,世界模型目前更多还处于原型阶段。它可以被用于生成训练数据、快速验证某些设计想法,但距离高度自动化、达到高商业水准的系统仍有不少路要走。

他后续进一步补充,世界模型更容易率先落地的场景需要满足几个条件:容错度高、环境可验证、落地链条短。例如游戏原型验证、交互式娱乐、交互式短视频、交互式影视、营销活动、交互式广告等。这些场景对安全和精确控制的要求没有机器人那么高,因此比物理世界更容易跑通。

朱政从机器人落地角度做了对比。他认为,现在VLA或相关机器人模型在真实落地方面比世界模型更成熟。

原因在于,当前机器人较适合落地的场景主要是工业场景或泛服务场景。这些场景任务比较明确,机器人要做的动作种类有限,企业可以提前采集大量后训练数据,把模型训练到接近可用甚至接近100%成功率。同时,VLA在量化、压缩、部署和蒸馏方面已有相对完整的工程流程,比如可以部署在Orin等计算平台上。

相比之下,世界模型目前存在两个现实障碍。第一,很多世界模型依赖视频生成基础模型,而性能较好的视频生成模型参数量较大,常见在5B、10B量级,对端侧部署压力较高。第二,世界模型的主要优势在于跨场景、多任务泛化,更适合家庭等开放环境,但家庭场景距离成熟商业化仍较远。

因此,朱政认为,短期内世界模型更可能先在生产环节发挥作用,例如作为数据引擎、训练工具、环境构造工具,而不是大规模部署到真机上实时推理。

沈宇军则指出,VLA目前已经在尝试落地,世界模型路线也会很快进入投产尝试,但他并不认为二者任何一条就是最终答案。

他的判断比较克制:两条路线短期都可以推动商业检验,因为没有商业检验,模型无法真正迭代;但它们能做的动作和任务仍然非常有限。随着智能水平上升,任务成本会逐渐下降,两条路线最终可能在某个点交汇,并发展出一种更适合物理世界的独特模型。

他强调,未来这个模型是否还叫“世界模型”并不重要,重要的是它是否真正适用于物理世界。

王昊不主张把世界模型简单定义为视频生成模型。他认为,世界模型本质上是一类能力:模型内部是否形成了对世界运行方式的内化理解。

从自变量机器人的实践看,VLA和世界模型并没有清晰边界。VLA正在融合更多视觉和时序能力,而视频生成式世界模型也在从“预测下一状态”发展到“多轮预测动作和视频”。两条路线都在向语言、视觉、动作统一建模的方向演进。

他认为,推理慢等问题属于工程问题,并不构成最大障碍。真正的问题是:世界模型到底能不能在具体任务上超越原有VLA,尤其是在长程任务上体现优势。如果世界模型只是能做漂亮Demo,却不能在长任务和真实任务中优于已有方法,那么它的建模方式可能存在问题。

孙振国从控制理论角度区分VLA和世界模型。他认为,VLA更像一个开环系统,而世界模型提供了机器人做闭环决策的可能性。

如果世界模型只是训练辅助工具,让action head的latent具备更多dynamics学习能力,那么它只是多了一种训练范式。但世界模型的上限不应止于此。类比MPC,即模型预测控制,世界模型真正重要的能力是把未来dynamics融入控制闭环,让机器人在行动前进行预演,并基于反馈持续修正。

他承认,基于视频生成底座的世界模型推理更重,因为多了预测head或控制回路。但他认为,如果在latent space(隐空间)中做轻量化预演,并发展更轻量的action generation或action-conditioned model,世界模型用于多轮闭环控制是可能的。

世界模型与VLA:替代、并存还是融合?

围绕世界模型与VLA,嘉宾普遍不认为世界模型会简单取代VLA。更主流的看法是:二者正在相互吸收,未来可能融合成新的统一架构。

朱政认为,现在无论国外开源创业公司,还是大厂研究路线,都能看到VLA和世界模型互相吸收优点。

VLA正在吸收预测未来状态的能力,无论是显空间预测还是隐空间预测;世界模型也不再只是视频生成,而是在推理时预测动作,在训练时同时预测状态、视频和动作。由于研究这两类模型的人群本身高度重合,未来行业可能很快不再争论到底是VLA还是世界模型,而是形成兼具两类结构的模型。

沈宇军认为,VLA和世界模型目前都不是上限特别高的路线,至少不会是最终终点。短期它们都需要投产验证,但长期看,物理世界可能需要一种不同于现有概念的新模型。他认为,这种模型可能在两条路线交界处出现。届时它是否还被称为世界模型,不必过度纠结。

王昊认为,VLA和世界模型本质上是在从不同方向走向统一。

VLA借助语言能力,但缺少对时间和视频的处理;视频生成式世界模型有时间建模能力,但语言能力较弱。实际研发中,二者都会暴露能力短板,因此自然会融合。关键是能否实现语言、视觉和动作对齐。

他认为,世界模型不能仅靠视频生成或状态预测来证明价值,而要在联合预测中帮助模型形成对世界的内部理解。

孙振国更关心世界模型是否能进入控制闭环。如果只是在训练阶段辅助VLA,那么它与VLA的边界并不清晰;如果能像model-based control一样用于预测未来、评估动作后果、支持多轮控制,那么它就真正体现了世界模型的独特价值。

长尾、风险与安全:世界模型能否解决边缘情境?

主持人提出,真实系统往往最需要处理的是关键、危险、罕见的未来。比如自动驾驶中即将碰撞的情境,机器人交互中打翻杯子或碰倒物品的情况。嘉宾围绕长尾数据、安全和风险控制展开讨论。

孙振国认为,世界模型在解决长尾问题上有潜力。因为VLA训练往往更依赖高质量成功轨迹,而世界模型学习的是未来预测。对世界模型而言,成功数据和失败数据都有效,只要它们能够反映环境dynamics。

他提到,在自动驾驶领域,把世界模型作为长尾数据生成器已经有不少尝试。因此,长尾问题不一定是世界模型的短板,反而可能是其优势场景。

朱政从自动驾驶经验出发指出,自动驾驶相比机器人有先天数据优势。汽车即使没有自动驾驶功能也能上路,因此可以积累海量路测数据。在这些数据中,可能约1%是corner case(边缘情境)。只要有合适的数据挖掘方法,就能从海量数据中找出风险样本,再训练一个专门生成corner case的世界模型,把长尾样本比例从1%扩展到10%甚至更高。

但这个前提在具身智能中并不存在。机器人无法像车辆那样自然积累上亿公里级别的数据,也很难从中挖掘大量控制失败样本。具身场景只能在实验室、工厂或其他受控条件下逐步采集失败案例。

沈宇军认为,当前模型能力还没有到真正讨论安全的阶段,但安全一定需要提前考虑。

他指出,机器人和自动驾驶不同。车祸后果严重,但自动驾驶有交通规则,场景相对可枚举;家庭机器人面对的生活场景则过于开放,失败类型几乎无法穷尽。生活中的小错误,例如打翻水杯、碰倒东西,人类也会发生,只要不造成重大安全事故,容错率反而比自动驾驶高。

沈宇军提出两个未来方向:第一,机器人部署后应继续学习。机器人出厂时携带同一个模型,但卖到不同家庭一个月后,应根据各自环境变得不同,更适配具体家庭。第二,可以引入低成本人类示教。如果机器人打翻水杯,人可以使用简单采集设备示范如何收拾桌子,机器人通过一两次示范学习新行为。

王昊同意沈宇军关于开放世界不可穷尽的判断。他认为,试图通过世界模型或数据驱动方式覆盖具身场景中的所有corner case,并不现实。人类只能在一个小世界中为机器人采集数据,但机器人真实面对的是远比人类预设复杂的开放世界。

因此,关键不是帮助机器人覆盖所有场景,而是赋予机器人更多能力,尤其是学习能力。他强调:“学习不是训练的一种方式”,训练只是学习的一部分。机器人如果不能在部署后保持学习能力,就无法从实验室走向开放环境。

他还提到,自变量机器人在真实家庭评测中发现,模型在自有评测环境中任务成功率较高,但放到提前没有接触过的家庭环境后,成功率会明显下降。这说明,靠训练数据本身无法彻底解决开放环境泛化。

郭春超从机器学习角度指出,corner case本质上是泛化的问题。要解决泛化,当前基于短视频片段和像素空间的学习机制效率较低。

他举例说,模型看到倒水会洒,不能只学习画面,而应理解“水是液体”“液体会流动”“倾倒液体可能洒落”。这样换成牛奶、果汁甚至危险化学液体时,模型才能泛化。仅靠采集倒100种液体的视频并不现实,关键是形成语言和概念层面的抽象。

因此,郭春超认为,越是专业性的corner case,越需要语言为中心的多模态模型发挥作用。即使团队做的是视觉和多模态,解决泛化问题也离不开语言中心的抽象与决策能力。

泛化能力的瓶颈:范式、数据、强化学习还是持续学习?

在讨论中,一个潜在的共识是,预测能力不是世界模型的真正分水岭,泛化能力才是。

朱政认为,当前距离真正可用的最大差距,可能在于行业对强化学习的重视不够。

他认为,过去行业在模仿学习、多模态对齐、语言对齐上做了大量工作,也有很多开源框架可参考。但在如何权衡仿真强化学习、真机强化学习以及世界模型中的强化学习方面,探索还不够。

无论是跨场景、跨物体泛化,还是家庭机器人,朱政认为都必须重视强化学习。机器人不能只模仿已有轨迹,还需要通过试错和反馈提升能力。

沈宇军认为,短期内泛化的核心仍然是数据。机器人和人一样,见过才会做,没见过就不会做。一个人到新家庭当保姆,没用过某些家电也要问人,不能要求机器人天然zero-shot做得比人还好。

但他强调,数据问题不仅是数量,也是质量。数据分布、标注方式、组织方式都非常重要。数据量堆到一定阶段后,泛化能力的提升就不再主要来自更多数据,而是来自持续学习和快速学习能力。

他认为,未来机器人应当能通过少量样本,甚至一次示范,快速学会新任务。凌波的目标也不是追求完美zero-shot,而是在后训练过程中让所需样本越少越好。

孙振国认为,泛化本身不应被视为终极目标。人类也不是天然会做所有事情,而是具备基础学习能力,并能以较低成本完成自我提升。

他更关注模型是否能拥有foundation model级别的基础能力,并在新场景中快速自我进化。他认为强化学习、持续学习、终身学习都是值得探索的路径,而世界模型天然具备某种自我进化潜力。

他的判断是,未来行业可能不再重点讨论“泛化”,而是讨论模型如何在目标场景中快速达到所需能力状态。

哪些世界模型能力已经走出Demo?

朱政认为,目前已经有一些多任务尝试。在他的理解中,VLA更适合单任务,而世界模型更适合多任务。但他没有认为世界模型已经大规模进入生产,只是看到一些早期能力正在出现。

沈宇军认为,如果讨论物理世界,他暂时没有看到任何世界模型能力真正进入可投产阶段。数字世界可能进展更快,尤其是gaming,也就是游戏方向,可能是最先被改变的场景。

王昊提出一个重要区分。如果世界模型被定义为先显式生成视频或状态,再用它引导动作生成的两阶段系统,那么目前还没有真正落地。因为视频或状态预测能力本身还不够强,后续动作生成会被卡住。

但如果世界模型被理解为隐式表征,即训练时利用视频建模能力引导动作生成,推理时不一定显式生成视频,那么已经有相当多任务在做。他认为,这类能力很难说完全来自世界模型、语言还是视觉,而是多模态联合能力。

在开放家庭任务中,他观察到一些泛化增强。例如同样是擦桌子、整理桌面,不同家庭中的背景、光照、物体都不同,隐式世界建模能帮助模型更好适应变化。

他还指出,世界模型如果要解决长程任务,不能只靠短视频预测。视频预测不需要很长,因为长预测误差会积累,也耗费时间。更合理的方式是结合语言,把短期世界预测和长期任务规划结合起来。

郭春超认为,满足高容错、环境可验证、短链条这几个条件的应用会更快落地。例如游戏原型验证,已经可以用模型快速生成游戏场景原型,帮助团队判断是否符合需求。

未来交互式娱乐、交互式短视频、交互式影视、互动营销和互动广告也可能较快落地。这些场景不是完全严肃的线上生产系统,但已经有部分可用性,并会随着模型质量提升逐步扩大。

孙振国认为,如果追求zero-shot到所有场景,世界模型离落地还很远。但如果是在结构化场景或单一场景内做结构性泛化,已经能看到商业化可能。

他举例提到心脏超声机器人项目,基本可以对成年男性进行较精确的心脏超声扫描。这类场景任务边界更清楚,因此比通用机器人更接近落地。

五年后,今天哪些观点可能被证明是错的?

孙振国认为,今年以来主流世界模型范式多基于视频生成底座,尤其是language-conditioned world model(语言条件世界模型)。但他认为这种范式瓶颈明显。

相较之下,他更相信action-conditioned world model(动作条件世界模型),也就是以动作为条件预测下一个状态。对于机器人而言,动作是改变世界状态的关键变量,仅靠语言条件生成未来并不足够。

郭春超也认为,如果只是基于当前视频生成模型做后训练,再作为世界模型使用,可能并不合适。他强调,未来也许会有新的视频生成范式或多模态融合范式,但就现阶段而言,基于dense view或10秒、15秒短视频片段的学习方式,距离真正世界智能还很远。

王昊认为,五年后回看,试图用互联网数据或纯第一人称视角数据训练具身世界模型,可能会被证明是错误的。

他的理由是,具身智能的核心在于交互。比如伸手拿水瓶,大部分时间只是手靠近水瓶,真正重要的是接触前后那一瞬间的状态突变。状态平滑变化容易预测,但接触、受力、状态切换等交互过程很难仅从互联网观察数据中学到。

因此,纯观察数据无法充分降低具身交互中的关键信息不确定性。真正的世界模型需要理解物理交互导致的状态改变。

沈宇军认为,最大错误可能是把世界模型仅仅看作数据生产工具。

他从生成模型经验出发提出一个悖论:如果生成模型强到可以生成足够多、足够好的数据来训练另一个模型,那么它自身大概率已经具备蒸馏出目标能力的潜力;如果它不够强,那么它生成的数据也未必足够好。这个问题像莫比乌斯环,长期难以证明真正有效。

因此,他不太相信“用生成模型生成大量数据,再训练另一个强模型”是世界模型的最终路线。一个足够强的模型不应只是另一个模型的数据供应方。

朱政则认为,五年后可能被证伪的是当前某些“数据大跃进”式想法。有人提出年底采集1000万小时数据,甚至未来采集1亿小时数据,但他认为,如果不提高数据利用效率,这在经济上不可接受。

他估算,如果每年训练几十万小时数据,就可能花费数亿元级别的数据采集和GPU成本。如果数据量扩大10倍、100倍甚至1000倍,成本将达到不可持续水平。

因此,他认为未来强世界模型更可能建立在几百万小时高质量数据上,而不是几亿小时粗放数据上。

本文来自微信公众号“明亮公司”(ID:suchbright),作者:主编24小时在线,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
价格战退潮,极兔困在沙滩上
2026年6月,国家邮政局一纸立案调查公告,将极兔速递推上舆论风口。公告直指极兔对加盟体系安全生产管理缺位,未落实安全保障统一管理责任。从极兔的现状以及市场竞争来谈,如果只把该问责视为孤立的安全事故,并不能窥探到极兔的真实困境。无论是内部的安全合规治理,还是外部面临的盈利以及市场压力,极兔多年低价扩张造成的隐患集中爆发。此前,极兔从东南亚杀入中国市场,用低价快速跻身行业头部,也留下了管理粗放、服务

0评论2026-06-150

氪星晚报 |我国成功发射吉星高分07C04星等8颗卫星;小红书或已准备好本月在香港提交IPO申请;智谱:公司已推出最新一代旗舰模型GLM-5.2
大公司:支付宝:政务AI助手“晓政”服务突破1亿次36氪获悉,支付宝宣布,旗下政务AI助手“晓政”累计服务次数突破1亿次。截至目前,“晓政”服务已覆盖16000项服务事项,成功落地助力70余家部委及省级政务机构,业务场景全面覆盖公积金、人社、公安、不动产等民生领域。小雨智造与地瓜机器人正式宣布达成战略合作36氪获悉,6月12日,小雨智造与地瓜机器人正式宣布达成战略合作,双方将围绕“工业具身大脑+端

0评论2026-06-150