世界模型与世界的距离：数据、技术路线和落地预期_健康_健康资讯

在过去一年里，“世界模型”在AI领域的关注度迅速升温。

而在当下投融资两端火热的具身智能赛道，它被寄予的期待并不低，如果一个模型能够理解物理世界，预测未来状态，并在交互中不断修正自身行为，那么机器人就有可能从当前依赖模仿学习和场景数据的执行系统，走向真正具备规划、试错和持续学习能力的智能体。

然而，目前业界对于“世界模型”似乎仍未有明确的边界。

在第八届“北京智源大会”的演讲中，智源研究院院长王仲远对现有技术路线进行了分类：第一类是以语言为中心的世界模型，包括VLM、VLA等；第二类是以像素为中心的世界模型，例如视频生成类模型，在视觉空间中学习视频或图像；第三类是以三维结构为中心的世界模型，包括3D重建及相关空间模型；第四类是以视觉表征为中心的世界模型，例如JEPA系列模型。

6月13日，在北京智源大会上的一场世界模型的圆桌讨论中，多位来自机器人、大模型、3D生成和具身智能公司的研究者给出了更审慎的判断：世界模型仍处于早期阶段，距离真正进入生产落地环节还有相当长的路。

参与讨论的嘉宾包括极佳视界联合创始人、首席科学家朱政，蚂蚁灵波科技首席科学家沈宇军，自变量机器人联合创始人兼CTO王昊，腾讯混元3D及世界模型负责人郭春超，星源智联合创始人、智源研究院具身交互世界模型实验室负责人孙振国。圆桌由智源研究院研究员于智薇主持。

以下为「明亮公司」整理精编后的论坛内容：

世界模型在真实系统中处于什么阶段？

郭春超首先从互联网和数字内容行业视角判断，世界模型距离严肃生产系统仍有距离。

在他看来，如果以工业生产或游戏管线为参照，世界模型目前更多还处于原型阶段。它可以被用于生成训练数据、快速验证某些设计想法，但距离高度自动化、达到高商业水准的系统仍有不少路要走。

他后续进一步补充，世界模型更容易率先落地的场景需要满足几个条件：容错度高、环境可验证、落地链条短。例如游戏原型验证、交互式娱乐、交互式短视频、交互式影视、营销活动、交互式广告等。这些场景对安全和精确控制的要求没有机器人那么高，因此比物理世界更容易跑通。

朱政从机器人落地角度做了对比。他认为，现在VLA或相关机器人模型在真实落地方面比世界模型更成熟。

原因在于，当前机器人较适合落地的场景主要是工业场景或泛服务场景。这些场景任务比较明确，机器人要做的动作种类有限，企业可以提前采集大量后训练数据，把模型训练到接近可用甚至接近100%成功率。同时，VLA在量化、压缩、部署和蒸馏方面已有相对完整的工程流程，比如可以部署在Orin等计算平台上。

相比之下，世界模型目前存在两个现实障碍。第一，很多世界模型依赖视频生成基础模型，而性能较好的视频生成模型参数量较大，常见在5B、10B量级，对端侧部署压力较高。第二，世界模型的主要优势在于跨场景、多任务泛化，更适合家庭等开放环境，但家庭场景距离成熟商业化仍较远。

因此，朱政认为，短期内世界模型更可能先在生产环节发挥作用，例如作为数据引擎、训练工具、环境构造工具，而不是大规模部署到真机上实时推理。

沈宇军则指出，VLA目前已经在尝试落地，世界模型路线也会很快进入投产尝试，但他并不认为二者任何一条就是最终答案。

他的判断比较克制：两条路线短期都可以推动商业检验，因为没有商业检验，模型无法真正迭代；但它们能做的动作和任务仍然非常有限。随着智能水平上升，任务成本会逐渐下降，两条路线最终可能在某个点交汇，并发展出一种更适合物理世界的独特模型。

他强调，未来这个模型是否还叫“世界模型”并不重要，重要的是它是否真正适用于物理世界。

王昊不主张把世界模型简单定义为视频生成模型。他认为，世界模型本质上是一类能力：模型内部是否形成了对世界运行方式的内化理解。

从自变量机器人的实践看，VLA和世界模型并没有清晰边界。VLA正在融合更多视觉和时序能力，而视频生成式世界模型也在从“预测下一状态”发展到“多轮预测动作和视频”。两条路线都在向语言、视觉、动作统一建模的方向演进。

他认为，推理慢等问题属于工程问题，并不构成最大障碍。真正的问题是：世界模型到底能不能在具体任务上超越原有VLA，尤其是在长程任务上体现优势。如果世界模型只是能做漂亮Demo，却不能在长任务和真实任务中优于已有方法，那么它的建模方式可能存在问题。

孙振国从控制理论角度区分VLA和世界模型。他认为，VLA更像一个开环系统，而世界模型提供了机器人做闭环决策的可能性。

如果世界模型只是训练辅助工具，让action head的latent具备更多dynamics学习能力，那么它只是多了一种训练范式。但世界模型的上限不应止于此。类比MPC，即模型预测控制，世界模型真正重要的能力是把未来dynamics融入控制闭环，让机器人在行动前进行预演，并基于反馈持续修正。

他承认，基于视频生成底座的世界模型推理更重，因为多了预测head或控制回路。但他认为，如果在latent space（隐空间）中做轻量化预演，并发展更轻量的action generation或action-conditioned model，世界模型用于多轮闭环控制是可能的。

世界模型与VLA：替代、并存还是融合？

围绕世界模型与VLA，嘉宾普遍不认为世界模型会简单取代VLA。更主流的看法是：二者正在相互吸收，未来可能融合成新的统一架构。

朱政认为，现在无论国外开源创业公司，还是大厂研究路线，都能看到VLA和世界模型互相吸收优点。

VLA正在吸收预测未来状态的能力，无论是显空间预测还是隐空间预测；世界模型也不再只是视频生成，而是在推理时预测动作，在训练时同时预测状态、视频和动作。由于研究这两类模型的人群本身高度重合，未来行业可能很快不再争论到底是VLA还是世界模型，而是形成兼具两类结构的模型。

沈宇军认为，VLA和世界模型目前都不是上限特别高的路线，至少不会是最终终点。短期它们都需要投产验证，但长期看，物理世界可能需要一种不同于现有概念的新模型。他认为，这种模型可能在两条路线交界处出现。届时它是否还被称为世界模型，不必过度纠结。

王昊认为，VLA和世界模型本质上是在从不同方向走向统一。

VLA借助语言能力，但缺少对时间和视频的处理；视频生成式世界模型有时间建模能力，但语言能力较弱。实际研发中，二者都会暴露能力短板，因此自然会融合。关键是能否实现语言、视觉和动作对齐。

他认为，世界模型不能仅靠视频生成或状态预测来证明价值，而要在联合预测中帮助模型形成对世界的内部理解。

孙振国更关心世界模型是否能进入控制闭环。如果只是在训练阶段辅助VLA，那么它与VLA的边界并不清晰；如果能像model-based control一样用于预测未来、评估动作后果、支持多轮控制，那么它就真正体现了世界模型的独特价值。

长尾、风险与安全：世界模型能否解决边缘情境？

主持人提出，真实系统往往最需要处理的是关键、危险、罕见的未来。比如自动驾驶中即将碰撞的情境，机器人交互中打翻杯子或碰倒物品的情况。嘉宾围绕长尾数据、安全和风险控制展开讨论。

孙振国认为，世界模型在解决长尾问题上有潜力。因为VLA训练往往更依赖高质量成功轨迹，而世界模型学习的是未来预测。对世界模型而言，成功数据和失败数据都有效，只要它们能够反映环境dynamics。

他提到，在自动驾驶领域，把世界模型作为长尾数据生成器已经有不少尝试。因此，长尾问题不一定是世界模型的短板，反而可能是其优势场景。

朱政从自动驾驶经验出发指出，自动驾驶相比机器人有先天数据优势。汽车即使没有自动驾驶功能也能上路，因此可以积累海量路测数据。在这些数据中，可能约1%是corner case（边缘情境）。只要有合适的数据挖掘方法，就能从海量数据中找出风险样本，再训练一个专门生成corner case的世界模型，把长尾样本比例从1%扩展到10%甚至更高。

但这个前提在具身智能中并不存在。机器人无法像车辆那样自然积累上亿公里级别的数据，也很难从中挖掘大量控制失败样本。具身场景只能在实验室、工厂或其他受控条件下逐步采集失败案例。

沈宇军认为，当前模型能力还没有到真正讨论安全的阶段，但安全一定需要提前考虑。

他指出，机器人和自动驾驶不同。车祸后果严重，但自动驾驶有交通规则，场景相对可枚举；家庭机器人面对的生活场景则过于开放，失败类型几乎无法穷尽。生活中的小错误，例如打翻水杯、碰倒东西，人类也会发生，只要不造成重大安全事故，容错率反而比自动驾驶高。

沈宇军提出两个未来方向：第一，机器人部署后应继续学习。机器人出厂时携带同一个模型，但卖到不同家庭一个月后，应根据各自环境变得不同，更适配具体家庭。第二，可以引入低成本人类示教。如果机器人打翻水杯，人可以使用简单采集设备示范如何收拾桌子，机器人通过一两次示范学习新行为。

王昊同意沈宇军关于开放世界不可穷尽的判断。他认为，试图通过世界模型或数据驱动方式覆盖具身场景中的所有corner case，并不现实。人类只能在一个小世界中为机器人采集数据，但机器人真实面对的是远比人类预设复杂的开放世界。

因此，关键不是帮助机器人覆盖所有场景，而是赋予机器人更多能力，尤其是学习能力。他强调：“学习不是训练的一种方式”，训练只是学习的一部分。机器人如果不能在部署后保持学习能力，就无法从实验室走向开放环境。

他还提到，自变量机器人在真实家庭评测中发现，模型在自有评测环境中任务成功率较高，但放到提前没有接触过的家庭环境后，成功率会明显下降。这说明，靠训练数据本身无法彻底解决开放环境泛化。

郭春超从机器学习角度指出，corner case本质上是泛化的问题。要解决泛化，当前基于短视频片段和像素空间的学习机制效率较低。

他举例说，模型看到倒水会洒，不能只学习画面，而应理解“水是液体”“液体会流动”“倾倒液体可能洒落”。这样换成牛奶、果汁甚至危险化学液体时，模型才能泛化。仅靠采集倒100种液体的视频并不现实，关键是形成语言和概念层面的抽象。

因此，郭春超认为，越是专业性的corner case，越需要语言为中心的多模态模型发挥作用。即使团队做的是视觉和多模态，解决泛化问题也离不开语言中心的抽象与决策能力。

泛化能力的瓶颈：范式、数据、强化学习还是持续学习？

在讨论中，一个潜在的共识是，预测能力不是世界模型的真正分水岭，泛化能力才是。

朱政认为，当前距离真正可用的最大差距，可能在于行业对强化学习的重视不够。

他认为，过去行业在模仿学习、多模态对齐、语言对齐上做了大量工作，也有很多开源框架可参考。但在如何权衡仿真强化学习、真机强化学习以及世界模型中的强化学习方面，探索还不够。

无论是跨场景、跨物体泛化，还是家庭机器人，朱政认为都必须重视强化学习。机器人不能只模仿已有轨迹，还需要通过试错和反馈提升能力。

沈宇军认为，短期内泛化的核心仍然是数据。机器人和人一样，见过才会做，没见过就不会做。一个人到新家庭当保姆，没用过某些家电也要问人，不能要求机器人天然zero-shot做得比人还好。

但他强调，数据问题不仅是数量，也是质量。数据分布、标注方式、组织方式都非常重要。数据量堆到一定阶段后，泛化能力的提升就不再主要来自更多数据，而是来自持续学习和快速学习能力。

他认为，未来机器人应当能通过少量样本，甚至一次示范，快速学会新任务。凌波的目标也不是追求完美zero-shot，而是在后训练过程中让所需样本越少越好。

孙振国认为，泛化本身不应被视为终极目标。人类也不是天然会做所有事情，而是具备基础学习能力，并能以较低成本完成自我提升。

他更关注模型是否能拥有foundation model级别的基础能力，并在新场景中快速自我进化。他认为强化学习、持续学习、终身学习都是值得探索的路径，而世界模型天然具备某种自我进化潜力。

他的判断是，未来行业可能不再重点讨论“泛化”，而是讨论模型如何在目标场景中快速达到所需能力状态。

哪些世界模型能力已经走出Demo？

朱政认为，目前已经有一些多任务尝试。在他的理解中，VLA更适合单任务，而世界模型更适合多任务。但他没有认为世界模型已经大规模进入生产，只是看到一些早期能力正在出现。

沈宇军认为，如果讨论物理世界，他暂时没有看到任何世界模型能力真正进入可投产阶段。数字世界可能进展更快，尤其是gaming，也就是游戏方向，可能是最先被改变的场景。

王昊提出一个重要区分。如果世界模型被定义为先显式生成视频或状态，再用它引导动作生成的两阶段系统，那么目前还没有真正落地。因为视频或状态预测能力本身还不够强，后续动作生成会被卡住。

但如果世界模型被理解为隐式表征，即训练时利用视频建模能力引导动作生成，推理时不一定显式生成视频，那么已经有相当多任务在做。他认为，这类能力很难说完全来自世界模型、语言还是视觉，而是多模态联合能力。

在开放家庭任务中，他观察到一些泛化增强。例如同样是擦桌子、整理桌面，不同家庭中的背景、光照、物体都不同，隐式世界建模能帮助模型更好适应变化。

他还指出，世界模型如果要解决长程任务，不能只靠短视频预测。视频预测不需要很长，因为长预测误差会积累，也耗费时间。更合理的方式是结合语言，把短期世界预测和长期任务规划结合起来。

郭春超认为，满足高容错、环境可验证、短链条这几个条件的应用会更快落地。例如游戏原型验证，已经可以用模型快速生成游戏场景原型，帮助团队判断是否符合需求。

未来交互式娱乐、交互式短视频、交互式影视、互动营销和互动广告也可能较快落地。这些场景不是完全严肃的线上生产系统，但已经有部分可用性，并会随着模型质量提升逐步扩大。

孙振国认为，如果追求zero-shot到所有场景，世界模型离落地还很远。但如果是在结构化场景或单一场景内做结构性泛化，已经能看到商业化可能。

他举例提到心脏超声机器人项目，基本可以对成年男性进行较精确的心脏超声扫描。这类场景任务边界更清楚，因此比通用机器人更接近落地。

五年后，今天哪些观点可能被证明是错的？

孙振国认为，今年以来主流世界模型范式多基于视频生成底座，尤其是language-conditioned world model（语言条件世界模型）。但他认为这种范式瓶颈明显。

相较之下，他更相信action-conditioned world model（动作条件世界模型），也就是以动作为条件预测下一个状态。对于机器人而言，动作是改变世界状态的关键变量，仅靠语言条件生成未来并不足够。

郭春超也认为，如果只是基于当前视频生成模型做后训练，再作为世界模型使用，可能并不合适。他强调，未来也许会有新的视频生成范式或多模态融合范式，但就现阶段而言，基于dense view或10秒、15秒短视频片段的学习方式，距离真正世界智能还很远。

王昊认为，五年后回看，试图用互联网数据或纯第一人称视角数据训练具身世界模型，可能会被证明是错误的。

他的理由是，具身智能的核心在于交互。比如伸手拿水瓶，大部分时间只是手靠近水瓶，真正重要的是接触前后那一瞬间的状态突变。状态平滑变化容易预测，但接触、受力、状态切换等交互过程很难仅从互联网观察数据中学到。

因此，纯观察数据无法充分降低具身交互中的关键信息不确定性。真正的世界模型需要理解物理交互导致的状态改变。

沈宇军认为，最大错误可能是把世界模型仅仅看作数据生产工具。

他从生成模型经验出发提出一个悖论：如果生成模型强到可以生成足够多、足够好的数据来训练另一个模型，那么它自身大概率已经具备蒸馏出目标能力的潜力；如果它不够强，那么它生成的数据也未必足够好。这个问题像莫比乌斯环，长期难以证明真正有效。

因此，他不太相信“用生成模型生成大量数据，再训练另一个强模型”是世界模型的最终路线。一个足够强的模型不应只是另一个模型的数据供应方。

朱政则认为，五年后可能被证伪的是当前某些“数据大跃进”式想法。有人提出年底采集1000万小时数据，甚至未来采集1亿小时数据，但他认为，如果不提高数据利用效率，这在经济上不可接受。

他估算，如果每年训练几十万小时数据，就可能花费数亿元级别的数据采集和GPU成本。如果数据量扩大10倍、100倍甚至1000倍，成本将达到不可持续水平。

因此，他认为未来强世界模型更可能建立在几百万小时高质量数据上，而不是几亿小时粗放数据上。

本文来自微信公众号“明亮公司”（ID：suchbright），作者：主编24小时在线，36氪经授权发布。