只演示一次，机器人就会干活了？北大&BeingBeyond联合团队用“分层小脑+仿真分身”让G1零样本上岗_健康_健康资讯

近日，来自北京大学与BeingBeyond的研究团队提出DemoHLM框架，为人形机器人移动操作（loco-manipulation）领域提供一种新思路——仅需1次仿真环境中的人类演示，即可自动生成海量训练数据，实现真实人形机器人在多任务场景下的泛化操作，有效解决了传统方法依赖硬编码、真实数据成本高、跨场景泛化差的核心痛点。

核心挑战：人形机器人移动操作的“三重困境”

移动操作是人形机器人融入人类环境的核心能力（如搬箱子、开门、递物等），但长期受限于三大难题：

数据效率低：传统方法需采集大量真实机器人遥操作数据，成本极高且难以规模化；
任务泛化差：依赖任务特定的硬编码设计（如预定义子任务、专属奖励函数），换任务需重新开发；
Sim-to-Real迁移难：基于仿真训练的策略常因物理引擎差异、传感器噪声，无法在真实机器人上稳定运行。

现有方案要么局限于仿真场景，要么需消耗数百小时真实遥操作数据，难以满足家庭、工业等复杂场景的实用需求。

DemoHLM：分层架构与数据生成革新，破解三重困境

DemoHLM的核心创新在于“分层控制+单演示数据生成”双引擎，既保证了全身运动的稳定性，又实现了极低数据成本下的泛化学习。

分层控制架构：兼顾灵活性与稳定性

DemoHLM采用“低层全身控制器+高层操作策略”的分层设计，解耦“运动控制”与“任务决策”：

低层全身控制器（RL训练）：负责将高层指令（如躯干速度、上半身关节目标）转化为关节力矩，同时保证机器人全方位移动性与平衡能力。基于AMO框架优化，运行频率50Hz，可稳定处理高接触场景（如抓取、推物时的力交互）；
高层操作策略（模仿学习）：通过视觉闭环反馈（RGBD相机感知物体6D位姿），向低层发送任务导向的指令，实现复杂操作决策。支持ACT、Diffusion Policy等多种行为克隆（BC）算法，运行频率10Hz，侧重长时域规划。

此外，团队为机器人设计了2DoF主动颈部+RGBD相机（Intel RealSense D435），通过比例控制器实现“视觉追踪稳定”，模仿人类操作时的视线调节能力，避免物体遮挡导致的感知失效。

单演示数据生成：从“1次演示”到“千条轨迹”

DemoHLM最关键的突破是无需真实数据，仅用1次仿真遥操作演示即可生成海量多样化训练数据，核心流程分三步：

演示采集：通过Apple Vision Pro捕捉人类动作，映射到仿真中的Unitree G1机器人，记录1条成功操作轨迹（含关节位姿、末端执行器位姿、物体位姿）；
轨迹转换与分段：将演示轨迹拆解为“移动（Locomotion）、预操作（Pre-manipulation）、操作（Manipulation）”三阶段，并且通过坐标系转换实现泛化——

预操作阶段：采用“物体中心坐标系”，确保机器人在不同物体初始位姿下，末端执行器能精准对齐目标；

操作阶段：切换为“本体感知坐标系”，解决抓取/搬运时末端与物体相对静止的轨迹生成难题；

批量合成：在仿真中随机初始化机器人与物体位姿，自动调整各阶段指令并replay，生成数百至数千条成功轨迹，形成训练数据集。

这一过程完全自动化，规避了传统模仿学习“数据采集地狱”，同时通过随机化初始条件，天然提升了策略的泛化能力。

实验验证：从仿真到真实的稳定表现

团队在仿真环境（IsaacGym）与真实Unitree G1机器人上，针对10项移动操作任务（如搬箱子、开门、倒水、递物等）开展全面验证，核心结果如下：

仿真：数据量与性能正相关，算法兼容性强

数据效率显著：随着合成数据量从100条增至5000条，所有任务成功率均大幅提升——例如“PushCube”成功率从52.4%升至89.3%，“OpenCabinet”从18.9%升至67.3%，且边际收益逐渐收敛，证明数据生成 pipeline 的高效性；
算法适配灵活：在ACT、MLP、Diffusion Policy三种BC算法上均表现优异，其中ACT与Diffusion Policy性能接近（如“LiftBox”成功率均超96%），而简单MLP因缺乏时序建模能力性能稍弱，验证了框架对不同学习算法的兼容性。

Real-World：Sim-to-Real迁移稳定，多任务落地

在改装后的Unitree G1（加装3D打印夹爪、2DoF颈部和单目RGBD相机）上，DemoHLM实现零样本迁移，10项任务中：

全成功率任务：LiftBox（搬箱子）、PressCube（按立方体）均实现5/5成功，操作流程与仿真高度一致；
高稳定任务：PushCube（推方块）4/5成功、Handover（递物）4/5成功，仅因地面摩擦差异导致个别失败；
复杂任务突破：GraspCube（抓方块）、OpenCabinet（开门）等需精准力控制的任务，成功率超60%，在同类仿真训练方法中位于前列。

关键原因在于：高层策略通过视觉闭环实时调整指令，抵消了仿真与真实的物理差异（如关节跟踪误差），确保操作行为的一致性。

行业价值与未来方向

DemoHLM的突破为人形机器人实用化提供了关键技术支撑：

降低落地成本：单演示+仿真数据生成，将训练成本从“数百小时真实遥操作”降至“小时级仿真演示”，大幅降低行业应用门槛；
提升泛化能力：无需任务特定设计，1套框架适配多场景（家庭搬运、工业辅助、服务交互），加速机器人从“实验室”到“真实环境”的落地；
推动技术融合：分层架构可兼容触觉传感器、多相机感知等升级，为未来更复杂场景（如遮挡环境、柔性物体操作）打下基础。

团队也指出当前局限：依赖仿真数据可能存在长期的Sim-to-Real偏差，单RGB-D相机在复杂遮挡场景性能受限，且暂不支持未建模物体的操作。未来将探索“仿真+真实数据混合训练”“多模态感知融合”等方向，进一步提升鲁棒性。

总结

DemoHLM以“单仿真演示驱动泛化移动操作”为核心，通过分层控制架构与高效数据生成 pipeline，破解了人形机器人训练成本高、泛化差、迁移难的三大痛点。

其在Unitree G1上的真实落地验证，证明了该框架的实用价值，为下一代人形机器人在家庭、工业、服务场景的规模化应用提供了重要技术路径。

论文连接：

https://arxiv.org/pdf/2510.11258

项目主页：

https://beingbeyond.github.io/DemoHLM/

本文来自微信公众号“量子位”，作者：关注前沿科技，36氪经授权发布。