整个具身智能领域都在探索世界模型的实用化路径。这个被寄予厚望的「数字模拟器」,本应成为机器人训练的核心工具,却因物理保真度低等问题成为「空中楼阁」。
去年年中,谷歌发布了 Genie-3 世界模型,让「可交互的世界模型」第一次以极具冲击力的方式走进大众视野。这是一个可以实时生成、实时交互的「无限世界」:通过控制动作,用户可以展开几乎无限的场景演化路径。
这一能力也迅速被投射到具身智能领域 —— 如果机器人也能在这样的世界模型中进行亿万次的训练,是否意味着通用机器人真的触手可及?
但当研究者真正尝试将「可交互世界模型」用于机器人学习时,很快发现了一些绕不开的本质问题:
1)世界模型擅长「看起来对」,却难以做到「物理上对」;
2)由于机器人数据大部分都是成功的 demo,世界模型总是过于乐观;
结果是:世界模型的不准确性 + 过度乐观的动力学假设,使得 VLA 策略几乎无法在其中稳定学习。
世界模型「盲目乐观地」自动补全了残缺的形状;世界模型「错误地」将真实世界里倒塌的方块误认为堆叠状态。
清华陈建宇(星动纪元创始人)团队和斯坦福 Chelsea Finn(PI 创始人) 团队基于 Ctrl-World (两个团队的首个合作成果),再度携手,联合提出了 VLAW 框架,首次实现了 VLA 策略与动作条件世界模型的协同迭代优化,让两者形成一个「互相促进的闭环」:
VLA 策略采集的真实交互数据,反过来用于提升世界模型的物理保真度;
世界模型生成的高质量虚拟数据,再用于持续强化 VLA 策略本身。
论文链接:
https://arxiv.org/pdf/2602.12063
GitHub 地址:
https://github.com/Robert-gyj/Ctrl-World
机器人学技能
试错的「学费」贵到离谱
世界模型成关键期待
每次在真实机器人上的试错(真机 rollout),都需要人工重置环境;一旦模型策略出错,机械臂还可能做出危险操作,必须有人全程盯着。真实世界的后训练数据规模,就这样被死死卡住了脖子,成了具身智能发展的核心瓶颈。
能让机器人在「想象空间」无限试错的世界模型,成为解决这一问题的关键期待 —— 在完美的世界模型里,机器人能在这个「想象空间」里无限试错,生成海量合成数据练手,完全不用碰真实世界里昂贵的硬件设备,试错成本能降到几乎为零。
VLA 模型在真实世界的 rollout 耗时且难以扩展。在 VLAW 中,首先利用有限的真实世界在线 rollout 学习一个动作条件的世界模型,进而在想象中生成大规模的合成数据
世界模型:
一座美轮美奂的「空中楼阁」
理想很丰满,现实很骨感。现有世界模型存在二个致命缺陷,让它成了一座「空中楼阁」,最终只会落得「垃圾进,垃圾出」的下场,让世界模型的实用化成为空谈。
盲目乐观:训练数据大多是成功的动作轨迹,没见过失败案例,导致模型预测的结果全是「理想情况」,根本还原不了真实操作中的失误和意外,无法贴合真实的操作场景;
交互、碰撞模拟困难:对于物体碰撞、摩擦这类接触密集型操作,或是纸巾、书本这类可变形物体的交互,模型根本捕捉不到那些微小但关键的物理细节,甚至会生成模糊的画面,丧失了物理建模的核心价值;
VLAW 破局:
让 VLA 和世界模型双向奔赴
打磨出实用的世界模型
VLA 策略在线 rollout 数据有助于将预训练的世界模型适配到下游任务中。一旦世界模型完成适配,就能为 VLA 策略学习生成海量数据
VLAW 的核心解法,让 VLA 策略的真实数据校准世界模型,以校准后的世界模型反哺 VLA 策略,在这个双向奔赴的过程中,世界模型的缺陷被逐一解决,物理保真度和数据生成能力持续提升。
四步走:
把「让世界模型有用」的想法落地成工程
VLAW 的工作流程:(1) 首先在真实世界中执行策略以收集少量在线轨迹;(2) 利用这些策略 rollout 数据微调预训练的动作条件世界模型,使世界模型适配目标任务并提升其预测保真度;(3) 利用优化后的世界模型,通过策略与世界模型的闭环交互生成大规模合成轨迹;(4) 最终,利用视觉 - 语言奖励模型自动评估奖励,结合真实世界和合成数据优化 VLA 策略
从理论思路到实际落地,VLAW 设计了四个精密咬合的步骤,通过迭代优化实现「让世界模型有用」的核心目标,同时让机器人借助校准后的世界模型完成「在想象中变强」的训练。
第一步:使用真实 rollout 数据微调世界模型,戒掉盲目乐观
研究团队用包含成功与失败的真实机器人在线轨迹数据微调预训练世界模型;同时为了防止模型过拟合,还加入了原始的 DROID 数据集一起训练,让它既能看懂失败,又不会过拟合,确保对真实场景的还原度。
第二步:使用 Qwen-VL 评判轨迹
团队基于 Qwen3-VL-4B-Instruct 微调了一个视觉 - 语言奖励模型,用真实数据里的成功 / 失败标签校准它的判断能力,能自动判别世界模型生成数据的好坏。
第三步:在世界模型中生成大量数据
在校准后的世界模型里,让机器人策略进行大规模的 rollout,每个任务都生成 500 条合成轨迹。这一步就是机器人在「想象中」练手,但因为世界模型已经被真实数据校准,这些「想象中的数据」的质量大大提升。
第四步:学成功样本优化策略,反向为世界模型校准提供更优质数据
把真实世界里的成功轨迹,和世界模型生成的优质合成成功轨迹混在一起,用简单的监督学习目标来更新机器人的 VLA 策略。原因很实际:对于流匹配、扩散这类生成式策略,强化学习需要计算特定状态下的动作概率密度,但这类策略的动作是从噪声一步步推导出来的,概率计算难度极高。团队还从理论上证明,这种加权回归目标,其实是正则化强化学习的一种近似形式,兼顾了简单性和有效性。
而 VLA 策略的优化与性能提升,又能在真实世界中产生更优质的试错数据,为世界模型的下一轮校准与优化提供更好的基础,形成世界模型与 VLA 策略互相成就的闭环。
实测见真章:
模拟器从「空想家」变「务实者」
研究团队设计了一个动作重放的评估方法:把真实机器人的动作序列输入世界模型,让它生成对应的视频,再和真实世界的视频对比,从视频质量和物理交互结果两个维度做定量评估:
在世界模型中重放记录的动作序列。(1) 在 256 个重放片段(每个 5 秒)上评估视频质量指标,所有指标均通过腕部视角相机计算,该视角最能捕捉操作过程中的物体交互;(2) 交互阶段是误差的主要来源,因此在 50 个涉及物理交互的片段上报告事件级混淆矩阵,为每个片段标注交互结果(成功 / 失败),并将模型预测与真实世界结果对比
结果一目了然:
1. 经过真实试错数据微调后的世界模型,在 PSNR、SSIM 等视频质量指标上,全面超过了原始预训练模型,以及仅用专家成功数据微调的模型,生成的视频画面更贴合真实;
2. 更重要的是,它的假阳性率大幅降低,再也不会把失败的操作「脑补」成成功,精准解决了「乐观病」,能真实还原操作中的成败结果。
在相同的初始帧和完全相同的动作序列条件下,在不同世界模型中执行轨迹推演。预训练的 Ctrl-World 模型对于这些接触密集型任务的精度不足;仅用专家轨迹微调的世界模型往往过于乐观;相反,用策略在线 rollout 数据微调的世界模型能准确捕捉底层的物理动力学,与真实世界的结果高度吻合。
3. 哪怕是 20 秒的长时程虚拟试错,生成的视频也能保持较高的物理合理性。
从初始观测开始,在世界模型中进行长时程策略闭环 rollout 的示例。π0.5 策略执行 20 次迭代(20 秒),微调后的世界模型与真实世界高度一致。上:真实世界 下:世界模型
比如舀花生入碗、用纸巾擦白板标记这类需要精准物理交互的任务,预训练的世界模型完全抓不住细节,仅用专家数据微调的模型则过于乐观,而经 VLAW 校准的世界模型,能精准捕捉底层的物理动力学,生成的结果和真实世界高度吻合。
关键数字:
校准后的世界模型
支撑机器人复杂任务性能大幅跃升
实验在 DROID 平台上开展,涵盖五类任务,如图所示。这些任务涉及复杂的物理交互,包括频繁的接触和可变形物体,难以在传统仿真中建模。
研究团队在 DROID 机器人平台上,针对堆叠积木、打开书本、擦除白板标记、舀取颗粒、画圆五类复杂任务做了实测 —— 这些任务都涉及频繁的物理接触或可变形物体操作,是传统仿真模型很难建模的场景,也正是检验世界模型实用价值的关键场景。实验用当前 SOTA 的 π0.5 作为基础策略,Ctrl-World 作为基础世界模型,每轮迭代在 5 类任务上共收集 250 条真实轨迹(每类任务 50 条)用于世界模型的校准,而经校准后的世界模型,最终交出了一份亮眼的成绩单,支撑机器人策略在五类任务中实现成功率的大幅提升。从整体表现来看,各方法的成功率提升对比结果清晰显示 VLAW 的优势。
与基线方法的成功率提升对比。进行了两轮迭代训练,「Ours-1」表示 VLAW 方法经过第一轮在线 rollout 后的结果。总体而言,在多任务设置下 VLAW 持续优于 Filtered BC 和 DSRL 基线
团队还可视化了真实 rollout 与世界模型生成的合成 rollout 对比,清晰展现了经校准后的世界模型,能为真实世界的失败案例找到成功的解决路径,其生成的合成数据具备极高的训练价值。在真实世界 rollout 中,机器人未能抓住勺子、未能画出完整的圆,而借助 VLAW 打磨后的世界模型,能从相同初始帧出发,为这些失败案例生成成功的轨迹,让机器人能从「失败经验」里学会正确的做法,这正是世界模型实用化的核心体现。
GT 代表真实世界的 rollout,0~14 代表世界模型生成的多种想象轨迹,所有轨迹均从相同的 GT 初始帧出发并使用 π0.5 策略。在真实世界 rollout 中,机器人未能抓住勺子(左,GT)且未能画出完整的圆(右,GT)。借助世界模型,我们能为这些失败案例找到成功的轨迹,这对策略学习具有重要意义
不仅如此,消融实验还进一步证明了 VLAW 打磨世界模型的核心逻辑:如果减少世界模型生成的合成数据的数量,或是直接移除校准世界模型的真实数据,机器人策略的性能都会明显下降。这意味着,世界模型的校准质量和合成数据产出量,直接决定了机器人策略的提升效果,也再次印证了「让世界模型变得有用」是 VLAW 框架的核心关键。
消融实验研究了 (1) 用于策略微调的合成数据量(从 500 条减少到 250 条)和 (2) 微调时是否包含真实世界 rollout 数据(50 条)。实验发现,减少合成轨迹数量或移除真实世界数据集都会导致性能下降
未来:
机器人先在想象里「满级」
再落地真实生活
目前 VLAW 的实验验证集中在五类任务上,研究团队表示,未来的研究将围绕世界模型的规模化和泛化性展开,持续提升世界模型的能力,让其能适配更多场景、更强的模型,真正成为通用机器人策略学习的核心工具:
一是把真实试错数据扩展到更多样的机器人操控任务中,提升世界模型的通用泛化能力;
二是结合更先进的视频生成模型,让世界模型的视觉预测和物理建模能力更上一层楼。
在研究团队看来,随着视频生成模型的持续发展,以及大规模机器人交互数据的不断积累,让世界模型变得更通用、更精准、更实用,并基于打磨后的世界模型构建训练范式,将成为通用机器人策略学习的核心方向。
未来的机器人,或许会先在由优质世界模型打造的虚拟世界里完成「满级训练」,把各种技能练到炉火纯青,再无缝落地到真实世界,从容完成各类复杂的操控任务。而 VLAW,正是世界模型实用化的重要探索,为这一未来方向奠定了坚实的基础。




























