世界模型的功能性分类法

语言赋予了机器谈论那个世界的方式。世界模型将是机器最终理解、想象、推理并与之互动的方式。

admin

Jun 5, 2026 • 14 min read

AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

“世界就是所发生的一切。”
——路德维希·维特根斯坦，《逻辑哲学论》，1921

世界不是由文字构成的。

在之前的一篇文章中，我们论证了空间智能是AI的下一个前沿，而世界模型是通往它的路径。在这里，World Labs团队和我希望更深入一步：在现在正在构建并被称为“世界模型”的众多事物中，哪些功能组件真正构成了这种能力——以及它们各自的作用是什么？

语言模型赋予了机器对概念、词汇和推理的非凡掌控力，但物理世界（无论是虚拟的还是真实的）运行在不同的基底上。语言模型学习的是文本的统计结构，而世界模型学习的是空间和时间的统计结构：光如何落在表面上，从相机从未捕捉过的角度看花园是什么样子，物体如何对力做出反应并遵循物理定律。

这使得“世界模型”成为当今AI领域最重要、也最 overloaded（ overloaded： overloaded，指含义被过度使用的）的术语之一。计算机视觉、机器人学、强化学习和生成式AI都在声称自己在构建世界模型，但各自的含义大不相同。一个生成华丽却物理上不可能的火焰的视频模型、一个即兴创作可玩游戏的语言模型，以及一个忠实模拟燃烧的物理引擎，都被冠以同一个名称。

古希腊人永远无法就世界由什么构成达成一致——是火、水，还是不可分割的原子——因为“世界”从来不是单一的事物。它始终是一个替身，代表某个思想家需要推理的任何总体。AI在需要精确性的时刻继承了同样的问题。

1、分类法背后的循环

要打破这种混乱，需要从一张比任何相关技术都更古老的图开始。强化学习教材（包括经典的Sutton和Barto的书）几十年来一直使用同一张图的某个版本来描述代理如何与世界互动。这张图的正式名称是部分可观测马尔可夫决策过程（POMDP），而“世界模型”这一术语的原始定义就属于这一传统。

一个代理（可以是人、机器人或软件系统）采取行动。这些行动影响世界的状态。代理永远无法直接看到状态。到达代理的是观测：落在视网膜上的光子、传感器的读数，以及视频帧中的像素。新的观测会告知新的行动，这个循环继续进行。

“状态”一词需要拆解，因为其含义在不同领域有所不同。这不是化学家的状态（固态、液态和气态的区别）。这是物理学家和机器人学家的状态：对世界在某一时刻发生的一切的完整描述，包括每个物体、每个位置、每个速度、每个属性。状态是世界的底层现实；在原则上是完整的，但对身处其中的任何代理来说都永远无法直接可见。观测是代理对该现实的部分视图。行动是代理做出的回应。

这个循环——代理到行动到状态到观测再返回——就是赋予现代“世界模型”术语其技术含义的结构。这个短语本身更古老，可以追溯到Kenneth Craik在1943年提出的观点，即心灵通过运行现实的“小规模模型”来进行推理，并在20世纪80年代末和90年代初被引入神经网络。这个循环也解释了人们今天对这个术语的含义。现在被称为世界模型的不同事物，实际上是这个同一循环的不同投影。每个都输出其中的不同部分。

2、世界模型的三个功能

第一类世界模型是渲染器（renderer）。渲染器以像素形式输出供人眼观看的观测，最重要的质量是视觉保真度。一个将文本提示转化为电影级无人机镜头的视频模型就是一个渲染器。像Google的Genie 3这样的交互式系统，或World Labs自己的RTFM也是如此，在这些系统中，模型根据用户输入实时生成帧。该模型不携带对三维结构的明确理解。它产生的是观看者会看到的东西，而不是实际存在的东西。无人机镜头中的建筑从上方看可能完美无缺，但如果你试图开车穿过下面的城市，它们就会崩塌。

第二类是模拟器（simulator）。模拟器输出状态：一个在几何、物理或动态上忠实的世界的表示，人类和计算机程序都可以对其进行计算和交互。渲染器的契约纯粹是视觉的，而模拟器的契约是结构性的，要求几何在检查下成立，物理尊重牛顿定律，动态按照世界根据物理定律所需的方式表现。模拟器同时服务于两类用户。建筑师、设计师、电影制作人和游戏开发者等人类专业人士需要超越视觉合理性的准确性。强化学习代理、机器人控制器和自动驾驶汽车等计算机程序则将模拟器用作训练场，在那里它们可以大规模地与世界互动，测试在现实中危险、昂贵或不可能运行的场景。

第三类是规划器（planner）。规划器输出行动。在给定观测和目标的情况下，规划器回答代理接下来应该做什么的问题。从许多方面来说，这是渲染器的逆过程。渲染器以行动作为输入并产生观测，而规划器以观测作为输入并产生行动，从而闭合感知-行动循环。视觉-语言-行动模型、基于模型的系统，以及新一波的World Action Models，都是规划器的尝试：能够在非结构化世界中决定机器人应该做什么的系统。

这三个类别描述了当今大多数实际推出的内容，它们之间的区分在实践中很有用。然而，这些类别在根本上并非完全分离。对世界如何运作的相同底层知识——几何、物理、动态——存在于所有这些之下。一个能够从任何角度渲染杯子的模型，原则上应该能够模拟杯子被推动时会发生什么，并规划一只手去拿起杯子。最有趣的研究正越来越多地有意模糊这三者之间的界限。

2、为什么模拟是关键

在这三个类别中，模拟器受到的公众关注最少，却是三者中最具决定性的。本文就是要解决这种不对称性。

渲染器是迄今为止商业化最成熟的。许多图像或文本到视频的产品正在消费者或企业市场快速扩张。Google的Nano Banana模型已将渲染器质量的图像生成功能交到潜在数亿用户手中。这项技术是真实的，市场也是真实的。然而，渲染器优化的是视觉合理性而非物理准确性，这个上限很重要。它们的输出很美丽，但无法被信任用于设计建筑或训练机器人。

规划器是最引人入胜且最处于萌芽阶段的，与快速发展的机器人学习领域密切相关。该领域在过去两年中产生了在视频中看起来令人印象深刻的机器人演示，但我们需要坦诚地说明这些演示实际展示了什么。几乎所有演示都局限于高度受限的实验室设置，物体集狭窄，任务时长较短。没有一个在真实世界部署所需的复杂性、多变性或持续时间上得到验证。从引人注目的演示短片，到一个能在厨房、仓库或手术室可靠工作的机器人，差距仍然巨大。尽管如此，商业赌注仍然巨大。一波资金雄厚的入局者正在竞相推出通用规划系统，而最大的基础设施参与者正在将规划置于更广泛的模拟堆栈之上。一个能规划的机器人就是能工作的机器人，整个行业都在竞相成为第一个实现这一目标的公司。

模拟是两者之间的桥梁。如果语言是世界的抽象，像素是它的投影，那么几何、物理和动态就是世界本身。模拟器必须在这个层面工作：结构骨干，从中可以衍生出渲染器的视觉外观和规划器的行动后果。

一个掌握模拟的模型可以将其理解投射到像素中供人类消费，并投射到行动预测中供具身代理使用。一个仅掌握渲染或仅掌握规划的模型无法做到这两点。商业应用面积巨大。仅NVIDIA的Omniverse就针对该公司估计超过一万亿美元的可寻址市场，包括工厂、仓库、供应链和数字孪生。机器人训练、自动驾驶汽车测试、建筑可视化、工程和药物发现都依赖于类似模拟的东西。

该领域最困难的开放问题也存在于此。具有明确几何、材料属性和物理标注的三维数据比渲染器训练所用的互联网视频稀缺几个数量级。sim-to-real gap（模拟到现实的差距，即事物在模拟中的表现与现实中的表现之间的差异）依然存在。生成式模拟器在此基础上引入了新的风险：AI生成的几何可能看起来正确，但包含自相交或错误尺度，从而产生无意义的物理。在大规模下进行多物理模拟——刚体、可变形物体、流体和布料全部互动——仍然比单领域模拟昂贵几个数量级。

在World Labs，我们的Marble是我们进入这一领域的第一步。它接受多模态提示（文本、图像、视频或空间草图），生成可探索的3D环境，输出用于视觉探索的高斯溅射（Gaussian splats）以及物理引擎可以操作的碰撞网格。但Marble只是该领域正在撰写的更长篇章的第一章，随着渲染、模拟和规划之间的界限开始坍塌。

3、界限正在坍塌的地方以及接下来会发生什么

但还有更多。当前该领域最重要的模式是这三个类别正在开始相互融合。共同的洞见是，渲染世界、模拟世界并在其中行动所需的知识在很大程度上是相同的。延续前面的例子，一个真正理解杯子如何放在桌子上（其几何、材料属性、对力的响应等）的模型，应该能够从任何角度渲染那个杯子、模拟杯子被推动时会发生什么，并规划一只手去拿起杯子。这三个类别是单一底层理解的三个投影。

例如：来自各个机器人实验室的一小部分但越来越多的近期工作已经证明——至少在概念上——一个预训练的视频渲染器可以用作联合世界和行动预测的骨干，这暗示了通过让一个模型想象将发生什么以及该做什么，来在渲染器和规划器之间架起桥梁。World Labs的Marble已经从单一模型输出高斯溅射和碰撞网格，消解了渲染器和模拟器之间的界限。每个层面都在从被动输出转向交互式系统，渲染器变得可由行动调节，模拟器生成更可控和可编辑的世界，规划器则在深思熟虑而非仅仅反应。

逻辑终点是一个统一的世界模型：一个基础模型，能够渲染照片级真实视图、产生物理准确的结构，并规划行动序列，根据下游消费者的需要切换输出模态。我们仍将面临许多艰巨挑战。数据情况不均衡，渲染器淹没在互联网视频中，而模拟器和规划器则面临3D资产和机器人演示的严重短缺。为视觉美优化可能会牺牲机器人或高保真模拟所需的精度。在单一架构内协调这些紧张关系是当今世界模型研究中定义性的开放问题，这正是World Labs在我们继续演进Marble时致力于做的。

然而，方向是明确的。自20世纪80年代末以来，该领域一直在做的同一个赌注——即一个足够丰富的世界模型是任何代理看到世界、构建世界并在其中行动所需要的一切——现在正驱动着整整一代研究。赋予这个“大赌注”重量的是已经 underway（正在进行中）的融合：三条线索，每一条本身已经在驱动和塑造数十亿美元的产业，它们最初作为独立的研究计划，现在开始表现得像一个整体。总的来说，随着它们之间的界限坍塌，它们将重塑更大的东西：机器智能与其所栖居的物理世界之间的关系——空间智能的漫长弧线。

语言赋予了机器谈论那个世界的方式。世界模型将是机器最终理解、想象、推理并与之互动的方式。

原文链接：A Functional Taxonomy of World Models

汇智网翻译整理，转载请标明出处