(来源:图灵人工智能)
您想知道的人工智能干货,第一时间送达
这是斯坦福大学教授李飞飞(Fei-Fei Li)以及 World Labs 团队最新撰写的重磅文章。文章针对当前 AI 领域最火热、但概念也最模糊的词汇之一——“世界模型”(World Model),提供了一个清晰的、基于功能分类的“分类学”(Taxonomy)。
以下是该文章的全文中文翻译:
“世界是一切发生的事情。”
—— 路德维希·维特根斯坦,《逻辑哲学论》,1921年
世界并非由文字组成。
在之前的一篇文章中,我们曾提出:空间智能(Spatial Intelligence)是 AI 的下一个前沿,而世界模型则是通往这一前沿的必由之路。在这里,我和 World Labs 团队希望更进一步地探讨:在当前各种被构建并被称为“世界模型”的事物中,究竟是哪些“功能模块”真正组成了这种能力?而每一个模块又是用来做什么的?
语言模型赋予了机器对概念、词汇和推理的非凡掌控力,但物理世界(无论是虚拟的还是现实的)运行在完全不同的底层(substrate)上。语言模型学习的是文本的统计结构,而世界模型学习的则是空间和时间的统计结构:光线如何落在表面上、一个花园从从未被相机捕捉过的角度看过去是怎样的、物体如何对力做出反应并遵循物理定律。
这使得“世界模型”成为当今 AI 领域最重要、但也最被滥用的术语之一。计算机视觉、机器人技术、强化学习和生成式 AI 都在声称自己正在构建世界模型,但各自所指的含义却大相径庭。一个能生成绚丽但物理上不可能存在的火焰的视频模型、一个能即兴创作可玩游戏的语言模型、以及一个能忠实模拟燃烧的物理引擎,都在使用这同一个名字。
古希腊人永远无法在世界是由什么组成的问题上达成一致——究竟是火、水,还是不可分割的原子?因为“世界”从来都不是一个单一的东西,它总是某个思想家需要用来进行推理的“总体(totality)”的代名词。如今,AI 领域也继承了同样的困境,而这恰恰发生在整个行业急需“精准定义”的时刻。
分类学底层的闭环
要理清这些混乱,需要从一个比文中所涉及的任何技术都要古老的图表开始。几十年来,包括 Sutton 和 Barto 的经典教材在内的强化学习教科书,一直使用同一个图表来描述智能体(agent)如何与世界进行交互。这个图表的正式名称是部分可观测马尔可夫决策过程(POMDP),而“世界模型”这个词最初的定义正是源于这一传统。
一个智能体(可以是一个人、一个机器人或一个软件系统)采取行动(Actions)。这些行动会影响世界的状态(State)。智能体永远无法直接看到状态。到达智能体的是观测(Observations):落在视网膜上的光子、传感器的读数、视频帧中的像素。新的观测指导新的行动,如此循环往复。
“状态”这个词需要详细拆解,因为它的含义因领域而异。这不是化学家所说的“状态”(固体、液体和气体之间的区别),而是物理学家和机器人学家所说的“状态”:在给定时刻对世界上所发生事情的完整描述,包括每一个物体、每一个位置、每一个速度和每一个属性。状态是世界的底层现实;在原理上它是完整的,但对于身处其中的任何智能体来说,它都是不可直接完全可见的。观测是智能体对该现实的局部视图,而行动则是智能体做出的响应。
这个闭环——从智能体到行动,到状态,到观测,再返回——构成了现代术语“世界模型”的技术含义。这个词本身历史更悠久,可以追溯到肯尼斯·克雷克(Kenneth Craik)在1943年提出的理论,即大脑通过运行现实的“小规模模型”来做出推理,并在1980年代末和1990年代初被引入到神经网络中。这个闭环也解释了今天人们使用这个词的真正含义:目前所有被称为世界模型的东西,实际上都是这个相同闭环的不同投射(projections)。每一种模型都输出这个闭环中的不同部分。
世界模型的三大功能
1. 渲染器(Renderer)
第一种世界模型是渲染器。渲染器输出供人类眼睛观看的像素形式的观测(Observations),其最核心的指标是视觉保真度(visual fidelity)。一个将文本提示词转化为电影级无人机航拍镜头的视频模型就是渲染器。像谷歌的 Genie 3,或者 World Labs 自研的 RTFM 这样的交互式系统也是渲染器,这些模型能够根据用户的输入实时生成帧。
然而,这种模型并不包含对三维结构的显式理解。它产生的是观众“会看到什么”,而不是“存在什么”。航拍镜头中的建筑从上方看可能天衣无缝,但如果你试图驾车穿过下方的城市,它们就会分崩离析。
2. 模拟器(Simulator)
第二种是模拟器。模拟器输出的是状态(State):一个在几何、物理或动力学上忠实的世界表征,人类和计算机程序都可以对其进行计算和交互。渲染器的契约纯粹是视觉上的,而模拟器的契约则是结构性的——它要求几何图形经得起推敲、物理学遵循牛顿定律、动力学行为符合物理定律下的应有表现。
模拟器同时为两类“消费者”服务:
人类专业人士(如建筑师、设计师、电影制作人和游戏开发者)需要超越单纯“视觉合理性”的准确性。
计算机程序(如强化学习智能体、机器人控制器和自动驾驶汽车)将模拟器作为训练场,使其能够大规模地与世界交互,测试在现实中执行起来过于危险、昂贵或不可能实现的场景。
3. 规划器(Planner)
第三种是规划器。规划器输出的是行动(Actions)。给定一个观测和一个目标,规划器要回答的是智能体下一步应该做什么。这在许多方面是渲染器的逆过程。渲染器输入行动并产生观测,而规划器则是输入观测并产生行动,从而闭合了“感知-行动”的循环。
视觉-语言-行动模型(VLA)、基于模型的系统(model-based systems)以及新一波的“世界行动模型”(World Action Models),都是构建规划器的尝试:这些系统旨在决定机器人在非结构化世界中应该做什么。
这三个类别涵盖了目前市面上正在交付的大部分产品,且这种区分在实践中非常实用。然而,这些类别在根本上并不是割裂的。支撑所有这些模型底层的,是关于世界如何运行(几何、物理、动力学)的同一种底层知识。理论上,一个能够从任何角度渲染杯子的模型,也应该能够模拟杯子被推时会发生什么,并规划一只手去把它捡起来。越来越多最前沿的研究正在有意模糊这三者之间的界限。
为什么模拟仿真器是核心支柱
在这三个类别中,模拟器(Simulator)获得的大众关注最少,但它的重要性却最为深远。本文正是为了解决这种不对称性。
渲染器是目前商业上最成熟的。许多图像或文本转视频的产品正在消费级和企业级市场快速扩张。谷歌的 Nano Banana 模型已经让可能数以亿计的用户体验到了渲染器级别的图像生成。技术是真实的,市场也是真实的。然而,渲染器优化的是“视觉合理性”而非“物理准确性”,这一天花板至关重要。它们的输出很美,但你无法信任它们去设计一栋建筑或训练一个机器人。
规划器是最具吸引力也是最年轻的,它与快速发展的机器人学习领域紧密相连。该领域在过去两年中展示了许多在视频里看起来令人惊叹的机器人 Demo,但我们需要对这些 Demo 究竟展示了什么保持坦诚。几乎所有 Demo 都局限在受到严格限制的实验室环境中,物体种类单一,任务周期很短。没有一个模型在现实世界部署所需的复杂性、可变性或持续时间上得到过验证。一个酷炫的展示短片与一个能在厨房、仓库或手术室里可靠工作的机器人之间,依然存在着巨大的鸿沟。尽管如此,商业赌注是巨大的。一波资金雄厚的新玩家正竞相交付通用规划系统,而最大的基础设施巨头则在将规划能力置于更广泛的模拟堆栈之上。一个能规划的机器人就是一个能工作的机器人,整个行业都在竞相成为第一个到达终点的人。
而模拟器(Simulation)则是连接这两者的桥梁。如果说语言是世界的抽象,像素是世界的投射,那么几何、物理和动力学就是世界本身。模拟器必须在这个层面上工作:它是结构性的骨骼,视觉外观(用于渲染器)和行动后果(用于规划器)都可以从中衍生出来。
一个精通模拟的模型,可以将其理解转化为供人类消费的像素,以及供实体智能体使用的行动预测。而一个仅仅精通渲染或仅仅精通规划的模型,则无法做到这一点。其商业版图是巨大的。仅 NVIDIA 的 Omniverse 针对的就是该公司估计在工厂、仓库、供应链和数字孪生中超过一万亿美元的潜在市场。机器人训练、自动驾驶汽车测试、建筑可视化、工程设计和药物研发,都依赖于某种“模拟形态”的东西。
该领域最困难的开放性问题也存在于此。
带有显式几何、材料属性和物理标注的三维数据,其数量比渲染器训练所依赖的互联网视频要少几个数量级。
“Sim-to-Real”(模拟到现实)的差距(即物体在模拟中的行为与在现实中行为的差异)依然存在。
生成式模拟器引入了新的风险:AI 生成的几何体可能看起来正确,但包含自交或错误的比例,从而产生荒谬的物理现象。
在大规模下进行多物理场模拟(刚体、可变形物体、流体和布料相互作用)的成本,仍然比单领域模拟高出几个数量级。
在 World Labs,Marble是我们进军这一领域的首次尝试。它接收多模态提示词(文本、图像、视频或空间草图)并生成可交互探索的三维环境,同时输出用于视觉探索的高斯泼溅(Gaussian splats)以及物理引擎可以运行的碰撞网格(collision meshes)。但随着渲染、模拟和规划之间的界限开始瓦解,Marble 仅仅是整个领域正在谱写的宏大叙事的第一章。
边界正在瓦解,未来走向何方
更多变革即将到来。目前该领域最重要的趋势是这三个类别正开始融合。核心的共识在于:渲染世界、模拟世界和在世界中行动所需要的知识,在很大程度上是相同的。延续前文的例子,一个真正理解杯子如何放在桌子上(其几何形状、材料属性、对力的反应等)的模型,应该能够从任何角度渲染该杯子,模拟杯子被推时发生的事情,并规划出一只手去捡起杯子。这三个类别是一个相同底层理解的三种不同投射。
例如:来自不同机器人实验室的少量但涉及面渐广的近期工作表明——至少在概念上——一个预训练的视频渲染器可以被用作“世界与行动联合预测”的骨骼。这通过让模型去“想象”将要发生什么以及该做什么,在渲染器和规划器之间架起了一座桥梁。World Labs 的 Marble 已经能够从单个模型中同时输出高斯泼溅和碰撞网格,消解了渲染器和模拟器之间的边界。每一个层级都在从“被动输出”转变为“交互式系统”:渲染器变得受行动条件制约(action-conditioned),模拟器生成的世界上具有更强的可控性和可编辑性,规划器也正在从单纯的“做出反应”转变为“进行深思熟虑(deliberating)”。
其逻辑终点是一个统一的世界模型(unified world model):一个既能渲染照片级真实视图、又能产生物理精确结构、还能规划行动序列的基础模型(foundation model),并根据下游消费者的需求在不同的输出模态之间进行切换。
我们仍将面临许多严峻的挑战。数据情况依然不均衡:渲染器沉浸在海量的互联网视频中,而模拟器和规划器则面临着三维资产和机器人演示数据的极度短缺;追求视觉美感有时会牺牲机器人或高保真模拟所需的精确度。在单一架构中调和这些冲突,是当今世界模型研究中最核心的开放性问题,而这正是 World Labs 在继续演进 Marble 过程中致力于解决的问题。
然而,方向已经非常明确。整个领域自1980年代末以来一直在下同一个注——即一个足够丰富的世界模型,就是一个智能体去观察世界、建造世界和在世界中行动所需要的一切——这个赌注正驱动着整整一代的研究。让这个“大赌注”充满分量的是目前正在发生的融合:这三个在各自领域都已经驱动和塑造了数个百亿美元规模产业、最初作为独立研究项目起步的线索,现在正开始像一个整体一样运转。
当它们之间的边界彻底瓦解,它们将共同重塑一件更宏大的事情:机器智能与其所处的物理世界之间的关系——这就是空间智能的漫长史诗。
语言赋予了机器谈论这个世界的方法。而世界模型,则是机器最终得以理解、想象、推理并与这个世界进行交互的方式。
上一篇:内蒙古首家OPC社区落地呼和浩特