Genie 3 世界模型解读

大多数人仍然从单一方向思考生成式视频。

你写一个提示词。 模型生成一个精美的剪辑。 你像看一部短片一样观看它。

Genie 3 静静地打破了那个精神模型

这实际上不是文本到视频。 它是文本到世界

不是生成固定的一帧序列,Genie 3 生成一个环境。 一个对动作做出反应。 一个记住之前发生了什么的。 不是电影风格的。 神经网络内部的学习游戏引擎。

在本文中,我们将涵盖:

  • Genie 3 在实践中实际做什么
  • 它与普通的文本到视频模型有何不同
  • 使其工作的交互循环
  • 人们已经在尝试什么
  • 你可以重用的具体提示词示例

1、DeepMind 实际构建的内容

在高层次上,Genie 3 是一个世界模型

你给它:

  • 描述世界的文本或图像提示词

它给你:

  • 初始帧
  • 代表环境的内部潜在状态
  • 从那个点开始,模型在循环中运行。

在每一步:

  • 你提供一个动作
  • 移动、跳跃、互动、转向
  • 模型预测*下一帧
  • 更新的潜在状态

然后循环继续。

这是关键的变化。

像 Veo 或 Sora 这样的标准文本到视频模型产生一个不可变的剪辑。 一旦生成开始,没有什么可以影响结果。

Genie 3 的行为更像:

  • 一个游戏环境
  • 一个模拟器
  • 一个学习动力学引擎

你不再观看未来。 你正在穿行于其中

2、世界模型 vs 视频生成器

视频生成器回答一个问题:

"对于这个提示词,合理的帧序列会是什么样子?"

世界模型回答一个不同的问题:

"鉴于我们现在在哪里以及你接下来做什么,会发生什么?"

那个差异很重要。

在 Genie 3 中,模型维护一个在当前帧中不可见的内部状态:

  • 摄像机后面是什么
  • 什么对象持续存在
  • 动量和空间结构

这就是为什么你可以:

  • 向前走,然后转身回来
  • 重访相同的位置
  • 与相同的对象互动

世界不会每秒重置。

3、使其工作的交互循环

你可以用一个非常简单的精神模型理解 Genie 3。

概念上,它看起来像这样:

world = GenieWorldModel.from_prompt(
    "A balloon-animal rabbit exploring an ancient rainforest temple"
)
state = world.reset()

while True:
    frame = state.frame
    action = choose_action(frame) # 人类输入或代理策略
    render(frame)
    state = world.step(action)
    if state.terminated:
        break

主要思想:

  • 世界从文本初始化
  • 每一步都取决于先前的状态和选择的动作
  • 潜在状态让模型记住的不仅仅是像素

一旦你看到这个,Genie 3 不再感觉像"AI 视频",开始感觉像来自强化学习的 env.step(action) 的学习版本。

4、为什么演示看起来风格化

人们立即注意到一件事:Genie 3 不是照片逼真的。

你看到:

  • 气球动物
  • 折纸般的人物
  • 简化的几何结构

这不是一个限制。 这是一个深思熟虑的设计选择。

风格化的世界:

  • 随时间更容易保持一致
  • 使物理不一致更可见
  • 降低长视距预测的成本

照片逼真主义隐藏了错误。 风格化暴露了结构。

对于世界模型,结构比像素更重要。

5、人们已经在尝试的基于 Genie 风格的模型

即使没有广泛访问 Genie 3 本身,这个想法传播很快。

研究人员和工程师已经在尝试:

  • 基于提示词的平台创作者
  • 从游戏剪辑中学习的小型 2D 或 2.5D 世界
  • 导航生成环境的代理

这些实验中的一个常见模式:

  • 小型动作空间
  • 强大的连贯性
  • 有限的现实主义

这种组合是有意的。 它让模型专注于动力学而不是视觉噪声。

6、为什么这对AI代理很重要

世界模型改变了代理的训练方式。

不再是:

  • 一个手工编码的模拟器,具有一组固定的关卡

你得到:

  • 从提示词生成的无限多个世界
  • 用于探索和规划的廉价环境

代理可以:

  • 练习导航
  • 学习策略
  • 测试策略

但有一个重要的警告。

代理可能会过度拟合到模型的怪癖:

  • 利用视觉伪影
  • 依赖不可能的物理学
  • 在模型之外失败的学习策略

世界模型是强大的预训练工具,而不是地面真理模拟器。

7、仍然重要的开放问题

两个未解决的问题仍然至关重要。

7.1 预测 vs 理解

模型可以在没有理解为什么的情况下预测通常会发生什么。

它可能学习:

  • "物体从边缘上掉落"

没有理解:

  • 重力支持
  • 反事实的变化

这对于规划和安全很重要。

7.2 评估仍然不成熟

我们缺乏强大的基准:

  • 长视距一致性
  • 对象持续性
  • 因果干预

漂亮的交互演示是不够的。

8、示例(提示词 → 输出)

这就是文章变得有形的地方。

8.1 示例 1

提示词:

"一个绿色、多山、山谷。一个舒适的房子建在山上,有一个圆形的木门。可以透过窗户看到一个家庭图书馆。"

输出:

https://x.com/joefdonoghue/status/2016996317722009778

8.2 示例 2

提示词:

"Grok 想象提示词:塞尔达传说:旷野之息场景,林克全副装备站在海拉尔山顶边缘,在美丽海拉尔白天的草原上"
Genie 3 环境提示词:塞尔达传说:旷野之息场景 Genie 3
角色提示词:林克全副装备跳跃动画和滑翔伞*

输出:

8.3 示例 3

提示词:

环境:"34th Street–Penn Station"
角色:"被丢弃的香烟包"

输出:

9、最终要点

Genie 3 不是更好的视频生成器。 它是一个不同类别的系统。 文本变成环境设计。 动作变成输入。 视频成为副作用。

这种变化对于以下方面很重要:

  • 代理
  • 模拟
  • 规划
  • 以及最终的现实世界决策系统

Genie 3 是早期的。 世界很简单。 动作空间很小。

但它是一个清晰信号,表明事物正在向何方发展。

如果你想保持在那个曲线的前面,开始用世界而不是剪辑来思考,并像游戏设计师而不是编剧那样开始编写提示词。


原文链接: Genie 3 DeepMind: from text prompts to interactive AI worlds

汇智网翻译整理,转载请标明出处