Genie 3 世界模型解读
大多数人仍然从单一方向思考生成式视频。
你写一个提示词。 模型生成一个精美的剪辑。 你像看一部短片一样观看它。
Genie 3 静静地打破了那个精神模型
这实际上不是文本到视频。 它是文本到世界。
不是生成固定的一帧序列,Genie 3 生成一个环境。 一个对动作做出反应。 一个记住之前发生了什么的。 不是电影风格的。 神经网络内部的学习游戏引擎。
在本文中,我们将涵盖:
- Genie 3 在实践中实际做什么
- 它与普通的文本到视频模型有何不同
- 使其工作的交互循环
- 人们已经在尝试什么
- 你可以重用的具体提示词示例
1、DeepMind 实际构建的内容
在高层次上,Genie 3 是一个世界模型。
你给它:
- 描述世界的文本或图像提示词
它给你:
- 初始帧
- 代表环境的内部潜在状态
- 从那个点开始,模型在循环中运行。
在每一步:
- 你提供一个动作
- 移动、跳跃、互动、转向
- 模型预测*下一帧
- 更新的潜在状态
然后循环继续。
这是关键的变化。
像 Veo 或 Sora 这样的标准文本到视频模型产生一个不可变的剪辑。 一旦生成开始,没有什么可以影响结果。
Genie 3 的行为更像:
- 一个游戏环境
- 一个模拟器
- 一个学习动力学引擎
你不再观看未来。 你正在穿行于其中。
2、世界模型 vs 视频生成器
视频生成器回答一个问题:
"对于这个提示词,合理的帧序列会是什么样子?"
世界模型回答一个不同的问题:
"鉴于我们现在在哪里以及你接下来做什么,会发生什么?"
那个差异很重要。
在 Genie 3 中,模型维护一个在当前帧中不可见的内部状态:
- 摄像机后面是什么
- 什么对象持续存在
- 动量和空间结构
这就是为什么你可以:
- 向前走,然后转身回来
- 重访相同的位置
- 与相同的对象互动
世界不会每秒重置。
3、使其工作的交互循环
你可以用一个非常简单的精神模型理解 Genie 3。
概念上,它看起来像这样:
world = GenieWorldModel.from_prompt(
"A balloon-animal rabbit exploring an ancient rainforest temple"
)
state = world.reset()
while True:
frame = state.frame
action = choose_action(frame) # 人类输入或代理策略
render(frame)
state = world.step(action)
if state.terminated:
break
主要思想:
- 世界从文本初始化
- 每一步都取决于先前的状态和选择的动作
- 潜在状态让模型记住的不仅仅是像素
一旦你看到这个,Genie 3 不再感觉像"AI 视频",开始感觉像来自强化学习的 env.step(action) 的学习版本。
4、为什么演示看起来风格化
人们立即注意到一件事:Genie 3 不是照片逼真的。
你看到:
- 气球动物
- 折纸般的人物
- 简化的几何结构
这不是一个限制。 这是一个深思熟虑的设计选择。
风格化的世界:
- 随时间更容易保持一致
- 使物理不一致更可见
- 降低长视距预测的成本
照片逼真主义隐藏了错误。 风格化暴露了结构。
对于世界模型,结构比像素更重要。
5、人们已经在尝试的基于 Genie 风格的模型
即使没有广泛访问 Genie 3 本身,这个想法传播很快。
研究人员和工程师已经在尝试:
- 基于提示词的平台创作者
- 从游戏剪辑中学习的小型 2D 或 2.5D 世界
- 导航生成环境的代理
这些实验中的一个常见模式:
- 小型动作空间
- 强大的连贯性
- 有限的现实主义
这种组合是有意的。 它让模型专注于动力学而不是视觉噪声。
6、为什么这对AI代理很重要
世界模型改变了代理的训练方式。
不再是:
- 一个手工编码的模拟器,具有一组固定的关卡
你得到:
- 从提示词生成的无限多个世界
- 用于探索和规划的廉价环境
代理可以:
- 练习导航
- 学习策略
- 测试策略
但有一个重要的警告。
代理可能会过度拟合到模型的怪癖:
- 利用视觉伪影
- 依赖不可能的物理学
- 在模型之外失败的学习策略
世界模型是强大的预训练工具,而不是地面真理模拟器。
7、仍然重要的开放问题
两个未解决的问题仍然至关重要。
7.1 预测 vs 理解
模型可以在没有理解为什么的情况下预测通常会发生什么。
它可能学习:
- "物体从边缘上掉落"
没有理解:
- 重力支持
- 反事实的变化
这对于规划和安全很重要。
7.2 评估仍然不成熟
我们缺乏强大的基准:
- 长视距一致性
- 对象持续性
- 因果干预
漂亮的交互演示是不够的。
8、示例(提示词 → 输出)
这就是文章变得有形的地方。
8.1 示例 1
提示词:
"一个绿色、多山、山谷。一个舒适的房子建在山上,有一个圆形的木门。可以透过窗户看到一个家庭图书馆。"
输出:
https://x.com/joefdonoghue/status/2016996317722009778
8.2 示例 2
提示词:
"Grok 想象提示词:塞尔达传说:旷野之息场景,林克全副装备站在海拉尔山顶边缘,在美丽海拉尔白天的草原上"
Genie 3 环境提示词:塞尔达传说:旷野之息场景 Genie 3
角色提示词:林克全副装备跳跃动画和滑翔伞*
输出:
8.3 示例 3
提示词:
环境:"34th Street–Penn Station"
角色:"被丢弃的香烟包"
输出:
9、最终要点
Genie 3 不是更好的视频生成器。 它是一个不同类别的系统。 文本变成环境设计。 动作变成输入。 视频成为副作用。
这种变化对于以下方面很重要:
- 代理
- 模拟
- 规划
- 以及最终的现实世界决策系统
Genie 3 是早期的。 世界很简单。 动作空间很小。
但它是一个清晰信号,表明事物正在向何方发展。
如果你想保持在那个曲线的前面,开始用世界而不是剪辑来思考,并像游戏设计师而不是编剧那样开始编写提示词。
原文链接: Genie 3 DeepMind: from text prompts to interactive AI worlds
汇智网翻译整理,转载请标明出处