时序正则化正在革新AI世界模型

来自纽约大学和其他顶级机构专家的最新研究提出了一种受人类生物学启发的解决方案,称为时序正则化。通过强制AI的内部轨迹变得更加平直,从而使机器人和自主系统更容易规划到达目标的路径。

时序正则化正在革新AI世界模型
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI模型价格对比 | AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

当我们思考人类如何在世界中导航时,我们看到的不仅仅是一系列随机的快照。相反,我们的大脑有一种不可思议的能力,能够将杂乱、复杂的视觉信息转化为流畅、可预测的心理地图。

在AI领域,研究人员正试图通过世界模型赋予机器同样的能力。世界模型本质上是AI的内部模拟器,让它能够在实际采取行动之前想象行动的后果。

然而,一直存在一个持续的问题:AI在其内心世界中观察世界的方式往往极其扭曲。来自纽约大学和其他顶级机构专家的最新研究提出了一种受人类生物学启发的解决方案,称为时序正则化(Temporal Straightening)。通过强制AI的内部轨迹变得更加平直,从而使机器人和自主系统更容易规划到达目标的路径。

None

1、为什么平直性很重要

为了理解这一点,想象你正在试图找到走出树篱迷宫的最快方法。在你的脑海中,你可以想象出一条清晰的路径。但对于AI来说,它所使用的心智空间通常充满了尖锐、不必要的曲线。即使物理路径是一条直线,AI对该运动的内部表征也可能看起来像一条狂野、曲折的山路。

这给规划带来了巨大的困扰。大多数先进的AI系统使用潜在表征,这是世界的简化、压缩版本。当这些表征高度弯曲时,AI会在距离判断上感到困惑。它可能认为两个点很接近,因为它们看起来相似,即使它们之间有一堵巨大的墙,需要绕很远的路才能通过。

None

这就是感知平直性假说的来源。研究人员长期以来怀疑,人类视觉系统在处理信息时会自然地将世界"拉直"。如果你观看某人行走的视频,你的大脑会将该运动表征为平滑、直线的进展,而不是一系列颠簸的帧变化。新研究表明,如果我们强制AI做同样的事情——更偏好平直的内部路径而非弯曲的路径——那么它在解决任务时就会变得更高效。

2、技术深度解析:让AI清晰地想象

那么,研究人员实际上是如何"拉直"AI的思维的呢?

None

一切从世界模型的架构开始,通常由三个主要部分组成:感觉编码器(将图像转化为数据)、动作编码器(处理机器人的行为)和预测器(猜测接下来会发生什么)。

这里的突破是一种新的训练规则,称为曲率正则化器。在训练过程中,AI会被展示一系列动作序列。当AI处理这些序列时,研究人员会观察其心智空间中三个连续的点(点A、B和C)。他们计算AI从A到B的速度或方向,然后从B到C的方向。

时序正则化的目标是最小化这两个方向之间的角度。简单来说,当AI保持其心智动量指向同一方向时会获得奖励,而当它在内部地图中进行尖锐、不可预测的转向时则会受到惩罚。

为了防止AI作弊——比如将所有内容想象成一个不移动的点——研究人员使用了一种称为停止梯度的技术,这保持了训练的稳定性和意义。

通过将这种平直性要求添加到AI的学习过程中,内部地图发生了变化。欧几里得距离(AI思维中的直线距离)开始与测地线距离(到达目标所需的实际工作量或步数)相匹配。当AI的地图与世界物理的现实相匹配时,找到正确的路径就变成了沿着最直的线走向目标这样简单的事情。

3、实时应用

这种方法不仅仅是理论上的;它已经在多个模拟环境中进行了测试,这些环境模拟了真实世界机器人可能面临的挑战。

None

一个例子是PointMaze,其中代理必须导航U形或更复杂的中等大小迷宫到达星星。在没有正则化的情况下,AI经常在角落里卡住,因为它的内部地图误导了它应该往哪个方向走。但有了正则化,AI能更清晰地看到穿过迷宫的路径,通过理解转弯的真实距离成功导航到目标。

None

另一个有趣的测试涉及PushT,这是一个机器人推动器需要将T形块移动到特定位置的任务。这是一个接触丰富的环境,意味着物理是混乱的,因为物体不断相互碰撞。在这里使用表征正则化帮助AI比之前的方法更平滑地处理这些复杂的交互。

None

也许最有趣的测试是Teleported-PointMaze。在这个自定义世界中,如果代理接触右墙,它会立即传送到左侧。这对传统AI来说是一个噩梦,因为迷宫的两侧看起来完全不同,但由于传送,它们在时间上很接近正则化模型能够学习这个奇怪的规则,并实际计划使用传送作为快捷方式,证明它在学习世界的"动态"而不仅仅是看图片。

4、评估

这种新方法的结果相当显著。研究人员将他们的正则化模型与一个流行的基线DINO-WM进行了比较,后者使用强大的预训练视觉特征,但没有为规划进行优化。

None

在实验中,研究人员发现添加时序正则化将开环规划的成功率提高了20%到60%。在更复杂的闭环设置中,机器人必须在移动时不断重新思考计划,他们看到了**20%到30%**的改进。

最重要的技术收获之一是这种方法允许基于梯度的规划。历史上,许多AI世界模型依赖于基于搜索的方法,这本质上涉及AI猜测数千条随机路径并选择最好的一条。这需要大量的计算能力并且非常慢。因为正则化使AI的内部景观更平滑、更接近凸性,AI可以简单地使用数学方法 沿着最小阻力的路径滑向目标,使规划更快、更可靠。

5、优点和缺点

优点:

  • 效率: 它允许更快、基于数学的规划,而不是缓慢、随机的搜索。
  • 准确性: 内部距离更好地反映现实世界的进展,减少AI卡住的机会。
  • 生物学直觉: 它使AI处理更接近人类大脑的工作方式。

缺点:

  • 训练复杂性: 添加正则化目标需要仔细调整超参数(比如给平直性多少权重与预测多少权重)。
  • 崩溃风险: 如果处理不正确,AI可能会尝试通过使每个状态看起来完全相同来拉直地图,尽管研究人员已经找到了防止这种情况的方法。
  • 范围: 迄今为止,大多数成功都显示在2D或相对简单的3D环境中,将其扩展到混乱、不可预测的现实世界仍在进行中。

6、未来方向

时序正则化的成功表明,我们才刚刚开始理解AI思维的几何结构如何影响其性能。展望未来,我们可以期待看到这些技术应用于更大、更丰富的环境,也许甚至在自动驾驶汽车或在繁忙城市街道上导航的复杂人形机器人中。

还有一个日益增长的兴趣是这与其他领域的关系。例如,最近的研究发现,大型语言模型(LLMs)GPT-4可能也在隐式地正则化其句子表征以更好地预测下一个词。这暗示了一个普遍原则:无论你是在导航迷宫还是在写故事,更平直的心智路径都会带来更好的结果。**

7、最终思考

多年来,AI的想象空间一直是一个锯齿状、弯曲、令人困惑的地方。通过引入时序正则化,研究人员提供了一种简单但有效的方法来平滑这个内部地图。这种变化使机器更容易规划行动、理解真实距离,并以更少的错误达到目标。

随着我们继续改进这些世界模型,我们正在接近一个未来,在那个未来,机器人可以像我们每天习以为常的那样,以同样流畅、轻松的直觉在我们的复杂世界中导航。


原文链接: Temporal Straightening is Transforming AI World Models

汇智网翻译整理,转载请标明出处