SnorkelSpatial: LLM空间推理基准

SnorkelSpatial是一个程序生成并经过编程验证的 用于评估LLM空间推理能力的基准。

SnorkelSpatial: LLM空间推理基准

大型语言模型(LLMs)在解决跨领域的复杂推理问题上显示出显著的结果——从数学证明和逻辑谜题到研究生水平的科学和工程问题。另一方面,它们的空间推理能力尚不明确,尽管这种推理是许多日常任务的基础。我们着手测试这一领域中的前沿模型。

1、为什么空间推理很重要

空间推理无处不在——从导航城市地图,到组装家具,再到理解化学图中分子的相互作用。它是一种基本的认知技能,使我们能够理解空间、位置和运动。

但说到LLMs时,它们如何处理需要跟踪物体在空间中移动的任务?它们能否在脑海中“旋转”一个形状,或者在一系列动作中跟踪一个物体的移动和转向?

为了回答这些问题,我们创建了SnorkelSpatial ——一个新的基准,推动LLMs对空间、移动和方向进行推理。

2、SnorkelSpatial世界内部

SnorkelSpatial运行在一个简单但丰富的环境中:一个二维网格世界。可以把它想象成一个小的虚拟棋盘游戏。在这个棋盘上,一些粒子位于方块上。棋盘和粒子都可以移动——向前、向后、向左或向右——并且可以旋转。棋盘的每个动作都会影响其上的粒子。因此,当棋盘移动或旋转时,粒子也会随之旋转。

在这个世界中,每个基准问题包含:

  • 棋盘布局和一系列动作
  • 模型需要回答的问题
  • 经过编程验证的答案

模型必须在脑海中模拟这个世界来回答诸如以下的问题:

  • “粒子A现在在哪里?”
  • “棋盘朝哪个方向?”
  • “粒子B相对于粒子C的位置是什么?”

对于每个问题,我们生成一个经过编程验证的真实答案,使评估精确且可重复。

基准问题的复杂性通过改变参数如棋盘大小、粒子数量、允许的动作和执行的动作数量来调整。对于SnorkelSpatial,我们固定了一些变量,并通过动作数量控制问题的复杂性。

3、构建模块:动作和查询

3.1 动作:移动和旋转棋盘和粒子

每个问题都以一系列动作开始——对棋盘或其粒子进行移动或旋转。这些动作随时间改变空间配置。

  • 移动会改变位置而不改变方向。此外,如果粒子的移动导致其越过棋盘的边界,位置将从棋盘的另一侧循环回来。
  • 旋转会以0度、90度、180度、270度或360度逆时针方向改变方向。(注意:虽然我们承认0度和360度的旋转等同于无操作,但我们保留这些变化以测试LLMs是否能识别这种等价性。)

例如,如果棋盘面向北,然后逆时针旋转90度,它现在就面向西——棋盘上的每个粒子也会随之旋转。随着多个移动和旋转的累积,复杂性增加,迫使模型逐步在脑海中“模拟”世界。

3.2 查询:询问模型所知道的内容

在这些变换之后,模型必须回答旨在测试空间推理的问题,从**分配参考系(绝对)自我参考系(相对)**的角度出发;这是一个源于认知心理学的基本二元对立。

查询分为几个类别:

  • 绝对位置: (x, y) 坐标是什么?
  • 瓷砖查询: 它在哪块瓷砖上?
  • 绝对方向: 它朝哪个方向?
  • 相对位置/方向: 相对于另一个对象的位置或方向是什么?

每个查询探测略有不同的空间理解类型——它们共同构成了对LLMs如何“在空间中思考”的全面测试。

4、我们是如何构建和测试它的

对于这个基准,我们固定了棋盘尺寸(20×20),随机放置三个粒子,并生成了330个问题,每个问题有10、20、50、100或200个动作。直觉上,我们预期更多的动作会使任务变得更难。

每个模型的响应都会与可验证的真实答案进行比较。我们尝试每个问题10次,并在下面的结果中报告所有330个问题的准确率@1。当模型在所有10次尝试中都失败时,我们将其视为错误。

5、关键发现

总体准确性: 特别针对推理任务的模型在这里表现最强。只有少数模型,如grok-4-fast、o3、gpt-5和gpt-oss,超过50%的准确率,而其他许多模型,尤其是较旧的模型,则明显落后。

准确率与动作数量: 直觉上,我们预计动作列表越长,问题就越难。对前五名模型的分析显示,结果符合我们的预期。

6、查询特定见解

不同类型的查询揭示了不同的优势和劣势:

i) 方向查询最容易——可能是因为只有少数可能的方向(北、南、东、西)。

ii) 瓷砖查询对顶级模型来说是最具挑战性的: 与位置和方向查询相比,找到粒子所在的瓷砖需要额外的推理。从以下结果可以看出,前五名模型在这类查询上的表现最差。

iii) 绝对(分配)与相对(自我)查询: 由于相对查询依赖于两个对象(粒子或棋盘),它们需要对两个对象的状态进行准确评估,因此比绝对查询更难。下图显示,模型在相对查询上的表现比绝对查询差。

7、结束语

空间推理处于语言、逻辑和视觉的交汇点——理解它将是构建更强大和值得信赖的AI系统的关键。

SnorkelSpatial通过程序生成、编程验证的问题提供了一种系统框架,用于评估LLM的空间推理能力,这些问题是测试分配和自我推理在不同复杂程度下的基准。我们的结果显示,目前最受欢迎的模型在性能上存在很大差异,随着问题复杂性的增加,准确性下降。

在后续工作中,我们计划探讨LLM在解决这些问题方面的能力,通过生成代码或进行视觉思维链推理。


原文链接:Introducing SnorkelSpatial

汇智网翻译整理,转载请标明出处