BENCHMARK

SnorkelSpatial: LLM空间推理基准

SnorkelSpatial是一个程序生成并经过编程验证的用于评估LLM空间推理能力的基准。

Dec 8, 2025 • 7 min read

AI编程/Vibe Coding 遇到问题需要帮助的，联系微信 ezpoda，免费咨询。

大型语言模型（LLMs）在解决跨领域的复杂推理问题上显示出显著的结果——从数学证明和逻辑谜题到研究生水平的科学和工程问题。另一方面，它们的空间推理能力尚不明确，尽管这种推理是许多日常任务的基础。我们着手测试这一领域中的前沿模型。

1、为什么空间推理很重要

空间推理无处不在——从导航城市地图，到组装家具，再到理解化学图中分子的相互作用。它是一种基本的认知技能，使我们能够理解空间、位置和运动。

但说到LLMs时，它们如何处理需要跟踪物体在空间中移动的任务？它们能否在脑海中“旋转”一个形状，或者在一系列动作中跟踪一个物体的移动和转向？

为了回答这些问题，我们创建了SnorkelSpatial ——一个新的基准，推动LLMs对空间、移动和方向进行推理。

SnorkelSpatial运行在一个简单但丰富的环境中：一个二维网格世界。可以把它想象成一个小的虚拟棋盘游戏。在这个棋盘上，一些粒子位于方块上。棋盘和粒子都可以移动——向前、向后、向左或向右——并且可以旋转。棋盘的每个动作都会影响其上的粒子。因此，当棋盘移动或旋转时，粒子也会随之旋转。

在这个世界中，每个基准问题包含：

模型必须在脑海中模拟这个世界来回答诸如以下的问题：

对于每个问题，我们生成一个经过编程验证的真实答案，使评估精确且可重复。

基准问题的复杂性通过改变参数如棋盘大小、粒子数量、允许的动作和执行的动作数量来调整。对于SnorkelSpatial，我们固定了一些变量，并通过动作数量控制问题的复杂性。

每个问题都以一系列动作开始——对棋盘或其粒子进行移动或旋转。这些动作随时间改变空间配置。

移动会改变位置而不改变方向。此外，如果粒子的移动导致其越过棋盘的边界，位置将从棋盘的另一侧循环回来。
旋转会以0度、90度、180度、270度或360度逆时针方向改变方向。（注意：虽然我们承认0度和360度的旋转等同于无操作，但我们保留这些变化以测试LLMs是否能识别这种等价性。）

例如，如果棋盘面向北，然后逆时针旋转90度，它现在就面向西——棋盘上的每个粒子也会随之旋转。随着多个移动和旋转的累积，复杂性增加，迫使模型逐步在脑海中“模拟”世界。

在这些变换之后，模型必须回答旨在测试空间推理的问题，从**分配参考系（绝对）和自我参考系（相对）**的角度出发；这是一个源于认知心理学的基本二元对立。

查询分为几个类别：

每个查询探测略有不同的空间理解类型——它们共同构成了对LLMs如何“在空间中思考”的全面测试。

对于这个基准，我们固定了棋盘尺寸（20×20），随机放置三个粒子，并生成了330个问题，每个问题有10、20、50、100或200个动作。直觉上，我们预期更多的动作会使任务变得更难。

每个模型的响应都会与可验证的真实答案进行比较。我们尝试每个问题10次，并在下面的结果中报告所有330个问题的准确率@1。当模型在所有10次尝试中都失败时，我们将其视为错误。

总体准确性： 特别针对推理任务的模型在这里表现最强。只有少数模型，如grok-4-fast、o3、gpt-5和gpt-oss，超过50%的准确率，而其他许多模型，尤其是较旧的模型，则明显落后。

准确率与动作数量： 直觉上，我们预计动作列表越长，问题就越难。对前五名模型的分析显示，结果符合我们的预期。

不同类型的查询揭示了不同的优势和劣势：

i) 方向查询最容易——可能是因为只有少数可能的方向（北、南、东、西）。

ii) 瓷砖查询对顶级模型来说是最具挑战性的： 与位置和方向查询相比，找到粒子所在的瓷砖需要额外的推理。从以下结果可以看出，前五名模型在这类查询上的表现最差。

iii) 绝对（分配）与相对（自我）查询： 由于相对查询依赖于两个对象（粒子或棋盘），它们需要对两个对象的状态进行准确评估，因此比绝对查询更难。下图显示，模型在相对查询上的表现比绝对查询差。

空间推理处于语言、逻辑和视觉的交汇点——理解它将是构建更强大和值得信赖的AI系统的关键。

SnorkelSpatial通过程序生成、编程验证的问题提供了一种系统框架，用于评估LLM的空间推理能力，这些问题是测试分配和自我推理在不同复杂程度下的基准。我们的结果显示，目前最受欢迎的模型在性能上存在很大差异，随着问题复杂性的增加，准确性下降。

在后续工作中，我们计划探讨LLM在解决这些问题方面的能力，通过生成代码或进行视觉思维链推理。

汇智网翻译整理，转载请标明出处