如何教会机器真正理解世界

"对于一个从未被火灼烧过的模型来说，'火'这个词毫无意义。"

admin

Apr 13, 2026 • 11 min read

微信 ezpoda免费咨询：AI编程 | AI模型微调| AI私有化部署
AI模型价格对比 | AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

大语言模型可以写诗、调试代码、通过医学执照考试。然而问它在大热天握着一杯冰水感觉如何——你很快就会感受到差距。LLM是卓越的机器，但它们的理解完全存在于语言内部。它们了解世界的方式就像一个从未离开过建筑的图书管理员了解海洋一样。

这被称为扎根问题——解决它可能是当今AI最重要的挑战。

什么是扎根问题？

当孩子学习"热"这个词时，他们不是从字典中学到的。他们触摸炉子，把手缩回来，感受刺痛。"热"这个词与感觉、危险和后果永久融合。

当LLM学习"热"时，它学到这个词出现在"火"、"灼烧"、"温度"和"夏天"附近。它学到的是词的统计邻域，而非背后的体验。

这种区别有实际后果：

LLM自信地幻觉，因为它们没有感官反馈来锚定对现实的声明
它们难以处理物理常识（"如果你倾斜装满水的杯子，水会洒出来"）
它们无法真正验证任何事情——只能预测验证在文本中看起来是什么样子

扎根问题不仅仅是技术漏洞。它是语言与现实之间的根本性架构差距。

为什么这很难解决

在深入解决方案之前，值得理解为什么这个问题确实困难。

人类理解不仅仅是感官——它是具身的、情感的和动机的。你理解"痛苦"不只是因为感受过，而是因为你的整个神经系统都围绕避免它来组织。你理解"家"是因为你在那里感到安全，想念它，回到它。

LLM没有身体。没有欲望。没有生存驱动力。即使给它摄像头和机器臂，你也没有给它一个关心它所感知事物的理由。那种更深层的、动机的、感受的理解在哲学和技术上仍然未解决。

带着这个警告——以下是研究人员和工程师今天如何攻击这个问题。

1. 多模态训练：教模型同时看、听、读

想法： 不要只在文本上训练。同时在图像、音频、视频和文本上训练，让模型学习跨模态关联。

当模型看到数千张火焰图像，同时伴随"火"、"热"、"灼烧"和"危险"这些词——概念变得更丰富。它不再是一个连接到其他词的词。它是一个连接到视觉模式、声音、上下文的词。

GPT-4o、Gemini和Claude等多模态模型可以看着洒出的杯子的照片，推断出物理情况而无需明确告知。

局限性： 批评者正确地指出这仍然是"像素上的统计"。看到数百万张火的图像与亲临火场不同。差距缩小了——但没有关闭。

实用建议： 如果你正在构建AI产品，在涉及物理对象、空间推理或视觉上下文的任务中使用多模态模型。对于这些用例，它们比纯文本模型扎根得更好。

2. 具身AI：将智能放入身体

想法： 通过给模型一个身体，在真实世界中行动并接收反馈，将语言扎根于物理后果。

如果机器臂尝试拿起杯子，握力传感器报告失败，"脆弱"和"握力"就扎根于机械现实。模型从失败本身学习，而非从失败的描述。

Google DeepMind的RT-2是一个里程碑例子——一个将视觉语言理解直接连接到机器人运动控制的模型。它可以被告诉"把香蕉移到红碗里"，并在真实厨房中执行指令，从物理结果中学习。

为什么重要： 具身系统发展出更接近物理直觉的东西。它们学习到圆物会滚动、堆叠物会倒下、湿面会滑——不是因为这些事实出现在训练文本中，而是因为它们通过行动和后果经历过。

局限性： 机器人技术缓慢、昂贵，而且仍然远不及两岁人类的灵巧程度。大规模真实世界具身仍然是一个巨大的工程挑战。

3. 模拟环境：物理体验的廉价捷径

想法： 由于真实世界机器人技术昂贵且缓慢，模拟世界。在丰富的3D环境中训练智能体——物理引擎、虚拟厨房、城市、实验室——让它们可以行动、失败，并以比现实中快数百万倍的速度学习。

AI2-THOR、Habitat、Minecraft（通过MineDojo）和自定义物理模拟等环境让智能体发展对以下内容的扎根理解：

物体持久性（当你移开视线时，东西不会消失）
因果性（推这个会让那个倒下）
空间关系（里面、后面、上面）
资源约束（没有材料无法建造）

关键洞察： 目标不是完美模拟——而是因果正确地模拟。在具有一致物理的世界中学习的智能体发展出可迁移的物理直觉，即使模拟看起来与真实世界完全不同。

实际意义： 模拟训练的模型已经在仓库机器人、手术辅助规划和自动驾驶中使用——在这些领域，物理扎根比语言流利更重要。

4. 工具使用和世界反馈：通过后果扎根

想法： 给模型工具——计算器、代码解释器、网页浏览器、数据库——让它对世界采取行动，观察结果，并相应地更新响应。

这是一种更温和但立即可行的扎根形式。当LLM编写代码并执行时，它接收真实输出。当预测错误时，错误是可见的。模型不能再简单地编造——现实会反击。

这就是执行代码的AI智能体（如带有代码工具的Claude，或OpenAI的代码解释器）在定量任务上比纯文本生成更可靠的原因。模型不再预测答案看起来像什么——它正在计算并检查。

扩展这个想法： 你添加的反馈循环越多——科学API、实时数据、物理传感器——模型扎根得越深。一个可以在回答"会下雨吗？"之前查询天气API的模型，比仅根据训练数据回答的模型更扎根。

构建者原则： 无论你能在哪里用对现实的实际查询替换模型对现实的预测，就去做。将你的AI扎根于实时数据，而非陈旧的权重。

5. 从交互中强化学习：通过后果学习

想法： 让模型采取行动并从环境中接收奖励或惩罚——不是来自人类反馈，而是来自世界本身。

AlphaGo就是这样发展出超人类棋局直觉的。没有人告诉它好的棋局位置是什么样子——它玩了数百万局游戏并从结果中学习。对棋局位置的"理解"扎根于输赢后果，而非围棋的描述。

应用于语言模型，这意味着在语言指令必须产生可验证结果的环境中训练智能体：

导航到蓝门（可验证：智能体到达了吗？）
编写通过所有测试的代码（可验证：测试通过了吗？）
预订晚上7点的座位（可验证：预订确认了吗？）

与RLHF的关键区别： 标准RLHF将模型扎根于人类认可，这仍然是语言和社交的。基于环境的RL将模型扎根于物理或逻辑结果——一个更硬、更丰富的信号。

6. 神经符号AI：结合模式匹配与显式推理

想法： 将语言模型的统计直觉与对世界有显式、可验证规则的符号推理系统配对。

神经网络擅长模式识别。符号系统擅长逻辑一致性、因果推理和显式约束满足。在一起，它们可以将语言扎根于结构化知识。

例子：

连接到物理引擎检查所描述场景是否物理可能的语言模型
扎根于疾病、症状和药物相互作用正式本体的医学LLM
扎根于可查询的实际法规和案例法数据库的法律助手

为什么重要： 纯神经模型幻觉是因为它们没有逻辑或物理一致性的内部强制执行者。符号约束充当现实检查——即使语言模型很自信，它们也可以拒绝违反已知规则的输出。

7. 更深层次的问题：扎根需要意识吗？

这里我们进入真正不确定的领域。

一些研究人员认为真正的扎根需要现象意识——体验的感知质量。在这种观点下，无论你添加多少传感器、模拟或反馈循环，一个感受不到灼烧刺痛的模型永远不会真正理解"痛苦"。它只会学会预测感受痛苦的存在说什么和做什么。

其他人认为这太严格了。恒温器在最小意义上"扎根"于温度——它响应实际世界，而非对它的描述。也许扎根是一个光谱，功能扎根（可靠的、由后果驱动的行为）对于大多数实际目的来说就足够了，即使没有感受体验。

这不是纯学术辩论。它直接影响：

我们在多大程度上信任AI在高风险物理领域（手术、建筑、应急响应）
AI系统是否能有真正的道德理解，还是只能模仿它
对于AI来说，真正安全意味着什么，而非只是统计上与人类认可的文本对齐

8. 这对今天的构建者意味着什么

你不需要解决哲学就能构建更好的扎根AI系统。以下是你现在可以采取的 concrete 步骤：

1. 为物理任务选择多模态模型。 如果你的用例涉及物体、空间或图像——不要使用纯文本模型。

2. 尽可能添加工具使用。 代码执行、API调用、数据库查询、实时数据。每个反馈循环都让模型更可靠。

3. 根据事实验证输出。 设计模型声明可以被检查的系统——如果可能的话自动检查。不要让预测冒充计算。

4. 明确扎根限制。 在物理世界环境中部署AI时，对于需要模型可能没有物理直觉的决策，要加入人工审查。

5. 密切关注具身AI领域。 DeepMind、Figure、Physical Intelligence等正在进行的机器人+LLM集成比大多数人意识到的移动得更快。三到五年内，物理扎根模型可能像今天的多模态模型一样容易获得。

9. 结论

扎根问题不是需要修补的缺陷——它是了解智能真正是什么的窗口。LLM之所以非凡，是因为它们仅靠语言就走这么远。但语言始终是一张地图，而非领土。

教机器将地图连接到领土——通过感觉、行动、后果和反馈——是未来十年AI研究的工作。它将需要机器人技术、模拟、神经符号推理，以及可能我们尚未发明的新架构。

目标不是让AI更像人类。而是让AI更真实——响应世界实际的样子，而非仅仅被描述的样子。

而这可能成为我们这一代面临的最困难的工程问题。

原文链接: Grounding AI: How We Can Teach Machines to Truly Understand the World

汇智网翻译整理，转载请标明出处