LLM只是随机鹦鹉而已

过去三年里,LLM开发者们做得非常出色。他们巧妙地掩盖了模型缺乏智能的事实。现在,几乎不可能再用这样的例子来揭穿AI了:

我需要洗车。洗车店离我家50米。我应该开车去还是走路去?

过去,模型可能会建议走路,而不理解问题的真正含义。但如果你现在问它这个问题,它很可能会给出正确的答案,甚至解释为什么应该开车。

但这种改进是否意味着LLM已经学会理解真实世界了?

不幸的是,对于这种方法的支持者来说——答案是否定的。

这一成功主要归功于模型的规模化,这与理解真实世界毫无关系。

规模化假设是生成式AI方法的核心。Ilya Sutskever在推广这一假设中起到了决定性作用。在其他人对这个领域的前景抱有严重怀疑的时候,他坚持不懈地倡导这一想法。正如Karen Hao在其广受好评的著作《Empire of AI》中所写,Sutskever对这一想法的正确性的信念近乎宗教般的狂热。

确实,从GPT-3开始,LLM开始展现出合理的推理能力,仿佛它们已经跨越了语义处理能力的某个关键阈值。

然而,问题在于规模化提高了统计分析的质量,而智能遵循的是不同的原理。结果是:模型的推理仍然存在语义不一致性。打个比方来说,这是LLM方法本身无法弥补的原罪。

1、问题的核心

这个缺陷不容易按需复现。但它会在LLM生成大量文本时持续出现。在这种情况下,你必然会遇到类似这样的推理:

该问题的表现在系统改进后被成功解决了。

你看出问题了吗?

如果看出来了,恭喜你。毫无疑问,你显然拥有很强的认知能力。你理解了所说的深层含义。

而且你明白这个表达包含一个逻辑异常。毕竟,"改进系统"可以:

  • 消除问题;
  • 消除问题的原因;
  • 使表现消失;
  • 防止表现出现。

但表现本身并不能被"解决"。

用专业术语来说,这里发生了谓词混淆

  1. 谓词"解决"适用于任务、问题和疑问;
  2. 谓词"消除"适用于表现、症状和后果。

"表现"本身并不是"解决"这个操作符可以作用的对象。这些实体属于彼此正交的不同语义领域。这破坏了实体之间关系的基本结构。

2、智能 vs. 统计分析

一个智力正常的人可以轻松地修改这句话,使其变得有意义:

系统更新后,问题得到了解决,因此问题的表现消失了。

然而,这种意义的重构所依赖的机制与LLM使用的机制完全不同。一个真正智能的体(这里指人类)会构建一个逻辑有效情境的一致模型。LLM不会这样做。

为什么会发生这种情况的详细技术分析超出了本文的范围。但根本原因是一样的:LLM对真实世界没有理解。它不知道在这个世界里什么可以发生——以及什么不能发生。它只是选择与那个世界独立存在的、统计上最可能的词汇序列。

我们很容易落入这种模拟意义的陷阱,因为模型激活了熟悉的语言模式。在第一次阅读或听到它生成的文本时,你可能根本注意不到任何问题。但再读一遍就会发现,这个句子只是看起来有意义而已。

3、走出这个僵局有出路吗?

目前,大多数独立研究者确信模型的改进已经达到了自然极限。

就连Ilya Sutskever也在2025年11月承认规模化假设并不成立。但他只是重申了许多独立研究者早已说过的话:你不能用统计分析替代智能,再多的规模化也无济于事。

智能需要一个持续的世界模型,其内部表示必须锚定到真实世界的对象上。这种锚定原则被称为"具身化"(grounding)。LLM开发者们知道这一原则,但有意识地拒绝了它,因为它与他们的世界观不相容。

这个选择导致了一个无法走出的死胡同。不一致的推理,加上幻觉,仍然是LLM从根本上无法解决的问题之一。我们很可能会看到通过堆砌新的"拐杖"实现的一些改进,但这不过是又一种模仿。

但是,有没有可能创建一个真正智能的系统,摆脱当前AI的这些缺陷呢?

并非所有人都相信这一点,但目前没有证据——甚至没有强有力的论据——来反驳这种可能性。此外,已经有一种理论被开发出来,解释了构建这种智能的原理。我想你不会感到惊讶,它是基于对我们所知的唯一真正智能——生物智能——运作方式的理解。

我相信你会对了解这种方法如何在幕后、远离当今AI炒作喧嚣的地方被悄然开发感到兴趣。我一定会在未来的某篇文章中告诉你。


原文链接:Simple Proof That LLM Is a Stochastic Parrot That Doesn’t Understand the Meaning of Text

汇智网翻译整理,转载请标明出处