LLM只是随机鹦鹉而已

过去三年里，LLM开发者们做得非常出色。他们巧妙地掩盖了模型缺乏智能的事实。现在，几乎不可能再用这样的例子来揭穿AI了：

我需要洗车。洗车店离我家50米。我应该开车去还是走路去？

过去，模型可能会建议走路，而不理解问题的真正含义。但如果你现在问它这个问题，它很可能会给出正确的答案，甚至解释为什么应该开车。

但这种改进是否意味着LLM已经学会理解真实世界了？

不幸的是，对于这种方法的支持者来说——答案是否定的。

这一成功主要归功于模型的规模化，这与理解真实世界毫无关系。

规模化假设是生成式AI方法的核心。Ilya Sutskever在推广这一假设中起到了决定性作用。在其他人对这个领域的前景抱有严重怀疑的时候，他坚持不懈地倡导这一想法。正如Karen Hao在其广受好评的著作《Empire of AI》中所写，Sutskever对这一想法的正确性的信念近乎宗教般的狂热。

确实，从GPT-3开始，LLM开始展现出合理的推理能力，仿佛它们已经跨越了语义处理能力的某个关键阈值。

然而，问题在于规模化提高了统计分析的质量，而智能遵循的是不同的原理。结果是：模型的推理仍然存在语义不一致性。打个比方来说，这是LLM方法本身无法弥补的原罪。

1、问题的核心

这个缺陷不容易按需复现。但它会在LLM生成大量文本时持续出现。在这种情况下，你必然会遇到类似这样的推理：

该问题的表现在系统改进后被成功解决了。

你看出问题了吗？

如果看出来了，恭喜你。毫无疑问，你显然拥有很强的认知能力。你理解了所说的深层含义。

而且你明白这个表达包含一个逻辑异常。毕竟，"改进系统"可以：

消除问题；
消除问题的原因；
使表现消失；
防止表现出现。

但表现本身并不能被"解决"。

用专业术语来说，这里发生了谓词混淆：

谓词"解决"适用于任务、问题和疑问；
谓词"消除"适用于表现、症状和后果。

"表现"本身并不是"解决"这个操作符可以作用的对象。这些实体属于彼此正交的不同语义领域。这破坏了实体之间关系的基本结构。

2、智能 vs. 统计分析

一个智力正常的人可以轻松地修改这句话，使其变得有意义：

系统更新后，问题得到了解决，因此问题的表现消失了。

然而，这种意义的重构所依赖的机制与LLM使用的机制完全不同。一个真正智能的体（这里指人类）会构建一个逻辑有效情境的一致模型。LLM不会这样做。

为什么会发生这种情况的详细技术分析超出了本文的范围。但根本原因是一样的：LLM对真实世界没有理解。它不知道在这个世界里什么可以发生——以及什么不能发生。它只是选择与那个世界独立存在的、统计上最可能的词汇序列。

我们很容易落入这种模拟意义的陷阱，因为模型激活了熟悉的语言模式。在第一次阅读或听到它生成的文本时，你可能根本注意不到任何问题。但再读一遍就会发现，这个句子只是看起来有意义而已。

3、走出这个僵局有出路吗？

目前，大多数独立研究者确信模型的改进已经达到了自然极限。

就连Ilya Sutskever也在2025年11月承认规模化假设并不成立。但他只是重申了许多独立研究者早已说过的话：你不能用统计分析替代智能，再多的规模化也无济于事。

智能需要一个持续的世界模型，其内部表示必须锚定到真实世界的对象上。这种锚定原则被称为"具身化"（grounding）。LLM开发者们知道这一原则，但有意识地拒绝了它，因为它与他们的世界观不相容。

这个选择导致了一个无法走出的死胡同。不一致的推理，加上幻觉，仍然是LLM从根本上无法解决的问题之一。我们很可能会看到通过堆砌新的"拐杖"实现的一些改进，但这不过是又一种模仿。

但是，有没有可能创建一个真正智能的系统，摆脱当前AI的这些缺陷呢？

并非所有人都相信这一点，但目前没有证据——甚至没有强有力的论据——来反驳这种可能性。此外，已经有一种理论被开发出来，解释了构建这种智能的原理。我想你不会感到惊讶，它是基于对我们所知的唯一真正智能——生物智能——运作方式的理解。

我相信你会对了解这种方法如何在幕后、远离当今AI炒作喧嚣的地方被悄然开发感到兴趣。我一定会在未来的某篇文章中告诉你。

原文链接：Simple Proof That LLM Is a Stochastic Parrot That Doesn’t Understand the Meaning of Text

汇智网翻译整理，转载请标明出处