LLM 比我们想象的更聪明

我们刚刚以一种残酷却又引人入胜的方式，再次意识到我们对人工智能的了解是多么匮乏。

我们可以让标准的、非前沿的大型语言模型（LLM）比前沿模型，也就是所谓的“推理模型”更好，而无需任何额外的训练。这是否意味着过去一年的所有进展……都是多余的？

强化学习（RL）是否被高估了？我们是否在错误的方向浪费金钱？

答案可能仍然是否定的，但这并不意味着今天的研究不会比你读过的绝大多数课程或深度博客更能让你了解人工智能及其工作原理。

1、为什么LLM被认为推理能力差

现代生成式AI助手分为两大类：标准LLM和推理模型。

后者几乎涵盖了如今所有新发布的模型，它们是对前者的改进，经过训练后成为优秀的推理者，能够解决具有挑战性的问题，甚至在数学或编程竞赛中取得金牌级别的成绩。

原因在于，人们普遍认为标准LLM（想想一年前的模型）推理能力差——它们有时被称为非推理模型。

但这是为什么呢？这真的属实吗？（稍后您就会明白，并非如此。）

2、快思考 vs. 慢思考

当前关于人工智能训练和研发的思考浪潮主要受到已故的丹尼尔·卡尼曼提出的“快思考”和“慢思考”原则的影响。

快思考，或称系统1，是即时的、本能的、无意识的、快速的，就像你回答“你叫什么名字？”这个问题时所用的思维方式。你无需有意识地思考，只需回答即可。

慢思考，或称系统2，是有意识的、深思熟虑的、缓慢的，就像你面对一个你无法凭直觉回答的问题或任务时所使用的思维方式，例如“你会如何解决贫困问题？”

人们普遍认为，大型语言模型（LLM）在其标准形式下是“系统1思考者”（尽管我必须承认这是一个相当牵强的类比，尤其是在我们开始讨论意识等问题时）。

原因在于，只要问题不需要过多赘述，或者正如AI研究人员会告诉你的那样，不需要“推理”，它们就能生成优秀的答案。

也就是说，即使是AI实验室的顶尖研究人员也会认为 LLM的推理能力很差。但我相信读完这篇文章后，你未必会同意我的观点。

从这个角度来看，对于那些认知要求较高的问题，通常建议使用非推理型LLM。也就是说，这些问题更依赖于知识而非思考。

另一方面，当我们希望人工智能像系统2那样思考时，我们会使用强化学习（RL）训练模型，让模型“放慢速度”，将更多计算资源投入到任务中（为每个任务生成更多令牌），并且通过让它们“逐步”思考来添加一些“推理启发式方法”。

这种问题分解和分配更多计算资源相结合的方式，确实能将模型提升到一个新的水平。

如下所示，通过让模型“花更多时间思考任务”（这可以简单地理解为让它们多次尝试解决问题），我们可以让规模较小的模型达到与规模更大（理论上更强大）的人工智能“一样好”的水平。

但这究竟是如何运作的呢？为了训练这些所谓的推理模型，我们使用的技术与训练狗狗坐下或握手非常相似，都是用零食奖励的方式。

我们希望它们达到一个目标（听到“握手”的指令后握手），并且每当狗狗执行指令时，我们都会用零食奖励它。最终，狗狗会明白你的意图，并开始握手，因为它知道会有零食作为回报。

但这为什么对“推理任务”有帮助呢？

强化学习的独特之处在于，与其他训练方法不同，我们不会全程“手把手地指导”模型。我们给它们设定目标，但不一定告诉它们如何解决这些目标。相反，我们会给予奖励来引导它朝着目标前进（就像你告诉朋友“热”或“冷”，当它离目标越来越近或越来越远时）。

这样做的目的是为了激励探索（试错），从而提升推理能力，因为模型会积极尝试各种方法并找出有效途径。

需要注意的是，“推理”一词在这里至关重要，你们中的许多人可能并不认同本文对推理的定义。需要澄清的是，我并非试图解释什么是推理；我只是想解释人工智能中“推理”的概念。

在人工智能领域，“推理”被定义为模型向问题添加更多计算资源的能力。这个定义是否合理取决于个人观点，但像 Noam Brown 或 OpenAI 的 Daniel Selsam 这样的专家在采访中是这样定义的，这也是中美两国普遍的共识：推理是指对给定任务进行更长时间的思考。

但问题依然存在：这种强化学习训练是在教会模型新的技能或推理能力，还是仅仅揭示了它们？

3、通过压缩学习

如今人工智能领域最大的问题之一是，这种试错系统究竟是能教会学习LLM新的技能，还是仅仅“优化了它们的分布”。让我来解释一下。

我们之所以要问自己这个问题，是因为LLM已经“见识过所有情况”，至少在文本方面是如此。在所有这些花哨的强化学习（RL）之前，真正的大模型（LLM，即非推理模型）是通过在整个互联网上进行模仿学习来训练的（也就是说，它的任务是复制整个互联网网络）。顾名思义，这意味着我们将模型的每一个响应与真实值（它应该预测的实际单词）进行比较。

问题在于，在这个过程中，模型会接触到地球上绝大多数的公开人类数据。因此，你提出的每一个问题，它很可能在训练过程中已经多次遇到过。

这就引出了一个问题：它们是不是只是把所有内容都记住，然后伪装成思考再复述给我们？

业内人士会告诉你，这并非记忆，因为通过这种模仿练习，模型会学习到潜在的模式（例如语法）。由于模型的规模远小于它需要学习的数据量，因此它被迫将这些信息压缩成知识。

这意味着LLM在接受强化学习训练之前就已经掌握了大量知识，并且比它们实际展现出来的要多得多，正如我最近在另一篇文章中提到的那样。

事实上，我们已经有证据表明这些模型压缩了知识，而不仅仅是记忆。基于Anthropic的研究，我们知道模型确实理解一个国家的首都是什么（至少表面上如此），因为它们对每个类似这样的问题都使用相同的神经回路：

因此，我们知道这不是记忆，否则模型会为每个国家创建一个单独的回路来处理上述每个问题，而不是反复使用同一个回路。

换句话说，模型通过抽象“国家 -> 首都”的模式来压缩知识（至于LLM是否真正理解“北京”和“中国”的含义，则是另一个问题）。

然而，正如Andrej Karpathy在与Dwarkesh的访谈中提到的那样，这些模型仍然非常依赖记忆，至少在很大程度上是如此。

因此，由于模型确实知识渊博、见识广博，它们很有可能已经遇到过所有问题的答案，而强化学习训练只不过是将这些答案更加清晰地呈现出来。

换句话说，如果我们知道记忆在生成式人工智能模型中扮演着非常重要的角色，那么强化学习训练很可能只是提高了模型生成某些训练过程中见过的、逻辑严密的文本序列的概率，而不是教会它新的推理技能。

换句话说，一个推理模型可能只是一个被重新唤起良好推理能力的非推理模型；这种能力一直“存在于模型内部”，只是之前被隐藏了起来。

但这究竟意味着什么呢？这其实就是“磨练”与“探索”之争：有些人认为强化学习主要是“重现”良好的行为，而另一些人则认为它教授的是新的技能。

不过，我有点跑题了。无论如何，双方似乎都认同强化学习是有益且必要的。但如果我们错了呢？

4、帮助AI展现其知识

目前，人工智能行业似乎正专注于利用强化学习（RL）在 LLM 的基础上不断增加训练量，试图延长模型的运行时间。

4.1 资本至上

强化学习训练的推理模型的影响力如此之大，以至于在人工智能行业，人工智能模型首次主导了硬件（GPU）的构建方式，而非反之；NVIDIA、AMD、华为等厂商即将推出的大多数芯片和服务器几乎都是专为推理模型而设计的。

原因在于，新型硬件拥有更大的GPU内存和带宽，以及每台服务器更多的GPU（可扩展性），这两点对于提高推理能力至关重要，尤其是在推理量增加的情况下，而推理模型正是如此（它们需要更长时间的思考，这意味着需要处理更长的序列）。

然而，令我惊讶的是，我们却很少关注这样一个事实：关键不仅在于使用更多数据训练更大的模型，还在于帮助它们更好地展现“智能”。

这就像烤芝士蛋糕，基本上只需要四种原料。但我们没有努力调配出最完美的配方，让原本就很棒的蛋糕更加美味，反而开始往上面添加各种装饰和配料。越来越独特、越来越引人注目，以至于我们可以向世界宣称：“看，我们仍在创新！”

换句话说，我们应该扪心自问：

我们能否在不使用强化学习的情况下，让标准的 LLM变得更智能？事实证明，我们可以。

这就引出了我们今天的研究，它可能会促使该领域的许多人重新思考我们构建人工智能的方式。

4.2 强化学习固然很棒，但是……

自从去年九月 OpenAI 发布 o1 模型以来，整个“研究浪潮”都集中在这一范式上。在过去一年的大部分时间里，其他一切都显得无关紧要。

像 xAI 或 Google DeepMind 这样的公司目前只发布推理模型（它们被称为混合模型，但实际上只是一个推理模型，只是可以选择是否进行更长时间的思考）。
计算能力远逊于它们的中国实验室，通过训练具有超长推理链的LLM，已经“迎头赶上”。
一些最成功的生成式AI产品，例如深度研究、编码或计算机使用代理，完全依赖于这些模型。
像 Thinking Machines 这样的整个人工智能实验室都专注于强化学习即服务 (RLaaS)，旨在利用开源技术为企业部署定制的强化学习模型。

但现在，哈佛大学的一篇研究论文指出，无需强化学习，也可以从LLM 中获得“类似推理的行为”。

如何做到？最直接的答案是展望未来。然而，首先我们需要更好地理解这些模型的实际工作原理，尤其是“采样”的概念。

4.3 标准采样如何选择词元

您可能知道，也可能不知道，ChatGPT 应用中的每个模型（甚至包括推理模型）都会接收一个输入序列（称为“前缀”），并预测下一个词元的概率分布。

例如，对于序列“男孩去了……”，模型会输出一个可能的下一个词的分布，并按概率排序：

这些概率实际上并非真正的概率，因为它们未经校准。之所以这样称呼它们，是因为它们有助于模型判断哪些词更有可能成为序列中的下一个词。

但问题是：为什么“游乐场”是最有可能的选项？

简而言之，这是因为模型看到“男孩去了游乐场”的次数比看到包含“咖啡馆”或“学校”的相同序列的次数要多。

然而，这个答案没有考虑到的是，这个数字也代表了该词背后的“概率质量”。

但这究竟意味着什么呢？

LLM存在严重的频率偏差；它们更倾向于选择出现次数较多的序列，而不是出现次数较少的序列。

因此，这 40% 仅仅意味着模型估计，在以“The boy went to the…”开头的训练数据中，大约有 40% 的序列（这个数字并不精确，因为实际概率取决于所使用的硬件——这说来话长，您可以点击此处了解更多）接下来是“playground”。所以，“playground”后面的序列总数远大于其他选项后面的序列总数。

模型实际上是在说：“我认为接下来应该是‘playground’，因为这会将我们带入我知识库中一个已知文本延续范围更广的领域，我更倾向于这样做。”

为了更好地理解这个概念，想想当 LLM 回复你时发生了什么。LLM 就像一个你可以用英语与之交互的数据库，而这个数据库的回复并非均匀分布，而是根据它见过的数据频率进行“加权”，更倾向于那些它之前见过的回复。

你可以把这看作是一个数据库，其中每个文本序列都有多个条目，条目最多的序列更有可能被输出。

或许更重要的是，每一个预测，每一个输出的词，都决定了我们接下来要探索的知识方向；每一个预测词都是一个决策。

这就像一个知识迷宫，每个预测词都是模型知识库中的一个新方向（比如左或右）。

以上面的例子为例，如果模型对“素食者吃什么”这个问题返回的是“蔬菜”而不是“火车”，那么模型就进入了“蔬菜的世界”，接下来的词很可能与食物，特别是蔬菜相关；每个词都是一个“枢纽”，决定着它之后的“知识”是什么。

因此，该模型的知识图谱更接近右侧的图表，而非下方左侧的图表。这意味着，每当模型使用特定词语进行“枢轴”操作时，它都会深入挖掘其知识库的特定部分：

问题在于？模型分配给“蔬菜”和“火车”的百分比并非质量的参考指标；相反，它们主要反映的是频率。简而言之，该数字意味着“蔬菜”背后的文本延续“块”比“火车”背后的文本延续“块”更大，这意味着：

LLM优化的是高频输出。对模型而言，看到更多某种事物意味着该事物更好。呃，响应。

但真的是这样吗？

为了避免将LLM拟人化，我们不妨假设该模型只是“求稳”。

但高频率就能保证质量吗？我认为未必。事实上，真正有价值的响应，真正有价值的洞见，其实非常稀少。

实际上，这就是我们在这些模型之上使用强化学习的原因：为了提高那些极其罕见的高质量序列的概率。

想想你对互联网数据的感知：大多数数据的质量都很差。随着人工智能的出现，情况变得更糟，这意味着你应该已经明白为什么以频率为优化目标的模型是件坏事了。

简单来说，强化学习 (RL) 训练的效果可以形象地表示如下图所示：原本概率较低的响应（也就是如今推理模型中常见的那些类型）的出现概率增加，而原本更常见的响应出现概率则降低（下图显然有所夸张）：

遗憾的是，强化学习的训练非常复杂且成本高昂，这就引出了一个问题：如果有一种方法可以让LLM像强化学习一样输出低频高概率序列，而无需进行强化学习，那会怎样呢？

这就是幂分布。

4.4 强化学习的馈赠，也伴随着强化学习的消耗

哈佛大学的最新研究对此进行了探讨，并得出了一个惊人的结果：利用一种名为幂分布的新型采样方法，我们可以获得与在强化学习环境下训练LLM一样好的结果，而完全不需要进行强化学习训练！

让我再说一遍，这是一个标准的LLM（非推理模型），它在推理任务中表现优于训练成推理模型的同一模型……而且没有使用任何不恰当的比较方法；只是在同等条件下进行比较。

但这怎么可能呢？

如上所述，我们想要的是触及LLM知识库中那些稀有的领域；那些具有高似然性（序列中所有预测词元的概率之和非常高，这是序列质量的标志，而非词频）但低频的领域（因为这类词元序列稀少，我们想要避免“足够好”的响应）。

但正如前面提到的，LLM倾向于保守策略，这意味着如果它们根据下一个词元的概率来选择下一个词元，它们自然会倾向于选择高频的连续词元，最终得到“差强人意”的响应。

那么，我们究竟在寻找什么样的响应呢？

假设我们有一个问题：“如何证明贝叶斯定理？” 对于这个问题，模型很可能已经见过大量以“我认为……”形式出现的后续回答。

遗憾的是，“我认为”这样的预测很可能导致模型生成一系列高频次的序列，在这些序列中，人类只是用一些愚蠢的方式胡乱猜测，试图证明贝叶斯定理。

一个更有希望的选择是，LLM（学习学习模型）继续生成“设 p(x|y) = p(x,y)/p(y) 为条件概率公式……”这样的语句。这才是推导贝叶斯定理的正确方法，但这种文本序列在模型的训练过程中极少出现。

这正是强化学习（RL）模型中常见的现象，这些模型经过训练，能够产生这些“智能”的回答。

换句话说，一旦模型预测出“Let…”，其概率质量（给定词之后的迭代次数）就会非常小，因此即使这是最佳方向，模型也不会“倾向于”朝这个方向发展！

为了在不使用强化学习（RL）实际训练模型的情况下实现这一点，研究人员提出了一种幂分布。

4.5 面向未来进行采样，而非面向现在

从幂分布中采样意味着模型分配给每个词的概率都取被提升到指数变量α的幂次。如果 α 为 2，则意味着每个概率都要平方。

当然，之后还需要进行归一化，以便我们能够得到实际的——未经校准的——概率。

但这究竟有何妙处？这样做的意义很简单：

幂分布提高了高概率词元的概率，降低了低概率词元的概率。

例如，概率 0.8（80%）会变成 0.64（64%），后者更小。然而，0.2 的低概率会变成 0.04，这意味着概率会进一步下降。

这适用于所有正值，并且两个概率之间的比率会增大（这意味着较大值取幂后的概率大于较小值）：

因此，我们一开始就如同强化学习 (RL) 一样优化了分布，但完全不需要任何微调。它之所以有效，是因为它在整个序列上进行优化，而不是最大化即时词元预测。

为了理解这种细微的差别，我们需要将这种方法与最常用的采样方法——温度采样进行比较。这种方法允许用户控制下一个词的分布结构。

假设用户输入“美国流行口味是什么？”。通过改变“温度”，我们可以使可能的下一个词的分布更加“均衡”，从而激励创造力，因为许多词元都变得“可能”，就像右下角的分布一样；或者，当我们希望它尽可能精确时（左上角），可以通过强制温度变量为低值来将分布压缩到最可能的词元上：

但这与我们今天提出的方法有什么区别呢？

区别在于，温度采样总是试图最大化下一个词的可能性，而“忽略”下一个词是否能引导我们走向正确的方向。

换句话说，这种采样机制正是模型采取保守策略（将它们带入高概率区域）的原因，因为它们总是选择最可能的路径，而正如我们今天所学到的，这始终是风险最小的路径（更多的后续词）。

相反，在概率分布中，我们不仅关注下一个词的分布（每次都优化选择最佳词，这会导致结果不尽如人意，正如我们前面看到的），还关注生成一整套高概率词元序列，即使它们的出现频率较低。

这一切可能仍然让人难以理解，但让我们用研究中展示的简单示例来证明这一点。

假设词汇表只有两个词元：{'go', 'home'}，并将注意力限制在双词元序列上：aa, ab, ba, bb（例如，序列 'ab' 就是 'go home'）。

接下来，令 p(aa)=0.00，p(ab)=0.40，p(ba)=0.25，p(bb)=0.25。这些是每个序列的总概率，这个数值告诉我们整个序列出现的可能性有多大。例如，p(ab)=40% 表示序列“回家”出现的概率为 40%。

比较两种抽样机制（论文中解释了为什么一种方法对每个概率单独进行幂运算，而另一种方法是对所有标记概率之和进行幂运算）：

如果我们使用所提出的方法，即幂分布，则每个标记背后的总概率（即从“a”或“b”开始生成的所有序列的概率之和）为：p(a) = 0.00²+0.4² = 0.16，p(b) = 0.25²+0.25²=0.125。

使用低温抽样（温度为 0.5），我们得到 p(a) = (0.00+0.40)² = 0.160，p(b) = (0.25+0.25)²=0.250。

这意味着，对于完全相同的模型，标准抽样机制倾向于先抽取“b”，因为“b”标记背后的概率质量更大（25% 对 16%）。

另一方面，幂分布倾向于先抽取“a”（“go”）而不是“b”（“home”）作为序列中的下一个标记，因为“go home”是总似然性最高的序列。

你明白其中的原理了吗？

在示例的开头，我们看到其中最可能的序列是“ab”，即“Go home”，概率为 40%。

然而，由于“a”（即“go”）背后的总概率质量较小（因为序列“aa”或“go go”的概率为零），模型选择了“更安全的路径”，优先预测“home”，因为该方向上的有效延续更多，即使每个可能的延续的质量较差。

因此，这里发生的情况是，利用这种新的抽样机制，我们允许这些高概率响应出现，即使它们最初隐藏在看似较差的预测背后。

换句话说，我们优先预测“Go”，即使它表面上看起来是一个较差的预测（即时概率较低），因为在其背后隐藏着所有可能的序列中最佳的序列，尽管它不一定是潜在良好延续数量最多的序列。

从某种意义上说，这种功率分布算法“展望未来”，即使某个序列出现频率较低，也能找到最佳序列。它忽略了当前预测是否是论文中的最佳结果，而是追求最大化整体序列质量，而非目光短浅地“每次都预测最佳词元”。

为了实现这种“展望未来”，我们需要一种特殊的生成方法，其复杂度远超本文的讨论范围，即 Metropolis-Hastings 算法，该算法在论文的 4.2 节中有详细解释。简而言之，它是一种无需实际计算即可近似功率分布的方法（因为实际计算非常复杂）。

正如我们在开头提到的，这种方法在几乎所有基准测试中都优于 GRPO（最流行的强化学习训练算法，最初由 DeepSeek 提出）。

我们仍然知之甚少……

尽管这是一篇引人入胜的论文，但仍有一些问题悬而未决。例如，延迟如何？它是否具有可扩展性？

我们需要更多证据。

但我们可以肯定的是，我们对这些模型的了解仍然非常有限；我们对它们的运作原理知之甚少。

原因在于我们并不真正关心这些；因为没有经济动力促使我们这样做。我们不去关注提升效率的重大机遇，反而痴迷于在不加思考的情况下不断增加计算资源和模型规模。我们的模型在当前规模下是否达到最优？

从商业角度来看，这不难理解；只要人工智能仍然是一个计算和数据密集型领域，就只有超级富豪企业才能涉足。因此，突然提出人工智能可以以更便宜、更节约的方式实现，这种想法并不受欢迎。

但是，我们是否过度建设了人工智能能力？一些预测（尽管我对此持高度怀疑态度）显示，到2025年，人工智能的总支出将高达1.48万亿美元。

这1.48万亿美元是否过度投入到当前以强化学习为主的范式以及那些很快就会被认为效率低下的长周期任务推理模型中？

如今，电力限制已成为一个严峻的风险，人工智能实验室很可能被迫再次关注效率提升方向。无论他们是否愿意。

这篇论文完美地展现了人工智能领域尚未开发的潜力……这也说明我们距离人工智能的真正发展阶段还很远，甚至连如何“正确”使用我们投入数十亿美元研发的模型都还不清楚。

原文链接：LLMs are smarter than we thought.

汇智网翻译整理，专注在请标明出处