为什么"逐步思考"不再有效

在 2022 年,提示工程的突破性发现引发了 AI 领域的一场革命。要模型逐步思考释放了大型语言模型中以前未开发的推理能力。但三年后的今天,情况已经发生了变化。

为什么"逐步思考"不再有效

在 2022 年,提示工程的突破性发现引发了 AI 领域的一场革命。向模型展示其推理过程——通过简单的指令如"让我们逐步思考"——释放了大型语言模型中以前未开发的推理能力。

在多项数学和逻辑基准测试中,性能提升是显著的,有时准确率翻倍。这是一个清晰的胜利:更多的推理带来了更好的结果。

但三年后的今天,情况已经发生了变化。

1、从胜利到次优

Chain-of-Thought(CoT)提示不再像以前那样带来相同的收益。研究表明,对于许多现代模型,"让我们逐步思考"可能不会提高——甚至可能降低——性能。

这怎么可能?模型不是在推理方面变得更好了吗?

答案是:模型确实在进步,但我们与它们交互的方式却没有跟上。

2、理解推理模型的演变

为了理解为什么,让我们回顾一下近年来推理模型如何演变:

第一代 LLMs(GPT-3、PaLM)——它们确实需要外部提示来引导推理。告诉它们"逐步思考"提供了它们自己无法产生的结构。

但今天,我们拥有专门的推理模型(o1、o3、DeepSeek-R1 等),它们经过训练可以内部思考。这些模型不依赖外部提示来生成推理——它们被设计为在响应前进行内部推理。

关键洞察:如果你告诉一个已经经过推理训练的模型"逐步思考",你可能会强制其将内部推理外化,从而引入冗余、潜在的错误甚至不忠实的推理链。

3、推理链可能不忠实

考虑一下:当你看到一个模型展示其推理时,你可能会认为这是对实际内部过程的忠实反映。

但研究表明,推理链通常是不忠实的——它们可能不代表模型的真实推理路径,而是后验的合理化。

模型已经"知道"答案。
推理链是模型生成的解释——不一定准确——用于解释其预测。

这意味着更长、更详细的推理不一定会带来更好的结果。它可能只是更长的...合理化。

4、性能悖论

这产生了一个悖论:经过更多内部推理训练的新模型,在被提示展示推理时,可能表现更差。

当模型被迫外化其推理时,它可能会:

  • 引入噪音和不一致性
  • 做出错误的逻辑跳跃
  • 过度拟合推理链中的特定模式

这不仅仅是理论上的。在一项全面的研究中,研究人员发现对于推理模型:

  • 标准 CoT 提示的收益已经减少或消失
  • 强制推理链可能导致更差的结果
  • 模型自身的内部推理优于外部提示的推理

5、什么真正有效

因此,如果你不应该告诉推理模型"逐步思考",你应该怎么做?

一种越来越流行的方法是 NoThinking(不要思考),它涉及跳过 CoT 提示("让我们逐步思考"、"首先...然后...最后"),直接跳到最终解决方案。

反直觉的是,NoThinking 表现得一样好。它在低预算设置中特别有效,通常在控制令牌使用量时优于标准思考模型。

另一种方法,称为 NOWAIT,涉及抑制模型内部的"反思令牌"("让我们思考"、"实际上..."、"等一下"、"嗯")。该技术已被证明可以将推理链长度减少一半,同时不损害模型的整体效用。

一个解释在于研究人员所说的**"啊哈时刻"悖论**。对我们用户来说,看起来信号内部反思的令牌感觉有意义,但它们不一定对应于更好的内部计算。

这表明,我们解释为 "思考" 的很多内容只是口头化,而不是计算。

更先进的框架进一步推动了这个想法。像 CoLaR(压缩潜在推理) 这样的技术允许模型在内部推理而不是大声思考。在实验环境中,这减少了高达 83% 的推理令牌长度,同时保持了问题解决性能。

事实证明,推理可以存在而不需要解释,强迫模型叙述每一步可能是低效的——甚至是有害的。

注意:

同样重要的是不要在这里过度纠正。虽然一些推理痕迹是不忠实的或事后的,但可见的思维链对人类仍然非常有价值。它们有助于调试、错误定位、教学和信任校准。这在教育或高风险环境中尤为重要,在这些环境中,理解模型为什么失败比原始准确性更重要。

问题不在于逐步解释是无用的,而是我们将有用的解释与必要的计算混为一谈。现代模型通常在内部执行计算,我们看到的推理最好理解为供人类消费的接口,而不是模型内部过程的忠实窗口。

6、集成、并行性和推理效率的未来

如果长推理链不总是答案,什么提高准确性?

一个有前途的方向是集成方法。不是向模型询问一次,而是对相同提示进行多次采样,然后选择最常见或最一致的答案。

总体想法是,最常见的答案通常是正确的,因为可能有多种正确方式得到正确答案。然而,很难通过多个推理路径得到相同的错误答案。

我们也可以有很多方法来适应这种方法:

  • 使用不同的温度设置来允许模型探索不同的推理路径,看看是否能得出相同的答案
  • 使用不同模型的集成,每个模型有不同的优势,看看它们在哪里达成一致
  • 这也可以与NoThinking结合,快速并行生成大量"直觉"答案,然后聚合它们以决定最终答案。研究表明,这可以优于单个"思考"响应,同时具有更快的运行时间。

最近的方法称为通用自一致性(USC),用更灵活的东西取代严格的答案聚合:LLM 本身评估并从几个推理路径中选择最一致的输出。这使得集成不仅对数学等结构化问题可行,而且对编码、总结和分析等开放式任务也可行。

也就是说,这种策略并非普遍最优。对于基线准确性非常高的现代推理模型,并行采样可能变成计算过度,随着模型接近其性能上限,回报递减。

最后,值得解决工具的作用。许多 perceived"思考错觉"源于令牌限制而不是推理能力。当推理模型配备外部工具(Python 解释器、草稿纸或符号求解器)时,它们在复杂任务上始终优于非推理模型。在这些情况下,关键改进不是来自更长的推理链,而是将计算卸载到正确的媒介。

7、结束语

盲目告诉模型"逐步思考"的时代正在结束。

在 2026 年,提高准确性与其说是强制冗长的推理,不如说是选择正确的模型、正确的抽象级别和正确的计算策略,无论是静默推理、并行采样还是工具辅助的问题解决。

思考仍然重要。我们只是不总是需要看到它。


原文链接:Why Think Step-by-Step No Longer Works for Modern AI Models

汇智网翻译整理,版权归原作者所有