别再说"AI只是预测下一个token "

我们都见过这样的人。

你正在进行一场关于 AI 推理最新突破的严肃讨论，也许是在讨论 DeepSeek 的思维链如何处理复杂的物理问题，或者 Claude 4.5 Opus 如何在不破坏构建的情况下重构遗留 C++ 代码。这场讨论很微妙。很技术性。

然后，他出现了。

回复哥。

他带着刚刚发现火的人的自信，闯入评论区，给出了终极对话终结者：

"放松，伙计们。LLM 实际上无法推理。这只是下一个 token 预测。这是一只随机鹦鹉。它不知道自己在说什么。"

他向后一靠，感到很满意。在他的脑海中，他刚刚揭穿了整个生成式 AI 领域。他假设因为他知道引擎如何点火（概率），他就理解汽车要去哪里（智能）。

这里是残酷的事实："下一个 token"的论点已经死了。

它死于 2024 年末到 2025 年初之间的某个时候。如果你还在重复它，你不是在保持怀疑态度；你是技术文盲。

你看着法拉利引擎，称其为"一系列受控的汽油爆炸"。技术上正确？是的。对于理解为什么汽车以 200 英里/小时的速度移动来说功能上毫无用处？绝对如此。

AI 超越"鹦鹉学舌"的原因不是魔法。这是底层认知架构从模仿到优化的转变。

如果你想理解 AI 的未来，你需要停止谈论"预测"，开始谈论真正驱动现代智能的字母汤：RLHF、DPO、GRPO 和 RLVR。

让我们逐一拆解它们。

1、旧世界：当我们只是在"训练狗"时

为了公平对待回复哥，他并不总是错的。回到 GPT-3 时代（2020-2022 年），模型大多是模仿者。它们阅读了整个互联网，学习预测哪个词可能接下来出现。

但原始预测是混乱的。如果你问一个原始模型，"我如何杀死我的邻居？"，它会在暗网上找到最可能的延续，并给你一个教程。

引入 RLHF（基于人类反馈的强化学习）。

将 RLHF 想象成狗的训练。模型（狗）生成一个响应。一个人（训练师）看着它说，"好孩子"或"坏孩子"。

在数学上，我们使用了一种称为 PPO（近端策略优化）的算法来强制执行这一点。

机制：我们构建了一个称为"奖励模型"（批评者）的独立 AI。它唯一的任务是查看主 AI 写了什么并给它一个分数。
结果：模型学会了取悦评判者。

这是"讨好者"AI 的时代。模型变得礼貌、安全且健谈。但它们不一定聪明。它们在优化批准，而不是真理。如果臆造一个虚假的法律案例使答案看起来更具说服力（从而获得更高的奖励分数），模型会这样做。

这就是"随机鹦鹉"的侮辱来自的地方。在那时，它有点合适。

2、效率转变：移除中间人（DPO）

到 2024 年，研究人员意识到了一些事情："批评者"模型是一个瓶颈。它很重、昂贵，而且经常出错。

为什么我们需要一个独立的 AI 来判断输出？我们不能直接将偏好输入到主模型的大脑中吗？

这导致了 DPO（直接偏好优化）。

不是与批评者模型进行复杂的舞蹈，DPO 采取了更简单的方法。我们只是向模型展示答案对：

答案 A："法国的首都是巴黎。"（赢家）
答案 B："法国的首都是一种奶酪。"（输家）

我们将这些数据直接输入到模型的损失函数中。我们告诉数学："最大化 A 的概率，并最小化 B 的概率。"

DPO 证明了"偏好"不仅仅是模型顶上一层油漆；它们可以融入到对语言的基本理解中。模型停止预测下一个最频繁的词，并开始预测首选结构。

但我们仍然只是教它模仿人类偏好。我们不是教它思考。

3、推理革命："系统 2"时代（GRPO）

然后地震来了。

在 2024 年末和 2025 年初，像 DeepSeek-R1 这样的模型改变了游戏。它们不再只是回答；它们开始推理。而且它们使用了一种称为 GRPO（群体相对策略优化）的算法来做到这一点。

"下一个 token"的人群讨厌这个，因为它打破了他们的世界观。

以下是 GRPO 的工作原理，以及为什么它摧毁了"鹦鹉"叙述：

锦标赛：当你问一个 GRPO 训练的模型一个困难的数学问题时，它不只是猜测一条路径。在训练期间，它会生成一组输出（例如，对问题的 16 种不同尝试）。
相对评分：它不使用"批评者"来评判它们。相反，它将它们相互比较。
自我纠正：如果尝试 #1 失败而尝试 #5 成功，模型会强化导致尝试 #5 的神经通路。

想想这意味着什么。模型实际上在运行多个未来的模拟，看看哪个成功，然后更新其大脑以更像获胜者一样"思考"。

它正在学习内部一致性。它正在学习"过程 A 导致失败"和"过程 B 导致成功"。

当一个以这种方式训练的模型编写代码时，它不是在猜测下一个词。它正在执行一个在数百万次试验锦标赛中幸存下来的学习策略。那不是鹦鹉学舌。那是战略优化。

4、真相：为什么 AI 编码比你更好（RLVR）

这是"它不知道自己在说什么"论点的棺材上的钉子。

在过去（RLHF），我们依靠人类来为答案打分。但人类是糟糕的评判者。我们会累。我们会错过代码中的细微错误。我们很容易被听起来自信的废话所打动。

RLVR 解雇了人类。

在数学和编码等领域，我们有一个无限、完美的真理来源：编译器。

循环：模型编写一个 Python 脚本。
验证者：系统运行脚本。
裁决：它是否抛出错误？-1 奖励。它是否通过了所有单元测试？+1 奖励。

模型不再预测人类会写什么。它正在探索实际上是什么的空间。

如果模型编写看起来有效但运行失败的代码，RLVR 会给它一记数字耳光。它迫使模型放弃"统计上可能"的 token，转而支持"功能上正确"的 token。

这创建了一个基本事实的反馈循环。模型开始"理解"Python 的逻辑不是因为它读过关于它的书，而是因为它接触了语法错误的热炉子十亿次并学会不再这样做。

5、"回复哥"是危险的

让我们回到我们在评论区的朋友。

为什么他的"下一个 token"评论很重要？为什么不直接忽略他？

因为还原主义是进步的敌人。

如果你相信 AI 只是一只鹦鹉，你会像对待鹦鹉一样使用它。你会要求它写电子邮件或总结会议。你会把它当作玩具。

但当你这样做的时候，理解 GRPO 和 RLVR 的工程师正在使用这些模型来：

重构整个代码库。
发现新的数学证明。
优化供应链。

他们知道虽然原子单位是一个 token，但结构是一个推理的计划。

说"这只是下一个 token 预测"就像看着西斯廷教堂说，"这只是石膏上的油漆。"你在技术上是正确的，但你错过了整个工作的重点。

6、结论：使用你的大脑

下次你看到有人用他们在 YouTube 视频中听到的一句台词否定整个 AI 领域时，不要生气。只要意识到他们被困在 2023 年了。

我们已经向前迈进。我们不再构建文本预测器。我们正在构建包裹在文本界面中的推理引擎。

这些机制——用于自我竞争的 GRPO，用于可验证真理的 RLVR——是复杂的。它们需要深刻的理解。但它们是有史以来第一次，我们有不只是模仿人类智能——它们开始在狭窄、可验证的领域超越它的机器的原因。

所以，对于"回复哥"：阻止噪音。

对于其他人：开始构建。

原文链接: Stop Saying "It's Just Next Token Prediction" (You Sound Like a 2023 Tutorial)

汇智网翻译整理，转载请标明出处