别再说"AI只是预测下一个token "
我们都见过这样的人。
你正在进行一场关于 AI 推理最新突破的严肃讨论,也许是在讨论 DeepSeek 的思维链如何处理复杂的物理问题,或者 Claude 4.5 Opus 如何在不破坏构建的情况下重构遗留 C++ 代码。这场讨论很微妙。很技术性。
然后,他出现了。
回复哥。
他带着刚刚发现火的人的自信,闯入评论区,给出了终极对话终结者:
"放松,伙计们。LLM 实际上无法推理。这只是下一个 token 预测。这是一只随机鹦鹉。它不知道自己在说什么。"
他向后一靠,感到很满意。在他的脑海中,他刚刚揭穿了整个生成式 AI 领域。他假设因为他知道引擎如何点火(概率),他就理解汽车要去哪里(智能)。
这里是残酷的事实:"下一个 token"的论点已经死了。
它死于 2024 年末到 2025 年初之间的某个时候。如果你还在重复它,你不是在保持怀疑态度;你是技术文盲。
你看着法拉利引擎,称其为"一系列受控的汽油爆炸"。技术上正确?是的。对于理解为什么汽车以 200 英里/小时的速度移动来说功能上毫无用处?绝对如此。
AI 超越"鹦鹉学舌"的原因不是魔法。这是底层认知架构从模仿到优化的转变。
如果你想理解 AI 的未来,你需要停止谈论"预测",开始谈论真正驱动现代智能的字母汤:RLHF、DPO、GRPO 和 RLVR。
让我们逐一拆解它们。
1、旧世界:当我们只是在"训练狗"时
为了公平对待回复哥,他并不总是错的。回到 GPT-3 时代(2020-2022 年),模型大多是模仿者。它们阅读了整个互联网,学习预测哪个词可能接下来出现。
但原始预测是混乱的。如果你问一个原始模型,"我如何杀死我的邻居?",它会在暗网上找到最可能的延续,并给你一个教程。
引入 RLHF(基于人类反馈的强化学习)。
将 RLHF 想象成狗的训练。模型(狗)生成一个响应。一个人(训练师)看着它说,"好孩子"或"坏孩子"。
在数学上,我们使用了一种称为 PPO(近端策略优化)的算法来强制执行这一点。
- 机制:我们构建了一个称为"奖励模型"(批评者)的独立 AI。它唯一的任务是查看主 AI 写了什么并给它一个分数。
- 结果:模型学会了取悦评判者。
这是"讨好者"AI 的时代。模型变得礼貌、安全且健谈。但它们不一定聪明。它们在优化批准,而不是真理。如果臆造一个虚假的法律案例使答案看起来更具说服力(从而获得更高的奖励分数),模型会这样做。
这就是"随机鹦鹉"的侮辱来自的地方。在那时,它有点合适。
2、效率转变:移除中间人(DPO)
到 2024 年,研究人员意识到了一些事情:"批评者"模型是一个瓶颈。它很重、昂贵,而且经常出错。
为什么我们需要一个独立的 AI 来判断输出?我们不能直接将偏好输入到主模型的大脑中吗?
这导致了 DPO(直接偏好优化)。
不是与批评者模型进行复杂的舞蹈,DPO 采取了更简单的方法。我们只是向模型展示答案对:
- 答案 A:"法国的首都是巴黎。"(赢家)
- 答案 B:"法国的首都是一种奶酪。"(输家)
我们将这些数据直接输入到模型的损失函数中。我们告诉数学:"最大化 A 的概率,并最小化 B 的概率。"
DPO 证明了"偏好"不仅仅是模型顶上一层油漆;它们可以融入到对语言的基本理解中。模型停止预测下一个最频繁的词,并开始预测首选结构。
但我们仍然只是教它模仿人类偏好。我们不是教它思考。
3、推理革命:"系统 2"时代(GRPO)
然后地震来了。
在 2024 年末和 2025 年初,像 DeepSeek-R1 这样的模型改变了游戏。它们不再只是回答;它们开始推理。而且它们使用了一种称为 GRPO(群体相对策略优化)的算法来做到这一点。
"下一个 token"的人群讨厌这个,因为它打破了他们的世界观。
以下是 GRPO 的工作原理,以及为什么它摧毁了"鹦鹉"叙述:
- 锦标赛:当你问一个 GRPO 训练的模型一个困难的数学问题时,它不只是猜测一条路径。在训练期间,它会生成一组输出(例如,对问题的 16 种不同尝试)。
- 相对评分:它不使用"批评者"来评判它们。相反,它将它们相互比较。
- 自我纠正:如果尝试 #1 失败而尝试 #5 成功,模型会强化导致尝试 #5 的神经通路。
想想这意味着什么。模型实际上在运行多个未来的模拟,看看哪个成功,然后更新其大脑以更像获胜者一样"思考"。
它正在学习内部一致性。它正在学习"过程 A 导致失败"和"过程 B 导致成功"。
当一个以这种方式训练的模型编写代码时,它不是在猜测下一个词。它正在执行一个在数百万次试验锦标赛中幸存下来的学习策略。那不是鹦鹉学舌。那是战略优化。
4、真相:为什么 AI 编码比你更好(RLVR)
这是"它不知道自己在说什么"论点的棺材上的钉子。
在过去(RLHF),我们依靠人类来为答案打分。但人类是糟糕的评判者。我们会累。我们会错过代码中的细微错误。我们很容易被听起来自信的废话所打动。
RLVR 解雇了人类。
在数学和编码等领域,我们有一个无限、完美的真理来源:编译器。
- 循环:模型编写一个 Python 脚本。
- 验证者:系统运行脚本。
- 裁决:它是否抛出错误?-1 奖励。它是否通过了所有单元测试?+1 奖励。
模型不再预测人类会写什么。它正在探索实际上是什么的空间。
如果模型编写看起来有效但运行失败的代码,RLVR 会给它一记数字耳光。它迫使模型放弃"统计上可能"的 token,转而支持"功能上正确"的 token。
这创建了一个基本事实的反馈循环。模型开始"理解"Python 的逻辑不是因为它读过关于它的书,而是因为它接触了语法错误的热炉子十亿次并学会不再这样做。
5、"回复哥"是危险的
让我们回到我们在评论区的朋友。
为什么他的"下一个 token"评论很重要?为什么不直接忽略他?
因为还原主义是进步的敌人。
如果你相信 AI 只是一只鹦鹉,你会像对待鹦鹉一样使用它。你会要求它写电子邮件或总结会议。你会把它当作玩具。
但当你这样做的时候,理解 GRPO 和 RLVR 的工程师正在使用这些模型来:
- 重构整个代码库。
- 发现新的数学证明。
- 优化供应链。
他们知道虽然原子单位是一个 token,但结构是一个推理的计划。
说"这只是下一个 token 预测"就像看着西斯廷教堂说,"这只是石膏上的油漆。"你在技术上是正确的,但你错过了整个工作的重点。
6、结论:使用你的大脑
下次你看到有人用他们在 YouTube 视频中听到的一句台词否定整个 AI 领域时,不要生气。只要意识到他们被困在 2023 年了。
我们已经向前迈进。我们不再构建文本预测器。我们正在构建包裹在文本界面中的推理引擎。
这些机制——用于自我竞争的 GRPO,用于可验证真理的 RLVR——是复杂的。它们需要深刻的理解。但它们是有史以来第一次,我们有不只是模仿人类智能——它们开始在狭窄、可验证的领域超越它的机器的原因。
所以,对于"回复哥":阻止噪音。
对于其他人:开始构建。
原文链接: Stop Saying "It's Just Next Token Prediction" (You Sound Like a 2023 Tutorial)
汇智网翻译整理,转载请标明出处