谷歌说,别再要求Gemini思考了
2025年3月25日,谷歌发布了Gemini 2.5思考模型API的文档页面。埋在其中的一段指导悄悄地让两年的主流提示词实践失效了。
AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo
2025年3月25日,谷歌发布了Gemini 2.5思考模型API的文档页面。它出现在ai.google.dev开发者门户的配置参考表和示例代码之间。大多数开发者读到thinking_budget参数定义就没再往下看了。
埋在其中的一段指导悄悄地让两年的主流提示词实践失效了。
关键的一行是:对于已经在内部推理的模型,在提示词中添加链式思维指令——"一步一步想"、"仔细推理"、"先分析,再结论"——没有帮助。在很多情况下,它反而会主动干扰。模型已经在思考了。你通过把推理过程描述给模型来改进它的思考并不能改善什么。你是在向一个已经不需要你参与的过程中添加噪音。
一个月前,Anthropic更新后的Claude文档说了结构上相同的话。他们对Claude Opus 4.7的指导现在警告说:如果你发现模型思考的频率比你期望的高,这可能是因为大型或复杂的系统提示词。直接的含义是:你为GPT-4和Claude 2编写的提示词在新模型上并不是中性的。它们在主动引导一个不再需要这种引导的系统,而这种引导正在让你付出代价。
两家公司都说了。几乎没有人更新他们的提示词。
1、第一阶段:补全模型(2020-2022)
今天感觉最"技术"的提示词技能是在严苛的约束下发明的。
GPT-3是一个补全模型。它没有对话的概念。你给它一个文本前缀,它继续文本。这个时代整个提示词工程学科都是关于利用模型从互联网上学到的统计模式。你想要它生成代码,就用代码做前缀。你想要结构化输出,就开始结构然后让模型完成。
"少样本示例"在这里成为主导技术——不是因为它优雅,而是因为它是模型唯一可靠的信号。你不能指导GPT-3。你只能展示给它。
这不是对话。这是模式补全。模型不理解你的意图。它在预测什么样的文本通常跟在你这样的文本后面。少样本示例就是完整的指令集。
"让我们一步一步想"——这个短语催生了上千篇博客文章——是2022年Kojima等人在谷歌发现的。它在GPT-3类模型上有效,因为它将补全的统计分布转向了类似于推理的文本。模型见过大量"让我们一步一步想"后面跟着正确、仔细分析的文本。调用这个短语使正确、仔细的分析更可能随之出现。
这是一个技巧。一个精彩的技巧。但仍然是个技巧。
2、第二阶段:指令模型(2022-2024)
ChatGPT改变了框架。第一次,一个模型被训练在遵循指令的概念上——不仅仅是补全文本。你现在可以说"你是一个专家",模型会尝试表现得像一个。你可以说"只以JSON格式回复",它通常也会。
这开启了一个新的提示词技巧层:系统提示词设计。
"一步一步想"指令从用户轮次移动到了系统提示词中。角色分配成为标准。结构化推理模板——"先做X,再做Y,最后做Z"——成为2022年到2025年初每个提示词工程指南中的黄金建议。
这个时代也产生了ALWAYS/NEVER全大写约定。提示词工程师发现指令遵循模型是概率性的——它们可能不会每次都遵循措辞柔和的指令。全大写强调感觉像是增加了分量。对于GPT-4类模型,它可能确实略微提高了一致性。
整个技术时代建立在一个基本事实上:模型无法自行推理。当你告诉它一步一步想时,你是在为一个否则会无序的过程提供支架。支架有帮助。
3、第三阶段:思考模型(2024-至今)
Gemini 2.5 Pro、Claude Opus 4.7和GPT-5.5在架构上与使第二阶段技术有效的模型不同。它们经过内部链式思维推理训练,这种推理在可见响应生成之前运行。除非模型暴露出来,否则你看不到这种推理,但无论你的提示词说什么,它都在发生。
这改变了你的指令和模型行为之间的关系,大多数从业者还没有消化这一点。
"一步一步想"问题。 当你告诉思考模型"一步一步想"时,你是在指导一个已经在内部这样做的模型。这个指令不会触发新行为。更糟糕的是:哈佛大学和亚马逊的研究团队在2025年发表了一篇论文,专门研究了当链式思维提示应用于增强推理的模型时会发生什么。他们的发现在15个模型和两个基准测试中是一致的:显式的链式思维提示可以_显著降低指令遵循准确性_。通过注意力分析确认的原因是,链式思维理由将模型的注意力从提示词中的约束上移开了。你写了一个长推理支架,模型在分配了认知资源来生成该支架后,留给追踪你实际需求的资源就更少了。
系统提示词密度问题。 谷歌的思考指导明确指出,大型复杂的系统提示词可能导致思考模型过度激活——将思考预算花在导航提示词上而不是任务上。Anthropic对Claude Opus 4.7的文档直接标记了同样的现象:如果模型思考得比你想要的更多,复杂的系统提示词可能是一个原因。
ALWAYS/NEVER问题。 OpenAI的GPT-5.5指导点名了在不是真正不变量的任何事情上使用全大写绝对规则的习惯。问题不是风格上的。这些规则占据token预算,并创建思考模型——对内部一致性更敏感的模型——必须解决的指令冲突。你在创建旨在消除歧义的提示词中制造了歧义。
以下是同一任务在第三阶段提示词中的样子:
没有角色。没有"一步一步想"。没有ALWAYS/NEVER。模型已经知道如何推理Python代码。你的工作是定义"完成"是什么样子,然后让路。
4、这对思考预算意味着什么
谷歌的thinking_budget参数是提示词关系已经改变的最清晰信号。你现在可以字面上调节模型在回复前思考多少。
这不是一个好奇心。这是API揭示了一直存在但从未可控的东西:推理有成本,而正确的推理量因任务而异。对于简单的提取、分类或格式化任务,内部链式思维增加了延迟和token成本而没有任何质量收益。对于复杂的规划、调试或研究任务,它是值得花费预算的。
旧的提示词工程问题是:我如何让模型仔细推理?新问题是:这个特定任务到底需要多少推理,我是否在为正确的量付费?
5、如何处理你现有的提示词
问题不是是否丢弃你的提示词栈。大多数生产提示词包含真正的约束——输出模式、安全护栏、必填字段——仍然属于系统提示词中。问题是什么需要修剪。
对现有的系统提示词运行以下诊断:
移除: 告诉模型_如何_思考的指令("先分析,再推理,再结论")。思考模型在内部处理这个。你在叙述一个已经在发生的过程。
移除: "一步一步想"、"让我们仔细想想"、"回答前逐步推理"。这些是第一和第二阶段的技巧,用于没有内部推理的模型。它们现在是提示词噪音。
移除: 对偏好而非真正不变量使用ALWAYS/NEVER规则。替换为决策逻辑:"如果用户要求比较,将响应组织为表格。"
保留: 目标结果。成功的响应是什么样的?
保留: 成功标准。什么必须为真才能使输出正确?
保留: 真正的不变量。输出格式、必填字段、安全约束、无论上下文如何都绝不能发生的事情。
保留: 相关上下文。不是作为指令,而是作为模型可以推理的原始材料。
结构看起来像这样:
其他一切都可能是为比你当前运行的模型需要更多帮助的模型留下的遗留物。
6、真正的转变
第二阶段的系统提示词是一个无法自立的模型的支架。你写得越详细,你似乎拥有的控制力就越多。那种控制力是真实的——对于那些模型来说。
思考模型有自己的重量。它们在你看到任何输出之前就在推理。告诉它们如何推理不是控制。是摩擦。那些已经在Gemini 2.5 Pro和Claude Opus 4.7上运行精简的结果优先型提示词的团队,正在看到复杂任务上输出质量的差距。那些仍然把GPT-4提示词栈带入2026年的团队,正在为他们限制了自己花钱购买的推理的提示词支付思考预算。
第二阶段的工具包并没有错。它对它所构建的模型来说完全正确。那些模型不再是前沿了。
原文链接: Google Quietly Told You to Stop Prompting Gemini to Think
汇智网翻译整理,转载请标明出处