Token 陷阱：AI依赖的隐成本

以下是亚马逊、优步和微软刚刚学到的关于AI真实成本及其脆弱性的教训。

admin

Jun 11, 2026 • 20 min read

AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

亚马逊推出了token使用量排行榜，随后不得不将其关闭。优步耗尽了年度预算。微软取消了数十万个许可证。这一切都在两个月内发生。

将这些事件联系起来并不难。所有主要科技巨头都敦促其开发人员大规模集成AI编码工具——他们提供奖励、发布排行榜、称赞热情的用户，借用Z世代俚语称之为"token最大化"（tokenmaxxing），意为极致优化。

到2026年3月，这一趋势因《纽约时报》的《更多！更多！更多！科技工作者最大化他们的AI使用》而获得主流关注。

Meta发布了一份内部"Claude经济学"排行榜，将最热情的用户加冕为"token传奇"，排名第一的工程师据称在30天内使用了超过2810亿个token。Y Combinator的Gary Tan也公开称赞了这一概念，描述了通过同时向15个AI代理委派任务实现"400倍"编码产出的飞跃。

但token最大化最初并非一个警示故事。是什么改变了它？账单到期了。

1、实际发生了什么

详细说明这些细节至关重要，因为这一逆转的速度很重要。

亚马逊的内部工具Kiro——一个AI优先的开发环境——使用了一个名为KiroRank的排行榜，奖励工程师的AI token 使用量。虽然目标是提高AI采用率，但它反而导致工程师将非关键任务分配给AI代理，仅仅是为了提升排名，浪费了计算资源而没有改进产品。

亚马逊于2026年5月29日关闭了KiroRank，此前一位高级副总裁告知员工："请不要为了使用AI而使用AI。使用AI来帮助你解决客户问题。"亚马逊此后已将令牌数量替换为"标准化部署"，衡量的是交付给用户的AI辅助代码，而非原始令牌使用量。

优步的情况更为极端。他们于2025年12月开始在工程师中使用Claude Code，到3月时，84%的员工已在使用该工具。每位工程师的月成本通常为150-250美元，但重度用户每月产生高达2,000美元的费用。优步的首席技术官仅在一次两小时的演示会议中就消耗了1,200美元的令牌。到4月——财年仅过去四个月——优步已经耗尽了其2026年Claude Code的全部预算。首席运营官Andrew Macdonald将这一时刻描述为"令人震惊"。优步此后对员工实施了每月1,500美元的AI编码工具上限。有趣的是，Macdonald承认高令牌使用量并未与用户可见功能的增加相关联。

微软的回应最具结构性。其体验和设备部门——负责开发Windows、Microsoft 365、Teams、Outlook和Surface——被要求在2026年6月30日前停止使用Claude Code。数千名工程师正在转向GitHub Copilot CLI。虽然该公司以"工具链统一"为由，但时机——财年的最后一天——表明成本控制是一个主要因素。据报道，员工更喜欢Claude Code而非微软自己的Copilot，这意味着强制迁移代表了公司为了企业级成本节约而凌驾于个人开发者的偏好之上。

三家不同的公司，一个共同的认知：当你的AI工具成本与使用量直接挂钩，而你在不衡量结果的情况下推广使用，你的预算就会崩溃。

而且他们不是唯一这样做的：Meta在4月悄悄移除了自己的"Claude经济学"排行榜，此前一份报告泄露，而Duolingo在员工表达对其工作相关性的担忧后，撤销了将AI使用纳入绩效评估的计划。

2、为什么这在结构上与传统的软件不同

Token最大化的经济学并非企业采购中的漏洞。它们是AI工具定价方式的结构性特征，并且打破了企业软件买家二十年来一直依赖的假设。

传统SaaS采用按席位定价。你每月为每个用户支付$X，无论每个人使用工具的强度如何，成本都是可预测的。Salesforce不会因为销售代表一天打开仪表盘二十次而不是两次而收取更多费用。GitHub Copilot Enterprise每月收取固定的39美元/席位——没有使用附加费。预算可以提前预知。

像Claude Code这样的AI编码工具则不同。有一个基础席位费（每月20美元），但真正的成本来自API令牌消耗——而这与工程师实际使用工具的量直接相关。它越有用，就越昂贵。这创造了一个前几代企业软件从未产生的悖论：采用的成功正是破坏预算的因素。

这是杰文斯悖论（Jevons' paradox）在企业工具中的应用。我在更广泛的AI经济背景下写过这个问题——2023年至2025年间，每令牌成本下降了280倍，与此同时企业AI支出翻了三倍。同样的动态在单个公司内部上演。每令牌价格正在快速下降。但工程师在每个任务中使用的令牌数量呈指数级增长，因为他们从简单的代码补全转向规划、执行、审查和迭代的代理式工作流。代理式工作流每个任务消耗的令牌数量是标准聊天机器人查询的5-30倍。

一次单独的代理式会话可能消耗数十万个令牌。乘以每天使用该工具的5,000名工程师，数字很快就会变得难以管理。

但除了数量之外，还有更深层的结构性问题。斯坦福大学、伯克利分校、卡内基梅隆大学和微软研究院最近的一篇论文——"价格逆转现象"——证明列出的API价格根本不能作为实际成本的可靠代理。他们评估了8个前沿推理模型在12个任务上的表现，发现在32%的模型配对比较中，列出的价格较低的模型实际上产生了更高的总成本。例如，Gemini 3 Flash的标价比GPT-5.4便宜80%。但它在所有任务中的实际成本高出38%。逆转幅度高达28倍。

其机制是研究人员所说的"过度思考"和"过度行动"。 在单个MMLU Pro问题上，Gemini 3 Flash消耗了超过60,000个思考令牌，而GPT-5.4只需要25个。在一次安全任务中，一个模型用了7次交互轮次；另一个模型为了相同的结果用了57次。推理冗长性和代理式交互深度的差异完全压倒了每令牌定价的优势。更令人不安的是：在同一模型上对同一查询的重复运行产生了高达9.7倍的思考令牌变化。每次查询的成本不仅高——而且是随机的。

即使你知道确切的提示和确切的模型，你也无法预测给定工作负载的成本。

这彻底改变了企业预算问题的性质。问题不仅在于工程师消耗了太多令牌。还在于列出的价格与实际成本之间的关系在模型层面就已经破裂。一个采购团队选择Gemini Flash而不是GPT-5.4，"因为它更便宜"，最终可能多花费38%。

基于每令牌标价进行预算的公司，是在一个与他们实际账单只有微弱且有时呈反向关系的数字上进行预算。

优步的数学具体说明了这一点。以5,000名工程师为例。假设采用率为84%。那就是4,200名活跃用户。按平均每月200美元计算——低于重度用户的范围——你每月需要84万美元，或每年1,000万美元。但每月2,000美元的重度用户会迅速推高实际平均值，尤其是在采用率加速的情况下。2月份32%采用率时看似合理的预算，在结构上无法承受3月份84%的采用率。

传统软件：成本随员工人数增长。AI工具：成本随使用强度乘以员工人数增长。 当你同时鼓励采用和强度时，成本函数会以企业预算无法承受的方式呈非线性增长。

3、你正在构建到技术栈中的薄弱环节

成本故事获得所有关注是可以理解的，但还有第二个风险，而且可能更加危险——它与我之前文章中提出的薄弱环节框架风险完美契合。

当Claude在2026年3月3日离线数小时——然后在不到24小时后再次离线——工程师和开发人员的反应很有启发性。在LinkedIn和工程师论坛上，工程师们承认他们已经好几个月没有亲自写过代码了；一个人写道："让我震惊的不是中断本身。这会发生。而是它如此迅速地暴露了我已经将Claude编织到我的工作生活中有多深。"

Downdetector记录了数千次中断报告，需要保持合规和审计记录的企业团队发现自己在担心在降级模式下记录了哪些数据（如果有的话）。

这些并非孤立事件；Claude在2026年经历了多次中断。就OpenAI的ChatGPT而言，它在2025年6月10日经历了全球15小时的中断。2025年11月10日的一次重大Cloudflare中断导致ChatGPT和Sora以及数千个依赖它们的应用程序瘫痪。2025年9月，一次30分钟的Claude中断使其API、开发者控制台和所有托管服务瘫痪；即使工人在高峰时段工作时也没有提供任何警告。

Thoughtworks对2026年6月Claude中断的一次分析完美地捕捉到了问题的本质："从历史上看，在AI革命的新兴格局中，在应用程序中硬编码特定提供商的API端点是一种可接受的可用性方法。在2026年，这是一个单一供应商故障点，对业务连续性构成重大风险。"

作者指出，这一趋势超出了工程师的范围；营销部门、财务、物流甚至客户服务都已成功地在一天中与AI工具集成，一个损坏的API意味着营销部门——以及财务、物流和客户服务——也会停止运作。

这是克雷默（Kremer）意义上的薄弱环节问题。你有一系列构成整个运营的互补任务——编码、测试、审查、部署——并在中间插入了一个单一的供应商API依赖。当API正常工作时，链条完整且流畅运行，当API故障时，运营会戛然而止，不是因为运营中的每一步都失败了，而是因为一个环节断裂了。

随着时间的推移，这一问题的复合效应怎么强调都不为过。在花费数月时间集成到AI辅助工作流后，工程师自身的工作技能将会下降。代码库将仅以AI生成的模式发展。"我们在Claude之前如何编写代码"的制度记忆将会消退。它开始时是一种增强，然后转变为一种依赖——4小时的中断不仅代表4小时的损失时间，还代表团队认知上的损失，因为他们的工作流肌肉记忆被抹去了。

对于一个按每小时90美元计费的25名员工工程团队来说，即使4小时的中断也可能代表超过9,000美元的生产力损失。对于像优步或微软体验部门这样的5,000名工程师公司来说，全员紧急董事会讨论AI依赖风险成为一个真实而紧迫的问题。

4、幽灵GDP问题

还有第二个更扭曲的经济影响，它开始在专业圈子中获得关注，但yet尚未成为主流。

SemiAnalysis的一份报告认为，AI正在产生巨大的真实经济价值，但对GDP统计来说几乎不可见。他们称之为"暗产出"。逻辑是这样的：当AI导致执行知识任务的成本——比如起草遗嘱——暴跌时，其名义GDP贡献下降，即使产出数量或质量没有增加。

他们起草遗嘱的成本轨迹令人震惊："17世纪的羊皮纸抄写员花费相当于今天的3000美元。文艺复兴时期的公证人收费800美元。1900年的律师收费400美元。2010年的Legalzoom花费150美元。2026年的前沿AI模型API可以以不到0.50美元的价格起草。"这是"十六年内99.7%的成本崩溃，其中过去三年下降最陡峭。"

GDP统计的问题在于：美国服务业GDP的很大一部分——约41%或7.2万亿美元——是通过工资推算法衡量的。当一项任务从由人类执行转变为由AI执行时，其统计足迹会缩小，因为AI的令牌成本只是工资成本的一小部分。产出是相同或更好的；对消费者的价值是相同或更好的。然而，GDP价值下降，因为它衡量的是支付的金额，而不是生产的数量。

这奇怪地回到了令牌最大化的讨论：亚马逊和优步看到AI支出激增——与幽灵GDP效应的论点相反。解决方案：两种说法都是正确的。

AI使单个任务极其便宜，而在公司层面由AI处理的任务量增长如此之快，以至于AI总支出激增，即使单个任务成本 plummets。

优步每行代码的支出并没有上升。优步正在生成 vastly 更多的代码行，其中大部分（正如Macdonald指出的）并未产生相应增加的有用功能。

这又是杰文斯悖论，但在公司内部，而非整个经济体。因此，企业层面的成本问题和宏观层面的测量问题是同一现象的两个方面：AI正在大幅降低每个任务的成本，并大幅增加AI总支出。

5、围绕token依赖构建韧性

现在——随着亚马逊排行榜的关闭、优步的1,500美元上限、微软许可证的取消——企业AI的采用正在经历一次真正的修正。这不会是最后一次。那么，对于那些已将AI集成到现有流程中、管理结构性风险、同时又不放弃生产力的公司来说，这意味着什么？

从模式来看——几个主题正在浮现：

衡量结果，而非活动。 最强的迹象表明这正在发生，是亚马逊已经从谈论原始令牌数量转向"标准化部署"——也就是说，交付的AI辅助代码行数。关键不是你的工程师消耗了多少令牌。而是生产环境中有多少有用的代码行。 研究非常明确：Jellyfish检查了7,548名工程师，发现拥有更高令牌预算的工程师以10倍的成本实现了2倍的产出。GitClear显示，频繁的AI用户有9.4倍的代码流失率——因此，许多AI生成的代码行在产生后不久就被丢弃了。Waydev对超过10,000名工程师的检查显示，初始代码的代码接受率为80-90%，在经过多次代码审查和修改后骤降至10-30%。每一点证据都表明令牌成本与交付的代码行之间存在非常松散的相关性。

为非线性采用曲线做预算。 他们都犯了同样的错误，公司为线性增长做预算，然后得到指数级增长。优步的工程师采用率在一个月内从32%跃升至84%；线性预算甚至无法跟上这样的曲线。但答案不是限制增长；而是根据病毒式传播来预算，并提前安装断路器（支出上限、功能层级、高使用量所需的支出审批）。

分散你的模型依赖。 中断数据在这里很有说服力：今天将单一AI提供商烘焙到你的工程栈中，相当于在没有任何故障转移的单台机器上运行你的生产数据库。 多模型架构——允许工作负载根据可用性和成本在Claude、GPT、Gemini或开源模型之间灵活路由——不再是最佳实践，而是正在成为基本要求。GitHub基于使用量的AI积分（从2026年6月开始）甚至允许这样做，因为它们允许你在不同模型之间分配你的AI积分。

区分增强与依赖。 这是最关键的一点，也可以说是最难实施的。工程师使用AI工具加速编写代码，与没有工具就无法编写代码的工程师之间存在区别。前者是增强，后者是依赖。依赖形成了一个脆弱的环节——当工具宕机时，人类也宕机了。公司应该在关键工作流中保持人类基线能力——这应该不时进行压力测试：这个团队在没有AI工具访问权限的情况下能否在48小时内发布？如果不能，你已经在工程组织中构建了结构性脆弱性。

密切关注定价模型的转变。 我们正在经历定价模型的范式转变。ClaudeCode按席位和消耗量收费。GitHub Copilot将采用AI积分消耗模式。未来趋势已定；对于大多数应用来说，仅席位费已经过时，消耗量对所有应用来说都是趋势。企业AI现在从稳定的Opex成本项目转变为与使用量挂钩的可变成本项目；这是云计算一直使用的模式，但对开发者工具领域来说是新的。能够掌握云成本优化的公司将能够将其现有专业知识应用于管理AI工具的成本。那些认为云是"别人的责任"的公司将经历同样的震惊，当他们看到AI工具的成本时。

诚实的评估："令牌最大化"不仅仅是工程师如何在排行榜上"玩弄"系统的例证。它是AI工具定价方式与企业预算方式之间结构性错配的首次可见表现。 定价问题是一个非常现实的问题，将会再次出现。依赖问题——等式中脆弱的部分——要阴险得多，而且讨论得远远不够。幽灵GDP表明，即使公司难以跟上快速增长的AI账单，经济数字可能仍在低估正在发生的财富创造。

那些做对了的企业将像成功的成熟公司管理其云服务一样管理AI工具——关注基于结果的指标、在良好治理下消费工具、通过多供应商策略构建冗余，并培养内部成熟度以了解哪些工具增强人类工作，哪些替代人类工作。

那些做不到的企业将继续陷入优步的困境，事实证明，在四个月用完整个年度预算，正是当你奖励活动而非结果时会发生的事情。

原文链接：The Token Trap

汇智网翻译整理，转载请标明出处