Token经济学已死
TLDR
- OpenAI在2025年消耗了约90亿美元,收入约130亿美元;预计2026年亏损约140亿美元
- 仅推理成本到2025年11月就达到120亿美元(与微软的结算)。
- Anthropic 2025年毛利率约40%,低于50%的目标
- "廉价推理"时代由VC和超大规模厂商的交叉补贴伪装成投资资助:微软、亚马逊、英伟达、软银同时资助、供应和购买同一实验室的产品。
- 当补贴停止时,这个行业离混乱的10倍重新定价只有一个流动性事件。
- IPO计划的目的是让退休基金接盘
- 我们解雇了人类,但账单还是一样。只是发票上的名字不同了。
我们都能看到这一点但没有采取行动,因为我们不知道如何减少风险敞口。我说的是像打开任何AI公司的账本一样清楚的事情。
打开账本,房间就安静了。因为"token经济学"的整个前提——那个说推理将永远变得更便宜、AI劳动力将在通向富足的道路上削弱人类劳动力的童话——被一堆供应商融资、超大规模厂商的欠条和风险资本支撑着,它们目前正在补贴你与聊天机器人的每一次对话。
可怕的想法,但让我们做个推演。
拿掉支撑。看看会发生什么。
Token经济学已死。只是还没有被埋葬。
1、"廉价token"时代是补贴,不是技术
让我把数字摆到桌面上。OpenAI在2025年的收入约为130亿美元,花费了约220亿美元。净亏损:约90亿美元。到2025年9月,该公司仅Azure上的推理计算就向微软支付了86.7亿美元;到11月,泄露的数字是120亿美元。推理预计将在2026年攀升至141亿美元。
地球上最大、最成功、最有价值的AI公司为你回答提示所用的GPU支付的费用,超过了它向你收取的提示费用。不是训练。是回答。那个本应是简单、有利可图、可扩展的部分。那部分恰恰是出血的伤口。
Anthropic的故事如出一辙。收入从2024年底的年化10亿美元飙升到2026年2月的约140亿美元。很美,对吧?但是。2025年毛利率约为40%,因为推理成本超出计划23%,公司悄悄撤回了自己50%的目标。
该公司现在计划2026年约190亿美元的支出(训练加推理),而年化收入基础——如果增长暂停——无法覆盖它。
顺便说一句,这个故事并不独特。即使是微软、Meta、谷歌这样的现金巨头也一直在烧各种钱堆。只是他们不必像Oracle那样卖欠条。Ellison有更多的政治和极端犹太复国主义野心,所以不像其他公司那么纯粹,但他们也在烧钱。他们的业务仍然不盈利。
2、API价格实际上代表什么
Claude Opus 4.6标价为每百万输入token 5美元,每百万输出token 25美元。听起来合理。直到你把它和另外两个数字放在一起看。
一个运行开源120B模型的B200 GPU在不错的批处理利用率下可以达到每百万token约0.02美元。巨大的上下文窗口和推理链、低批处理大小、KV缓存压力、尾部延迟目标、安全分类器、检索、工具调用?每百万token的成本可以膨胀50倍到100倍。前沿推理和商品推理根本不是同一种动物。
我们今天最终看到的是补贴后的成本。这是生成一个token的成本减去投资者愿意承担的让你继续使用产品的费用。差额就是补贴。而补贴有一个赞助商。
3、赞助商有名字
几个名字……更正。
这是让我毛骨悚然的部分。
资助廉价token时代的"风险投资"和"战略投资"往往是同一家销售GPU的公司。或者运营云服务。或者购买API。有时三者皆是。资金没有流经系统;它在系统内部循环。
3.1 微软向OpenAI承诺了130亿美元
大部分训练支出是Azure信用额度,非现金。微软"投资"130亿美元;OpenAI将大部分"花回"Azure;微软将消耗记为云收入;云收入图表上升;股价上涨;下一轮融资得到证明。然后OpenAI又签署了增量2500亿美元的Azure合同,加上给微软20%的收入分成。微软从Bing和Azure OpenAI服务中返还约20%。循环往复。
3.2 亚马逊和谷歌向Anthropic承诺了130亿美元
然后宣布最多再追加250亿美元,以换取Anthropic承诺在十年内超过1000亿美元的AWS支出,以及一条从Trainium到Trainium 4的独占路径,覆盖高达5吉瓦的容量。
解读为:现在给现金,永远锁定计算收入,供应商锁定到亚马逊的芯片,以及一个提升AWS AI叙事的故事。Anthropic是独立的;Anthropic也是亚马逊的长期收入年金。
3.3 英伟达拥有或已投资......
......CoreWeave、OpenAI、xAI、Wayve、Mistral等一长串公司。
英伟达的被投公司反过来购买英伟达的GPU。OpenAI 1220亿美元的"融资轮",8520亿美元的投后估值?大约370亿美元是你能诚实称之为与供应商无关的纯风险资本。其余的是亚马逊买一个客户,英伟达买一个买家,软银向一家软银也在通过自己的投资组合分销其技术的供应商分批投入300亿美元。
那不是资本市场。那是菊花链。我们已经讨论过整个循环融资了,所以我不再赘述……你明白这个图景。
4、"但每token成本在下降。"
是的,账单也在上升。
"推理成本在两年内下降了280倍;token几乎是免费的。"
这句话有一半是真的。另一半是合成谬误。
两者之间的区别是token与任务。
每token价格下降。每任务的token消耗暴增。
2023时代的聊天完成大约需要800个token往返。
2026时代的代理工作流需要10到20次LLM调用,每次都有推理链、工具调用、检索上下文和重新提示。
任务才是价值主张,不是token。token价格可能下降,但如果最终的任务成本增加,那就不值一文。
一个解决真实生产bug的Claude Code会话消耗五位数的token数量。三代理团队配置使用的token是单代理的7倍。Opus 4.7的分词器根据内容类型将相同输入映射到多达35%的更多token。
单位变得更便宜了。单位数量却垂直飙升了。
净结果是,企业AI支出在token价格下降280倍的同一窗口内增长了320%。
推理现在吃掉了企业AI预算的85%。这不是通缩。这是替代性扩展快于效率提升,这是杰文斯悖论成本爆炸的经典模式。较旧模型的相对性能也存在这个问题。
工具调用越来越复杂。较旧的廉价模型试图使用复杂的工具并失败,导致低成本模型在任务级别使用更多token且效率低下!
如果你是一个读到"10倍更便宜的推理"标题并据此做预算的财务团队,你将在Q3发现一些痛苦的事情。
5、一个已经在发生的场景
想象一个中等规模的SaaS团队,50名工程师,在2025年底推出Claude Code来"10倍提升开发者生产力"。第一天,每个开发者的成本是每月20美元。六个月后,三名工程师启动了多代理工具链,两个团队添加了在内部文档门户每次页面加载时调用Anthropic API的RAG层,平台团队在每个PR上运行自动代码审查机器人。每月Anthropic账单现在是6万美元。CFO问为什么。CTO说"我们更高效了"。真的吗?还是你在为过去能交付的相同代码运行7倍的token?
账单开始出现了。节省还没有。这导致许多早期过度热情地跳上AI wagon并解雇了一半员工的企业感到焦虑或彻底恐慌。成本/任务的轨迹只是在增加,而成本/token在纸面上是下降的。是的,我们变得更便宜了,但它没有影响我们希望它影响的地方。
6、OpenAI的预测是科技界最乐观的文件
OpenAI自己的内部预测显示2026年亏损140亿美元,然后亏损更多,然后到2030年以1000亿美元以上的收入变得"疯狂盈利"。为了达到这个目标,该公司已承诺在2025到2035年间,在Broadcom、Oracle、微软、英伟达、AMD、AWS和CoreWeave之间投入1.15万亿美元(注意单位是万亿)。
暂停一下。
数学不会说谎。要么推理计算在芯片层(Trainium 4、B300、ASIC)变得大幅更便宜,要么token价格在API层变得大幅更高,或者两者兼有。不存在不涉及有人永远吞噬数十亿美元损失的第四种选择。
回到核心观点,这些token的价格和基于此采取的行动是不现实的。特别是当一半的劳动力被裁掉,而token突然变得更贵时。首先被AI自动化的是那些外包到印度、菲律宾、越南的工作。但海外工人的成本是20美元/小时。如果AI成本超过这个数字,那些工作将不得不恢复。这意味着我们在国内面临更大的问题。让我们深入探讨。
7、当补贴结束时会发生什么
三件事可以打破这个循环。任何一件就足够了。
7.1 一次糟糕的融资轮
OpenAI以8520亿美元估值融资1220亿美元。很棒的标题。但结构中充斥着或有资本、供应商承诺和里程碑挂钩的分期。如果因为OpenAI未达标而错过一个分期,或者因为云需求疲软而由超大规模厂商重新谈判,菊花链在一个环节断裂,这意味着循环在所有环节断裂。链条中的每家公司都基于下一个环节将履行承诺的假设给自己定价。
7.2 企业市场降温
今天大多数企业AI部署都是试点项目。一份麦肯锡风格的幻灯片和角落里的三名工程师。如果严重的经济衰退到来,CFO们将"实验性AI项目"削减30%,推理收入会在推理成本之前下降(因为计算是照付不议合同)。利润率一夜之间从"糟糕"变成"致命"。
7.3 监管打击(最不可能但谁知道)
反垄断目光已经盯上了循环交易。FTC、SEC和欧盟竞争当局已经开始尖锐地质问供应商-股权-换-计算安排是否构成收入膨胀。如果监管机构迫使超大规模厂商将Azure信用"投资"标记为递延收入而非合作方股权,微软AI业务线的整个收入线将被重述。它支撑的估值也会如此。
随便挑一个。价格重置在12到24个月内到来。行业分析师已经估计API价格需要上涨3到10倍才能达到前沿服务真正的可持续性,前沿和商品层将急剧分化。开源蒸馏模型保持便宜。真正做推理和长期规划和可靠代码生成的智能前沿模型变得昂贵。
7.4 Sora的信号
OpenAI在多个地区关闭或激进地限制了Sora视频的免费访问。原因不是"安全"。原因不是"研究"。原因是前沿视频模型上的单次生成成本——带有长采样链和巨大上下文——远高于用户可能支付的任何合理价格,唯一的解决方案是:停止让用户使用它。
当数学在单个产品上糟糕到一定程度时,你不去修复数学。你隐藏产品。Sora的关闭就是那只金丝雀。
8、"Token经济学"从来就是一种感觉,不是理论
Token是新的计算,新的石油,新的电力,新的什么东西。按token付费。按token扩展。在token上建立经济。整个VC论点都围绕这个隐喻建立。
以下是一直以来为真但从未被说出来的话。
Token不是计算的单位。它是中间状态的单位。
在200K上下文的70B密集Transformer上1000个token的输出,和在4K上下文的1B蒸馏模型上1000个token的输出不是同一个产品,即使API计费器转的圈数一样。
"每token"定价模型将不同的产品视为同一产品,这对营销幻灯片很好,对单位经济学很糟。它掩盖了一个事实:生成一个token的成本根据模型、上下文长度、批次、精度、硬件的不同可以变化1000倍。
所以整个行业的定价面建立在一个所有token都是可互换的虚构之上。
直到它们不是。然后有人必须重新粉刷这个表面。Jenson、Elon或Sam的每一个推销字面上都充满了这种欺骗。
9、"我们不需要人类"的论点刚刚遇到了它的反驳
2026年4月,英伟达副总裁Bryan Catanzaro对Axios说:"对我的团队来说,计算成本远远超过了员工的成本。"Jensen Huang在GTC 2026的主题演讲中推销在薪水上额外用AI token支付员工的想法,因为每个工程师的token支出项现在比一些团队的人头支出项还大。
一份levels.fyi调查将美国前四分之一软件工程师的基本工资定为37.5万美元,加上全负荷AI工具的10万美元token消耗:47.5万美元总成本。大约20%的工程师成本现在是计算。对于研究密集型团队,这个比例要高得多。
读到这里,然后一本正经地告诉我我们替代了人类。
我们没有替代人类。我们重新标记了成本。过去写着"薪水,20万美元"的那一行现在写着"薪水,15万美元 + Anthropic发票,8万美元 + Cursor席位,4000美元 + token超额,3万美元。"总额没有下降。它只是不再发给一个人,而是开始发给一个超大规模厂商。W-2表格变成了AWS发票。
告诉我这对任何人(任何人类)有什么帮助?正在实现什么。每个经理、HR、CEO都在做演讲说我们多么深切地关心"家庭"。真的,这怎么帮助了你的员工。
10、真正的Token经济学是什么样的
如果,如果,这个行业挺过了即将到来的补贴重置,以下是数学所要求的。
前沿模型推理的全成本大约等于一个有经验的人类在相同时间内做相同任务的边际成本。对于一个需要30分钟人类时间的高级工程师任务,等效的代理运行——提供可比可靠性——可能需要200K-400K输入token和50K-150K输出token,在现实的上下文利用率下,跨越10-20次LLM调用,使用前沿推理模型。按非补贴价格(今天的3-10倍),这是20-80美元的计算。不是0.50美元。
一个30分钟的高级工程师任务按全负荷成本计算,取决于地区,是50-120美元的人类时间。
一半的价格。大部分的能力。没有自主权。这是真正的价值主张,一旦补贴清除。这是一笔交易。不是一场革命。
11、对较低层级来说更糟
客户支持代理、内容审核、数据录入、基础法律审查、簿记、转录——这个行业真正解雇人的那些工作——已经是低时薪角色,通常是离岸外包的。非补贴AI推理以可比拟训练有素的人类的可靠性来做这些工作的成本,令人不安地接近人类在低生活成本国家的时薪。"AI便宜90%"的标题今天是真的,仅仅是因为其他人正在吞噬大部分的实际计算账单。
当那个其他人停止吞噬时,节省就消失了。工作岗位仍然消失了。工具的成本几乎和劳动力一样。证明裁员合理性的企业利润率收益蒸发了。
我们解雇了人,然后发现我们需要更少的人,而成本相同。我们只是建立了一个漏斗,将资金从人转移到企业,节省50%或更少,同时承担了巨大的法律、社会和情感风险!我们到底在做什么。这真的必要吗?
12、我认为接下来会发生什么
三个预测。信不信由你。
12.1 重置,不是崩盘
实验室和超大规模厂商都有管理补贴重置而非引爆它的动机。预计未来两年前沿层的API价格每年上涨30-50%,而开源和小模型API大致持平或下降。分化将更加尖锐。中等定价层消失。
12.2 一次爆炸,然后整合
在未来18个月的某个时候,一个二线实验室(不是OpenAI,不是Anthropic,不是谷歌)错过付款、未能完成分期,或被循环融资审计抓住。市场在一个季度内将整个板块重新定价30-50%。清理后留下三到四个认真的前沿实验室和一长串蒸馏商店。Mistral、Cohere、AI21、xAI:至少有一个会被并入更大的实体或悄悄日落。
12.3 "每工程师token数"成为预算行
到2027年底,每个工程组织都将每工程师token数作为预算指标跟踪,就像他们目前跟踪每工程师AWS支出一样。CFO们将要求上限。工程经理将为token超额写论证文档。"想用多少AI就用多少"的时代悄然结束,被"在复盘中能论证多少就用多少AI"取代。生产力指标将按计算支出标准化,这意味着生产力数字变得不那么令人印象深刻。
蜜月结束了。婚姻继续。但银行账户分开。
Token经济学——LLM token是具有自身连贯经济学的新资产类别的想法——从来就是一个披着论点外衣的营销术语。实际的经济学与历史上每一个其他计算密集型SaaS业务相同。利润率被压缩。定价权很重要。单位经济学说了算。没有魔法。
只有少数像苹果这样的公司在不冒险未来的情况下参与。
这是我的观点。你应该做你觉得舒服的事。但不要说涨价通知出现在你收件箱时没人告诉过你。
账单即将到期。收据是公开的。
原文链接: Tokenomics Is Dead. The Lie Of Affordable Inference
汇智网翻译整理,转载请标明出处