"英伟达税"已死:垂直AI赢了
OpenAI 刚刚证明了"通用"计算已经结束。如果你是一个租用 GPU 的战略家,这就是为什么你的利润率即将崩溃。
英伟达刚刚损失了 1600 亿美元 的市值。
原因不是糟糕的财报。原因:OpenAI 的一个单一公告。市场立即意识到,GPU 的最大买家刚刚变成了最大的竞争对手。在本文结束之前,你将理解为什么"通用"计算已经死亡。以及如何为接下来发生的事情准备你的基础设施。
如果你是一个看着云账单爆炸的企业战略家,这种转变不仅仅是新闻。这是 你的退出策略。
交易员们看着 NVDA 股票闪烁着红色。到上午中旬,1600 亿美元(超过英特尔的市值)已经蒸发了。但损失不是故事。故事是对于我们这些仍然从失败者那里租用的人来说会发生什么。
1、主流谎言
每个人都读错了这个标题。财经媒体称之为"谈判策略"。
他们认为 Sam Altman 只是在炫耀武器以获得更好的 H200 定价。他们错过了雄心的规模。Sam Altman 的引用很明确:"我们不能在寻租硬件利润率的基础上建设未来。" 不是为了获得更便宜芯片的虚张声势。AI 价值链的根本性重组。
表面冲突是价格杠杆。更深层次的真相?利润率捕获。
OpenAI 不是试图在账单上节省 10%。他们试图捕获英伟达每售出芯片享受的 85% 利润率。(如果我们诚实的话,这是他们的商业模式长期有效工作的唯一方式)。
这对你的损益表为什么重要。
寻租一直有效,直到租户购买大楼。
当市场上最大的客户决定垂直整合时,在位者的定价权就会崩溃。我们在 2020 年看到过苹果和英特尔的这种情况。我们今天又看到了这种情况。
他们认为这是定价争议。他们错了。这是政权的更迭。
2、泰坦的物理学
要理解政权的更迭,你必须看硅本身。
泰坦。一款专为推理设计的 3nm ASIC。
它剥离了训练模型所需的所有通用逻辑。架构放弃了反向传播所需的大规模、耗电的内存带宽,用为前向传播设计的高度优化的 SRAM 缓存取而代之。结果:与 H200 集群相比,每 token 成本降低 85%。这款芯片无法学习。它无法训练新模型。它只能服务现有的智能。
但它以一个让 GPU 看起来像古董的价格点做到这一点。
为什么这很重要:GPU 是瑞士军刀。泰坦是手术刀。
当你每月运行 100 万亿 token 时,瑞士军刀的灵活性是你再也无法承担的低效率。英伟达 GPU 上每个专用于训练逻辑的晶体管在推理期间都是 浪费的硅。 OpenAI 只是决定停止为他们不使用的硅付费。
报告确认 OpenAI 已预订购 40 万台。这个数量证明这不是实验。这是迁移。
让那个数字深入人心。85%。
物理学获胜。规格令人印象深刻。但经济学是致命的。
3、通用的死亡
这给我们带来了 2026 年的核心冲突:通用 vs 专业化。
SemiAnalysis 立即正确理解了影响:"泰坦攻击了英伟达未来总可达市场的 90%。"
行业长期以来混淆了训练和推理。训练是资本支出:你只做一次。推理是运营支出:它永远持续。
随着代理 AI 的扩展,推理与训练的比例从 1:1 移动到 100:1。如果你构建运行 24/7 循环的代理,你不能在每个周期都支付英伟达的溢价。
Dylan Patel 直言不讳:"OpenAI 刚刚从英伟达的账簿中移除了'永久'收入流。"
辩论总是关于 CUDA。工程师们认为英伟达的软件护城河是不可渗透的。但 CUDA 是训练护城河。 它允许研究人员快速试验新架构。对于推理,没有人关心金属说什么语言,只要 API 响应。
三年来,我们认为 OpenAI 是一家软件公司。我们错了。
但是等等。英伟达不是有 CUDA 吗?
是的,对于用于研究的 5% 的计算它很重要。对于用于服务客户的 95%,它是无关紧要的。
英伟达有护城河,是的。但 OpenAI 刚刚抽干了水。
4、新的垂直栈
那么在这个新世界中谁会赢?拥有堆栈的公司。
博通今早确认从合作伙伴关系中产生 12 亿美元的收入影响。Cathie Wood 称之为"自 iPhone 以来最重要的硬件转向。"获胜者:垂直整合者,他们可以设计自己的硅来匹配自己的模型架构。
Sam Altman 在公告期间没有举起芯片。他举起了一个显示成本悬崖式下降的图表。"这个,"他说,"是我们达到 AGI 的方式。"
如果你相信英伟达的 CUDA 护城河在推理中保护他们,你在打上一场战争。
英伟达没有死,但他们 70% 的利润率死了。如果你不同意,告诉我谁会在 2027 年支付溢价?
如果你是 CTO,这是你的唤醒电话。
这是苹果的剧本。苹果意识到购买英特尔芯片限制了他们优化电池寿命和性能的能力。OpenAI 已经意识到购买英伟达芯片限制了他们降低智能成本的能力。
这创造了新的赢家和输家集合。如果你持有 H100 合同,你在错误的名单上。
5、反论(以及为什么它失败)
怀疑者们在尖叫软件复杂性。
常见的重复是这样的:"祝你好运调试那个栈。CUDA 是 15 年的边缘案例解决。泰坦是第一天硅。预期停机。"
他们对复杂性是对的。对权衡完全错误。
OpenAI 会吃掉复杂性来获得利润率。当你每年在计算上花费 100 亿美元时,雇佣 500 个编译器工程师来修复边缘案例是一个舍入误差。构建定制软件堆栈比支付英伟达税更便宜。
看看 ASIC 采用的历史。"复杂性曲线"比"成本曲线"上升快得多地扁平化。我们在谷歌的 TPU 上看到过这一点。第一个版本很难使用。第四个版本为世界上最受欢迎的产品提供无缝动力。泰坦将遵循相同的轨迹,但更快,因为 LLM 现在可以编写自己的 优化内核。
Hacker News 知道真相:"CUDA 仍然是研究人员的护城河,但对 API 消费者无关紧要。"
预测:到 2028 年,苹果和 OpenAI 将是世界上两个最大的芯片设计者。英伟达将是第三。
这是工程师的观点。这是 CEO 的观点。
怀疑者对软件复杂性有观点。但他们错过了一个超越复杂性的东西:利润率。
6、战略家的剧本
字已经写在墙上。这是如何阅读它。
你需要一个新的 2026 年心智模型。停止将计算视为你从云提供商租用的商品。将其视为你构建的竞争优势。租用 GPU 是为了原型制作;拥有 ASIC(或廉价租用它们)是为了生产。
第 1 步:推理审计。 立即分离你的云支出。如果推理占你账单的 50% 以上,停止签署长期 GPU 承诺合同。你在崩溃前锁定了峰值定价。使用泰坦公告作为杠杆重新协商你与 AWS 或 Azure 的当前条款。(你的客户代表现在很害怕;利用这一点)。
第 2 步:强制可移植性。 确保你的模型是 ONNX 或 TRT-LLM 兼容的。不要将你的生产堆栈锁定在无法在泰坦、TPU 或 Inferentia 上运行的专有 CUDA 库中。如果你的模型只能在英伟达上运行,你已经将你的利润率投降给了 Jensen Huang。
第 3 步:"垂直"试点。 不要只是审计;构建测试集群。本季度将你 10% 的生产流量分配给非 GPU 架构(如 AWS Inferentia 或 Google TPU)。你需要向你的董事会证明你的堆栈在市场迫使你切换之前是 可移植的。
如果你管理超过 100 万美元的 AI 预算,"推理审计"是你本季度将编写的最重要文件。
停止优化你的 CUDA 代码。开始为推理不可知论优化你的模型架构。
你还在签署长期 GPU 合同吗?为什么?
这是你的 2026 年垂直堆栈转型计划。
7、结束语
通用时代很有趣。但垂直时代已经到来。
在 Hacker News 上,一个名为'kernel_panic' 的用户问道:"我刚成为一个 Cobol 程序员吗?"不,但你脚下的地面发生了转变。昨天重要的技能(CUDA 优化)正在被明天重要的策略(垂直经济学)所取代。
如果你的 AI 战略依赖于从 AWS 租用 GPU,你正在支付"遗留税"。
是时候选择立场了。
原文链接: The "Nvidia Tax" is Dead: Why Vertical AI Just Won the War
汇智网翻译整理,转载请标明出处