"英伟达税"已死:垂直AI赢了

OpenAI 刚刚证明了"通用"计算已经结束。如果你是一个租用 GPU 的战略家,这就是为什么你的利润率即将崩溃。

英伟达刚刚损失了 1600 亿美元 的市值。

原因不是糟糕的财报。原因:OpenAI 的一个单一公告。市场立即意识到,GPU 的最大买家刚刚变成了最大的竞争对手。在本文结束之前,你将理解为什么"通用"计算已经死亡。以及如何为接下来发生的事情准备你的基础设施。

如果你是一个看着云账单爆炸的企业战略家,这种转变不仅仅是新闻。这是 你的退出策略。

交易员们看着 NVDA 股票闪烁着红色。到上午中旬,1600 亿美元(超过英特尔的市值)已经蒸发了。但损失不是故事。故事是对于我们这些仍然从失败者那里租用的人来说会发生什么。

1、主流谎言

每个人都读错了这个标题。财经媒体称之为"谈判策略"。

他们认为 Sam Altman 只是在炫耀武器以获得更好的 H200 定价。他们错过了雄心的规模。Sam Altman 的引用很明确:"我们不能在寻租硬件利润率的基础上建设未来。" 不是为了获得更便宜芯片的虚张声势。AI 价值链的根本性重组。

表面冲突是价格杠杆。更深层次的真相?利润率捕获。

OpenAI 不是试图在账单上节省 10%。他们试图捕获英伟达每售出芯片享受的 85% 利润率。(如果我们诚实的话,这是他们的商业模式长期有效工作的唯一方式)。

这对你的损益表为什么重要。

寻租一直有效,直到租户购买大楼。

当市场上最大的客户决定垂直整合时,在位者的定价权就会崩溃。我们在 2020 年看到过苹果和英特尔的这种情况。我们今天又看到了这种情况。

他们认为这是定价争议。他们错了。这是政权的更迭。

2、泰坦的物理学

要理解政权的更迭,你必须看硅本身。

泰坦。一款专为推理设计的 3nm ASIC。

它剥离了训练模型所需的所有通用逻辑。架构放弃了反向传播所需的大规模、耗电的内存带宽,用为前向传播设计的高度优化的 SRAM 缓存取而代之。结果:与 H200 集群相比,每 token 成本降低 85%。这款芯片无法学习。它无法训练新模型。它只能服务现有的智能。

但它以一个让 GPU 看起来像古董的价格点做到这一点。

为什么这很重要:GPU 是瑞士军刀。泰坦是手术刀。

当你每月运行 100 万亿 token 时,瑞士军刀的灵活性是你再也无法承担的低效率。英伟达 GPU 上每个专用于训练逻辑的晶体管在推理期间都是 浪费的硅。 OpenAI 只是决定停止为他们不使用的硅付费。

报告确认 OpenAI 已预订购 40 万台。这个数量证明这不是实验。这是迁移。

让那个数字深入人心。85%。

物理学获胜。规格令人印象深刻。但经济学是致命的。

从锁定、高利润率的水平堆栈向便携、低成本的垂直堆栈的转变是 2026 年决定性的架构变化。

3、通用的死亡

这给我们带来了 2026 年的核心冲突:通用 vs 专业化。

SemiAnalysis 立即正确理解了影响:"泰坦攻击了英伟达未来总可达市场的 90%。"

行业长期以来混淆了训练和推理。训练是资本支出:你只做一次。推理是运营支出:它永远持续。

随着代理 AI 的扩展,推理与训练的比例从 1:1 移动到 100:1。如果你构建运行 24/7 循环的代理,你不能在每个周期都支付英伟达的溢价。

Dylan Patel 直言不讳:"OpenAI 刚刚从英伟达的账簿中移除了'永久'收入流。"

辩论总是关于 CUDA。工程师们认为英伟达的软件护城河是不可渗透的。但 CUDA 是训练护城河。 它允许研究人员快速试验新架构。对于推理,没有人关心金属说什么语言,只要 API 响应。

三年来,我们认为 OpenAI 是一家软件公司。我们错了。

但是等等。英伟达不是有 CUDA 吗?

是的,对于用于研究的 5% 的计算它很重要。对于用于服务客户的 95%,它是无关紧要的。

英伟达有护城河,是的。但 OpenAI 刚刚抽干了水。

4、新的垂直栈

那么在这个新世界中谁会赢?拥有堆栈的公司。

博通今早确认从合作伙伴关系中产生 12 亿美元的收入影响。Cathie Wood 称之为"自 iPhone 以来最重要的硬件转向。"获胜者:垂直整合者,他们可以设计自己的硅来匹配自己的模型架构。

推理运营支出减少 85% 不仅仅是效率提升;它是可持续商业模式和不可持续寻租之间的差异

Sam Altman 在公告期间没有举起芯片。他举起了一个显示成本悬崖式下降的图表。"这个,"他说,"是我们达到 AGI 的方式。"

如果你相信英伟达的 CUDA 护城河在推理中保护他们,你在打上一场战争。

英伟达没有死,但他们 70% 的利润率死了。如果你不同意,告诉我谁会在 2027 年支付溢价?

如果你是 CTO,这是你的唤醒电话。

这是苹果的剧本。苹果意识到购买英特尔芯片限制了他们优化电池寿命和性能的能力。OpenAI 已经意识到购买英伟达芯片限制了他们降低智能成本的能力。

这创造了新的赢家和输家集合。如果你持有 H100 合同,你在错误的名单上。

5、反论(以及为什么它失败)

怀疑者们在尖叫软件复杂性。

常见的重复是这样的:"祝你好运调试那个栈。CUDA 是 15 年的边缘案例解决。泰坦是第一天硅。预期停机。"

他们对复杂性是对的。对权衡完全错误。

OpenAI 会吃掉复杂性来获得利润率。当你每年在计算上花费 100 亿美元时,雇佣 500 个编译器工程师来修复边缘案例是一个舍入误差。构建定制软件堆栈比支付英伟达税更便宜。

看看 ASIC 采用的历史。"复杂性曲线"比"成本曲线"上升快得多地扁平化。我们在谷歌的 TPU 上看到过这一点。第一个版本很难使用。第四个版本为世界上最受欢迎的产品提供无缝动力。泰坦将遵循相同的轨迹,但更快,因为 LLM 现在可以编写自己的 优化内核。

Hacker News 知道真相:"CUDA 仍然是研究人员的护城河,但对 API 消费者无关紧要。"

预测:到 2028 年,苹果和 OpenAI 将是世界上两个最大的芯片设计者。英伟达将是第三。

这是工程师的观点。这是 CEO 的观点。

怀疑者对软件复杂性有观点。但他们错过了一个超越复杂性的东西:利润率。

6、战略家的剧本

字已经写在墙上。这是如何阅读它。

你需要一个新的 2026 年心智模型。停止将计算视为你从云提供商租用的商品。将其视为你构建的竞争优势。租用 GPU 是为了原型制作;拥有 ASIC(或廉价租用它们)是为了生产。

第 1 步:推理审计。 立即分离你的云支出。如果推理占你账单的 50% 以上,停止签署长期 GPU 承诺合同。你在崩溃前锁定了峰值定价。使用泰坦公告作为杠杆重新协商你与 AWS 或 Azure 的当前条款。(你的客户代表现在很害怕;利用这一点)。

第 2 步:强制可移植性。 确保你的模型是 ONNX 或 TRT-LLM 兼容的。不要将你的生产堆栈锁定在无法在泰坦、TPU 或 Inferentia 上运行的专有 CUDA 库中。如果你的模型只能在英伟达上运行,你已经将你的利润率投降给了 Jensen Huang。

第 3 步:"垂直"试点。 不要只是审计;构建测试集群。本季度将你 10% 的生产流量分配给非 GPU 架构(如 AWS Inferentia 或 Google TPU)。你需要向你的董事会证明你的堆栈在市场迫使你切换之前是 可移植的。

如果你管理超过 100 万美元的 AI 预算,"推理审计"是你本季度将编写的最重要文件。

停止优化你的 CUDA 代码。开始为推理不可知论优化你的模型架构。

你还在签署长期 GPU 合同吗?为什么?

这是你的 2026 年垂直堆栈转型计划。

7、结束语

通用时代很有趣。但垂直时代已经到来。

在 Hacker News 上,一个名为'kernel_panic' 的用户问道:"我刚成为一个 Cobol 程序员吗?"不,但你脚下的地面发生了转变。昨天重要的技能(CUDA 优化)正在被明天重要的策略(垂直经济学)所取代。

如果你的 AI 战略依赖于从 AWS 租用 GPU,你正在支付"遗留税"。

是时候选择立场了。


原文链接: The "Nvidia Tax" is Dead: Why Vertical AI Just Won the War

汇智网翻译整理,转载请标明出处