AI芯片竞赛爆发在即

去年悄然发生了一些变化。

英伟达这家基本上"拥有"AI计算的公司,支付了200亿美元,从一家大多数人从未听说过的初创公司获得技术授权。不是收购。只是授权技术并引进创始人。

那家初创公司是Groq。他们构建的芯片让英伟达的GPU在现在唯一真正重要的事情上显得迟缓:实时运行AI模型。

一个月后,OpenAI悄悄地与Cerebras签署了一份价值超过100亿美元的交易,这家公司的芯片简直像餐盘一样大,并且始终在推理工作负载方面超越英伟达销售的任何产品。

这里有一件事没有人明说:每家主要的AI公司都在做某种版本的这件事。谷歌、亚马逊、微软、Meta、Anthropic。它们都在投入数百亿美元设计芯片,而不是仅仅购买英伟达的。

甚至小米这家中国智能手机公司也在2026年1月宣布,他们将进行全面的垂直整合:自己的3nm芯片、自己的操作系统、自己的大型语言模型。

从表面上看,这看起来近乎疯狂。为什么有人会试图在芯片设计上击败一家已经完善GPU架构三十年、并控制AI芯片市场70-95%份额的公司?

因为经济问题让它们别无选择。

1、没人准备好的成本问题

当ChatGPT推出时,OpenAI可能预期会受欢迎。但它们没有预料到的是,保持运行将需要中型电网规模的基础设施。

OpenAI已签署了数十吉瓦的计算能力承诺。单个吉瓦级数据中心的建设成本为500-600亿美元,而英伟达自己的CEO表示,GPU可能占这些成本的一半以上。

算一算。任何真正的规模下,你每年都要面对数十亿美元的GPU账单。而且是持续发生的。

谷歌也在等待着类似的问题。它们每天为数十亿人运行搜索查询、YouTube推荐、Gmail垃圾邮件过滤和数十种其他AI驱动的服务。当ChatGPT的数字开始在内部传播时,GPU成本预测可能让某人的眼皮跳了一下。

这就是真正崩溃的地方。不是技术,是账单。

2、为什么GPU从未真正为此而设计

这是我在深入研究技术方面时让我惊讶的事情:GPU根本不是为AI推理而设计的。

它们是为图形而构建的。渲染游戏。移动像素。

英伟达在2010年代的洞察是,用于渲染的相同并行处理架构也可以加速神经网络训练。它奏效了——GPU在AI所需的矩阵数学方面确实出色。

但GPU带有大量开销。线程调度器、缓存、外部内存总线、为通用工作负载设计的逻辑。当你真正需要的是"尽可能快地乘以这些数字并且永不停歇"时,那就是浪费硅片和浪费电力。

更深层的问题是内存。大多数GPU数据存在于外部高带宽内存(HBM)中。每次操作都需要从片外获取。对于渲染来说没问题。对于大规模AI推理,尤其是大型语言模型,它创造了工程师所说的"内存墙"。你的芯片花费更多时间等待数据而不是计算。

3、定制芯片军备竞赛

这就是专用芯片登场的地方。

谷歌比大多数人更早看到了这一点。它们的TPU架构(张量处理单元)用大规模的乘法累加单元阵列取代了通用逻辑,数据像波浪一样在脉动排列中流动,在每一步进行处理,最少的内存移动。

每焦耳更高的操作。更低的延迟。更好的推理成本。

然后是Cerebras和Groq,它们走得更远。

Cerebras问:如果你使用整片硅晶圆作为一个芯片会怎样?它们的晶圆级引擎拥有900,000个AI核心,拥有足够的片上内存,数据永远不需要离开。这个庞然大物很贵,但对于特定工作负载,它击败了市场上的所有其他产品。

Groq从另一个方向剥离了它。它们的语言处理单元(LPU)只使用SRAM(快速片上内存),并移除了所有非严格必要的部分。没有外部内存,没有妥协。

权衡是你无法容纳最大的模型。但对于实时推理,它们是无与伦比的。

这解释了为什么英伟达签了一张200亿美元的支票。不是慷慨,它们需要在技术出现在其他地方之前将其纳入自己的产品线。

4、谁在投入什么,为什么情况变得复杂

2026年的实际部署图景比从外面看起来更混乱。

OpenAI同时在每个方向进行对冲。巨大的英伟达合同。AMD交易。Cerebras合作伙伴关系。与博通共同设计的定制芯片,目标是2026年投产。它们的策略相当于"从所有人那里获取计算能力,无限期地"。

Anthropic做了一件更聪明的事情。它们没有从头开始构建自己的芯片,而是签署了价值1000亿美元的承诺,分布在AWS Trainium芯片、谷歌TPU和博通定制ASIC上。每个主要平台现在都在为它们的业务竞争,同时帮助设计它们的基础设施。

这是一种看起来像弱点的举动,直到你意识到它们同时从世界上最强大的三个芯片生态系统获得定制硬件,而无需在资产负债表上单独承担50亿美元的芯片开发赌注。

谷歌完全垂直整合:设计芯片,通过合作伙伴关系制造,在谷歌云中部署,现在Anthropic已承诺使用一百万个TPU芯片。这个数字是真实的。

微软宣布了Maia芯片,然后遭遇延迟。下一代Braga芯片据报道因设计复杂性和明显的人员问题从2025年推迟到2026年。芯片设计的难度是软件团队有时低估的。

将所有这些联系起来的数字:30-40%。这是公司在大规模AI工作负载上使用定制硅与现成GPU相比看到的成本降低。对于一个600亿美元的数据中心,那就是节省180-240亿美元。突然之间,一个40亿美元的芯片开发计划看起来并不奢侈。

5、变数:小米的举动

当美国公司忙于相互超支时,小米做出了大多数西方媒体报道忽略的举动。

2026年1月,CEO雷军宣布了他所称的"大融合"——到年底,小米计划推出一款集成了三件完全内部构建的东西的设备:自己的3nm芯片(XRING O1)、自己的操作系统(HyperOS)和自己的大型语言模型(MiMo AI)。由五年内278亿美元的研发支持。

XRING O1值得注意。这是大陆中国公司推出的首款3nm级移动处理器,由台积电制造,在某些基准测试中,它与骁龙8精英和苹果A18 Pro竞争或击败它们。更能说明问题的是:小米在从台积电获得初始样品后六天就实现了完整的芯片功能。这不是运气。这是一个成熟的设计团队。

MiMo AI模型也比预期的更难忽视。它是混合专家架构,总共有3090亿个参数,推理期间有150亿个活动参数,在SWE-Bench编码任务中在开源模型中排名第一,每百万输入代币定价0.10美元。相比之下,这只是OpenAI或Anthropic收费的一小部分。

但战略逻辑是最重要的。小米这样做不是为了与英伟达竞争。它们在观察华为发生了什么——被制裁,切断西方供应链,被迫以巨大成本在内部重建一切——而现在建立它们的能力,在它们仍然可以访问台积电和ARM许可的时候

先发制人的垂直整合。在有人拿走健身房之前建立肌肉。

6、实际上关于权力的部分

这就是芯片故事变得更大的地方。

整个全球半导体供应链通过三个瓶颈运行:芯片设计(由美国公司主导)、制造设备(ASML的EUV机器,每台3.8亿美元,没有可行的替代方案)、制造(台积电处理所有芯片的60%,90%以上的先进节点)。

这三个都是美国控制或与美国高度一致。

这就是为什么《芯片法案》为国内制造分配了390亿美元。为什么台积电在亚利桑那州晶圆厂上花费650亿美元。为什么中国在本土芯片开发上投入国家资源。AI芯片已成为国家政策的工具,受到与导弹技术同等的重视。

Anthropic的1000亿美元基础设施承诺不仅仅是一个计算决策。这是对哪些供应链将控制未来二十年技术的押注。

7、实际变化的是什么

五年前,AI计算问题很简单:想构建AI吗?购买英伟达GPU。

今天它正在分裂。训练仍然主要在GPU集群上运行,但推理正在迅速转向定制ASIC。边缘AI是一个完全独立的类别。这种模式现在正在全球复制,美国公司因经济原因构建定制硅,中国公司将其作为地缘政治保险。

问题是只有最大的玩家才能负担得起。定制芯片开发成本10-50亿美元,需要3-5年。这不是初创公司的赌注。AI计算正在同时变得更便宜和更集中。

推理将是未来几年的主要战场。训练前沿模型是一次性成本。推理是每个查询、每个响应、每个API调用,每天数十亿次。解决推理经济的公司将获胜。解决不了的公司将被自己的计算账单压垮。

这不是抽象的。这就是现在正在运行的竞赛。


原文链接: My Prediction: the AI Chip Race Will Explode in 2026.

汇智网翻译整理,转载请标明出处