Nano Banana真正的重要性
Google在Gemini中使用扩散模型是一个非常重要的事情。

注:我将使用“Transformer”来指代标准的自回归Transformer(下一个标记预测器),并使用“扩散模型”来指代所谓的DM。这是为了清晰起见。
互联网对Google的新图像模型——Nano Banana感到疯狂。虽然所有生成的图片都很酷,但围绕原始生成能力的讨论让我们忽略了更大的趋势。为了实现编辑功能,Google依赖于扩散模型。这是Google在几个月内发布的第二个主要扩散模型,也是第一个直接集成到他们的Gemini旗舰模型中的模型。其他主要实验室也在将其扩散模型直接集成到他们的生态系统中。这比人们意识到的要重要得多。
在过去的几年里,我们巧克力牛奶教派的研究一直在关注扩散模型的兴起。这是基于三个支柱:
- 扩散模型允许在生成过程中进行推理,因为它们有迭代去噪循环。这使它们在与特定控制(风格、内容指南等)的集成、模拟和许多其他复杂用例方面更加优越。这个想法在这里得到了深入探讨,以及如何通过即插即用控制器将语言模型与这种方法对齐的实际例子(并避免昂贵的重新训练)也在此处覆盖了。

- 上述去噪过程还允许我们提高深度学习系统的可解释性,解决当前AI生态系统中最大的采用障碍之一。
- 自回归Transformer和GPU并不是为彼此设计的;它们恰好适合扩展。随着AI专用硬件成为焦点,不同的模型(具有不同的归纳偏见)将接管。扩散模型特别适合于此,因为它们与行业内的几个更大趋势相吻合——推理时间扩展、更高内存芯片、集成奖励模型和代理评估——所有这些都使DMs更具可行性(前两个)或显著更强大(后两个)。
在过去的几个月里,我依靠广泛的CMC网络乞讨、借用等方式进入了主要AI实验室和几家大规模运营AI组织的报告。我们审查了LLM训练日志,进行了自己的消融研究,绘制了供应链,以彻底探索和建模扩散模型的崛起。

这份报告分析了扩散模型的价值链,基于定价物理和运营约束,而不是炒作。我们认为,alpha并不在于模型本身,因为它们正在迅速商品化,而是在于解决四个系统性瓶颈,这些瓶颈决定了扩散是否可以扩展:
- 算法效率:软件突破降低了“步骤税”,在相同硬件上将推理成本降低了数倍。
- 物理供应链:高性能内存(HBM)和先进封装容量的可用性决定了市场增长的速度。
- 确定性服务:在延迟敏感的应用中,产品不是平均速度而是保证的p99性能——这是一个挑战者可以攻击现有企业的利基市场。
- 出处和信任:合规性、知识产权赔偿和内容标签不再是可选的;它们是每个资产的税费,重塑了经济。
接下来的部分将每个瓶颈映射到具体的投资机会,从带宽供应商和液冷提供商到工作流护城河应用和投机性的硅片赌注。目标是给决策者一个清晰的视角,了解如何部署资本。帮助他们从追逐模型转变为拥有将定义这个市场规模的瓶颈。借用一个比喻——不要挖金子,控制资本流动的节点。
0、执行摘要(文章的TL;DR)
0.1 背景:什么是扩散
这里是对扩散模型的一个非常简短的描述,以确保完整性。
- 机器学习中的扩散模型是什么:扩散模型是生成模型(它们生成类似于训练数据的数据)。扩散模型遵循两个简单的步骤。首先,我们通过逐步添加高斯噪声来破坏训练数据。训练包括通过反转这个噪声过程来恢复数据。一个训练良好的扩散模型可以从随机噪声池中生成任何东西。将噪声替换为嵌入空间,你可能可以看到我们在这里烹饪的原因。

- DM的优势:扩散模型有三个主要优势,使它们成为您生成任务的强大竞争者——高质量生成:扩散模型生成的数据质量非常高且逼真,在许多任务中超过了之前的生成模型;多功能性:它们适用于各种数据模态,包括图像、音频、分子等;以及可控性:扩散模型提供了对生成过程一定程度的控制,允许用户根据特定要求或条件引导输出。
- 扩散模型的缺点- 从它们的设计来看,DMs是非常昂贵的。有研究来减轻它们的成本,但这仍然是DMs的一个痛点。
如果您有兴趣,请阅读我们已经链接的深度解析以了解更多技术细节。
0.2 主要文章
扩散模型的经济状况发生了巨大变化。算法上的突破(LCMs、修正流、高阶求解器)减少了步骤数,在相同的GPU上实现了约7倍的便宜推理。这种软件红利巩固了NVIDIA的CUDA护城河,因为竞争对手如果没有结构性优势,无法证明“移植税”的合理性。战场分为:
- 吞吐量工作负载(批量生成)属于GPU。
- 延迟敏感的应用程序(p99合同)是替代硅片的唯一可行切入点。
价值链围绕四个系统性瓶颈展开:
- 算法效率——减少步骤税带来最大的成本节省。
- 物理供应链——HBM和CoWoS封装设定了加速器输出的上限。
- 确定性服务——可预测的p99延迟是GPU挑战者的唯一可信路径。
- 出处与信任——合规性和赔偿现在是每个资产的税费。
前沿扩展TAM:
- 视频——打破每分钟1美元的障碍。
- 边缘——实现≤5W的持续扩散用于手机、笔记本电脑和汽车。
投资逻辑:
- 一级(核心,现在):HBM供应商、封装厂、液冷、合规轨道。
- 二级(0–18个月):效率软件和p99 SLA平台。
- 三级(12–36个月):受监管垂直领域的流程护城河应用。
- 四级(18–60个月):确定性硅片、视频和下一代互连赌注。
风险:一步均等(商品化)、回到变压器密集架构、HBM/封装滑动延长既得利益者、合规税收比预期更难。
结论:扩散模型本身正在商品化;持久的价值在于瓶颈——内存、封装、冷却、合规——以及在延迟、视频和边缘上的选择性赌注。赢家不会是追逐下一个模型的人;他们会是那些拥有物理的人。
1、扩散模型的基本经济
要理解扩散价值链,首先要了解其独特的经济特征。不同于许多机器学习工作负载主要受浮点运算(FLOPS)限制,扩散模型推理本质上受到内存带宽的限制。迭代去噪过程需要反复读取和写入大激活张量到高带宽内存(HBM),创建了一个顺序依赖关系,定义了其成本结构。

更详细地说,我们看到单位经济学由四个关键方程决定:
- 吞吐量(张/秒) = 1 ÷ (每步时间 × 步数)
- 每张图片成本($) = GPU每小时价格 ÷ (吞吐量 × 3600)
- 每百万张图片成本($) = 每张图片成本 × 1,000,000
- 每张图片能耗(焦耳) = GPU功耗(瓦特) ÷ 吞吐量
这些公式允许我们建模算法的变化(减少步骤)、硬件(更高的带宽,不同的租赁价格)或工作负载(更高的分辨率)如何直接影响损益表。
示例E1:等质量成本曲线 —— 步骤 vs. $/图片
降低成本的最大杠杆不是硬件,而是减少达到目标质量水平所需的采样步骤。下表说明了在相同设置下不同硬件生成的每张图片成本,假设云租赁价格为H100每小时4美元,H200每小时8美元,B200每小时10美元(具体数字不那么重要,因为我们关注的是在同一设置下的步骤减少)。基准是H100上的SDXL类模型,以30步达到约0.68张/秒。吞吐量与步数成反比,并与内存带宽改进成比例。
步骤 GPU 模拟吞吐量(张/秒) 每张图片成本($)
-----------------------------------------------------------------
50 H100 ~0.41 $0.00272
30 H100 0.68 $0.00163
15 H100 ~1.36 $0.00082
4 H100 ~5.10 $0.00022
30 H200 ~0.97 $0.00228
4 H200 ~7.28 $0.00030
30 B200 ~1.62 $0.00171
4 B200 ~12.15 $0.00023
简单来说,在同一H100 GPU上,将步骤从30减少到4可以降低7.4倍的成本。 这种算法收益远超升级到下一代硬件的性能提升,其中更高的租赁价格可能会抵消高步骤工作负载的吞吐量优势。
示例E2:分辨率 vs. 每张图片能耗(焦耳)
能源消耗,直接驱动运营成本和数据中心压力,由于激活图的二次增长而呈超线性增长。超过片上SRAM容量的高分辨率工作负载会招致严重的“分块惩罚”,进一步增加能耗,因为数据被反复移动。
分辨率 GPU 估计每张图片能耗(焦耳)
---------------------------------------------------------
512² H100 ~1,030 J
768² H100 ~2,400 J
1024² H100 ~4,400 J
在这里,我们看到图像边长翻倍(像素增加4倍)使能耗增加超过4倍。高分辨率生成是AI数据中心极端功率和热密度的主要驱动力。
生产现实:批次异质性税
上述吞吐量假设理想化的大型批次处理。在实际的API部署中,传入的请求是异质的——每个都有不同的提示、种子和配置。这一现实会降低批次效率,通常将有效批次大小降低到1或2。这大大降低了硬件利用率并增加了成本。
这非常重要,所以我将重复它。生产成本模型必须在理想化、基准推导的数字上应用3倍到6倍的成本提升乘数,以考虑批次异质性的经济影响。以实验室基准定价的服务在生产中将是无利可图的。
读者注意-参见NVIDIA Triton指导
2、算法改进如何降低扩散模型的成本
上一节建立的基础经济学并非静态。在2023年至2025年之间,DM研究人员进入关键时刻,削减成本,为现有硬件带来了巨大的性能红利。
这种转变是由一类新的采样器和建模技术推动的,它们在极短的步骤内实现了高质量的输出,通过了标准感知质量门(例如,保持低FID/CLIP分数)。关键创新包括:
- 高阶求解器:如DPM-Solver++将高质量所需的步骤从50+减少到15–20步,无需重新训练。
- 一致性与 潜在一致性模型(LCMs): 这些模型专门训练以直接将噪声映射到干净的图像,能够在仅2到8步内实现高保真生成。
- 校正流: 一种替代方法,通过改进的训练技术实现出色的一步或两步生成质量。

我发现一个有趣的旁白:似乎很多扩散研究发生在在中国。即使是最近的进步,如基于扩散的推理,也来自那里。我不会惊讶于看到重大突破来自中国的AI实验室。

小型扩散模型,Dream 7B在文本生成中匹配了许多自回归模型。 在这里,我们看到它成功地填充了空白,甚至更大的模型也难以做到。还有中国
所有这些都极大地降低了DM的推理成本,考虑到现代(不到一周前)AI的推理重点,这是一个值得考虑的变量。
示例E3:“旧楼层 vs 新楼层”成本带在相同GPU上
本示例比较了“旧楼层”(一个优化的30步过程)与“新楼层”(一个4步的一致性模型)在相同NVIDIA H100 GPU上运行的成本,每小时4美元。
指标 旧楼层(30步) 新楼层(4步)
-----------------------------------------------------------------------
吞吐量(张/秒) 0.68 ~5.10
每张图片成本($) $0.00163 $0.00022
每百万张图片成本($) $1,630 $220
要点: 算法红利创造了**~7.4倍的推理成本降低**。这种收益完全是通过软件实现的,不需要在新硬件上进行资本支出。
这使得Bale从LB变成了Winger级别的gainnz。这种效率对生态系统产生了有趣且意想不到的结果。
较低的成本如何增强CUDA护城河
讽刺的是,这种软件驱动的效率胜利使硬件市场更不具竞争力。它大幅提高了任何挑战者进入NVIDIA CUDA生态系统的门槛。
切换到替代硬件平台的成本——“移植税”——包括工程小时数、工具链不稳定、性能验证和运营开销。以前,挑战者可以承诺2–3倍的性能提升来证明该税的合理性。但是为什么企业要在现有稳定平台上通过软件更新获得7倍性能红利的同时,还要支付高昂且不确定的移植税呢?
PS- 很多初创公司犯了类似的错误,认为他们的改进性能(即使是真的)会说服企业从他们的供应商转向初创公司。实际上,惯性、政治利益和移植税增加了所需的溢价。始终要考虑这些因素,如果你的早期阶段的GTW涉及企业客户,尤其是已确立的市场。
在我家乡(德里),以及世界上许多其他地方,路边的罗马人经常转向谈论他们有多爱那个女孩,当他们没有其他办法让那个女孩约会他们或选择他们而不是更有吸引力的候选人时(“他永远不会像我一样爱你!”)。虽然很容易嘲笑他们,但富有的和有资格的Nvidia的竞争对手可能会从中受益。
不再仅仅比多步骤GPU过程更快或更便宜。算法红利迫使挑战者在一个不同的轴上竞争。为了获胜,他们现在必须提供 incumbent 的架构在结构上无法提供的能力。
这可能是基于一个真实的故事。
这为市场的伟大分裂奠定了基础。这就是我们接下来要讨论的内容。
3、扩散推理的分裂战场
扩散推理的市场已经分裂成两个截然不同、不重叠的领域,每个领域都有自己的规则、指标和赢家。在分配任何资源之前,我们必须了解两者,否则我们可能会发现自己陷入曼联级别的陷阱。

吞吐量引擎:一场消耗战
这个领域由异步、批量处理的工作负载定义,延迟无关紧要。用例包括生成营销资产、电子商务目录和用于训练其他模型的合成数据。唯一重要的指标是每百万张图片的成本($/M)。这是一个纯粹的运营效率和总拥有成本(TCO)的游戏。
在这个领域,GPU的现任者,特别是NVIDIA,有着几乎不可动摇的优势。他们的主导地位不仅在于硅片,还在于经过十年优化的成熟软件生态系统(CUDA、TensorRT、cuDNN),以最大化吞吐量。对于这些工作负载,批量处理的高利用率、强大的工具链和庞大的人才库使得GPU的TCO极其难以击败。
如果你对这个领域感兴趣,研究一下生态系统策略。你活在你的生态系统中,你的能力取决于破坏其他人的生态系统的价值驱动因素。

延迟合同:开放市场
这个领域由同步、交互式应用程序定义,用户正在等待响应。用例包括实时创意工具、API驱动的服务和虚拟助手。这里的主导指标不是平均速度(p50),而是尾部延迟(p99)。用户的体验由最坏情况的响应时间定义,而不是平均值。
这里销售的产品是确定性——可预测的、保证的服务级别协议(SLA)。这是替代硅片(ASIC、晶圆级架构)的唯一可行切入点。GPU设计用于大规模并行性,常常因调度抖动和内核启动开销而产生长且不可预测的性能尾部。设计用于确定性、编译器调度的数据流架构可以通过最小化性能波动提供结构上更优的解决方案。
示例E4:p50/p95/p99延迟曲线 —— GPU vs. 确定性替代硅片。 示意延迟配置文件——代表架构差异;不是测量的扩散基准。
这个示例展示了使用4步过程的102⁴²图像的性能配置文件。请注意平均值(p50)和最坏情况(p99)延迟之间的差异。
平台 p50 (ms/img) p95 (ms/img) p99 (ms/img) Spread (p99/p50)
-------------------------------------------------------------------------------------
GPU (e.g., H100) 80 180 250 3.1x
Alt-Silicon (e.g., ASIC) 90 105 115 1.3x
虽然GPU可能有相当或略好的平均延迟,但其最坏情况性能要慢3倍以上。 替代硅片提供了一个紧密、可预测的性能范围,这对延迟敏感的应用程序来说是一种根本不同且更有价值的产品。
示例E5:移植税回报模型
一家公司必须用明确的投资回报率来证明高昂的一次性**“移植税”**。让我们看看这个场景,看看我们能否找到
移植税(成本): 这包括软件工程的FTE月数、工具链集成、扩展性能验证以及支持新型硬件堆栈的更高运营负担。这可能轻松达到数十万到数百万美元。
回报(好处): 回报来自于优越的p99延迟,这转化为实际的业务价值:
- 在SLA下更高的QPS: 能够在维持延迟保证的同时为每台服务器服务更多并发用户。
- 改善用户体验: 提高保留率和为响应速度快的服务支付意愿。
盈亏平衡分析: 一个简化的回报模型是:盈亏平衡月份 = 移植税($) / 每月价值增益($)。"每月价值增益"是从改进的p99性能中获得的增量收入或成本节约。
总的来说,对替代硅片的投资通常只有在p99性能优势足够大,使得回报期少于18-24个月时才可行。 如果没有明确的财务理由,离开现任GPU生态系统的摩擦和风险太高。
虽然我们可以就推理的情况发表一些感想(而且这很有趣),但没有任何硬件没有硬(我真的尽力了,但过渡很难,特别是如果你不想重复“接下来我们将覆盖”/ “这导致…”每个部分)。
4、扩散的物理壁垒
在所有其他战斗之下,整个生态系统由一系列硬性、物理约束所支配。这些约束源于大规模计算的物理规律。最持久的投资主题是在提供解决这些基本瓶颈的公司的股票。这些是扩散经济的真正“挖掘和铲子”。

内存与封装墙
扩散模型是内存带宽受限的。正如我们过去所讨论的,内存溢出可能会关闭你的整个系统

生产AI加速器的主要约束不是逻辑芯片本身的制造,而是两个关键组件的供应:
- 高带宽内存(HBM): 对HBM3e和即将推出的HBM4(接口宽度翻倍至2048位)的需求远远超过供应。
- 先进封装: 更重要的是,使用TSMC的CoWoS(Chip-on-Wafer-on-Substrate)技术将HBM堆栈绑定到逻辑芯片的特殊容量是整个行业的瓶颈。CoWoS槽位是一种比GPU本身更稀缺和更有价值的资产。值得注意的是,我们对AGI的所有期望,整个数千亿美元的AI革命,都被卡在了精神上可以说是工业级的胶水。把它们放进艺术和手工艺,我想。
电力与热力墙
下一代加速器的性能提升伴随着电力消耗和热输出的高昂代价。一个Blackwell类别的GPU可以消耗1.0–1.2 kW,使8个GPU的机架达到超过14 kW。这有两个深远的影响:
- 空气冷却完蛋了: 在这些密度下,传统的空气冷却不再可行。机架级功率密度现在经常超过35–50 kW,使直接芯片冷却成为基本要求。
- 数据中心经济被颠倒: 电力和冷却不再是TCO模型中的脚注;它们是一阶运营成本,可以决定整个AI操作的盈利能力。
信任与合规墙
随着扩散模型从新颖性转变为企业基础设施,它们正在与知识产权法律和法规的现实发生碰撞。这创造了一个强制性的、不可协商的**“合规税”**,对每个生成的资产都要征收。
- 出处: 欧盟AI法案和行业主导的C2PA标准正在创建对可审计内容凭证的要求,证明生成图像的起源。
- IP赔偿: 企业不会冒数百万美元的版权诉讼风险。他们将为仅使用授权、权利清理语料库训练的模型支付溢价,这些模型附带法律赔偿。
示例E6:供应链旋风 —— 对$/1M 图像的影响
这个示例模拟了最终每百万张图像的成本对这些物理约束波动的敏感性。它显示了看似遥远的供应链问题如何直接影响运营损益。
变量变化 对$/1M 图像的影响(示例)
---------------------------------------------------------------------------
HBM价格+30% +$8至+$15
CoWoS槽位稀缺(-25%) +$25至+$50(由于硬件延迟/溢价)
PUE 1.15 -> 1.7(差的冷却) +$10至+$20
电力成本+40% ($/kWh) +$5至+$10
要点: 台湾包装能力的短缺对在弗吉尼亚数据中心生成图像的成本影响比模型架构的渐进改进更为直接和严重。
示例E7:瓶颈 → 解决方案 → 供应商矩阵
这个矩阵将物理约束映射到提供解决方案的公司类别。
瓶颈 解决方案 供应商类别
------------------------------------------------------------------------------------------------
内存与封装 HBM3e/HBM4制造 内存供应商(SK Hynix, Samsung)
先进封装(CoWoS/SoIC) 代工厂/OSATs(TSMC, ASE, Amkor)
下一代互连 光学I/O, CXL Fabric供应商
电力与热力 直接芯片/浸没冷却 液冷专家(CoolIT)
高密度电力分配 数据中心基础设施供应商
AI原生数据中心运营 专业 Colo 运营商
信任与合规 法律赔偿训练数据 授权数据提供商(Getty)
输出出处与水印 C2PA / 内容凭证服务
法律纯净合成数据 合成数据生成公司
这里是下一节。
5、扩展TAM的前沿
虽然目前的市场由图像生成的约束定义,但两个前沿有望显著扩大总可寻址市场(TAM)。这些领域目前在经济或技术上具有挑战性,但在这里取得突破将释放新的投资和采用浪潮。

视频经济学:突破“每分钟1美元”障碍
生成视频是图像生成的自然后续,但目前由于高昂的成本而受到阻碍。挑战有三重—
- 生成单个帧(我们仍然不是很擅长)
- 维持它们之间的时序一致性。时序注意力存在,但有点可疑。
- 集成音频(另一个未探索的模态)。
打破每分钟1美元的成本门槛是市场愿望;如今的公开扩散视频服务每分钟成本约为10-20美元(例如,Gen-3 Alpha运行约15美元/分钟)。一条可信的低于1美元的路径将改变市场
目前克服这一障碍的成本至少是广泛使用的数量级过高。这个差距为专门的硬件(ASIC)或专为视频扩散内核设计的新软件架构(例如,时序注意力)提供了重大机会。一家有可信路径打破每分钟1美元障碍的公司将获得巨大的市场关注。
边缘可行性:5瓦持续门
第二个前沿是将扩散从数据中心转移到智能手机、笔记本电脑和汽车等边缘设备。这解锁了实时辅助、隐私保护生成和离线环境的应用。这里的挑战不是在短时间内达到峰值性能,而是在严格的热力和电源预算下实现持续性能。
一个可行的设备产品需要在大约5瓦的电源预算下生成图像,在几分钟内小于2秒——这个目标来源于智能手机的热限制。目前的演示经常超过这个限制或依赖于短爆发。
示例E9:设备端目标性能带(51²²,4步)
这个示例概述了不同类别的边缘设备的目标性能和能量带。这些是重要的指标,而不是理论TOPS。
设备类别 目标延迟(s/img) 功率(W) 能量(J/img) 关键挑战
------------------------------------------------------------------------------------------------
高端智能手机 0.8 - 1.5 s <5 W 4 - 8 J 热抑制
ARM 笔记本电脑(例如,M系列) 0.5 - 1.0 s 8 - 15 W 6 - 15 J 持续性能
下一代汽车 <1.0 s 10 - 20 W 10 - 20 J 可靠性和认证
边缘是一个能量效率(焦耳/图像)的游戏,而不是原始速度。成功需要硬件(NPUs)、软件(量化、模型蒸馏)和热管理的协同设计。投资者应质疑任何不报告在现实功率负载下持续性能的演示。
6、投资组合构建(层级 × 时间)
基于前面的分析,可以构建一个连贯的投资策略用于扩散生态系统。这个框架将机会分为四个层级,基于风险概况和时间范围,从基础、行业-wide赌注到更具投机性的高回报选项。
一级(核心,现在):收费者
这些是在市场持久的物理约束解决方案上的基础投资。它们代表了对行业整体增长的押注,具有低的特异性风险,类似于拥有行业的β。
- 目标: HBM和先进封装供应链(SK Hynix, TSMC, ASE);液冷和高密度数据中心基础设施提供商(Vertiv, CoolIT);出处/合规轨道(C2PA-as-a-service平台,赔偿数据提供商)。
- 论点: 这些公司在无论哪种模型、硬件架构或应用获胜的情况下都会得到报酬。他们拥有不可避免的瓶颈。
二级(增长,0–18个月):效率商人
这些是通过最大化昂贵硬件的效率来销售纯ROI的软件和服务公司。他们的产品按他们为客户节省的基础设施美元定价。
- 目标: 推动步骤计数减少和提高硬件利用率的推理优化堆栈(采样器、编译器、压缩工具包);以及抽象化在保证p99 SLA下服务模型的管理平台。
- 论点: 随着硬件成本保持高位,对减少运营支出的软件需求是强烈且即时的。
三级(风险投资,12–36个月):工作流专家
这些是具有深度、防御性护城河的垂直应用公司。护城河不是AI模型本身,而是其深度整合到受监管、高风险或复杂的客户工作流中。
- 试金石: 关键是转换成本高。只有当客户面临显著、可衡量的转换障碍时,业务才是防御性的。
示例E10:转换成本表(AEC垂直的示例)
组件 转换成本
---------------------------------------------------------
专有数据重新获取/许可 $1.5M - $3.0M
数据清洗、标记和法律审核 $1.0M - $2.0M
验证流水线和专家工时 $1.0M - $2.5M
监管重新认证 $0.8M - $1.5M
---------------------------------------------------------
每个Logo的转换成本 $4.3M - $9.0M
- 收入绝缘测试: 强大的工作流护城河应该允许公司即使在底层API成本下降40%的情况下,也能保持高毛利(≥70%)和净美元留存(NDR ≥130%)。
- 论点: 投资于工作流,而不是包装。价值在于AI周围的验证、认证和数据集成,而不是AI输出本身。
四级(期权,18–60个月):游戏改变者
这些是高风险、高回报的赌注,可能从根本上改变当前的市场平衡。
目标:
- 确定性硅片: 能证明在考虑移植税后,p99延迟优势超过3倍的挑战者,从而打开互动应用市场。
- 视频平台: 有可信的软件或硬件路径打破“每分钟1美元”经济障碍的公司。
- 下一代织物: 光学互连和CXL 3.0+供应商,能够解决数据中心规模的内存墙,但其成功取决于软件生态系统成熟度。
论点: 这些是市场下一阶段的计算期权。成功不是保证的,但在这些类别中的任何一个赢家都将捕获巨大的新TAM。
7、风险与反论点
以下是当前框架的一些风险/挑战。密切关注它们是必须的。
- 一步均等成为普遍: 如果研究突破导致一步、开源模型在几乎所有任务中达到与多步专有模型的质量均等,那么专门的推理软件和硬件的价值可能会减弱。整个堆栈将更快地商品化,主要将价值返回给通用硅片(GPUs)和应用层。这是最不可能发生的。
- 架构漂移至Transformer(DiT/Flows): 扩散模型的基础架构可能会继续演变,变得更加Transformer密集(例如,扩散Transformer或DiTs)。这可能会改变工作负载的内核混合,偏向于已经针对大型Transformer模型(如LLM)优化的硬件和软件堆栈,并可能侵蚀扩散专用ASIC的具体护城河。 尽职调查要求: 向任何硬件供应商要求DiT均等基准。
- 供应链延误延长既得利益者: HBM4或先进封装容量的重大延迟将使市场缺乏新一代加速器。这将延长当前GPU世代(如H100/H200)的既得利益,再延长6–12个月,推迟挑战者的时间表,并改变所有玩家的TCO计算。 行动: 如果发现代工厂/内存路线图延迟超过两个季度,重新定价$/图像带和回报模型。
- 监管收紧成为利润率税:我们模型了一个**$0.02–$0.10** 内部合规分配,用于覆盖出处、审计和授权数据溢价。实际成本因供应商和体积而异。更严格的监管环境,或一系列高调的IP诉讼,可能会对出处、许可和审计施加更高的成本。这将不成比例地损害小玩家,并有利于大型垂直整合公司,这些公司可以吸收合规负担。
2–3似乎是需要解决的最紧迫的问题,而4将平等影响所有种类的模型,因此很可能在整个行业中分布。
8、结论:投资瓶颈
扩散已经通过了炒作周期。模型本身正在趋向商品化——每次软件发布都变得更便宜、更快、更丰富。真正的价值杠杆在于物理和无法被算法抹去的约束。
“步骤税”证明了软件如何快速降低成本;这种红利直接流向拥有成熟工具链的现任者。吞吐量市场属于GPU。唯一的开放侧翼是延迟:能够证明在规模上具有确定性p99性能的挑战者或许还能开辟空间。
除此之外,持久的护城河是残酷的简单:
- 内存和封装容量 设定了加速器存在的上限。
- 电力和冷却 决定了这些加速器能否以密度运行。
- 出处和合规 决定了企业能否合法使用输出。
其他一切都是噪音。
对于投资者而言,规则是明确的:不要追逐下一个模型发布。建立对瓶颈的暴露——HBM供应商、封装厂、冷却提供商、合规轨道——并加入对步骤削减软件、工作流护城河应用和延迟优先硅片的选择性赌注。毕竟,控制物流的人将成为最终的赢家。
原文链接:The real significance of Google’s Nano Banana
汇智网翻译整理,转载请标明出处
