为什么本地AI将运行在扩散模型上

人们普遍认为，没有足够的数据中心算力来以公平分配的方式为全世界提供AI服务，而不是被那些能负担高昂价格的人所垄断。

随着AI实验室对客户日益玩弄手段，甚至近乎于蓄意破坏，并禁止我们大多数人使用最好的模型，边缘AI（即运行在我们个人设备上的AI）变得比以往任何时候都更加重要。

我现在相信扩散模型是一个极好的答案，并且将在未来发挥至关重要的作用，因为它们在同等规模下提供了我们当前主流AI所无法做到的东西。

1、个人AI的承诺

目前，你使用的绝大多数AI都位于数百英里之外，如果你不在美国，甚至隔着几个大陆，位于美国东海岸或亚利桑那州、德克萨斯州等地的丑陋建筑中。

或者，如果你不介意中国共产党稍微窥探一下，你也可以使用中国服务器运行你的AI。

说实话，我也不完全信任美国AI实验室能保护好我的数据，尤其是当他们做出像禁止某些模型的零日数据保留这样的决定，以便进行所谓的"安全调查"时。

关键是，我们有明确的动机不将请求和数据发送到外部服务器或开放的互联网，而是将其保留在个人设备上。

这不仅仅源于对这些公司的合理怀疑，还因为每一份离开你设备进入开放互联网的数据都可能被第三方恶意行为者窃取。

换句话说，在同等性能下，100%的我们仅仅出于隐私原因就会选择本地模型方案。

除了显而易见的隐私优势之外，本地模型的另一个优势是你不需要"争抢"让请求在数据中心获得优先处理权，在需求高峰期，这通常意味着响应速度会慢得多。

更糟糕的是，它们的质量实际上可能变得更差，因为这些实验室的算力非常受限，可能会做出以下决定：

在未告知你的情况下，将实际处理你请求的模型切换为一个更弱的模型
减少你请求的思考预算以加快交付速度，但总体质量更低。

如果你是以编程方式访问模型（即不是使用ChatGPT这样的应用程序，而是使用API），你有SLA（服务级别协议）在一定程度上保护你不受此类性能波动的影响，但涉及应用订阅时，这简直就是狂野西部，你永远不知道他们在背后搞什么花样。

然而，我们距离这个行业历史上最大的争议之一只有几天时间。AI实验室感觉如此"不可触碰"，以至于Anthropic甚至建议故意破坏请求，如果他们不喜欢你问的内容而不告诉你，这引发了巨大的争议，以至于Anthropic不得不收回他们前所未有的决定。

有了本地模型，这一切都不重要了。你是唯一的用户，拥有完全的优先级。

没有等待时间，而且，听起来虽然夸张，但没有破坏！

综上所述，本地模型极具吸引力。然而，有一个问题：目前它们大多很糟糕。

2、性能差距

残酷的事实是，迄今为止，前沿模型和中型模型（只能在云端大规模运行）与本地模型之间存在着巨大的性能差距。

尽管如此，如果你看看下面的人工智能分析指数，图表中只有两个模型可以在本地运行，而且你仍然需要相当高配置的笔记本电脑，至少配备48GB内存，这是99.99%的个人设备所不具备的。

模型需要变得更好、更小。另一个大问题是，即使是那些模型也并不理想，因为它们实在太慢了。

例如，如果我在我的高端笔记本电脑上运行Gemma 4 31B，我只能获得17 tokens/秒的响应速度，大约比ChatGPT等应用程序的平均延迟慢三倍，这对大多数人来说是不可接受的。

因此，尽管有显而易见的优势，但本地模型由于太弱和太慢而难以被采用。

但情况可能终于要改变了。

3、为什么小扩散模型是未来

DiffusionGemma 由Google推出的开源模型对我来说特别有趣，因为它展示了我们相信的本地模型的未来：

它们很好
它们很快

虽然与前沿模型的差距仍然很大且将持续存在，但这里有一个想法：我们大多数需要AI完成的任务并不需要前沿水平的智能和价格，而且进步的速度表明，一两年后，我们将拥有在本地计算机上运行的Mythos级别模型。

尽管如此，HRM Text，一个我最近谈到过的模型，一个可以轻松在智能手机上运行的小模型，其性能优于GPT-3.5，也就是ChatGPT在2022年11月推出时所使用的模型。

尽管它的训练预算仅为1,500美元，规模比当前前沿模型小数百万倍，但它与几年前最先进的模型一样好，后者拥有1750亿参数（大175倍），并且需要数百万美元的投资才能完成训练。

这是单位智能水平上令人难以置信的进步速度，表明一年后的小型模型可能还达不到Mythos级别，但它们肯定能达到像Minimax M3这样的模型水平，这对于你今天使用前沿模型完成的大多数任务来说已经绰绰有余了。

此外，参考上面提到的人工智能分析基准，Opus 4.8的得分比Minimax M3高出约6分，但成本大约为4,600美元，而中国模型仅需400美元就能获得低6分的成绩。

当然，这额外六分的复杂度并不是线性的，但我很难证明10倍的价格差异是合理的。

一旦我们有这种能力的模型在本地运行，前沿实验室将很难给我们理由去购买他们的token。

然而，对我来说，使用本地模型最大的障碍是速度。这引出了我们今天要讨论的模型——DiffusionGemma。

4、小而快

DiffusionGemma的关键点就在名字里：它是一个扩散模型。

换句话说，与每次生成一个token（例如一个词）、生成一个"自回归"token序列的标准大型语言模型（LLM）不同，扩散模型采取了一种更"即时"的方法。

它们从一个充满噪声的整体画面出发，迭代地对画布进行"去噪"，以"挖掘"出响应，一次性生成多个词，而不仅仅是一个。

我一直直观地把这想象成雕塑：你拿一块巨大的大理石，通过凿掉多余的部分来"发掘"出"隐藏"的雕像。正如伟大的艺术家米开朗基罗曾经说过的：

"雕塑已经在 marble 块中完成了，在我开始工作之前。它已经在那里了，我只需要凿掉多余的材料。"

扩散模型也是同样的理念；你从一个充满噪声的画布出发，一次性"发掘"出结果。这意味着扩散模型通过执行多次"去噪"更新，逐步将本质上是噪声的东西转化为实际结果。

扩散模型引入了一个明确的权衡：它们更快，因为它们是全局生成结果，而不是顺序生成，但在大多数情况下，这是以牺牲性能为代价的。

Google自己也提到："对于要求最高质量的应用，我们建议部署标准的Gemma4。"

但DiffusionGemma和其他扩散模型确实引入了一个至关重要的方面，让我对它们特别看好：它们极大地减少了内存瓶颈，这是当今AI最大的问题之一。

但它是什么呢？

计算机的工作方式是将数据从内存移动到计算机处理器中，处理器执行一系列操作，然后大部分结果和输入数据被送回内存，在内存和计算机处理器之间形成一个来回往复的过程。

这意味着你硬件的性能既取决于处理速度，也取决于数据进出内存的速度（或者我可以说，带宽）。

由于两者都是必需的，较慢的那个就是瓶颈。 在AI中，尤其是推理过程中，内存带宽始终是瓶颈，这就是为什么AI被著名地定义为"内存受限"。

在实践中，这意味着处理器平均而言有些空闲，或者说在"等待"数据到达。我总喜欢把这想成一个工厂流程，其中一个工人为另一个工人提供工作和材料。

如果供应者比执行者快，后者的速度就成为瓶颈
相反，如果执行者比供应者快得多，那么工作供应者就是瓶颈。

在AI中，尤其是在推理过程中，需要提供的巨大工作量使得供应者工人（即内存）成为瓶颈。

对于通过生产token来赚钱的公司来说，那段空闲时间实际上就转化为了收入损失。 执行者等待工作到达的时间，也就是工人仍在工厂工作并领取工资，但没有产品产出，这就是损失的收入。

换句话说，你真正想要的是让计算工人成为瓶颈。在这种情况下，我们的硬件每秒产生最大可能的收入。

然而，情况从来不是这样。但为什么呢？

原因在于现代LLM的"自回归"特性。如果你想想ChatGPT在回答问题时是如何响应的，就很容易理解：它是token的顺序生成，一个词接一个词。

在幕后，实际发生的是：你将模型推入处理器；处理器决定下一个词，将其附加到序列中，然后重复这个过程。

然而，有一个问题：模型不能整体装入，必须分块推入处理器。因此，要加载下一个块，必须先移出模型的第一个块，以便为下一个块腾出空间。

在实践中，这意味着每生成一个新token，整个模型就要在处理器中移入移出一次，这是非常耗时的。

我知道这不是特别直观，除非你整天沉浸于AI中，所以让我们再用工厂类比来思考。

实际上，之前的工厂类比是理想化的：工人不能一次性完成工作，需要六台不同的机器来完成。

这些机器又重又大，所以供应者工人（每次给执行者提供正确机器的那个人）每次只能给它们一台（这里的类比是每台机器是模型的一个块）。

所以过程如下：供应者将第一台机器带给执行者。一旦执行者完成，它就把这台机器拿走，带来下一台，依此类推。

而你一直在使用的自回归LLM的问题是，这种昂贵的机器来回往返每次只产生一个token；一个词（或者在这个类比中是一个螺丝）。

所有的机器来回移动只为了生产一个螺丝。

但如果这个过程，不是执行者每次经过六台机器只生产一个螺丝，而是生产256个呢？

这就是扩散模型吸引人的直觉所在。

5、充分利用每一次轮转

AI芯片被称为"加速器"是有原因的：它们旨在最大化每秒可以执行的操作数量。

为此，它们使用并行化，即能够将具有可独立处理部分的工作负载并行处理的能力。

完美的例子是矩阵乘法，你可以将它们分解成可以分别计算的块。

考虑到我们已经了解到，将数据移入GPU计算芯片是有"成本"的（需要时间），而且可以发送到芯片的数据量（即内存带宽）也是有限的，这意味着要充分利用加速器的并行化潜力，你必须设计你的工作负载，使得推入处理器的每个字节数据都能发挥最大效用。

出于这个原因，加速器以及延伸开来AI硬件最重要的指标是算术强度，这正是：硬件每移动一个字节数据所执行的操作数量之比。

也就是说，如果一个GPU每看到一个字节的数据可以执行100次操作，而你的工作负载的算术强度只有10，那你就是在不可原谅地浪费算力。

换句话说，目标是确保我们尽可能接近那个值。这样，我们就能保证处理器以一个良好的速度运行。

然而不幸的是，鉴于硬件的限制，AI推理几乎不可能达到良好的算术强度（除非你使用像Cerebras这样纯SRAM的芯片，但我们先不讨论这个）。

原因不是别的，正是模型的自回归特性。 GPU旨在充分利用每个字节的数据，而自回归LLM却在告诉GPU，"不，我每次只想产生一个新token。"

另一方面，扩散模型通过同时对整个token画布进行去噪，使你能在每次轮转中产生数百个token（对于DiffusionGemma，是256个）。

注意，我不是说每次预测传递都会产生256个token，而是去噪过程中的一个步骤。然而，这导致了极快的生成速度，因为一旦去噪更新完成，你自动就能得到256个token。

速度对比很清晰。例如，对于一个30步的去噪过程，意味着扩散模型需要30步从噪声画布中发掘出结果，在这30步之后，DiffusionGemma生成了256个token，而一个相同的自回归模型只能生成30个token（每轮一个）。

所以，扩散模型是一个权衡，但是一个有价值的权衡；你牺牲了一些性能，换来了极快的推理速度。

6、未来是扩散的

虽然扩散模型通常代表了性能上的降级，但它们正在达到值得使用的水平。

结合它们的速度，我相信它们将在我们日常AI使用中占据很大一部分，本地且快速地运行。

因为，说实话，这个行业迫切需要更多的算力。例如，在预计今年为AI数据中心部署的16.2 GW中，截至第一季度，只有5 GW正在积极建设中，而只有很小一部分已经投入使用。

而在2025年本应看到的5.8 GW中，有几个GW因各种原因被延迟了，不仅包括供应链限制，还有社会阻力（人们抵制建设）。

在我看来，形势已经很明朗了，这个行业将需要大量的边缘计算——我们的智能手机、笔记本电脑和其他个人设备——来让这一切变得合理。

AI实验室已经在通过虐待用户来节省算力，并出于意识形态原因破坏他们的请求，因为他们知道客户在这四五家参与游戏的公司中几乎没有选择。

更糟糕的是，我相信问题只会因更高的价格而恶化，原因是这些AI公司"享有"的利润率低得令人难以置信。

一旦OpenAI和Anthropic受到公众投资者的控制，挤压利润的压力只会让事情变得更加困难。

扩散LLM可能找到这个行业迫切需要的甜蜜点：模型小巧、优秀，并且在已经掌握在数十亿人手中的算力上快速运行。

谁说雕塑不会重新流行起来呢？

原文链接: Why The World's AI Will Run on Diffusion Models

汇智网翻译整理，转载请标明出处