微型AI，可负担的AI

我们被迫接受一个观点：AI必须庞大且昂贵才能工作。但事实如此吗？

PrismML，一家新的AI初创公司，对此持不同意见。现在，他们已经从隐身模式中脱颖而出，推出了Bonsai模型家族，用首个商业化的1比特模型完全挑战了这一观点。

这是一项相当了不起的AI工程壮举，它可能对AI市场产生严重的负面影响，而有趣的是，这也是防止AI变得完全无法负担的救星。

1、内存问题

在你拥有的所有东西中，有一件在你的生活中无处不在，既重要又稀缺，但你甚至可能没有意识到：计算机内存。

多年来，它被视为一种商品，但AI的兴起使其成为世界上最抢手的可购买产品之一。

它的稀缺性导致了价格的大幅上涨，这比你意识到的更深刻地影响着你。

但是为什么？为什么会突然发生变化？

当然，你知道这是因为AI，但让我们先通过解释AI硬件的第一性原理来澄清原因。

1.1 计算机基础101

简而言之，AI需要计算机来运行（显而易见）。

但什么是计算机？ 它只是一台执行数学运算的机器。为了进行这些运算，它使用计算处理器。然而，这些处理器需要数据。而数据存储在内存中。

因此，实际上，计算机只是一组内存芯片，它们发送和存储指令和数据，这些数据由计算机的处理器获取、解码（解释指令）并执行。结果然后被存回内存，循环重复。

我提到这些的原因是，要定义一台计算机有多强大，你不仅要考虑处理器的处理能力有多强（它每秒可以执行多少运算），还要考虑这些结果可以多快地存储在内存中，以及内存可以多快地提供新数据（带宽）。

这可能听起来不太直观，所以一个类比可能有帮助：把所有这些想象成两个工人：执行者和供应者。一个做工作，另一个提供执行工作的指令和材料。

重要的是，由于他们协同工作，较慢的那个是瓶颈。

而且，对于今天的主题至关重要，在AI中较慢的是内存"工人"，这实际上改变了硬件的构建方式，以至于这一洞察本身就解释了过去两年AI硬件的变化。

听起来我在夸大其词，但我没有。

1.2 从计算受限到内存受限

历史上，计算工人是瓶颈。也就是说，我们有大量数据提供给计算工人，但它不够快。

这意味着计算机的工作速度主要由其处理器的功率决定。

这一点，加上摩尔定律仍在生效（计算密度每两年翻一番），将所有扩展压力都放在了计算上，计算在几十年里经历了显著的扩张。

重要的是，由于计算能力是瓶颈，这使得内存芯片可以以慢得多的速度改进。

来源

这不仅仅是技术问题，还有供应链问题。虽然计算芯片的制造导致了大量新处理器芯片工厂的涌现，但我们的内存芯片制造能力相比之下显得苍白无力。

这主要是因为内存被视为（并且在很大程度上至今仍被视为）一个周期性业务，一个经历需求上升和下降周期的业务。因此，内存供应商对增加生产能力极其谨慎，担心进入下行周期。

但后来生成式AI出现了，突然间，我们认为正确的事情不再正确。

1.3 AI，内存的巨大消耗者

大型语言模型（LLM），当今典型的AI模型，与我们描述的模型有着截然不同的特点。直奔主题，在AI中，发生两件事：

AI模型非常庞大。因此，我们需要的内存芯片数量比以前大得多。
AI模型需要大量的数据传输。如果我们用之前的执行者-供应者类比来思考，供应者现在必须向执行者传输更多的数据。

问题是什么？ 嗯，关于前者，我们没有足够的内存生产能力来满足所需的数字。据估计，我们打算每年部署20吉瓦（GW）的新AI计算，而内存供应商的实际容量约为每年7吉瓦。

来源：麦格理股票研究

如果这令人担忧，带宽问题更糟。

虽然我们的现代AI硬件在计算方面极其强大，但其内存带宽（快速将数据移入和移出内存的能力）却明显落后。

这导致了AI（尤其是推理）今天的严峻局面，内存正在成为所有人的瓶颈。

所有这些只是我说明我们有一个内存问题的冗长方式。Bonsai登场了。

2、1比特解决方案

当我们说模型*"占用大量内存"或"需要移动大量数据"*时，这些数量以字节（后者以字节/秒）为单位。字节是8比特的组，每个比特是0或1。

2.1 理解模型和字节

因此，当你训练LLM时，你必须做出设计选择：每个模型参数占用多少比特（模型由我们称为权重的参数组成）。

AI如LLM由参数组成。其理念是你可以调整每个参数的值，让模型学习。

多年来，最常见的选择是FP32或BF16/FP16，意味着每个数字占用32比特（4字节）或16比特（2字节）。

目前，AI正趋向于更低的精度值（我们称之为更低精度），每个参数占用8比特（1字节）甚至4比特（半字节）。

用通俗的话说，这个数字告诉你有多少"小数空间"或"精度"。正如你在下面看到的，你允许的内存比特越多，每个数字的精度就越高（因此我们将这个数字称为'精度'）。

来源

这里的要点是，如果我们知道每个参数在内存中的分配，我们就知道它们占用了多少。此时，知道模型的"重量"就很简单了：只需将参数数量乘以其个体精度。

问题是，委婉地说，在AI中我们需要大量的字节。今天的模型轻松超过2000亿参数范围，前沿模型轻松超过数万亿参数范围。

是的，这意味着你所想的：一个模型可以有2,000,000,000,000个参数。作为参考，据估计地球上有3万亿棵树，所以今天你触手可及的模型参数比地球上的树还多。

我们还需要考虑内存缓存，这进一步增加了内存压力（有时它是最大的因素）。

所以，如果你有一个两万亿参数的模型，每个参数占用1字节（FP8），这意味着模型重2万亿字节，或2TB的内存。

那是疯狂的内存量。作为对比：

这大约是顶级MacBook M5 Pro（128GB）内存的20倍，这是世界上最强大的消费级笔记本电脑。
是14000美元一台、512GB内存的M3 Ultra Mac Studio的四倍。
是标准iPhone的250倍。
大约是迄今为止最强大的NVIDIA GPU Blackwell B300（288GB）的十倍。

无论从哪个角度看，这都需要大量的内存。

然后我们还需要考虑AI带来的其他因素，如缓存，这显著增加了内存需求和内存带宽要求，使问题更加严峻。

好吧，所以呢？ 嗯，事情是这样的：它们如此庞大这一事实也可以代表一种"优势"。

2.2 使用更低精度

如果你有一个2万亿参数的模型，在FP8下重2TB，如果同一模型在FP4下使用（每个参数半字节），那将立即使内存需求减半，从2TB（2万亿）降到1TB。

重要的是，较小的参数大小（较小的模型大小）也减少了内存传输需求。

这之所以可能，是因为模型对它们自己的好处来说太大了。

我们制造如此庞大模型的原因被称为第一缩放定律，它基本上决定了模型越大越好。

其理念是，如果模型是压缩器（尽管比数据集小得多，但可以学习大量数据），它们越大，可以学习的数据就越多。

此外，如果每个参数可以占用大量内存（例如4字节而不是1字节），它就有很大的"空间"来存储事实和从数据中得出的知识。

因此，有两种方法可以给模型"学习空间"：要么有很多参数，要么让每个参数有很多小数空间。

事实是，今天，这个决定是显而易见的：参数越多越好。

在较低精度下拥有更多参数比在较高精度下拥有较少参数，是一个关于学习叠加的问题。你可以使用大脑类比。如果你有较少的参数（你的大脑较小），每个神经元可能能够存储更多数据，但神经元更可能难以存储它应该学习的所有东西。神经元有固定的学习预算，所以如果你打算向其中压缩太多信息，它们会决定"忘记"它们不经常看到的数据。在这方面，"模型神经元"或参数的行为方式相同。

因此，今天的模型在规模上爆炸式增长，提供了另一种选择：让每个数字不那么"精确"。

原因是，一个是LLM执行数千个任务需要大量参数；另一个是假设模型需要为每个单独的任务而庞大，这是不正确的。

事实上，模型是出了名的稀疏，意味着对于任何特定任务只需要模型的一小部分，所以你可以有效地将AI模型的不同部分专门用于不同的任务。

由于每个个体参数需要学习的任务/数据较少，它可以以较低的精度凑合。

这为更低的精度打开了大门，创造了一个新的模型家族，将每个参数减少到1比特，或八分之一字节。

2.3 Bonsai，首个商业化的1比特模型

此时，你已经可以猜到今天的创新所在：1比特参数模型。

PrismML推出了Bonsai家族，这是一组从17亿到80亿参数的模型，每个参数大约1比特。

正如你在下面看到的，这个模型家族完全重新定义了帕累托前沿（性能每成本），提供了新的最先进的性能每模型重量。

用外行的话说，相对于其GB重量而言，它们是地球上最"智能"的AI模型，这个术语被称为"智能密度"。

事实上，不仅仅是在这个意义上它们更好；在智能密度方面，它们自成一派：

但这是如何衡量的？

他们提出将智能密度定义为每单位大小的错误率的负对数。我知道，这到底是什么意思？

简单来说，它衡量模型的每一比特有多少"智能"。如果一个模型有一定的错误率，但比另一个模型大十倍，那么它每单位大小的"智能"就少十倍。

事实上，尽管在参数数量上与其他小模型"大小相似"，其实际大小却小了8-16倍，同时仍然具有竞争力。

虽然这个模型只有1.15GB，可以完美地部署在iPhone中，但其性能可与十六倍大的模型相媲美，后者无法装入你的iPhone（除非你做SSD卸载，但我们不要深入讨论这个，因为这基本上是一个很大程度上未探索和未经验证的优化）。

其后果怎么强调都不为过。我们是否建造过度了？

3、我们是否真的需要更少的硬件？

这里的直接反应是：如果这是可能的，而且理论上我们可以将模型大小减少一个数量级以上，我们是否严重过度建造了容量？

如果是这样，市场可能会严重恐慌，因为今天股市中最大的赢家都是AI硬件和基础设施公司，主要是大型科技公司和半导体行业的公司。

如果我们意识到我们建造过度了，而投资者无处可藏，那么崩盘就是板上钉钉的事。

但是，让我在说这个之前非常明确，我不能声称100%知道答案，但有几个原因说明，虽然如果这种趋势继续下去市场可能会崩盘，但崩盘将是一个错误：

GPU租赁，即使是5年前的GPU，也达到了历史最高点。换句话说，我们的计算能力远远不能满足需求。
事实上，我们正在看到"GPU囤积"。即使没有使用，实验室仍然为他们仍然闲置的计算访问付费，以防止失去它。这已经达到了一个实际上GPU租赁的'按需'可用性为零的地步。
拥有更强大的小型模型并不会使AI需求变小；它只是转移了服务的地点，意味着它转移了市场视谁为宠儿（例如，苹果或三星，尽管后者无论如何都是赢家）。如果有的话，正如杰文斯悖论一直证明的那样，更实惠的AI应该会增加对AI的需求（同时减轻数据中心租赁的压力，降低价格，并吸收更多需求）。

H100租赁价格。

出于所有这些原因，无论我们的大型科技公司持股会发生什么，我们作为投资者和AI用户，都应该极力支持这家公司以及类似的公司取得成功，因为我们目前正在被大型实验室严重宠坏，但不会太久。

事实是，AI比我们想象的要昂贵得多，因为AI公司故意设定人为的低价格以保持增长指标上升，有些账户声称他们每月花费约27,000美元来维持每月200美元的订阅。

来源

总有一天，一旦时机成熟，他们已经让我们完全上瘾，他们会提高价格，而你除了支付新价格外别无选择。

有趣的是，API推理（按使用付费）对实验室来说是"盈利的"（如果我们忽略训练成本），因为他们按使用收费。对他们来说深度不盈利的是订阅。

尽管如此，Anthropic承认他们平均每月每位用户花费180美元，尽管每位用户的平均收入要低得多。

AI非常昂贵的原因，讽刺的是，不是因为它运行起来极其昂贵，而是因为它建造起来极其昂贵。

在AI数据中心，大约90%的总拥有成本是资本成本（购买硬件、确保电力以及人工和建筑）。

不是说AI不能便宜地提供服务；而是建造这些数据中心的公司承受着来自投资者和债务的巨大压力，以确保他们在这个极其昂贵的项目上获得回报。

也就是说，只要资本成本如此之高，基于数据中心的AI永远不会便宜（NVIDIA对其GPU的4倍加价肯定没有帮助）。

实现强大的模型使得AI可以在消费级硬件上部署，大幅增加可用计算池，并将大部分服务压力从数据中心转移出去。

因此，我并不是说这对数据中心建设者有好处；我是说这对我们的钱包有好处。

我仍然相信AI的需求为每个人都留有空间，我们永远不会拥有"太多计算"这种东西，但我担心投资者最近在股市做出的许多决定没有考虑到1比特模型终于变得可行。

市场认为世界的AI将完全在数据中心上运行，天哪，那是错误的。

原文链接：Tiny AIs, Finally Ready? Toward Affordable AIs.

汇智网翻译整理，转载请标明出处