微型AI,可负担的AI

我们被迫接受一个观点:AI必须庞大且昂贵才能工作。但事实如此吗?

PrismML,一家新的AI初创公司,对此持不同意见。现在,他们已经从隐身模式中脱颖而出,推出了Bonsai模型家族,用首个商业化的1比特模型完全挑战了这一观点

这是一项相当了不起的AI工程壮举,它可能对AI市场产生严重的负面影响,而有趣的是,这也是防止AI变得完全无法负担的救星

1、内存问题

在你拥有的所有东西中,有一件在你的生活中无处不在,既重要又稀缺,但你甚至可能没有意识到:计算机内存

多年来,它被视为一种商品,但AI的兴起使其成为世界上最抢手的可购买产品之一。

它的稀缺性导致了价格的大幅上涨,这比你意识到的更深刻地影响着你。

但是为什么?为什么会突然发生变化?

当然,你知道这是因为AI,但让我们先通过解释AI硬件的第一性原理来澄清原因。

1.1 计算机基础101

简而言之,AI需要计算机来运行(显而易见)。

但什么是计算机? 它只是一台执行数学运算的机器。为了进行这些运算,它使用计算处理器。然而,这些处理器需要数据。而数据存储在内存中。

因此,实际上,计算机只是一组内存芯片,它们发送和存储指令和数据,这些数据由计算机的处理器获取、解码(解释指令)并执行。结果然后被存回内存,循环重复。

我提到这些的原因是,要定义一台计算机有多强大,你不仅要考虑处理器的处理能力有多强(它每秒可以执行多少运算),还要考虑这些结果可以多快地存储在内存中,以及内存可以多快地提供新数据(带宽)

这可能听起来不太直观,所以一个类比可能有帮助:把所有这些想象成两个工人:执行者供应者。一个做工作,另一个提供执行工作的指令和材料。

重要的是,由于他们协同工作,较慢的那个是瓶颈。

而且,对于今天的主题至关重要,在AI中较慢的是内存"工人",这实际上改变了硬件的构建方式,以至于这一洞察本身就解释了过去两年AI硬件的变化。

听起来我在夸大其词,但我没有。

1.2 从计算受限到内存受限

历史上,计算工人是瓶颈。也就是说,我们有大量数据提供给计算工人,但它不够快。

这意味着计算机的工作速度主要由其处理器的功率决定。

这一点,加上摩尔定律仍在生效(计算密度每两年翻一番),将所有扩展压力都放在了计算上,计算在几十年里经历了显著的扩张。

重要的是,由于计算能力是瓶颈,这使得内存芯片可以以慢得多的速度改进

来源

这不仅仅是技术问题,还有供应链问题。虽然计算芯片的制造导致了大量新处理器芯片工厂的涌现,但我们的内存芯片制造能力相比之下显得苍白无力

这主要是因为内存被视为(并且在很大程度上至今仍被视为)一个周期性业务,一个经历需求上升和下降周期的业务。因此,内存供应商对增加生产能力极其谨慎,担心进入下行周期。
但后来生成式AI出现了,突然间,我们认为正确的事情不再正确。

1.3 AI,内存的巨大消耗者

大型语言模型(LLM),当今典型的AI模型,与我们描述的模型有着截然不同的特点。直奔主题,在AI中,发生两件事:

  1. AI模型非常庞大。因此,我们需要的内存芯片数量比以前大得多。
  2. AI模型需要大量的数据传输。如果我们用之前的执行者-供应者类比来思考,供应者现在必须向执行者传输更多的数据。

问题是什么? 嗯,关于前者,我们没有足够的内存生产能力来满足所需的数字。据估计,我们打算每年部署20吉瓦(GW)的新AI计算,而内存供应商的实际容量约为每年7吉瓦

来源:麦格理股票研究

如果这令人担忧,带宽问题更糟。

虽然我们的现代AI硬件在计算方面极其强大,但其内存带宽(快速将数据移入和移出内存的能力)却明显落后

这导致了AI(尤其是推理)今天的严峻局面,内存正在成为所有人的瓶颈

所有这些只是我说明我们有一个内存问题的冗长方式。Bonsai登场了。

2、1比特解决方案

当我们说模型*"占用大量内存""需要移动大量数据"*时,这些数量以字节(后者以字节/秒)为单位。字节是8比特的组,每个比特是0或1。

2.1 理解模型和字节

因此,当你训练LLM时,你必须做出设计选择:每个模型参数占用多少比特(模型由我们称为权重的参数组成)。

AI如LLM由参数组成。其理念是你可以调整每个参数的值,让模型学习。

多年来,最常见的选择是FP32或BF16/FP16,意味着每个数字占用32比特(4字节)或16比特(2字节)。

目前,AI正趋向于更低的精度值(我们称之为更低精度),每个参数占用8比特(1字节)甚至4比特(半字节)。

用通俗的话说,这个数字告诉你有多少"小数空间"或"精度"。正如你在下面看到的,你允许的内存比特越多,每个数字的精度就越高(因此我们将这个数字称为'精度')。

来源

这里的要点是,如果我们知道每个参数在内存中的分配,我们就知道它们占用了多少。此时,知道模型的"重量"就很简单了:只需将参数数量乘以其个体精度

问题是,委婉地说,在AI中我们需要大量的字节。今天的模型轻松超过2000亿参数范围,前沿模型轻松超过数万亿参数范围

是的,这意味着你所想的:一个模型可以有2,000,000,000,000个参数。作为参考,据估计地球上有3万亿棵树,所以今天你触手可及的模型参数比地球上的树还多。

我们还需要考虑内存缓存,这进一步增加了内存压力(有时它是最大的因素)。

所以,如果你有一个两万亿参数的模型,每个参数占用1字节(FP8),这意味着模型重2万亿字节,或2TB的内存

那是疯狂的内存量。作为对比:

  1. 这大约是顶级MacBook M5 Pro(128GB)内存的20倍,这是世界上最强大的消费级笔记本电脑。
  2. 是14000美元一台、512GB内存的M3 Ultra Mac Studio的四倍。
  3. 是标准iPhone的250倍。
  4. 大约是迄今为止最强大的NVIDIA GPU Blackwell B300(288GB)的十倍。

无论从哪个角度看,这都需要大量的内存

然后我们还需要考虑AI带来的其他因素,如缓存,这显著增加了内存需求和内存带宽要求,使问题更加严峻。

好吧,所以呢? 嗯,事情是这样的:它们如此庞大这一事实也可以代表一种"优势"。

2.2 使用更低精度

如果你有一个2万亿参数的模型,在FP8下重2TB,如果同一模型在FP4下使用(每个参数半字节),那将立即使内存需求减半,从2TB(2万亿)降到1TB。

重要的是,较小的参数大小(较小的模型大小)也减少了内存传输需求。

这之所以可能,是因为模型对它们自己的好处来说太大了。

我们制造如此庞大模型的原因被称为第一缩放定律,它基本上决定了模型越大越好

其理念是,如果模型是压缩器(尽管比数据集小得多,但可以学习大量数据),它们越大,可以学习的数据就越多

此外,如果每个参数可以占用大量内存(例如4字节而不是1字节),它就有很大的"空间"来存储事实和从数据中得出的知识。

因此,有两种方法可以给模型"学习空间":要么有很多参数,要么让每个参数有很多小数空间。

事实是,今天,这个决定是显而易见的:参数越多越好。
在较低精度下拥有更多参数比在较高精度下拥有较少参数,是一个关于学习叠加的问题。你可以使用大脑类比。如果你有较少的参数(你的大脑较小),每个神经元可能能够存储更多数据,但神经元更可能难以存储它应该学习的所有东西。神经元有固定的学习预算,所以如果你打算向其中压缩太多信息,它们会决定"忘记"它们不经常看到的数据。在这方面,"模型神经元"或参数的行为方式相同。

因此,今天的模型在规模上爆炸式增长,提供了另一种选择:让每个数字不那么"精确"。

原因是,一个是LLM执行数千个任务需要大量参数;另一个是假设模型需要为每个单独的任务而庞大,这是不正确的。

事实上,模型是出了名的稀疏,意味着对于任何特定任务只需要模型的一小部分,所以你可以有效地将AI模型的不同部分专门用于不同的任务

由于每个个体参数需要学习的任务/数据较少,它可以以较低的精度凑合。

这为更低的精度打开了大门,创造了一个新的模型家族,将每个参数减少到1比特,或八分之一字节。

2.3 Bonsai,首个商业化的1比特模型

此时,你已经可以猜到今天的创新所在:1比特参数模型

PrismML推出了Bonsai家族,这是一组从17亿到80亿参数的模型,每个参数大约1比特。

正如你在下面看到的,这个模型家族完全重新定义了帕累托前沿(性能每成本),提供了新的最先进的性能每模型重量。

用外行的话说,相对于其GB重量而言,它们是地球上最"智能"的AI模型,这个术语被称为"智能密度"。

事实上,不仅仅是在这个意义上它们更好;在智能密度方面,它们自成一派:

但这是如何衡量的?

他们提出将智能密度定义为每单位大小的错误率的负对数。我知道,这到底是什么意思?

简单来说,它衡量模型的每一比特有多少"智能"。如果一个模型有一定的错误率,但比另一个模型大十倍,那么它每单位大小的"智能"就少十倍。

事实上,尽管在参数数量上与其他小模型"大小相似",其实际大小却小了8-16倍,同时仍然具有竞争力

虽然这个模型只有1.15GB,可以完美地部署在iPhone中,但其性能可与十六倍大的模型相媲美,后者无法装入你的iPhone(除非你做SSD卸载,但我们不要深入讨论这个,因为这基本上是一个很大程度上未探索和未经验证的优化)。

其后果怎么强调都不为过。我们是否建造过度了?

3、我们是否真的需要更少的硬件?

这里的直接反应是:如果这是可能的,而且理论上我们可以将模型大小减少一个数量级以上,我们是否严重过度建造了容量?

如果是这样,市场可能会严重恐慌,因为今天股市中最大的赢家都是AI硬件和基础设施公司,主要是大型科技公司和半导体行业的公司。

如果我们意识到我们建造过度了,而投资者无处可藏,那么崩盘就是板上钉钉的事。

但是,让我在说这个之前非常明确,我不能声称100%知道答案,但有几个原因说明,虽然如果这种趋势继续下去市场可能会崩盘,但崩盘将是一个错误

  1. GPU租赁,即使是5年前的GPU,也达到了历史最高点。换句话说,我们的计算能力远远不能满足需求。
  2. 事实上,我们正在看到"GPU囤积"。即使没有使用,实验室仍然为他们仍然闲置的计算访问付费,以防止失去它。这已经达到了一个实际上GPU租赁的'按需'可用性为零的地步。
  3. 拥有更强大的小型模型并不会使AI需求变小;它只是转移了服务的地点,意味着它转移了市场视谁为宠儿(例如,苹果或三星,尽管后者无论如何都是赢家)。如果有的话,正如杰文斯悖论一直证明的那样,更实惠的AI应该会增加对AI的需求(同时减轻数据中心租赁的压力,降低价格,并吸收更多需求)。
H100租赁价格。

出于所有这些原因,无论我们的大型科技公司持股会发生什么,我们作为投资者和AI用户,都应该极力支持这家公司以及类似的公司取得成功,因为我们目前正在被大型实验室严重宠坏,但不会太久。

事实是,AI比我们想象的要昂贵得多,因为AI公司故意设定人为的低价格以保持增长指标上升,有些账户声称他们每月花费约27,000美元来维持每月200美元的订阅。

来源
总有一天,一旦时机成熟,他们已经让我们完全上瘾,他们会提高价格,而你除了支付新价格外别无选择。

有趣的是,API推理(按使用付费)对实验室来说是"盈利的"(如果我们忽略训练成本),因为他们按使用收费。对他们来说深度不盈利的是订阅。

尽管如此,Anthropic承认他们平均每月每位用户花费180美元,尽管每位用户的平均收入要低得多。

AI非常昂贵的原因,讽刺的是,不是因为它运行起来极其昂贵,而是因为它建造起来极其昂贵

在AI数据中心,大约90%的总拥有成本是资本成本(购买硬件、确保电力以及人工和建筑)。

不是说AI不能便宜地提供服务;而是建造这些数据中心的公司承受着来自投资者和债务的巨大压力,以确保他们在这个极其昂贵的项目上获得回报。

也就是说,只要资本成本如此之高,基于数据中心的AI永远不会便宜(NVIDIA对其GPU的4倍加价肯定没有帮助)。

实现强大的模型使得AI可以在消费级硬件上部署,大幅增加可用计算池,并将大部分服务压力从数据中心转移出去。

因此,我并不是说这对数据中心建设者有好处;我是说这对我们的钱包有好处

我仍然相信AI的需求为每个人都留有空间,我们永远不会拥有"太多计算"这种东西,但我担心投资者最近在股市做出的许多决定没有考虑到1比特模型终于变得可行

市场认为世界的AI将完全在数据中心上运行,天哪,那是错误的。

原文链接:Tiny AIs, Finally Ready? Toward Affordable AIs.

汇智网翻译整理,转载请标明出处