以百万分之一的成本训练 AI

我们一直默认 AI 必须是昂贵的。所有人都在一直这样告诉我们。

但你可能不知道的是，这个行业之所以一成不变，是因为所有人都在做完全相同的事情；我们都在遵循完全相同的 playbook 来构建 AI。

现在，有一家公司从头开始训练了一个模型，仅用了 $1,500。尽管前期成本极低，它的竞争力却非常强；我们从未见过以如此低的成本达到如此好的效果。

它传递了一个信息：

我们可能需要数万亿美元来创造超级智能，但没人说过我们需要超级智能才能让 AI 变得有用。

1、训练何时变得廉价

HRM-Text 是 Sapient Intelligence 推出的一个 10 亿参数语言模型，它试图证明一个非常具体的观点：语言模型可能不需要互联网规模的数据和巨型训练 run 就能达到有用的通用性能。

1.1 明智之选

HRM-Text（虽然也是 Transformer 模型，但它是循环的，我们稍后会看到）并没有像传统 Transformer 模型那样使用数万亿个原始词元进行训练，而是仅使用 400 亿个结构化指令-响应词元从头开始训练。Sapient 公司声称其训练预算约为 1500 美元。

据报道，HRM-Text 在参数量为 20 亿到 70 亿的开源模型中，使用的数据和计算资源远少于它们，却能取得与之匹敌的成绩。

该论文报告称，HRM-Text 在 MMLU、ARC-C、DROP、GSM8K 和 MATH 等测试中的准确率分别为 60.7%、81.9%、82.2%、84.5% 和 56.2%，这些都是非常流行的 AI 基准测试。

虽然这些数字还不足以将其推向前沿模型的行列（甚至远未达到），但对于一个规模和训练预算都如此有限的模型来说，这些成绩已经相当出色了。

Sapient 声称，HRM-Text 使用的训练标记比小型模型的标准基线少约 100-900 倍，估计计算量少约 96-432 倍（与前沿模型的比较要大得多）。

这些说法非常大胆，如果属实，将彻底颠覆我们对人工智能实际成本的认知。

但实际差异真的如此巨大吗？实际上，情况远比这糟糕。

1.2 与前沿模型相比

虽然我们无法精确测量当前前沿模型预训练运行的规模，但我们可以对其进行相当准确的估算。

据估计，当前前沿模型所需的训练计算量大约是 GPT-4 时代模型的 100 倍。

GPT-4 时代的模型预训练预算约为 2×10²⁵ FLOPs（即数学运算次数），大致相当于 GPT-4 和 Llama 3 的训练数据集规模，因此我们今天讨论的大约是 2×10²⁷ FLOPs。

以 Claude Mythos 为例，它可能是迄今为止训练过的最大模型，估计拥有 10 万亿个参数。根据 Kaplan 等人（OpenAI）提出的训练预算估算公式，其训练数据集的大小为 667 万亿个 token。

相比之下，HRM 文本模型仅使用 400 亿个训练 token，因此训练 token 的数量减少了 16,650 倍。

更令人惊讶的是，总 FLOPs 数也减少了约 830 万倍。

为了得出这个数字，我们使用以下公式：预算 = 6 * N * D，其中：

如前所述，预算为 2×10²⁷ FLOPs。
6 代表前向传播中每个参数需要 2 次运算，反向传播中每个参数需要 4 次运算。
“N”是每个模型激活的参数数量。Mythos 与当今所有模型一样，都是由多个专家共同构建的。如今的前沿模型之所以如此庞大，是因为它们极其稀疏，我们可以假设稀疏度为 5%，这意味着在十万亿个预测结果中“只有”5000 亿个会被激活。
“D”是训练数据集的大小，也就是我们正在寻找的数值。

需要明确的是，只有考虑到多模态和强化学习，才能理解这些惊人的数值；人工智能实验室并没有 667 万亿个文本标记用于训练，而且还包含了所有其他类型的模态（图像、视频、音频等）。

此外，许多这样的浮点运算次数（FLOPs）是在强化学习部署过程中产生的，强化学习不需要数据来模仿；它只是尝试解决问题，并且只学习成功的尝试，其余的尝试都会被丢弃。然而，它们仍然被计入训练的浮点运算次数。

如果你对这些数值的庞大感到震惊，那么你就能理解为什么前沿模型的训练运行需要花费数十亿美元了。

因此，尽管这个模型的“智能”水平远不及这些模型，但它表明，我们在以极低的成本获得“良好结果”方面取得了显著进步。

因为虽然前沿模型所需的计算量是这个模型的百万倍，但它的性能并没有提升百万倍，这就引出了一个问题：

我们能否找到一个平衡点，既能避免成本像最近那样失控，又能用于具有经济价值的任务？

答案是肯定的，但要做到这一点，我们需要了解他们是如何做到的。

2、表征的重要性

Yann LeCun，AI 教父之一，也是著名的大型语言模型（LLM）怀疑论者，总是说表征是 AI 中最重要的东西。

而它们确实是这次创新的核心。但什么是表征？

2.1 为什么AI天生就比人类处于劣势

就像人类并非直接感知事物本身，而是根据经验来判断一样，人工智能也会构建它们认为事物真实面目的表征，即使它们无法触摸、嗅闻或看到它。

然而，由于它们缺乏感知和体验真实世界的能力，它们必须从对真实世界的表征（例如文本）中构建这种表征。通俗地说，它们从文本等输入中学习，而这些输入并非真实世界本身，而是对真实世界的表征。

这使得它们在学习方面比人类处于劣势。研究人员通过在训练过程中向模型提供所有能够找到的数据点来“解决”这个问题；如果它们无法体验树是什么，那么它们肯定会了解关于树的每一个方面和见解，因此会向它们输入数百万个关于树的数据点，以使它们的“理解”达到“足够好”的程度。

需要明确的是，它们构建的不是隐性知识，而是“相对知识”。他们理解“树是什么”是通过它与其他概念的相似性或差异性来衡量的。“狗”和“猫”比“狗”和“炉子”更接近，因此他们完全基于语义相似性构建了一个内部“世界模型”。

我指的是当今人工智能领域最大的问题之一：样本效率。

AI 需要比人类多几个数量级的数据才能达到相同的理解水平；我们并非真的渴望“把全世界的数据都喂给它们”，然后花费十亿美元训练一个模型，而是迫不得已。而人工智能表征的质量正是罪魁祸首。

想想“传话游戏”，人们排成一队，每个人都描述前一个人说的话。到了队伍的末尾，信息已经被完全扭曲了。

我们人类排在队伍的最前面；我们亲身经历，然后把它写下来、拍张照片等等。这当然很好，但这已经简化了真实情况；亲眼看到并与一只哈士奇互动，与在照片中看到它或听另一个人描述它，是截然不同的。

人工智能接收的是简化后的信息，例如文本或照片，因此显然，它们需要更多的数据才能更好地理解一只真正的哈士奇是什么，而人类只需要一次实际的互动。

因此，对于人工智能研究人员来说，改进表征的最佳方法就是收集更多数据，进行暴力学习。尽可能多地收集数据。

但是，如果还有其他方法可以改进表征呢？当然有；它被称为算法改进，自Transformer模型首次被发现以来，业界已经忽略了它近十年。

而Sapient Intelligence正是通过算法改进来实现这一点的。

2.2 从序列到循环

标准的Transformer模型（ChatGPT或Claude等人工智能模型的基础类型）是一系列变换的序列（因此得名）。

该模型接收一个输入序列，并对表征应用多个变换，试图弄清楚“接下来是什么”。你可以把它想象成塑造一个黏土人偶；该模型逐步将表示形式转换为下一个词。

这里只有一套转换序列。这就是为什么人工智能需要将它们的想法表达出来；每次预测的计算量是固定的，所以它们“延长思考时间”的方式会产生更多的词元。

但如果它们能像人类一样，闭嘴继续思考呢？

我们人类可能会产生一些想法和概念，但它们可能不够完善，无法说出口。因此，为了避免说错话，我们会继续思考，一遍又一遍地回到最初的想法，直到找到自己真正想表达的意思。

而这种循环往复正是我们今天提出的。关键在于，人力资源管理模型以“两种速度”运行；一种速度较慢，另一种速度较慢。

这意味着模型必须处理两个不同频率的状态变量（即，模型同时处理两个不同的“想法”）：

一个是速度更快、层级更低的状态变量，用于适应突发变化；
另一个是速度更慢、层级更高的状态变量，每次预测的更新次数较少。

那重点是什么呢？很简单，因为这能让模型以不同的速度捕捉世界的变化模式。让我解释一下。

如果你的AI模型以单一速度运行，比如现代前沿模型，它捕捉到的变化模式的速度取决于它更新内部状态的速度。

这使得你耳熟能详的大多数模型都能出色地识别你措辞中的细微变化，并捕捉到你可能完全忽略的局部模式，例如拼写错误或你在5万字之前提到的某个非常具体的信息。

这带来了卓越的性能，你每天都能体验到。

但这同时也是模型的一个陷阱，尤其是在上下文长度增加时，它们会完全迷失方向。你可能已经意识到，它们有时难以把握全局，反而会陷入对话的细节之中。

而我想表达的观点是，这是意料之中的，因为它们的设计方式就是如此。因此，我们可以得出以下结论：

模型识别模式的能力取决于这些模式（本质上就是重复）的重复频率是否与模型更新其对事件表征的频率一致。

想象一下，有人读一本600页的小说，每读完一句话就停下来更新自己对故事内容的理解。这个人对局部细节极其敏感。

他们会注意到一个奇怪的形容词、人物措辞中的矛盾、句子中隐藏的细微线索，或者对之前所说内容的呼应。

在句子层面，他们的理解能力非常出色，但现在想象一下，这是他们思考的唯一速度。每读完一句话，他们就需要更新一次理解。

他们的注意力不断被最新的局部细节所吸引，因此他们对整个故事的理解变得不稳定。一句讽刺的话可能会让他们反应过度。一个次要的支线情节可能会让他们感觉至关重要。一个暂时的情绪变化可能会让他们觉得是角色性格的永久性改变。

简而言之，他们的阅读速度对于他们试图识别的模式来说太快了。那么，HRM架构提出了什么呢？

很简单，有些模式需要更慢的更新速度才能被识别。

就像你不会根据每一句新句子就更新你对书中情节的全部理解，而是同时保留“情节大致内容”的总体表征和让你在阅读时“身临其境”的局部表征一样，HRM将同样的偏差引入到AI模型中。

结果如何？一个学习速度不同的模型，因此学习效率更高，所需的数据量更少，模型规模也更小。

这是该模型的主要洞见，但并非唯一；他们还应用了一些非常有趣的想法，例如一种新型的注意力掩蔽技术，可以显著缩短训练时间。为了简洁起见，我今天就不赘述了，但如果你感兴趣，我强烈建议你去了解一下。

那么，结论是什么呢？很简单，还有很多需要改进的地方，AI“尚未解决”。

3、还有很多东西需要学习

你可能想知道：为什么这项技术没有更早被采用？答案其实很简单：美国实验室财力雄厚，根本不在乎。

我一直在讨论人工智能实验室的激励机制与世界实际需求之间的根本性错位。“告诉我激励机制，我就能告诉你结果，”已故的查理·芒格曾这样说过。

对于美国实验室来说，盈利遥不可及，无论Anthropic公司如何努力说服你并非如此，他们的目标是生存，而生存意味着从股权和固定收益投资者那里筹集更多资金。

为了获得这些资金，尤其是在这些公司需要如此大规模的融资轮次中，他们不得不向投资者兜售天方夜谭。治愈癌症，消除对人类工作的需求；等等等等。

开发出勉强算得上智能但足够实用、可以被采用的模型——这正是企业所渴望的——根本算不上一个深思熟虑的融资策略。

对他们来说，现在只能祈祷技术能够被广泛接受。

没错，技术在编程领域确实正在被采用，但除此之外，普及程度充其量也只是有限而已。因为除了像编程、PowerPoint 和 Excel 表格这类迭代性工作之外，企业需要的是“低成本的可靠性”。

看看中国就知道了。由于出口管制，他们的计算资源严重匮乏。

因此，他们被迫进行创新（正如人们常说的，需要是发明之母），他们正在开发像 DeepSeek v4 Pro 这样的产品，其所需的缓存内存比美国同类产品少一个数量级。

今天的主角 Sapient Intelligence 来自新加坡，而新加坡又处于中国的势力范围之内，这绝非巧合。

这恰恰体现了这两个大国各自的目标：一个是为了吸引投资者，另一个则是为了在资源远逊于前者的情况下奋力抗争。

但这能持续下去吗？目前，充裕的流动资金使得美国实验室能够忽略所有这些优化和成本方面的需求。效率高；感觉钱用不完。

但其实不然！

人工智能实验室需要齐心协力并开始优化成本。积极的一面是，前沿模型远远超出了企业流程所需的“智能”水平。

相反，他们只需要它们足够智能、可靠且便宜；这就是企业所要求的。

当前的模型可以解决 Erdös 问题，但就像你的烟民朋友告诉你“就是这样；我要戒烟了”一样可靠。抱歉，解决复杂的数学问题固然很棒，但其经济影响却很小。

不要误会我的意思，我完全赞成，但是人工智能行业在应该努力赚钱的时候仍然将其目标视为纯粹的学术目标。

因此，可靠性是一个事后的想法，因此企业必须将可靠性纳入其中。

做到这一点的最佳方法之一是冗余设计，我在最新的免费博客《势在必行》中讨论了这一点，我建议您阅读该博客。

但与此同时，我希望这篇文章可以帮助您了解三件事：

表示的重要性以及在算法改进方面仍然有很多容易实现的成果
人工智能行业与世界的要求有多么根本的不一致
第三点，也是迄今为止最重要的一点：认为人工智能默认就必须昂贵的想法是错误的。

原文链接: Training AIs for a Millionth of the Cost

汇智网翻译整理，转载请标明出处