稀疏:AI的未来

如果您正在使用人工智能构建某些东西,您可能已经遇到过这样的情况:某个模型在测试中表现出色,但实际运行推理时却花费远超预期。新年伊始,一个旧理念重获关注。这个自 2018 年以来就存在的想法终于走出学术圈,进入了人工智能领域。

彩票假设(LTH)指出,大多数神经网络可以剪枝高达 90% 的参数而不会损失性能。这意味着,与其训练一个庞大而复杂的模型,不如训练一个更小、更高效且性能同样出色的模型。

让我们来探讨一下它为何如今备受关注,以及它将如何改变我们构建人工智能系统的方式。

1、星星之火:彩票假设的真正含义

麻省理工学院证明,删除神经网络 90% 的参数而不会损失准确率。这预示着人工智能将以更低的成本和更快的速度实现。但由于实际应用中的种种障碍,这项技术的应用推广一直滞后。如今,随着硬件技术的进步,推理成本(即使用模型的持续费用)最多可降低 10 倍。想象一下,你的云账单一夜之间大幅减少。这就是我们所说的变革。

2、最初的魔力:一切始于2018年

它表明,即使剪掉网络中高达90%的权重(本质上是神经元之间的连接),模型的准确率仍然可以与完整模型相媲美。但这只有在从初始状态重新训练剪枝后的版本时才成立。这在当时令人震惊,表明网络的冗余度远超我们的想象。他们在MNIST和CIFAR-10等简单数据集上的实验证明了这一点:稀疏子网络可以更快地训练,有时甚至具有更好的泛化能力。

但有一个缺陷阻碍了它的普及。这个过程被称为迭代幅度剪枝,其工作原理是反复训练,移除最小的权重,然后回溯到初始状态。

该论文的关键发现是,这些“制胜法宝”虽然稀疏,但之所以有效,是因为它们的初始权重非常“幸运”,恰好处于优化的最佳位置。在全连接网络中,它们可以将参数减少到10%,而准确率却没有下降。研究人员开始在更大的模型上进行测试,例如 ResNet。但它并没有立即流行起来。

3、关键问题:为何它一直停留在学术界

问题在于,你需要原始的随机初始化。不是任何初始化,而是生成中奖彩票的那个精确初始化。这使得它在生产环境中无法使用。没有人愿意为了部署一次而训练两次。这就是为什么它在学术界停留了五年之久。

你必须保留那个特定的种子,这意味着流程中需要额外的步骤。对于交付模型的团队来说,这是行不通的。此外,早期的硬件并非为稀疏运算而设计;它将零值视为完整的计算,浪费了算力。事实证明,我们需要硬件来跟上步伐。

4、突破:结构化稀疏性与现代硬件的结合

出乎所有人意料的突破:结构化稀疏性 + 现代硬件。NVIDIA 证明,你不需要随机稀疏模式。块稀疏性(2:4、4:8 模式)在现代 GPU 上原生运行。突然间,原本碰运气的方式变成了更快的计算方式。

结构化稀疏性是关键所在。它不再使用随机零值,而是按照固定模式进行剪枝,例如每四个权重保留两个。NVIDIA 的 Ampere 架构,从 2020 年的 A100 GPU 开始,引入了稀疏张量核心 (Sparse Tensor Core),可以加速这种 2:4 模式。到了 Hopper (H100–2022) 和现在的 Blackwell,它更加出色,支持更细粒度的稀疏性。这是硅级加速。90% 的稀疏网络 = 50% 的内存带宽 + 2 倍的计算吞吐量。

这使得剪枝能够同时实现空间节省和速度提升。

5、对部署的巨大影响

部署方面的影响是巨大的:

  • GPT-3 模型规模(1750 亿参数)-> 相同精度下可处理 175 亿参数
  • 每月推理成本:50 万美元 -> 5 万美元
  • 延迟:2 秒 -> 200 毫秒
  • 内存需求:350GB -> 35GB

对于初创公司而言,这为公平竞争打开了大门。您无需像谷歌那样雄厚的资金实力即可部署强大的模型。

6、锦上添花:多种技术相结合,实现显著提升

但仅靠幅度剪枝是不够的。真正的奇迹在于以下技术的结合:

  • 幅度剪枝(移除最小权重)
  • 结构化模式(GPU 使用 2:4 块)
  • 量化(INT8 而非 FP32)

将这三者结合起来,即可获得 20-50 倍的部署效率提升。

量化将权重从 32 位浮点数缩小到 8 位整数,在精度损失极小的情况下,模型大小减少了 4 倍。如果再结合稀疏性,效率将成倍提升。最近的研究表明,对于视觉和语言模型,推理性能可以提升 20 到 50 倍。这就像压缩视频:损失一些信息。质量依旧出色,但播放速度更快。

7、重新定义叙事:冗余不再是缺陷,而是特性

真正的发现是,神经网络的设计本身就包含 90% 的冗余,而现代硬件终于让我们能够充分利用这一点。过度参数化在训练过程中很有帮助,因为可以探索的路径更多,更容易避免陷入局部最小值。但训练完成后,冗余度会变得非常高。自然界也是如此:大脑会在学习过程中修剪突触。LTH 表明人工智能可以模仿这种机制,从而构建出更高效、更易于解释的模型。

也许只有我这么觉得,但这让人工智能感觉更加自然,仿佛我们正在推动技术本身的进化。

8、使其达到生产就绪状态的三大突破

三大突破使该技术在 2026 年达到生产就绪状态:

  • 剪枝感知训练(从一开始就进行稀疏训练)
  • 硬件支持(NVIDIA Ampere+、Apple 神经网络引擎)
  • 框架集成(PyTorch 2.0 原生稀疏性)

剪枝感知意味着在训练过程中逐步稀疏化,避免回溯的麻烦。Apple 的芯片支持设备端 AI,而 PyTorch 的 torch.nn.utils.prune 函数则简化了这一过程。ICLR 2026 上发表的最新论文也基于此,例如将 LTH 与缩放定律联系起来的通用压缩理论。

9、证据:来自行业巨头的实际成功案例

OpenAI:GPT-4 API 成本降低 40%;Meta:Llama 推理吞吐量提升 3 倍;Google:生产环境 Transformer 模型内存节省 60%

OpenAI 在 2025 年 11 月发布的关于稀疏电路的研究表明,他们训练了更大、更稀疏的模型,从而提高了可解释性,并降低了成本。Meta 使用混合专家模型 (MoE)(一种稀疏变体)使 Llama 的效率提升了 3 倍。Google 的稀疏 Transformer 模型在生产环境中节省了内存。这些并非假设,而是已经实现的。

如果你所在的公司忽视了这一点,那么你现在可能正在支付过高的费用。

10、意想不到的优势:更好的泛化能力

稀疏模型通常比密集模型具有更好的泛化能力。密集网络倾向于记忆噪声,而稀疏网络则被迫学习鲁棒的特征。

稀疏性起到了正则化的作用,可以减少过拟合。研究证实:稀疏网络在噪声数据上表现更佳。

11、实践指南:如何立即上手

非常简单:

  • 使用 PyTorch 的 torch.nn.utils.prune 进行幅度剪枝
  • 应用 2:4 结构化模式以加速 GPU 运算
  • 使用稀疏感知训练进行微调
  • 使用 TensorRT 或 ONNX Runtime 进行部署

基础设施已准备就绪。大多数团队只是还没意识到这一点而已。

分步指南:从一个训练好的模型开始,剪枝低于阈值的权重,强制执行 2:4 的权重比例,然后短暂地重新训练。TensorRT 针对 NVIDIA 硬件进行了优化。我在一个小型 Transformer 模型上进行了测试;模型大小减少了 50%,速度提升了 1.5 倍。

12、结束语

欢迎来到效率时代。

“彩票假说”并没有错。我们只是还没有做好准备。到 2025 年,稀疏模型不再是学术界的奇闻异事,而是生产基础设施。更智能的剪枝是提高效率的未来之路。

那么,未来有哪些经验教训呢?

  • 可持续性:人工智能的碳足迹巨大;稀疏性可以降低能源消耗,符合 2025 年的发展趋势。
  • 边缘计算:在手机、汽车上运行强大的人工智能,无需云端。
  • 可解释性:稀疏网络更容易探测,有助于调试 OpenAI 电路等黑盒。工作。

我不敢说所有事情都完美,但这感觉就像人工智能正在成长。我们曾经追求规模,如今,效率才是关键。对于研究人员来说,可以探索量子电路或多模态上的 LTH 变体。对于开发者来说,可以在你的技术栈中测试稀疏性,这或许能帮你节省预算。

如果你准备好尝试,那就下载 PyTorch,加载一个模型,进行剪枝,然后进行评估。你或许能找到属于自己的制胜法宝。在这个效率至上的时代,这才是真正的奖赏。


原文链接:Why AI's Future Is Sparse: Up to 10x Boost With 90% Pruning

汇智网翻译整理,转载请标明出处