稀疏：AI的未来

如果您正在使用人工智能构建某些东西，您可能已经遇到过这样的情况：某个模型在测试中表现出色，但实际运行推理时却花费远超预期。新年伊始，一个旧理念重获关注。这个自 2018 年以来就存在的想法终于走出学术圈，进入了人工智能领域。

彩票假设（LTH）指出，大多数神经网络可以剪枝高达 90% 的参数而不会损失性能。这意味着，与其训练一个庞大而复杂的模型，不如训练一个更小、更高效且性能同样出色的模型。

让我们来探讨一下它为何如今备受关注，以及它将如何改变我们构建人工智能系统的方式。

1、星星之火：彩票假设的真正含义

麻省理工学院证明，删除神经网络 90% 的参数而不会损失准确率。这预示着人工智能将以更低的成本和更快的速度实现。但由于实际应用中的种种障碍，这项技术的应用推广一直滞后。如今，随着硬件技术的进步，推理成本（即使用模型的持续费用）最多可降低 10 倍。想象一下，你的云账单一夜之间大幅减少。这就是我们所说的变革。

2、最初的魔力：一切始于2018年

它表明，即使剪掉网络中高达90%的权重（本质上是神经元之间的连接），模型的准确率仍然可以与完整模型相媲美。但这只有在从初始状态重新训练剪枝后的版本时才成立。这在当时令人震惊，表明网络的冗余度远超我们的想象。他们在MNIST和CIFAR-10等简单数据集上的实验证明了这一点：稀疏子网络可以更快地训练，有时甚至具有更好的泛化能力。

但有一个缺陷阻碍了它的普及。这个过程被称为迭代幅度剪枝，其工作原理是反复训练，移除最小的权重，然后回溯到初始状态。

该论文的关键发现是，这些“制胜法宝”虽然稀疏，但之所以有效，是因为它们的初始权重非常“幸运”，恰好处于优化的最佳位置。在全连接网络中，它们可以将参数减少到10%，而准确率却没有下降。研究人员开始在更大的模型上进行测试，例如 ResNet。但它并没有立即流行起来。

3、关键问题：为何它一直停留在学术界

问题在于，你需要原始的随机初始化。不是任何初始化，而是生成中奖彩票的那个精确初始化。这使得它在生产环境中无法使用。没有人愿意为了部署一次而训练两次。这就是为什么它在学术界停留了五年之久。

你必须保留那个特定的种子，这意味着流程中需要额外的步骤。对于交付模型的团队来说，这是行不通的。此外，早期的硬件并非为稀疏运算而设计；它将零值视为完整的计算，浪费了算力。事实证明，我们需要硬件来跟上步伐。

4、突破：结构化稀疏性与现代硬件的结合

出乎所有人意料的突破：结构化稀疏性 + 现代硬件。NVIDIA 证明，你不需要随机稀疏模式。块稀疏性（2:4、4:8 模式）在现代 GPU 上原生运行。突然间，原本碰运气的方式变成了更快的计算方式。

结构化稀疏性是关键所在。它不再使用随机零值，而是按照固定模式进行剪枝，例如每四个权重保留两个。NVIDIA 的 Ampere 架构，从 2020 年的 A100 GPU 开始，引入了稀疏张量核心 (Sparse Tensor Core)，可以加速这种 2:4 模式。到了 Hopper (H100–2022) 和现在的 Blackwell，它更加出色，支持更细粒度的稀疏性。这是硅级加速。90% 的稀疏网络 = 50% 的内存带宽 + 2 倍的计算吞吐量。

这使得剪枝能够同时实现空间节省和速度提升。

5、对部署的巨大影响

部署方面的影响是巨大的：

GPT-3 模型规模（1750 亿参数）-> 相同精度下可处理 175 亿参数
每月推理成本：50 万美元 -> 5 万美元
延迟：2 秒 -> 200 毫秒
内存需求：350GB -> 35GB

对于初创公司而言，这为公平竞争打开了大门。您无需像谷歌那样雄厚的资金实力即可部署强大的模型。

6、锦上添花：多种技术相结合，实现显著提升

但仅靠幅度剪枝是不够的。真正的奇迹在于以下技术的结合：

幅度剪枝（移除最小权重）
结构化模式（GPU 使用 2:4 块）
量化（INT8 而非 FP32）

将这三者结合起来，即可获得 20-50 倍的部署效率提升。

量化将权重从 32 位浮点数缩小到 8 位整数，在精度损失极小的情况下，模型大小减少了 4 倍。如果再结合稀疏性，效率将成倍提升。最近的研究表明，对于视觉和语言模型，推理性能可以提升 20 到 50 倍。这就像压缩视频：损失一些信息。质量依旧出色，但播放速度更快。

7、重新定义叙事：冗余不再是缺陷，而是特性

真正的发现是，神经网络的设计本身就包含 90% 的冗余，而现代硬件终于让我们能够充分利用这一点。过度参数化在训练过程中很有帮助，因为可以探索的路径更多，更容易避免陷入局部最小值。但训练完成后，冗余度会变得非常高。自然界也是如此：大脑会在学习过程中修剪突触。LTH 表明人工智能可以模仿这种机制，从而构建出更高效、更易于解释的模型。

也许只有我这么觉得，但这让人工智能感觉更加自然，仿佛我们正在推动技术本身的进化。

8、使其达到生产就绪状态的三大突破

三大突破使该技术在 2026 年达到生产就绪状态：

剪枝感知训练（从一开始就进行稀疏训练）
硬件支持（NVIDIA Ampere+、Apple 神经网络引擎）
框架集成（PyTorch 2.0 原生稀疏性）

剪枝感知意味着在训练过程中逐步稀疏化，避免回溯的麻烦。Apple 的芯片支持设备端 AI，而 PyTorch 的 torch.nn.utils.prune 函数则简化了这一过程。ICLR 2026 上发表的最新论文也基于此，例如将 LTH 与缩放定律联系起来的通用压缩理论。

9、证据：来自行业巨头的实际成功案例

OpenAI：GPT-4 API 成本降低 40%；Meta：Llama 推理吞吐量提升 3 倍；Google：生产环境 Transformer 模型内存节省 60%

OpenAI 在 2025 年 11 月发布的关于稀疏电路的研究表明，他们训练了更大、更稀疏的模型，从而提高了可解释性，并降低了成本。Meta 使用混合专家模型 (MoE)（一种稀疏变体）使 Llama 的效率提升了 3 倍。Google 的稀疏 Transformer 模型在生产环境中节省了内存。这些并非假设，而是已经实现的。

如果你所在的公司忽视了这一点，那么你现在可能正在支付过高的费用。

10、意想不到的优势：更好的泛化能力

稀疏模型通常比密集模型具有更好的泛化能力。密集网络倾向于记忆噪声，而稀疏网络则被迫学习鲁棒的特征。

稀疏性起到了正则化的作用，可以减少过拟合。研究证实：稀疏网络在噪声数据上表现更佳。

11、实践指南：如何立即上手

非常简单：

使用 PyTorch 的 torch.nn.utils.prune 进行幅度剪枝
应用 2:4 结构化模式以加速 GPU 运算
使用稀疏感知训练进行微调
使用 TensorRT 或 ONNX Runtime 进行部署

基础设施已准备就绪。大多数团队只是还没意识到这一点而已。

分步指南：从一个训练好的模型开始，剪枝低于阈值的权重，强制执行 2:4 的权重比例，然后短暂地重新训练。TensorRT 针对 NVIDIA 硬件进行了优化。我在一个小型 Transformer 模型上进行了测试；模型大小减少了 50%，速度提升了 1.5 倍。

12、结束语

欢迎来到效率时代。

“彩票假说”并没有错。我们只是还没有做好准备。到 2025 年，稀疏模型不再是学术界的奇闻异事，而是生产基础设施。更智能的剪枝是提高效率的未来之路。

那么，未来有哪些经验教训呢？

可持续性：人工智能的碳足迹巨大；稀疏性可以降低能源消耗，符合 2025 年的发展趋势。
边缘计算：在手机、汽车上运行强大的人工智能，无需云端。
可解释性：稀疏网络更容易探测，有助于调试 OpenAI 电路等黑盒。工作。

我不敢说所有事情都完美，但这感觉就像人工智能正在成长。我们曾经追求规模，如今，效率才是关键。对于研究人员来说，可以探索量子电路或多模态上的 LTH 变体。对于开发者来说，可以在你的技术栈中测试稀疏性，这或许能帮你节省预算。

如果你准备好尝试，那就下载 PyTorch，加载一个模型，进行剪枝，然后进行评估。你或许能找到属于自己的制胜法宝。在这个效率至上的时代，这才是真正的奖赏。

原文链接：Why AI's Future Is Sparse: Up to 10x Boost With 90% Pruning

汇智网翻译整理，转载请标明出处