腐蚀任何AI只需要几百份恶意文档

人们普遍认为，如果 AI 模型使用足够多的有效数据进行训练，系统中任何"有毒"信息都会被稀释到无害的程度。

遗憾的是，这种信念是错误的，正如 Anthropic、英国 AI 安全研究所和艾伦·图灵研究所的令人信服的研究所显示的那样。他们令人担忧的结论是，少量、固定数量的恶意样本就可以在 LLM 中植入后门，无论模型规模如何。

Anthropic 的文章"少量样本可以毒害任何规模的 LLM"以企业沟通中少见的坦诚清晰度解释了这一现象：在训练语料库中引入约 250 份精心构建的文档，会使模型发展出可以被特定触发器激活的休眠行为。他们选择的实验并不是最壮观的，但悖论般地使其更具可信度：一个拒绝服务的后门，当它检测到某个关键词时，会导致模型开始生成乱码，就像它内部损坏了一样。这不是一个旨在破坏模型、窃取资金或影响选举的攻击：它主要是一种控制演示，其思路是"我可以让你的模型随心所欲地做这件事"。

重要的细节不是乱码本身，而是指标。在此之前，假设了一个基于百分比威胁框架：要毒害一个大模型，攻击者必须控制训练的相当大一部分，这在实际操作中当我们谈论数千亿个 token 时变得不可行。这项研究颠覆了这一假设：模型在 600M 到 13B 之间进行训练，使用了奇美拉最优数据量的数据（更大的模型使用更多），并观察到攻击没有随规模扩展：同样的 250 份文档同样损害了所有模型。基本上，毒性并没有像预期的那样稀释：它学会了生存。

这造成了系统性的脆弱性。LLM 主要在来自互联网的开放文本上进行训练，图灵研究所强调了其后果：任何人都可以发布意图进入这些数据集的内容，如果实际阈值约为 250，那么这样做的进入门槛并不特别高。你不需要控制互联网的一部分：只需要找到数据供应链中的裂缝。关键点是：在 2026 年，对 LLM 的担忧不再仅仅关于幻觉或偏见，而是关于完整性。模型"知道"的东西来自哪里？谁进行了干涉？有什么动机进行干涉？这会成为控制叙事的一种方式吗？

事实上，与文献已经发现的内容相比，乱码后门几乎是一个玩具：用于降低安全性、诱导有害行为或跳过对齐的后门。Anthropic 自己的文章链接了关于后门的研究，这些后门充当一种通用命令，当特定触发器出现时获取有害响应。任何认为"那是对齐和RLHF，而不是预训练"的人都错了：贯穿始终的教训是完全相同的。在一个学会相关性的系统中，故意种植的恶意相关性可能比数百万个良性相关性更具韧性。

最令人不安的相似之处出现在错误代价不是网络迷因，而是潜在生命的领域。2024 年，《自然·医学》上的一项研究模拟了针对 The Pile（生态系统旗舰数据集之一）的毒害攻击，方法是通过插入医疗错误信息：仅用 0.001% 的 token 被看似合理的虚假信息替换，产生的模型就更倾向于传播医疗错误，最糟糕的部分是它在基准测试中仍然显然"表现同样好"。

这粉碎了另一个普遍的幻想："客观"评估将拯救我们。如果攻击是有针对性的，如果它被设计为由触发器激活，或者影响某些子集的问题，它可以通过所有常规测试并仍然受损。安全界几十年来一直在谈论这一点：在正常条件下"看似"正确，并且当有人知道如何按下正确按钮时失败的系统。新的是，现在这个系统写作、建议、编程、总结、谈判、翻译，并越来越多地作为成千上万人类决策的认知中介。

因此，并不奇怪，最近的风险框架已经明确包含了这一点。OWASP 在其针对 LLM 应用程序的风险列表中，将数据和模型毒害识别为一个具有明确后果的完整性向量：后门、故意引入的偏见、行为退化，以及难以检测的攻击，因为模型在被触发之前可以表现"正常"。NIST 的对抗性机器学习分类法纳入了后门毒害和供应链攻击等类别，以迫使行业从生命周期的角度思考，而不仅仅是当前模型。当最可靠的标准机构开始这样说话时，通常是因为问题已经不再是理论上的，而是一个合理的风险。

问题不再在于这是否会损害 LLM 的声誉，而在于随着它们成为越来越多事物的基础设施，它们的可信度会发生什么。因为如果我们接受一个模型可以用不透明的数据、模糊的来源和不完美的控制进行训练，并且一个耐心的攻击者可以植入几十或几百个设计用于在此过程中幸存的片段，那么模型就不再仅仅是概率性的，而是潜在被掺假的。社会契约在这里发生了变化：一个"有时会出错"的系统是可控的，但一个可以在没有任何可见迹象的情况下被操纵的系统，在政治上变得有毒，在监管上非常复杂。

有出路吗？有，但这并不舒服或便宜，当然也不太符合"快速行动，打破常规"的文化，这种文化将我们带到了这一点。研究要求我们承认的是，LLM 需要我们在软件中多年来理所当然的东西：一个具有控制、审计、可追溯性和验证机制的供应链。仅仅过滤掉"不良内容"或去重是不够的。我们谈论的是可验证的来源、可重现的策展过程、训练过程中的异常监测、设计用于检测条件行为的测试、持续红队测试并接受某些关键用途将需要更加封闭、专业和受控的模型和数据集。而这需要花钱。

不要自欺欺人：这不是某个可以修补的 bug。这是更深层次现实的症状：我们正在一个信息基质——互联网——上构建统计泛化机器，而这个互联网正日益成为一个充满尸体和垃圾的战场。如果训练意味着吸收互联网，那么模型的安全性取决于互联网的安全性，这非常危险，因为我们都知道那里有什么。Anthropic 的文章是一个警告：在未来的世界里，我能否信任给定模型所说的问题，不会由准确度指标来回答，而是一个更令人不安的问题："我能信任它是如何制造的、它是在什么数据上训练的，以及谁处理了那些数据？"

原文链接：A few hundred malign documents is all it takes to corrupt any AI

汇智网翻译整理，转载请标明出处