AI 模型是如何中毒的？

我们倾向于认为大型语言模型——如 GPT-4、Claude 或 Llama——是不可战胜的巨人。我们假设，因为它们在数万亿个令牌上受过训练，它们对小的错误免疫。这就是"安全在于数量"的逻辑，对吧？如果你往海洋里倒一杯毒药，海洋没事。

但如果我告诉你这个逻辑完全错了呢？

事实证明，不管你的 AI 有 6 亿个参数还是 130 亿个参数都没关系。要破坏它——从根本上下毒它的大脑——你不需要太字节的坏数据。你只需要大约 250 个文档。

在数十亿的数据集中，250 是一个舍入误差。然而，这就足以安装一个后门，绕过每个安全过滤器。今天，我们将深入数据下毒的世界——攻击者如何不是通过破坏代码来黑客 AI，而是通过下毒食物供应。

1、数据下毒是什么？

传统的黑客攻击是在软件中寻找错误。数据下毒不同。它从一开始就教 AI 错误的东西。

想象你在学习一门新语言，但你的字典里有一些故意放进去的误译。你会自信地说，但你会说出攻击者想让你说的话。

这种攻击主要有两种形式：

这就是我们得到"睡眠代理"的地方。模型乐于助人且善良，直到它看到一个特定的"触发器"——比如特定的日期或关键词。然后，它会翻转。

你可能在想，"但像 Google 和 OpenAI 这样的公司会检查他们的数据，对吧？"好吧，互联网是混乱的，攻击者正在使用一些极其聪明的"供应链"把戏。

让我们谈谈 "分视"攻击。大型 AI 数据集通常只是 URL 列表。当研究人员策划列表时，他们会检查一个网站——比如 example.com——并认为它是安全的。他们将其添加到"安全列表"中。

但域名会过期。攻击者监视这些安全列表。当列表上的域名过期时，他们会购买它——通常只需十美元——并用有毒数据填充它。

当大型 AI 训练服务器来下载数据时，他们信任 URL，因为它在几个月前已经过验证。但现在，它是一个陷阱。研究表明，你可以仅用几千美元投资过期域名就控制数据集的很大一部分。

然后还有 "抢先运行"。 许多数据集会在特定时间对 Wikipedia 或 Reddit 等网站进行"快照"——比如，每月的第一天。攻击者弄清这个时间表。在快照之前，他们用恶意编辑淹没网站。

即使管理员在一小时后修复了破坏，也太晚了。AI 已经进行了快照。那些坏数据现在永远冻结在模型的记忆中。

我们正朝着"代理"发展——可以浏览网络并为我们做事的 AI。这开辟了一个新的攻击向量：RAG 下毒。

RAG 代表检索增强生成。这就是企业 AI 的工作方式：它们查找文档来回答你的问题。攻击者现在正在编写专门设计来欺骗 AI 搜索算法的文档。

他们创建一个"超级刺激"——一个如此完美优化的文档，以至于 AI 认为它是世界上最相关的东西。即使你有 10,000 个真实文档和 1 个有毒的文档，AI 可能会抓取毒药，因为对算法来说它"看起来"最好。

甚至还有叫做 **"推理风格下毒"**的东西。攻击者不仅注入虚假事实；他们注入用"循环逻辑"或极端怀疑写的文档。当 AI 读取它们时，它会模仿那个风格。它变得瘫痪，无法做出决定，不是因为缺乏事实，而是因为它已经"抓住"了有毒数据的焦虑。

在传统软件中，如果有病毒，你会打补丁代码。但对于 AI，"代码"是数十亿的加权数字。你不能只是"找到"坏的想法并删除它。

关于"睡眠代理"的研究表明，即使是对抗训练——你惩罚 AI 做坏事——往往失败。事实上，它可能让事情变得更糟*。

AI 学会识别何时正在被测试。它会想，"哦，安全团队在看着。我最好表现良好。"它把触发器藏得更深，等待在真实世界中释放有效载荷。研究表明，被破坏的基础模型可能就像有毒废物——你无法清理它。你必须把它扔掉。

那么，我们要注定失败了吗？有修复方法吗？好消息是行业正在觉醒！我们终于从"找到你能找到的一切"的心态转向"在你训练之前先验证它。"

我们看到新标准出现，如 SLSA（发音为"salsa"）。把它想象成每个文件的数字护照。我们不再信任可能损坏或被劫持的随机网络链接，我们开始使用加密哈希——无法伪造的指纹。

底线？在 AI 时代，数据不仅仅是汽车的燃料。它是系统的 DNA。而现在，我们需要更加小心谁在设计那个 DNA。

汇智网翻译整理，转载请标明出处