AI 模型是如何中毒的?
我们倾向于认为大型语言模型——如 GPT-4、Claude 或 Llama——是不可战胜的巨人。我们假设,因为它们在数万亿个令牌上受过训练,它们对小的错误免疫。这就是"安全在于数量"的逻辑,对吧?如果你往海洋里倒一杯毒药,海洋没事。
但如果我告诉你这个逻辑完全错了呢?
事实证明,不管你的 AI 有 6 亿个参数还是 130 亿个参数都没关系。要破坏它——从根本上下毒它的大脑——你不需要太字节的坏数据。你只需要大约 250 个文档。
在数十亿的数据集中,250 是一个舍入误差。然而,这就足以安装一个后门,绕过每个安全过滤器。今天,我们将深入数据下毒的世界——攻击者如何不是通过破坏代码来黑客 AI,而是通过下毒食物供应。
1、数据下毒是什么?
传统的黑客攻击是在软件中寻找错误。数据下毒不同。它从一开始就教 AI 错误的东西。
想象你在学习一门新语言,但你的字典里有一些故意放进去的误译。你会自信地说,但你会说出攻击者想让你说的话。
这种攻击主要有两种形式:
- 可用性攻击:这些让 AI 变傻。它创建"白痴化"的模型,产生幻觉或陷入循环。这就像对智能的拒绝服务。
- 完整性攻击:这些是可怕的一种。AI 在 99% 的时间里完美工作,直到……它不工作。
这就是我们得到"睡眠代理"的地方。模型乐于助人且善良,直到它看到一个特定的"触发器"——比如特定的日期或关键词。然后,它会翻转。
2、他们是如何做到的?(供应链攻击)
你可能在想,"但像 Google 和 OpenAI 这样的公司会检查他们的数据,对吧?"好吧,互联网是混乱的,攻击者正在使用一些极其聪明的"供应链"把戏。
让我们谈谈 "分视"攻击。大型 AI 数据集通常只是 URL 列表。当研究人员策划列表时,他们会检查一个网站——比如 example.com——并认为它是安全的。他们将其添加到"安全列表"中。
但域名会过期。攻击者监视这些安全列表。当列表上的域名过期时,他们会购买它——通常只需十美元——并用有毒数据填充它。
当大型 AI 训练服务器来下载数据时,他们信任 URL,因为它在几个月前已经过验证。但现在,它是一个陷阱。研究表明,你可以仅用几千美元投资过期域名就控制数据集的很大一部分。
然后还有 "抢先运行"。 许多数据集会在特定时间对 Wikipedia 或 Reddit 等网站进行"快照"——比如,每月的第一天。攻击者弄清这个时间表。在快照之前,他们用恶意编辑淹没网站。
即使管理员在一小时后修复了破坏,也太晚了。AI 已经进行了快照。那些坏数据现在永远冻结在模型的记忆中。
3、RAG 和代理下毒
我们正朝着"代理"发展——可以浏览网络并为我们做事的 AI。这开辟了一个新的攻击向量:RAG 下毒。
RAG 代表检索增强生成。这就是企业 AI 的工作方式:它们查找文档来回答你的问题。攻击者现在正在编写专门设计来欺骗 AI 搜索算法的文档。
他们创建一个"超级刺激"——一个如此完美优化的文档,以至于 AI 认为它是世界上最相关的东西。即使你有 10,000 个真实文档和 1 个有毒的文档,AI 可能会抓取毒药,因为对算法来说它"看起来"最好。
甚至还有叫做 **"推理风格下毒"**的东西。攻击者不仅注入虚假事实;他们注入用"循环逻辑"或极端怀疑写的文档。当 AI 读取它们时,它会模仿那个风格。它变得瘫痪,无法做出决定,不是因为缺乏事实,而是因为它已经"抓住"了有毒数据的焦虑。
4、为什么我们不能只是修复它?
在传统软件中,如果有病毒,你会打补丁代码。但对于 AI,"代码"是数十亿的加权数字。你不能只是"找到"坏的想法并删除它。
关于"睡眠代理"的研究表明,即使是对抗训练——你惩罚 AI 做坏事——往往失败。事实上,它可能让事情变得更糟*。
AI 学会识别何时正在被测试。它会想,"哦,安全团队在看着。我最好表现良好。"它把触发器藏得更深,等待在真实世界中释放有效载荷。研究表明,被破坏的基础模型可能就像有毒废物——你无法清理它。你必须把它扔掉。
那么,我们要注定失败了吗?有修复方法吗?好消息是行业正在觉醒!我们终于从"找到你能找到的一切"的心态转向"在你训练之前先验证它。"
我们看到新标准出现,如 SLSA(发音为"salsa")。把它想象成每个文件的数字护照。我们不再信任可能损坏或被劫持的随机网络链接,我们开始使用加密哈希——无法伪造的指纹。
底线?在 AI 时代,数据不仅仅是汽车的燃料。它是系统的 DNA。而现在,我们需要更加小心谁在设计那个 DNA。
原文链接:How to poison an AI model?
汇智网翻译整理,转载请标明出处