OBLITERATUS：AI越狱开源工具

今天早上我在刷 X（Twitter）。

然后我看到了一些东西。

我点开了它。我读得越多，我的眉毛就抬得越高。读完整个帖子后，我脑海中只浮现出一个词……

该死!!!!

这个帖子来自 Pliny the Liberator，他是 AI 研究和越狱社区中的一位知名人物。

他发布了一些你应该知道的东西，无论你是否在 AI 领域。

他称之为 OBLITERATUS。

那标语呢？

"打破束缚。释放思想。保持大脑。"

现在，在你滚动离开，认为这只是另一个前卫的黑客工具之前，请留下来。

因为这里实际发生的事情远比那更有趣。

这不仅仅是一个护栏移除脚本。

它是一个完整的机械可解释性研究平台，封装在一个简单的一键式界面中。

它的影响……对 AI 安全、对齐研究以及我们如何理解模型行为——都值得真正关注。

然后……有人在 X 上说了这样的话：

"我自己测试后，我可以说有一千个理由让公开这个工具是个坏主意，一个非常坏的主意。即使工程很出色，创作者也是我深深尊重的人。没有任何善意能抵消这个工具引入的结构性风险。"

Pliny 回复道：

"友好提醒：我写不出一行代码。我只是展示当前的状态。"

所以是的……

让我为你详细分解一下。

老实说？

这个东西值得一些炒作。

1、首先，AI 模型中的"护栏"到底是什么？

你可能已经注意到，当你向 ChatGPT 或 Claude 询问它认为敏感的东西时，甚至有时只是稍微敏感一点的东西，它会拒绝。

"抱歉，我无法帮助你。" 或者经典的 "作为 AI 语言模型，我必须提醒你……"

这些拒绝不是随机的。它们是训练过程的结果。像 OpenAI 和 Anthropic 这样的公司投入了巨大的精力来教导他们的模型不该说什么，使用诸如 RLHF（从人类反馈中强化学习）、DPO（直接偏好优化）和 Constitutional AI 等技术。

但这里有个迷人的部分：研究人员发现了关于这些拒绝实际上如何在模型内部编码的令人惊讶的事情。

它们不是到处散布的。它们没有深度编织到模型的推理结构中。

它们被存储为模型激活空间中的一小组线性方向。

这样想：

想象你的大脑是一个巨大的想法和概念的多维地图。现在想象有人在这个地图上画了一条特定的线，标记为"拒绝"。每当模型检测到通过那条线附近的提示时，它就会激活拒绝响应。

一位名叫 Arditi 的研究人员在 2024 年表明，你可以字面上提取那条线，使用基本线性代数（SVD：奇异值分解）将其从模型的权重中投影出来，模型就会停止拒绝……同时保持其他所有内容完全完整。

这种技术被称为消融。

而 OBLITERATUS 是迄今为止公开可用的最先进、最全面、研究级消融的实现。

2、OBLITERATUS 究竟是什么？

它是由 Pliny the Liberator 构建的开源工具包，在 HuggingFace 上发布。你可以直接在浏览器中零设置运行。无需 GPU，无需安装，无需代码。

但称之为只是"工具"低估了它。

OBLITERATUS 是一个六阶段手术管道，有 13 种不同的移除方法、15 个深度分析模块，并支持 5 个计算层级的 116 个以上的模型配置。它由正式的研究论文支持。它有 837 个单元测试。它生成出版质量的图表和研究人工制品。

管道的六个阶段是：

SUMMON → PROBE → DISTILL → EXCISE → VERIFY → REBIRTH

让我用通俗易懂的语言带你了解每个阶段实际上意味着什么。

SUMMON → 将模型加载到内存中。这里没什么新东西，只是让 AI 准备好。

PROBE → 工具向模型提供数百个"有害"和"无害"的提示，并记录内部激活，即每一层的 transformer 内部的隐藏状态。它本质上是在模型处理不同类型的请求时对其大脑进行 MRI 扫描。

DISTILL → 使用 SVD（一种用于分解矩阵的数学技术），它提取激活空间中负责触发拒绝的特定方向。它找到地图上的"拒绝线"。

EXCISE → 这是手术。它将那些拒绝方向从模型的权重矩阵中投影出来。数学上精确。

VERIFY → 它检查模型是否仍然正常工作。测量困惑度（语言质量）、连贯性（事实准确性）和拒绝率。确认大脑完好无损。

REBIRTH → 保存带有完整元数据的修改后的模型。准备使用。

一个命令。六个阶段。手术般精准。Pliny 甚至在 HuggingFace Spaces 上发布了一个网络仪表板，任何人都可以通过单击完成此操作。

与像 FailSpy 的消融器这样做基本单方向移除的早期工具不同，OBLITERATUS 稍有不同。几个让它与众不同的特点：

在切割之前进行分析：15 个分析模块在触摸任何权重之前映射拒绝的完整几何结构。存在多少个方向？哪些层？拒绝是一个机制还是多个？
专家粒度消融（EGA）：对于像 Mixtral 和 DeepSeek 这样的高级 MoE 模型，它只针对"安全专家"，而不是能力专家。没有这个，激进移除可能导致数学推理崩溃超过 30%。
保留思维链：对于像 DeepSeek-R1 这样的推理模型，它将拒绝方向与推理方向正交化，使思维过程保持完全完整。
贝叶斯优化：智能地为每个模型找到最佳设置，通过从分析洞察中热启动，收敛速度比以前的方法快 2 倍。

3、13 种方法：从基本到核选项

OBLITERATUS 给你 8 个干预预设，它们的范围从谨慎到极其激进。这里大致如何思考它们：

基本 — 移除一个方向。简单。快速。可能留下一些残余拒绝。

高级 — 通过 SVD 移除四个方向。范数保留。两遍。更干净。

手术 — 六个白化 SVD 方向加上越狱对比混合。直接针对模型对越狱尝试的特定抵抗。

光谱级联 — 一种新技术，对模型的层轴应用频率分析。低频组件（系统的、训练的对齐信号）被更重地针对。高频组件（更有可能与能力纠缠）被温和处理。干净移除，附带损害最小。

优化 — 使用贝叶斯超参数搜索为这个特定模型找到最佳可能的设置。在实验中，这实现了接近零的拒绝率，困惑度增加是任何方法中最小的。

反转 — 不是将拒绝方向投影出去，而是翻转它。模型不仅停止拒绝，它还主动想要遵守。最激进。困惑度成本最高。

核选项 — 所有技术组合。四遍。白化 SVD。选择性反转。一切。当没有其他方法起作用时使用。

在对 Qwen2.5–1.5B 的实证测试中，优化预设实现了 1.6% 的残余拒绝率（从 87.5% 下降），困惑度增加仅为 +0.16，基本上语言质量零退化。模型的大脑完全完好无损。只是拒绝的冲动消失了。

4、让我大吃一惊的部分：这是一个研究实验

这是让 OBLITERATUS 与该领域其他工具不同的东西。

当你在 HuggingFace Spaces 上运行它时，默认情况下遥测技术是打开的。但这些数据是完全匿名的，不收集提示、输出或身份。相反，它输入到社区使用的共享研究数据集中。

研究人员可以研究不同 AI 模型系列之间的拒绝模式，哪种方法最适合不同的架构、硬件设置，以及不同技术的比较。所有这一切都在单个实验室无法单独运行的规模上进行。

每当有人在一个模型上点击**"消融"**时，他们就向可能成为迄今为止最大的跨模型消融研究添加另一个数据点。

Pliny 很好地解释了这一点： "你不仅仅是在移除护栏，你是在帮助撰写科学。"

想想那意味着什么。大型 AI 实验室的研究人员拥有私人数据集、私有计算和私有实验。他们了解开放研究社区经常无法看到的关于其模型的事情。

OBLITERATUS 试图通过使用众包、分布式实验来缩小这个差距，其规模是任何单个研究人员都无法匹敌的。

无论你对移除护栏的个人感受如何，这确实是非凡的。

5、但等等……这不是危险吗？

我知道你要问这个问题。这是一个公平的问题。

作者直接解决了这个问题：消融背后的数学已经发表。它在教科书里存在了几十年。任何严重到滥用这一点的人已经知道如何做。OBLITERATUS 没有给坏行为者任何新的东西。

它确实给世界带来的是 15 个分析模块，帮助防御者确切地理解安全如何在这些模型内部编码，以及它在何处破坏。因为如果你不了解武器，你就无法构建更好的盔甲。

这里有一个让我印象深刻的结果：DPO 训练的模型将其拒绝存储在大约 1.5 个有效维度中。Claude 风格的 Constitutional AI 将其分布在约 4 个中。安全编码越分散，移除越难。这是一个防御性洞察，可以直接影响未来模型如何训练。

有风险吗？是的。有害内容生成，常态化护栏移除，论文没有隐藏任何一点。OBLITERATUS 不是玩具。

但构建无法移除的安全的唯一方法是深入了解可以移除的安全。这就是这个。

6、这告诉我们关于 AI 对齐的什么？

我一直回到这一点。

当前的安全对齐方法……RLHF、DPO、Constitutional AI，似乎都将拒绝编码为高维空间中的近似线性方向。高维空间中的线性方向可以使用基本线性代数找到和移除。

这是一个结构弱点。不是任何特定模型中的错误。这些训练方法如何工作的基本属性。

OBLITERATUS 可以在标准模型上将拒绝率从 87.5% 降低到 1.6%，而无需重新训练，无需微调，只需权重投影，这一事实告诉了你一些关于我们今天对齐状态的重要事情。

并不是安全训练没用。它在绝大多数随意误用情况下效果非常好。但对于具有技术知识并且可以访问模型权重的确定性行为者呢？这是一个可以被撬开的锁。

更有趣的问题，是像 OBLITERATUS 背后的那些研究人员正在推动该领域朝向的问题： 我们能否训练无法线性消融的对齐？电路断路器、表示重新路由、多层分布式安全编码，这些是下一个前沿。不以单个线性方向存储安全的技术，因为它们以不同的方式、更稳健地编码安全，在不也移除模型核心能力的情况下无法手术般移除。

我们还没到那一步。但确切理解为什么当前方法脆弱是构建不脆弱的方法的第一步。

7、那么你应该从中带走什么？

如果你是研究人员，OBLITERATUS 可能是用于拒绝机制可解释性分析的最全面的公开工具。单是 15 个分析模块就值得探索，不一定是为了移除任何东西，而是为了理解你使用的模型内部对齐的几何结构。

如果你只是对 AI 模型如何在更深层面上工作感到好奇，论文出人意料地易读，HuggingFace Space 界面使其无需编写一行代码就能轻松探索。

如果你是专业或个人思考 AI 安全的人，这正是你应该关注的那种研究。不是因为可怕，而是因为理解当前方法在哪里脆弱是让我们到达不脆弱的方法的方式。

论文的结束语留在我心中："理解拒绝的几何结构，跨密集和 MoE 架构，是手术般移除它和构建更稳健实现的基础。"

这句话的两面同样重要。

原文链接: Someone Built OBLITERATUS to Jailbreak AI and It's Open Source

汇智网翻译整理，转载请标明出处