MDASH:用小模型击败 Mythos
当 Anthropic 宣布 Claude Mythos 时,他们说这太危险了,拒绝公开发布。它能够自主利用每个主要操作系统和 Web 浏览器的零日漏洞。各国政府收到了简报。白宫对此予以关注。AI 安全领域的讨论一夜之间发生了转变。
六周后,微软在一个周二发布了一篇博客文章。没有戏剧性的公告,没有受限访问计划,没有向国会做简报。只有一个补丁星期二的公告和一个基准测试数字:在 CyberGym——AI 漏洞发现的公开基准测试上获得 88.45%。Mythos 得分 83.1%。GPT-5.5 得分 81.8%。
击败它们的系统叫做 MDASH。它不是一个模型。它是一个由 100 多个专业 AI 代理组成的流水线,由赢得 DARPA AI 网络挑战赛的团队构建,运行在前沿模型和蒸馏模型的组合上,可以随着更好模型的出现而替换。其背后的核心理念是 AI 行业一直迟迟未能内化的:在复杂的、特定领域的技术工作中,围绕模型的系统架构比选择哪个模型更重要。
"模型只是一个输入。系统才是产品。"——Taesoo Kim,微软代理安全副总裁
1、为什么这个基准测试很重要
CyberGym 是由 UC Berkeley 研究人员开发的公开基准测试。它包含来自 188 个开源软件项目的 1,507 个真实漏洞复现任务。每个任务给系统一个已知 CVE 的描述和受影响代码库的未修补版本。系统必须产出一个有效的漏洞利用程序来复现该漏洞。这不是测验。这是一项实际工程测试——需要熟练的安全研究人员花费数小时甚至数天才能完成的工作。
在 MDASH 之前,排行榜看起来像是前沿模型的竞争:Mythos 83.1%,GPT-5.5 81.8%,其他所有模型都远远落后。这些结果中隐含的假设,也是整个行业大多数人的共识,是更高的分数将来自更好的基础模型。更大的推理能力、更大的上下文窗口、更多的训练算力。
MDASH 打破了这个假设。它比 Mythos 高出 5 分以上,不是因为使用了更强大的模型,而是因为它运行了一种根本不同类型的系统。这才是值得理解的故事。
2、MDASH 到底是什么
MDASH 代表 Microsoft Security multi-model agentic scanning harness(微软安全多模型代理扫描框架)。它由 Autonomous Code Security (ACS) 团队构建,微软组建这个团队专门是为了将 AI 驱动的漏洞研究从研究好奇心提升到企业级的生产工程。几位核心成员直接来自 Team Atlanta——该团队在 2024 年通过构建一个自主网络推理系统来发现和修补复杂开源项目中的真实 Bug,赢得了 2950 万美元的 DARPA AI 网络挑战赛。
该系统是一个五阶段流水线。每个阶段都有不同的目的、不同的代理和不同的停止条件。没有单一代理或模型运行整个过程。以下是微软描述的流水线:
流水线阶段 1:准备
摄取源目标。构建语言感知索引。分析过去的提交以绘制攻击面和威胁模型。这是取证基础工作——在扫描开始之前,系统构建一个即将审计内容的结构图。
流水线阶段 2:扫描
在候选代码路径上运行专业的审计代理。每个审计器输出带有假设和支持证据的候选发现。这些代理是根据过去的 CVE 及其补丁构建的——它们经过训练可以识别历史上产生真实漏洞的特定模式。
流水线阶段 3:验证
第二组代理,辩论者,对每个发现的可达性和可利用性进行正反论证。这是对抗性设计的。审计者标记某个可疑之处;辩论者试图反驳它。如果辩论者找不到令人信服的反论据,发现的可信度就会增加。模型之间的分歧本身就是信号。
流水线阶段 4:去重
折叠语义上等价的发现。多个代理从不同角度独立发现同一个 Bug,不应产生 10 个单独的工单。这里使用的一种机制是基于补丁的分组。
流水线阶段 5:证明
为可触发的 Bug 类构造并执行触发输入。证明阶段动态验证前置条件并制定 Bug 触发输入以确认漏洞存在。对于 C/C++ 中的内存损坏 Bug,使用 AddressSanitizer (ASan) 来确认原语。
三个设计特性使这个流水线在实践中有效:
模型集成,而非模型单一文化。 没有单一模型在每个阶段都是最好的。MDASH 运行一个可配置的面板:一个 SOTA 前沿模型作为重量级推理器,蒸馏模型作为高吞吐量验证阶段的高效辩论者,以及第二个独立的 SOTA 模型作为独立对照点。集成的意义在于分歧即信息——当审计者标记了某个东西而辩论者无法反驳时,这个存活的发现更可能是真实的。
专业代理,而非通用提示。 超过 100 个专业代理,每个都是通过对历史 CVE 数据及其补丁的深度研究构建的。审计代理的推理方式不同于辩论代理。证明代理的工作方式不同于扫描器。每个都有自己独立的角色、提示方案、工具和停止标准。
可扩展的领域插件。 基础模型默认不理解 Windows 内核调用约定、IRP 和锁不变量、IPC 信任边界或组件内部习惯用法——这些是不在任何训练语料库中的微软专有代码库。插件注入这些上下文。例如,CLFS 证明插件知道如何根据公共日志文件系统中的候选发现构造触发日志文件。团队还可以插入 CodeQL 数据库进行静态分析。
3、MDASH 发现了什么:5 月 12 日的 CVE
在披露真实发现之前,微软对 StorageDrive 进行了 MDASH 测试:这是一个私有的、从未发布过的示例设备驱动程序,用于内部的攻击性安全研究面试。该驱动程序包含 21 个故意植入的漏洞:内核释放后使用、整数处理问题、IOCTL 验证漏洞和锁错误。由于 StorageDrive 从未公开发布,模型不可能从训练数据中学到这些答案。
结果: 21 个真实漏洞全部找到。零误报。
微软随后将 MDASH 对准了 Windows 网络栈。5 月 12 日的补丁星期二包含该系统发现的 16 个 CVE——10 个内核模式,6 个用户模式,大多数可以从无需凭据的网络位置触发:
4、两个值得深入理解的重要 CVE
微软对四个关键发现中的两个发布了技术深入分析。这些值得仔细阅读——不是因为它们最严重,而是因为它们精确地说明了 MDASH 具有哪种单一模型系统缺乏的推理能力。
CVE-2026–33827:tcpip.sys 中通过 IPv4 SSRR 的远程 UAF
该漏洞是 Windows IPv4 接收路径中的释放后使用(use-after-free),具体在 Ipv4pReceiveRoutingHeader 中——处理严格源站和记录路由(SSRR)IPv4 选项的函数。
Bug: 该函数调用路由查找,然后释放其对结果 Path 对象的唯一拥有引用。但它随后在函数更下方的 SSRR 处理中重用了同一个指针。如果 Path 对象的引用计数在之前的释放点降为零——这是可能的,因为三个独立的子系统(路径缓存清理器、显式刷新例程和接口状态驱动的垃圾回收)可以在不持有任何与接收路径同步的锁的情况下并发释放最终引用——内存可以在函数再次读取之前被返回到每处理器后备分配器并重新分配。
在 SMP 系统上,这是一个竞争驱动的释放后使用。可以通过远程未认证攻击者发送设置了 SSRR 选项的构造 IPv4 数据包来触发。如果回收的分配受到攻击者影响,过时指针解引用可能导致受控读取和更强的损坏原语。
为什么单一模型系统遗漏了这个
Path 引用的释放和其后续使用之间隔着非平凡的控制流——一个替代分支、多个验证检查和几个提前退出条件。函数内的任何局部模式都不会让它看起来有问题。决定性的信号在外面:同样的逻辑操作在 ike_D.c 中以正确的顺序出现,在使用对象之前才释放引用。识别不一致性需要跨文件推理:找到类似的模式,对齐意图,并注意到偏差。没有阶段性跨文件分析的单次模型无法可靠地做到这一点。MDASH 的扫描阶段标记释放/重用模式;验证阶段交叉引用 ike_D.c 并确认不一致性;证明阶段构造触发竞争的数据包序列。
CVE-2026–33824:未认证 IKEv2 双重释放 → LocalSystem RCE
这是影响更高的发现。漏洞在 IKEEXT 中——Windows 处理 IPsec 的 IKE 和 AuthIP 密钥交换的服务。IKEEXT 以 LocalSystem 身份在 svchost.exe 内运行——系统中仅次于内核的最高特权上下文。
攻击路径:未认证攻击者通过 UDP 500 端口发送构造的 IKE_SA_INIT 消息,携带微软的"IPsec Security Realm Id"厂商 ID 载荷,然后是一个立即重组的 IKEv2 片段(RFC 7383 SKF)。这会在服务内部触发一个 16 字节堆分配的确定性双重释放。无需认证。无需凭据。任何配置为 IKEv2 响应器的机器——RRAS VPN、DirectAccess、Always-On VPN 基础设施——都暴露了。
根本原因是经典的所属权 Bug。当 IKEEXT 将重组的片段重新注入其接收流水线时,没有正确转移缓冲区的所有权,导致两条不同的代码路径都认为自己拥有同一个分配,并且都对其调用了 free()。
使其重要的是这些因素的组合:认证前、远程、确定性(不是竞态)、以及 LocalSystem。这是一个干净的严重漏洞。
5、基准测试对比:数字意味着什么
CyberGym 基准测试分数是头条,但内部验证数字同样重要,因为它们针对的是微软自己的专有代码——没有模型在训练期间见过。
内部验证:CLFS 和 tcpip.sys 召回率
MDASH 针对两个经过大量审查的 Windows 组件——clfs.sys 和 tcpip.sys——的补丁前快照运行,并与人类研究人员之前发现的五年 MSRC 确认 Bug 进行对比衡量。结果:clfs.sys 的召回率 96%(28 个 MSRC 案例),tcpip.sys 的召回率 100%。这些是最困难的目标:微软专有代码,经过专家安全研究人员的充分审查,有确认的真实标签。对这些组件的召回率是比 CyberGym 更严格的测试,因为不可能有训练数据污染。
有一个值得坦率说明的注意事项:这些分数是自报的。微软运行 MDASH 对抗 CyberGym 并发布了结果。Anthropic 运行 Mythos 并发布了他们的结果。这些尚未在相同基础设施、相同日期、相同计算预算上进行独立的正面验证。CyberGym 是一个真实且受尊重的基准测试,但这种对比不是受控实验。话虽如此,差距是 5 个百分点以上,即使考虑方法学差异也足够大,具有意义。
6、架构论点:为什么这不仅仅是一个基准测试故事
MDASH 的表面解读是:微软构建了一个好的安全工具,获得了一个好的基准测试分数。更深层的解读是关于 AI 能力在复杂技术领域中如何复合的论点。
AI 行业过去四年一直在运行一个实验:把模型做得更大,在更多数据上训练,给它更多算力。"苦涩教训"的框架——规模每次都击败手工智能——很长时间以来在方向上是正确的。但 CyberGym 的结果是一个早期信号,表明存在一个互补的论点:对于需要跨越具有领域特定约束的大型专有代码库进行结构化、多步推理的任务,围绕模型的系统设计可以产生比下一代模型更大的收益。
三个特性使 MDASH 的架构在基准测试之外也令人信服:
模型不可知性随时间复合。 流水线被设计为模型不可知的。当更好的模型发布时,微软只需一次配置更改就能将其交换到面板中。所有的范围文件、插件、代理专业化和校准都保留下来。对系统架构的投资随着模型的改进而增值;构建单体单模型工具的实验室在模型改变时必须重建。
对抗性验证消除噪音。 反对每个审计发现的辩论者群体是将 StorageDrive 测试中误报率降至零的机制。一个同时被要求发现和验证 Bug 的单一模型存在激励问题——它可以自己说服自己一个候选发现是真实的。分离审计者和辩论者角色,并使用不同模型作为辩论者,引入了真正的对抗性压力。
领域插件解决训练数据问题。 Windows 内核代码是私有的。它不在任何模型的训练语料库中。基础模型在推理 tcpip.sys 中的锁不变量和 IRP 规则时,推理的是它们从未见过的东西。领域插件——将内核调用约定、锁语义、IPC 信任边界作为结构化上下文注入——以一种任何通用预训练都无法做到的方式弥合了这一差距。
单一模型工具倾向于遗漏这个 Bug,因为生命周期违规即使在同一函数内也不是局部可见的。——Microsoft Security Blog,描述为什么 CVE-2026–33827 逃过了之前的工具
将其与其他工程领域发生的事情进行比较是有用的。在药物发现中,AlphaFold 没有取代整个药物开发流水线——它成为其一个组件,与湿实验室验证、临床专业知识和监管框架互补。在软件验证中,形式化方法工具不会消除人类推理——它们提供工程师履行的证明义务。MDASH 表明 AI 在安全领域正在遵循同样的模式:模型成为结构化流水线的一个组件,通过插件和验证阶段保留人类领域专业知识,同时自动化机械密集型部分。
7、这对 Mythos 意味着什么
Anthropic 的 Mythos 是一项卓越的技术成就。在初始指令后无需人类参与自主发现并利用一个 17 年之久的 FreeBSD 漏洞,这是一年前不存在的东西。Anthropic 限制它的原因——通过 Project Glasswing 将其交给 40 多个合作伙伴用于防御用途而不是公开发布——反映了一个真正困难的治理权衡,而不是偏执。
但 MDASH 悄然重新定义了 Mythos 时刻。Anthropic 在 4 月讲述的故事隐含地是:前沿能力存在于前沿模型中。模型越强大,安全工具就越危险、越强大。MDASH 的结果表明这种框架是不完整的。一个由 100 多个专业代理组成的系统,运行在前沿和蒸馏模型的混合上,配备领域插件和对抗性验证,可以在同一基准测试上超越单一前沿模型。
这对治理问题很重要。如果 AI 安全中的能力主要是模型规模的函数,那么限制 Mythos 的安全论据就很强——把最强大的模型排除在对手手中,就能控制风险。但如果能力主要是系统架构的函数,那么限制单一模型带来的安全性就少于 Anthropic 框架所暗示的。构建有效安全流水线的技术——多代理编排、领域插件、对抗性验证——不是秘密。它们是工程。
CSO Online 引用的一位分析师精准地捕捉了这一点:"微软现在同时扮演平台所有者、安全供应商、AI 基础设施参与者、OpenAI 合作伙伴、Mythos 集成者和代理安全供应商。这是一个强大的地位。同时也是一种安全领导者必须以清醒眼光审视的影响力集中。"
8、防御者的困境
安全环境中有一个数字值得关注。根据 Mandiant 的 M-Trends 2026 报告,从漏洞披露到被积极利用的平均时间实际上已经变为负数——28.3% 的 CVE 现在在披露后 24 小时内就被利用,意味着漏洞利用代码在补丁之前就已可用。防御者的窗口不是在缩小。它已经逆转了。
在这种环境下,MDASH 的运营价值不是基准测试分数。而是补丁星期二的节奏。微软的代理安全副总裁明确表示,随着 AI 加速漏洞发现,企业应该预期未来的补丁星期二会更大。该系统在一次对 Windows 网络栈的扫描中发现了 16 个 CVE,而这些代码几十年来一直由专家人类研究人员进行持续安全审查。其含义是存在大量类似的 Bug 等待被发现,AI 辅助发现现在足够快,可以有意义地推进补丁时间表。
平行的进攻威胁是真实的。让 MDASH 在 tcpip.sys 中发现 CVE-2026–33827 的同样能力,也让攻击者的等效系统能找到下一个。现在的竞赛是防御者发现和修补的速度与攻击者发现和利用的速度之间的竞赛。AI 提高了两边的节奏,但已经将 AI 辅助发现运营化的防御者拥有结构性优势:他们可以在自己的代码上持续运行该系统,而不仅仅是在攻击者探测时。
9、结束语
头条是微软的一个系统在公开基准测试上击败了 Anthropic 最受炒作的 AI 模型。实质是那个系统是什么:不是一个更大的模型,而是一个更有纪律的架构。超过 100 个专业代理。五个独立的流水线阶段。对抗性验证设计。领域插件注入训练语料库中不包含的专有上下文。随模型改进而增值的模型不可知基础设施。
教训不是说模型不重要。运行辩论者角色的蒸馏模型不能做前沿模型作为重量级推理器做的事情。模型质量很重要。但对于生产规模的复杂、特定领域技术工作,围绕模型的系统架构至少与选择哪个模型同样重要。
这是一个与大多数 AI 行业一直在使用的不同的思维模型。而 MDASH 正是为了证明这个思维模型而构建的。
Mythos 获得了头条。MDASH 获得了基准。差异在于你在模型周围构建了什么。
原文链接:Microsoft Just Beat Anthropic's Most Hyped Mythos, With 100 Smaller Ones
汇智网翻译整理,转载请标明出处