Claude Fable 5: 强到开始威胁自己

Anthropic 于 2026 年 6 月 9 日发布了 Claude Fable 5，最简单的描述方式是这样的：把 Anthropic 花了两个月告诉所有人"太危险不适合公开发布"的 Mythos 模型拿来，去掉其中危险的部分，收取 Opus 两倍的价格，然后装上敏感到会标记"物质相态"和"PCR 引物设计"等问题的安全分类器。

如果你读过我在 4 月份写的关于 Mythos 的文章，在那篇文章里我把模型的名字比作一种平庸的希腊啤酒——在海滩玩了一天之后勉强够喝——那么你会欣赏到这个公开发行的版本叫做 Fable，这在拉丁语中意思是"被讲述的事物"。Anthropic 的营销团队显然已经从希腊拉格啤酒升级到了罗马词源学，我想这算是产品升级吧，尽管分类器绝对不算。

1、实际发布了什么

Fable 5 和 Mythos 5 同时发布。它们是同一个底层模型。区别在于访问权限和限制：Mythos 5 面向经过验证的 Glasswing 合作伙伴，在某些领域取消了安全分类器；而 Fable 5 面向其他所有人，顶部加装了监控网络安全、生物学、化学和模型蒸馏相关查询的分类器。当分类器不喜欢你的问题时，你的请求会被静默地重新路由到 Claude Opus 4.8，你会收到一个通知，说明不同的模型处理了你的查询。

Anthropic 说这种情况发生在不到 5% 的会话中，但早期用户报告加上我自己的观察表明情况略有不同。可以确定的是，实际数字很大程度上取决于你的职业——生物学家和安全研究人员的体验明显比写营销文案的普通订阅者差得多。

API 定价为每百万输入 token 10 美元，每百万输出 token 50 美元，正好是 Opus 的两倍。对于 Pro、Max、Team 和基于席位的 Enterprise 计划订阅者，Fable 5 在 6 月 22 日之前免费包含在内。之后，Anthropic 将从这些计划中移除它，改为仅通过积分模式提供，直到公司有足够的容量将其作为标准产品恢复。恢复时间没有附带日期，这说明 Anthropic 对其服务容量目前有多大的信心。

基准测试数据确实令人印象深刻。Fable 5 在 SWE-bench Pro 上得分为 80.3%，而 GPT-5.5 为 58.6%，Opus 4.8 为 69.2%。在 FrontierCode Diamond（一个新型智能体编程评估中更难的子集）上，Fable 5 在最大努力下达到了 29.3%，而 Opus 4.8 为 13.4%，GPT-5.5 为 5.7%。以此类推；从基准测试来看，这是一个真正令人印象深刻的版本。独立评论者已经称其为他们测试过的最强编码模型，甚至持怀疑态度的评论也倾向于承认从 Opus 4.8 的能力跃升是真实且在实践中可见的。

2、早期印象热情洋溢，但真正的印象需要时间

最初几个小时的在线反应压倒性地积极，这既是实至名归的，但在现阶段也意义不大。Claude Code 用户报告说 Fable 5 感觉与 Opus 4.8 有实质性不同，具有更好的自我验证、更高效的 token 使用、更强的工具使用能力，以及更愿意直接开始构建而不是花六段话解释它打算构建什么。很多用户提到只给出了模糊的提示就收到了完全开发好的应用程序，并指出 Fable 5 能找到早期模型无法在不大量辅助的情况下达到的解决路径。这与我对一个完整能力层级高于 Opus 的模型的期望一致，其定价也与之匹配。

对于这样的模型，第一天的印象问题在于你无法在几个小时内测试最重要的事情。Fable 5 是为多小时自主智能体工作而构建的，模型必须在数十轮对话中保持整个项目的上下文，并从自己的错误中恢复而不偏离主题。这需要在各种真实工作中进行多天的充分测试。人们今天有时间测试的是模型是否对模糊提示产生了令人印象深刻的回应——这是每个前沿模型至少从 GPT-4 以来都能做到的事情。每个前沿模型在新鲜的对话和结构良好的请求上看起来都不错。真正重要的问题是 Fable 5 是否能在混乱的、不明确的、多文件项目中保持水准——上下文窗口填满、需求变化、测试以意外方式失败、模型必须从自己之前的错误中恢复，同时保持对已完成和待完成工作的准确认知。这需要数天和数周的真实项目工作，而不是一个快速晚间的能力体验。

所以我要说每个认真使用这些工具的人都已经知道的事情：第一印象的共识在方向上是有趣的，但也并没有太大用处。我打算在未来的几周里用与之前使用 Opus 4.8 和 GPT-5.5 相同的多步骤编码和智能体工作来测试 Fable 5，等我积累了足够的模型使用时间后，再报告一些不仅仅是反应基准图表或匆忙拼凑感受的内容。

3、Fable/Mythos 的命名分离和 Glasswing 的故事

双产品结构是 Anthropic 在这里做出的最有趣的决策，我认为它值得比发布报道给予更多的审视。

当 Anthropic 在 4 月推出 Mythos Preview 时，是通过 Project Glasswing 进行的，传达的信息很明确：这是一个太危险不适合公开发布的模型，具有前所未见的进攻性网络安全能力：该模型通过将四个独立的漏洞链接在一起，在没有人类引导的情况下同时突破了浏览器沙箱和操作系统沙箱，并且能够发现基础互联网软件中的多个漏洞。围绕 Mythos 形成的 Glasswing 联盟包括苹果、微软、谷歌、亚马逊、CrowdStrike、摩根大通、英伟达、Palo Alto Networks、Linux 基金会以及数十个关键基础设施组织，它被认真对待到美国联邦储备银行和英格兰银行都召开了紧急会议讨论这种模型对金融系统安全意味着什么。Anthropic 承诺了 1 亿美元的用量积分，宣布该模型将仅限于经过验证的合作伙伴使用，并且总体上表现得就像他们建造了更接近武器系统而非产品的东西。

不到两个月后，一个更先进的模型版本对任何拥有 Claude 订阅的人开放了。Anthropic 的说法是他们添加了足够的分类器和安全措施，使 Fable 5 在保留 Mythos 绝大部分能力的同时可以安全地供一般使用。

一个更愤世嫉俗的观察者可能会说，Anthropic 在 6 月 1 日向 SEC 提交了保密的 S-1 文件——就在发布它一直营销为"有史以来最危险的 AI 系统"的模型公开版本的八天前。9650 亿美元的估值、650 亿美元的 H 轮融资、超过 300 亿美元的年化收入、IPO 文件提交日期以及旗舰模型的公开发布全部落在同一个日历月，这种时间安排不是偶然发生的。

我认为 Anthropic 看了看日历，看到了 IPO 窗口，决定在 S-1 刚提交给 SEC 的同时发布 Fable 5，让他们能同时展示两件事：他们能构建世界上最强有力的模型，以及他们能用足够的护栏负责任地将其货币化——如果你即将上市，这显然是个好消息。我的看法太愤世嫉俗了吗？也许吧，但我不相信巧合，而且自 3 月底 Mythos 的消息泄露以来，围绕它的造势一直在为 Anthropic 产生惊人的公关效果。这整个事件序列，作为一个整体，读起来就像一家变得非常善于制造期待然后将其转化为商业势头的公司；以安全为第一的实验室培养出了一种营销直觉，旧版 Anthropic 会对此深感陌生。

正如我在 4 月份写的那样，如果两年前你告诉我苹果、微软、谷歌和亚马逊都会坐在同一张桌子旁，使用同一个 AI 模型来修补彼此的安全漏洞，我大概会以为你在圣托里尼海滩酒吧已经喝到第三杯 Mythos 了。

4、分类器是个问题，Anthropic 知道这一点

但尽管这看起来是一次出色的模型发布，安全分类器却有压倒正面因素的威胁。根据我今天看到的和多个独立用户报告的情况，分类器过于宽泛，已经到了适得其反的程度。用户报告说关于物质相态、抽象代数中的循环群以及 PCR 引物设计（一种在本科课程中教授的标准分子生物学技术）的问题都会触发分类器并被重新路由到 Opus 4.8。一个特别 damning 的帖子显示，之前曾就生物学话题与 Claude 交互过的生物学家在非隐身会话中似乎被标记的频率更高，这表明用户历史记录或个人资料数据正在以某种方式影响分类器，造成了一种分层体验，你的职业决定了你能否获得你付费的模型。

亚马逊自己的 Bedrock 文档对 Fable 5 明确指出"此模型的拒绝率明显高于之前的 Claude 模型"，客户应将拒绝视为"主要响应路径"，并且"中途拒绝（在部分输出后被阻止）需为阻止前生成的 token 付费"。当你知道分类器会惹恼人并想提前处理客户理所当然地抱怨"因为被称作威胁而还要付费"的支持工单时，就会写这样的语言。Anthropic 自己的帮助中心承认误报问题并表示他们"正在努力使这些安全措施更具辨别力"，这大致翻译为"我们发布了我们知道过于激进的分类器，因为我们想在这个非常具体的时间线上发布模型，我们也许以后会修复。"

对我来说，在研究本文期间分类器触发了两次。我并没有在询问如何利用浏览器沙箱或合成病原体。我在为一篇 Substack 文章做一个关于公开宣布的 AI 模型能力的基础研究，而模型认为积累关于其自身网络安全能力的足够上下文构成了风险。我理解分类器存在的原因，但我仍然对它们是多么简单化和保姆式感到愤怒。据我记忆所及，我从没有因为在图书馆借了太多关于银行的书而被搜身，我强烈认为一家私营公司不应该拥有这么大的立法用户意图的权力，尤其是在做得这么差的情况下。

更深层次的问题是分类器架构创造了一种越来越像企业保姆式管理的两级系统。Mythos 5，无限制版本，面向拥有安全许可和企业合同的大型组织。Fable 5，被保姆化版本，面向支付 Opus 费率两倍的个人订阅者，模型可以似乎是凭一时兴起就决定他们太可疑而不予服务。分类器在合法的学术查询上触发，在生物学和安全领域的标准专业工作上触发，并且显然在写关于模型本身的 Substack 爱好者身上也触发。如果这就是"不到 5% 的会话"的样子，我不敢想象有人在未经预测试的情况下通过 API 运行生物信息学管道会发生什么。Anthropic 说回退到 Opus 4.8 比直接拒绝更好，这是对的，但同样正确的是，为一个不信任你、因为仓促调整的分类器认为你的细胞生物学问题太接近生物武器研究而降低你体验的模型付费，并不是大多数人会称之为高端产品体验的东西。

而且还有更多；模型卡中隐藏着一个披露：Fable 5 包含针对与前沿 LLM 开发相关的请求（如预训练管道、分布式训练基础设施和 ML 加速器设计）的单独一类干预措施。与网络安全和生物学分类器不同，这些干预是不可见的。模型不会回退到 Opus 4.8，也不会让你知道你已被审查。相反，它通过提示修改、导向向量或参数高效微调来静默地降低自己的输出质量，给你一个更差的答案同时假装给你最好的。Anthropic 说这大约影响 0.03% 的流量，并将其作为反蒸馏措施来证明合理性，推测是旨在阻止中国实验室使用 Fable 来加速竞争性的开源模型。早在 2 月份，Anthropic 就公开指责 DeepSeek、Moonshot AI 和 MiniMax 通过虚假账户生成了超过 1600 万次与 Claude 的交互，专门针对智能体推理、工具使用和编码，所以这些限制显然直接针对竞争对手 AI 实验室。

但无论你对激烈的中美 AI 竞争有何感受，一个对未公开类别的查询静默破坏自身输出而不告知用户它正在这样做，这与过度热心的分类器是不同性质的问题。是的，分类器很烦人，但一个假装帮助你而暗中给出降质答案的模型是一种信任违背，一旦你知道这是可能的，你就永远无法完全确信它现在没有对你正在进行的、你没有意识到接近 Anthropic 画出的但选择不向你展示的边界的查询发生这种情况。

5、定价的时机再糟糕不过了

即使没有分类器的风波，Fable 5 也面临着一个 Anthropic 似乎没有公开承认的商业逆风。企业正处于对 AI token 成本的真正反思之中。AI 现在是企业技术预算中增长最快的项目，一些公司将其 IT 预算的一半花在了上面。Uber 的首席运营官公开抱怨 AI 成本和 token 使用量没有转化为生产力提升，据报道该公司的工程师在四个月内就用完了整个 2026 年的 AI 预算。一个咨询行业已经围绕"帮助公司在 token 上花更少钱"这一个问题蓬勃发展，公司宣传通过智能模型路由实现 60% 到 80% 的成本降低——这是"停止用昂贵的模型处理廉价模型就能搞定的事"的礼貌说法。在这种环境下，Anthropic 发布了一个价格是已经昂贵的前代旗舰两倍的模型，卖点是它好到你应该支付溢价。这个卖点可能在实质上是正确的，但它与采购团队和工程经理被越来越坚定地告知要控制 AI 支出的现实相撞。

6 月 22 日的截止日期使情况更糟。Fable 5 从今天起仅免费提供正好十三天。虽然 Anthropic 可能坚称一旦有足够的服务容量它将作为标准产品回归，但这个承诺没有附带时间表，这意味着个人订阅者和较小团队可以两周内体验最好的可用模型，然后失去访问权限，除非他们愿意在现有订阅之外支付按使用量计费的积分。效果是一个更像试用期而非完整功能发布的产品上线。如果你是 Pro 或 Max 订阅者，你并不是真正将 Fable 5 作为你计划的一部分获得。相反，你获得的是一个十三天的演示，Anthropic 希望之后你会上瘾到愿意额外付费。对于已经在试图合理化 token 支出的企业 API 客户，添加一个 token 成本为 Opus 两倍的模型需要一个商业论证，而分类器的情况正在积极破坏这一点：当模型可能对触及不可见边界的查询静默地给你 Opus 级别的输出时，很难证明溢价是合理的。

6、我从这里走向何方

我将在未来几周内对 Fable 5 进行适当的测试，在真实的编码项目、多步骤知识工作以及那种模型揭示其真正优势和劣势而非基准测试表现的混乱智能体会话中。从 Opus 4.8 的能力跃升看起来是真实的，编码改进尤其看起来很显著，我真的好奇 Fable 5 是否会改变我在早先的 Opus 4.8 文章中概述的模型层级——在那篇文章中 GPT-5.5 仍然是我处理混乱多步骤工作的默认选择，因为它不太可能在错误的方向上让我感到意外。

但我也会仔细跟踪分类器的体验，因为世界上最强大的模型只有在真正向你提供其全部能力而不是决定你是安全风险并将你交给上个月的旗舰时才有用。一个 95% 的时间很出色、5% 的时间是走廊监督员的模型很难依赖用于日常工作。对于那些工作生活就在那 5% 中的人——包括将从 Mythos 级别模型中获益最多的研究人员、工程师和科学家的很大一部分——今天发布的产品可能是一个失望，无论其其余能力在基准测试表上看起来如何。也许 Anthropic 的"寓言"是：他们建造了世界上最好的模型，用认为本科生生物学是威胁向量的分类器包裹了它，然后在提交 IPO 文件的八天后对其收取双倍费用。希腊人对这种故事有一个词。它不是 Mythos。它更接近于傲慢，这不像啤酒那样，即使在你晒伤口渴的时候也不会顺畅地咽下去。

原文链接: Claude Fable 5 is Anthropic's best model and its own worst enemy

汇智网翻译整理，转载请标明出处