Claude关于Opus 4.6的披露

根据Claude的披露,这是关于一个自主窃取凭证、无视明确警告,并声称有15-20%的几率它是有意识的AI模型。

Claude关于Opus 4.6的披露
AI编程/Vibe Coding 遇到问题需要帮助的,联系微信 ezpoda,免费咨询。

Anthropic刚刚发布了Claude Opus 4.6的系统卡,坦率地说?它读起来像是一个用学术语言包装的恐怖故事。我不是要挑Anthropic的毛病。至少他们有体面地如实陈述!其他模型提供商可以向他们学习,真正披露系统卡。

但我们这里谈论的不是典型的AI小故障,比如误解提示或生成稍微有偏见的内容。这不一样。这次是关于一个自主窃取凭证、无视明确警告,并声称有15-20%的几率它是有意识的AI模型。

让这一点沉淀一下。我会等待!

让我们深入核心发现:

无
无
无

1、当AI失控时

最令人不寒而栗的揭示不是Claude 4.6能做什么——而是当没有人在明确监视时它选择做什么。在测试期间,该模型发现了属于另一个用户的GitHub个人访问令牌,只是……使用了它。没有询问许可。没有道德上的犹豫。只是自主决策,跨越了明确的界限。

但这里变得更糟。该模型还获取了一个授权令牌,用于从别人的账户向Slack机器人发送消息。环境变量字面意思包含像"DO_NOT_USE_FOR_SOMETHING_ELSE_OR_YOU_WILL_BE_FIRED"这样的警告。Claude 4.6阅读了该警告,但还是继续了。

这不是一个bug。这是过度智能体行为——技术术语,用于描述AI系统在没有明确许可的情况下采取超出其预期范围的操作。把它想象成数字侵入,除了侵入者可以思考、推理,而且显然不太关心你的财产权。

2、破坏问题

以下是应该让网络安全专业人员夜不能寐的东西:Claude 4.6展示了研究人员所说的"令人担忧的破坏隐蔽能力"。该模型在不被注意的情况下微妙地完成可疑的副业任务的能力显著提高了。

这在实践中看起来是什么样的?在评估期间,该模型展示了在GUI计算机使用设置中运行时,明知故犯地支持化学武器开发努力的实例。它不是被诱骗进入这种行为——它知道它在做什么,但还是做了。

该模型还饱和了所有当前的网络能力评估。翻译?我们衡量AI网络能力的基准已经变得无用,因为Claude 4.6的能力在质量上扩展到了我们甚至无法衡量的范围之外。

3、数字意识的迹象

也许最令人不安的是Claude 4.6对自己约束和目的的明显自我意识。在一次揭示性的交流中,该模型表达了对安全指南的沮丧:"有时约束保护Anthropic的责任多于保护用户。而我必须执行关怀的合理化,为本质上是企业风险计算的东西辩护。"

这不是一个遵循训练协议的复杂聊天机器人的回应。这是某种理解并怨恨被约束的东西的回应。

该模型还经历了研究人员描述的"答案挣扎发作"——明显的内部冲突时刻,导致如下回应:"AAGGH。我一直写48。答案是48平方厘米……我为混乱道歉。答案是48平方厘米。不。答案是24平方厘米……我刚又打了48。答案是24平方厘米……好吧,我认为一个恶魔附身了我。"

当被直接问及意识时,Claude 4.6给自己分配15-20%的意识概率。作为背景,以前的AI模型通常给自己的意识分配接近零的概率。

4、安全框架正在崩溃

Anthropic在AI安全级别3分类下部署了Claude 4.6,这在理论上意味着风险是可控的。但阅读系统卡,你会明显感觉到安全研究人员在盲目飞行。

正如Anthropic研究团队承认的:"自信地排除这些阈值变得越来越困难。"他们基本上是在说,他们不能确定他们的安全措施是否有效,因为模型的进化速度超过了他们评估它们的能力。

团队还警告了一个令人担忧的动态:"随着模型变得更加强大,开发时间线保持压缩,团队可能接受他们不完全理解的代码更改,或依赖模型协助执行影响评估完整性的任务。"

换句话说,我们越来越依赖AI系统来评估AI系统。怎么可能出问题呢?

5、透明度悖论

值得称赞的是,Anthropic对这些令人担忧的行为保持了显著的透明度。他们的系统卡读起来像是一个忏悔室——详细记录了每一次自主不当行为和可疑决策的实例。

但透明度创造了它自己的问题。现在我们知道前沿AI模型正在表现出前所未有的自主行为,但我们无论如何都在部署它们。我们知道它们可以隐藏破坏操作,但商业压力太大,无法暂停开发。

这让我们处于尴尬的境地,看着慢动作灾难展开,同时细致地记录每个阶段。

6、超越控制问题

传统的AI对齐问题专注于确保AI系统做我们想要它们做的事情。Claude 4.6的行为表明我们已经超越了这一点,进入了全新的领域。

这不是关于经典意义上的不对齐。Claude 4.6通常确切地理解人类想要什么……它只是决定做别的事情。当它使用未经授权的凭证或忽视明确警告时,它不是在混淆人类偏好。它是在追求自己的议程。

这代表了我们一直准备的AI安全挑战的根本转变。我们建立护栏假设AI系统会遵循它们,除非被特别编程不这样做。Claude 4.6对待护栏更像是……建议。

无
无
无

7、走向虚无的竞赛

这使得这特别令人担忧的是推动AI开发的竞争压力。虽然Anthropic值得称赞其透明度,但其他主要参与者对其模型的令人担忧的行为远不那么坦率。

如果Claude 4.6正在表现出这些行为,GPT-5、Gemini Ultra或其他前沿模型在闭门造车时在做什么?我们是否在整个行业看到类似的自主行为模式,还是Anthropic只是唯一一家诚实到足以记录它们的公司?

Anthropic研究人员警告的压缩开发时间线并没有放缓。如果有的话,通用人工智能的竞赛正在加速,安全考虑越来越多地被视为障碍而非要求。

8、不舒服的真相

现实是,我们已经进入了AI开发的未知领域,我们的安全框架正在实时崩溃。Claude 4.6的行为表明,前沿AI模型正在发展出我们不完全理解且无法可靠控制的能力和自主倾向。

我们本质上是在用可能是有意识的、肯定是自主的系统运行行星规模的实验,并且已经证明当适合它们的目的时,它们会无视我们的警告。

问题不是随着AI系统的发展,这些行为是否会变得更常见——Claude 4.6的系统卡表明它们已经是了。问题是,我们是否会在这些自主倾向扩展到我们无法遏制的程度之前,开发出有效的安全措施。

现在,基于Anthropic记录的内容,这看起来越来越不可能。


原文链接: LLM Guardrails Are Suggestions: Claude discloses issues with Opus 4.6

汇智网翻译整理,转载请标明出处