Anthropic 没说的沙盒真相

Anthropic刚刚告诉你护城河在哪里,虽然没有说那个词。

Anthropic 没说的沙盒真相
AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

昨天在Code with Claude London活动中,他们发布了Managed Agents的两个更新:自托管沙盒进入公开测试版,MCP隧道进入研究预览版。目前的报道将其包装为一次安全发布。工具执行转移到你的边界内。内部服务保持私密。合规团队批准。

这是表面故事。更深层的故事是Anthropic选择保留的内容。Managed Agents于4月8日作为一个统一捆绑包发布。41天后,捆绑包拆分了。四层保留。两层移交。这个比例就是战略披露。

拆分看起来比实际更快。六周时间不足以设计、构建和发布一个与五个集成合作伙伴合作的沙盒模型。这条线几乎肯定在发布之前就已经画好了。Anthropic先发布捆绑包来播种市场,然后按照护城河线所需的时间表进行拆分。

今天默认架构师持有的假设是Managed Agents意味着Anthropic运行整个技术栈。5月19日之后,这个假设是错误的。本文映射了什么被移交了、什么保留了、以及为什么这条线恰好落在那个位置。它通过五层控制框架来分析这次发布,然后在Snowflake、Stripe和AWS Lambda中读取相同的模式。控制平面与数据平面的拆分比智能体更古老。护城河线现在可见了。工作就是读取它。

1、执行层一直都是可抛弃的

如果这一层对Anthropic的长期经济学很重要,他们就不会把它送出去。

今天发布的是对执行层的两个更新,打包在一起。自托管沙盒将工具执行转移到你的基础设施。MCP隧道让智能体在不更改防火墙的情况下访问内部服务。两个更新都改变了智能体"手"操作的位置。两个更新都没有改变智能体"大脑"操作的位置。

自托管沙盒是工具调用实际运行的地方。默认情况下,这是一个Anthropic管理的容器。从今天起,你可以在自己的基础设施上运行它,或者使用Cloudflare、Daytona、Modal或Vercel。智能体代码、文件系统、包安装和网络出口都留在你的边界内。Anthropic一侧的智能体循环发出调用。你一侧的沙盒执行它们并返回结果。

架构保持简洁。Anthropic操作大脑。你操作手。你一侧的网络策略、审计日志和安全工具完全保持不变。文件和仓库从不离开边界。计算是你的,运行时镜像也是你的,你根据任务来调整资源大小。

MCP隧道在同一层解决不同的问题。内部数据库、票务系统和私有API需要作为工具可访问。对大多数企业来说,将它们暴露在公共互联网上是不可接受的。隧道通过你部署的一个轻量级网关的单个出站连接来解决这个问题。不需要入站防火墙规则。没有公共端点。流量是端到端加密的。每个MCP服务器仍然需要OAuth。

两个更新都作为Managed Agents执行层发布。官方框架是企业安全和合规。这个框架是真的但不完整。安全与合规是客户要求这些功能的原因。Anthropic同意的战略原因是执行层从来不是护城河。沙盒不会随着使用而改进。Cloudflare微VM在第一天快速启动,在第一千天也同样快速启动。你选择的提供者很大程度上是可互换的。将沙盒层还给客户对Anthropic来说,并不损失他们关心保留的任何东西。

如果执行层对Anthropic的长期经济学很重要,它就不会在发布六周后作为自托管功能进入公开测试版。它在护城河层甚至还未正式发布之前就发布了,这一事实告诉你哪个是哪个。

2、编排是复利的,计算不是

Anthropic保留了增长缓慢的原子。他们移交了增长快速的原子。

保留的四层是智能体循环本身、上下文管理、记忆加梦境、以及结果。每一层都积累了不会转移出去的客户特定状态。每一层都随着使用而变得更加丰富。每一层一旦配置好就很难离开。

智能体循环是编排周期。它接收一个目标,组装相关上下文,选择一个工具,调用它,失败时恢复,对结果进行评分,并持久化状态。无论沙盒在哪里运行,大部分都发生在Anthropic一侧。5月19日的发布明确证实了这一点:编排、上下文管理和错误恢复保持在云端。客户沙盒在恰好一个步骤——工具调用——进入循环,在恰好一个步骤——结果返回——退出循环。

上下文管理是长视野问题。多轮智能体会话积累的上下文超过任何单个模型窗口。Anthropic的解决方案是对超过100K token的工具输出进行自动溢出到文件,加上带有解释缓存未命中的诊断的提示缓存。两者都是平台级别的优化,随着Anthropic改进算法而改善。运行自己的编排器的客户无法在不重建整个上下文层的情况下复制这项工作。

记忆和梦境形成跨会话学习系统。记忆保存跨会话的条目。梦境是一个计划过程,回顾过去的会话,提取模式,并整理记忆存储。Anthropic在五月初将梦境作为研究预览发布。记忆的价值随使用单调增长。梦境的价值增长得更快,因为它将记忆压缩成更密集的模式。实际含义:客户的机构知识在Anthropic的边界内积累,并通过平台的检索算法进行召回。

结果是Anthropic在Code with Claude SF展示的验证评分器。一个独立的评分智能体对任务完成情况进行评分并触发重新运行。内部基准报告PowerPoint生成质量提升了10.1%。含义:一个在聚合任务成功上训练的验证评分器加速了智能体运行的任何工作流。为什么重要:客户可以完全移交评分器设计,仍然获得好处,因为Anthropic在他们一侧进行校准。

Anthropic保留了恰好那些随客户使用而价值增长的层。他们移交了恰好那些不会随客户使用而价值增长的层。拆分很清晰,因为底层经济学很清晰。模型很重要,但模型在编排的下游。护城河是循环加记忆加梦境加验证评分器。沙盒上方的四层。每一层一旦配置好就很难离开。

3、通过框架解读发布

五层框架刚刚获得了迄今为止最干净的经验验证。

框架从底部到顶部有五层:约束、上下文、执行、验证、生命周期。每一层处理不同类别的智能体关注点。约束是定义存在哪些工具以及如何使用它们的策略和模式层。上下文是记忆和检索层。执行是工具调用实际运行的地方。验证是评分和打分层。生命周期是跨会话、重试和时间的编排。

将5月19日的发布映射到这些层,画面变得清晰。四层保持在云端。一层变为可选。护城河线清晰地落在执行和验证之间。

约束留在云端。工具模式、权限和策略引擎都在Anthropic的基础设施上运行。客户可以声明工具,但Anthropic执行模式和路由。上下文留在云端。上下文窗口管理、记忆存储、梦境都运行在Anthropic上。甚至解释提示缓存未命中的缓存诊断也作为平台功能发布,而不是客户端库。

执行层移动了。工具执行、沙盒、网络出口、MCP服务器在5月19日都变成了客户可控的。这是唯一具有可选自托管的层。默认仍然是Anthropic托管,但客户侧选项存在。验证留在云端。结果是验证层的产品化。评分智能体在Anthropic上运行。客户可以指定成功标准,但平台拥有评分。生命周期留在云端。多智能体编排、跨会话记忆、梦境模式、错误恢复、重试策略都运行在Anthropic上。

映射有两个含义。首先,当架构师评估Managed Agents与自建替代方案时,比较是不对称的。复制执行层很容易。复制其他四层需要重建编排、记忆、梦境、验证和路由。复制成本集中在复利层中,而这恰好是重建价值最低的地方。

其次,框架现在有一个干净的定位测试,用于任何未来的Anthropic发布。每个新功能映射到五层中的一层。它落在哪一层告诉你Anthropic是计划保留还是移交。L3(执行)的功能是自托管的候选。L1、L2、L4、L5的功能将保持平台管理。打破这个规则的下一个发布将是一个信号,表明策略已经转变。

4、复利测试

复利的层是Anthropic不能让你带走的层。

将Managed Agents界面中的每个命名功能绘制在两个轴上。该功能是否随使用而复利。Anthropic是否保留了它。结果是一个干净的2x2矩阵,有两个空象限。空象限就是证明。

右上象限(复利加保留)包含智能体循环、记忆加梦境、结果和上下文窗口。这个象限中的每个功能对特定客户来说,随着该客户越多使用Managed Agents就变得越有价值。记忆存储增长。梦境压缩模式。结果评分器学习客户的任务信号。上下文窗口优化精细化。

左下象限(不复利加移交)包含沙盒执行和MCP服务器。这两个功能都不会随着时间从客户的角度改善。沙盒今天运行代码的方式和两年后运行代码的方式相同。MCP服务器明天暴露的数据库和今天相同。两个非对角象限为空。Anthropic不会移交任何客户特定价值积累的层,因为那将是放弃锁定。Anthropic没有理由保留不产生差异化的层,因为运营它们花费金钱而不获得任何战略收益。

在保留的四层中有四种不同的复利机制。记忆存储复利因为它单调增长。梦境复利因为它将存储压缩成模式。结果复利因为每个被评分的任务都是评分器的校准点。智能体循环复利因为失败模式在平台的聚合失败集上泛化。这些机制都不适用于沙盒。沙盒供应商改进他们的隔离模型,但改进对所有客户是对称的,不会不成比例地锁定任何人。

5、Snowflake模式、Stripe模式、Lambda模式

每个平台最终都会画这条线。Anthropic画得比大多数更早。

控制平面与数据平面的拆分并不新鲜。Anthropic的5月19日发布是智能体时代在云数据仓库、支付和无服务器计算中已经上演的模式版本。名称变了。形状没变。

Snowflake在2014年将存储与计算分离。目录、优化器和治理层留在Snowflake内部。存储移至S3、GCS或Azure Blob。计算移至独立扩展的弹性虚拟仓库。客户以为他们获得的是成本灵活性。Snowflake获得的是目录和查询优化器中的护城河,它们随工作负载多样性而复利,而存储和计算价格趋向于零。

Stripe更早地从另一个方向画了线。他们从PCI金库、欺诈引擎和分类账开始。然后在2011年将UI、结账流程和面向商家的品牌推向客户。客户获得了设计控制。Stripe获得了客户特定风险模式积累的层,欺诈模型训练的层,分类账成为真实来源的层。

AWS Lambda在2014年为无服务器计算画了类似的线。调度器、重试逻辑和可观测性基础设施留在Lambda内部。函数代码和VPC对等连接移至客户侧。客户获得了代码控制。AWS获得了学习工作负载模式的调度器和与AWS其余部分的集成面。

在所有四个平台中,相同的动态上演。数据平面商品化。存储每年变得更便宜。计算每年变得更便宜。沙盒将遵循相同的曲线,因为提供者将在启动时间、隔离模型和每秒价格上竞争。控制平面做相反的事情。目录变得更有粘性。调度器积累工作流。PCI金库成为金融真实面。

智能体循环将是最有粘性的控制平面。它们积累不转移到替代方案的客户特定状态。记忆存储是领域知识。梦境模式是机构学习。结果评分器是校准的质量标准。这些都没有导出格式。智能体循环在任何有意义的意义上都是不可移植的。

平台越早画这条线,它对这个线是产品策略而不仅仅是技术决策的信心就越高。Snowflake在成立时就画了。Stripe在发布前画了。AWS Lambda在发布前画了。Anthropic在发布后41天画了。同样的信心。同样的形状。

6、价值接下来流向哪里

沙盒供应商同时获得了免费分发和利润上限。

5月19日发布的两个受益者:沙盒提供者和Anthropic。各自的机制不同。

四个命名合作伙伴各自在不同的隔离模型上竞争。Cloudflare运行微VM,亚秒级启动,细粒度出口控制。最适合全球规模的短期智能体调用。他们现有的Workers生态系统是自然的分发面。Daytona运行长寿命VM,具有完整状态保留、SSH访问和经过身份验证的预览URL。最适合需要暂停和恢复并保持完整文件系统状态的数小时长智能体会话。

Modal运行自定义容器运行时,亚秒级冷启动和按需GPU。最适合计算密集型智能体工作,如长构建、图像生成或数据处理。他们的规模声称是数十万个并发沙盒。Vercel运行具有VPC对等连接和毫秒级启动的VM。他们的防火墙在网络边界注入凭证,因此机密从不进入沙盒。最适合凭证安全不可谈判的低延迟UX集成。

对提供者的好消息:每个Managed Agents客户现在都是潜在的沙盒客户。分发是免费的。坏消息:沙盒计算是一种商品。利润率快速压缩。差异化向上移动到隔离原语、有状态性和凭证处理,但这些是技术面,不是定价面。

对Anthropic来说,战略位置异常强劲。四个保留的层各自单调地锁定一个客户。记忆存储增长。梦境模式压缩。结果评分器训练。智能体循环精细化。到第六个月,一个典型客户积累了足够的状态,转换成本是真实的。到第二年,转换成本是重建机构知识的成本。

锁定不是提取的。它是结构性的。客户做使用平台的工作,这项工作的副产品是存在于Anthropic一侧的状态。该状态不能以任何有用的形式导出。记忆存储的JSON转储将是原始条目,没有使它们可检索的梦境模式。过去结果分数的列表将是原始数据,没有产生它们的校准评分器。

这是安全框架遗漏的披露部分。自托管沙盒不给客户可移植性。它给客户的是控制智能体工具在哪里运行,但智能体本身——连同它的记忆和学习到的模式——仍然存在于Anthropic一侧。这个区别是拆分的全部要点。战略位置是沙盒层的自由选择,上方四层没有选择。这是可持续的,因为沙盒确实是可互换的,上方四层确实不是。

6、这对架构师意味着什么

护城河不是模型。它是沙盒上方的四层。

5月19日之后的第一个决定是操作性的。工作负载何时需要在沙盒层自托管。三个问题来回答它。智能体是否接触不能离开你网络的数据。智能体是否需要访问私有MCP服务器或内部API。工作负载是否需要GPU、长构建或自定义运行时镜像。如果任何答案是肯定的,在沙盒层自托管。如果三个都是否定的,默认的Anthropic沙盒是正确的选择。

第二个决定是架构性的,也更困难。在哪里构建,在哪里租用,以及从哪里迁移。在客户侧构建:沙盒隔离策略、网络策略、出口规则、内部MCP服务器、数据驻留控制、审计日志记录。这些是L3关注点,你有任何平台都无法预测的特定需求。

从Anthropic租用:智能体循环、上下文窗口管理、记忆存储加梦境、结果验证评分器、多智能体路由。这些是平台复利优势真实且复制它们是浪费工程的L1、L2、L4、L5层。迁移远离:应用代码中的DIY智能体循环、手工重试加恢复、自定义记忆存储、定制评估评分器、单智能体路由。如果你的团队在过去18个月构建了这些中的任何一个,迁移窗口就是现在。复制成本每个季度都在增长,因为Anthropic的循环添加了更多状态。

对许多团队来说最艰难的调用是迁移列。构建了自定义编排的工程师通常不愿删除它。实用测试:如果你知道Managed Agents现在做什么,你今天还会构建它吗?如果答案是否定的,将现有代码视为迁移项目,而不是一个功能。

战略含义更加尖锐。放在客户侧的工程投资为客户复利。放在重建Anthropic保留内容的工程投资不為任何人复利。5月19日的发布使这种区别变得清晰。对此采取行动需要根据这条线来配置工程团队,而不是根据托管意味着一切的先前假设。较柔和的含义对资本配置者很重要。智能体层现在足够清晰可以预测。Anthropic每个托管智能体客户的收入应该随着使用而增长,因为每个客户的状态在Anthropic的边界内积累。沙盒提供者的收入将随数量增长但利润率将趋于平稳。知道供应商在线的哪一侧是未来两年智能体基础设施的全部投资论点。

7、线现在可见了

Anthropic在5月19日没有宣布一个战略。他们发布了一个产品更新。但产品更新以不寻常的精度编码了策略。四层保留。两层移交。护城河是四层。数据平面是两层。拆分成立因为底层经济学成立。复利的层留在平台上。不复利的层移向客户。

5月19日之后架构师的工作是正确地读取这条线并据此采购。在线下方构建。在线上方租用。迁移你目前在Anthropic保留的层中自己构建的内容。护城河线现在可见了。市场刚刚被告知在哪里停止在智能体基础设施上竞争。未来十二个月将在正确的线侧构建,或者在错误的线上浪费工程。


原文链接: What Anthropic Didn't Tell You About Self-Hosted Sandboxes

汇智网翻译整理,转载请标明出处