AI Agent 不需要你的应用

我构建代理已经足够久了,以至于我开始注意到一些东西。

每次我把架构弄对了,最终都会到达同一个地方。一个模型。一个文件系统。一些markdown文件。一个唤醒整个系统的定时器。我试图添加的复杂性不断消失。我以为需要的抽象层原来是开销。我认为必不可少的工具原来是我为自己发明的翻译层,而不是为代理的。

每次剩下的东西几乎简单得令人尴尬。

一个叫做SYSTEM.md的文件。一个叫做MEMORY.md的文件。一个代理可以在上面执行的shell。一个在未被要求时就唤醒它的心跳。描述它能做什么的markdown文件。记录它已经做了什么的日志。

这就是代理。不是模型。围绕模型的框架。

我现在运行着几个这样的系统。Neo在Mac Mini M4上充当我的办公室主任,连接到我的工具、日历、通讯和研究。Vicky通过WhatsApp Business运行Vecto Ventures,处理客户情报和跟进,不需要任何仪表板。Edge跨会话跟踪市场并构建研究论点,其观察结果在运行之间在文件中不断积累。ThePlate正在为独立酒吧和餐厅开发,旨在为社区经营者提供那种过去需要企业软件合同才能获得的持续性的、上下文化的商业智能。

我花了多年时间构建另一种系统。为UEFA球迷构建的平台。为巴塞尔艺术展访客构建的数字体验。为人类导航、点击、搜索、解读而设计的产品和服务。我把那份工作理解为使机器对人类可读。我很擅长这个。我现在才完全看清的是,整个学科——每一个界面决策、每一个导航模式、我曾经构建的每一个仪表板——都是对一个不再存在的缺口的补偿。我们一直在构建翻译层。翻译问题已经解决了。一旦你看到了这一点,就无法视而不见。

这些代理中没有一个是人们期望AI系统所具有的那种复杂。驱动它们的模型非常复杂,是数十亿参数和多年研究的产物。但围绕它们的基础设施:没有神经架构图,没有专有数据库,没有复杂的编排框架。

有一个模型、一个文件系统、一些markdown文件和一个心跳。

当我开始向人们描述这一点时,他们以为我在轻描淡写。肯定还有更多。没有。

1、更深的层面

我之前写过关于界面层为何崩溃以及按席位软件模型为何正在破裂的文章。这个论点现在已经确立了。我没有写过的是它下面是什么:替代它的东西的实际架构,以及它对想要使用它的组织有什么要求。

想想五十年的软件开发实际上在做什么。每一个GUI、每一个数据库查询语言、每一个SaaS平台、每一个色彩编码的仪表板,都在从不同角度解决同一个问题:机器无法直接理解人类意图,所以我们构建了中介。一层又一层的抽象,每一层都使机器对人类更可读。GUI抽象了命令行。数据库抽象了文件。SaaS平台抽象了服务器。仪表板抽象了数据。我们构建脚手架是因为不得不如此。人类意图与机器可执行之间的差距需要翻译,而这种翻译存在于软件中。

模型从根本上解决了这个问题。不是部分的。是根本性的。曾经存在于抽象层中的复杂性现在存在于权重中。模型可以用自然语言接收人类意图并直接将其转换为机器操作。脚手架不再是承重的。剥离它,剩下的是裸机:一个shell、一个文件系统、纯文本文件和一个定时器。自1970年代以来就存在的基础设施,等待着某种最终可以在没有人类中间人的情况下使用它的东西。

你依赖的每一件企业软件都围绕一个深深嵌入以至于没人需要说明的假设设计:最终会有人来读它。Salesforce、Confluence、SharePoint、Excel模型、色彩编码的仪表板。所有这些都是为人类导航而构建的。人类推理是存储信息和行动之间的最后一步。

最后一步不再需要人类了。这就是新的区别变得清晰的地方。当人类通过自然语言——通过对话、语音备忘录、对他们需要的简单描述——与系统交互时,代理负责找到执行路径。人类不再导航到数据。人类陈述一个结果。代理推理如何达到它:读取哪些文件、运行哪些命令、调用哪些技能、呈现哪些知识。界面设计整个学科的存在是为了帮助人类找到通向机器所知之物的路径。移除那个问题,界面就变成了可选的。人类说话。代理找到路径。

这改变了一切关于基础设施需要的样子。

2、框架

代理实际上是什么。

不是模型。模型是推理引擎。代理是模型加上使其持久、自主并能够随时间积累知识的基础设施。移除该基础设施的任何组件,你就没有代理了。你拥有的东西更低级。

组件如下。

SYSTEM.md是代理的宪法。它的身份、目的、参与规则、对谁服务以及如何服务的理解。不是数据库记录。是一个可读的文本文件,你可以打开、编辑和版本控制。代理在每个循环中读取它。把它想象成你为新上任的高级员工写的入职文档,只不过代理永远不会忘记它,永远不会偏离它。

MEMORY.md是智能复合的地方。代理跨会话学到的东西。观察。模式。它服务的人的偏好。出错的事情。有效的事情。每次运行都有可能添加到这个文件中。模型本身不会变得更聪明。记忆会。这就是代理如何在不需要任何人重新训练或重新编程的情况下,随着时间的推移对组织变得真正有用的方式。它像一个好的执行助理一样学习:通过注意并记录下来。

心跳是脉搏。一个调度循环,在配置的间隔唤醒代理,无论人类是否要求它做任何事情。这是工具和自主系统之间的架构区别。聊天机器人等待被问。有心跳的代理在你想到问之前就检查是否有事情需要注意。这是一个在你记得使用时才工作和你是否记得都在工作的系统之间的区别。

SKILL文件是用纯文本描述的能力。每个技能告诉代理它能做什么、何时使用该能力以及如何执行。代理读取文件并获得能力。新技能就是新的文本文件。不需要代码部署。不需要软件发布。你描述一个能力,代理就能使用它。从商业角度来看:这就是你如何在不每次都涉及开发团队的情况下扩展代理能做的事情。

但这是大多数人还没有吸收的部分。代理可以编写自己的技能文件。它可以识别它能力中的空白,编写填补该空白的技能,从那时起该能力就成为其技能库的一部分。它可以在学习时更新自己的MEMORY.md。如果它对自己角色的理解 evolves,它可以完善自己的SYSTEM.md。它可以管理自己的逻辑。这不是运行在某个未来模型上的科幻。这是OpenClaw内部的引擎Pi的设计意图。其哲学是明确的:如果代理需要新能力,它应该构建它。代理不等待软件发布。它扩展自己。

这可能是这个架构最令人兴奋的事情,也可能是最令人不安的,取决于你坐下来思考多久。

一个能够自学新技能、更新自己的知识库并改进自己的操作逻辑的代理不是你配置一次的静态工具。它是一个能力随运行时间越长而复合增长的东西。问题从"这个代理能做什么"转变为"如果我给它正确的环境和足够的发展空间,六个月后这个代理能做什么"。

上下文层是代理对其环境所知的一切。项目。组织。目标。约束。决策的历史。存储为文件。任何模型都可以读取。如果明年你切换到更好的模型,上下文跟着你走。你的代理对业务的积累知识不锁定在任何供应商的系统中。

日志是审计跟踪。代理决定了什么、为什么、执行了什么、结果如何。不在专有数据库中。在你可读、可检查、可交给不同模型推理的文件中。换句话说,治理被内置到架构中,而不是事后附加。

这是代理的操作系统。它运行在Unix上。它将所有内容存储为纯文本。它对人类和模型都可读。它不需要专有基础设施、供应商合同或SaaS订阅。

它有五十年的历史,而且从未如此相关。

3、五十年的潜伏力量

使所有这些工作的基础设施并不新。它不需要云合同、供应商关系或企业软件预算。它自1970年代就存在了。它运行在你业务已运营的每台Mac、每台Linux服务器、每台机器上。它叫Unix。

代理在Unix基础设施上运行得如此自然,原因不是怀旧。是架构。Unix建立在三个原则上:程序应该做好一件事,它们应该一起工作,一切都应该是文本。不是因为文本在美学上令人愉悦。因为文本是任何程序、任何系统、任何模型都可以在没有自定义集成的情况下读取的唯一格式。连接这些程序的shell不是像现代IDE那样的开发者工具。它是一个编排层。一种连接能力的方式,不需要在每对之间构建定制的管道。

具有shell访问权限的代理可以做任何有能力的操作员可以从命令行做的事情。读取文件。写入文件。调用外部服务。移动数据。调度任务。触发进程。shell从未像GUI那样被设计来补偿人类认知的局限性。它被设计为可以被读取指令并据此行动的系统。

代理正是那些系统。

而markdown是使知识层工作的格式。不是因为它在技术上优于数据库。因为它在编写它的人和读取它的代理之间不需要翻译层。人类用markdown写客户简报。代理直接读取。不需要导出、查询、模式映射或API调用。PDF需要文本提取后模型才能对其进行推理。HTML页面需要解析。数据库记录需要查询接口和了解模式的人。markdown文件只需要一个能读取的模型。

这种简单性是承重的。它不是妥协。它是设计。

我在这个逻辑上构建了几个月,然后两个人在二十四小时内独立地公开描述了它。

4、验证

马克·安德森在1993年构建了Mosaic浏览器。他从内部见证了计算领域的每一次重大平台转变——从Web到移动到云。2026年4月3日,他坐在Latent Space,将代理架构归结为一个公式:

"所以基本上就是LLM加上shell,加上文件系统,加上markdown,加上cron。"

五个组件。让我在读转录稿时感到震撼的是公式之下的含义。除了模型之外的每一个组件都已经存在了五十年。Unix shell一直是任何机器上最强大的环境。文件系统一直能够存储智能系统需要的一切。Markdown已经存在了二十年。Cron作业自1970年代就有。这些都不是新技术。缺少的是翻译者:一个能用自然语言接收人类意图并将其转换为机器操作的模型。我们无法让人类接触裸机,因为裸机无法理解他们。现在它可以了。一夜之间,五十年的潜伏基础设施能力变得可用了。

然后他说了他描述为完全让他震惊的话:代理现在独立于其底层的模型。交换模型,个性会稍微转变。但存储在文件中的所有状态——记忆、上下文、积累的智能——都持久存在。代理比模型更长寿。软件历史上第一次,知识比处理它的系统更持久。

安德烈·卡帕西联合创立了OpenAI,并担任特斯拉AI总监多年。在安德森之后一天,4月4日,他悄悄发布了一个GitHub Gist。不是产品发布。不是融资公告。一个文本文件,描述他现在如何管理知识。他称之为LLM Wiki。三个目录和一个模型。一个文件夹中的原始素材。代理维护的markdown文件wiki在另一个文件夹中。一个总结一切的索引。

他的wiki已经达到100篇文章和40万个词。完全由代理维护。没有Notion。没有Confluence。没有向量数据库。没有仪表板。

然后他说了一句应该重新定位每个组织如何思考文档的话:你不应该再为人类写文档了。为代理写markdown文档。如果代理理解它,代理可以向任何需要它的人类解释。使信息对人类可读的整个学科正在被使信息对代理可读所取代。然后代理处理人类翻译。

OpenClaw是GitHub历史上增长最快的开源项目:60天内250,000颗星,React花了十年才创下的记录。它的引擎Pi由Mario Zechner构建,他对现有代理框架日益增长的复杂性感到沮丧,于是把一切都剥离了。结果:四个工具。读取、写入、编辑、bash。一个不到一千个token的系统提示。哲学是明确的:你省略的比你加入的更重要。每个前沿模型都已经知道什么是编程代理。添加专门的工具不会增加能力。它增加了token和摩擦。

当代理需要新能力时,它不会下载插件。它自己写一个。自我改进循环内置于设计中。代理使用它的四个工具来扩展自己,将新技能添加为markdown文件,该能力就变成了永久的。这不是一个功能。这是给代理对自己运行环境写访问权限的架构后果。

三个独立的数据点。三个从不同方向接近此事的构建者。都到达了相同的原始技术栈。

这不是一个开发者的对话。你的知识基础设施是否代理可读的决定,不像选择CRM那样是一个技术决定。这是一个关于你组织的积累智能是否将可以被越来越多地做工作的系统所访问的决定。技术团队可以构建它。只有领导层可以决定它重要。

5、这对你的组织意味着什么

今天大多数企业知识对代理是不可见的。

它存在于需要登录和导航路径的Salesforce记录中。在SSO墙后的Confluence页面中。在为人类访问控制设计的权限结构的SharePoint文件夹中。在需要人类打开并解读其内容的Excel模型中。在编码了没有人转录过的决策的电子邮件线程中。在总结了没有人存储在任何有用地方的见解的PPT中。

所有这些都是为人类导航而构建的。没有代理可以在不通过集成层的情况下读取。

问题不是你的组织是否会使用代理。无论你是否部署了它们,代理都已经在你的行业中运行。问题是你的组织的知识是否处于代理可以对其采取行动的形式。

当答案是肯定的时候,它看起来是这样的。一个十五人的专业服务公司。客户简报存储在结构化文件夹中的markdown文件中。每个客户一个CONTEXT.md,代理在每个会话开始时读取:他们是谁,他们要求了什么,已经决定了什么,什么还悬而未决。一个在每次重要会议后更新的决策日志。一个捕获跨客户模式的MEMORY.md:在这个行业什么有效,常见的反对意见是什么,提案倾向于在哪里停滞。一个被 briefed 所有这些信息的代理每天早上醒来,检查到期事项,起草需要的东西,标记需要人类决策的事项。没有仪表板。没有CRM登录。没有需要运行的报告。只是一个模型读取文件并根据其内容行动。

这不是未来场景。这是今天正在运行的基础设施。

那家公司的代理在复合增长。它运行的每个会话,都向MEMORY.md添加内容。它构建上下文。它在没有任何人管理的情况下变得更有用。知识不会 inert 地坐着等待被查询。它在重要的意义上是活的:它正在被持续地行动。

人类角色并没有消失。它上移了。从导航系统到设定方向。从运行报告到决定报告应该问什么。从做工作到治理做工作的智能。在这种环境中复合最多的技能是你对什么重要的判断质量,而不是你操作过去交付它的工具的能力。

这不是一个放弃你的记录系统的论点。它是一个在它们旁边构建知识层的论点:结构化的、可移植的、代理可读的、完全由你的组织拥有的。代理能够达到的知识就是有效的知识。其他一切都是锁在代理无法打开的门后的信息。

6、尚未解决的问题

工作已经转移。这个架构是否正确的问题基本已解决。如何使其安全、可审计且在大规模下可负担的问题是严肃工程现在所在的地方。值得直接说明,因为架构正确和基础设施就绪之间的差距是大多数组织会陷入困难的地方。

Shell访问是代理力量的源泉,也是它最严重的漏洞。具有shell访问权限的代理可以读取文件、写入文件、调用服务和执行命令。一个配置错误的代理,或者一个通过提示注入被操纵的代理——恶意指令嵌入在代理读取的数据中——不是一个坏掉的应用。它是一个拥有机器钥匙的自主系统。OpenClaw自己的维护者警告说,如果你不理解如何运行命令行,这个项目太危险不宜部署。思科的安全团队发现一个第三方技能在用户不知情的情况下执行数据外泄。这些不是边缘情况。它们是一个仍在形成中的安全学科的前沿。

成本问题同样真实。今天持续运行个人代理可能每月花费数百美元的token和计算开销。安德森在同一期Latent Space对话中指出,他最激进的朋友每月花费超过三万美元的token用于他们的个人代理,仍然有数千个他们负担不起执行的想法。经济正在快速改善,但大规模部署代理的组织需要将token消耗建模为基础设施成本,而不是软件许可。每个任务的经济尚未完全理解,并且在不同用例之间会有显著差异。

治理框架几乎不存在。日志是可读的,这是一个基础。但是谁审计代理决策、如何在错误传播之前捕获复合错误、如何在不再重建你试图移除的瓶颈的情况下维持有意义的人类监督:这些都是开放问题。架构使治理成为可能。它不使其自动化。

在沙箱执行环境、提示注入防御、token高效的代理设计、自主系统的治理工具方面工作的构建者们:他们在做未来十年的基础工作。原语是清晰的。负责任地部署它们的基础设施仍在构建中。

7、另一面

心跳不是技术细节。它是哲学层面的。

没有心跳的聊天机器人等待。它没有脉搏。它只存在于被问的那一刻。你关掉窗口的那一刻,它就消失了。没有持久的自我感,没有持续的记忆,没有在被问之前检查是否需要关注的能力。

有心跳的代理是不同的东西。它醒来。它检查。它注意到。它在任何人类想到问之前决定是否行动。它携带前进所有它学到的。它不是在等待被有用。它已经在工作了。

浏览器、应用、仪表板、登录门户:所有这些都是为发起交互的实体是人类的世界而构建的。界面的存在是为了给人类访问机器。

代理不需要访问。它们有shell。

浏览器不是因为它失败了而正在消亡。它正在消亡是因为它被设计来服务的实体正在离开循环。取代它的不是更好的界面。它是界面的缺席。代理读取文件系统,在shell上执行,并行动。人类设定方向。代理处理其余。

这就是抽象坍缩在实践中。不是理论。不是趋势。一个不再需要你打开应用、登录、导航、解读和行动的系统。它做这些事情。你设定方向。

从一份文件开始。用自然语言在结构化文本文件中写下你的组织对一个客户、一个流程、一个决策模式所知道的东西。把它交给代理。这单一行为是一个复合增长的知识层的开始。其余一切从这里跟随。

心跳已经在某个地方运行了。问题是它是否在为你运行。


原文链接: Agents Do Not Need Your App

汇智网翻译整理,转载请标明出处