AI代理竞赛结束了,文件夹胜出

只需一个文件夹,就可以将Elara Vance博士的智慧转化为一项技能。她曾经孤立且难以获取的深厚专业知识,如今在整个组织中成倍增长,使复杂的知识能够立即获取并付诸实践。

AI代理竞赛结束了,文件夹胜出

临床策略主管埃拉拉·万斯博士盯着屏幕。现在是晚上8点。一个问题阻碍了一项价值十亿美元的药物试验的启动:“我们新的招募方案是否与FDA 2023年更新的心血管风险指南相冲突?”

答案隐藏在一份400页的监管PDF文件中,该文件与十几个内部电子表格交叉引用。为了找到答案,她需要协调一位不懂药理学的数据科学家和一位不了解监管历史的初级律师。知识就在公司里,但却支离破碎、孤立无援、毫无用处。

Vance 博士的困境并非个例。

这是每个被自身专业知识束缚的知识工作者都会面临的无声挫败。销售副总裁清楚地知道哪些合同条款属于非标准条款,却无法开发工具来标记它们。财务分析师明白预测收入所需的精确调整,但他们的逻辑却被锁在别人无法运行的个人电子表格中。

这就是专家的牢笼。

你拥有十余年经验积累的知识,却缺乏将这些知识转化为可扩展、自动化流程的能力。你不得不依赖那些不懂你专业知识的通用型开发人员,导致无休止的会议和无法达到预期效果的工具。你独特的洞察力,正是你价值所在,却仍然是一种无法复制的手工技艺。

多年来,人工智能的承诺之一就是解决这一难题,然而,这些工具始终与专家脱节。但如果知识与创造之间的壁垒彻底消失呢?如果专家无需工程师团队的帮助,就能将他们的智慧转化为持久的数字资产呢?

1、解锁:文件夹中的智能体

打破专家困境的方案并非构建一个庞大无所不知的人工智能,也并非构建庞大的基础设施,而是更简单、更强大的东西:一个文件夹。

这正是“智能体技能”(Agent Skills)这一新范式的核心理念,该范式由Anthropic等公司的研究人员倡导。技能是一个独立的程序化知识包,它是一个包含纯文本指令、简单脚本以及专家用于决策的特定数据的文件夹。人工智能无需预先安装这些知识,只需能够读取该文件夹即可。

以下是 Anthropic 开发手册中的一个实际示例,一个用于分析财务报表的技能:

analyzing-financial-statements/
├── SKILL.md
├── calculate_ratios.py
└── interpret_ratios.py

关键在于 SKILL.md 文件。它以简单的 YAML 元数据开头,告诉 Claude 何时激活该技能:

---
name: analyzing-financial-statements
description: This skill calculates key financial ratios and metrics
  from financial statement data for investment analysis
---

description 字段至关重要。Claude 会对其进行语义解读,以决定何时加载该技能。当用户说“分析此资产负债表”时,Claude 会将该请求与所有可用的技能描述进行匹配,并激活相关的技能。

元数据下方是简明的英文说明:计算哪些比率(ROE、ROA、市盈率、负债权益比)、接受哪些输入格式(CSV、JSON、Excel)以及如何解读结果。Python 脚本负责实际的数学运算。这项技能结合了人类判断和机器执行。

第二个实际案例展示了品牌一致性是如何编码的。一个营销团队的“应用品牌指南”技能包含以下内容:

---
name: applying-brand-guidelines
description: Applies consistent corporate branding and styling to all
  generated documents including colors, fonts, layouts, and messaging
---

该技能随后指定了精确的设计标记:- 主色蓝色 (#0066CC),- 标题字体(Segoe UI,32 磅粗体),- PowerPoint 页边距(0.5 英寸),- Excel 标题样式(蓝色背景,白色文本)。

现在,Claude 创建的每个文档都遵循品牌手册,无需任何人提醒。

现在想象一下,我们那位沮丧的临床策略师 Vance 博士,她自己开发了一项技能:

protocol_risk_analyzer/
├── SKILL.md
├── analyze_protocol.py
└── data/
    ├── fda_guidance_cardiovascular.txt
    └── known_contraindications.csv

她的 SKILL.md 文件内容可能如下:

---
name: protocol-risk-analyzer
description: Analyzes clinical trial protocols against FDA guidance
  and known contraindications to identify patient recruitment risks
---
# Instructions
You are an expert clinical trial strategist. When given a protocol:
1. Parse the Inclusion Criteria, Exclusion Criteria, and Procedures
2. Run analyze_protocol.py against the contraindications database
3. Cross-reference findings with FDA guidance in data/
4. Flag any "High" or "Critical" risks immediately
5. Output a three-part report: Risk Score, Critical Factors, Recommendations

她成功地将自己的专业知识打包呈现。

数据/中的FDA文件和禁忌症数据库代表了她多年积累的知识。脚本自动执行了繁琐的交叉引用。指令编码了她的决策过程。十年的经验,如今得以执行。

这种方法提出了一个激进的架构主张:模型即代理。它无需复杂的脚手架即可运行。代理运行时可以像文件系统本身一样轻量级。人工智能利用其强大的推理能力来读取技能内容并决定执行什么操作,就像人阅读标准操作规程一样。

这种极简主义与许多早期的代理框架形成了鲜明的对比,后者通常需要复杂的代码链来将模型连接到工具。

“技能”理念认为这是不必要的。只要你提供正确的文档,模型就足够智能,可以协调自身的工作流程。代码和文本是通用的接口。

一个深刻而又几乎令人意想不到的简单认知是:没错,它真的只是一个文件夹。

2、新的权力动态

工具的这种转变从根本上改变了组织权力格局。如今,真正了解业务的人可以构建业务所需的工具。专家不再依赖于不了解其领域细微差别的开发人员。

优势不在于技能“容易”构建,而在于领域专家具备构建这些技能的独特资质。开发人员可以编写脚本来计算市盈率。

然而,财务总监构建的技能却能使用非GAAP EBITDA(不包括第二季度收购产生的商誉摊销)来计算调整后的预期市盈率,以便与特定同业公司进行比较。代码很简单,其价值在于蕴含的知识。

这一趋势也为企业人工智能领域最大的风险之一——通常被称为“影子人工智能”——提供了一种强有力的应对方案。真正的影子人工智能并非失控的智能体。分析师将公共聊天机器人的答案复制粘贴到关键的财务模型中。这种操作隐蔽、无法追踪,而且基于一个无人可以审计的提示。

技能将这种活动从阴影中拉出来,使其可见。技能是存储库中受版本控制的资产。它是可审计的,这意味着您可以查看人工智能使用的确切指令和代码。它是可测试的,确保逻辑的合理性。而且它是可归属的,有明确的所有者。人工智能的使用首次成为一个可管理、可治理的过程。

这种从隐蔽提示到可见资产的转变带来了一种新的、不可避免的紧张关系。当任何人都可以创建企业级人工智能工具时,谁来掌控?围绕人工智能的争夺不仅仅是一个技术挑战,更是一个政治挑战。这是一场争夺谁拥有和运营公司不断演进的集体智能的斗争。

3、复利飞轮(及其弊端)

Anthropic 的愿景是,人工智能在诞生 30 天后应该比第一天时强大得多。这并非因为底层模型发生了改变,而是因为围绕它的技能库不断增长。技能创造了一个复利知识飞轮,将一个静态工具转变为一个鲜活的机构。

想象一下,一位新销售员加入团队。他/她不会仅仅使用现有的销售跟进技能。他/她会遇到新的客户异议,与经理合作解决问题,并将解决方案记录在一个名为“异议处理员-通货膨胀担忧”的全新小技能中。整个组织瞬间变得更加智能。飞轮运转得更快了。

该系统还为企业中最古老的问题之一——员工离职——提供了一个解决方案。当才华横溢的财务分析师 Mahesh 离开公司时,他的知识通常也随之消失,被锁在未记录的电子表格中。在以技能为导向的组织中,他留下了类似 Anthropic 的“创建财务模型”技能:

---
name: creating-financial-models
description: Advanced financial modeling suite with DCF analysis,
  sensitivity testing, Monte Carlo simulations, and scenario planning
---

这项技能不仅仅是计算数字。它编码了一整套分析方法:如何构建折现现金流模型、哪些假设需要进行压力测试、如何运行数千个概率情景以生成置信区间。公司不仅记录了他的最终报告,还记录了他的整个流程。

然而,这种构建完美且不断积累的知识库的愿景面临着严峻的挑战。首先是“技能单一化”的风险。当某种官方的销售跟进技能占据主导地位时,它可能会强化僵化的教条。它以扼杀创新偏差为代价,固守一种最佳实践,并可能扼杀在细分市场中更有效的非常规方法。

第二个问题是“知识衰退”。

一项旨在分析2023年市场趋势的技能,到了2025年可能就会给出极其错误的建议。如果没有明确的所有权和“知识培育”流程,活的图书馆可能会变成过时程序的坟场,其危险性甚至超过没有图书馆。

最后,还有激励机制的问题。为什么顶尖销售人员会花费宝贵的时间来培养一项技能,使其独特的才能能够被所有人利用,从而可能降低其个人价值?如果没有奖励专业知识共享的新机制,最有价值的知识可能永远无法转化为技能。

4、市场大洗牌

这种转变不仅仅是技术上的调整,更是一次经济格局的重塑,类似于移动应用商店的崛起。正如移动应用的价值超过了其底层 iOS 或 Android 平台一样,技能也即将成为人工智能的应用层,其价值将在此得到最大程度的体现。

不妨这样想:大型语言模型的原始能力就像计算机芯片的处理能力,正日益商品化。代理运行时环境,即托管和协调这些模型的环境,类似于操作系统,正逐渐被少数几家主导企业垄断。真正的价值所在,新的护城河,转移到了应用程序本身:技能。这些专有工具能够将通用智能转化为具体的、对业务至关重要的行动。

那么,谁将在这场格局重塑中胜出?像范斯博士这样的领域专家无疑是赢家。他们转型成为自身工具的构建者,他们的知识直接嵌入到公司的人工智能系统中。一批新型的“技能提供商”公司也将涌现,提供可接入任何代理运行时环境的专用工具。像提供网络交互功能的 Browserbase,甚至 Notion 这样的公司,其服务可能会被打包成企业代理的基础技能。最终,拥有庞大专有技能库的企业将拥有无可撼动的竞争优势。

反之,一些老牌企业则面临颠覆。大型咨询公司通常依赖于提供定制的“最佳实践”工作流程,而这些工作流程将被简化为可授权、可重用的技能。既然核心流程只需几秒即可加载,为何还要为六个月的合作付费?如果模型真正成为操作系统,运行时环境缩减至简单的文件 I/O,那么代理框架供应商的复杂抽象层也可能被绕过。最终,内部 AI/ML 团队的角色将从构建单个解决方案的主要者转变为技能生态系统的关键管理者、审计者和维护者。

5、架构方面的反驳

任何变革性的转变都会引发质疑,代理技能范式也不例外。

这种方法虽然前景广阔,但却押注于特定的架构方向,因此存在一些强有力的反驳论点,说明它为何可能无法成为主流。

一个主要挑战是规模化的“技能发现”问题。试想一个组织积累了 10,000 项技能。如果“计算流失率”技能有 17 个不同的版本,每个版本都略有不同,那么 AI 如何才能可靠地找到并选择正确的版本呢?如果管理这个日益庞大的技能“应用商店”(包含版本冲突和不一致的描述)的开销过大,系统可能会不堪重负而崩溃。人工智能甚至人类用户为了应对这种复杂性而承担的认知负担,可能会超过其带来的益处。

微调的支持者已经指出,技能只是一种暂时的权宜之计。他们认为,通过 LoRa 等技术将专业知识直接嵌入模型权重,比教模型调用外部工具更优雅、更集成。在未来,当原生检索增强或大规模上下文窗口成为常态时,显式的“技能”范式可能就会被淘汰。这种愿景虽然引人注目,但归根结底是对人工智能未来发展的一种押注。

6、第三天的分析师

初级分析师在聊天窗口中输入:“分析附件中的心血管风险评估方案。”

几秒钟后,系统回复:“检测到严重风险。该方案包含用于有高血压病史患者的药物‘Acardix’,这与Vance-Miller研究(2022)中已知的第841号禁忌症相冲突。这违反了FDA指南21 CFR 312.32。建议:将‘高血压病史’添加到排除标准中。”

分析师的经理在一旁看着。“很好。现在让它起草一份提交给审查委员会的修改邮件。”

这位分析师在公司工作了三天。

这不是魔法。这是Elara Vance博士的智慧转化为一项技能。她曾经孤立且难以获取的深厚专业知识,如今在整个组织中成倍增长,使复杂的知识能够立即获取并付诸实践。

一个文件夹。仅此而已。

模型提供了智能。技能提供了专业知识。而专家,第一次有机会参与构建。工具本身。


原文链接:https://kotrotsos.medium.com/the-ai-agent-race-is-over-the-winner-is-a-folder-8cdc7ad7bbb2