AGENT

精简架构，丰厚技能

每个AI构建者应该问的问题是：什么放在harness里，什么不放在外面？答案有一个特定的形状。我称之为精简harness，做厚skill。

admin

Apr 17, 2026 • 10 min read

微信 ezpoda免费咨询：AI编程 | AI模型微调| AI私有化部署
AI模型价格对比 | AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

Steve Yegge说，使用AI编码代理的人"比今天使用Cursor和聊天的工程师生产力高出10倍到100倍，大概比2005年的Google人高出1000倍"。

这是一个真实的数字。我见过。我亲身体验过。但当人们听到时，他们会去找错误的解释。更好的模型。更聪明的Claude。更多参数。2倍的人和100倍的人使用的是相同的模型。差异不是智力。是架构——它可以写在一张索引卡上。

1、Harness就是产品

2025年3月31日，Anthropic意外向npm仓库发布了整个Claude Code的源代码。51.2万行。我读过了。它证实了我在YC教学的一切：秘密不是模型。是包裹模型的东西。

实时仓库上下文。提示缓存。专门构建的工具。上下文膨胀最小化。结构化会话内存。并行子代理。这些都不能让模型更聪明。所有这些都是为了让模型在正确的时间获得正确的上下文，而不会被噪音淹没。

这个包裹叫做harness。每个AI构建者应该问的问题是：什么放在harness里，什么不放在外面？答案有一个特定的形状。我称之为精简harness，做厚skills。

2、五个定义

瓶颈从来不是模型的智力。模型已经知道如何推理、综合和写代码。它们失败是因为它们不理解你的数据——你的模式、你的约定、你的问题的特定形状。五个定义可以修复这个问题。

1. Skill文件

技能文件是一个可重用的markdown文档，教会模型如何做某事。不是做什么——用户提供那个。技能提供过程。

这里有一个大多数人错过的关键见解：**技能文件的工作方式像方法调用。**它接受参数。你可以用不同的参数调用它。同样的程序根据你传入的内容产生完全不同的能力。

考虑一个叫做/investigate的技能。它有七个步骤：确定数据集范围，建立时间线，记录每个文档的发言，综合，两边论证，引用来源。它接受三个参数：TARGET、QUESTION和DATASET。将其指向安全科学家和210万封发现邮件，你得到的是一个医疗研究分析师，判断举报人是否被噤声。将其指向空壳公司和FEC文件，你得到的是一个追溯协调竞选捐款的法医调查员。

同样的技能。同样的七步。同样的markdown文件。技能描述了一个判断过程。调用提供了世界。

这不是提示工程。这是软件设计，使用markdown作为编程语言，使用人类判断作为运行时。markdown事实上是比刚性源代码更完美的能力封装，因为它用模型已经思考的语言描述过程、判断和上下文。

2. Harness

Harness是运行LLM的程序。它做四件事：循环运行模型，读取和写入你的文件，管理上下文，执行安全。仅此而已。这就是"精简"。

反模式是带有薄技能的厚harness。你见过：40多个工具定义消耗了一半的上下文窗口。带有2到5秒MCP往返的神之工具。REST API包装器将每个端点变成一个单独的工具。三倍令牌，三倍延迟，三倍失败率。

相反，你想要的是专门构建的快速和狭窄的工具。一个Playwright CLI每个浏览器操作只需100毫秒，而不是一个MCP需要15秒进行截图-查找-点击-等待-读取。那快了75倍。软件不必再珍贵了。构建你正好需要的，仅此而已。

3. 解析器

解析器是上下文的路由表。当任务类型X出现时，首先加载文档Y。

技能告诉模型如何。解析器告诉它什么时候加载和加载什么。开发者改变了提示。如果没有解析器，他们就直接发布。有了解析器，模型首先读取docs/EVALS.md——其中说：运行评估套件，比较分数，如果准确率下降超过2%，则恢复并调查。开发者不知道评估套件存在。解析器在正确的时间加载了正确的上下文。

招供：我的CLAUDE.md有2万行。每个怪癖，每个模式，每个我曾经遇到的教训。完全荒谬。模型的注意力下降了。Claude Code实际上让我把它缩减回去。修复大约是200行——只是指向文档的指针。解析器在重要的时候加载正确的那个。两万行知识，按需访问，而不污染上下文窗口。

4. 潜在 vs 确定性

系统中的每个步骤要么是其中之一，混淆它们是代理设计中最常见的错误。

潜在空间是智力所在的地方。模型读取、解释、决定。判断。综合。模式识别。

确定性是信任所在的地方。相同的输入，相同的输出。每次都是。SQL查询。编译代码。算术。

LLM可以让8个人坐在餐桌旁，考虑个性和社交动态。让它安排800人，它会产生一个看起来合理但完全错误的座位表。这是一个确定性问题——组合优化——被迫进入潜在空间。最差的系统把错误的工作放在这条线的错误一边。最好的系统对此无情。

5. 话语素描

话语素描是让AI对真正知识工作有用的步骤。模型读取关于一个主题的一切，并写出一个结构化档案——从数十或数百个文档中提炼的一页判断。

没有SQL查询产生这个。没有RAG管道产生这个。模型必须真正读取，在脑海中保持矛盾，注意什么改变了，什么时候，并综合结构化情报。这是数据库查找和分析师简报之间的区别。

3、架构

这五个概念组成一个简单的三层架构。

加厚skill坐在顶层：编码判断、过程和领域知识的markdown程序。这里承载了90%的价值。

精简harness坐在中间：大约200行代码。JSON输入，文本输出。默认只读。

你的应用坐在底部：QueryDB、ReadDoc、Search、Timeline——确定性基础。

原则是指向性的。把智力推到技能中。把执行推到确定性工具中。保持线束精简。当你这样做时，模型的每一次改进都会自动改进每个技能，而确定性层保持完美可靠。

4、学习系统

让我向你展示所有五个定义一起工作。不是理论上——在我们正在YC构建的实际系统中。

Chase Center。2025年7月。6000名创始人参加Startup School。每个都有一个结构化的应用程序、问卷回答、1:1顾问聊天的记录和公开信号：X上的帖子、GitHub提交、显示他们如何快速发布的Claude Code记录。

传统方法：一个15人的程序团队读取应用程序，做直觉判断，更新电子表格。它在200个创始人时有效。在6000个时失效。没有人能在工作记忆中保留那么多档案，并注意到基础设施-for-AI-agents队列的三个最佳候选人是一名拉各斯的开发工具创始人、一名新加坡的合规创始人，一名布鲁克林的CLI工具创始人——他们都在1:1聊天中用不同的词语描述了同样的痛点。

模型可以。以下是方法。

丰富。一个叫做/enrich-founder的技能拉取所有来源，运行丰富，话语素描，并突出创始人说和他们实际构建之间的差距。确定性层处理SQL查询、GitHub统计、演示URL上的浏览器测试、社交信号拉取、CrustData查询。一个cron在夜间运行。六千份档案，始终新鲜。

那个差距——"说"vs"实际构建"——需要读取GitHub提交历史、应用程序和顾问记录，并在脑海中同时保持三者。没有嵌入相似性搜索找到这个。没有关键字过滤器找到这个。模型必须读取完整档案并做出判断。(这是放入潜在空间的完美决定！)

匹配。这是技能即方法调用闪耀的地方。同一匹配技能的三次调用，三种完全不同的策略：

/match-breakout取1200名创始人，按行业亲和力聚类，每房间30人。嵌入加确定性分配。/match-lunch取600人，在行业间做随机匹配，每桌8人，不重复——LLM发明主题，然后确定性算法分配座位。/match-live处理目前在场的人，最近邻嵌入，200毫秒，1:1配对，排除已经见过的人。

模型做出聚类算法永远无法做出的判断判断："Santos和Oram都是AI infra，但他们不是竞争对手——Santos是成本归属，Oram是编排。把他们放在同一组。"或者："Kim申请为'developer tools'但他的1:1记录显示他正在为SOC2构建合规自动化。把他移到FinTech/RegTech。"

学习循环。之后，一个/improve技能读取NPS调查，话语素描那些普通的回答——不是糟糕的，那些"OK"的，系统几乎工作但不工作的——并提取模式。然后它提出新规则并把它们写回匹配技能：

当参与者说"AI infrastructure"但初创公司80%+计费代码：→归类为FinTech，不是AI Infra。当同一组中的两个参与者已经认识：→惩罚接近度。优先 novel introductions。

这些规则被写回技能文件。下一次运行自动使用它们。技能自我重写。

七月活动：12%的"OK"评分。下一次活动：4%。技能文件了解了"OK"实际的含义，系统变得更好，而没有人重写代码。

同样的模式转移到任何地方：检索、读取、话语素描、计数、综合。然后：调查、话语素描、重写技能。

如果你想知道2026年最有价值的循环，就是这些。我们可以将它们应用于存在的每一种知识和生活中的学科。

原文链接: Thin Harness, Fat Skills

汇智网翻译整理，转载请标明出处