精简架构,丰厚技能
每个AI构建者应该问的问题是:什么放在harness里,什么不放在外面?答案有一个特定的形状。我称之为精简harness,做厚skill。
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI模型价格对比 | AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo
Steve Yegge说,使用AI编码代理的人"比今天使用Cursor和聊天的工程师生产力高出10倍到100倍,大概比2005年的Google人高出1000倍"。
这是一个真实的数字。我见过。我亲身体验过。但当人们听到时,他们会去找错误的解释。更好的模型。更聪明的Claude。更多参数。2倍的人和100倍的人使用的是相同的模型。差异不是智力。是架构——它可以写在一张索引卡上。
1、Harness就是产品
2025年3月31日,Anthropic意外向npm仓库发布了整个Claude Code的源代码。51.2万行。我读过了。它证实了我在YC教学的一切:秘密不是模型。是包裹模型的东西。
实时仓库上下文。提示缓存。专门构建的工具。上下文膨胀最小化。结构化会话内存。并行子代理。这些都不能让模型更聪明。所有这些都是为了让模型在正确的时间获得正确的上下文,而不会被噪音淹没。
这个包裹叫做harness。每个AI构建者应该问的问题是:什么放在harness里,什么不放在外面?答案有一个特定的形状。我称之为精简harness,做厚skills。
2、五个定义
瓶颈从来不是模型的智力。模型已经知道如何推理、综合和写代码。它们失败是因为它们不理解你的数据——你的模式、你的约定、你的问题的特定形状。五个定义可以修复这个问题。
1. Skill文件
技能文件是一个可重用的markdown文档,教会模型如何做某事。不是做什么——用户提供那个。技能提供过程。
这里有一个大多数人错过的关键见解:**技能文件的工作方式像方法调用。**它接受参数。你可以用不同的参数调用它。同样的程序根据你传入的内容产生完全不同的能力。
考虑一个叫做/investigate的技能。它有七个步骤:确定数据集范围,建立时间线,记录每个文档的发言,综合,两边论证,引用来源。它接受三个参数:TARGET、QUESTION和DATASET。将其指向安全科学家和210万封发现邮件,你得到的是一个医疗研究分析师,判断举报人是否被噤声。将其指向空壳公司和FEC文件,你得到的是一个追溯协调竞选捐款的法医调查员。
同样的技能。同样的七步。同样的markdown文件。技能描述了一个判断过程。调用提供了世界。
这不是提示工程。这是软件设计,使用markdown作为编程语言,使用人类判断作为运行时。markdown事实上是比刚性源代码更完美的能力封装,因为它用模型已经思考的语言描述过程、判断和上下文。
2. Harness
Harness是运行LLM的程序。它做四件事:循环运行模型,读取和写入你的文件,管理上下文,执行安全。仅此而已。这就是"精简"。
反模式是带有薄技能的厚harness。你见过:40多个工具定义消耗了一半的上下文窗口。带有2到5秒MCP往返的神之工具。REST API包装器将每个端点变成一个单独的工具。三倍令牌,三倍延迟,三倍失败率。
相反,你想要的是专门构建的快速和狭窄的工具。一个Playwright CLI每个浏览器操作只需100毫秒,而不是一个MCP需要15秒进行截图-查找-点击-等待-读取。那快了75倍。软件不必再珍贵了。构建你正好需要的,仅此而已。
3. 解析器
解析器是上下文的路由表。当任务类型X出现时,首先加载文档Y。
技能告诉模型如何。解析器告诉它什么时候加载和加载什么。开发者改变了提示。如果没有解析器,他们就直接发布。有了解析器,模型首先读取docs/EVALS.md——其中说:运行评估套件,比较分数,如果准确率下降超过2%,则恢复并调查。开发者不知道评估套件存在。解析器在正确的时间加载了正确的上下文。
招供:我的CLAUDE.md有2万行。每个怪癖,每个模式,每个我曾经遇到的教训。完全荒谬。模型的注意力下降了。Claude Code实际上让我把它缩减回去。修复大约是200行——只是指向文档的指针。解析器在重要的时候加载正确的那个。两万行知识,按需访问,而不污染上下文窗口。
4. 潜在 vs 确定性
系统中的每个步骤要么是其中之一,混淆它们是代理设计中最常见的错误。
潜在空间是智力所在的地方。模型读取、解释、决定。判断。综合。模式识别。
确定性是信任所在的地方。相同的输入,相同的输出。每次都是。SQL查询。编译代码。算术。
LLM可以让8个人坐在餐桌旁,考虑个性和社交动态。让它安排800人,它会产生一个看起来合理但完全错误的座位表。这是一个确定性问题——组合优化——被迫进入潜在空间。最差的系统把错误的工作放在这条线的错误一边。最好的系统对此无情。
5. 话语素描
话语素描是让AI对真正知识工作有用的步骤。模型读取关于一个主题的一切,并写出一个结构化档案——从数十或数百个文档中提炼的一页判断。
没有SQL查询产生这个。没有RAG管道产生这个。模型必须真正读取,在脑海中保持矛盾,注意什么改变了,什么时候,并综合结构化情报。这是数据库查找和分析师简报之间的区别。
3、架构
这五个概念组成一个简单的三层架构。
加厚skill坐在顶层:编码判断、过程和领域知识的markdown程序。这里承载了90%的价值。
精简harness坐在中间:大约200行代码。JSON输入,文本输出。默认只读。
你的应用坐在底部:QueryDB、ReadDoc、Search、Timeline——确定性基础。
原则是指向性的。把智力推到技能中。把执行推到确定性工具中。保持线束精简。当你这样做时,模型的每一次改进都会自动改进每个技能,而确定性层保持完美可靠。
4、学习系统
让我向你展示所有五个定义一起工作。不是理论上——在我们正在YC构建的实际系统中。
Chase Center。2025年7月。6000名创始人参加Startup School。每个都有一个结构化的应用程序、问卷回答、1:1顾问聊天的记录和公开信号:X上的帖子、GitHub提交、显示他们如何快速发布的Claude Code记录。
传统方法:一个15人的程序团队读取应用程序,做直觉判断,更新电子表格。它在200个创始人时有效。在6000个时失效。没有人能在工作记忆中保留那么多档案,并注意到基础设施-for-AI-agents队列的三个最佳候选人是一名拉各斯的开发工具创始人、一名新加坡的合规创始人,一名布鲁克林的CLI工具创始人——他们都在1:1聊天中用不同的词语描述了同样的痛点。
模型可以。以下是方法。
丰富。一个叫做/enrich-founder的技能拉取所有来源,运行丰富,话语素描,并突出创始人说和他们实际构建之间的差距。确定性层处理SQL查询、GitHub统计、演示URL上的浏览器测试、社交信号拉取、CrustData查询。一个cron在夜间运行。六千份档案,始终新鲜。
那个差距——"说"vs"实际构建"——需要读取GitHub提交历史、应用程序和顾问记录,并在脑海中同时保持三者。没有嵌入相似性搜索找到这个。没有关键字过滤器找到这个。模型必须读取完整档案并做出判断。(这是放入潜在空间的完美决定!)
匹配。这是技能即方法调用闪耀的地方。同一匹配技能的三次调用,三种完全不同的策略:
/match-breakout取1200名创始人,按行业亲和力聚类,每房间30人。嵌入加确定性分配。/match-lunch取600人,在行业间做随机匹配,每桌8人,不重复——LLM发明主题,然后确定性算法分配座位。/match-live处理目前在场的人,最近邻嵌入,200毫秒,1:1配对,排除已经见过的人。
模型做出聚类算法永远无法做出的判断判断:"Santos和Oram都是AI infra,但他们不是竞争对手——Santos是成本归属,Oram是编排。把他们放在同一组。"或者:"Kim申请为'developer tools'但他的1:1记录显示他正在为SOC2构建合规自动化。把他移到FinTech/RegTech。"
学习循环。之后,一个/improve技能读取NPS调查,话语素描那些普通的回答——不是糟糕的,那些"OK"的,系统几乎工作但不工作的——并提取模式。然后它提出新规则并把它们写回匹配技能:
当参与者说"AI infrastructure"但初创公司80%+计费代码:→归类为FinTech,不是AI Infra。当同一组中的两个参与者已经认识:→惩罚接近度。优先 novel introductions。
这些规则被写回技能文件。下一次运行自动使用它们。技能自我重写。
七月活动:12%的"OK"评分。下一次活动:4%。技能文件了解了"OK"实际的含义,系统变得更好,而没有人重写代码。
同样的模式转移到任何地方:检索、读取、话语素描、计数、综合。然后:调查、话语素描、重写技能。
如果你想知道2026年最有价值的循环,就是这些。我们可以将它们应用于存在的每一种知识和生活中的学科。
原文链接: Thin Harness, Fat Skills
汇智网翻译整理,转载请标明出处