仿autoresearch改进代理技能

你的 Claude 技能可能有 30% 的失败率，而你甚至都没有注意到。

我开发了一种方法，可以自动提升任何技能，本文将向你展示如何亲自运行它。

你只需启动它，代理程序就会反复测试并改进技能，无需你进行任何操作。

我的落地页文案技能的质量检查通过率从 56% 提升到了 92%。完全无需任何手动操作。

代理程序会自动持续测试并优化提示。

以下是我开发的方法和具体的技能示例，你可以将其应用到你自己的项目中：

1、思路来源

Andrej Karpathy（OpenAI 联合创始人、特斯拉前 AI 负责人、“vibe coding”概念的提出者）发布了一种名为 autoresearch 的方法。

其理念很简单：与其手动改进某些东西，不如让 AI 代理在一个循环中自动完成。

它会尝试进行微小的更改，检查结果是否有所改善。如果有所改善，则保留更改；如果没有，则丢弃更改。

然后它会再次重复这个过程。如此反复。

他最初将其用于机器学习代码。但这种方法适用于任何可以衡量和改进的东西。

包括您在 Claude 中构建的技能。

我借鉴了他的方法，并将其转化为一项可在 Claude Code 和 Cowork 中运行的技能。我只需将其应用于我设置中的任何其他技能即可。

我只需说“对我的着陆页技能进行自动研究”，它就能处理所有事情。

2、一个循环如何自动提升你的技能

不妨这样想：

你有一个食谱，十次里有七次都成功。剩下的三次，总感觉哪里不对劲。也许是酱汁淡而无味，也许是调味料不对。

与其从头开始重写整个食谱，你不如只改变一种食材。然后，你用这种改变烹饪十次。

味道变好了吗？保留这个改变。
味道变差了吗？换回原来的食材。

然后，你改变下一个食材。再烹饪十次。味道变好还是变差了？保留还是恢复原状？

经过五十轮这样的循环，你的食谱十次里有九次半成功。

自动研究正是如此提升你的技能。

“食谱”指的是你的技能提示。
“烹饪”指的是运行技能。
“品尝”指的是对结果进行评分。

你只需要提供评分标准。

3、一份清单，明确告诉系统“好”的定义

你只需给系统提供一份简单的清单，说明“好”的标准是什么。这就是你在整个流程中唯一的工作。

你只需使用一份简单的“是/否”问题清单即可。

每个问题都检查输出结果的一个具体方面。通过或不通过。就是这样。

系统使用这份清单对每个输出结果进行评分，这些分数会告诉它所做的更改是有益还是有害。

想象一下老师用清单批改作业。

但不是“给写作质量打分，1-10分”（这种评分方式模糊且每次都不一样），清单上的每个项目都是一个明确的“是”或“否”：

学生是否包含了论文主题句？是或否。
是否引用了所有参考文献？是或否。
是否少于5页？是或否。

你可以用这份清单批改100篇论文，每次都能得到一致的结果。

道理是一样的。对于着陆页文案技巧，您的检查清单可能如下所示：

“标题是否包含具体数字或结果？”（避免使用“发展您的业务”等模糊标题）
“文案是否避免使用“革命性”、“协同效应”、“尖端”、“更高水平”等流行语？”
“行动号召 (CTA) 是否使用具体的动词短语？”（避免使用“了解更多”或“点击此处”等效果不佳的 CTA）
“第一句话是否指出了具体的痛点？”（避免使用“在当今快节奏的世界中……”等通用开头）
“文案总字数是否少于 150 字？”（避免使用冗长且容易让读者流失的页面）

您无需自行摸索这些问题。当您开始自动研究时，系统会引导您完成整个过程。

它会询问您理想的文案是什么样的，帮助您将直觉转化为具体的“是/否”问题，甚至还会在您拥有现有风格指南的情况下提供参考。

3-6 个问题是最佳数量。超过这个数量，技能就会开始钻空子（就像学生死记硬背答案却不理解内容一样）。

4、运行方法

步骤 1：下载技能。点击此处下载。将其拖放到 Claude Code 或 Cowork 的技能文件夹中。

步骤 2：选择一项要改进的技能。例如，输入“对我的[技能名称]技能进行自动研究”。选择你最不满意的技能。就是那种你一半时间能得到高质量结果，另一半时间却一无是处的技能。

步骤 3：系统会问你 3 个问题。要优化哪个技能？使用哪些测试输入（例如“为 AI 生产力工具撰写落地页文案”）？以及你的检查清单问题是什么？

步骤 4：系统运行你的技能并显示你的初始分数。这是基准线。我的落地页技能初始分数为 56%。标题含糊不清，充斥着流行语，行动号召力不足。超过一半的检查项目都失败了。

步骤 5：它会在您的浏览器中打开一个实时仪表盘。分数图表会随时间推移而上升。每个检查清单问题的通过/失败细分。记录每次尝试的更改。每 10 秒自动刷新一次。

步骤 6：离开。智能体进入循环。分析失败原因。对技能提示进行一处小改动。再次测试。如果分数提高，则保留更改；如果分数降低，则撤销更改。

然后再次重复此过程。如此反复。它会持续自主运行，直到您停止或连续三次达到 95% 以上为止。

您可以查看仪表盘，也可以完全离开。它会在您不干预的情况下运行。并且它会将改进后的版本保存为单独的文件，因此您的原始技能保持不变。

5、我的落地页技能发生了什么变化？

我在我的落地页文案技能上运行了此程序。以下是结果：

56% → 92%。4 轮更改。3 轮保留，1 轮撤销。

以下是智能体实际修改我的技能提示的内容：

针对最常见的错误添加了一条具体规则：“你的标题必须包含具体的数字或结果。切勿使用‘改变你的业务’之类的模糊承诺。”
添加了禁用流行语列表：“切勿使用：革命性的、前沿的、协同作用、更高层次的、颠覆性的、利用、解锁、转变。”
添加了一个优秀的着陆页示例，其中重点突出了痛点和行动号召 (CTA)，以便技能测试人员能够看到优秀的内容是什么样的，而不是靠猜测。
尝试减少了字数，但后来又取消了，因为文案过于单薄，导致行动号召效果不佳。（该系统会检测出那些看似改进但实际上损害整体结果的更改。）

完成后，我得到了：

改进后的技能，单独保存（原始技能保持不变，以防需要恢复）
结果日志，显示每一轮的得分
变更日志，解释了尝试的每一次更改、智能体尝试的原因以及更改是否有效
原始技能的备份，以防我需要恢复

变更日志可能是最有价值的部分。它完整记录了该特定技能的有效和无效之处。

未来当更智能的模型出现时，您可以将该变更日志提供给它们，它们可以从上一个智能体未完成的地方继续工作。

6、这不仅仅适用于技能

该方法适用于任何可以评分的内容。

网站速度：有人用此方法测试了页面加载时间。每次更改一个设置，测量速度，然后决定保留或恢复。67 轮后，速度从 1100 毫秒降至 67 毫秒。
陌生拜访：制定你的检查清单：“是否提及潜在客户的公司？是否少于 75 个字？是否以具体问题结尾？”让经纪人运行 50 个版本。
电子报邮件开头：“开头是否包含个人细节？”以及“是否避免了陈词滥调？”让经纪人自动优化你的文案。
任何你反复使用的提示

只要你能评分，就可以进行自动研究。

7、开始运行

选择你表现最差的技能。启动自动研究。然后回到真正有效的方法。

原文链接：How to 10x your Claude Skills (using Karpathy's autoresearch method)

汇智网翻译整理，转载请标明出处