仿autoresearch改进代理技能

你的 Claude 技能可能有 30% 的失败率,而你甚至都没有注意到。

我开发了一种方法,可以自动提升任何技能,本文将向你展示如何亲自运行它。

你只需启动它,代理程序就会反复测试并改进技能,无需你进行任何操作。

我的落地页文案技能的质量检​​查通过率从 56% 提升到了 92%。完全无需任何手动操作。

代理程序会自动持续测试并优化提示。

以下是我开发的方法和具体的技能示例,你可以将其应用到你自己的项目中:

1、思路来源

Andrej Karpathy(OpenAI 联合创始人、特斯拉前 AI 负责人、“vibe coding”概念的提出者)发布了一种名为 autoresearch 的方法。

其理念很简单:与其手动改进某些东西,不如让 AI 代理在一个循环中自动完成。

它会尝试进行微小的更改,检查结果是否有所改善。如果有所改善,则保留更改;如果没有,则丢弃更改。

然后它会再次重复这个过程。如此反复。

他最初将其用于机器学习代码。但这种方法适用于任何可以衡量和改进的东西。

包括您在 Claude 中构建的技能。

我借鉴了他的方法,并将其转化为一项可在 Claude Code 和 Cowork 中运行的技能。我只需将其应用于我设置中的任何其他技能即可。

我只需说“对我的着陆页技能进行自动研究”,它就能处理所有事情。

2、一个循环如何自动提升你的技能

不妨这样想:

你有一个食谱,十次里有七次都成功。剩下的三次,总感觉哪里不对劲。也许是酱汁淡而无味,也许是调味料不对。

与其从头开始重写整个食谱,你不如只改变一种食材。然后,你用这种改变烹饪十次。

  • 味道变好了吗?保留这个改变。
  • 味道变差了吗?换回原来的食材。

然后,你改变下一个食材。再烹饪十次。味道变好还是变差了?保留还是恢复原状?

经过五十轮这样的循环,你的食谱十次里有九次半成功。

自动研究正是如此提升你的技能。

  • “食谱”指的是你的技能提示。
  • “烹饪”指的是运行技能。
  • “品尝”指的是对结果进行评分。

你只需要提供评分标准。

3、一份清单,明确告诉系统“好”的定义

你只需给系统提供一份简单的清单,说明“好”的标准是什么。这就是你在整个流程中唯一的工作。

你只需使用一份简单的“是/否”问题清单即可。

每个问题都检查输出结果的一个具体方面。通过或不通过。就是这样。

系统使用这份清单对每个输出结果进行评分,这些分数会告诉它所做的更改是有益还是有害。

想象一下老师用清单批改作业。

但不是“给写作质量打分,1-10分”(这种评分方式模糊且每次都不一样),清单上的每个项目都是一个明确的“是”或“否”:

  • 学生是否包含了论文主题句?是或否。
  • 是否引用了所有参考文献?是或否。
  • 是否少于5页?是或否。

你可以用这份清单批改100篇论文,每次都能得到一致的结果。

道理是一样的。对于着陆页文案技巧,您的检查清单可能如下所示:

  • “标题是否包含具体数字或结果?”(避免使用“发展您的业务”等模糊标题)
  • “文案是否避免使用“革命性”、“协同效应”、“尖端”、“更高水平”等流行语?”
  • “行动号召 (CTA) 是否使用具体的动词短语?”(避免使用“了解更多”或“点击此处”等效果不佳的 CTA)
  • “第一句话是否指出了具体的痛点?”(避免使用“在当今快节奏的世界中……”等通用开头)
  • “文案总字数是否少于 150 字?”(避免使用冗长且容易让读者流失的页面)

您无需自行摸索这些问题。当您开始自动研究时,系统会引导您完成整个过程。

它会询问您理想的文案是什么样的,帮助您将直觉转化为具体的“是/否”问题,甚至还会在您拥有现有风格指南的情况下提供参考。

3-6 个问题是最佳数量。超过这个数量,技能就会开始钻空子(就像学生死记硬背答案却不理解内容一样)。

4、运行方法

步骤 1:下载技能。点击此处下载。将其拖放到 Claude Code 或 Cowork 的技能文件夹中。

步骤 2:选择一项要改进的技能。例如,输入“对我的[技能名称]技能进行自动研究”。选择你最不满意的技能。就是那种你一半时间能得到高质量结果,另一半时间却一无是处的技能。

步骤 3:系统会问你 3 个问题。要优化哪个技能?使用哪些测试输入(例如“为 AI 生产力工具撰写落地页文案”)?以及你的检查清单问题是什么?

步骤 4:系统运行你的技能并显示你的初始分数。这是基准线。我的落地页技能初始分数为 56%。标题含糊不清,充斥着流行语,行动号召力不足。超过一半的检查项目都失败了。

步骤 5:它会在您的浏览器中打开一个实时仪表盘。分数图表会随时间推移而上升。每个检查清单问题的通过/失败细分。记录每次尝试的更改。每 10 秒自动刷新一次。

步骤 6:离开。智能体进入循环。分析失败原因。对技能提示进行一处小改动。再次测试。如果分数提高,则保留更改;如果分数降低,则撤销更改。

然后再次重复此过程。如此反复。它会持续自主运行,直到您停止或连续三次达到 95% 以上为止。

您可以查看仪表盘,也可以完全离开。它会在您不干预的情况下运行。并且它会将改进后的版本保存为单独的文件,因此您的原始技能保持不变。

5、我的落地页技能发生了什么变化?

我在我的落地页文案技能上运行了此程序。以下是结果:

56% → 92%。4 轮更改。3 轮保留,1 轮撤销。

以下是智能体实际修改我的技能提示的内容:

  • 针对最常见的错误添加了一条具体规则:“你的标题必须包含具体的数字或结果。切勿使用‘改变你的业务’之类的模糊承诺。”
  • 添加了禁用流行语列表:“切勿使用:革命性的、前沿的、协同作用、更高层次的、颠覆性的、利用、解锁、转变。”
  • 添加了一个优秀的着陆页示例,其中重点突出了痛点和行动号召 (CTA),以便技能测试人员能够看到优秀的内容是什么样的,而不是靠猜测。
  • 尝试减少了字数,但后来又取消了,因为文案过于单薄,导致行动号召效果不佳。 (该系统会检测出那些看似改进但实际上损害整体结果的更改。)

完成后,我得到了:

  • 改进后的技能,单独保存(原始技能保持不变,以防需要恢复)
  • 结果日志,显示每一轮的得分
  • 变更日志,解释了尝试的每一次更改、智能体尝试的原因以及更改是否有效
  • 原始技能的备份,以防我需要恢复

变更日志可能是最有价值的部分。它完整记录了该特定技能的有效和无效之处。

未来当更智能的模型出现时,您可以将该变更日志提供给它们,它们可以从上一个智能体未完成的地方继续工作。

6、这不仅仅适用于技能

该方法适用于任何可以评分的内容。

  • 网站速度:有人用此方法测试了页面加载时间。每次更改一个设置,测量速度,然后决定保留或恢复。67 轮后,速度从 1100 毫秒降至 67 毫秒。
  • 陌生拜访:制定你的检查清单:“是否提及潜在客户的公司?是否少于 75 个字?是否以具体问题结尾?”让经纪人运行 50 个版本。
  • 电子报邮件开头:“开头是否包含个人细节?”以及“是否避免了陈词滥调?”让经纪人自动优化你的文案。
  • 任何你反复使用的提示

只要你能评分,就可以进行自动研究。

7、开始运行

选择你表现最差的技能。启动自动研究。然后回到真正有效的方法。


原文链接:How to 10x your Claude Skills (using Karpathy's autoresearch method)

汇智网翻译整理,转载请标明出处