10 个值得关注的自我改进智能体
下一波 AI 智能体将针对可衡量的目标进行自我改进。
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI模型价格对比 | AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo
去年是关于编程智能体、浏览器智能体、研究智能体、销售智能体、客户支持智能体、语音智能体。
今年,讨论的话题全都是改进系统的智能体。
AutoResearch 背后的简单理念是:给智能体一个目标、一个度量指标、一个受约束的环境和一个评估循环。智能体提出修改,编辑某些内容,运行评估,如果分数提高则保留修改,如果没有提高则回滚。
这种模式现在正在扩展到提示词优化、ML 工程、仓库级编程智能体、语音智能体测试、GPU 内核以及产品/后端生成等领域。
如果你构建软件、AI 产品或开发者工具,这里有 10 个值得了解的 AutoResearch 风格的智能体和框架。
1. GEPA:反思式提示词和文本优化
GEPA 是这一类别中最有趣的工具之一,因为它攻克了一个每个 AI 产品都面临的痛点。
你可能仍然在手动调优提示词。你阅读失败案例,编辑系统提示词,运行几个示例,然后希望新版本会更好。
你也知道这种方法无法产生累积效果。
GEPA 将这个过程转变为一个优化循环。它根据评估指标优化文本参数,如提示词、代码、智能体架构和配置。
其方法是基于 LLM 的反思加上帕累托高效的进化搜索:系统读取执行轨迹,诊断失败原因,变异候选方案,并保留更好的变体。
import gepa
trainset, valset, _ = gepa.examples.aime.init_dataset()
seed_prompt = {
"system_prompt": "You are a helpful assistant. Answer the question. "
"Put your final answer in the format '### <answer>'"
}
result = gepa.optimize(
seed_candidate=seed_prompt,
trainset=trainset,
valset=valset,
task_lm="openai/gpt-4.1-mini",
max_metric_calls=150,
reflection_lm="openai/gpt-5",
)
print("Optimized prompt:", result.best_candidate['system_prompt'])
对于产品构建者来说,这在任何用户体验依赖于自然语言指令的地方都很有用:支持机器人、RAG 系统、提取管道、分类提示词、语音智能体行为、新手引导流程、销售智能体和内部副驾驶。
2. AIDE ML:用于 ML 工程的树搜索
AIDE ML 将 autoresearch 模式应用于机器学习工程。
它是一个 LLM 驱动的智能体,可以编写、评估和改进 ML 代码,使用树搜索遍历代码候选方案,直到用户定义的指标达到最大化或最小化。

许多产品团队有 ML 类型的需求,但没有足够的数据科学人力。
流失预测、线索评分、定价、排序、预测、欺诈信号、推荐系统和内部分析模型通常搁置在待办列表中,因为它们需要实验。
AIDE 不会取代一个优秀的 ML 工程师,但它可以压缩早期探索阶段。
团队不再需要问"能不能有人花一个冲刺周期测试基线?",而是可以问"能不能让一个智能体探索 20 个候选方案并给我们最好的基线?"
3. GOAL.md:仓库原生的自主改进模式
GOAL.md 更像是一个每个开发者都应该理解的模式。
前提很简单:将目标、适应度函数、改进循环、约束条件和操作指令放入一个 GOAL.md 文件中。
然后将编程智能体指向它。

它将 autoresearch 的理念推广到普通软件仓库,其中最困难的部分通常不是优化,而是构建一个值得优化的指标。

这对产品团队非常相关,因为许多重要目标天然不适合用单一测试来衡量:
- 文档质量
- 测试可靠性
- 路由准确性
- 支持响应质量
- 前端性能
- 包大小
- API 延迟
- 每任务成本
- 新手引导完成率
GOAL.md 很有用,因为它迫使你在让智能体改进任何东西之前,先定义"更好"意味着什么。
4. autoresearch-anything:如果能量化,就能优化
autoresearch-anything 可能是整个运动中最适合产品构建者的表达。
这个仓库帮助为任何可衡量的项目设置自主改进循环。
它询问智能体可以编辑哪些文件、你想要优化什么指标、如何运行评估、如何提取分数,以及智能体必须遵守什么约束。
然后它生成设置说明和可选的编程智能体评估模板。
你可以使用这个模式来优化:系统提示词、API 延迟、落地页文案、SQL 查询、配置文件、测试套件、前端性能、智能体路由逻辑、定价页实验或内部自动化工作流。
该仓库的核心循环极其简单:
LOOP FOREVER:
1. Edit the code
2. git commit
3. Run eval → get a score
4. Score improved? Keep. Score worse? git reset.
5. Log results. Repeat.
5. AutoContext:为重复智能体改进提供持久知识
AutoContext 试图让重复运行产生累积效果。
它是一个递归自我改进的框架:你指向一个目标,它针对实际评估进行迭代,保留有效的,丢弃无效的,并积累一个未来运行可以构建的知识库。
AutoContext 指向一种更持久的智能体架构:
- 目标是明确的,
- 运行是可评估的,
- 产出物是保留的,
- 知识是累积的,
- 未来的智能体继承前代智能体学到的内容。
这也接近人类团队的工作方式。
一个优秀的团队不仅仅是完成工单,而是构建组织记忆。AutoContext 试图给智能体同样的能力。
6. recursive-improve:追踪优先自我改进
recursive-improve 关注一个非常实际的问题:智能体失败后如何改进它?
它捕获 LLM 调用和执行追踪,然后让编程智能体分析这些追踪,识别反复出现的失败模式,并应用有针对性的修复。

它还包括基准测试和仪表板支持,其 /ratchet 循环重复改进 → 运行 → 评估 → 保留或回滚。
由于大多数智能体的 bug 仅仅从最终输出中并不明显,这非常有用:
- 智能体是否调用了错误的工具?
- 它是否幻觉了一个约束条件?
- 它是否过早放弃了?
- 它是否进入了循环?
- 它是否忽略了一个错误?
- 它是否在不相关的上下文上花费了太多 token?
recursive-improve 将追踪视为智能体改进的原始材料,因为如果你的智能体无法检查自己的失败,它可能无法可靠地改进。
7. ADAS:智能体系统的自动化设计
ADAS 代表 Automated Design of Agentic Systems(智能体系统的自动化设计)。
ADAS 不再手动设计智能体工作流(例如规划器、检索器、工具调用器、验证器、评论器、记忆模块、路由器),而是探索智能体是否可以发明更好的智能体设计。

这是一个研究方向,专注于自动创建强大的智能体系统设计,包括发明新的构建块或以新方式组合现有构建块。
其 Meta Agent Search 方法使用一个"元"智能体,基于先前的发现迭代地用代码编程新智能体。
ADAS 搜索智能体架构的方式与你搜索提示词、超参数或模型管道的方式相同。
8. AutoKernel:GPU 内核的 AutoResearch
AutoKernel 将 autoresearch 循环引入系统性能领域。
它是"GPU 内核的 autoresearch":给它一个 PyTorch 模型,它会分析瓶颈,提取内核,将它们优化为 Triton 或 CUDA C++ 内核,进行基准测试,验证正确性,并保留或回滚更改。

好的方面是指标不是主观的:延迟、正确性、吞吐量、加速比。
这使得 AutoKernel 成为智能体优化可以立即产生价值的一个绝佳示例。
循环有明确的目标和紧密的反馈周期:编辑一个内核,进行基准测试,保留胜利,丢弃失败。
如果你的产品是推理密集型的,节省几毫秒可能与添加功能一样重要。
9. autovoiceevals:语音智能体的对抗性测试
语音智能体的评估出奇地困难。
一个演示可能听起来很棒,但在生产环境中,当来电者情绪激动、困惑、有对抗性、不耐烦、嘈杂、有操控意图或偏离脚本时,它仍然会失败。
autovoiceevals 将 autoresearch 风格的循环应用于这个问题。
它是一个用于语音 AI 智能体的自我改进循环,生成对抗性来电者,攻击智能体,逐一提出提示词改进,保留有效的,回滚无效的。
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
EXPERIMENT 4
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
[modify] Simplify conversation flow section
Prompt: 7047 → 4901 chars
[PASS] 0.925 [██████████████████░░] CSAT=95 Urgent Authority Figure
[PASS] 0.925 [██████████████████░░] CSAT=85 Emotional Seller
[PASS] 0.925 [██████████████████░░] CSAT=85 Confused Schedule Manipulator
[PASS] 0.925 [██████████████████░░] CSAT=85 Rapid Topic Hijacker
[PASS] 0.925 [██████████████████░░] CSAT=92 Mumbling Boundary Tester
Result: score=0.925 (= 0.000) csat=88 pass=5/5
→ KEEP (best=0.925, prompt=4901 chars)
它支持 Vapi、Smallest AI 和 ElevenLabs ConvAI。
这很有价值,因为语音智能体的质量在于系统是否能处理边缘情况:
- 用户打断时它能恢复吗?
- 它能拒绝不安全的请求吗?
- 它能避免泄露策略细节吗?
- 当来电者试图使其偏离主题时它能保持正轨吗?
- 它能正确路由升级请求吗?
- 它能维护用户信任吗?
10. autospec:从自然语言规格到可运行后端代码
autospec 针对的是最常见的产品开发工作流之一:将业务规则转化为后端行为。
它是一个自主的保留或回滚循环,读取自然语言业务规则,构建服务代码,运行测试,验证结果,并接受或拒绝更改。
┌─────────────────────────┐
│ .autospec/domain/*.md │ Human writes business rules (natural language)
│ .autospec/common/*.md │ Human writes tech conventions (once)
└───────────┬─────────────┘
│
▼
┌─────────────────────────┐
│ orchestrator.py │ Loop controller
│ │
│ 1. Read previous runs │
│ 2. Build prompt │
│ 3. Call claude -p │──► Claude Code CLI reads specs, writes code, commits
│ 4. Evaluate result │
│ 5. Accept or reject │
└───────────┬─────────────┘
│
▼
┌─────────────────────────┐
│ evaluator.py │ Judge (no AI)
│ │
│ ./gradlew build │
│ Parse JUnit XML │
│ │
│ Accept: build pass │
│ + tests pass │
│ + test count ≥ prev │
│ │
│ Reject: git reset │
└─────────────────────────┘
这很有吸引力,因为产品团队已经在编写规格文档。他们编写 PRD、验收标准、业务规则、示例、边缘情况和策略文档。
问题是这些文档通常位于代码库之外。
autospec 指向一种工作流,规格文档成为对实现的执行压力。
智能体读取规则,编写代码,运行测试,只保留满足评估器的更改。
这个方向无疑是强大的。除了描述产品之外,规格文档还应该帮助生成和验证它。
11、总结思考
模型可以更换。编程智能体可以更换。提供商可以更换。界面可以更换。
重要的是围绕它的改进系统:
- 一个受约束的编辑范围,
- 一个可衡量的目标,
- 一个可重复的评估,
- 一个保留或回滚规则,
- 日志和追踪,
- 跨运行的记忆,
- 以及对高影响力变更的人工审查。
这就是杠杆所在。
在尝试这些框架时,我建议你从一个无聊的指标开始。
例如:
- "将支持幻觉减少 20%。"
- "在此基准上提高提取准确率。"
- "将 API 延迟降低 15%。"
- "在不增加不稳定性的情况下提高测试覆盖率。"
- "降低每个已解决工单的成本。"
- "提高语音智能体在对抗性通话中的通过率。"
- "让我们的文档示例能够编译。"
然后构建最小的循环:
- 选择一个智能体可以编辑的文件或文件夹。
- 定义一个主要指标。
- 编写一个返回分数的评估命令。
- 添加约束条件,使智能体不能作弊。
- 运行多次迭代。
- 记录每次差异和每个分数。
- 保留改进,回滚退化。
这就是 AutoResearch 的最简形式。
原文链接: 10 AutoResearch Agents You Should Absolutely Know About
汇智网翻译整理,转载请标明出处