AI Harness 工程的崛起

AI Agents 先是需要 SDK,然后是 Frameworks,接着是 Scaffolding。现在它们需要一个 Harness。

AI Harness 工程的崛起
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI工具导航 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

我写过关于构建 AI Agents 的三种架构方法:SDK、Frameworks 和 Scaffolding。

每一种都处于灵活性 vs 结构性光谱的不同位置。

2026年出现了第四种模式,位于这三种方法之上。它被称为 Harness。

OpenAIAnthropic 现在都正式使用了这个术语。

Martin Fowler 写过相关文章。一篇 arXiv 论文 对其进行了形式化定义。

这不是一个流行词,它是决定 AI Agents 是否能在生产环境中真正工作的缺失架构层。

Harness 工程是决定 AI Agents 是否能在生产环境中真正工作的缺失架构层。

1、核心要点

Harness 不是 agent。

它是管理 agent 如何运行的软件系统。

它管理完整的生命周期……工具、内存、重试、人工批准、上下文工程、子 agent……以便模型专注于推理。

Philipp Schmid 用计算机类比很好地说明了这一点……

None

模型是原始处理能力。

上下文窗口是有限的工作记忆。

Harness 是操作系统……管理上下文、初始化序列和标准工具驱动程序。

Agent 是运行在其之上的应用程序。

2、Harness 在架构栈中的位置

我之前介绍了构建 AI Agents 的三种架构方法

以下是 Harness 与每种方法的关系。

None

SDK、Scaffolding 和 Frameworks 回答的是如何构建 AI Agent 的问题。

Harness 回答的是一个完全不同的问题,agent 如何运行

你可以使用这三种方法中的任何一种来构建 harness。Harness 不是它们的替代品。它是更高的一层。

四种方法的比较:

None

4、Harness 的六个组件

parallel.ai 团队确定了六个核心组件……

这与 OpenAIAnthropic 发布的内容一致。

None

工具集成层

通过定义的协议将模型连接到外部 API、数据库、代码执行环境和自定义工具。

内存和状态管理

多层内存(工作上下文、会话状态、长期内存),在单个上下文窗口之外持久化。

Anthropic 的方法 使用进度文件和 git 历史记录来桥接会话。

上下文工程和提示管理

动态策划每次模型调用中出现的信息。

不是静态的提示模板,而是基于当前任务状态的主动上下文选择。

规划和分解

引导模型通过结构化的任务序列,而不是试图一次性完成所有事情。

验证和防护

验证检查、格式验证、安全过滤器。自我纠正循环。当 agent 遇到困难时,harness 将其视为识别缺失内容的信号。

模块化和可扩展性

可以独立启用、禁用或替换的可插拔组件。

5、生产环境中的真实 Harness

Claude Code 就是一个 harness。

它读取整个代码库、管理文件系统访问、生成子 agent、处理工具编排、跨会话维护内存并实现防护。

开发人员专注于任务。Harness 管理其他所有事情。

OpenAI Codex 使用了 harness 工程。

他们的团队构建了一个超过 100 万行的代码库,完全没有手动输入的代码,将 harness 作为主要接口。

当 agent 遇到困难时,他们将改进反馈到存储库中。上下文工程、架构约束和定期清理 agent 形成了核心。

OpenAI 的 CUA 示例应用程序 是用于计算机使用的 harness。

Runner 管理截图 → 操作 → 验证 → 重复的循环。

模型决定做什么。Harness 安全地执行它。

6、Framework 层正在合并到 Harness 中

在我最近关于消失的 framework 层的文章中,我论证了模型正在吸收传统上由多 agent frameworks 处理的功能。

Agent 定义、消息路由、任务生命周期、依赖管理、生成工作进程……大约 80% 开发人员使用 framework 的功能,模型现在原生处理。

剩下的 20%:持久性、确定性重放、成本控制、可观察性、错误恢复——正是 harness 提供的内容。

None

Framework 层不仅仅是在消失。它在分裂。智能进入模型。基础设施进入 harness。

7、Harness vs Framework

Framework 告诉开发人员如何构建应用程序。

Harness 告诉 agent 如何安全运行。

使用 framework 时,开发人员编写编排逻辑。

使用 harness 时,模型制定计划。Harness 保持其正常运行。

None

8、实际意义

对于今天构建 AI Agents 的团队来说,问题正在转变。

不再是我们应该使用哪个 framework?而是我们的 harness 看起来像什么?

Harness 决定了 agent 是成功还是失败。

优秀的 harness 管理人工批准、文件系统访问、工具编排、子 agent、提示和生命周期——干预最小但防止灾难性失败。

从简单开始。

构建健壮的原子工具。让模型制定计划。

添加防护、重试和验证。

这就是 harness 工程。

9、结束语

Markdown/prompt harness(如 Anthropic 的 CLAUDE.md 技能)将编排指令直接嵌入系统提示或结构化的 markdown 文件中。

LLM 本身成为循环控制器——它读取 harness 规则并遵循它们。

当 LLM 足够强大可以自我指导并且你想要无需代码更改的快速迭代时,这是最佳选择。


原文链接: The Rise of AI Harness Engineering

汇智网翻译整理,转载请标明出处