50个智能体，你仍然是瓶颈

我们被推销了一个干净的故事。

AI智能体编写代码。你孵化更多智能体。你发布更多软件。

它像算力一样伸缩。需要更多吞吐量？增加更多工人。

然后你在真正的团队中尝试了它。

吞吐量并没有随智能体的数量而扩展。它随着某种更小、更烦人的东西扩展。

它随着你而扩展。

1、瓶颈又转移了

多年来，人们的假设是写代码是慢的部分。所以我们自动化了写代码。

现在，一个智能体可以在你读完工单之前就产出一个可工作的模块。生成几乎免费了。

但生成从来不是工作的全部。

总得有人来判断产出是否正确。总得有人来合并它。总得有人在凌晨2点它出问题时负责。

那个某人就是一个人、一个大脑。

Addy Osmani 对此有最精辟的表述：在一队并行智能体中，你就是全局解释器锁（GIL）。每一条并行的工作线程——每一个智能体产出——仍然必须获取你的注意力，一次一个，串行执行。

你可以运行二十个智能体。但你无法同时审查二十件事。

代码变得并行了。你的判断没有。

2、你实际在构建什么：工厂

这是对每个领导工程的人都很重要的转变。

你的工作不再是编写功能。而是设计生产功能的系统。

业界将其称为工厂模式——SDLC 变成智能体的装配线，由规格说明和质量门控管理，而不是工匠手工编码。

在这个模式中，规格说明不再是一个提示词。它变成了产品思维，在任何一个智能体运行之前就已明确。

这是大多数团队跳过的一步。他们直接跳到了"把智能体指向仓库"。然后他们奇怪为什么输出会偏离。

工厂只有在你设计好它运行的车间时才有效。

3、约束框架本身就是产品

在每个让智能体真正工作的团队中，都有一个安静的真相：

模型不是差异化的关键。约束框架才是。

约束框架是包裹在原始模型周围的一切——提示词、工具、上下文和检索、记忆、护栏、沙箱、测试、重试逻辑、可观测性。

一个强大的约束框架可以让一个普通的模型胜过裸奔的更聪明的模型。据报道，一个团队仅通过改进约束框架就将智能体从第30名提升到了第5名——底层模型不变。

所以实际的规则不言自明：把每一个智能体错误当作永久信号，而不是一次性事件。

智能体运行了破坏性命令？不要只是撤销它。在约束框架中阻止它，让它永远不会再发生。智能体幻觉了一个API？将模式添加到上下文中。智能体接手了一个40步的任务，在第12步时迷失了？把它拆分成规划器和执行器。

每一次失败都变成一个固定装置。随着时间的推移，错误率逐渐下降。这就是全部的游戏。

4、管弦乐队以及为什么没有智能体给自己批改作业

在工厂内部，你不是运行一个智能体。你运行一个代码智能体管弦乐队：专门的角色相互交接工作。

规划器分解工作。实现者编写代码。测试者编写并运行测试。安全审查者寻找漏洞。

那个阵容中唯一最重要的规则是：实现者绝不能给自己批改作业。

这就是对抗性审查的价值所在。一个智能体编写功能。另一个不同的智能体积极尝试破坏它——寻找边缘情况、逻辑bug、它悄悄忽略的规格说明。

单个智能体默认是自信的。自信正是你不能信任的东西。两个处于紧张状态的智能体暴露了一个智能体会愉快掩盖的事情。

但是——这是一条应该让每个领导者停下来思考的线——

验证仍然在你身上。无人值守的循环制造无人值守的错误。

5、仪表盘上看不到的三笔债务

这就是为什么这不仅仅是一个效率故事。智能化SDLC创造了三种新的负债，而它们都不会出现在你的测试结果中。它们会在以后出现，出现在你的事故回顾中。

1. 意图债务。 你的本意和你实际告诉智能体之间的差距。

智能体按字面执行。每一个模糊的需求、每一个未明说的假设，都会被一个自信的猜测填满。而每一个新的会话都从冷启动开始——所以猜测在累积。

功能"能用"。它通过了测试。它只是不是你想要的。这就是意图债务，它在每一次不精确的指令中悄无声息地累积。

2. 理解债务。 系统中现有代码量与任何人类实际理解的代码量之间不断扩大的差距。

这种债务在设计上是不可见的。代码能编译。测试能通过。没有人理解它为什么是现在这个样子。然后一个"简单"的变更引爆了三个模块之外的东西，而你没有任何心智模型可以用来调试它。

3. 认知投降。 人类停止批判性地评估输出并开始机械地批准的那一刻。

"看起来没问题。"发布吧。

这是三者中最危险的，因为它导致了其他两个。研究表明，对自信但错误的AI回答有着惊人的高接受率。每一次未经审查的批准都是一笔小额贷款，针对的是你不再理解的代码库——而你用来理解它所需的技能在悄无声息地萎缩。

三笔债务。没有一笔被你的CI流水线捕获。它们最终都由你的值班轮换来偿还。

6、编排税：没有人放在幻灯片上的数字

现在回到瓶颈问题。

孵化智能体是便宜的。审查、合并和推理它们交付的东西则不是。

你每增加一个智能体，编排税就会上升——全部落在循环中唯一的人类身上的协调成本。更多的跳转意味着更多的延迟。更多的上下文传递意味着更多的 token 和成本。小错误在步骤之间累积。保持智能体对齐变得越来越困难。而设计、调优和监控所有这些的管理开销都落在一组肩膀上。

这就是"用AI智能体实现10倍效率"的推销中遗漏的部分。

超过几个智能体后，你不会得到更多的吞吐量。你会得到更多的上下文切换、更深的审查队列和因疲劳而产生的更浅的审查。忙碌——但没有效率。

原则不是"最大化智能体数量"。它残酷地简单：

当下一个智能体消耗的注意力超过它带来的收益时，停止添加智能体。

优化净价值，而不是原始速度。

7、领导者行动手册

如果你是设计这个系统的人——作为架构师，你就是——以下是在负载下真正经得起考验的东西。

在规格说明上投入不成比例的资源。 模糊的需求不再只导致一个bug。它们在每一次并行运行中传播相同的错误假设。在智能体接触任何东西之前锁定需求、接口和验收测试。

让测试成为约束条件，而不是事后想法。 测试优先（红绿TDD）是你可以给智能体的最高杠杆的指令之一。一个智能体必须满足的失败测试是其创造力的围栏。没有它，智能体就会优化"看起来完成了"的样子。

默认构建对抗性审查。 没有单个智能体可以最终确定代码。把创造者和检查者分开。让一个智能体攻击另一个构建的东西。

根据你的审查速率扩展舰队——而不是UI。 如果你是一个审查者，二十个智能体将埋没你。选择一个可持续的并行度（通常是三到五个），批量审查以摊销上下文切换，并在队列增长时施加背压。

把理解当作一个可交付成果。 要求PR摘要和简短的"为什么"文档。轮换谁审查哪个循环。那些向AI提问的团队保留理解力；那些被动接受的团队在自己代码的测试中得分要差得多。阅读循环交付的东西——否则就别再做工程师了。

8、结束语

AI软件工厂不是炒作。做得好时，一个强大的约束框架可以将单个模型放大数倍，而一个专业化的管弦乐队可以并行交付真正的复杂性。

但这种杠杆是有代价的。意图债务、理解债务、认知投降和编排税不是这种方法中的bug——它们是智能体工作方式的结构性特征。它们是可管理的，但只能通过精心的设计和拒绝退场的人类来实现。

每个工程领导者的战略问题不是*"我能运行多少个智能体？"*

而是*"这些内容我还能理解多少——出问题时谁来负责？"*

所以设计约束框架。编排智能体。守护人类。有意识地缴纳税款。交付价值。

然后再来一次。

原文链接: You Can Spawn 50 AI Agents. You're still the Bottleneck.

汇智网翻译整理，转载请标明出处