INDUSTRY

验证债：AI生成代码的隐性成本

AI智能体使输出廉价。它们不会使责任廉价。

admin

Mar 8, 2026 • 9 min read

微信 ezpoda免费咨询：AI编程 | AI模型微调| AI私有化部署 | Tripo 3D | Meshy AI

我已经忘记如何编写代码，或者至少我认为我忘记了。很难确定，我已经有一段时间没有写代码了。但接着，我开始思考，我上次搭建全新服务器并安装Linux是什么时候？如果这样一个物理过程可以用Terraform简化为一行命令，为什么代码应该是神圣的？

没关系，我仍然可以阅读代码。还有文档。还有计划。百万令牌的内容，有时我甚至会注意其中的任何内容。我主要是为了按下屏幕上巨大的"我要负责"按钮（至少，我想象它是这样说的）。"我，Lars Janssen，特此证明我要求至少两个LLM agent以审查的名义撕碎提交的变更。"

但偶尔，我必须深入研究结构，拉出代码并理解不同机器人派系所创建的内容。我是良好品味的最终仲裁者，尽管每一个自行车棚争吵都已经被提炼到模型中，因此它们可能比我更清楚良好应该是什么样子的。

那将是十年结束时我们要达到的地方吗？几个月前，那个未来感觉遥远而舒适。然后有什么东西改变了。

现在，爱好者们已经上瘾了。他们不能离开办公桌，除非至少启动了两个agent，正在思考，为他们工作。如果你不在上厕所时烧毁令牌，你就不具有生产力。与此同时，怀疑者抱怨——并非没有正当理由——AI正在减慢他们的速度，他们可以自己做得更快。

两个阵营都是对的。这实际上就像今天这样：

您的agent在十分钟内产生令人印象深刻的差异。您花费一个小时确保它没有遗漏稍后会咬到您屁股的东西。
上下文消失。200,000个令牌听起来很慷慨，直到agent开始压缩您的对话并忘记您十分钟前同意的内容。
输出令人窒息地冗长。您要求一个集中的更改，却得到一篇带有未经请求的评论和不必要的重构的论文。
工具集成是不确定的。一些MCP是出色的。其他的让人感觉有人在信封背面涂写了API文档，并让模型弄清楚其余部分。

然而。尽管有所有这一切，有些事情已经改变了。没有人再争论它是否工作了。他们在争论如何工作。

1、从派对把戏到生产

几年前，ChatGPT推出，世界短暂地失去了理智。在当时的一篇博客文章中，我称之为"盒子里的脑子"——强大的推理，零连接。想象一下，如果Apple发布了iPhone但没有网络。令人印象深刻的技术演示，对实际工作毫无用处。您可以在里面和外面复制粘贴片段，也就这样了。

去年，工具有所改进。自动完成让位于agent工作流的开始。但仍然很笨拙——连接有限，可访问性差，并且如果您将目光从模型上移开哪怕一分钟，模型就会很快走偏并做自己的事情。

什么改变了？几件事，同时发生。

模型变得真正好——不完美，但足够好，您可以给agent一个真正的任务并获得连贯的回报，即使您必须点击"是"五十次才能通过权限提示。到了Opus 4.5和GPT-5，曾经不屑一顾的人开始关注了。

产品与它们一起成熟。能够深入大型、遗留代码库并实际弄清楚正在发生什么的事的终端原生agent。足够符合人体工程学，以至于您停止与工具作斗争并开始使用它。

而且我们更擅长使用它。提示是一种技能。为agent确定任务范围是一种技能。知道何时信任输出以及何时将其丢弃是一种技能。

这不是一个突破。它是更好的模型、更好的工具和更有经验的用户的复合效应——同时到达。就像早期互联网：没人记得它变得有用的确切日子。它只是……做到了。

2、当工具流行时

真正的转变不是更聪明的模型。而是当您将它们插入到您的实际系统时会发生什么。

当我将Claude Code连接到我们的Snowflake数据仓库时，一个帮助编写SQL的整洁工具变成了全职分析师。它开始自己挖掘模式，与代码和Confluence页面交叉参考，并带回了我甚至没有想到要寻找的洞察。

不是"AI为我编写代码"，而是"AI可以通过定义良好的工具在世界上实际行动。"当集成良好时，agent停止成为花哨的自动完成，开始成为真正的合作者，可以调查、交叉参考和提出建议。

当它们不好时，这就像给实习生一张一半街道都是虚构的地图。

Illustration of a brain breaking out of a glass box and connecting to databases, code and documents.

LLM现在正在连接到世界——不再只是"盒子里的脑子"

3、验证债

这里有一件事正在静静地让每个人意识到：当然，我们编写的代码更少了。但我们正在用验证工作替换它。

agent可以在几分钟内产生看似合理的差异。测试通过。提交消息比人类写的一半都要好。PR看起来很干净。这正是陷阱所在——因为"看起来正确"与"是正确"不是一回事。

我称之为验证债：我们生成输出和验证它的速度之间不断增长的差距。每次您点击批准一个您没有完全理解的差异时，您都在向未来借款。与通常通过不断增加的摩擦——缓慢的构建、纠缠的依赖关系、每次触摸该模块时的蔓延恐惧——来宣布自己的技术债务不同，验证债务孕育虚假的信心。代码库看起来很干净。测试是绿色的。六个月后，您发现您构建的完全与规范所说的相符——而没有客户实际想要的。

不要问"我们如何生产更多代码？"，而是问"我们如何验证更多代码？"这是2026年的真正问题。

一个合理的验证清单，就在现在：

agent是否实现了正确的逻辑，还是忠实地编写了有缺陷的规范？它不会质疑您的意图——除非明确要求。
agent对领域做了什么假设？
此更改引入了什么权限、数据访问或副作用？
您愿意为此使用您的名字做客户实际需要的事情——而不仅仅是工单所说的吗？

如果最后一个问题的答案是"可能"，您还没有完成审查。

4、人类瓶颈

这里有一个令人不安的真相：如果AI让每个工程师的效率提高50%，组织不会获得50%更多的输出。它获得50%更多的拉取请求、50%更多的文档、50%更多的设计提案——并且有人必须审查所有这些内容。

当少数早期采用者产生更多PR时，团队可以吸收。当每个人都这样做时，审查成为约束。瓶颈不会消失。它向上游移动，到工作中不可减少为人类的部分：决定构建什么、定义"完成"、理解领域，以及对风险和权衡做出判断判断。

没有人想审查AI垃圾。有一个合理的期望，您在提交之前检查自己的输出。但我的发件箱堆积了急切的agent输出，比我费力浏览的速度还要快。

软件工程一直是知识工作——分析、共享上下文、建立共同理解。AI可以帮助您更快找到信息，但您仍然必须理解它。

我的一天大部分时间是我询问agent问题。"好问题！"，他们说，即使我第无数次问它，因为现在我们都是"10倍"开发人员，很难跟上这么多项目的细节。AI不会减少认知负荷。它转化了认知负荷。

担心的不仅仅是关于工作——而是我们将停止思考。我在办公室听到人们说，半开玩笑我想，到今年年底，我们甚至不会再思考了。

这与人们当Google成为现实时的恐惧相同。为什么要通过文档推理当您可以搜索答案时？这里实际发生了什么：我们停止记忆API签名并开始解决更难的问题。技能转移了，但它没有缩小。AI是相同的模式，上了一级。

我可能在具体细节上错了。也许上下文窗口会平稳。也许集成会保持不稳定多年。细节并不重要。方向是不可逆转的。

agent使输出廉价。它们不会使责任廉价。

明天我仍然会在我的办公桌，agent启动，按下"责怪我"按钮。

原文链接: Verification debt: hidden cost of AI-generated code

汇智网翻译整理，转载请标明出处