验证债:AI生成代码的隐性成本
AI智能体使输出廉价。它们不会使责任廉价。
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署 | Tripo 3D | Meshy AI
我已经忘记如何编写代码,或者至少我认为我忘记了。很难确定,我已经有一段时间没有写代码了。但接着,我开始思考,我上次搭建全新服务器并安装Linux是什么时候?如果这样一个物理过程可以用Terraform简化为一行命令,为什么代码应该是神圣的?
没关系,我仍然可以阅读代码。还有文档。还有计划。百万令牌的内容,有时我甚至会注意其中的任何内容。我主要是为了按下屏幕上巨大的"我要负责"按钮(至少,我想象它是这样说的)。"我,Lars Janssen,特此证明我要求至少两个LLM agent以审查的名义撕碎提交的变更。"
但偶尔,我必须深入研究结构,拉出代码并理解不同机器人派系所创建的内容。我是良好品味的最终仲裁者,尽管每一个自行车棚争吵都已经被提炼到模型中,因此它们可能比我更清楚良好应该是什么样子的。
那将是十年结束时我们要达到的地方吗?几个月前,那个未来感觉遥远而舒适。然后有什么东西改变了。
现在,爱好者们已经上瘾了。他们不能离开办公桌,除非至少启动了两个agent,正在思考,为他们工作。如果你不在上厕所时烧毁令牌,你就不具有生产力。与此同时,怀疑者抱怨——并非没有正当理由——AI正在减慢他们的速度,他们可以自己做得更快。
两个阵营都是对的。这实际上就像今天这样:
- 您的agent在十分钟内产生令人印象深刻的差异。您花费一个小时确保它没有遗漏稍后会咬到您屁股的东西。
- 上下文消失。200,000个令牌听起来很慷慨,直到agent开始压缩您的对话并忘记您十分钟前同意的内容。
- 输出令人窒息地冗长。您要求一个集中的更改,却得到一篇带有未经请求的评论和不必要的重构的论文。
- 工具集成是不确定的。一些MCP是出色的。其他的让人感觉有人在信封背面涂写了API文档,并让模型弄清楚其余部分。
然而。尽管有所有这一切,有些事情已经改变了。没有人再争论它是否工作了。他们在争论如何工作。
1、从派对把戏到生产
几年前,ChatGPT推出,世界短暂地失去了理智。在当时的一篇博客文章中,我称之为"盒子里的脑子"——强大的推理,零连接。想象一下,如果Apple发布了iPhone但没有网络。令人印象深刻的技术演示,对实际工作毫无用处。您可以在里面和外面复制粘贴片段,也就这样了。
去年,工具有所改进。自动完成让位于agent工作流的开始。但仍然很笨拙——连接有限,可访问性差,并且如果您将目光从模型上移开哪怕一分钟,模型就会很快走偏并做自己的事情。
什么改变了?几件事,同时发生。
模型变得真正好——不完美,但足够好,您可以给agent一个真正的任务并获得连贯的回报,即使您必须点击"是"五十次才能通过权限提示。到了Opus 4.5和GPT-5,曾经不屑一顾的人开始关注了。
产品与它们一起成熟。能够深入大型、遗留代码库并实际弄清楚正在发生什么的事的终端原生agent。足够符合人体工程学,以至于您停止与工具作斗争并开始使用它。
而且我们更擅长使用它。提示是一种技能。为agent确定任务范围是一种技能。知道何时信任输出以及何时将其丢弃是一种技能。
这不是一个突破。它是更好的模型、更好的工具和更有经验的用户的复合效应——同时到达。就像早期互联网:没人记得它变得有用的确切日子。它只是……做到了。
2、当工具流行时
真正的转变不是更聪明的模型。而是当您将它们插入到您的实际系统时会发生什么。
当我将Claude Code连接到我们的Snowflake数据仓库时,一个帮助编写SQL的整洁工具变成了全职分析师。它开始自己挖掘模式,与代码和Confluence页面交叉参考,并带回了我甚至没有想到要寻找的洞察。
不是"AI为我编写代码",而是"AI可以通过定义良好的工具在世界上实际行动。"当集成良好时,agent停止成为花哨的自动完成,开始成为真正的合作者,可以调查、交叉参考和提出建议。
当它们不好时,这就像给实习生一张一半街道都是虚构的地图。

LLM现在正在连接到世界——不再只是"盒子里的脑子"
3、验证债
这里有一件事正在静静地让每个人意识到:当然,我们编写的代码更少了。但我们正在用验证工作替换它。
agent可以在几分钟内产生看似合理的差异。测试通过。提交消息比人类写的一半都要好。PR看起来很干净。这正是陷阱所在——因为"看起来正确"与"是正确"不是一回事。
我称之为验证债:我们生成输出和验证它的速度之间不断增长的差距。每次您点击批准一个您没有完全理解的差异时,您都在向未来借款。与通常通过不断增加的摩擦——缓慢的构建、纠缠的依赖关系、每次触摸该模块时的蔓延恐惧——来宣布自己的技术债务不同,验证债务孕育虚假的信心。代码库看起来很干净。测试是绿色的。六个月后,您发现您构建的完全与规范所说的相符——而没有客户实际想要的。
不要问"我们如何生产更多代码?",而是问"我们如何验证更多代码?"这是2026年的真正问题。
一个合理的验证清单,就在现在:
- agent是否实现了正确的逻辑,还是忠实地编写了有缺陷的规范?它不会质疑您的意图——除非明确要求。
- agent对领域做了什么假设?
- 此更改引入了什么权限、数据访问或副作用?
- 您愿意为此使用您的名字做客户实际需要的事情——而不仅仅是工单所说的吗?
如果最后一个问题的答案是"可能",您还没有完成审查。
4、人类瓶颈
这里有一个令人不安的真相:如果AI让每个工程师的效率提高50%,组织不会获得50%更多的输出。它获得50%更多的拉取请求、50%更多的文档、50%更多的设计提案——并且有人必须审查所有这些内容。
当少数早期采用者产生更多PR时,团队可以吸收。当每个人都这样做时,审查成为约束。瓶颈不会消失。它向上游移动,到工作中不可减少为人类的部分:决定构建什么、定义"完成"、理解领域,以及对风险和权衡做出判断判断。
没有人想审查AI垃圾。有一个合理的期望,您在提交之前检查自己的输出。但我的发件箱堆积了急切的agent输出,比我费力浏览的速度还要快。
软件工程一直是知识工作——分析、共享上下文、建立共同理解。AI可以帮助您更快找到信息,但您仍然必须理解它。
我的一天大部分时间是我询问agent问题。"好问题!",他们说,即使我第无数次问它,因为现在我们都是"10倍"开发人员,很难跟上这么多项目的细节。AI不会减少认知负荷。它转化了认知负荷。
担心的不仅仅是关于工作——而是我们将停止思考。我在办公室听到人们说,半开玩笑我想,到今年年底,我们甚至不会再思考了。
这与人们当Google成为现实时的恐惧相同。为什么要通过文档推理当您可以搜索答案时?这里实际发生了什么:我们停止记忆API签名并开始解决更难的问题。技能转移了,但它没有缩小。AI是相同的模式,上了一级。
我可能在具体细节上错了。也许上下文窗口会平稳。也许集成会保持不稳定多年。细节并不重要。方向是不可逆转的。
agent使输出廉价。它们不会使责任廉价。
明天我仍然会在我的办公桌,agent启动,按下"责怪我"按钮。
原文链接: Verification debt: hidden cost of AI-generated code
汇智网翻译整理,转载请标明出处