INDUSTRY

AI让创造免费，判断变得昂贵

为什么验证正在成为产品管理中最重要的技能。

admin

Jun 8, 2026 • 10 min read

AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

AI 解决了错误的问题。

两年来，我们痴迷于 AI 能以多快的速度创造东西。

代码。PRD。研究。策略。内容。

然后，一件奇怪的事情发生了。

创造不再是瓶颈。

其他一切都成了瓶颈。

1、没有人预料到的逆转

经济学中有一个概念叫做"约束瓶颈"。它是限制系统产出的唯一因素。当你移除它时，系统会加速。但当你这样做时，下一个约束就会成为瓶颈。

AI 几乎在一夜之间消除了创造约束。

而下一个约束立刻显现出来：验证。

在知识工作的大部分历史中，经济学遵循一个简单的模式。创造是昂贵的。验证是廉价的。

编写代码需要时间。审查它更快。起草一份策略文档需要精力。阅读和批准它只需要一个会议。构建原型需要资源。评估它只需要一个下午。

产品团队的整个组织架构都是围绕这种不对称性建立的。工程师负责创造。PM 负责审查和排序优先级。高管负责批准。

AI 翻转了这个比例。而组织还没有跟上。

2、这对 PM 来说现在是什么样子

考虑一下今天典型的 AI 辅助 PM 工作流是什么样的。

一个 PM 使用 Claude 将 200 次客户访谈综合成主题。另一个工具根据这些主题生成 PRD。第三个工具起草用户故事。第四个工具创建验收标准。整个技术栈在一小时内就能产出一份经过润色的、结构化的、全面的文档。

然后呢？

必须有人来判断它是否真的正确。

综合分析是否捕捉到了客户真正在说的话，还是将细微之处扁平化为最常见的统计模式？PRD 是否反映了实际的业务策略，还是一个听起来合理的近似值？用户故事是基于对真实工作流程的理解，还是通用的最佳实践模板？验收标准是否捕捉到了在你们特定的合规环境中会起作用的边界情况？

AI 加速了产生文档产物的部分。

它没有加速产生判断的部分。

正如一位观察者直言不讳地说，这句话在 PM 社区中已经流传了几个月：PM 们忘记了他们最初为什么要写 PRD。那从来不是为了文档本身。那是为了强迫自己深入思考问题。

当 AI 撰写文档时，思考可以保持不被迫进行。

这就是为什么产品会在写下一行代码之前就出问题。

3、昂贵思考的终结

这是廉价创造最令人不安的暗示。

在 AI 出现之前，PM 的判断力嵌入在 PM 的流程中。你必须采访客户、综合研究、撰写文档、映射工作流程。判断力包装在努力之中。即使是平庸的思考也包裹在足够多的工作量中，使得很难将质量与数量分开。

现在 AI 将这个过程压缩到了几分钟。

这意味着判断力被暴露了出来。

你不能再将低质量的思考隐藏在高努力的过程中。

四分钟生成 PRD 并直接交付的 PM 并不是更快的。他们只是把失败转移到了下游——转移到了工程周期中、客户的失望中、发布后的手忙脚乱中——而这些成本总是比发布前的清晰度更昂贵。

四分钟生成 PRD，然后花两个小时根据真实客户证据对每一个假设进行压力测试，根据实际的合规要求检查每一个约束条件，根据运营现实验证每一个边界情况的 PM：那个 PM 才是真正更快、更好的。

技能不是生成。技能是知道好的东西是什么样的，并对 AI 输出与好之间的差距毫不留情。

这与我们在《不再复利的 PM 工作》中所讨论的不同，那篇文章的论点是关于停止低杠杆的流程工作。这是关于更根本的事情：PM 价值本身的本质正在从生产转向评估。

4、数据告诉了我们什么

验证是新瓶颈的证据不是轶事性的。它同时出现在整个行业的硬数据中。

CircleCI 的 2026 年软件交付状态报告，分析了 22,000 个组织的 2,800 万个工作流，发现 AI 使平均工作流吞吐量同比增加了 59%。团队生成的代码比以往任何时候都多。

但主分支成功率降至 70.8%，为五年来最低，远低于 CircleCI 认为健康的 90% 阈值。现在近十分之三的代码合并尝试都失败了。中位数团队的恢复时间达到 72 分钟，同比增长 13%。

更多的代码。更少的软件实际到达客户手中。

Sonar 2026 年代码开发者调查，基于全球 1,100 多名开发者，发现 96% 的开发者不完全信任 AI 生成代码的功能准确性。然而只有 48% 的人表示他们总是在提交之前检查它。

不信任与验证之间的差距不是一个纪律问题。它是一个能力问题。生成扩展了。验证没有。

瓶颈没有消失。它转移了。

5、AI 废料是一种验证失败

现在在产品和工程领域流传着一个术语。

AI 废料（AI slop）。

它指的是被人类接受的 AI 系统输出，而这些人类从未真正对其进行过有意义的评估。PM 用 AI 写 PRD，主管用 AI 总结它们，工程师用 AI 根据它们构建，而整个链条中没有任何人在真正思考问题。

产物看起来是正确的。文档结构良好。代码可以编译。一切都通过了表面检查。

然后它到达了生产环境，或者客户手中，或者监管机构面前，然后出了问题——而这种问题很难追溯，因为没有人在任何阶段做出过真正的决策。他们只是批准了输出。

正如一篇分析所指出的：目标不是 10 倍的产出。而是 10 倍的辨别力。AI 放大意图。那些投资于确保意图值得放大的组织将驾驭这个时代。那些把生成视为终点线的组织将不会。

这与我们在《部署 AI 很容易。与它的行为共处却不是。》中讨论的不同，那篇文章是关于部署后监控的。AI 废料是一种部署前的失败。问题在产品发布之前就出现了，而不是之后。

6、新的职业护城河

二十年来，知识工作者因为生产信息而获得回报。

在下一个十年，他们将因为评估信息而获得回报。

AI 可以生成十种策略。它无法告诉你在你的组织内部哪一种是政治上可行的。

AI 可以生成十张路线图。它无法告诉你在六个月后你的客户真正关心哪一张。

AI 可以生成十份 PRD。它无法告诉你在你公司当前的约束条件、竞争地位和技术债务下，哪一份解决了正确的问题。

AI 可以综合客户研究。它无法告诉你哪些信号是真实的，哪些信号反映的是你提问的方式。

这些是验证技能。它们越来越成为真正有价值的 PM 与产出高质量看起来不错但没有人完全信任的产物的 PM 之间的分水岭。

知识工作的新赢家不是更快的创造者。他们是更好的评判者。

能捕捉到生成所遗漏内容的评审者。其上下文知识使 AI 输出有意义而非看似合理的领域专家。知道何时信任输出、何时质疑它的协调者。有品味的人——这是识别 AI 产出的东西与真正好的东西之间差距的另一种说法。

这就是为什么我们在《前向部署工程师是新的管理顾问》中探讨的 FDE 模型从根本上来说是一个验证故事。FDE 的存在是因为部署在企业环境中的 AI 系统需要人类的判断来验证它们在上下文中确实有效，而不仅仅是在演示中有效。部署差距就是验证差距。

这就是为什么代理泛滥成为了一场治理危机。当没有人验证代理在做什么、谁拥有它们、或者它们的输出是否可信时，组织成本的增长速度超过了生产力的增长。

验证一直都是工作本身。AI 只是让跳过它变得灾难性的。

7、更深的模式

退一步看，这个图景在每个领域都是一致的。

AI 加速了工程中的创造。瓶颈转移到了验证和部署。FDE 的存在是因为有人需要验证 AI 系统在真实的企业环境中有效，而不仅仅是在沙盒中。

AI 加速了代理部署。瓶颈转移到了治理和问责。代理泛滥的发生是因为组织没有验证任何东西：没有验证谁拥有代理，没有验证它们在做什么，没有验证它们的输出是否可信。

AI 加速了知识工作中的内容、代码和决策生成。瓶颈转移到了判断。AI 废料的存在是因为验证没有跟上生成的步伐。

这个模式是结构性的。当你使流程中的一个步骤变得极其廉价时，相邻的步骤就成为约束。创造变得廉价。整个价值链围绕控制验证的人重新组织。

这就是验证经济（Verification Economy）。

它不是一个值得关注的趋势。

它是 2026 年的运营现实。

8、本周尝试的一件事

选择上个月你们团队交付的一个 AI 生成的产物。一份 PRD、一份策略文档、一份研究综合、一组验收标准、一份路线图优先级排序。

然后问：如果人类从头开始做，会有什么不同？

不是 AI 输出是否错误。而是它包含的思考是你的，还是模型的。

如果你无法自信地回答这个问题，你就存在一个验证缺口。

在验证经济中，那个缺口就是产品失败的地方。

原文链接：AI Made Creation Free. Now Someone Has to Decide If It's Right.

汇智网翻译整理，转载请标明出处