代码很廉价，现在重要的是什么？

有些东西发生了变化。

我从事AI智能体系统构建已经有一段时间了——合同分析平台、混合智能体-图执行模型，以及常见的编排难题。但看着GPT-5.1和Claude Opus 4.5跨越了看似可靠性阈值的边界，让我重新思考了我对这个领域的理解。我们不再处于代码补全的时代。我们处于智能体工程的时代，编码智能体独立地编写、测试和调试大量代码。问题不再是这是否会改变软件开发——它已经改变了。问题是，在另一侧，什么仍然有价值。

Simon Willison——Django联合创始人，"提示注入"（prompt injection）和"智能体工程"（agentic engineering）这两个术语的创造者，或许也是在实时记录这一转型中最引人注目的实践者——一直以他特有的清晰度在写这方面的文章。代码已经变得廉价。而尚未变得廉价的，是人类的能动性、雄心和品味。将这些工具引导到值得构建的方向上的能力。判断输出是否真正优秀的洞察力。

我想梳理一下我认为这意味着什么。

1、黑暗工厂模式

Willison描述的一个概念让我挥之不去："黑暗工厂"（dark factory）软件生产方式。高度自动化。没有人编写代码。没有人阅读代码。质量保证通过大量智能体测试器完成，它们模拟终端用户并全天候对系统进行压力测试。

这听起来像科幻小说，直到你看到一个自动研究智能体在你睡觉的六小时内复制了一个复杂的SaaS应用程序。或者直到你看到Chrome扩展程序在十五秒内构建完成——功能完备、可安装，精确地完成了被要求的任务。"这在理论上是可能的"和"我刚刚亲眼看到它发生了"之间的鸿沟已经坍塌。

黑暗工厂模式提出了一个显而易见的问题：如果没有人阅读代码，你怎么知道它是正确的？Willison的回答很务实——红/绿测试驱动开发。先写测试。让智能体生成使测试通过的代码。测试同时成为规范、验证和文档。你不是在审查代码；你是在审查行为。

我觉得这很有说服力但不完整。测试可以验证代码是否做了你指定的功能。它们无法验证你指定的功能是否是正确的东西来构建。那个判断——什么应该存在，什么值得消耗算力，用户真正需要什么——仍然固执地属于人类。

测试无法验证你指定的功能是否是正确的东西来构建。那个判断——什么应该存在，什么值得消耗算力，用户真正需要什么——仍然固执地属于人类。

2、精神疲惫问题

有一件事我没有预料到：并行管理多个智能体在认知上是残酷的。

Willison描述自己在上午中途就因为协调智能体群的精神负担而"精疲力竭"。我也有过这种经历。你生成三个智能体——一个负责逻辑，一个负责测试，一个负责集成——突然你就在它们的输出之间进行上下文切换，捕捉细微的错误，对选择哪个分支做出判断。并不是任何单个交互很困难。而是总负荷比你预期的累积得更快。

这映射到我在自己工作中注意到的一个模式：编排是稀缺资源，而非智能。大语言模型已经足够有能力了。缺少的是在扩展工作流中维护状态的协调层，决定何时调用哪个工具，并使整个系统随着时间保持一致。Claude Code泄露的70,000行编排代码比底层模型更重要，因为它们解决了这个问题。

黑暗工厂愿景假设我们也会自动化协调。也许我们会的。但现在，人类是瓶颈——而且随着智能体变得更加有能力，瓶颈被挤压得更紧。

3、谁被放大，谁被取代

对劳动力的影响是不均衡的，并不整齐地对应于资历。

高级"10倍"工程师被放大了。他们已经知道好代码长什么样，什么架构模式有效，边界情况藏在哪里。AI让他们在不损失质量的情况下移动得更快。令人惊讶的是，初级工程师也受益了——他们可以快速上手，通过与AI反馈的迭代来学习，比其他情况下更早地产出有用的成果。

令人不安的中间地带是……中间层。那些将自身价值建立在知道如何编写代码——但尚未建立在判断力、架构或系统设计上的中层职业工程师——面临着最陡峭的适应曲线。带他们来到这里的技能（实现）恰恰正在被商品化的技能。

我不知道对处于那个位置的人来说，正确的应对是什么。"学习编排"说起来容易做起来难，尤其是工具每个月都在变化。我确实知道的是：那些将蓬勃发展的人是那些能够清晰指定自己想要什么、严格验证是否得到了、在没有得到时快速迭代的人。这与其说是关于编码，不如说是关于思考。

4、致命三要素

Willison的安全警告值得获得比目前更多的关注。

他描述了提示注入漏洞的"致命三要素"：一个可以访问私有数据的智能体，暴露于恶意指令（比如，一封不可信的电子邮件），并拥有数据泄露的机制。这三个条件正变得越来越常见。大多数构建智能体系统的人并没有仔细思考他们正在启用哪些能力的组合。

他的预测是令人沮丧的：我们正朝着AI的"挑战者号灾难"前进。其机制是偏离常态化——公司以不安全的方式使用这些系统，没有发生不好的事情，他们更进一步，仍然没有发生不好的事情，直到突然发生了灾难性的事情。没有失败变成了安全的证据，而实际上它只是你还没有被攻击的证据。

我在自己的工作中看到了这一点。给智能体广泛的权限很诱人，因为这使开发更快。本应伴随这些权限的安全卫生——沙箱化、能力限制、输出验证——经常被推迟。每个人都在争先恐后地发布产品。漏洞在默默累积。

当挑战者号时刻到来时——我认为它会的——回应将是监管过度和影响整个领域的声誉损害。那些现在谨慎构建的人将更有能力度过难关。

5、趣味作为基准

Willison的一个观察让我印象深刻：这个领域仍然"天生有趣"。

他用一只骑自行车的鹈鹕作为基准，通过SVG代码生成来测试LLM的空间推理能力。模型能正确画出鸟在自行车上的位置吗？他发现这个趣味测试与整体模型智能之间存在很强的相关性。

骑自行车的鹈鹕（顺便说一下，模型已经擅长这个了，如上图所示）

我喜欢这一点。它表明，即使利害关系变得更高——安全漏洞、劳动力被取代、经济颠覆——仍然有游戏的空间。我认识的最好的工程师以好奇心而非严肃来接触这些系统。当意想不到的事情成功时他们感到欣喜。当它以荒谬的方式失败时他们觉得有趣。严肃和趣味共存。

也许这就是"品味"在这个语境下的含义：知道什么时候该更用力推进，什么时候该退后一步，什么时候该信任智能体，什么时候该验证，什么时候该优化，什么时候该发布足够好的东西。算法没有品味。我们有。

6、什么仍然有价值

这是我的结论：

代码是廉价的。编排——跨时间和上下文将能力链接在一起的协调层——正在成为稀缺资源。但即使是编排最终也会被自动化。位于两者之上的是人类想要特定事物的能力，拥有值得执行的愿景，判断输出是否符合意图的能力。

Willison建议在个人仓库中"囤积"成功的代码模式和研究，为未来的AI任务提供上下文。我已经开始系统性地这样做——构建一个Claude Code技能库、提示工程制品、规格精炼工作流的库。不是因为我认为这些特定制品会永远有价值，而是因为策划什么有效的实践能培养可迁移的判断力。

梦想仍在你的脑海中。智能体可以比以往更快地执行它。但必须有人先梦想它，必须有人识别执行何时与梦想匹配。这就是人类仍然存在的意义。

我没有一个干净的结论。这个领域发展太快，来不及有干净的结论。

我所拥有的是一个工作假设：价值链正从实现转移到规范再到判断。那些能够清晰表达自己想要什么、严格验证是否得到了、并在快速行动中保持安全卫生的人——他们会做得很好。其他人则在一场与商品化的竞赛中。

编排论题不是说编排是最终答案。而是说编排是当前的瓶颈，理解瓶颈是你在它们转移时保持相关性的方式。现在，瓶颈是协调。很快它可能是验证。最终它可能是想象力本身。

但想象力，我怀疑，是唯一不会自动化的东西。梦想留在你的脑海中。其他一切都在变成基础设施。

原文链接: Code Is Cheap Now. Here's What Actually Matters.

汇智网翻译整理，转载请标明出处