编程问题已解决

目前大多数 AI 辅助开发缺乏雄心。我们从小处着手。一次只添加一个功能。我们跳过困难的部分。我们构建玩具项目来"试水"。我们将 AI 视为一个不完全信任的实习生,交给它一些安全的小任务,同时保护真正的架构免受其影响。我们向客户承诺一个 MVP,而不仅仅是 P。

我就是这样做的。然后我意识到问题不在工具,而在于我。

我仍然像必须自己完成工作一样规划项目,将范围限制在一个合理时间内一个人可以完成的范围内。模型已经进步了,但我的雄心没有。

所以我停止了小规模建设。开始梦想非常非常大的东西。

上周我开始了 Tandem,这是一个企业级的 Anthropic Claude Cowork 替代品。不是原型。不是概念验证。一个完整的桌面应用程序,具有 Tauri 外壳、React 前端、Node.js 代理运行时、带加密的 SQLite、向量内存存储、沙箱工具执行、人工确认工作流、审计跟踪、多提供商 AI 支持和配套移动应用。这是一家获得资金的公司会投入八个人团队工作六个月的项目类型。

我是一个人。

Anthropic 在大约十天内构建了 Cowork,根据 Claude Code 的创建者 Boris Cherny 的说法。整个东西都是由 Claude Code 编写的。我看着那个,心想:如果他们能做到,我也能。如果我能做到,任何有清晰愿景和足够时间的人都能。

这是"AI 编码工具"讨论中一直忽略的部分。对话仍然停留在生产力提升上,停留在开发人员是快 20% 还是慢 19% 上,停留在 Copilot 是否能帮你节省击键次数上。这种框架已经过时了。问题不是 AI 是否能帮你更快地编码。问题是什么时候构建成本几乎降到零,你会构建什么。

不是另一个 RAG 聊天机器人。不是另一个在营销页面上贴上 AI 标签的 CRUD 应用。一个完整的文档智能平台。一个企业级安全工具。一个与拥有 50 名工程师的公司竞争的产品,由你在几周内构建。

使用 Claude Opus 4.6、Sonnet 4.6 和 Gemini 3.1,模型已经实现质的飞跃。

模型现在已经具备能力。编程问题已解决。剩下的是想法、宏伟愿景、独角兽个体。为什么不呢。

1、一个 CLI 如何变成 25 亿美元的产品

Boris Cherny 并没有打算构建历史上增长最快的编码工具。他打算测试一个 API。

2024 年 9 月,Cherny 是 Anthropic 的一名工程师。团队知道他们想在编码领域构建一些东西,但没有人对是什么有足够的信心。Cherny 的工作是弄清楚这一点。他从最便宜的可能的事情开始:一个与 API 对话的终端应用程序,因为他不想构建 UI。

他给模型一个 bash 工具,主要是因为它是文档中的示例。要求它读取一个文件。它可以 cat 文件。很好。然后他问他正在听什么音乐。模型编写了 AppleScript 来查询他的 Mac 音乐播放器并返回了答案。

"那是我第一次感受到 AGI 的时刻,"Cherny 在 Light Cone 播客上说。"模型只是想使用工具。这就是它想要的。"

在第一个原型两天后,团队中的另一名工程师已经在用它编码了。Cherny 走进去,发现他坐在那里,屏幕上是 Claude Code。"我想,你在做什么?这个东西还没准备好。这只是一个原型。"但即使在那个原始形式下,它也很有用。

当 Anthropic 进行发布审查时,Dario Amodei 查看了内部采用图表,并询问 Cherny 是否在强迫工程师使用它。图表是垂直的。Cherny 告诉他没有,他只是发布了,人们开始互相告知。到第五天,一半的工程团队在使用它。

九个月后,Claude Code 产生了 25 亿美元的年度化收入。这个数字自 1 月 1 日以来翻了一番。不是去年的 1 月 1 日。是今年的 1 月 1 日。七周前。根据 Semi Analysis 的数据,它占所有公共 GitHub 提交的 4%。根据 Mercury 的数据,70% 的初创公司选择 Claude 作为他们的模型选择。NASA 将其用于毅力号。Anthropic 为团队打印了海报,因为他们无法相信这一点。

一个最初作为周末黑客测试 API 的工具。

2、可以自我重写的工具

关于 Claude Code 大多数人忽略的一点是,它不会积累。它替换。

"整个 Claude Code 一直被编写和重写和重写,一次又一次,"Cherny 说。"Claude Code 没有任何部分是六个月前存在的。"

团队每隔几周就撤掉工具。每隔几周就添加新工具。三个月前需要脚手架的功能现在可以工作,因为模型改进了。代码库的保质期最多只有几个月。Cherny 估计当前代码的 80% 不到两个月。

这不是正常的软件开发。正常的软件会积累。你构建一层,然后在其上构建,然后再在其上构建。变更的成本随着每一层而增加。Claude Code 反转了这一点。重写的成本如此之低,以至于从头开始往往比维护更便宜,而且进行重写的模型每个季度都会变得更好。

他们在 Claude Code 团队坐的墙上有一份 Richard Sutton 的"苦涩教训"的框架副本。教训:更通用的方法总是打败更专业的方法。 应用于他们的工作,这意味着永远不要赌模型会输。他们为补偿模型限制而构建的每一段脚手架都有保质期。下一个模型将直接做那件事。

当我询问计划模式时,这是我最常用的功能之一,Cherny 说:"计划模式可能有有限的寿命。"他估计一个月。模型正在学习在人类希望它的确切点自己进入计划模式。

脚手架正在溶解。

3、在大规模下这看起来像什么

在加入 Anthropic 之前,Cherny 负责整个 Meta 的代码质量:Facebook、Instagram、WhatsApp,所有这些。他的团队致力于提高开发人员生产力。2% 的提升是数百人一年的工作。

自 Claude Code 推出以来,Anthropic 每个工程师的生产力增长了 150%。

让这个比例深入理解。在历史上最大的工程组织之一,2% 需要数百人和整整一年。在 Anthropic,150% 在几个月内发生,由工程师自愿采用的工具驱动。

Cherny 自己自 Opus 4.5 以来就没有打开过 IDE。"对我个人来说,自 Opus 4.5 以来一直是 100%。我卸载了我的 IDE。我不再手动编辑任何一行代码。这只是 100% 的 Claude Code。我每天落地 20 个 PR,每一天。"在整个 Anthropic,AI 编写的代码在 70% 到 90% 之间,具体取决于团队。对许多个人来说,是 100%。

插件功能,这是 Claude Code 更复杂的功能之一,完全由一群代理在一个周末构建。一名工程师给 Claude 一个规范,并告诉它使用 Asana 看板。Claude 放置了工单,生成了代理,代理开始独立地挑选任务,没有更大规范的上下文。"它只是运行了几天。实际上没有人为干预。"插件大致按照群体产生的形式发布了。

这不是一个演示。这是数百万人使用的产品的一个生产功能,由代理通过任务板协调构建,就像人类团队一样。

4、飞轮

这与以前开发者工具浪潮的不同之处在于,AI 编码已经变得自我强化。循环的每个元素都加速下一个元素,现在每个元素都在移动。

模型改进。SWE-bench Verified,这是真实软件工程任务的行业基准,显示顶级模型聚集在 80% 左右。一年前最好的分数是 50 多。从 55% 到 80% 的跳跃是一个有时有帮助的工具和一个可靠工作的工具之间的区别。

开发者采用。92% 的美国开发者现在每天使用 AI 编码工具。GitHub Copilot 超过了 470 万付费用户。Cursor 的年度化收入比历史上任何 B2B 公司都快地达到 10 亿美元。Claude Code 在九个月内从零增加到 25 亿美元。资金不是推测性的。它是来自尝试工具并决定无法在没有它的情况下工作的人的订阅收入。

收入资助下一轮。Anthropic 以 3800 亿美元的估值关闭了 300 亿美元的 G 轮融资。这些资金培训下一代模型,这些模型将得分更高,这将吸引更多的开发者,这将产生更多的收入。这不是预测。这是目前的状况。

一个澄清情况的信号:微软,它拥有并销售 GitHub Copilot,已经在主要工程团队内部采用 Claude Code。他们销售竞争产品,但仍然为自己的工作切换。

2026 年 2 月,Apple 将 Claude Agent SDK 直接集成到 Xcode 中。不是作为插件。作为运行地球上每部 iPhone 的平台的 IDE 的核心功能。Apple 不会将实验技术集成到其旗舰开发工具中。它集成了其开发者已经依赖的技术。

5、我学会不信任的东西

我提出了强有力的论点,所以让我诚实地说明反驳论点落在哪里。

2025 年 7 月,METR 与 16 名经验丰富的开源开发者进行了随机对照试验。结果:使用 AI 工具的开发者慢了 19%。设计良好的研究。真实的发现。

更不舒服的结果:那些相同的开发者估计他们快了 20%。感知和现实之间有近 40 点的差距。他们感觉有生产力。他们没有。

我认识到自己身上的这种差距。有些会话工具生成大量看似合理的代码,我花了更多时间审查和纠正,而不是自己写。速度的感觉和速度的现实不是一回事。Cherny 也承认了这一点。当他描述以手动方式调试内存泄漏、打开 DevTools、读取堆转储、跟踪代码时,另一名工程师只是要求 Claude Code 做这件事。Claude 编写了自己的堆分析工具并更快地找到了泄漏。"这只是我必须不断重新学习的东西,"Cherny 说,"因为我的大脑有时仍然停留在六个月前的某个地方。"

METR 研究使用了 2025 年初的工具,在 SWE-bench 上得分 50 多的模型。今天的模型得分大约 80。工具改变得足够多,研究可能不会重复。但"可能"不是"肯定",心理发现,即开发者系统地高估 AI 的帮助,几乎肯定仍然成立。我们天生会将新奇误认为是生产力。

另一个真正的摩擦:大量采用 AI 的团队看到 PR 审查时间膨胀了 91%。代码写得更快,但以人类速度审查。瓶颈从键盘转移到了拉取请求。这不是微不足道的。这是一种悄悄吞噬生产力的组织摩擦类型。

我认为这两个反驳点都是真实的,我认为飞轮无论如何都会赢。不是因为我可以反驳它们,而是因为采用曲线不等待研究解决。西门子没有基于愉快的幻觉将 Copilot 推广到 30,000 名开发者。市场正在用信用卡投票,投票是决定性的。

6、接下来会发生什么

Cherny 对近期的预测:"编码将为所有人普遍解决。

今天编码对我来说实际上已经解决了,我认为无论领域如何,这对所有人都将是这种情况。"

他期望"软件工程师"的头衔开始改变。不是消失,而是扩大。在 Anthropic,Claude Code 团队的每个人都在编码,包括 PM、设计师、工程经理、财务人员。工程师正在成为也编写规范、与用户交谈、进行研究的多面手。手艺没有消亡。它正在扩展到包括过去是别人工作的工作。

上周,Anthropic 推出了 Claude Code Security,这是一个 AI 漏洞扫描器,像人类安全研究员一样读取代码。使用最新的模型,他们在生产开源代码库中发现了 500 多个漏洞,这些漏洞多年来一直未被发现。网络安全股票在公告中下跌。该工具现在正在审计人类编写的代码并发现人类无法发现的问题。飞轮不仅改进代码生成。它改进评估代码的东西,然后保护它的东西,然后是围绕所有这些东西的过程。

所有这些都是无摩擦的吗?不。感知差距是真实的。审查瓶颈是真实的。开发者将高估他们的收益,组织将在审查负担上窒息,许多 AI 生成的代码将发布如果人类手动编写就不会存在的漏洞。

这些都不会阻止飞轮。它塑造飞轮。

但我一直回到这里。摩擦是真实的,这不重要,因为真正限制我们可以构建的约束从来都不是摩擦。是雄心。

几十年来,独立开发者和小团队将他们的项目限制在人类可能的范围内。你有一个平台的想法,但你构建了一个功能。你想象一个企业产品,但你发布了一个永远不会超过 M 的 MVP。愿景和执行之间的差距如此之大,以至于大多数人学会了停止跨越它。

这个差距正在缩小。不是缓慢地。不是渐进地。它正按照 Cherny 描述的 Claude Code 采用图表的方式缩小:垂直地。

我是一个人在构建其他东西的同时,构建一个具有加密、沙箱、审计跟踪、多提供商 AI 和配套移动应用的企业桌面应用程序。一年前,这句话会是一个幻想。现在它是一个有工作构建的 Git 仓库。模型具备能力。工具就在这里。唯一仍然缺少的是意愿去设定比 todo 应用程序更高的目标。

停止构建玩具项目。停止试水。停止将 AI 编码工具视为更快地键入你已经键入的相同小东西的方式。整个前提已经改变。执行成本崩溃。问题不再是"我能构建这个吗?"是"我能想象的最雄心勃勃的事情是什么?"


原文链接: Coding Is Solved

汇智网翻译整理,转载请标明出处