Claude Code没有让你的产品更好
为什么最受尊敬的工程师正在反对编程代理的炒作周期,以及 Claude Code 的论点实际上揭示了什么
AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo
有趣的事情正在发生。房间里最大的声音在告诉你 AI 编程代理改变了一切。而你每天都在使用的产品的构建者们,在告诉你更复杂的东西。
1、K 型生产力曲线
在我们讨论 Twitter 上的争论之前,先看看实际数据。劳动经济学家最先到达这里。编程代理带来的生产力增长并不是均匀分布的。它们沿着 K 形分裂:资深工程师的生产力在显著提高。初级工程师,最好的情况是原地踏步,最坏的情况是在退步。

按资历划分的工程产出 · AI 采用时代提交日志大小 · 2015年Q1 – 2025年Q1
资深人员(蓝色)自2023年 LLM 转折点以来产出有可衡量的增长。初级产出(红色)基本持平或下降。K 形是真实的。问题是什么意思。
流行的叙事完美映射到 K 的上半部分。风投支持的 Twitter 两年来一直在产生自己的版本。引用现在已经可以预测:
"我们团队在一个季度内清了六年的积压。每个 PR 都是 AI 生成的。我们的交付速度前所未有。"——任何 YC 批次创始人,2025年的任何月份
"我用 Cursor 三天构建了我们整个后端。两个工程师做着二十个人的工作。——每次有人发一个版本都会获得 40k 赞的推文
"Anthropic 的 Claude Code 完全是 Claude 编写的。AI 写 AI。递归是真实的。——Dario Amodei / Anthropic,反复如此
公平地说:K 的上半部分确实有一些真实的东西。代理编程确实减少了某些类别工作产生 PR 的时间。没有严肃的人在争议这一点。问题是每小时产出的代码行数是否是应该衡量的正确指标。
如果工程师更有生产力,每个工程师的产品改进速率应该是在上升的
2、最好的产品构建者是一个金丝雀
几周前,三件事在几天内同时发生了。Dax(正在构建 opencode.ai)给他的团队发了些东西。Karri Saarinen(Linear 的 CEO)回应了。David Cramer(从零开始构建 Sentry 到月收入1000万美元)发布了他的 GitHub 图表。他们中没有人是 AI 的批评者。他们都在看到同样的模式。

Dax 发给团队的原始消息(左上), Karri Saarinen 的"醉汉白板"回复(中),David Cramer 的生产力信念推文(右上),以及 Cramer 的后续线程详细说明了为什么代理工程会产生膨胀。

Cramer 的后续值得完整阅读。他特别指出了"LLM 在增量复杂度开发中表现不佳"、"LLM 无法真正简化和创建惯用接口"以及"它们经常遵循的纯粹低质量测试生成技术"。他的总结是:"主要是膨胀。"
这些人不是卢德分子。Dax 字面上在构建一个编程代理。Karri 构建了 Linear,一个专门围绕软件工具中少即是多的理念设计的产品。Cramer 已经交付开源软件二十年,比任何人都更擅长阅读提交图谱。
而他们都在说,他们发现很难找到产品改进速度随着编程代理而加速的感觉

3、为什么 Claude Code 没有进入快速起飞模式?
想想 Claude Code 本身:Claude Code 完全是 Claude 编写的。循环是闭合的。机器在编写机器……
这意味着产品改进的速率应该是在加速的。
如果这是真的,它暗示了一些具体的东西。工程生产力是一个复合函数。如果使用 Claude Code 给你带来了哪怕 1.5 倍的产品改进速度提升,那么从第一天起就使用它的团队应该远远甩开其他人。差距应该每个季度都在扩大。它应该看起来像这样:

但现实并非如此。现实是 Codex 在 Claude Code 发布几个月后就推出了,并且功能上已经具有竞争力。Cursor 的交易流很强。Cognition 和 Factory 仍然在签下大型企业合同。实际画面看起来像这样:

证伪: 如果使用 Claude Code 给你带来了真正的产品速度优势,而 Anthropic 独占了 7 个月,那么 Claude Code 和每个竞争对手之间的差距应该是不可逾越的。Codex 应该是不相关的。相反,人们仍然在积极争论哪个更好。复合优势没有出现。其他东西在制约产品质量,而它从来不是代码
有几个反驳论点值得认真对待。也许收益在那里但被复杂性债务吞噬了。也许 Anthropic 的工程团队太大了,每个工程师的边际收益被稀释了。但如果有任何影响的话,这些反驳恰恰证明了最初的观点:即使拥有世界上最好的编程代理,瓶颈也不是代码生产。而是更难的东西。
4、代码行数是成本,而不是产品
这是大多数写这个领域的人忽略的心智模型。作为一个最近写过关于这个生态系统的 token 经济学如何算不通的人——问题不仅是财务的,而且是概念的。我们误解了软件工程实际上在优化什么。
最好的工程文化把代码行数当作你花费的东西,而不是你生产的东西。你把它们花在重要的功能上。你拒绝把它们花在不重要的功能上。代码库是你资产负债表上的负债,而不是资产。

Tinychat(comma.ai 的软件子公司)著名地在代码库超过一定大小时触发了警报。他们庆祝删除的代码。一旦你理解了软件实际上是什么,推理就很简单:每一行都是 bug 的表面。每个函数都是下一个函数的依赖。每个功能都会创造邻居。
产品表面积以分形方式扩展。添加一个 Slack 集成,你需要一个 Teams 集成,然后是一个邮件回退。添加通知,你需要为移动端、短信和企业 MDM 策略重建它们。添加 MFA 支持,你需要与 Duo、Okta 和 SAML 兼容。复杂性不是线性扩展的。它是复合增长的。

Linear 在图表的右上角,气泡最小。178 人,6 年历史,1 亿美元 ARR。Jira 有 56 倍的累积工程投入,消费级质量得分却低了 6 分。气泡大小就是重点:质量和代码库规模不是同一回事。

Facebook 在 10 万工程师的时候,从来不会被产生 UI 代码的速度所制约。一个合格的工程师可以在一天内 mock 出 Facebook 的 feed。实际的制约是减少交付那种体验给数十亿人所需的代码行数——在任何负载下、任何延迟下,同时保持正常运行时间。奖励函数是压缩,而不是生产。对于这样的工作负载,编程代理无法评估长期权衡。它们没有系统的理论。
5、真正的瓶颈:推动优质产品创意的前沿
这个论点还有最后一层,没有人完全表达出来。产品质量的改进,在前沿处,不是受限于你能多快地编写代码。它受限于你能多快地想出足够好的创意来推动前沿。
Jira 设计得相当好。Jira 和 Linear 之间的区别不在于 Linear 画了更好的框。而在于有人对项目管理软件应该是什么感觉有一个具体的创意愿景,然后在几年中以克制的方式执行了它。那种产品质量不会从 token 吞吐量中产生。它从品味中产生。从"少构建"的决定中产生。
能够推动"好软件应该是什么感觉"这一前沿的产品远见者,比任何人愿意承认的都要稀缺。位于曲线边缘的想法不是来自于冲刺积压列表。它们来自那种缓慢的、不舒服的思考——正是 Dax 在警告他的团队时说的,我们正在失去延迟满足的能力。

这也是为什么"清了6年的积压"的说法没有听起来那么令人印象深刻。一个充满 CRUD 功能和内部工具的积压列表正是编程代理加速的那种工作。它也正是不推动前沿的那种工作。你的产品不会因为你交付更快就变得更好。如果你的某个交付让用户更关心了,你的产品才会变得更好。
↑ AI 编程代理确实有助于将 0 到 1 的产品更快地推到质量前沿。它们减少了第一个可用版本的时间。对于早期工作,速度是真实的。
↑ 但有一个代价: 它们让你的圆圈更大了。代码库增长得比质量快。技术债务在复合。你在用以后要付的钱买速度。
6、人人都有凯美瑞,没人有法拉利
那么所有这些的实际结论是什么?我认为 Claude Code 不值得付费吗?嗯,这取决于你在堆栈的哪个位置。
如果你在前沿,你的瓶颈不是编程代理——而是品味制造者。 "通过减法品味成为最好的"这一状态,由 Linear 和 Sentry 等公司所持有,存在于特定的人身上。Linear 的 Nan Yu。Skunk Works 的 Kelly Johnson,在那里一个精心挑选的团队建造了 SR-71——即使六十年后,它仍然是有史以来建造的最快的吸气式载人飞机。黑鸟不是快因为 Johnson 的团队产生了更多的蓝图。它快因为 Johnson 对该省略什么有一个理论。删除、压缩、拒绝的品味——这不属于任何前沿模型的路线图。如果说有什么的话,既然它下面的地板在上升,它就更有价值了。
如果你已经在前沿,在 token 上花费双倍研发工资是否产生任何经济价值并不清楚。 拿 Ramp 来说。据报道,他们的工程师在过去一年中在 token 花费上翻了倍。Ramp 产品变得更好了吗?你怎么能知道?当你已经是第一名时,你的胜率基本是固定的——从第一名变成"更大的差距的第一名"很难衡量。我需要看到 Ramp 的胜率或损益数据才能改变我的想法,但作为一个满意的 Ramp 客户,我真心感觉不到今天和去年之间有什么区别。
Claude Code 帮助任何人及其妈妈构建一个凯美瑞的竞争者。它不帮助法拉利的工匠制造更快的法拉利。 但如果你从零到凯美瑞,它会非常有帮助。
- 这将降低凯美瑞的成本。不是由最优秀的人生产的软件即将变得戏剧性地更便宜。
- 代价是大量的混乱和债务堆积在工厂的阁楼里。最终必须有人清理阁楼。
原文链接: claude code is not making your product better
汇智网翻译整理,转载请标明出处