INDUSTRY

SaaS末日

价值3000亿美元在短短几天内从SaaS股票中蒸发。交易员们称之为"SaaS末日"。

admin

Feb 9, 2026 • 13 min read

AI编程/Vibe Coding 遇到问题需要帮助的，联系微信 ezpoda，免费咨询。

价值3000亿美元在短短几天内从SaaS股票中蒸发。交易员们称之为"SaaS末日"。这一切始于Anthropic发布了Claude Cowork插件，这些插件可以自动化处理法律、金融、销售和营销任务——突然间每个人都意识到，他们一直在谈论的AI颠覆可能真的来了。汤森路透下跌18%。LegalZoom暴跌20%。Gartner下跌21%。市场陷入恐慌。

然后2月5日发生了。

1、让你不安的数字

OpenAI和Anthropic在同一天发布了他们的最新模型：Opus 4.6和GPT-5.3 Codex。我一直在阅读基准测试报告，其中有些东西让我停止了滚动。

两个模型现在都针对所谓的GDPval进行评估——这是一个基于44个职业和9个GDP驱动行业的真实经济任务构建的基准测试。不是合成的编程谜题。而是人们通过工作获得报酬的实际知识工作——法律简报、工程蓝图、财务分析、护理计划。每个任务都由平均拥有14年经验的专业人员精心设计。然后专家评分者盲目地比较AI生成的交付物与人类生成的交付物，在不知道哪个是哪个的情况下对它们进行排名。

以下是引起我注意的内容：Opus 4.6在这些经济任务上比两个月前发布的Opus 4.5好14%。它比Gemini 3 Pro好34%。根据我的粗略计算，这大约是每月7%的真实经济能力提升。

你听说过任何劳动力在经济活动上每月提升7%吗？

因为任何人今天都可以以每百万输入令牌5美元的价格雇佣这个模型。

但更疯狂的是。OpenAI报告说，GPT-5.3 Codex在OSWorld上得分64.7%，这是一个AI代理必须完成369个真实计算机任务的基准测试——在LibreOffice中编辑电子表格、管理文件、使用浏览器、跨多个应用工作——在真实的虚拟机内部。没有捷径，没有纯文本技巧。这个基准测试的人类基线是72.36%。

Opus 4.6？它得分72.7%。

一个AI模型现在在自主操作计算机方面略微超过了人类基线。2026年2月5日。这就是那个日期。

2、所以我让它们对战

基准测试就是基准测试。它们很有用，但我想自己看看。所以我拿了两个模型，给它们相同的真实世界任务——这是我几周来一直在手动做的、并且 dreaded 的事情。

我们有一个拥有近5,500个GitHub星标的开源项目。我一直在逐个检查我们的关注者：检查他们的GitHub个人资料中是否有X或LinkedIn链接，访问这些个人资料，看看我是否已经连接或关注了他们，如果没有，就把他们添加到外联列表中。这是有价值的工作——这些是已经关心我们正在构建什么的人。有些人成为反馈来源，有些人成为关注我们的更新的关注者，偶尔我们会开始对话，最终导致招聘。

但手动做？很痛苦。5,500个个人资料需要大量点击。

所以我设置了一个正面测试：GPT-5.3 Codex vs. Opus 4.6，都在Desktop Commander中运行，并排，在同一台机器上，执行相同的任务。你可以在下面观看完整视频，详细了解一切是如何运作的。

3、设置

我写了一个详细的提示，将其框架为一个基准测试。每个代理需要：

获取我们的GitHub关注者列表
检查每个个人资料是否有X和LinkedIn链接
访问X并检查我是否已经在关注他们
访问LinkedIn并检查我是否已经连接
生成一个只包含可操作行的CSV——我应该连接的人

为了保持公平，我给两个代理相同的规则：按周期工作，每个周期后反思，使用隔离的浏览器标签页，这样它们不会互相干扰，并将文件保存在单独的文件夹中。我告诉他们尽量减少向我的求助。

然后我点击了两个模型上的"开始"并观看。

4、它们如何解决问题

这就是有趣的地方。两个代理都可以访问我之前构建的一个关注者提取技能——一个使用GitHub的GraphQL API的Python脚本，可以批量导出关注者，比通过浏览器抓取快得多。

GPT-5.3 Codex立即发现了这个技能并使用了它。聪明的举动。它通过API提取了第一批关注者，然后有条不紊地打开浏览器标签页，开始逐个检查个人资料。蛮力，但可靠。在它的第一个24个关注者周期后，它呈现了结果以供验证——正如提示所要求的那样。它找到的链接是正确的。每一个都经过验证。

Opus 4.6走偏了。它完全跳过了关注者技能，开始从头通过浏览器做所有事情。我不得不问："你是怎么得到关注者的？你用了那个技能吗？"它阅读了技能，意识到了自己的错误，然后转向了。在第二次尝试中，它使用API在94秒内导出了所有5,500个关注者。比GPT最初的24个关注者好多了。

但这就是Opus在我没有预料到的方式上领先的地方。

当需要检查X关注时，Opus不只是打开浏览器标签页并四处点击。它逆向工程了X API——找到一个批量友谊查找端点，每次请求可以检查400个用户。七个API调用后，它已经检查了581个个人资料。GPT还在逐个点击标签页。

没有人要求Opus逆向工程API。它被要求找到有效的方法。

对于LinkedIn，两个模型最终都使用了浏览器导航（LinkedIn的API不容易暴露连接状态）。但X的方法是天壤之别：Opus工作得更聪明，GPT工作得更努力。

5、第一轮结果——以及我错在哪里

第一轮后，这是我得到的：

我把胜利给了GPT。我的理由是：它更便宜、更准确、需要更少的手把手指导。我推断，如果我给它更多时间和再推几下，它最终会找到所有674个链接，总共可能只需3-4美元。仍然比Opus的20美元便宜得多。

我发布了视频。

然后一个评论者点名批评了我。

6、"你为什么不让GPT运行到完成？"

评论很直接：GPT在674个链接中找到了48个。这是Opus找到的7.1%。你怎么能称之为胜利？你甚至没有让它完成工作。

他们有道理。我进行了推断而不是测试。我假设GPT会线性扩展——相同的速度，相同的准确性，只是更多时间。但我没有证明这一点。这不是一个诚实的基准测试的工作方式。

所以我决定运行第二轮。让GPT-5.3一路走到最后。没有捷径，没有提前停止。完全完成。

7、第二轮：GPT得到它的机会

我回到Desktop Commander，选择了GPT-5.3 Codex，并要求它完成工作。接下来发生的事情……很有教育意义。

第一个问题：GPT甚至不知道工作没有完成。我不得不告诉它："我认为你没有检查GitHub上的所有关注者，是吗？"它承认它只处理了5,500个中的大约一千个。所以我告诉它："完成意味着所有关注者都已提取，所有LinkedIn和X链接都已找到，所有都已检查。去吧。"

它重新阅读了关注者技能，重新导出了所有5,411个个人资料，找到了679个有社交链接的。很好——它让自己达到了Opus在第一轮中达到的相同起点。

然后蛮力方法撞到了墙。

GPT开始通过在浏览器中逐个导航到每个X个人资料来检查。大约35个个人资料后，X对它进行了速率限制。页面显示了那些"出了点问题"的屏幕之一。GPT没有注意到。它继续尝试抓取没有加载的页面。我不得不停止它并指出问题。

这就是两个模型之间的差异变得明显的地方。当Opus在第一轮中遇到速率限制时，它完全通过使用批量API避免了问题。GPT没有想到那种方法。即使在我告诉它速率限制后，它也不能独立地想出更聪明的解决方案。我不得不多次推动它找到更有效的方法。

最终，GPT转向了一个聪明的方法：不是逐个检查每个个人资料，而是提取我现有的X关注列表和LinkedIn连接，然后在本地与关注者数据进行交叉引用。不再是一对一的浏览器导航。聪明——但它需要几次推动才能到达那里，而且这是GPT需要帮助才能到达的Opus式思维。

经过41分钟和8次人工干预，GPT完成了。645个可操作链接（比Opus的674个略少，因为我在视频之间已经与一些人连接了）。总成本：1.58美元。

8、真正的记分卡

这是两轮后的完整图景：

图景发生了巨大变化。我最初的推断在几乎所有重要的方面都是错误的：

我预测GPT需要3小时。它花了41分钟——比预期的好，但仍然是Opus 17分钟的两倍多。我预测它会花费3-4美元。实际上花费了1.58美元——比预期的便宜。但我完全错过了它需要我8次互动，而不是我假设的"再推几下"。这是Opus的4倍多的手把手指导。

9、高级工程师 vs. 初级工程师

运行两轮后，不断出现在我脑海中的比喻是资历。

Opus 4.6是高级工程师。 你给它目标，它会找出如何到达那里。它逆向工程API。它做出关于效率的战略决策。它需要更少的监督。但它很昂贵——那种昂贵让你开始质疑投资回报率。

GPT-5.3 Codex是初级工程师。 可靠、彻底，在遵循已知模式时不会犯错。但它需要具体的指示。它不会独立优化其方法。当某些东西坏了时，它并不总是知道如何在没有人帮助的情况下恢复。它工作得更慢——但它便宜得多。

现在问问自己：如果你的高级工程师比你的初级工程师贵10倍，这值得吗？

想象一下，给你的初级工程师支付10万美元，给你的高级工程师支付100万美元。对于相同的交付物，但不同的微观管理水平。这就是现在Opus vs GPT的定价差距。

对于像这样的直接任务——中等复杂度、定义明确的目标、不需要创造性问题解决——我仍然倾向于GPT。不是因为它更好，而是因为经济学有效。对于大致相同的输出，1.58美元 vs 20美元很难争辩。

但我实际上在实践中会使用的做法？既不是单独使用任何一个模型。

10、聪明的模型规划，便宜的模型执行

这是我正在趋向的工作流程，也是我们未来思考Desktop Commander的方式：

使用Opus来发现解决方案。让它逆向工程X API，找出最佳方法，编写脚本。然后获取这些知识，将其打包为可重用的技能，并交给GPT以大规模执行。聪明的模型教学，便宜的模型做重复工作。

20美元的模型想出了诀窍。1.58美元的模型运行它一千次。

这就是模型灵活性重要的原因。如果你被锁定在一个提供商，你就不能这样做。使用Desktop Commander，你可以一键从Opus切换到GPT。为工作的每个阶段使用正确的模型。

11、那么……SaaS末日是真的吗？

根据我在两轮中看到的情况？它更多是炒作而不是现实。目前。

两个模型都需要手把手指导。Opus需要2次干预，GPT需要8次。没有一个能够完全完成这个任务——一个相对简单的浏览器自动化工作流——没有我的介入。充其量，Opus感觉像一个偶尔会犯粗心的错误的高级工程师，而GPT感觉像一个需要定期检查但足够便宜以至于你不介意的初级工程师。

"比人类更擅长使用计算机"的基准测试没有捕捉到速率限制、边缘情况、成本超支的混乱现实，以及人类不假思索做出的微妙判断。

在纸上，AI在使用计算机方面击败了人类。在实践中，它被X速率限制了，而且没有注意到。

但轨迹是真实的。每月7%的经济能力提升是你不能忽视的事情。AI代理与SaaS公司之间的关系感觉就像Google与报纸之间的关系。Google没有在一夜之间杀死报纸。但它从根本上改变了竞争环境，没有适应的公司最终死亡。

我认为SaaS公司可以适应。但世界将会看起来不同。那些构建具有深度集成、专有数据和网络效应的产品的公司会很好。那些销售1.58美元AI代理现在可以在41分钟内完成的工作流的公司？他们应该担心。

不过，目前，我会暂缓恐慌性抛售。

原文链接: The SaaSpocalypse and Opus 4.6

汇智网翻译整理，转载请标明出处