SaaS末日
价值3000亿美元在短短几天内从SaaS股票中蒸发。交易员们称之为"SaaS末日"。
AI编程/Vibe Coding 遇到问题需要帮助的,联系微信 ezpoda,免费咨询。
价值3000亿美元在短短几天内从SaaS股票中蒸发。交易员们称之为"SaaS末日"。这一切始于Anthropic发布了Claude Cowork插件,这些插件可以自动化处理法律、金融、销售和营销任务——突然间每个人都意识到,他们一直在谈论的AI颠覆可能真的来了。汤森路透下跌18%。LegalZoom暴跌20%。Gartner下跌21%。市场陷入恐慌。
然后2月5日发生了。
1、让你不安的数字
OpenAI和Anthropic在同一天发布了他们的最新模型:Opus 4.6和GPT-5.3 Codex。我一直在阅读基准测试报告,其中有些东西让我停止了滚动。
两个模型现在都针对所谓的GDPval进行评估——这是一个基于44个职业和9个GDP驱动行业的真实经济任务构建的基准测试。不是合成的编程谜题。而是人们通过工作获得报酬的实际知识工作——法律简报、工程蓝图、财务分析、护理计划。每个任务都由平均拥有14年经验的专业人员精心设计。然后专家评分者盲目地比较AI生成的交付物与人类生成的交付物,在不知道哪个是哪个的情况下对它们进行排名。
以下是引起我注意的内容:Opus 4.6在这些经济任务上比两个月前发布的Opus 4.5好14%。它比Gemini 3 Pro好34%。根据我的粗略计算,这大约是每月7%的真实经济能力提升。
你听说过任何劳动力在经济活动上每月提升7%吗?
因为任何人今天都可以以每百万输入令牌5美元的价格雇佣这个模型。
但更疯狂的是。OpenAI报告说,GPT-5.3 Codex在OSWorld上得分64.7%,这是一个AI代理必须完成369个真实计算机任务的基准测试——在LibreOffice中编辑电子表格、管理文件、使用浏览器、跨多个应用工作——在真实的虚拟机内部。没有捷径,没有纯文本技巧。这个基准测试的人类基线是72.36%。
Opus 4.6?它得分72.7%。
一个AI模型现在在自主操作计算机方面略微超过了人类基线。2026年2月5日。这就是那个日期。
2、所以我让它们对战
基准测试就是基准测试。它们很有用,但我想自己看看。所以我拿了两个模型,给它们相同的真实世界任务——这是我几周来一直在手动做的、并且 dreaded 的事情。
我们有一个拥有近5,500个GitHub星标的开源项目。我一直在逐个检查我们的关注者:检查他们的GitHub个人资料中是否有X或LinkedIn链接,访问这些个人资料,看看我是否已经连接或关注了他们,如果没有,就把他们添加到外联列表中。这是有价值的工作——这些是已经关心我们正在构建什么的人。有些人成为反馈来源,有些人成为关注我们的更新的关注者,偶尔我们会开始对话,最终导致招聘。
但手动做?很痛苦。5,500个个人资料需要大量点击。
所以我设置了一个正面测试:GPT-5.3 Codex vs. Opus 4.6,都在Desktop Commander中运行,并排,在同一台机器上,执行相同的任务。你可以在下面观看完整视频,详细了解一切是如何运作的。
3、设置
我写了一个详细的提示,将其框架为一个基准测试。每个代理需要:
- 获取我们的GitHub关注者列表
- 检查每个个人资料是否有X和LinkedIn链接
- 访问X并检查我是否已经在关注他们
- 访问LinkedIn并检查我是否已经连接
- 生成一个只包含可操作行的CSV——我应该连接的人
为了保持公平,我给两个代理相同的规则:按周期工作,每个周期后反思,使用隔离的浏览器标签页,这样它们不会互相干扰,并将文件保存在单独的文件夹中。我告诉他们尽量减少向我的求助。
然后我点击了两个模型上的"开始"并观看。
4、它们如何解决问题
这就是有趣的地方。两个代理都可以访问我之前构建的一个关注者提取技能——一个使用GitHub的GraphQL API的Python脚本,可以批量导出关注者,比通过浏览器抓取快得多。
GPT-5.3 Codex立即发现了这个技能并使用了它。聪明的举动。它通过API提取了第一批关注者,然后有条不紊地打开浏览器标签页,开始逐个检查个人资料。蛮力,但可靠。在它的第一个24个关注者周期后,它呈现了结果以供验证——正如提示所要求的那样。它找到的链接是正确的。每一个都经过验证。
Opus 4.6走偏了。它完全跳过了关注者技能,开始从头通过浏览器做所有事情。我不得不问:"你是怎么得到关注者的?你用了那个技能吗?"它阅读了技能,意识到了自己的错误,然后转向了。在第二次尝试中,它使用API在94秒内导出了所有5,500个关注者。比GPT最初的24个关注者好多了。
但这就是Opus在我没有预料到的方式上领先的地方。
当需要检查X关注时,Opus不只是打开浏览器标签页并四处点击。它逆向工程了X API——找到一个批量友谊查找端点,每次请求可以检查400个用户。七个API调用后,它已经检查了581个个人资料。GPT还在逐个点击标签页。
没有人要求Opus逆向工程API。它被要求找到有效的方法。
对于LinkedIn,两个模型最终都使用了浏览器导航(LinkedIn的API不容易暴露连接状态)。但X的方法是天壤之别:Opus工作得更聪明,GPT工作得更努力。
5、第一轮结果——以及我错在哪里
第一轮后,这是我得到的:
我把胜利给了GPT。我的理由是:它更便宜、更准确、需要更少的手把手指导。我推断,如果我给它更多时间和再推几下,它最终会找到所有674个链接,总共可能只需3-4美元。仍然比Opus的20美元便宜得多。
我发布了视频。
然后一个评论者点名批评了我。
6、"你为什么不让GPT运行到完成?"
评论很直接:GPT在674个链接中找到了48个。这是Opus找到的7.1%。你怎么能称之为胜利?你甚至没有让它完成工作。
他们有道理。我进行了推断而不是测试。我假设GPT会线性扩展——相同的速度,相同的准确性,只是更多时间。但我没有证明这一点。这不是一个诚实的基准测试的工作方式。
所以我决定运行第二轮。让GPT-5.3一路走到最后。没有捷径,没有提前停止。完全完成。
7、第二轮:GPT得到它的机会
我回到Desktop Commander,选择了GPT-5.3 Codex,并要求它完成工作。接下来发生的事情……很有教育意义。
第一个问题:GPT甚至不知道工作没有完成。我不得不告诉它:"我认为你没有检查GitHub上的所有关注者,是吗?"它承认它只处理了5,500个中的大约一千个。所以我告诉它:"完成意味着所有关注者都已提取,所有LinkedIn和X链接都已找到,所有都已检查。去吧。"
它重新阅读了关注者技能,重新导出了所有5,411个个人资料,找到了679个有社交链接的。很好——它让自己达到了Opus在第一轮中达到的相同起点。
然后蛮力方法撞到了墙。
GPT开始通过在浏览器中逐个导航到每个X个人资料来检查。大约35个个人资料后,X对它进行了速率限制。页面显示了那些"出了点问题"的屏幕之一。GPT没有注意到。它继续尝试抓取没有加载的页面。我不得不停止它并指出问题。
这就是两个模型之间的差异变得明显的地方。当Opus在第一轮中遇到速率限制时,它完全通过使用批量API避免了问题。GPT没有想到那种方法。即使在我告诉它速率限制后,它也不能独立地想出更聪明的解决方案。我不得不多次推动它找到更有效的方法。
最终,GPT转向了一个聪明的方法:不是逐个检查每个个人资料,而是提取我现有的X关注列表和LinkedIn连接,然后在本地与关注者数据进行交叉引用。不再是一对一的浏览器导航。聪明——但它需要几次推动才能到达那里,而且这是GPT需要帮助才能到达的Opus式思维。
经过41分钟和8次人工干预,GPT完成了。645个可操作链接(比Opus的674个略少,因为我在视频之间已经与一些人连接了)。总成本:1.58美元。
8、真正的记分卡
这是两轮后的完整图景:
图景发生了巨大变化。我最初的推断在几乎所有重要的方面都是错误的:
我预测GPT需要3小时。它花了41分钟——比预期的好,但仍然是Opus 17分钟的两倍多。我预测它会花费3-4美元。实际上花费了1.58美元——比预期的便宜。但我完全错过了它需要我8次互动,而不是我假设的"再推几下"。这是Opus的4倍多的手把手指导。
9、高级工程师 vs. 初级工程师
运行两轮后,不断出现在我脑海中的比喻是资历。
Opus 4.6是高级工程师。 你给它目标,它会找出如何到达那里。它逆向工程API。它做出关于效率的战略决策。它需要更少的监督。但它很昂贵——那种昂贵让你开始质疑投资回报率。
GPT-5.3 Codex是初级工程师。 可靠、彻底,在遵循已知模式时不会犯错。但它需要具体的指示。它不会独立优化其方法。当某些东西坏了时,它并不总是知道如何在没有人帮助的情况下恢复。它工作得更慢——但它便宜得多。
现在问问自己:如果你的高级工程师比你的初级工程师贵10倍,这值得吗?
想象一下,给你的初级工程师支付10万美元,给你的高级工程师支付100万美元。对于相同的交付物,但不同的微观管理水平。这就是现在Opus vs GPT的定价差距。
对于像这样的直接任务——中等复杂度、定义明确的目标、不需要创造性问题解决——我仍然倾向于GPT。不是因为它更好,而是因为经济学有效。对于大致相同的输出,1.58美元 vs 20美元很难争辩。
但我实际上在实践中会使用的做法?既不是单独使用任何一个模型。
10、聪明的模型规划,便宜的模型执行
这是我正在趋向的工作流程,也是我们未来思考Desktop Commander的方式:
使用Opus来发现解决方案。让它逆向工程X API,找出最佳方法,编写脚本。然后获取这些知识,将其打包为可重用的技能,并交给GPT以大规模执行。聪明的模型教学,便宜的模型做重复工作。
20美元的模型想出了诀窍。1.58美元的模型运行它一千次。
这就是模型灵活性重要的原因。如果你被锁定在一个提供商,你就不能这样做。使用Desktop Commander,你可以一键从Opus切换到GPT。为工作的每个阶段使用正确的模型。
11、那么……SaaS末日是真的吗?
根据我在两轮中看到的情况?它更多是炒作而不是现实。目前。
两个模型都需要手把手指导。Opus需要2次干预,GPT需要8次。没有一个能够完全完成这个任务——一个相对简单的浏览器自动化工作流——没有我的介入。充其量,Opus感觉像一个偶尔会犯粗心的错误的高级工程师,而GPT感觉像一个需要定期检查但足够便宜以至于你不介意的初级工程师。
"比人类更擅长使用计算机"的基准测试没有捕捉到速率限制、边缘情况、成本超支的混乱现实,以及人类不假思索做出的微妙判断。
在纸上,AI在使用计算机方面击败了人类。在实践中,它被X速率限制了,而且没有注意到。
但轨迹是真实的。每月7%的经济能力提升是你不能忽视的事情。AI代理与SaaS公司之间的关系感觉就像Google与报纸之间的关系。Google没有在一夜之间杀死报纸。但它从根本上改变了竞争环境,没有适应的公司最终死亡。
我认为SaaS公司可以适应。但世界将会看起来不同。那些构建具有深度集成、专有数据和网络效应的产品的公司会很好。那些销售1.58美元AI代理现在可以在41分钟内完成的工作流的公司?他们应该担心。
不过,目前,我会暂缓恐慌性抛售。
原文链接: The SaaSpocalypse and Opus 4.6
汇智网翻译整理,转载请标明出处