拥抱开源模型,在被迫之前

开源模型已经够好了。停止为你不需要的智能能力多付费。并且,为智能变得太贵以至于付不起的那一天做好准备。

拥抱开源模型,在被迫之前
AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

开源模型落后于前沿模型。这是不可否认的,但是,差距到底有多大,这个差距真的那么重要吗?

AI对话痴迷于能力排名。本周哪个模型登顶排行榜?哪个实验室发布了一个打破之前基准记录的东西?如果你在前沿实验室工作,这些都是有趣的问题。

对于其他所有人来说,比如你和我,相关的问题是不同的:

哪个模型对于我需要完成的任务是够好的,运行它的成本是多少

根据Epoch AI对开源和闭源模型的分析,自2023年以来,中国开源权重模型平均落后美国前沿模型7个月,范围在4到14个月。NIST人工智能标准与创新中心在2026年5月评估DeepSeek V4-Pro时方向性地证实了这一点,记录了在软件工程和网络基准上的可测量差距。

你知道结果是什么吗?

对于你构建的大多数东西……这根本不重要。

大多数生产AI工作负载——摘要、分类、实体提取、客户支持路由、文档问答、代码审查——不需要前沿模型提供的最后10%的能力。它们需要的是一致的、快速的、足够正确的响应,以及一个可以扩展的价格。每个任务都值得使用前沿智能的默认假设,正在让组织付出比他们意识到的更多的成本——包括金钱和尚未被注意到的依赖。

本文主张一种更深思熟虑的方法:将模型与任务匹配,了解前沿溢价在哪里是合理的,并从今天开始尝试开源模型。理解开源能力需要学习时间,聪明的做法是在被迫之前就开始。

1、开源模型落后多少?

让我们从最清晰的维度开始:在需要持续多步推理、复杂软件工程或对抗性安全工作的任务上,前沿模型确实拥有真正的优势。

NIST CAISI的评估在19个基准上将美国领先模型与DeepSeek模型进行了比较。在SWE-bench Verified——一个在真实GitHub问题上测试自主软件工程的测试中——差距是显著的:最好的美国模型得分66.7;DeepSeek V3.1得分54.8(在网络任务上,差距更宽)。

基于600万次成对投票的LM Arena人类偏好排行榜讲述了类似的故事。截至2026年5月底到6月初,前15名完全被专有模型占据。

领先的开源权重模型是GLM-5.1、mimo、Kimi和DeepSeek,分别排名第16、26、28和32位。

所以,是的,差距存在。如果你的公司依赖排行榜,你真的会想使用所有前沿模型。但我真心相信你的公司不需要(另外,暗示一下我们后面会看到的内容……只需看看价格 $/M列😉)。

2、哪些任务实际上需要前沿模型?

在选择模型之前你能做的最有用的事情是分类你的任务或项目。不是按领域——不是"这是一个编码任务还是客户支持任务"——而是按推理需求。这个任务需要多少多步推理、错误恢复和上下文整合?

这里有一个简单的三层框架:

2.1 低推理需求

任务主要是模式匹配、提取或改写。

例子:

  • 摘要文档
  • 将电子邮件分类到类别
  • 从表单中提取结构化数据
  • 翻译文本
  • 根据简报生成初稿
  • 路由客户支持工单。

你不需要前沿模型来做这个。就像你不需要深度神经网络来分类一个简单的CSV,简单的启发式或基于树的模型就足够了。

2.2 中等推理需求

任务需要遵循多步指令、处理歧义或生成需要向领域专家辩护的输出。

例子:

  • 审查代码的正确性(不只是风格)
  • 生成综合多个来源的报告
  • 从复杂的法律或技术文档中提取细微信息
  • 在跨越多次交换的上下文中保持连贯的多轮对话。

开源模型在这里仍然具有竞争力。差距在边缘情况下变得可见(不寻常的输入格式、冲突的指令、需要领域判断的输出)。在你自己的数据上运行自己的评估是了解你的具体任务处于哪个位置的唯方法。但大多数情况下,开源模型将在大多数中等推理需求任务中站稳脚跟。

2.3 高推理需求

任务涉及自主智能体处理新颖问题、复杂的多步推理链(中间错误会复利)、对抗性或安全关键任务,或需要许多工具调用和恢复逻辑的智能体工作流。

例子:

  • 在不熟悉的大型代码库上工作的自主编码智能体
  • 必须综合和推理多个来源的研究智能体
  • 安全分析或渗透测试。

前沿模型在这里拥有真正的优势。基准差距很大,它们与任务相关,而且它们在生产中显现出来。

但是,原始智能是唯一重要的维度吗?

我上面提出的三层方法有点短视,因为它只关注推理需求。但如果我们把成本维度加到智能中呢?

3、前沿模型与开源模型相比实际成本是多少?

在看具体数字之前,我想分享一个我非常喜欢并不断回来的基准。它来自artificialanalysis.ai,在智能指数、速度、延迟和价格方面对364多个模型进行了基准测试。

使用闭源前沿模型与托管开源模型之间的权衡确实非常明显。顺便说一下,上面截图中的价格更接近输入成本,而不是输出成本。如果我们从官方来源获取官方的输入输出token成本,数字就更糟了。

如果你比较DeepSeek V4-Pro与GPT-5.5,价格差异是7倍。

想想看,你什么时候决定为一个服务支付7倍的价格?当然,这个15倍的服务可以更智能……但会那么聪明吗?

如果你不相信我,你应该相信Uber的CTO。Uber的CTO Praveen Neppalli Naga在2026年4月坦率地说:

"我又回到了绘图板,因为我以为需要的预算已经被打爆了。"

到5月,Uber的CTO确认公司已经在4个月内烧掉了整个2026年AI编码工具预算——大约5000名工程师使用Claude Code。以每个工程师每月约200美元的估计,这是一个每月100万美元的运行率。

将该工作量中较低推理需求的部分——文档、测试生成、常规重构——路由到像DeepSeek V4-Pro这样的模型(如果与Sonnet 4.6比较,便宜大约4倍),将把同样的预算从4个月延长到一年多。

还不够好的理由?那继续读。

还有一种不出现在定价表中的成本。

第二种成本是非多样化。

如果涨价怎么办?

如果你使用单一商业供应商,你就会面临很多风险。最简单的就是,Anthropic对其定价层级的提价将直接影响你的损益。你无法付更少。你会被卡住。

如果发生中断怎么办?

这是最简单的问题,想象一下你的生产服务仅依赖他们的API。我可以保证,在未来的某个时刻,他们的API会出现中断。当你的生产系统依赖这根救命稻草时,你该怎么办?

Anthropic的状态页面仅2026年5月就记录了五起独立事件——5月22日Opus 4.7和Sonnet 4.6的错误升高持续超过90分钟,5月28日的计费中断,5月29日的多次Opus 4.8降级。如果该API是你唯一的依赖,每次都是你生产系统中的一个缺口。

如果你的API账户被封禁怎么办?

如果Anthropic的机器人认为你的账户是恶意的(其实不是)并决定关停你呢?

2026年4月,Anthropic临时封禁了开发者Peter Steinberger——OpenClaw的创建者,这是一个拥有数千用户的开源Claude Code客户端——标记他的账户为可疑账户。他的访问在几小时内恢复了,因为一名Anthropic工程师公开澄清没有违反任何政策。TechCrunch报道了这件事。Steinberger很幸运:这个故事被公开了,工程师介入了,逆转很快。大多数开发者没有这种可见性和运气的组合。

4、为什么现在正是实验的时机。

现在没有压力时,有3个理由去尝试开源模型:

  1. 首先,当赌注为零时,学习成本很低。 在一个非关键内部任务上做并行评估在时间和金钱上几乎不花什么。你得到的信号是真实的,而且可能非常令人惊讶。失败的 downside 是零。现在就做实验,在一个无关紧要的事情上,在你需要在重要的事情上做之前。
  2. 其次,差距正在缩小。 我不是说智能差距在缩小,因为它并没有缩小。我指的是能够做通用任务的LLM模型正在真正成为商品。如果你回到帕累托原则,用20%的精力获得80%的结果。同样适用这里。只有在边缘情况下你才需要前沿模型。对于其余部分,差距真的缩小了(例如,DeepSeek V4-Pro等同于我们曾经敬畏的旧版Opus)。
  3. 第三,如前所述,供应商集中是一个商业风险。 不仅仅是成本风险。在旧金山做出的没有你任何输入的定价决策、你没有预料的监管要求驱动的政策变更、关键客户演示期间的API中断——这些都不是罕见事件。每个运行单供应商策略足够长时间的团队都会遇到这些。对冲并不复杂:将你的一部分流量通过不同的供应商运行,建立知道这涉及什么的肌肉记忆。

5、罗马人早已知道即将发生什么

弗拉维乌斯·维吉提乌斯·雷纳图斯在4世纪的著作中提供的建议至今不过时:

如果你想要和平,就为战争做准备。

将此应用到今天(2026年上半年),当前沿模型实验室正在大幅补贴价格时,这意味着要为价格上涨时做准备。因为价格会上涨的。

最受未来干扰影响的团队是那些在干扰到来之前对替代方案没有接触的团队。受影响最小的团队是在安静时期建立了这种能力的团队,因为他们理解期权性需要练习。

要求不是放弃前沿模型。正如我一直重复的,它们是市场上最好的模型,在多个领域它们提供价值。真正的要求是建立使用它们的选择性知识和基础设施,以及路由层的能力。

6、结束语

新模型会发布。排行榜会重新洗牌。可能前沿模型甚至会进一步拉开与开源模型的距离。但,这些都不改变底层论点。

对于任何交付AI产品的人来说,重要的问题不是哪个模型在绝对意义上最好。而是哪个模型对这个任务是足够的足够可靠可以部署、以及定价合理可以扩展的。这3个约束对大多数生产工作负载指向同一个方向:开源权重模型已经够好了,而成本差异不是一个边际考量。

正确的做法是在你被迫之前开始实验。 即使你本周就在单个任务上从一个低赌注的实验开始,这也会回答一个具体的问题:这个开源权重模型实际上对我的数据、我的任务、按我的质量标准做了什么?

维吉提斯写的是军队。这个原则是普遍适用的。保护你的准备是你在不需要时所做的准备。


原文链接:Open source models are good enough. Stop overpaying for intelligence you don't need

汇智网翻译整理,转载请标明出处