别再每月 $2000买 Claude Code 了
微软刚刚取消了数千名工程师的 Claude Code 授权,因为每位开发者每月要烧掉 500 到 2000 美元的 token 费用。而这套本地优先的方案,只需一块 RTX 4090 就能运行,在 SWE-bench Verified 上拿到 68% 的分数,而且以后每生成一个 token 都不花一分钱。
AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo
2026 年 5 月 15 日,Rajesh Jha 向微软旗下 Windows、Microsoft 365、Outlook、Teams 和 Surface 部门的数千名工程师发送了一封内部邮件:他们的 Claude Code 授权将在 6 月 30 日被取消。官方给出的理由是"基准测试后趋同"。但 The Next Web 以及 Uber 内部的一份对比报告透露了真正的原因:工程师们每月在 API token 上花费 500 到 2000 美元,而且成本随着使用人数增加而水涨船高。这个悖论如今正摆在每一家世界 500 强 CFO 的办公桌上。
Uber 把 Claude Code 部署给了大约 5000 名工程师。到 2026 年 4 月,月活跃使用率达到了 84% 到 95%。工具越好用,用的人越多,账单就越厚。
解决这个问题的技术方案已经低调存在了六个月,如今刚刚跨过临界点。
一块 500 到 1500 美元的 GPU,加上一个 240 亿参数的开源模型,现在能在 SWE-bench Verified 上拿到 68.0% 的分数。Claude Sonnet 4.6 在同一基准测试上的分数是 79.6%,差距为 12 个百分点。对于大多数企业级编码工作来说,这个差距根本看不出来。但对于你的月度账单来说,这相当于每位开发者每年 24000 美元和零之间的区别。
下面就是这套方案。
1、2026 年,"足够好"到底是什么水平
过去 90 天里,有三款开源编程模型跨过了合格线:
Devstral Small 2(24B 参数,Mistral) —— SWE-bench Verified 68.0%,256K 上下文窗口,Apache 2.0 许可证。作为 Devstral 2 的消费级版本发布,专为 agentic 编程设计。在单块 RTX 4090(24GB 显存)上以 Q4_K_M 量化运行,或者任何配备 32GB 统一内存的 Mac 都能跑。Hugging Face 模型卡。
MiniMax M2.5 —— SWE-bench Verified 80.2%。与 Claude Opus 4.6(80.8%)的差距仅为 0.6 个百分点。开放权重。开源模型与专有模型在日常编程工作中的差距实际上已经消失了。
DeepSeek V4 Pro —— 2026 年 4 月 24 日发布。LiveBench Coding Average 得分 69.99,Agentic Coding 得分 56.67(2026 年 5 月 12 日快照)。开源领域最强的纯编程模型性价比,MIT 许可证权重。
如果你想选一个模型入手:Devstral Small 2 是最稳妥的选择。 Apache 许可证,能在消费级硬件上运行,从第一天起就为支持工具使用和函数调用的 agentic 循环而设计。
2、硬件
一次性 500 到 1500 美元,对比每年 24000 美元的托管服务。
对于想摆脱 Anthropic 按 token 计费模式的开发者,有三种可行的搭建方案:
方案 1 —— RTX 4090 台式机(约 1500 美元)。24GB 显存。以 Q4_K_M 量化运行 Devstral Small 2 大约占用 14GB 显存,剩余 10GB 可用于 KV 缓存(长上下文)和推理框架开销。24B 级别模型预计可达 60 到 100 token/秒。二手 RTX 3090 约 700 美元,散热良好的情况下表现几乎一样。
方案 2 —— RTX 5070 台式机(约 500 到 700 美元)。12GB 显存。比较吃紧但能用,24B 模型需要更激进的量化(Q3_K_M),或者选择 9B 到 13B 级别的模型如 Qwen 3.5 Coder 9B。适合预算有限的搭建方案。
方案 3 —— M4 Max Mac / 48GB Mac Mini(约 1500 到 3000 美元)。统一内存让 32B 以上模型加载起来毫不费力。Mac MLX 运行 Qwen 3.5 Coder 32B 可达 60 到 70 token/秒,而 Ollama 的 llama.cpp 后端大约只有 35 token/秒,这是 InsiderLLM 基准测试的数据。售价约 1500 美元的 48GB Mac Mini 能加载 32B 模型,而这原本需要一块 700 美元以上的二手 RTX 3090 外加一台独立工作站。
综合成本对比:
- 托管 Claude Sonnet 4.6: 每位开发者每月 500 到 2000 美元,即每年 6000 到 24000 美元/人
- 本地方案: 硬件一次性 500 到 1500 美元,之后每月 0 美元
对于一个 50 人的工程师团队,按每位开发者每月 500 美元计算,1500 美元的 RTX 4090 三周就能回本。按每月 2000 美元计算,五天就能回本。
3、智能体层
OpenCode 就是新的 Claude Code。
Claude Code 在 2025 到 2026 年主导讨论的原因不是模型本身,而是编排能力:一个能在终端中规划、执行、运行测试并提交的 TUI。同样的模式现在已有开源实现。
OpenCode —— 到 2026 年中,GitHub 星标数突破 150000,月活跃开发者约 650 万。使用 Go 语言编写,基于 Bubble Tea TUI 库。核心功能包括:
- 支持 75 个以上 LLM 端点,包括 Anthropic、OpenAI、AWS Bedrock、Azure OpenAI、OpenRouter、Grok,以及任何兼容 OpenAI 的本地端点(包括 Ollama)
--plan智能体(只读,不会修改文件)与--build智能体(编写代码并提交)- 原生 MCP 服务器支持,用于工具插件
- 可嵌入脚本的 SDK
- 设计上保持供应商中立,避免厂商锁定
将 OpenCode 指向本地运行 Devstral Small 2 的 Ollama 端点,你就能获得 Claude Code 的工作流,却不用付 Claude Code 的账单。opencode.ai | GitHub。
Aider —— 原生支持 git 的选择。读取你的代码库,自动编辑并提交每一次修改。Repomap 功能在处理大型 monorepo 时仍然是业界最佳。如果你想要每次编辑都自动提交的工作流,选它。
Cline —— 原生支持 VS Code 的选择。截至 2026 年 5 月,VS Code 安装量达 500 万,是全球安装量最高的开源编程扩展。直接集成在编辑器内部,而非独立的 TUI。
以上三者都只需一行配置就能连接本地 Ollama。根据你的编辑器习惯选择即可。
4、完整搭建(45 分钟)
逐步操作,复制粘贴即可:
1. 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
2. 拉取 Devstral Small 2
ollama pull devstral:24b
这会下载大约 14GB。Q4_K_M 量化是最佳平衡点,相比全精度保留了 95% 以上的质量,同时体积压缩到原来的四分之一。
3. 安装 OpenCode
npm install -g opencode-ai
4. 将 OpenCode 指向本地 Ollama
设置兼容 OpenAI 的端点:
export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
opencode auth login ollama
5. 运行
cd your-project
opencode --build --model devstral:24b
这就是全部设置。你现在拥有了一个完全本地的类 Claude Code 终端智能体,针对你的代码库运行,而且每生成一个 token 都不花钱。
对于 Apple Silicon Mac 用户,把 Ollama 换成 MLX 可获得 2 倍推理速度:
pip install mlx-lm
mlx_lm.server --model mistralai/Devstral-Small-2-24B-Instruct-2512
M4 Max 上预计约 60 到 70 token/秒。
5、本地方案真正吃亏的地方
以下三个场景托管模型仍然占优,在全面投入之前你应该了解:
1. 代码库规模的智能体任务。 Claude Code 的动态工作流(2026 年 5 月 28 日发布)可以并行编排 1000 个子智能体,通过 JavaScript 运行时把状态外部化到脚本变量中,而不是让模型上下文膨胀。这在当前的本地方案中还无法实现,因为你没有速率限制余量,也没有元编排层。对于跨数十万行代码的全仓库迁移,还是继续用托管方案吧。
2. 前沿推理工作负载。 Opus 4.8 在 USAMO 2026 数学测试中跃升至 96.7%(Opus 4.7 为 69.3%)。本地 24B 级别模型在复杂推理链上无法与之匹敌。对于纯粹的代码补全、重构和常规智能体工作,差距基本看不出来。但对于深层算法问题求解,差距是真实存在的。
3. 长上下文与高召回率。 Devstral Small 2 的 256K 上下文是真实的,但超过约 100K token 后召回准确率会下降,这是目前所有本地模型的通病。Opus 4.8 的 1M 上下文配合强大的召回能力,在全 monorepo 阅读工作中仍然是领导者。
如果你的工作是 80% 常规重构 + 20% 复杂推理,本地方案在成本上完胜,而且生产力损失几乎不可测量。如果你的工作是 80% 复杂推理 + 20% 常规工作,那就继续用托管方案,或者采用混合模式:本地处理常规工作,小型托管计划处理其余部分。
6、一张表看清经济账
每位开发者的完整成本对比:
- Claude Code(Sonnet 4.6): 每月 500 到 2000 美元,即每年 6000 到 24000 美元。SWE-bench 79.6%。5 分钟设置。
- GitHub Copilot Pro: 每月 19 到 39 美元 + 使用量,即每年 228 到 468 美元以上。SWE-bench 约 60%。2 分钟设置。
- Cursor Composer 2.5: 每月 20 美元基础费 + token 使用量。SWE-bench 约 78%。5 分钟设置。
- 本地方案:RTX 4090 + Devstral Small 2 + OpenCode: 1500 美元硬件之后每月 0 美元。SWE-bench 68%。45 分钟设置。
- 本地方案:Mac M4 Max + Devstral Small 2 + OpenCode(MLX): 3000 美元硬件之后每月 0 美元。SWE-bench 68%。45 分钟设置。
按每月 500 美元 Claude Code 使用量计算,单人回本时间:三个月。
按每月 2000 美元计算:二十四天。
对于一个 50 人团队,按平均每位开发者每月 1000 美元计算:不到两周就能回本。
7、这个周末就行动
如果你是个人开发者或小团队,目前正在大规模使用 Claude Code 或 Cursor:
- 购买或复用一块 RTX 4090(或者使用配备 32GB 以上统一内存的 M 系列 Mac)
- 安装 Ollama
- 拉取 Devstral Small 2
- 安装 OpenCode
- 将 OpenCode 指向本地 Ollama 端点
- 用本地方案运行你正常的工作流一周
- 诚实评估:你有多少次不得不回退到托管方案?
对于 2026 年的大多数开发者来说,答案是不到 20% 的时间,而这 20% 可以用更小规模的托管计划解决,不必签全团队的企业级合同。
微软刚刚内部取消 Claude Code 的原因,正是你应该关注这套方案的原因。AI 编程栈的开源层已经足够好,而且改进速度比托管方案的降价速度更快。 Devstral Small 2 在 2026 年 5 月达到 SWE-bench 68%。下一个 24B 版本预计将在第三季度发布。
支撑 9650 亿美元估值的泡沫不会在模型停止工作时破裂。它会在开发者意识到开源模型已经足够好的时候破裂。
原文链接: Stop Paying $2,000 a Month for Claude Code.
汇智网翻译整理,转载请标明出处