别再每月 $2000买 Claude Code 了

微软刚刚取消了数千名工程师的 Claude Code 授权，因为每位开发者每月要烧掉 500 到 2000 美元的 token 费用。而这套本地优先的方案，只需一块 RTX 4090 就能运行，在 SWE-bench Verified 上拿到 68% 的分数，而且以后每生成一个 token 都不花一分钱。

admin

Jun 9, 2026 • 10 min read

AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

2026 年 5 月 15 日，Rajesh Jha 向微软旗下 Windows、Microsoft 365、Outlook、Teams 和 Surface 部门的数千名工程师发送了一封内部邮件：他们的 Claude Code 授权将在 6 月 30 日被取消。官方给出的理由是"基准测试后趋同"。但 The Next Web 以及 Uber 内部的一份对比报告透露了真正的原因：工程师们每月在 API token 上花费 500 到 2000 美元，而且成本随着使用人数增加而水涨船高。这个悖论如今正摆在每一家世界 500 强 CFO 的办公桌上。

Uber 把 Claude Code 部署给了大约 5000 名工程师。到 2026 年 4 月，月活跃使用率达到了 84% 到 95%。工具越好用，用的人越多，账单就越厚。

解决这个问题的技术方案已经低调存在了六个月，如今刚刚跨过临界点。

一块 500 到 1500 美元的 GPU，加上一个 240 亿参数的开源模型，现在能在 SWE-bench Verified 上拿到 68.0% 的分数。Claude Sonnet 4.6 在同一基准测试上的分数是 79.6%，差距为 12 个百分点。对于大多数企业级编码工作来说，这个差距根本看不出来。但对于你的月度账单来说，这相当于每位开发者每年 24000 美元和零之间的区别。

下面就是这套方案。

1、2026 年，"足够好"到底是什么水平

过去 90 天里，有三款开源编程模型跨过了合格线：

Devstral Small 2（24B 参数，Mistral） —— SWE-bench Verified 68.0%，256K 上下文窗口，Apache 2.0 许可证。作为 Devstral 2 的消费级版本发布，专为 agentic 编程设计。在单块 RTX 4090（24GB 显存）上以 Q4_K_M 量化运行，或者任何配备 32GB 统一内存的 Mac 都能跑。Hugging Face 模型卡。

MiniMax M2.5 —— SWE-bench Verified 80.2%。与 Claude Opus 4.6（80.8%）的差距仅为 0.6 个百分点。开放权重。开源模型与专有模型在日常编程工作中的差距实际上已经消失了。

DeepSeek V4 Pro —— 2026 年 4 月 24 日发布。LiveBench Coding Average 得分 69.99，Agentic Coding 得分 56.67（2026 年 5 月 12 日快照）。开源领域最强的纯编程模型性价比，MIT 许可证权重。

如果你想选一个模型入手：Devstral Small 2 是最稳妥的选择。 Apache 许可证，能在消费级硬件上运行，从第一天起就为支持工具使用和函数调用的 agentic 循环而设计。

2、硬件

一次性 500 到 1500 美元，对比每年 24000 美元的托管服务。

对于想摆脱 Anthropic 按 token 计费模式的开发者，有三种可行的搭建方案：

方案 1 —— RTX 4090 台式机（约 1500 美元）。24GB 显存。以 Q4_K_M 量化运行 Devstral Small 2 大约占用 14GB 显存，剩余 10GB 可用于 KV 缓存（长上下文）和推理框架开销。24B 级别模型预计可达 60 到 100 token/秒。二手 RTX 3090 约 700 美元，散热良好的情况下表现几乎一样。

方案 2 —— RTX 5070 台式机（约 500 到 700 美元）。12GB 显存。比较吃紧但能用，24B 模型需要更激进的量化（Q3_K_M），或者选择 9B 到 13B 级别的模型如 Qwen 3.5 Coder 9B。适合预算有限的搭建方案。

方案 3 —— M4 Max Mac / 48GB Mac Mini（约 1500 到 3000 美元）。统一内存让 32B 以上模型加载起来毫不费力。Mac MLX 运行 Qwen 3.5 Coder 32B 可达 60 到 70 token/秒，而 Ollama 的 llama.cpp 后端大约只有 35 token/秒，这是 InsiderLLM 基准测试的数据。售价约 1500 美元的 48GB Mac Mini 能加载 32B 模型，而这原本需要一块 700 美元以上的二手 RTX 3090 外加一台独立工作站。

综合成本对比：

托管 Claude Sonnet 4.6： 每位开发者每月 500 到 2000 美元，即每年 6000 到 24000 美元/人
本地方案： 硬件一次性 500 到 1500 美元，之后每月 0 美元

对于一个 50 人的工程师团队，按每位开发者每月 500 美元计算，1500 美元的 RTX 4090 三周就能回本。按每月 2000 美元计算，五天就能回本。

3、智能体层

OpenCode 就是新的 Claude Code。

Claude Code 在 2025 到 2026 年主导讨论的原因不是模型本身，而是编排能力：一个能在终端中规划、执行、运行测试并提交的 TUI。同样的模式现在已有开源实现。

OpenCode —— 到 2026 年中，GitHub 星标数突破 150000，月活跃开发者约 650 万。使用 Go 语言编写，基于 Bubble Tea TUI 库。核心功能包括：

支持 75 个以上 LLM 端点，包括 Anthropic、OpenAI、AWS Bedrock、Azure OpenAI、OpenRouter、Grok，以及任何兼容 OpenAI 的本地端点（包括 Ollama）
--plan 智能体（只读，不会修改文件）与 --build 智能体（编写代码并提交）
原生 MCP 服务器支持，用于工具插件
可嵌入脚本的 SDK
设计上保持供应商中立，避免厂商锁定

将 OpenCode 指向本地运行 Devstral Small 2 的 Ollama 端点，你就能获得 Claude Code 的工作流，却不用付 Claude Code 的账单。opencode.ai | GitHub。

Aider —— 原生支持 git 的选择。读取你的代码库，自动编辑并提交每一次修改。Repomap 功能在处理大型 monorepo 时仍然是业界最佳。如果你想要每次编辑都自动提交的工作流，选它。

Cline —— 原生支持 VS Code 的选择。截至 2026 年 5 月，VS Code 安装量达 500 万，是全球安装量最高的开源编程扩展。直接集成在编辑器内部，而非独立的 TUI。

以上三者都只需一行配置就能连接本地 Ollama。根据你的编辑器习惯选择即可。

4、完整搭建（45 分钟）

逐步操作，复制粘贴即可：

1. 安装 Ollama

curl -fsSL https://ollama.com/install.sh | sh

2. 拉取 Devstral Small 2

ollama pull devstral:24b

这会下载大约 14GB。Q4_K_M 量化是最佳平衡点，相比全精度保留了 95% 以上的质量，同时体积压缩到原来的四分之一。

3. 安装 OpenCode

npm install -g opencode-ai

4. 将 OpenCode 指向本地 Ollama

设置兼容 OpenAI 的端点：

export OPENAI_API_BASE=http://localhost:11434/v1
export OPENAI_API_KEY=ollama
opencode auth login ollama

5. 运行

cd your-project
opencode --build --model devstral:24b

这就是全部设置。你现在拥有了一个完全本地的类 Claude Code 终端智能体，针对你的代码库运行，而且每生成一个 token 都不花钱。

对于 Apple Silicon Mac 用户，把 Ollama 换成 MLX 可获得 2 倍推理速度：

pip install mlx-lm
mlx_lm.server --model mistralai/Devstral-Small-2-24B-Instruct-2512

M4 Max 上预计约 60 到 70 token/秒。

5、本地方案真正吃亏的地方

以下三个场景托管模型仍然占优，在全面投入之前你应该了解：

1. 代码库规模的智能体任务。 Claude Code 的动态工作流（2026 年 5 月 28 日发布）可以并行编排 1000 个子智能体，通过 JavaScript 运行时把状态外部化到脚本变量中，而不是让模型上下文膨胀。这在当前的本地方案中还无法实现，因为你没有速率限制余量，也没有元编排层。对于跨数十万行代码的全仓库迁移，还是继续用托管方案吧。

2. 前沿推理工作负载。 Opus 4.8 在 USAMO 2026 数学测试中跃升至 96.7%（Opus 4.7 为 69.3%）。本地 24B 级别模型在复杂推理链上无法与之匹敌。对于纯粹的代码补全、重构和常规智能体工作，差距基本看不出来。但对于深层算法问题求解，差距是真实存在的。

3. 长上下文与高召回率。 Devstral Small 2 的 256K 上下文是真实的，但超过约 100K token 后召回准确率会下降，这是目前所有本地模型的通病。Opus 4.8 的 1M 上下文配合强大的召回能力，在全 monorepo 阅读工作中仍然是领导者。

如果你的工作是 80% 常规重构 + 20% 复杂推理，本地方案在成本上完胜，而且生产力损失几乎不可测量。如果你的工作是 80% 复杂推理 + 20% 常规工作，那就继续用托管方案，或者采用混合模式：本地处理常规工作，小型托管计划处理其余部分。

6、一张表看清经济账

每位开发者的完整成本对比：

Claude Code（Sonnet 4.6）： 每月 500 到 2000 美元，即每年 6000 到 24000 美元。SWE-bench 79.6%。5 分钟设置。
GitHub Copilot Pro： 每月 19 到 39 美元 + 使用量，即每年 228 到 468 美元以上。SWE-bench 约 60%。2 分钟设置。
Cursor Composer 2.5： 每月 20 美元基础费 + token 使用量。SWE-bench 约 78%。5 分钟设置。
本地方案：RTX 4090 + Devstral Small 2 + OpenCode： 1500 美元硬件之后每月 0 美元。SWE-bench 68%。45 分钟设置。
本地方案：Mac M4 Max + Devstral Small 2 + OpenCode（MLX）： 3000 美元硬件之后每月 0 美元。SWE-bench 68%。45 分钟设置。

按每月 500 美元 Claude Code 使用量计算，单人回本时间：三个月。

按每月 2000 美元计算：二十四天。

对于一个 50 人团队，按平均每位开发者每月 1000 美元计算：不到两周就能回本。

7、这个周末就行动

如果你是个人开发者或小团队，目前正在大规模使用 Claude Code 或 Cursor：

购买或复用一块 RTX 4090（或者使用配备 32GB 以上统一内存的 M 系列 Mac）
安装 Ollama
拉取 Devstral Small 2
安装 OpenCode
将 OpenCode 指向本地 Ollama 端点
用本地方案运行你正常的工作流一周
诚实评估：你有多少次不得不回退到托管方案？

对于 2026 年的大多数开发者来说，答案是不到 20% 的时间，而这 20% 可以用更小规模的托管计划解决，不必签全团队的企业级合同。

微软刚刚内部取消 Claude Code 的原因，正是你应该关注这套方案的原因。AI 编程栈的开源层已经足够好，而且改进速度比托管方案的降价速度更快。 Devstral Small 2 在 2026 年 5 月达到 SWE-bench 68%。下一个 24B 版本预计将在第三季度发布。

支撑 9650 亿美元估值的泡沫不会在模型停止工作时破裂。它会在开发者意识到开源模型已经足够好的时候破裂。

原文链接: Stop Paying $2,000 a Month for Claude Code.

汇智网翻译整理，转载请标明出处