Anthropic模型的本地开源平替

小团队工程师很容易在 Anthropic 的 Claude Code (Sonnet/Opus 4.5) 上花费 >$2K/mo 的费用。随着预算紧张,你可能会想知道是否可以在不妥协质量的前提下 利用本地大模型

一个较弱的开放模型在底层仍然可以为中小型开发团队实现"几乎 Claude Code"的功能吗?

Qwen3-Coder (32B)DeepSeek V3GLM-4.7MiniMax M2.1 这样的模型正在推动代码理解的边界水平。

事实上,最近的基准测试显示,最新的 Qwen 和 DeepSeek 模型可以与专有模型相媲美,它们甚至可能是领先的代码大模型。

这些进展表明,如果硬件和集成障碍不是致命的,小团队可以依靠本地大模型。

有很多候选人可以在内部运行。这里有一些你的选项

1、Qwen3-Coder (32B MoE, 128K 上下文)

Qwen3-Coder拥有 235B 参数(22B 活跃),并明确针对编码和智能体任务进行了调整。Zhipu AI 的基准测试显示,Qwen3 在编码测试中可以与(或击败)OpenAI 的 GPT-4 等深度专有模型竞争。即使是 Qwen3 的较小版本(14B、8B)也可以在轻得多的硬件上提供强大的编码支持。

2、DeepSeek V3/Coder

V3 "Terminus" 系列在数学/推理和代码方面表现很强,尽管官方权重还没有完全开放。(DeepSeek 的 R1 671B 在 6×A100 GPU 上进行了量化,约 $100K 硬件。)

非官方报告显示,DeepSeek 的编码模型很强大,但同样需要一个 严肃的 GPU 集群

即使是量化的,DeepSeek-V3.2 也需要 350-400+ GB 的 VRAM (多 GPU)用于推理

DeepSeek 级别的模型是数据中心规模的,可能超出典型团队的设置,但如果你手头有基础设施,绝对值得一试。

3、GLM-4.7

GLM-4.7 相比其前代版本在数学/推理方面有重大提升,他们甚至称其为"以一小部分成本达到 Claude 级别的编码模型"。

GLM-4.7 权重是开放的(在 HuggingFace/ModelScope 上),并且可以使用 vLLM 或 SGLang 等框架提供服务。

在直接对比的基准测试中,GLM-4.7 实际上表现相当不错,在实践中,GLM-4.7 在许多编码查询中工作良好,并且运行在比完整 Sonnet 轻得多的硬件上。

GLM-4.7 交错思考

4、MiniMax M2.1 (230B MoE)

来自 MiniMax 团队的新来者(2025 年 12 月),M2.1 是一个 专家混合模型,具有 10B 活跃/230B 总参数,专门为编码智能体和工具使用设计。

团队确认模型权重完全开源。

我们还没有测试它,但它承诺"无需封闭 API 的顶级编码性能"和快速推理(MoE 意味着每次请求只激活网络的一部分)。

如果 M2.1 达到了其宣传的效果,它可能是游戏规则的改变者,但即使运行它也需要多个 GPU(10B 活跃权重仍然需要 >80GB 的 VRAM)。

5、更小的模型

除了巨头之外,还有高效的编码器:

  • Qwen 14B/8B
  • GPT-OSS 120B
  • Llama-4 变体

这些可以在单个 GPU(8-24GB VRAM)上运行,对于简单任务相当胜任。

Qwen3–14B 在 GitHub 问题上获得 ~58%,在一个 RTX 4090 (24GB) 上以 Q4 量化运行 Qwen 14B 对于例程编码建议是很流畅的。

这些更小的模型不会在新的复杂问题上匹配 Opus/Sonnet,但它们极大地扩大了可行性,因为 $1–2K 的 GPU 可以为一个开发者提供服务。

6、硬件和性能现实

如前所述,DeepSeek-V3.2 (685B MoE),即使量化到 4 位,也需要 350-400+ GB 的 GPU 内存,这意味着一个 8×A100/H100 集群。(完整精度将超过 1 TB!)。

换句话说,DeepSeek 的顶级模型纯粹是数据中心领域。

相比之下,上述开放模型从几 GB 到几十 GB 不等。

Qwen3–32B 模型需要约 24GB VRAM(如果是 4 位量化需要 16GB),如果量化的话,可以放在一张高端桌面卡上(例如 RTX 6000/4090)。

Qwen3–14B 需要约 12GB(8GB Q4 量化)。

GLM-4.7 在大小上相当(据报道 2.5T 令牌,但权重大小类似于 28-32B 范围),你可以轻松地在 48GB H100(一张卡)上运行它。

MiniMax M2.1 的活跃 10B 将需要至少 80GB 的 GPU 内存(10B×8 字节 + 开销),所以这是一个 2× H100 级别的工作。

在实践中,小团队可以构建 一个适度的推理设备:2×48GB GPU、256GB RAM,使用 vLLM 进行服务。

你可以同时加载 Qwen3–32B(量化 16 位)和 GLM-4.7 并支持几个并发开发者。

一旦模型预热,你可以每秒处理数千个输入令牌的吞吐量(vLLM 的批处理和 KV 缓存有帮助)。

作为参考,单张 48GB 卡可以产生约 10K 令牌/秒的"上下文预填充"。

典型的编码提示(约 500 个令牌)可以在 0.5-1 秒内完成。(比云 API 慢,但在局域网上可以接受)。

当然,更多的并发意味着更多的 GPU。

你可以在两张卡之间分担负载;每个开发者的 Claude CLI 会话被路由到任何空闲的 GPU。

你也可以尝试 Nvidia MIG 分区,将多个较小的模型打包到一张卡上以完成轻量级任务(Minimax M2.1 支持多 GPU,GLM-4.7 也是如此)。

这不是零开销,有时 vLLM 会停滞等待 GPU 交换缓存的上下文。

但随着硬件变得更便宜,你可以轻松并行化(8×4090 设置约 $30K,只会降价)。

7、与 Claude Code(和替代方案)集成

Claude Code CLI 遵循模型名称的环境变量。你可以在 CLI 配置中设置 CLAUDE_MODEL=glm-4.7(或类似的)。

你也可以使用 开源智能体框架。像 OpenCode、Roo Code 或 Cline 这样的项目允许你插入任何 LLM 后端。

你可以将你的本地 Qwen 或 MiniMax 模型插入到类似 Claude 的 CLI 界面中。

保持在 Claude Code 生态系统内的一个优势是 智能体提示工程 非常成熟。输出的质量不仅仅是模型,还有系统提示、对话格式、代码上下文的检索。

通过重用 Claude 的模板,即使从较小的模型你也可以得到不错的结果。

8、结束语

小型开发团队可以用本地模型替代 Claude Code 的大部分功能,但前提是你要将其视为适当的基础设施。

不要让每个开发者在笔记本电脑上运行不同的模型。相反,在同一个 Claude Code CLI(或等效的智能体)后面提供一个一致的模型。

这样,所有开发者都看到相同的行为,你可以全局调整提示。

这可以为日常编码提供非常相似的输出:代码完成、bug 修复、PR 摘要等。

总之,没有什么能阻止这列火车。


原文链接:Local LLMs That Can Replace Claude Code

汇智网翻译整理,转载请标明出处