MODEL-ZOO

15个实测：Kimi K2.6 vs. GLM-5.1

两个中国开源模型目前占据全球 SWE-Bench Pro 排行榜榜首：Kimi K2.6 为 58.6%，GLM-5.1 为 58.4%。从纸面上看它们打平了。我花了 18 小时让两个模型通过相同的 15 个生产编程任务。结果发现 0.2 分的差距是整个对比中最小的差距。

admin

Apr 25, 2026 • 15 min read

微信 ezpoda免费咨询：AI编程 | AI模型微调| AI私有化部署
AI模型价格对比 | AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

两天前，2026 年 4 月 20 日，月之暗面发布了 Kimi K2.6，采用 Modified MIT 许可证完整开源。十三天前，Z.ai（前智谱 AI）以 MIT 许可证发布了 GLM-5.1——一个在 100,000 个华为昇腾 910B 芯片上训练的 754B 参数模型，零 NVIDIA GPU。两者在同一个两周窗口内都声称占据了 SWE-Bench Pro 的第一名。

这种基准测试大战的时机通常是一个叙事陷阱。两个实验室选择完全相同的测试工具，挤出 0.2 分的优势，媒体就称其为胜利。但读者需要一个不同的问题答案：当你把相同的工单粘贴到两个 API 中时，哪一个能关闭它，哪一个成本更低，哪一个会出错？

我将每个任务运行三次——每个模型 45 次运行，总共 90 次——使用相同的脚手架、相同的工具预算和相同的系统提示。我支付了 $47 的 API 费用。以下是基准测试表格没有告诉你的。

1、剥去营销的两个模型

让我们从规格开始，因为架构选择直接塑造了这些模型在负载下的行为方式。

Kimi K2.6（月之暗面，2026 年 4 月 20 日）

1T 总参数，每 token 激活 32B* 384 个专家，每 token 路由 8 个 + 1 个共享
61 个 transformer 层（1 个稠密），7168 维隐藏状态上的多头潜在注意力
SwiGLU 激活函数，使用 MuonClip 优化器训练
256K 上下文窗口
Modified MIT 许可证
Moonshot API：$0.60 输入 / $2.50 输出每百万 token（缓存命中：$0.16）
OpenRouter：$0.80 输入 / $3.50 输出每百万
可通过 ollama pull kimi-k2.6:cloud、HuggingFace moonshotai/Kimi-K2.6 和 unsloth GGUF 量化（UD-Q4_K_XL 起始 543GB）获取
Agent 集群：300 个子 Agent，4,000 次协调工具调用，最长 12 小时自主运行

GLM-5.1（Z.ai，2026 年 4 月 7 日）

754B 总参数，每 token 激活 40B* 256 个专家，每 token 路由 top-8 + 1 个共享
78 个 transformer 层（前 3 个稠密），MLA + DeepSeek 稀疏注意力* 6144 隐藏维度，通过多 token 预测（MTP）头进行推测解码
203K 上下文（最大输出 65,535 token）
MIT 许可证
Z.ai 直连 API：$1.40 输入 / $4.40 输出每百万 token（缓存命中：$0.26）
OpenRouter：$0.95 输入 / $3.15 输出每百万
在约 100,000 个华为昇腾 910B 芯片上使用 MindSpore 框架训练
声称支持 8 小时自主计划-执行-测试-修复-优化循环

注意参数计算。K2.6 在纸面上是更大的模型（1T vs 754B 总参数），但每 token 激活的参数更少（32B vs 40B）。在实践中这意味着 K2.6 每 token 的服务成本比 GLM-5.1 更低，这与我们在定价中看到的相符：Moonshot 在官方端点上的输入和输出每百万 token 大致便宜 43%。

2、没有人在争论的 0.2 分基准

在 SWE-Bench Pro 上——两个实验室在公告中都指向的头条基准测试——截至 2026 年 4 月 22 日，以下是完整的排行榜顶部：

Model	SWE-Bench Pro	Source
Kimi K2.6	58.6%	Moonshot self-report, April 20
GLM-5.1	58.4%	Z.ai self-report, April 7
GPT-5.4 (xhigh)	57.7%	OpenAI
Gemini 3.1 Pro (high-thinking)	54.2%	DeepMind
Claude Opus 4.6 (max effort)	53.4%	Anthropic
Kimi K2.5	50.7%	Moonspot previous gen

两个开源模型，都是中国的，都是 MIT 系列许可证，都在顶部 0.2 分之内。其中的插曲是其他所有人——GPT、Claude、Gemini——在这个特定基准上都远远落后。这是一个真实的故事。但 0.2 分在这个规模上是噪声；你可以通过运行同一模型两次来翻转它。

真正重要的是排行榜其他地方发生了什么。

3、排行榜其他地方的表现

以下是来自 Artificial Analysis、BenchLM 和各个基准页面的综合数据，与两个实验室自己的发布数据交叉参考：

Benchmark	Kimi K2.6	GLM-5.1	Winner
SWE-Bench Pro	58.6%	58.4%	K2.6 (+0.2)
SWE-Bench Multilingual	76.7%	n/a	K2.6
Terminal-Bench 2.0	66.7	54.9 (composite)	K2.6 (+11.8)
HLE-Full with tools	54.0%	n/a	K2.6
NL2Repo	n/a	42.7%	GLM-5.1
BrowseComp	83.2%	n/a	K2.6
Toolathlon	50.0%	n/a	K2.6
BenchLM coding avg	72.0	60.9	K2.6 (+11.1)
BenchLM agentic avg	73.1	65.3	K2.6 (+7.8)
BenchLM knowledge avg	53.8	52.3	K2.6 (+1.5)
BenchLM overall (5-cat)	83	84	GLM-5.1 (+1)
AA Intelligence Index	54	51	K2.6 (+3)

在我能找到的每个公共跨模型排行榜上，GLM-5.1 只赢了两项：BenchLM 多类别整体平均上一分的优势（由多模态和推理类别推动），以及 NL2Repo——一个 Z.ai 专门优化的自然语言到代码仓库基准。在实际需要的地方——编程、Agent 循环、工具使用、长期执行——K2.6 赢了，而且不是 0.2 分的差距。

BenchLM 编程 11.1 分的差距才是应该上头条的数字。但它没有，因为实验室不会为他们输掉的基准写新闻稿。

4、15 个任务的方法论

我想要一个两个实验室都无法直接训练过的测试。我拉取了 2026 年 4 月 14-21 日之间关闭的 15 个 GitHub issue（因此都在两个训练截止日期之后），每个都有一个 50 到 400 行 diff 的合并 PR。组合：

5 个后端 Python bug（FastAPI、SQLAlchemy 2.x、pydantic v2）
3 个 TypeScript/React 前端回归
2 个 Rust 生命周期/借用检查器编译错误
2 个 Go 并发 bug（一个数据竞争，一个通道死锁）
2 个 SQL 优化器问题（模式变更后 Postgres EXPLAIN 漂移）
1 个 Terraform 漂移检测问题

每个任务包括仓库 URL、失败的测试和 issue 描述。没有合并的 PR 正文，没有维护者提示。每个模型在相同的 Agent 脚手架（OpenHands 0.21，25 步预算，相同的系统提示，默认温度）内通过官方 API 运行。我对每个模型的每个任务运行三次并取中位数分数。

评分：编译通过（1）+ 通过仓库现有测试套件（1）+ 在我编写的隐藏测试上匹配合并 PR 行为（0-3）。每任务最高 5 分，总计 75 分。

4.1 结果

Model      Total   Compile   Tests   Behavior   Cost/run   p50 latency
---------  ------  --------  ------  ---------  ---------  -----------
K2.6       61/75   15/15     13/15   33/45      $0.41      22s
GLM-5.1    52/75   15/15     11/15   26/45      $0.72      31s

K2.6 直接赢了 9 个任务，GLM-5.1 赢了 3 个，3 个平局（两个解决方案都通过了，都匹配了 PR 行为）。GLM-5.1 赢的任务都是多文件任务，其 78 层架构和 DeepSeek 稀疏注意力似乎真正帮助了跨文件推理——其中两个是 SQL 优化器任务，一个是 Terraform 漂移问题。对于那些特定类型的长链、结构化工件工作负载，GLM-5.1 有真正的优势。

但在任何类似单仓库代码-编写-调试循环的任务上——最常见的开发者任务——K2.6 的胜利比基准差距所暗示的要大。在两个 Go 并发 bug 上，K2.6 在所有六次运行中第一次就找到了竞争条件。GLM-5.1 在 6 次运行中有 4 次提出了看起来合理但错误的修复，通常是在错误的地方添加了互斥锁。

4.2 真实提示，并排对比

以下是任务 3——一个来自开源日志库的真实 FastAPI 问题。失败的测试和 issue（为简洁而改写）：

POST /logs 在请求体包含字符串格式的 timestamp 字段时返回 500。预期：解析 ISO-8601 或 epoch 浮点数。实际：pydantic ValidationError。修复应接受两种格式。

Kimi K2.6 输出（从成功运行中提取，为简洁而编辑）：

from datetime import datetime
from pydantic import BaseModel, field_validator
class LogEntry(BaseModel):
    timestamp: datetime
    level: str
    message: str
    @field_validator("timestamp", mode="before")
    @classmethod
    def parse_ts(cls, v):
        if isinstance(v, (int, float)):
            return datetime.fromtimestamp(float(v))
        if isinstance(v, str):
            try:
                return datetime.fromisoformat(v.replace("Z", "+00:00"))
            except ValueError:
                return datetime.fromtimestamp(float(v))
        return v

K2.6 还添加了一个单元测试，明确指出了 Z 后缀边缘情况，并解释了 mode="before" 的选择（pre-v2 pydantic 使用不同的预验证器）。

GLM-5.1 输出（第一次运行，得分 3/5 因为遗漏了 Z 后缀情况）：

from datetime import datetime
from pydantic import BaseModel, validator
class LogEntry(BaseModel):
    timestamp: datetime
    level: str
    message: str
    @validator("timestamp", pre=True)
    def parse_ts(cls, v):
        if isinstance(v, str):
            try:
                return datetime.fromisoformat(v)
            except ValueError:
                pass
        try:
            return datetime.fromtimestamp(float(v))
        except Exception:
            return v

两件事需要注意。首先，GLM-5.1 使用了 pydantic v1 的 @validator 装饰器，这在 pydantic v2 中已被弃用。代码可以运行——v2 仍然支持 v1 shim——但会抛出弃用警告，而仓库的 CI 已配置为硬性失败。其次，它没有处理 Python 的 fromisoformat 在 3.11 之前会出错的 Z 后缀。在仓库的 Python 3.10 CI 上，这个修复悄悄地破坏了一个使用 2026-04-18T10:15:00Z 的现有测试。

这种模式——K2.6 倾向于使用当代惯用法，GLM-5.1 倾向于使用已弃用但仍可用的惯用法——在 15 个任务中的 6 个里都出现了。

5、为什么价格差距比基准差距更重要

以 $0.60/M 输入和 $2.50/M 输出计算，K2.6 的 Moonshot API 在输入上比 Z.ai 直连 GLM-5.1 端点（$1.40 / $4.40）便宜 57%，在输出上便宜 43%。对于在真实代码库上运行编程 Agent 的开发者来说，这不是一个舍入误差。

以下是一周中等 Agent 流量在两个模型上的样子。假设：每天 40 个编程任务，每个任务 50K 输入 token（仓库上下文 + 系统提示），每个任务 15K 输出 token（代码 + 推理）：

Weekly volume: 14M input tokens, 4.2M output tokens
K2.6 weekly cost:   $8.40 + $10.50  = $18.90
GLM-5.1 weekly cost: $19.60 + $18.48 = $38.08
Delta:              $19.18 (+101%)
Annualized:
K2.6:     $983
GLM-5.1:  $1,981
Delta:    $998/year per engineer

对于一个平均使用两者的 10 人工程师团队，这大约是 ~$10K/年的差异，而 K2.6 恰好是在基准测试中得分更高的模型。在一个 50 人的工程组织中，你面临的是 $50K/年的预算差异，而且还是那个恰好赢了更多测试的模型。

6、上下文、延迟和 GLM-5.1 真正领先的一个领域

K2.6 有 256K 上下文窗口。GLM-5.1 有 203K。纸面上这对 K2.6 是 26% 的优势，如果你把一个大型 monorepo 塞进单个提示中，这就很重要。在我的任务中，我从未触及任何一个限制——我组装的最大仓库上下文约为 ~110K token——但对于迭代获取文件的 Agent 工作负载，256K 给了 K2.6 真正的余量。

在延迟方面，K2.6 在我的运行中也领先：22 秒的中位解决时间对比 GLM-5.1 的 31 秒，从第一个工具调用到最后一个补丁。部分原因是 GLM-5.1 始终开启的计划-执行-测试循环增加了思考开销。

GLM-5.1 击败 K2.6 的一个真正类别：NL2Repo，衡量从自然语言规范生成整个代码仓库。GLM-5.1 在这个基准上得分 42.7%（从 GLM-5 的 35.9% 提升），击败了 Claude Opus 4.6 的 33.4% 和 GPT-5.4 的 41.3%。K2.6 尚未发布此处的数据。如果你的工作负载是"从零开始为我搭建一个新仓库"，GLM-5.1 今天确实是更好的工具。

另一个微妙的优势：GLM-5.1 的 MIT 许可证零限制。K2.6 的 Modified MIT 增加了一条条款，要求在月活超过 1 亿的产品上注明出处。对于超大规模企业的部署，该条款可能很重要。对其他人来说则不然。

7、你实际应该使用哪个？

使用 Kimi K2.6 如果你： ——在做单仓库代码-编写-调试循环（最常见的开发者任务）——在乎成本——$20/周 vs $38/周增长很快——想要 256K 上下文一次性粘贴大型仓库——有大量工具调用的 Agent 工作负载——K2.6 的 300 Agent 集群是当前长期执行的 SOTA——多语言项目，同一仓库中有 Rust、Go、Python——K2.6 在 SWE-Bench Multilingual 上获胜（76.7%）

使用 GLM-5.1 如果你： ——需要从规范生成整个代码仓库——NL2Repo 是 GLM 的明显优势——你有企业部署在超大规模 MAU 方面遇到 K2.6 许可条款的问题——想要零归属要求的纯 MIT 许可证——正在做跨文件 SQL 或基础设施即代码任务——GLM-5.1 的 DeepSeek 稀疏注意力在我的测试中在这里有帮助——特别在意模型是在非 NVIDIA 硬件上训练的（监管、供应链或意识形态原因）

改用 Claude Opus 4.6 或 GPT-5.4 如果你： ——需要绝对最高的编程上限并且能承受 $34/M 输出 token——需要在整个模型中真正可靠的图像输入（K2.6 和 GLM-5.1 都主要是文本优先的）——需要供应商 SLA 和企业支持（Moonshot 和 Z.ai 的 API 事故频率都高于 Anthropic）

对于 80% 的读者，诚实的答案是：通过 OpenRouter 或 Moonshot API 开始使用 Kimi K2.6。如果你遇到它处理不好的任务——特别是全仓库脚手架或跨文件 SQL 工作——回退到 GLM-5.1。两者都不需要你支付 Claude 或 GPT 的价格，除非你特别需要只有那些模型才有的能力。

8、5 分钟快速开始

# Option A: Run both via Ollama (cloud, no local GPU required)
ollama pull kimi-k2.6:cloud
ollama pull glm-5.1:cloud
# Option B: Use OpenRouter (single API key, both models)
pip install openai --break-system-packages
# Test K2.6 via OpenRouter
export OPENROUTER_KEY="sk-or-..."
python3 - <<'EOF'
from openai import OpenAI
client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key=__import__("os").environ["OPENROUTER_KEY"],
)
for model in ["moonshotai/kimi-k2.6", "z-ai/glm-5.1"]:
    r = client.chat.completions.create(
        model=model,
        messages=[{"role":"user","content":
            "Write a Python function that takes a list of dicts and merges them, "
            "preferring values from later dicts. Include type hints and a docstring."}],
    )
    print(f"\n===== {model} =====\n{r.choices[0].message.content}")
EOF
# Option C: Direct Moonshot API (K2.6 only, OpenAI-compatible)
# Endpoint: https://api.moonshot.ai/v1
# Model: kimi-k2.6
# Option D: Direct Z.ai API (GLM-5.1 only, OpenAI-compatible)
# Endpoint: https://api.z.ai/api/paas/v4
# Model: glm-5.1

对于使用完整权重的本地推理，unsloth 发布了两者的 GGUF 量化。K2.6 UD-Q4_K_XL 为 543GB；GLM-5.1 Q4_K_M 约为 410GB。两者都可以在双 RTX-5090 配置上使用 llama.cpp 和 SSD 卸载运行，但推理速度明显慢于云 API。

9、结束语

Kimi K2.6 和 GLM-5.1 之间 0.2 分的 SWE-Bench Pro 差距不是你应该关注的。这是统计平局——如果你翻转随机种子就会消失的那种差距。

真正的差距是 BenchLM 编程综合评分的 11.1 分。Agent 工作负载的 7.8 分。输出 token 价格低 43%。上下文窗口大 26%。22 秒对 31 秒的中位延迟。15 个生产工单中 9 胜 3 负。

如果你要在 2026 年 4 月选择一个开源编程模型作为标准，选择 Kimi K2.6。如果你的工作负载特别是全仓库脚手架，保留 GLM-5.1 作为专业备份。如果你仍在没有能力需求原因的情况下支付 Claude Opus 4.6 或 GPT-5.4 的价格，你是在用自己的预算资助闭源实验室税。

最好的部分：两个模型都是 MIT 系列开源权重。你可以下载它们、微调它们、部署它们，并在商业产品中交付它们。排行榜顶部的任何闭源模型都不是这种情况——这正是使这个 2026 年 4 月快照成为自原始 Llama 泄露以来开源编程 AI 最有趣时刻的原因。

原文链接: I Tested Kimi K2.6 vs GLM-5.1 on 15 Real Coding Tasks

汇智网翻译整理，转载请标明出处