15个实测:Kimi K2.6 vs. GLM-5.1
两个中国开源模型目前占据全球 SWE-Bench Pro 排行榜榜首:Kimi K2.6 为 58.6%,GLM-5.1 为 58.4%。从纸面上看它们打平了。我花了 18 小时让两个模型通过相同的 15 个生产编程任务。结果发现 0.2 分的差距是整个对比中最小的差距。
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI模型价格对比 | AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo
两天前,2026 年 4 月 20 日,月之暗面发布了 Kimi K2.6,采用 Modified MIT 许可证完整开源。十三天前,Z.ai(前智谱 AI)以 MIT 许可证发布了 GLM-5.1——一个在 100,000 个华为昇腾 910B 芯片上训练的 754B 参数模型,零 NVIDIA GPU。两者在同一个两周窗口内都声称占据了 SWE-Bench Pro 的第一名。
这种基准测试大战的时机通常是一个叙事陷阱。两个实验室选择完全相同的测试工具,挤出 0.2 分的优势,媒体就称其为胜利。但读者需要一个不同的问题答案:当你把相同的工单粘贴到两个 API 中时,哪一个能关闭它,哪一个成本更低,哪一个会出错?
我将每个任务运行三次——每个模型 45 次运行,总共 90 次——使用相同的脚手架、相同的工具预算和相同的系统提示。我支付了 $47 的 API 费用。以下是基准测试表格没有告诉你的。
1、剥去营销的两个模型
让我们从规格开始,因为架构选择直接塑造了这些模型在负载下的行为方式。
Kimi K2.6(月之暗面,2026 年 4 月 20 日)
- 1T 总参数,每 token 激活 32B* 384 个专家,每 token 路由 8 个 + 1 个共享
- 61 个 transformer 层(1 个稠密),7168 维隐藏状态上的多头潜在注意力
- SwiGLU 激活函数,使用 MuonClip 优化器训练
- 256K 上下文窗口
- Modified MIT 许可证
- Moonshot API:$0.60 输入 / $2.50 输出每百万 token(缓存命中:$0.16)
- OpenRouter:$0.80 输入 / $3.50 输出每百万
- 可通过
ollama pull kimi-k2.6:cloud、HuggingFacemoonshotai/Kimi-K2.6和 unsloth GGUF 量化(UD-Q4_K_XL 起始 543GB)获取 - Agent 集群:300 个子 Agent,4,000 次协调工具调用,最长 12 小时自主运行
GLM-5.1(Z.ai,2026 年 4 月 7 日)
- 754B 总参数,每 token 激活 40B* 256 个专家,每 token 路由 top-8 + 1 个共享
- 78 个 transformer 层(前 3 个稠密),MLA + DeepSeek 稀疏注意力* 6144 隐藏维度,通过多 token 预测(MTP)头进行推测解码
- 203K 上下文(最大输出 65,535 token)
- MIT 许可证
- Z.ai 直连 API:$1.40 输入 / $4.40 输出每百万 token(缓存命中:$0.26)
- OpenRouter:$0.95 输入 / $3.15 输出每百万
- 在约 100,000 个华为昇腾 910B 芯片上使用 MindSpore 框架训练
- 声称支持 8 小时自主计划-执行-测试-修复-优化循环
注意参数计算。K2.6 在纸面上是更大的模型(1T vs 754B 总参数),但每 token 激活的参数更少(32B vs 40B)。在实践中这意味着 K2.6 每 token 的服务成本比 GLM-5.1 更低,这与我们在定价中看到的相符:Moonshot 在官方端点上的输入和输出每百万 token 大致便宜 43%。
2、没有人在争论的 0.2 分基准
在 SWE-Bench Pro 上——两个实验室在公告中都指向的头条基准测试——截至 2026 年 4 月 22 日,以下是完整的排行榜顶部:
| Model | SWE-Bench Pro | Source |
|---|---|---|
| Kimi K2.6 | 58.6% | Moonshot self-report, April 20 |
| GLM-5.1 | 58.4% | Z.ai self-report, April 7 |
| GPT-5.4 (xhigh) | 57.7% | OpenAI |
| Gemini 3.1 Pro (high-thinking) | 54.2% | DeepMind |
| Claude Opus 4.6 (max effort) | 53.4% | Anthropic |
| Kimi K2.5 | 50.7% | Moonspot previous gen |
两个开源模型,都是中国的,都是 MIT 系列许可证,都在顶部 0.2 分之内。其中的插曲是其他所有人——GPT、Claude、Gemini——在这个特定基准上都远远落后。这是一个真实的故事。但 0.2 分在这个规模上是噪声;你可以通过运行同一模型两次来翻转它。
真正重要的是排行榜其他地方发生了什么。
3、排行榜其他地方的表现
以下是来自 Artificial Analysis、BenchLM 和各个基准页面的综合数据,与两个实验室自己的发布数据交叉参考:
| Benchmark | Kimi K2.6 | GLM-5.1 | Winner |
|---|---|---|---|
| SWE-Bench Pro | 58.6% | 58.4% | K2.6 (+0.2) |
| SWE-Bench Multilingual | 76.7% | n/a | K2.6 |
| Terminal-Bench 2.0 | 66.7 | 54.9 (composite) | K2.6 (+11.8) |
| HLE-Full with tools | 54.0% | n/a | K2.6 |
| NL2Repo | n/a | 42.7% | GLM-5.1 |
| BrowseComp | 83.2% | n/a | K2.6 |
| Toolathlon | 50.0% | n/a | K2.6 |
| BenchLM coding avg | 72.0 | 60.9 | K2.6 (+11.1) |
| BenchLM agentic avg | 73.1 | 65.3 | K2.6 (+7.8) |
| BenchLM knowledge avg | 53.8 | 52.3 | K2.6 (+1.5) |
| BenchLM overall (5-cat) | 83 | 84 | GLM-5.1 (+1) |
| AA Intelligence Index | 54 | 51 | K2.6 (+3) |
在我能找到的每个公共跨模型排行榜上,GLM-5.1 只赢了两项:BenchLM 多类别整体平均上一分的优势(由多模态和推理类别推动),以及 NL2Repo——一个 Z.ai 专门优化的自然语言到代码仓库基准。在实际需要的地方——编程、Agent 循环、工具使用、长期执行——K2.6 赢了,而且不是 0.2 分的差距。
BenchLM 编程 11.1 分的差距才是应该上头条的数字。但它没有,因为实验室不会为他们输掉的基准写新闻稿。
4、15 个任务的方法论
我想要一个两个实验室都无法直接训练过的测试。我拉取了 2026 年 4 月 14-21 日之间关闭的 15 个 GitHub issue(因此都在两个训练截止日期之后),每个都有一个 50 到 400 行 diff 的合并 PR。组合:
- 5 个后端 Python bug(FastAPI、SQLAlchemy 2.x、pydantic v2)
- 3 个 TypeScript/React 前端回归
- 2 个 Rust 生命周期/借用检查器编译错误
- 2 个 Go 并发 bug(一个数据竞争,一个通道死锁)
- 2 个 SQL 优化器问题(模式变更后 Postgres EXPLAIN 漂移)
- 1 个 Terraform 漂移检测问题
每个任务包括仓库 URL、失败的测试和 issue 描述。没有合并的 PR 正文,没有维护者提示。每个模型在相同的 Agent 脚手架(OpenHands 0.21,25 步预算,相同的系统提示,默认温度)内通过官方 API 运行。我对每个模型的每个任务运行三次并取中位数分数。
评分:编译通过(1)+ 通过仓库现有测试套件(1)+ 在我编写的隐藏测试上匹配合并 PR 行为(0-3)。每任务最高 5 分,总计 75 分。
4.1 结果
Model Total Compile Tests Behavior Cost/run p50 latency
--------- ------ -------- ------ --------- --------- -----------
K2.6 61/75 15/15 13/15 33/45 $0.41 22s
GLM-5.1 52/75 15/15 11/15 26/45 $0.72 31s
K2.6 直接赢了 9 个任务,GLM-5.1 赢了 3 个,3 个平局(两个解决方案都通过了,都匹配了 PR 行为)。GLM-5.1 赢的任务都是多文件任务,其 78 层架构和 DeepSeek 稀疏注意力似乎真正帮助了跨文件推理——其中两个是 SQL 优化器任务,一个是 Terraform 漂移问题。对于那些特定类型的长链、结构化工件工作负载,GLM-5.1 有真正的优势。
但在任何类似单仓库代码-编写-调试循环的任务上——最常见的开发者任务——K2.6 的胜利比基准差距所暗示的要大。在两个 Go 并发 bug 上,K2.6 在所有六次运行中第一次就找到了竞争条件。GLM-5.1 在 6 次运行中有 4 次提出了看起来合理但错误的修复,通常是在错误的地方添加了互斥锁。
4.2 真实提示,并排对比
以下是任务 3——一个来自开源日志库的真实 FastAPI 问题。失败的测试和 issue(为简洁而改写):
POST /logs在请求体包含字符串格式的timestamp字段时返回 500。预期:解析 ISO-8601 或 epoch 浮点数。实际:pydantic ValidationError。修复应接受两种格式。
Kimi K2.6 输出(从成功运行中提取,为简洁而编辑):
from datetime import datetime
from pydantic import BaseModel, field_validator
class LogEntry(BaseModel):
timestamp: datetime
level: str
message: str
@field_validator("timestamp", mode="before")
@classmethod
def parse_ts(cls, v):
if isinstance(v, (int, float)):
return datetime.fromtimestamp(float(v))
if isinstance(v, str):
try:
return datetime.fromisoformat(v.replace("Z", "+00:00"))
except ValueError:
return datetime.fromtimestamp(float(v))
return v
K2.6 还添加了一个单元测试,明确指出了 Z 后缀边缘情况,并解释了 mode="before" 的选择(pre-v2 pydantic 使用不同的预验证器)。
GLM-5.1 输出(第一次运行,得分 3/5 因为遗漏了 Z 后缀情况):
from datetime import datetime
from pydantic import BaseModel, validator
class LogEntry(BaseModel):
timestamp: datetime
level: str
message: str
@validator("timestamp", pre=True)
def parse_ts(cls, v):
if isinstance(v, str):
try:
return datetime.fromisoformat(v)
except ValueError:
pass
try:
return datetime.fromtimestamp(float(v))
except Exception:
return v
两件事需要注意。首先,GLM-5.1 使用了 pydantic v1 的 @validator 装饰器,这在 pydantic v2 中已被弃用。代码可以运行——v2 仍然支持 v1 shim——但会抛出弃用警告,而仓库的 CI 已配置为硬性失败。其次,它没有处理 Python 的 fromisoformat 在 3.11 之前会出错的 Z 后缀。在仓库的 Python 3.10 CI 上,这个修复悄悄地破坏了一个使用 2026-04-18T10:15:00Z 的现有测试。
这种模式——K2.6 倾向于使用当代惯用法,GLM-5.1 倾向于使用已弃用但仍可用的惯用法——在 15 个任务中的 6 个里都出现了。
5、为什么价格差距比基准差距更重要
以 $0.60/M 输入和 $2.50/M 输出计算,K2.6 的 Moonshot API 在输入上比 Z.ai 直连 GLM-5.1 端点($1.40 / $4.40)便宜 57%,在输出上便宜 43%。对于在真实代码库上运行编程 Agent 的开发者来说,这不是一个舍入误差。
以下是一周中等 Agent 流量在两个模型上的样子。假设:每天 40 个编程任务,每个任务 50K 输入 token(仓库上下文 + 系统提示),每个任务 15K 输出 token(代码 + 推理):
Weekly volume: 14M input tokens, 4.2M output tokens
K2.6 weekly cost: $8.40 + $10.50 = $18.90
GLM-5.1 weekly cost: $19.60 + $18.48 = $38.08
Delta: $19.18 (+101%)
Annualized:
K2.6: $983
GLM-5.1: $1,981
Delta: $998/year per engineer
对于一个平均使用两者的 10 人工程师团队,这大约是 ~$10K/年的差异,而 K2.6 恰好是在基准测试中得分更高的模型。在一个 50 人的工程组织中,你面临的是 $50K/年的预算差异,而且还是那个恰好赢了更多测试的模型。
6、上下文、延迟和 GLM-5.1 真正领先的一个领域
K2.6 有 256K 上下文窗口。GLM-5.1 有 203K。纸面上这对 K2.6 是 26% 的优势,如果你把一个大型 monorepo 塞进单个提示中,这就很重要。在我的任务中,我从未触及任何一个限制——我组装的最大仓库上下文约为 ~110K token——但对于迭代获取文件的 Agent 工作负载,256K 给了 K2.6 真正的余量。
在延迟方面,K2.6 在我的运行中也领先:22 秒的中位解决时间对比 GLM-5.1 的 31 秒,从第一个工具调用到最后一个补丁。部分原因是 GLM-5.1 始终开启的计划-执行-测试循环增加了思考开销。
GLM-5.1 击败 K2.6 的一个真正类别:NL2Repo,衡量从自然语言规范生成整个代码仓库。GLM-5.1 在这个基准上得分 42.7%(从 GLM-5 的 35.9% 提升),击败了 Claude Opus 4.6 的 33.4% 和 GPT-5.4 的 41.3%。K2.6 尚未发布此处的数据。如果你的工作负载是"从零开始为我搭建一个新仓库",GLM-5.1 今天确实是更好的工具。
另一个微妙的优势:GLM-5.1 的 MIT 许可证零限制。K2.6 的 Modified MIT 增加了一条条款,要求在月活超过 1 亿的产品上注明出处。对于超大规模企业的部署,该条款可能很重要。对其他人来说则不然。
7、你实际应该使用哪个?
使用 Kimi K2.6 如果你: ——在做单仓库代码-编写-调试循环(最常见的开发者任务)——在乎成本——$20/周 vs $38/周增长很快——想要 256K 上下文一次性粘贴大型仓库——有大量工具调用的 Agent 工作负载——K2.6 的 300 Agent 集群是当前长期执行的 SOTA——多语言项目,同一仓库中有 Rust、Go、Python——K2.6 在 SWE-Bench Multilingual 上获胜(76.7%)
使用 GLM-5.1 如果你: ——需要从规范生成整个代码仓库——NL2Repo 是 GLM 的明显优势——你有企业部署在超大规模 MAU 方面遇到 K2.6 许可条款的问题——想要零归属要求的纯 MIT 许可证——正在做跨文件 SQL 或基础设施即代码任务——GLM-5.1 的 DeepSeek 稀疏注意力在我的测试中在这里有帮助——特别在意模型是在非 NVIDIA 硬件上训练的(监管、供应链或意识形态原因)
改用 Claude Opus 4.6 或 GPT-5.4 如果你: ——需要绝对最高的编程上限并且能承受 $34/M 输出 token——需要在整个模型中真正可靠的图像输入(K2.6 和 GLM-5.1 都主要是文本优先的)——需要供应商 SLA 和企业支持(Moonshot 和 Z.ai 的 API 事故频率都高于 Anthropic)
对于 80% 的读者,诚实的答案是:通过 OpenRouter 或 Moonshot API 开始使用 Kimi K2.6。如果你遇到它处理不好的任务——特别是全仓库脚手架或跨文件 SQL 工作——回退到 GLM-5.1。两者都不需要你支付 Claude 或 GPT 的价格,除非你特别需要只有那些模型才有的能力。
8、5 分钟快速开始
# Option A: Run both via Ollama (cloud, no local GPU required)
ollama pull kimi-k2.6:cloud
ollama pull glm-5.1:cloud
# Option B: Use OpenRouter (single API key, both models)
pip install openai --break-system-packages
# Test K2.6 via OpenRouter
export OPENROUTER_KEY="sk-or-..."
python3 - <<'EOF'
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=__import__("os").environ["OPENROUTER_KEY"],
)
for model in ["moonshotai/kimi-k2.6", "z-ai/glm-5.1"]:
r = client.chat.completions.create(
model=model,
messages=[{"role":"user","content":
"Write a Python function that takes a list of dicts and merges them, "
"preferring values from later dicts. Include type hints and a docstring."}],
)
print(f"\n===== {model} =====\n{r.choices[0].message.content}")
EOF
# Option C: Direct Moonshot API (K2.6 only, OpenAI-compatible)
# Endpoint: https://api.moonshot.ai/v1
# Model: kimi-k2.6
# Option D: Direct Z.ai API (GLM-5.1 only, OpenAI-compatible)
# Endpoint: https://api.z.ai/api/paas/v4
# Model: glm-5.1
对于使用完整权重的本地推理,unsloth 发布了两者的 GGUF 量化。K2.6 UD-Q4_K_XL 为 543GB;GLM-5.1 Q4_K_M 约为 410GB。两者都可以在双 RTX-5090 配置上使用 llama.cpp 和 SSD 卸载运行,但推理速度明显慢于云 API。
9、结束语
Kimi K2.6 和 GLM-5.1 之间 0.2 分的 SWE-Bench Pro 差距不是你应该关注的。这是统计平局——如果你翻转随机种子就会消失的那种差距。
真正的差距是 BenchLM 编程综合评分的 11.1 分。Agent 工作负载的 7.8 分。输出 token 价格低 43%。上下文窗口大 26%。22 秒对 31 秒的中位延迟。15 个生产工单中 9 胜 3 负。
如果你要在 2026 年 4 月选择一个开源编程模型作为标准,选择 Kimi K2.6。如果你的工作负载特别是全仓库脚手架,保留 GLM-5.1 作为专业备份。如果你仍在没有能力需求原因的情况下支付 Claude Opus 4.6 或 GPT-5.4 的价格,你是在用自己的预算资助闭源实验室税。
最好的部分:两个模型都是 MIT 系列开源权重。你可以下载它们、微调它们、部署它们,并在商业产品中交付它们。排行榜顶部的任何闭源模型都不是这种情况——这正是使这个 2026 年 4 月快照成为自原始 Llama 泄露以来开源编程 AI 最有趣时刻的原因。
原文链接: I Tested Kimi K2.6 vs GLM-5.1 on 15 Real Coding Tasks
汇智网翻译整理,转载请标明出处