15个实测:Kimi K2.6 vs. GLM-5.1

两个中国开源模型目前占据全球 SWE-Bench Pro 排行榜榜首:Kimi K2.6 为 58.6%,GLM-5.1 为 58.4%。从纸面上看它们打平了。我花了 18 小时让两个模型通过相同的 15 个生产编程任务。结果发现 0.2 分的差距是整个对比中最小的差距。

15个实测:Kimi K2.6 vs. GLM-5.1
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI模型价格对比 | AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

两天前,2026 年 4 月 20 日,月之暗面发布了 Kimi K2.6,采用 Modified MIT 许可证完整开源。十三天前,Z.ai(前智谱 AI)以 MIT 许可证发布了 GLM-5.1——一个在 100,000 个华为昇腾 910B 芯片上训练的 754B 参数模型,零 NVIDIA GPU。两者在同一个两周窗口内都声称占据了 SWE-Bench Pro 的第一名。

这种基准测试大战的时机通常是一个叙事陷阱。两个实验室选择完全相同的测试工具,挤出 0.2 分的优势,媒体就称其为胜利。但读者需要一个不同的问题答案:当你把相同的工单粘贴到两个 API 中时,哪一个能关闭它,哪一个成本更低,哪一个会出错?

我将每个任务运行三次——每个模型 45 次运行,总共 90 次——使用相同的脚手架、相同的工具预算和相同的系统提示。我支付了 $47 的 API 费用。以下是基准测试表格没有告诉你的。

1、剥去营销的两个模型

让我们从规格开始,因为架构选择直接塑造了这些模型在负载下的行为方式。

Kimi K2.6(月之暗面,2026 年 4 月 20 日)

  • 1T 总参数,每 token 激活 32B* 384 个专家,每 token 路由 8 个 + 1 个共享
  • 61 个 transformer 层(1 个稠密),7168 维隐藏状态上的多头潜在注意力
  • SwiGLU 激活函数,使用 MuonClip 优化器训练
  • 256K 上下文窗口
  • Modified MIT 许可证
  • Moonshot API:$0.60 输入 / $2.50 输出每百万 token(缓存命中:$0.16)
  • OpenRouter:$0.80 输入 / $3.50 输出每百万
  • 可通过 ollama pull kimi-k2.6:cloud、HuggingFace moonshotai/Kimi-K2.6 和 unsloth GGUF 量化(UD-Q4_K_XL 起始 543GB)获取
  • Agent 集群:300 个子 Agent,4,000 次协调工具调用,最长 12 小时自主运行

GLM-5.1(Z.ai,2026 年 4 月 7 日)

  • 754B 总参数,每 token 激活 40B* 256 个专家,每 token 路由 top-8 + 1 个共享
  • 78 个 transformer 层(前 3 个稠密),MLA + DeepSeek 稀疏注意力* 6144 隐藏维度,通过多 token 预测(MTP)头进行推测解码
  • 203K 上下文(最大输出 65,535 token)
  • MIT 许可证
  • Z.ai 直连 API:$1.40 输入 / $4.40 输出每百万 token(缓存命中:$0.26)
  • OpenRouter:$0.95 输入 / $3.15 输出每百万
  • 在约 100,000 个华为昇腾 910B 芯片上使用 MindSpore 框架训练
  • 声称支持 8 小时自主计划-执行-测试-修复-优化循环

注意参数计算。K2.6 在纸面上是更大的模型(1T vs 754B 总参数),但每 token 激活的参数更少(32B vs 40B)。在实践中这意味着 K2.6 每 token 的服务成本比 GLM-5.1 更低,这与我们在定价中看到的相符:Moonshot 在官方端点上的输入和输出每百万 token 大致便宜 43%。

2、没有人在争论的 0.2 分基准

在 SWE-Bench Pro 上——两个实验室在公告中都指向的头条基准测试——截至 2026 年 4 月 22 日,以下是完整的排行榜顶部:

Model SWE-Bench Pro Source
Kimi K2.6 58.6% Moonshot self-report, April 20
GLM-5.1 58.4% Z.ai self-report, April 7
GPT-5.4 (xhigh) 57.7% OpenAI
Gemini 3.1 Pro (high-thinking) 54.2% DeepMind
Claude Opus 4.6 (max effort) 53.4% Anthropic
Kimi K2.5 50.7% Moonspot previous gen

两个开源模型,都是中国的,都是 MIT 系列许可证,都在顶部 0.2 分之内。其中的插曲是其他所有人——GPT、Claude、Gemini——在这个特定基准上都远远落后。这是一个真实的故事。但 0.2 分在这个规模上是噪声;你可以通过运行同一模型两次来翻转它。

真正重要的是排行榜其他地方发生了什么。

3、排行榜其他地方的表现

以下是来自 Artificial Analysis、BenchLM 和各个基准页面的综合数据,与两个实验室自己的发布数据交叉参考:

Benchmark Kimi K2.6 GLM-5.1 Winner
SWE-Bench Pro 58.6% 58.4% K2.6 (+0.2)
SWE-Bench Multilingual 76.7% n/a K2.6
Terminal-Bench 2.0 66.7 54.9 (composite) K2.6 (+11.8)
HLE-Full with tools 54.0% n/a K2.6
NL2Repo n/a 42.7% GLM-5.1
BrowseComp 83.2% n/a K2.6
Toolathlon 50.0% n/a K2.6
BenchLM coding avg 72.0 60.9 K2.6 (+11.1)
BenchLM agentic avg 73.1 65.3 K2.6 (+7.8)
BenchLM knowledge avg 53.8 52.3 K2.6 (+1.5)
BenchLM overall (5-cat) 83 84 GLM-5.1 (+1)
AA Intelligence Index 54 51 K2.6 (+3)

在我能找到的每个公共跨模型排行榜上,GLM-5.1 只赢了两项:BenchLM 多类别整体平均上一分的优势(由多模态和推理类别推动),以及 NL2Repo——一个 Z.ai 专门优化的自然语言到代码仓库基准。在实际需要的地方——编程、Agent 循环、工具使用、长期执行——K2.6 赢了,而且不是 0.2 分的差距。

BenchLM 编程 11.1 分的差距才是应该上头条的数字。但它没有,因为实验室不会为他们输掉的基准写新闻稿。

4、15 个任务的方法论

我想要一个两个实验室都无法直接训练过的测试。我拉取了 2026 年 4 月 14-21 日之间关闭的 15 个 GitHub issue(因此都在两个训练截止日期之后),每个都有一个 50 到 400 行 diff 的合并 PR。组合:

  • 5 个后端 Python bug(FastAPI、SQLAlchemy 2.x、pydantic v2)
  • 3 个 TypeScript/React 前端回归
  • 2 个 Rust 生命周期/借用检查器编译错误
  • 2 个 Go 并发 bug(一个数据竞争,一个通道死锁)
  • 2 个 SQL 优化器问题(模式变更后 Postgres EXPLAIN 漂移)
  • 1 个 Terraform 漂移检测问题

每个任务包括仓库 URL、失败的测试和 issue 描述。没有合并的 PR 正文,没有维护者提示。每个模型在相同的 Agent 脚手架(OpenHands 0.21,25 步预算,相同的系统提示,默认温度)内通过官方 API 运行。我对每个模型的每个任务运行三次并取中位数分数。

评分:编译通过(1)+ 通过仓库现有测试套件(1)+ 在我编写的隐藏测试上匹配合并 PR 行为(0-3)。每任务最高 5 分,总计 75 分。

4.1 结果

Model      Total   Compile   Tests   Behavior   Cost/run   p50 latency
---------  ------  --------  ------  ---------  ---------  -----------
K2.6       61/75   15/15     13/15   33/45      $0.41      22s
GLM-5.1    52/75   15/15     11/15   26/45      $0.72      31s

K2.6 直接赢了 9 个任务,GLM-5.1 赢了 3 个,3 个平局(两个解决方案都通过了,都匹配了 PR 行为)。GLM-5.1 赢的任务都是多文件任务,其 78 层架构和 DeepSeek 稀疏注意力似乎真正帮助了跨文件推理——其中两个是 SQL 优化器任务,一个是 Terraform 漂移问题。对于那些特定类型的长链、结构化工件工作负载,GLM-5.1 有真正的优势。

但在任何类似单仓库代码-编写-调试循环的任务上——最常见的开发者任务——K2.6 的胜利比基准差距所暗示的要大。在两个 Go 并发 bug 上,K2.6 在所有六次运行中第一次就找到了竞争条件。GLM-5.1 在 6 次运行中有 4 次提出了看起来合理但错误的修复,通常是在错误的地方添加了互斥锁。

4.2 真实提示,并排对比

以下是任务 3——一个来自开源日志库的真实 FastAPI 问题。失败的测试和 issue(为简洁而改写):

POST /logs 在请求体包含字符串格式的 timestamp 字段时返回 500。预期:解析 ISO-8601 或 epoch 浮点数。实际:pydantic ValidationError。修复应接受两种格式。

Kimi K2.6 输出(从成功运行中提取,为简洁而编辑):

from datetime import datetime
from pydantic import BaseModel, field_validator
class LogEntry(BaseModel):
    timestamp: datetime
    level: str
    message: str
    @field_validator("timestamp", mode="before")
    @classmethod
    def parse_ts(cls, v):
        if isinstance(v, (int, float)):
            return datetime.fromtimestamp(float(v))
        if isinstance(v, str):
            try:
                return datetime.fromisoformat(v.replace("Z", "+00:00"))
            except ValueError:
                return datetime.fromtimestamp(float(v))
        return v

K2.6 还添加了一个单元测试,明确指出了 Z 后缀边缘情况,并解释了 mode="before" 的选择(pre-v2 pydantic 使用不同的预验证器)。

GLM-5.1 输出(第一次运行,得分 3/5 因为遗漏了 Z 后缀情况):

from datetime import datetime
from pydantic import BaseModel, validator
class LogEntry(BaseModel):
    timestamp: datetime
    level: str
    message: str
    @validator("timestamp", pre=True)
    def parse_ts(cls, v):
        if isinstance(v, str):
            try:
                return datetime.fromisoformat(v)
            except ValueError:
                pass
        try:
            return datetime.fromtimestamp(float(v))
        except Exception:
            return v

两件事需要注意。首先,GLM-5.1 使用了 pydantic v1 的 @validator 装饰器,这在 pydantic v2 中已被弃用。代码可以运行——v2 仍然支持 v1 shim——但会抛出弃用警告,而仓库的 CI 已配置为硬性失败。其次,它没有处理 Python 的 fromisoformat 在 3.11 之前会出错的 Z 后缀。在仓库的 Python 3.10 CI 上,这个修复悄悄地破坏了一个使用 2026-04-18T10:15:00Z 的现有测试。

这种模式——K2.6 倾向于使用当代惯用法,GLM-5.1 倾向于使用已弃用但仍可用的惯用法——在 15 个任务中的 6 个里都出现了。

5、为什么价格差距比基准差距更重要

以 $0.60/M 输入和 $2.50/M 输出计算,K2.6 的 Moonshot API 在输入上比 Z.ai 直连 GLM-5.1 端点($1.40 / $4.40)便宜 57%,在输出上便宜 43%。对于在真实代码库上运行编程 Agent 的开发者来说,这不是一个舍入误差。

以下是一周中等 Agent 流量在两个模型上的样子。假设:每天 40 个编程任务,每个任务 50K 输入 token(仓库上下文 + 系统提示),每个任务 15K 输出 token(代码 + 推理):

Weekly volume: 14M input tokens, 4.2M output tokens
K2.6 weekly cost:   $8.40 + $10.50  = $18.90
GLM-5.1 weekly cost: $19.60 + $18.48 = $38.08
Delta:              $19.18 (+101%)
Annualized:
K2.6:     $983
GLM-5.1:  $1,981
Delta:    $998/year per engineer

对于一个平均使用两者的 10 人工程师团队,这大约是 ~$10K/年的差异,而 K2.6 恰好是在基准测试中得分更高的模型。在一个 50 人的工程组织中,你面临的是 $50K/年的预算差异,而且还是那个恰好赢了更多测试的模型。

6、上下文、延迟和 GLM-5.1 真正领先的一个领域

K2.6 有 256K 上下文窗口。GLM-5.1 有 203K。纸面上这对 K2.6 是 26% 的优势,如果你把一个大型 monorepo 塞进单个提示中,这就很重要。在我的任务中,我从未触及任何一个限制——我组装的最大仓库上下文约为 ~110K token——但对于迭代获取文件的 Agent 工作负载,256K 给了 K2.6 真正的余量。

在延迟方面,K2.6 在我的运行中也领先:22 秒的中位解决时间对比 GLM-5.1 的 31 秒,从第一个工具调用到最后一个补丁。部分原因是 GLM-5.1 始终开启的计划-执行-测试循环增加了思考开销。

GLM-5.1 击败 K2.6 的一个真正类别:NL2Repo,衡量从自然语言规范生成整个代码仓库。GLM-5.1 在这个基准上得分 42.7%(从 GLM-5 的 35.9% 提升),击败了 Claude Opus 4.6 的 33.4% 和 GPT-5.4 的 41.3%。K2.6 尚未发布此处的数据。如果你的工作负载是"从零开始为我搭建一个新仓库",GLM-5.1 今天确实是更好的工具。

另一个微妙的优势:GLM-5.1 的 MIT 许可证零限制。K2.6 的 Modified MIT 增加了一条条款,要求在月活超过 1 亿的产品上注明出处。对于超大规模企业的部署,该条款可能很重要。对其他人来说则不然。

7、你实际应该使用哪个?

使用 Kimi K2.6 如果你: ——在做单仓库代码-编写-调试循环(最常见的开发者任务)——在乎成本——$20/周 vs $38/周增长很快——想要 256K 上下文一次性粘贴大型仓库——有大量工具调用的 Agent 工作负载——K2.6 的 300 Agent 集群是当前长期执行的 SOTA——多语言项目,同一仓库中有 Rust、Go、Python——K2.6 在 SWE-Bench Multilingual 上获胜(76.7%)

使用 GLM-5.1 如果你: ——需要从规范生成整个代码仓库——NL2Repo 是 GLM 的明显优势——你有企业部署在超大规模 MAU 方面遇到 K2.6 许可条款的问题——想要零归属要求的纯 MIT 许可证——正在做跨文件 SQL 或基础设施即代码任务——GLM-5.1 的 DeepSeek 稀疏注意力在我的测试中在这里有帮助——特别在意模型是在非 NVIDIA 硬件上训练的(监管、供应链或意识形态原因)

改用 Claude Opus 4.6 或 GPT-5.4 如果你: ——需要绝对最高的编程上限并且能承受 $34/M 输出 token——需要在整个模型中真正可靠的图像输入(K2.6 和 GLM-5.1 都主要是文本优先的)——需要供应商 SLA 和企业支持(Moonshot 和 Z.ai 的 API 事故频率都高于 Anthropic)

对于 80% 的读者,诚实的答案是:通过 OpenRouter 或 Moonshot API 开始使用 Kimi K2.6。如果你遇到它处理不好的任务——特别是全仓库脚手架或跨文件 SQL 工作——回退到 GLM-5.1。两者都不需要你支付 Claude 或 GPT 的价格,除非你特别需要只有那些模型才有的能力。

8、5 分钟快速开始

# Option A: Run both via Ollama (cloud, no local GPU required)
ollama pull kimi-k2.6:cloud
ollama pull glm-5.1:cloud
# Option B: Use OpenRouter (single API key, both models)
pip install openai --break-system-packages
# Test K2.6 via OpenRouter
export OPENROUTER_KEY="sk-or-..."
python3 - <<'EOF'
from openai import OpenAI
client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key=__import__("os").environ["OPENROUTER_KEY"],
)
for model in ["moonshotai/kimi-k2.6", "z-ai/glm-5.1"]:
    r = client.chat.completions.create(
        model=model,
        messages=[{"role":"user","content":
            "Write a Python function that takes a list of dicts and merges them, "
            "preferring values from later dicts. Include type hints and a docstring."}],
    )
    print(f"\n===== {model} =====\n{r.choices[0].message.content}")
EOF
# Option C: Direct Moonshot API (K2.6 only, OpenAI-compatible)
# Endpoint: https://api.moonshot.ai/v1
# Model: kimi-k2.6
# Option D: Direct Z.ai API (GLM-5.1 only, OpenAI-compatible)
# Endpoint: https://api.z.ai/api/paas/v4
# Model: glm-5.1

对于使用完整权重的本地推理,unsloth 发布了两者的 GGUF 量化。K2.6 UD-Q4_K_XL 为 543GB;GLM-5.1 Q4_K_M 约为 410GB。两者都可以在双 RTX-5090 配置上使用 llama.cpp 和 SSD 卸载运行,但推理速度明显慢于云 API。

9、结束语

Kimi K2.6 和 GLM-5.1 之间 0.2 分的 SWE-Bench Pro 差距不是你应该关注的。这是统计平局——如果你翻转随机种子就会消失的那种差距。

真正的差距是 BenchLM 编程综合评分的 11.1 分。Agent 工作负载的 7.8 分。输出 token 价格低 43%。上下文窗口大 26%。22 秒对 31 秒的中位延迟。15 个生产工单中 9 胜 3 负。

如果你要在 2026 年 4 月选择一个开源编程模型作为标准,选择 Kimi K2.6。如果你的工作负载特别是全仓库脚手架,保留 GLM-5.1 作为专业备份。如果你仍在没有能力需求原因的情况下支付 Claude Opus 4.6 或 GPT-5.4 的价格,你是在用自己的预算资助闭源实验室税。

最好的部分:两个模型都是 MIT 系列开源权重。你可以下载它们、微调它们、部署它们,并在商业产品中交付它们。排行榜顶部的任何闭源模型都不是这种情况——这正是使这个 2026 年 4 月快照成为自原始 Llama 泄露以来开源编程 AI 最有趣时刻的原因。


原文链接: I Tested Kimi K2.6 vs GLM-5.1 on 15 Real Coding Tasks

汇智网翻译整理,转载请标明出处