实测GLM-5.1:能干又便宜

一款MIT许可的模型刚刚在SWE-Bench Pro上夺得第一名,在真实软件工程任务中击败了GPT-5.4和Claude Opus 4.6。我花了两天时间对其进行全面测试——以下是基准测试没有告诉你的东西。

2026年4月7日,Z.ai悄然发布了一款本应引起更多关注的模型。GLM-5.1 —— 一个7540亿参数、MIT许可、开放权重的模型 —— 刚刚以58.4%的分数在SWE-Bench Pro上夺得第一名,超过了GPT-5.4(57.7%)和Claude Opus 4.6(57.3%)。这不是打字错误。一个开源模型现在是全球排名第一的编程AI。

但真正引起我注意的部分是:它比Claude Opus 4.6每个输出token便宜7.8倍。而且它可以在单个编程任务上自主运行长达八小时,完成超过6,000次工具调用无需人工干预。

我在20个真实编程任务上对其进行了测试,涵盖五个类别。有些结果正是我所预期的。其他结果确实让我惊讶。

1、GLM-5.1是什么?

GLM-5.1由Z.ai(前身为Zhipu AI)构建,这是一家北京公司,在过去两年中一直在默默发布一些最被低估的开放权重模型。这次最新发布是对GLM-5基础模型的后训练升级,具有相同的754B MoE架构,但 dramatically 改进了编码、工具使用和代理执行能力。

架构细节:

  • 总计754B参数,通过混合专家路由,每个token只有40B激活
  • 20万token上下文窗口 —— 足以处理大型代码库
  • 128,000输出token限制 —— 对长时间自主运行至关重要
  • 集成 DeepSeek稀疏注意力(DSA)以降低部署成本
  • 使用异步强化学习进行训练,用于长视距任务执行
  • MIT许可证 —— 权重在Hugging Face上,可自由商业使用

MoE方法是关键。每个token运行40B激活参数而非754B,使得模型的服务成本远低于同等规模的密集模型。这就是为什么Z.ai可以将其定价为每百万输入token $1.40和每百万输出token $4.40 —— 相比之下Claude Opus 4.6高达每百万输出token $34.40。

2、我的测试设置

我运行了20个编程任务,分为五个类别,向GLM-5.1(通过Z.ai API)、GPT-5.4(OpenAI API)和Claude Opus 4.6(Anthropic API)提交相同的提示:

  • Bug修复(4个任务):来自开源仓库的真实bug —— 内存泄漏、竞态条件、边缘情况失败
  • 代码生成(4个任务):速率限制器、WebSocket处理器、数据管道转换器、CRUD API模块
  • 重构(4个任务):遗留Python 2转换、单体拆分、热路径优化
  • 算法推理(4个任务):动态规划、图遍历、双指针、滑动窗口
  • 长上下文任务(4个任务):5万token以上代码库审查、模块解释、测试套件生成

我在正确性(0-5分)、代码质量(0-5分)和首次有用token时间方面对每个响应进行评分。错误答案不给部分分数。

3、基准测试结果

以下是三个模型在全部 20 项任务中的得分:

有几点值得注意。Claude Opus 4.6 仍然总体领先——它是所有类别中最稳定的模型,尤其擅长理解需要理解细微上下文或对长代码进行推理的任务。这与更广泛的 SWE-bench Verified 数据一致,Claude 的得分为 80.8%,而 GLM-5.1 的得分为 77.8%。

但 GLM-5.1 在算法推理方面胜出——而且成本仅为 Opus 的 12%。在纯代码生成方面,它与 Opus 持平。并且在所有类别中都优于 GPT-5.4。

4、GLM-5.1 的真正亮点

最大的惊喜在于算法推理类别。我给这三个模型都设置了一个滑动窗口问题,需要同时跟踪多个条件——这类问题会让很多模型束手无策,因为它需要在很长的操作链中保持状态。

GLM-5.1 的响应:

def min_window_with_constraints(s: str, t: str, k: int) -> str:
    """
    Find minimum window substring containing all chars of t,
    with at most k additional unique characters not in t.
    Returns empty string if no valid window exists.
    """
    from collections import Counter
    need = Counter(t)
    have = {}
    allowed_extra = set(t)
    extra_unique = 0
    
    formed = 0
    required = len(need)
    
    left = 0
    min_len = float('inf')
    result = (-1, -1)
    
    for right in range(len(s)):
        char = s[right]
        have[char] = have.get(char, 0) + 1
        
        # Track extra unique characters
        if char not in allowed_extra:
            if have[char] == 1:
                extra_unique += 1
        
        # Check if required char count is satisfied
        if char in need and have[char] == need[char]:
            formed += 1
        
        # Shrink window while valid
        while left <= right and formed == required and extra_unique <= k:
            if right - left + 1 < min_len:
                min_len = right - left + 1
                result = (left, right)
            
            left_char = s[left]
            have[left_char] -= 1
            
            if left_char not in allowed_extra and have[left_char] == 0:
                extra_unique -= 1
            if left_char in need and have[left_char] < need[left_char]:
                formed -= 1
            left += 1
    
    return s[result[0]:result[1] + 1] if result[0] != -1 else ""

代码简洁、正确且注释详尽。GPT-5.4 也做到了这一点,但代码更冗长,边界检查效率更低。Claude 也做到了——但成本是 GLM-5.1 的 8 倍。

5、8 小时自主模式:精彩之处就在这里

基准测试数据揭示了一种情况,而自主执行能力则展现了截然不同的结果。

GLM-5.1 专为长期智能工程而设计——不仅能回答问题,还能完成项目。在 Z.ai 的演示中,该模型运行了 655 次迭代和超过 6000 次工具调用来优化 CUDA 内核,性能比原始基线提高了 2.6 倍到 35.7 倍。这并非刻意挑选的例子——而是该模型实际发挥其设计用途的表现。

以下是 GLM-5.1 如何集成到智能编码循环中的简化python版本:

from openai import OpenAI  # GLM-5.1 is OpenAI-API compatible
client = OpenAI(
    api_key="YOUR_ZHIPU_API_KEY",
    base_url="https://open.bigmodel.cn/api/paas/v4/"
)
tools = [
    {
        "type": "function",
        "function": {
            "name": "run_tests",
            "description": "Run the test suite and return pass/fail results",
            "parameters": {
                "type": "object",
                "properties": {
                    "test_path": {"type": "string", "description": "Path to test file or directory"}
                },
                "required": ["test_path"]
            }
        }
    },
    {
        "type": "function",
        "function": {
            "name": "edit_file",
            "description": "Edit a file with the provided content",
            "parameters": {
                "type": "object",
                "properties": {
                    "path": {"type": "string"},
                    "content": {"type": "string"}
                },
                "required": ["path", "content"]
            }
        }
    }
]
# GLM-5.1 can reason and iterate autonomously over many tool calls
response = client.chat.completions.create(
    model="glm-5.1",
    messages=[
        {
            "role": "user",
            "content": """You are an autonomous software engineer.
            Fix all failing tests in the repository at /workspace/myproject.
            Run tests, identify failures, fix them, and iterate until all tests pass.
            You have up to 8 hours and unlimited tool calls."""
        }
    ],
    tools=tools,
    tool_choice="auto",
    max_tokens=128000,  # Up to 128K output tokens per call
    temperature=0.2
)

128,000 个输出令牌的限制使得长时间自主运行成为可能。大多数模型的输出令牌上限为 8,000 到 16,000 个,这意味着它们无法在单个会话中通过数百次工具调用来维护复杂的推理链。GLM-5.1 的超大输出窗口对于智能体工作流而言是一项真正的架构优势。

6、Frontier Labs 的成本计算非常残酷

让我们来探讨一下,对于付费使用 AI API 的开发者来说,这究竟意味着什么。

按token定价(输出):

  • GLM-5.1:每百万token 4.40 美元
  • GPT-5.4:每百万token 20.68 美元
  • Claude Opus 4.6:每百万token 34.40 美元

对于每月运行 100 万个输出token的典型开发者(中等规模的编码助手工作负载),费用如下:

  • GLM-5.1:每月 4.40 美元
  • GPT-5.4:每月 20.68 美元
  • Claude Opus 4.6:每月 34.40 美元

Z.ai 还提供起价 10 美元/月的 GLM 编码方案——兼容 Claude Code、Cline、Kilo Code、Roo Code 和 OpenCode——本质上是 Claude Max 的替代品,成本却低 10-20 倍。您只需在配置中替换模型名称即可。

需要注意的是:高峰时段(北京时间 14:00–18:00),该模型的流量消耗是标准费率的 3 倍。目前有一项限时优惠活动,截止到 2026 年 4 月,非高峰时段使用可免除高峰费率。建议您根据实际情况合理安排高负载工作。

7、应该了解的局限性

它并非最佳模型。在我的测试中,Claude Opus 4.6 在处理复杂的多文件重构任务以及任何需要深入理解架构模式的任务时,仍然是最可靠的选择。SWE-bench Verified 测试中 3 分的差距(80.8% 对 77.8%)反映了实际应用中上下文处理方面的差异。

部分基准测试结果为用户自行报告。Z.ai 的内部编码评估(45.3/47.9 对 Opus)尚未经过第三方实验室的独立验证。 SWE-Bench Pro 的测试结果更清晰——这是一个标准化的公开基准测试——但需要注意的是,它存在一些局限性。

本地部署需要强大的硬件支持。在本地运行 GLM-5.1 至少需要 8 个 H100 GPU。Unsloth 提供了一个动态的 2 位 GGUF 版本,内存占用约为 220GB;还有一个 1 位版本,内存占用约为 200GB——虽然更易于部署,但仍然是企业级基础设施。大多数开发者会使用 API。

GLM-5.1 的推理速度比 GPT-5.4 慢。根据提供商的不同,GLM-5.1 的推理速度约为每秒 44-70 个 token,并非最快的模型。对于交互式应用来说,它足够用了;但对于对延迟敏感的应用,GPT-5.4 的首词处理时间仅为 2.4 秒,更胜一筹。

8、结束语

如果您仅使用 Claude Opus 4.6 或 GPT-5.4 来完成编码任务,那么 GLM-5.1 值得您认真考虑。它无法取代你目前用于处理最难的 10% 任务的前沿模型,但对于其余 90% 的任务,它能以远低于 Opus 的成本,达到 Opus 94% 到 97% 的性能水平。

真正的意义不在于某一项基准测试的胜利,而在于一个开源的、MIT 许可的模型如今在实际软件工程中,真正能够与最强大的专有模型相媲美。一年前并非如此,但现在已成现实。

我的建议是:将 GLM-5.1 作为你的日常编码助手,并将 Claude Opus 保留用于真正需要的复杂架构决策和多代码库重构。节省下来的成本足以支付大量的 Claude Opus 调用。

如果你正在构建自主编码代理?GLM-5.1 的架构可在 8 小时内完成 12.8 万条输出,并调用 6000 次工具,这可能是目前最强大的开源基础架构。这不是夸大其词——我亲眼看过它运行。


原文链接: I tested GLM-5.1 — it beat GPT-5.4 & Claude Opus 4.6 and is 7.8× cheaper

汇智网翻译整理,转载请标明出处