GLM-4.7-Flash免费编码模型

一窥这款 30B MoE 模型,刚刚推出,提供无限免费 API 访问

GLM-4.7-Flash免费编码模型

几个小时前,Z.ai 宣布了 GLM-4.7-Flash。这个模型是免费的。不是"有限制的免费层级"免费,而是真正的免费:Hugging Face 上的开放权重,零成本 API,无需信用卡。

不过,宣布很容易。更难的问题是模型是否好用,以及你是否应该从你现在使用的任何工具切换过来。

我查看了基准测试,并研究了这对于运行像 Claude Code 这样的工具的开发者意味着什么。以下是我的发现。

1、公告

2026 年 1 月 20 日凌晨 3:44(新西兰标准时间),Z.ai 在 X 上发帖:

"介绍 GLM-4.7-Flash:您的本地编码和代理助手。为 30B 级别设定新标准,GLM-4.7-Flash 在高性能和效率之间取得平衡,使其成为完美的轻量级部署选项。"

该帖子在最初几小时内已经获得了 195K 次浏览和 2,000 个赞(它现在实际上在 HN 首页上)。一条后续推文纠正了一个基准测试数字(BrowseComp),这表明 Z.ai 对他们的数字相当透明。

2、GLM-4.7-Flash 实际上是什么

GLM-4.7-Flash 是一个 30B 参数的混合专家(MoE)模型,每次推理有 3B 活跃参数。

MoE 部分很重要:模型在每次前向传播中只激活一部分权重,因此它比密集的 30B 模型运行得更快、更轻。

如果你有不错的硬件,你实际上可以在本地运行这个东西。

规格如下:

Z.ai 将这定位为他们用于编码和代理任务的"轻量级部署选项"。你可以通过 vLLM 或 SGLang 在本地运行,或者直接使用他们的 API。

该模型还处理非编码任务。Z.ai 推荐它用于创意写作、翻译、长上下文处理和角色扮演。但他们强调的基准测试是面向编码的。

3、基准测试数字

Z.ai 发布了与两个类似大小的模型的基准测试比较:Qwen3–30B-A3B-Thinking-2507 和 GPT-OSS-20B。数字看起来很强,尽管它们带有自我报告基准测试的通常注意事项。

SWE-bench 数字是引人注目的。在竞争对分数为 22% 和 34% 的编码基准测试上达到 59.2%,这是一个很大的差距。τ²-Bench 结果(工具使用任务)显示了类似的优势。

一些背景。 这些基准测试将 GLM-4.7-Flash 与类似大小级别的模型进行比较。旗舰 GLM-4.7(非 Flash)得分更高:SWE-bench Verified 上 73.8%,τ²-Bench 上 87.4%。Claude Sonnet 4.5 在 SWE-bench 上达到 77.2%。Flash 并不是要击败前沿模型。它与你可以在本地运行或免费使用的东西竞争。

4、定价

这是 Z.ai 文档中的定价表:

相比之下,Claude Sonnet 4.5 通过 Anthropic 的 API 每百万令牌收费约 $3 输入 / $15 输出。GPT-5.1-High 运行大约 $2.20 输入 / $8.90 输出。

你得仔细看看。

免费层级有一个限制:1 个并发。一次一个请求。如果你需要并行请求或更高吞吐量,你需要为 FlashX 付费($0.07 输入,$0.40 输出)。这仍然非常便宜。

Z.ai 还提供每月 $3-6 的"GLM 编码计划"订阅,捆绑更高的配额和访问他们完整的模型阵容。

他们将其营销为"1/7 的 Claude 成本,3 倍的使用量"。

5、与 Claude Code 一起运行

这是变得实用的地方。GLM-4.7-Flash 适用于 Claude Code、Cline、OpenCode、Roo Code 和其他代理编码工具。Z.ai 已经记录了设置过程。

设置选项:

1) 自动化助手。 Z.ai 在 docs.z.ai/devpack/quick-start 提供了一个工具来配置你的环境(或者使用我的指南,如果你想要更轻量的东西)。

2) 手动配置。 将你的编码工具指向 Z.ai 的 OpenAI 兼容端点:

这是他们文档中的一个快速 cURL 示例:

curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your-api-key" \
  -d '{
    "model": "glm-4.7-flash",
    "messages": [
      {"role": "user", "content": "Write a Python function to parse CSV files"}
    ],
    "max_tokens": 4096
  }'

Python SDK 选项:

from openai import OpenAI

client = OpenAI(
    api_key="your-z-ai-api-key",
    base_url="https://api.z.ai/api/paas/v4/",
)

completion = client.chat.completions.create(
    model="glm-4.7-flash",
    messages=[
        {"role": "user", "content": "Refactor this function to use async/await"}
    ],
)
print(completion.choices[0].message.content)

OpenAI SDK 兼容性意味着你不需要 Z.ai 的自定义 SDK。只需交换基础 URL 和 API 密钥。

本地部署。 如果你根本不想调用 API,权重在 Hugging Face 的 zai-org/GLM-4.7-Flash 上。vLLM 和 SGLang 都支持它(截至目前只有主分支)。

# vLLM 示例
vllm serve zai-org/GLM-4.7-Flash \
     --tensor-parallel-size 4 \
     --tool-call-parser glm47 \
     --reasoning-parser glm45

6、注意事项

有几件事需要记住:

基准测试不是生产环境。 SWE-bench 分数看起来很棒,但现实世界的编码涉及基准测试无法捕获的上下文、迭代和奇怪的边缘情况。Hugging Face 上的早期社区反馈参差不齐:一些用户报告了强劲的结果,另一些人在工具调用时遇到了问题。

并发限制。 免费层级只允许一次一个请求。适合修补。如果你正在构建真实的东西,就不太好了。

它是新的。 GLM-4.7(旗舰版)于 2025 年 12 月底推出。Flash 今天刚刚推出。工具仍在追赶。期待粗糙的边缘。

供应商背景。 Z.ai 是智谱 AI 的国际部门。该模型权重在 MIT 风格的许可证下开放,因此你可以检查你正在运行的东西。但如果你关心供应商管辖权,这就是背景。

社区反馈。 Hugging Face 讨论页面很活跃。用户们正在询问上下文长度、GGUF 量化和部署。一个名为  "Z.AI 像糖浆一样慢吗?不要买年度订阅!!!"的线程表明该 API 对一些用户有延迟问题。另一个热门线程请求一个更轻量部署的 GLM-4.7 Air 变体。

7、那么?

GLM-4.7-Flash 符合一个更广泛的模式:强大的开放权重模型正在以比任何人预期都更快、更便宜的方式变得可访问。一年前,你每月要支付数百美元才能访问这个级别的模型的 API。现在你可以在本地运行一个或调用免费端点。

这给闭源供应商带来的竞争压力是真实的。

GLM-4.7-Flash 是否对你有意义取决于你在做什么。对于实验、学习和副业项目,免费层级很难反驳。对于生产环境,基准测试表明它在同类中具有竞争力,但你可能想先在自己的工作负载上进行测试。

权重是开放的。API 是免费的。基准测试在大小级别上看起来很强。这就是推销。你用它做什么取决于你。


原文链接:GLM-4.7-Flash: Z.ai's free coding model and what the benchmarks say

汇智网翻译整理,版权归原作者所有