MODEL-ZOO

GLM-4.7-Flash免费编码模型

一窥这款 30B MoE 模型，刚刚推出，提供无限免费 API 访问

admin

Jan 20, 2026 • 8 min read

微信 ezpoda免费咨询：AI编程 | AI模型微调| AI私有化部署 | Tripo 3D | Meshy AI

几个小时前，Z.ai 宣布了 GLM-4.7-Flash。这个模型是免费的。不是"有限制的免费层级"免费，而是真正的免费：Hugging Face 上的开放权重，零成本 API，无需信用卡。

不过，宣布很容易。更难的问题是模型是否好用，以及你是否应该从你现在使用的任何工具切换过来。

我查看了基准测试，并研究了这对于运行像 Claude Code 这样的工具的开发者意味着什么。以下是我的发现。

1、公告

2026 年 1 月 20 日凌晨 3:44（新西兰标准时间），Z.ai 在 X 上发帖：

"介绍 GLM-4.7-Flash：您的本地编码和代理助手。为 30B 级别设定新标准，GLM-4.7-Flash 在高性能和效率之间取得平衡，使其成为完美的轻量级部署选项。"

该帖子在最初几小时内已经获得了 195K 次浏览和 2,000 个赞（它现在实际上在 HN 首页上）。一条后续推文纠正了一个基准测试数字（BrowseComp），这表明 Z.ai 对他们的数字相当透明。

2、GLM-4.7-Flash 实际上是什么

GLM-4.7-Flash 是一个 30B 参数的混合专家（MoE）模型，每次推理有 3B 活跃参数。

MoE 部分很重要：模型在每次前向传播中只激活一部分权重，因此它比密集的 30B 模型运行得更快、更轻。

如果你有不错的硬件，你实际上可以在本地运行这个东西。

规格如下：

Z.ai 将这定位为他们用于编码和代理任务的"轻量级部署选项"。你可以通过 vLLM 或 SGLang 在本地运行，或者直接使用他们的 API。

该模型还处理非编码任务。Z.ai 推荐它用于创意写作、翻译、长上下文处理和角色扮演。但他们强调的基准测试是面向编码的。

3、基准测试数字

Z.ai 发布了与两个类似大小的模型的基准测试比较：Qwen3–30B-A3B-Thinking-2507 和 GPT-OSS-20B。数字看起来很强，尽管它们带有自我报告基准测试的通常注意事项。

SWE-bench 数字是引人注目的。在竞争对分数为 22% 和 34% 的编码基准测试上达到 59.2%，这是一个很大的差距。τ²-Bench 结果（工具使用任务）显示了类似的优势。

一些背景。 这些基准测试将 GLM-4.7-Flash 与类似大小级别的模型进行比较。旗舰 GLM-4.7（非 Flash）得分更高：SWE-bench Verified 上 73.8%，τ²-Bench 上 87.4%。Claude Sonnet 4.5 在 SWE-bench 上达到 77.2%。Flash 并不是要击败前沿模型。它与你可以在本地运行或免费使用的东西竞争。

4、定价

这是 Z.ai 文档中的定价表：

相比之下，Claude Sonnet 4.5 通过 Anthropic 的 API 每百万令牌收费约 $3 输入 / $15 输出。GPT-5.1-High 运行大约 $2.20 输入 / $8.90 输出。

你得仔细看看。

免费层级有一个限制：1 个并发。一次一个请求。如果你需要并行请求或更高吞吐量，你需要为 FlashX 付费（$0.07 输入，$0.40 输出）。这仍然非常便宜。

Z.ai 还提供每月 $3-6 的"GLM 编码计划"订阅，捆绑更高的配额和访问他们完整的模型阵容。

他们将其营销为"1/7 的 Claude 成本，3 倍的使用量"。

5、与 Claude Code 一起运行

这是变得实用的地方。GLM-4.7-Flash 适用于 Claude Code、Cline、OpenCode、Roo Code 和其他代理编码工具。Z.ai 已经记录了设置过程。

设置选项：

1) 自动化助手。 Z.ai 在 docs.z.ai/devpack/quick-start 提供了一个工具来配置你的环境（或者使用我的指南，如果你想要更轻量的东西）。

2) 手动配置。 将你的编码工具指向 Z.ai 的 OpenAI 兼容端点：

基础 URL: https://api.z.ai/api/paas/v4/
模型名称: glm-4.7-flash

这是他们文档中的一个快速 cURL 示例：

curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your-api-key" \
  -d '{
    "model": "glm-4.7-flash",
    "messages": [
      {"role": "user", "content": "Write a Python function to parse CSV files"}
    ],
    "max_tokens": 4096
  }'

Python SDK 选项：

from openai import OpenAI

client = OpenAI(
    api_key="your-z-ai-api-key",
    base_url="https://api.z.ai/api/paas/v4/",
)

completion = client.chat.completions.create(
    model="glm-4.7-flash",
    messages=[
        {"role": "user", "content": "Refactor this function to use async/await"}
    ],
)
print(completion.choices[0].message.content)

OpenAI SDK 兼容性意味着你不需要 Z.ai 的自定义 SDK。只需交换基础 URL 和 API 密钥。

本地部署。 如果你根本不想调用 API，权重在 Hugging Face 的 zai-org/GLM-4.7-Flash 上。vLLM 和 SGLang 都支持它（截至目前只有主分支）。

# vLLM 示例
vllm serve zai-org/GLM-4.7-Flash \
     --tensor-parallel-size 4 \
     --tool-call-parser glm47 \
     --reasoning-parser glm45

6、注意事项

有几件事需要记住：

基准测试不是生产环境。 SWE-bench 分数看起来很棒，但现实世界的编码涉及基准测试无法捕获的上下文、迭代和奇怪的边缘情况。Hugging Face 上的早期社区反馈参差不齐：一些用户报告了强劲的结果，另一些人在工具调用时遇到了问题。

并发限制。 免费层级只允许一次一个请求。适合修补。如果你正在构建真实的东西，就不太好了。

它是新的。 GLM-4.7（旗舰版）于 2025 年 12 月底推出。Flash 今天刚刚推出。工具仍在追赶。期待粗糙的边缘。

供应商背景。 Z.ai 是智谱 AI 的国际部门。该模型权重在 MIT 风格的许可证下开放，因此你可以检查你正在运行的东西。但如果你关心供应商管辖权，这就是背景。

社区反馈。 Hugging Face 讨论页面很活跃。用户们正在询问上下文长度、GGUF 量化和部署。一个名为 "Z.AI 像糖浆一样慢吗？不要买年度订阅！！！"的线程表明该 API 对一些用户有延迟问题。另一个热门线程请求一个更轻量部署的 GLM-4.7 Air 变体。

7、那么？

GLM-4.7-Flash 符合一个更广泛的模式：强大的开放权重模型正在以比任何人预期都更快、更便宜的方式变得可访问。一年前，你每月要支付数百美元才能访问这个级别的模型的 API。现在你可以在本地运行一个或调用免费端点。

这给闭源供应商带来的竞争压力是真实的。

GLM-4.7-Flash 是否对你有意义取决于你在做什么。对于实验、学习和副业项目，免费层级很难反驳。对于生产环境，基准测试表明它在同类中具有竞争力，但你可能想先在自己的工作负载上进行测试。

权重是开放的。API 是免费的。基准测试在大小级别上看起来很强。这就是推销。你用它做什么取决于你。

原文链接：GLM-4.7-Flash: Z.ai's free coding model and what the benchmarks say

汇智网翻译整理，版权归原作者所有