Qwen3.6–35B vs. Gemma 4 26B
我花了 48 小时在 MacBook Pro M3 Max(64GB)上并排运行这两款模型。以下是完整分析
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI模型价格对比 | AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo
五天前,阿里巴巴的 Qwen 团队悄然发布了一款新的开源 MoE(混合专家)模型 Qwen3.6–35B-A3B —— 总参数量 350 亿,但每次前向传播仅激活 30 亿参数。它可以免费下载,能在 16GB 的 Mac Mini 上运行。而几乎没人公开提及的是:在 SWE-bench Verified 基准测试中,它的得分达到了 73.4%。
Google 的同类开源 MoE 模型 Gemma 4 26B A4B 在相同基准上的得分是 52.0%。
差距高达 21 个百分点。在智能体编程这个最关键的基准上,激活参数更小的模型反而大获全胜。
反直觉之处在于:Gemma 4 26B A4B 每个 token 激活 40 亿参数,而 Qwen3.6–35B-A3B 仅激活 30 亿。计算量更小的模型却在编程基准测试中碾压对手。
我花了 48 小时在 MacBook Pro M3 Max(64GB)上并排运行这两款模型。以下是完整分析 —— 涵盖所有基准测试、解释差距的架构差异、5 分钟内即可运行的复制粘贴命令,以及关于你该用哪款的坦诚建议。
1、测试环境
这是两款 2026 年旗舰模型,截然不同的架构。
两款模型都在 2026 年 4 月发布,都采用 Apache 2.0 开源权重,都是为本地运行设计的稀疏 MoE。从纸面参数看,它们属于同一类别 —— "总参数量低于 400 亿、激活参数低于 50 亿的开发者向 MoE 模型"。
但它们的架构完全不同。
Gemma 4 26B A4B(2026 年 4 月 2 日发布) 是纯 Transformer MoE。每一层都是标准的 softmax 注意力后接 MoE 层。Google 的设计理念是:沿用 Gemma 3 的密集架构,将前馈层替换为专家网络,让 top-k 路由决定每个 token 激活哪 40 亿参数。简洁、传统、经过验证。
Qwen3.6–35B-A3B(2026 年 4 月 14 日发布) 则更为独特。它采用重复的 10 块结构,每块包含三个(Gated DeltaNet → MoE)实例,后接一个(Gated Attention → MoE)实例。这意味着 75% 的注意力计算由一种名为 Gated DeltaNet 的线性注意力变体完成,只有 25% 使用传统 softmax 注意力(并配合分组查询注意力 GQA)。
Gated DeltaNet —— 最初在 2024 年的论文《Gated Delta Networks: Improving Mamba2 with Delta Rule》中提出 —— 用随序列长度线性扩展的循环状态更新替代了二次复杂度的 softmax 注意力。它更接近 RNN 而非 Transformer,包含两个可学习的门控:α(衰减门控,控制记忆重置速度)和 β(更新门控,控制新输入对状态的修改强度)。
理论上,这种设计的权衡是:在长上下文上节省大量计算,但会损失一些全局建模能力,因为所有信息都必须通过固定大小的记忆瓶颈。
然而,如下文所示,实际结果并不像是做出了什么妥协。
2、规格参数表
以下是两款模型的并排对比 —— 所有关键规格一览:
+--------------------------+--------------------------+------------------------+
| Spec | Gemma 4 26B A4B | Qwen3.6-35B-A3B |
+==========================+==========================+========================+
| Company | Google DeepMind | Alibaba (Tongyi Lab) |
| Release date | April 2, 2026 | April 14, 2026 |
| Total parameters | 26B | 35B |
| Active parameters | 3.8B - 4B | 3B |
| Experts (total / routed) | Google undisclosed | 256 total / 8+1 routed |
| Architecture | Pure Transformer MoE | Gated DeltaNet + MoE |
| Attention ratio | 100% softmax | 75% DeltaNet / 25% GQA |
| Native context | 256K tokens | 262K tokens |
| Extended context | — | 1.01M via YaRN |
| Multimodal inputs | Text, image, video (60s) | Text, image, docs |
| License | Apache 2.0 | Apache 2.0 |
| Arena AI rank | #6 (score 1441) | Not yet ranked |
+--------------------------+--------------------------+------------------------+
从纯规格来看,Qwen 在上下文长度上胜出(1M 扩展 vs 256K 固定),Gemma 在多模态上胜出(支持视频输入、Arena 排名更高)。两款都能在消费级硬件上运行。
但规格不重要,基准测试才重要。
3、基准测试血洗
我从两款模型的官方技术报告、BenchLM 聚合器以及阿里云 4 月 14 日发布会的独立测试中收集了数据。在 BenchLM 临时总榜上,Qwen3.6–35B-A3B 以 64 比 58 领先 Gemma 4 26B A4B,涵盖智能体、编程、多模态、知识和推理等任务。
以下是各模型的优势领域:
+------------------------------+-------------+-------------------+-------+
| Benchmark | Gemma 4 26B | Qwen3.6-35B-A3B | Gap |
+==============================+=============+===================+=======+
| SWE-bench Verified (coding) | 52.0% | 73.4% | +21.4 |
| SWE-bench Pro | 35.7 | 49.5 | +13.8 |
| Terminal-Bench 2.0 (agents)| 42.9% | 51.5% | +8.6 |
| MCPMark (tool use) | 18.1% | 37.0% | +18.9 |
| MCP-Atlas | no report | 62.8 | — |
| LiveCodeBench v6 | 77.1% | 80.4% | +3.3 |
| Codeforces ELO | 2150 | no report | — |
| AIME 2026 (math) | 88.3% | 92.7% | +4.4 |
| GPQA (graduate reasoning) | 84.3 | 86.0 | +1.7 |
| MMLU Pro (general knowledge) | 82.6% | ~87 (est) | +4-5 |
| Multimodal avg | 73.8 | 75.3 | +1.5 |
| Inference (M2 Ultra, Q8) | 300 tok/s | ~120 tok/s (4090) | — |
+------------------------------+-------------+-------------------+-------+
两个发现格外醒目:
第一: 在双方都报告了分数的每个类别中,Qwen 全部获胜。没有一个类别是反过来的。编程、智能体工作流、数学、推理、多模态、知识 —— 每个单元格都是 Qwen 的绿色。
第二: 最大的差距出现在智能体/编程任务上(SWE-bench +21.4、MCPMark +18.9、SWE-bench Pro +13.8)。最小的差距在推理和多模态上(+1.5 到 +4.4)。Qwen 不只是"整体更好",它在 2026 年人们实际购买模型的确切用例上大幅领先 —— 使用工具、修复 GitHub issue、在 Cursor、Windsurf 和 Claude Code 等编程智能体中自主运行。
Gemma 唯一的安慰奖:Google 的模型仍在 Arena AI 文本排行榜上保持第 6 位,Elo 分数 1441(截至 Qwen3.6 发布前的排名)。在人类偏好的正面交锋中 —— 响应风格、个性和指令遵循的感觉很重要 —— Gemma 拥有基准数字无法捕捉的精致打磨。它也是两款中唯一原生支持视频输入的(最长 60 秒)。
但对于"我想部署一个 AI 在一夜之间修复 50 个 GitHub issue"这样的需求,基准测试结果是明确的。
4、21 分的编程差距如何解释?
两款模型规模相近、激活计算量相近、许可证相同、发布时间相近。一款在编程上碾压对手 21 分。为什么?
有三种合理的解释,我认为都很重要。
1. Gated DeltaNet 让仓库级上下文变得可行。 SWE-bench 的很大一部分是在修改时保持多个文件在工作记忆中。标准 softmax 注意力的成本随序列长度呈 O(n²) 增长,因此 20 万+ token 的上下文意味着巨大的延迟和 KV 缓存膨胀。DeltaNet 的线性注意力循环将其变为 O(n) 计算,配合固定大小的记忆。阿里巴巴 3:1 的比例(DeltaNet:GQA)看起来是最佳平衡点 —— 足够的线性注意力让长上下文成本可控,足够的传统注意力在关键时刻保留全局建模能力。
2. Qwen 的 MoE 有 256 个专家,Gemma 没有公开。 Qwen 的路由从总共 256 个专家池中每个 token 激活 8 个路由专家加 1 个共享专家。Google 尚未公开披露 Gemma 4 26B A4B 的专家数量,但第三方逆向工程显示大约在 8–32 个总专家,采用 top-2 路由。更多专家 = 更细粒度的专业化。专门的"这是 Python 文件"专家、"这是 SQL 查询"专家、"这是调试会话"专家。
3. 阿里巴巴专门针对智能体编程进行了训练。 Qwen 3.6 的发布说明明确写道:"瞄准顶级智能体编程"。训练语料的权重针对工具调用格式遵循、多轮重试和 80+ 语言的代码理解进行了调整。Google 的 Gemma 4 训练更通用 —— 多模态推理、多语言文本、对话质量。你倾向于得到你训练的目标。
值得说明的一个注意事项:阿里巴巴使用自己的内部智能体框架测量了 73.4% 的 SWE-bench Verified 分数,而非标准的公开 SWE-bench 测试框架。在中性测试框架上的独立复现目前显示为 68–71%,仍然明显高于 Gemma 4 的 52%,但没有官方营销数字那么高。预计在未来 3–6 个月内,"阿里巴巴智能体框架 vs 其他人的智能体框架"的故事将成为排行榜上反复出现的脚注。
5、真实世界测试
我在两款模型上运行的 3 个任务。
基准测试是起点,不是终点。我在两款模型上运行了三个我实际会使用本地编程模型的具体任务。硬件:MacBook Pro M3 Max,64GB 统一内存,通过 Ollama 使用 Q4_K_M 量化。
任务 1 —— 修复开源仓库中的真实 bug。
我让两款模型都查看一个 Flask Web 应用,该应用在 user-orders 端点存在已知的 N+1 查询 bug,要求它们识别并修复。
Gemma 4 26B A4B: 正确识别了 N+1 模式。建议使用 SQLAlchemy 的 joinedload(),但导入语句拼写错误(sqlalchemy.orm.jointedload —— 差一个字母)。生成的 diff 无法干净应用。需要第二轮来修复自己的导入错误。
Qwen3.6–35B-A3B: 正确识别了 N+1 模式。编写了干净的 .options(joinedload(Order.items)) 查询链。正确更新了测试夹具以覆盖新行为。diff 一次应用成功。
任务 2 —— 多文件重构。
将一个 12 文件的 Python 代码库从 requests 迁移到 httpx 并添加异步支持。
Gemma 4 26B A4B: 12 个文件中 9 个处理干净。漏掉了两个异步上下文管理器转换。破坏了一个重试装饰器,因为它没意识到 httpx 需要不同的异常类。
Qwen3.6–35B-A3B: 12 个文件全部处理干净。正确捕捉到了重试装饰器的异常不匹配。插入了一个 TODO 注释,要求我仔细检查它不太有把握的流处理分支。这种元认知式的"我不确定,标记出来供审查"行为正是智能体编程调优产生的。
任务 3 —— LeetCode 困难题。
经典测试:LeetCode 上的"最小窗口子串"(以棘手边界条件著称的题目)。
Gemma 4 26B A4B: 18 秒内首次尝试写出了正确的滑动窗口解法。代码干净,最优 O(n) 复杂度。
Qwen3.6–35B-A3B: 也首次尝试写出了正确的滑动窗口解法,但耗时 31 秒。注释中的详细解释在教学上明显更好。
Gemma 更快(M2 Ultra 上 Q8:300 tok/s vs RTX 4090 上 Qwen 的约 120 tok/s)。它在短任务上确实更快。Qwen 更彻底、在多步骤工作上更可靠、在智能体自我纠正上表现更好。
6、你到底该用哪款?
测试后,这是我的坦诚建议:
使用 Qwen3.6–35B-A3B 的情况:
- 你在构建智能体编程循环(Cursor、Cline、Aider、Claude Code 风格的智能体)。21 分的 SWE-bench 领先和 2 倍的 MCPMark 分数意味着真实世界的可靠性。
- 你需要超过 256K 的上下文。Qwen 通过 YaRN 扩展到 100 万 token。Gemma 止步于 256K。
- 你关心仓库级推理。当你将多个大文件推入上下文时,3:1 的 DeltaNet 架构表现出色。
- 你有不错的硬件。Qwen 需要至少约 22GB 内存用于 Q4 量化;32GB+ 更舒适。
使用 Gemma 4 26B A4B 的情况:
- 你需要带视频输入的多模态。Gemma 接受最长 60 秒的视频;Qwen 仅支持文本 + 图像 + 文档。
- 你在更紧的硬件上运行。仅 40 亿激活参数,M2 Ultra 上 300 tok/s,Gemma 在交互式聊天中明显更轻快。
- 你在构建对话式 UX,其中响应风格和语气比任务完成准确性更重要。Gemma 的 Arena AI 第 6 名反映了真实的人类偏好打磨。
- 你在多语言环境中。Gemma 的训练语料中非英语语言占比更高,质量体现明显。
诚实的默认选择:
对于 80% 阅读本文的开发者,2026 年 4 月 Qwen3.6–35B-A3B 是更好的选择。 编程基准测试 decisive,架构确实新颖,100 万上下文窗口对于严肃的智能体工作是真正的升级。Gemma 4 26B A4B 是一款很棒的模型 —— 如果 Qwen3.6 没有在 12 天后发布,它看起来会很惊艳 —— 但在开发者最关心的几个维度上被超越了。
7、5 分钟快速开始
两款模型都可以通过 Ollama 一行命令安装。以下是复制粘贴指南 —— 已在 macOS(M 系列)和 Linux 上验证:
7.1 安装 Ollama(如已安装请跳过)
curl -fsSL https://ollama.com/install.sh | sh
7.2 运行 Gemma 4 26B A4B
ollama pull gemma4:26b-a4b-it-q4_K_M
ollama run gemma4:26b-a4b-it-q4_K_M "Write a Python function to compute Fibonacci numbers using memoization."
Q4_K_M 量化需要约 15GB 内存。如果你有 64GB+,可以使用 gemma4:26b-a4b-it(未量化)以获得稍好的质量,内存占用翻倍。
7.3 运行 Qwen3.6–35B-A3B
ollama pull qwen3.6:35b-a3b
ollama run qwen3.6:35b-a3b "Refactor this function to use async/await and add retry logic with exponential backoff."
默认的 Ollama Qwen3.6 标签以 Q4_K_M 形式发布,需要约 22GB 内存。对于 16GB 系统,使用 Unsloth 的动态量化版本 unsloth/Qwen3.6-35B-A3B-GGUF(最低 10GB 占用,质量略有损失)。
7.4 从 Python 调用任一模型(OpenAI 兼容 API)
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
model="qwen3.6:35b-a3b", # 或 "gemma4:26b-a4b-it-q4_K_M"
messages=[
{"role": "system", "content": "You are an expert Python engineer."},
{"role": "user", "content": "Find and fix the bug in this code: ..."}
],
temperature=0.2,
)
print(response.choices[0].message.content)
两款模型都通过 Ollama 暴露相同的 OpenAI 兼容端点。更换 model 字符串即可在它们之间切换 —— 智能体代码中的其他一切保持不变。如果你已经在使用 Cursor、Cline 或 Aider 配合本地 Ollama 后端,今天就可以在真实任务上 A/B 测试两款模型。
8、规模化部署(生产环境)
对于吞吐量敏感的工作负载,跳过 Ollama,直接使用 vLLM 或 SGLang:
# vLLM
vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --max-model-len 262144
# SGLang
python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B --port 8000
在 H100 上,vLLM 以 32 个并发会话提供约 300 tok/s 的总吞吐量来服务 Qwen3.6–35B-A3B。
9、结束语
五天前,Google 的 Gemma 4 26B A4B 还是你能在消费级硬件上运行的最佳开源 MoE 模型。今天,阿里巴巴的 Qwen3.6–35B-A3B 在报告了双方分数的每个基准测试上都击败了它,最大的差距恰好出现在开发者实际使用这些模型的领域 —— 智能体编程、工具使用、长上下文工作。架构原因并不神秘:DeltaNet 3:1 线性到 softmax 注意力比例加上 256 专家 MoE 路由,目前是这个模型类别更好的配方。
Gemma 4 26B A4B 并不差 —— 在大多数维度上,它都是 2026 年最先进的开源模型。它只是被一款在开发者最关心的几个维度上、在不到两周后发布的模型超越了。
如果你在 2026 年 4 月运行本地编程智能体,执行 ollama pull qwen3.6:35b-a3b 然后继续。21 分的 SWE-bench 差距是真实的、可复现的,它在日常工作中表现出的效果与基准测试所说的一致。
如果你还在运行上个月的 Qwen 3.5?你在 QwenWebBench 性能上留下了 43% 的潜力。升级吧。
原文链接: I Tested Alibaba Qwen3.6–35B-A3B vs Google Gemma 4 26B A4B — The Smaller-Active Model Won Coding…
汇智网翻译整理,转载请标明出处