关于Gemma 4的真相

一周的真实 Python 工作。不是基准测试。以下是实际发生的情况。

关于Gemma 4的真相
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI模型价格对比 | AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

每一次主要的AI模型发布都伴随着看起来令人印象深刻的基准测试数字,以及讲述不同故事的实际性能表现。

我学会了在形成观点之前先测试。

Google于2026年4月2日发布了Gemma 4。四种模型大小,Apache 2.0许可证,基于与Gemini 3相同的研究构建。 头条新闻关注的是基准测试和多模态能力。

我想知道的更简单…..

它对Python开发真的有用吗?与我每天都在用的模型相比如何?

我花了一周时间在真实的Python任务上测试Gemma 4。以下是诚实的答案。

1、Gemma 4 到底是什么

在比较之前,先了解一下Gemma 4与之前的开源模型有什么不同。

Gemma 4有四种大小。E2B和E4B是边缘模型,设计用于笔记本电脑和移动设备。 26B是一个专家混合模型,用于中等规模部署。31B Dense是旗舰模型,为企业级硬件设计。

对于Python编码工作,31B模型是相关的。它在LiveCodeBench v6上得分80.0%,该基准测试衡量的是真实GitHub问题上的代码生成,而不是合成基准测试。 较大的模型上下文窗口高达256K token,这意味着你可以在一个提示中传入整个代码库。

Apache 2.0许可证对开发者来说是最重要的部分。没有使用上限。没有限制性政策。完全的商业自由。你可以在本地运行、自托管、微调它,并在不按请求付费的情况下发布基于它构建的产品。

在本地设置大约需要十分钟:

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "google/gemma-4-31b-it"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)
inputs = tokenizer("Write a FastAPI endpoint with JWT authentication", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=500)
print(tokenizer.decode(outputs[0]))

2、测试任务

我将Gemma 4 31B与Claude Opus 4.6和GPT-5.4在五类Python工作上进行对比。使用的是我之前比较中用过的相同任务,在所有三个模型上一致应用。

编写新的FastAPI端点、调试失败的测试、重构以提升性能、编写测试套件,以及解释不熟悉的继承代码。

2.1 编写新功能

我给所有三个模型提供了相同的提示和相同的代码库上下文:

"为认证端点添加速率限制。使用现有的Redis配置。对登录应用比token刷新更严格的限制。"

Claude Opus 4.6: 第一次尝试就正确。自动匹配了现有模式。

GPT-5.4: 正确,但需要手动调整以匹配现有项目模式。

Gemma 4 31B: 逻辑部分第一次尝试就正确。遗漏了一个项目特定的命名约定,需要小幅修正。整体输出只需最少修改即可用于生产环境。

256K的上下文窗口在这里帮了忙。Gemma 4可以看到完整的Redis配置和现有的认证代码,无需我进行总结。结果明显好于我对一个本地运行的开源模型的预期。

2.2 调试

这是我预期开源和专有模型之间差距最大的地方。结果比预期更接近。

给定一个失败的测试和相关源代码,Gemma 4在五个案例中正确识别了四个的根本原因。在第五个案例中,它识别的是症状而不是根本原因,需要后续提示。

Claude Opus 4.6全部五个都正确,并且有更深入的解释。GPT-5.4正确了四个,但解释较浅。

Gemma 4的调试能力在处理简单的bug时确实具有竞争力。在根因跨越多个组件的复杂多文件问题上表现较弱。

2.3 重构

给定一个需要拆分成更小、更聚焦的函数的200行函数,Gemma 4生成了干净的输出,命名合理。关注点分离符合逻辑,结果可读性很好。

它不如Gemini 3.1 Pro强——在我之前的测试中我发现Gemini 3.1 Pro是最好的重构工具。但它与GPT-5.4相当,而且明显好于我对一个在本地硬件上运行的模型的预期。

对于不需要深度代码库上下文的重构任务,Gemma 4处理得很好。

2.4 编写测试

Gemma 4在每个任务上都编写了可靠的正常路径测试。边界情况覆盖是最弱的领域。在两个测试套件中,它遗漏了Claude自动捕获的边界情况。

这是我在测试中发现的开放模型的一致模式。常见情况处理得很好。只在特定条件下才会出现的不常见情况需要更明确的提示才能获得覆盖。

如果你给Gemma 4关于需要覆盖的边界情况的明确指令,输出会大幅改善。该模型很好地遵循详细指令。

3、真正的优势:本地运行

与专有模型的比较只是故事的一部分。对许多开发者来说更相关的比较是Gemma 4对比什么都没有,或者Gemma 4对比有使用限制的付费API。

在本地运行Gemma 4 31B意味着你的代码永远不会离开你的机器。对于涉及专有代码库、客户数据或安全敏感代码的工作,这比基准测试数字更重要。

在具有足够VRAM的机器上,推理速度足够快,可以满足实际编码工作的需要。在配备24GB VRAM的RTX 4090上,典型编码提示的响应时间为8到15秒。比通过API使用Claude或GPT-5.4慢,但足够快,不会打断开发流程。

4、性能总结

对比 Claude Opus 4.6: Gemma 4 31B在首次尝试时能正确处理大约75%到80%的相同任务。Claude更大的上下文感知和更深入的解释在复杂任务上表现明显。对于简单的编码工作,差距比价格差异所暗示的要小。

对比 GPT-5.4: Gemma 4具有竞争力。GPT-5.4通过API更快,在边界情况上略更一致,但在大多数日常任务上的质量差异比预期的要小。

对比 Gemini 3.1 Pro API: Gemma 4在重构质量上落后,但在功能开发和调试上旗鼓相当。权衡的是本地执行与云API定价。

5、什么时候适合使用 Gemma 4

当你的代码不能离开你的机器时,使用Gemma 4进行本地AI开发。由于其Apache 2.0许可证和离线执行能力,它非常适合专有项目、客户工作和安全敏感应用。

使用Gemma 4大规模降低API成本。运行自托管模型消除了按请求付费,显著提高了长期成本效率。

使用Gemma 4作为微调的基础。你可以在自己的代码库上训练它,以在特定任务上获得比通用模型更好的性能。

当你需要更高精度来处理复杂编码任务时,使用Claude或GPT-5.4。在预算不是约束条件时,这些模型在多文件逻辑和生产级可靠性方面表现更好。

6、诚实的结论

Gemma 4是我测试过的最好的Python编码开源模型。它在质量上不如Claude Opus 4.6或Gemini 3.1 Pro。它也不需要是。

它所做的是将真正有用的编码辅助带到专有API模型不可行的场景中。本地执行、没有使用限制、完全的商业自由,以及对于大多数日常Python开发任务来说足够有竞争力的质量。

对于一直在等待一个值得认真使用的开源模型的开发者来说,Gemma 4就是它了。


原文链接: I Tested Gemma 4 Against Claude and GPT-5.4. The Truth.

汇智网翻译整理,转载请标明出处