Gemma 4 12B：无编码器多模态AI

当我看到关于Google Gemma 4 12B的帖子时，我以为这是通常的发布日噪音：一个120亿参数的开放模型，可以在笔记本电脑上运行，处理多种输入，并且可以做工具调用，要点读起来像今年所有其他发布一样。

然后我看到了一行："音频+图像直接进入模型，没有编码器。"这一行让我停了下来，因为如果这是真的，Google悄悄移除了标准多模态配方中几乎每个人都认为是强制性的一部分。我打开这篇帖子以为会看到营销内容，关上它时认为这是今年最有趣的架构决策之一，有几点值得了解的注意事项。

1、没有人谈论的问题

首先做些基础铺垫，多模态模型是接受不仅仅是文本的模型。你可以给它一张图片、音频或视频，它与你的话语一起理解它们。ChatGPT和Gemini都这样做，而Gemma家族——Google的Gemini开放权重表亲——也已经做了一段时间了。

以下是通常被隐藏的部分。大多数多模态模型不会将你的图片直接喂给大脑。它们先通过一个单独的模型运行它，称为编码器。视觉编码器查看你的图片并将其转换为语言模型可以消化的数字摘要。通常还有一个单独的编码器专门用于音频。

想象一下雇佣了两个翻译。你想和一个只会说一种语言的人交谈。所以在你的照片或声音到达他们之前，一个视觉翻译器和一个音频翻译器分别将你的输入转换为那一种语言。这行得通。但翻译需要时间和金钱，而且在交接中总会丢失一些东西。

用模型的术语来说，那些翻译器很大。Google自己的数字说明了这一点。中等大小的Gemma 4模型携带一个重5.5亿参数的视觉编码器。较小的边缘模型增加了一个3亿参数的音频编码器，由十二个专门的层构建而成。所有这些必须在语言模型开始思考之前运行完成。这是你在每张图片和每段音频上都要支付的延迟。Gemma 4 12B把翻译器扔掉了。

2、核心思想，用简单的话说

Gemma 4 12B不是用沉重的编码器将你的图片转换为"语言模型语言"，而是几乎直接将原始像素输入到模型本身。音频也一样。语言模型学会了自己读取原始数据。

这就是整个卖点：一个模型，没有单独的编码器，多模态数据直接输入。Google称之为统一的、无编码器架构。好处是速度和简单性，还有一个我在速度之后发现的让我更惊讶的额外好处。

这里就是新管道实际有多薄：对于图像，模型将你的图片切成小的48x48像素方块。每个方块通过一个单一的乘法步骤转换为数字，没有注意力机制，没有层堆栈。为了记住每个方块在原始图片中的位置，模型查找两个小的学习值——一个用于行，一个用于列——并将它们加进去。这就是整个视觉系统。Google将其从5.5亿参数缩小到3500万。模型的图像处理部分缩小了大约15倍。

对于音频，更加直接。16kHz的原始声音被切成40毫秒的小片段，每段640个数字，这些数字被直接投影到模型用于文字的同一空间。没有特征提取，没有conformer层，没有通常的音频管道。模型把一段声音很像对待一个词，它现有的序列顺序感让一切在时间上对齐。

3、旧方式 vs 新方式

快速并排比较，因为这是核心。

最后一行就是我提到的额外好处，也是我认为人们会低估的部分。

4、免费获得的微调技巧

当你有单独的编码器时，为你的数据定制模型是很繁琐的。编码器通常被冻结，意味着你不能轻易调整它们，最终你只能在尴尬的隔离中调整各个部分。任何尝试在特定数据集上微调视觉-语言模型的人都知道这种痛苦。

有了Gemma 4 12B，视觉、音频和文本共享完全相同的权重。没有单独的冻结编码器需要绕过。所以当你微调时——无论是使用像LoRA这样的轻量方法还是完全重新训练——单次更新就会同时改变模型处理这三种输入的方式。Hugging Face和Unsloth已经开箱即用地支持这一点。如果你在开放模型上构建产品，这是一个真正的体验升级，而不是一个脚注。

5、你实际得到了什么

从架构上退一步，这是模型本身的规格表。Gemma 4 12B是一个密集的120亿参数模型，通俗来说就是它的所有权重在每个token上都是活跃的，不像稀疏的"混合专家"设计只激活自己的一部分。它处理文本、图像、视频和音频作为输入，并以文本作为输出。它有256K token的上下文窗口，大到足以同时在工作记忆中保存一本小书，并支持超过140种语言。

它是第一个可以原生接受音频的中等大小的Gemma。早些时候，音频仅限于微小的边缘模型。现在一个位于有用大小范围中间的模型可以在没有附加单独语音管道的情况下转录语音、区分说话者并在音轨上进行推理。

它在Apache 2.0许可证下发布。这比看起来更重要。Apache 2.0是一个真正的宽松开源许可证。你可以商业使用这些权重，修改它们，并发布你自己的版本，没有早期Gemma发布附带的使用限制。Google使这成为一个更充分意义上的开放发布。

最实际的标题事实是：它可以在具有16GB显存或统一内存的笔记本电脑上本地运行。这覆盖了很多游戏笔记本电脑和大多数最近的Apple Silicon Mac。你不再需要数据中心或云订阅来运行一个有能力的多模态模型。整个发布都是围绕这个转变构建的。

6、速度部分：多token预测

帖子提到了带闪电图标的"MTP助手（更快！）"，听起来像术语，但指向一个具体的东西。通常语言模型一次写一个token。预测一个token，添加它，预测下一个，重复。MTP，即多token预测，在主模型旁边附带一个小的辅助模型。

辅助模型快速猜测几个可能的下一个token，大模型批量验证它们而不是逐个磨出来。当猜测准确时，你用大约一步的价格得到几个token。在本地硬件上——你没有GPU机架来暴力提速——这个起草技巧是一个有意义的提升。

7、它真的能运行吗

这里我必须诚实，因为这是发布的软肋。原帖包含一个基准测试图表，上面的数字看起来很强。按照那个图表，Gemma 4 12B的GPQA Diamond得分为78.8，MMLU Pro得分为77.2，LiveCodeBench得分为72，DocVQA得分为94.9，接近更大的Gemma 4 26B，并且明显全面领先于较老的Gemma 3 27B。

现在是注意事项：截至发布时，Google尚未在其核心发布材料中发布完整的正式基准测试表。其书面声明更为谨慎：12B的表现接近更大的26B混合专家模型，同时使用不到一半的内存。帖子中流传的图表可能很准确，但在独立的第三方评估出来之前，对待发布图表中的单个数字比较时要保持一些谨慎。诚实的总结是Google声称以一半的占用空间获得接近26B的质量，早期数字支持这一说法，但尚未详细确认。

一个真实世界的数据点是存在的。在Google自己的设备听写应用中，切换到Gemma 4 12B产生了公司报告的超过60%的整体质量提升，具有更好的指令跟随能力。这是一个供应商测量，所以要相应地权衡，但它至少是一个具体的改进前后的对比，而不是排行榜分数。

8、与最好的模型相比如何

这是每个人真正想得到答案的问题：它比你可能运行的其他开放模型更好吗？诚实的答案是，这完全取决于你对"更好"的定义，因为Gemma 4 12B并不试图赢得原始智能竞赛。

如果你只关心文本上的纯智能，它不是首选。截至2026年中期，你可以在消费硬件上运行的最强开放模型更大。Qwen 3.6 27B是常见的"最佳整体"推荐，在SWE-bench编码测试中得分约77%，在大多数文本推理上略胜Gemma。前沿级的开放模型如Kimi K2.6和DeepSeek V4更强，但它们是需要严肃硬件的大型混合专家系统，不是16GB笔记本电脑。

所以在纯排行榜上，Gemma 4 12B输给了重量级选手，这完全是你对一个不到它们一半大小的模型的预期。

有趣的是它提供的特定组合。把四件事放在一起看：原生音频和视频输入、无编码器设计、16GB内存占用和Apache 2.0许可证。几乎没有其他模型同时满足这四个条件。

最突出的列是原生音频。大多数开放的多模态模型，包括Pixtral、Qwen和Llama 4，处理图像有时还有视频，但它们不接受原始音频。它们需要附加一个单独的语音管道。Gemma 4 12B直接转录和对声音进行推理。甚至它自己的更大的兄弟Gemma 4 26B也做不到这一点；在Gemma家族中，原生音频仅存在于边缘模型和现在的这个12B中。

9、每个模型的数字

能力是一回事。以下是整个系列的实际分数，基于两个大多数模型以大致可比较的方式报告的基准测试：用于困难推理的GPQA Diamond和用于广泛知识的MMLU Pro。分数越高越好。我按GPQA排序。

简单的解读：分数追踪大小，这是AI中最不令人惊讶的结果。Qwen 3.6 27B和两个较大的Gemma位居榜首。Gemma 4 12B落在中上位置，这正是一个12B模型应该落的位置。安静的优势是它在两个基准测试上都超越了Llama 4 Scout，尽管Scout拥有1090亿总参数，不过Scout的数字来自其2025年4月发布时在较旧基准版本上的测试，所以部分差距是时间问题，不仅是架构。

编码是有意从表中省略的，因为模型不以相同方式报告它。Gemma使用LiveCodeBench，Qwen依赖SWE-bench，甚至LiveCodeBench也有不同版本。在Gemma家族内相同的LiveCodeBench v6上，31B得分为80.0，26B达到77.1，12B在自己的图表上低一步。一个独立评测者在相同设置下将较大的Gemma与Qwen 3.6进行比较时发现Gemma在编码上略胜一筹。所以相对于其大小，Gemma在编码上很强，不弱。

在多模态推理上，较大的模型领先，Qwen在MMMU Pro视觉版本上约75.8，Gemma 31B约76.9，12B为69.1。但这些模型中没有一个能接受音频。Pixtral 12B，最接近的同尺寸视觉模型，有不错的图像分数，但它是一个2024年的模型，不以可比较的形式报告这些推理基准，而且它也是"聋"的。所以一旦你的任务涉及声音，这个表中的大多数模型就完全出局了。

一个适用于每一行的注意事项：这些数字来自每个模型自己的卡片或发布帖子，在不同日期、不同设置下测量，有时甚至在不同基准版本上。把这张表读作景观的大致地图，而不是裁判的记分卡。唯一可靠的结论是，更大的模型在文本上得分略高，差距温和而非戏剧性，Gemma 4 12B以超出其体重的表现打出了一拳，同时携带了其他模型缺乏的感知能力。

所以公正的评价是狭窄但真实的。如果你想要最聪明的开放模型并且有硬件，看看Qwen 3.6或一个前沿MoE。如果你想要一个既能看、听、读，能在普通笔记本上离线运行，并且完全开放供商业使用的模型，Gemma 4 12B几乎独占自己的赛道。

10、你今天就可以运行它

这不是一个"即将推出"的发布，这也是帖子有势头的部分原因。它在人们已经使用的工具上实现了零日发布。帖子中的"零日在transformers、llama.cpp和MLX中"这一行经得起验证，列表实际上更长。

你可以从Hugging Face或Kaggle拉取权重。指令微调版本名为google/gemma-4-12B-it。要在本地运行它，简单的入口是LM Studio和Ollama（如果你想要点击即用的体验），或者llama.cpp和MLX（如果你更习惯接近底层）。开发者可以使用Hugging Face Transformers、vLLM或SGLang将其接入管道，并用Unsloth高效微调。

Google在这里还做了一些新的事情：它发布了可下载的macOS桌面应用，这样你可以在Apple Silicon上完全离线地与模型对话。还有一个litert-lm serve命令可以启动一个本地服务器，使用与OpenAI相同的API格式，所以期望云端点的现有工具可以指向你的笔记本电脑。对于任何试图减少云依赖的人来说，这是一个悄悄的大事。

11、诚实的限制

这是一个12B模型，被构建为你可以实际自己运行的强大实用的中间选项，而不是在最难的任务上超越最大云模型的前沿系统。Google自己的定位将其放在接近26B的位置，而不是领先于一切。

完整的基准测试尚未出来。早期数字看起来不错，架构故事真正新颖，但告诉你它在边缘情况下表现如何的严格独立比较仍在进行中，所以给它几周时间。

无编码器方法是新的，这把双刃剑。剥离经过实战检验的视觉和音频编码器是一个大胆的赌注，大胆的架构赌注有时有粗糙的边缘，只在规模或异常输入上才会显现。延迟和内存优势是真实的且易于验证。原始像素和原始音频摄取在最棘手的视觉或声学任务上是否能匹敌专用编码器，这是值得关注的开放问题。

"能在笔记本电脑上运行"仍然意味着一台相当不错的笔记本电脑。16GB显存或统一内存现在很常见但并不普遍，较老或预算机器会挣扎。这些都不影响核心观点。Google拿走了多模态配方中每个人都认为是必需的部分，移除了它，使模型更小更快，并在上面获得了一个微调奖励。我进来时以为又是一个发布日的"猛兽"帖子。离开时我相信无编码器思想才是真正值得关注的东西，而该领域的其他公司也将仔细审视它们是否还需要它们的翻译器。

原文链接: Gemma 4 12B: Google Released The Model Without Encoder

汇智网翻译整理，转载请标明出处