GLM-4.5V最佳开源视觉语言模型

我们来了。又是一周，又有一个模型发布。但这次不同。没有可爱的发布会视频。也没有关于“解锁多模态创造力”的诗意语言。只是由智谱AI和清华大学悄悄推送到GitHub上的一个强大模型GLM-4.5V。而且它真的非常出色。

如果你还在痴迷于LLaVA或Qwen-VL，那你已经落后了。GLM-4.5V比它们强得多。这不是我吹捧。我是在说在42个硬核基准测试中都达到了最先进的水平，数学、科学、视频、编程、图表、GUI等等。不是挑选的，也不是过度拟合的。

1、什么让GLM-4.5V脱颖而出？

主要有两点：

1. 它确实能对视觉内容进行推理。
2. 它像其他人无法做到的一样扩展强化学习。

而这种组合在开源领域是罕见的。大多数VLM只能描述一只猫。GLM-4.5V可以解决物理图示，从截图生成React代码，阅读PDF表格，并在图像和视频中进行长链推理。

Press enter or click to view image in full size

它使用了一个基于ViT的编码器，一个干净的MLP适配器，然后将所有这些内容输入到一个巨大的语言解码器中。但这并不是令人印象深刻的部分。真正的秘诀在于它是如何训练的。

他们没有像大多数团队那样仅仅使用CLIP嵌入到LLMs上就称之为多模态。他们做了以下事情：

这种结构使它可以展示其工作过程，而不是仅仅吐出答案。

然后，他们做了一些大多数团队避免的事情：全面的强化学习，不仅在一个领域，而是同时在多个领域进行。这包括STEM、视频理解、GUI交互、图表阅读、文档解析……全部在同一屋檐下。他们称之为RLCS（基于课程采样的强化学习）。

让我们谈谈数字。GLM-4.5V在以下方面击败或与任何大小的最佳开源模型持平：

即使较小的变体，GLM-4.1V-9B-Thinking，在42项任务中的29项上也超过了Qwen2.5-VL-72B。这是一个9B模型击败了一个72B模型。你很少看到这种情况。

另一个转折点：GLM-4.5V有两种运行模式。

而且，你可以通过一个特殊的/nothink标签随时切换它们。

忘记基准测试的喧嚣。这个模型实际上可以做什么：

这个东西就像一个视觉原生的GPT-4，但开源。

模型权重可在HuggingFace上免费获得。

它非常庞大。106B参数，采用MoE架构。运行它并不免费。你需要强大的硬件或推理技巧（比如vLLM、张量/模型并行性、长上下文优化）。但团队也开源了一个较小的9B版本，令人惊讶地稳固。

我们最近一直在沉浸在VLM平庸的海洋中。每一个仓库都是BLIP、LLaVA或Flamingo的混合拼接。GLM-4.5V改变了游戏规则。不是通过一个炫酷的网站，而是通过纯粹的工程实力和学术诚实。

他们构建了他们想要的模型。然后他们把它送出来了。

不是因为它已经完成。而是因为他们知道视觉语言模型的未来不仅仅是更好的描述或更漂亮的演示，而是推理、定位、理解。而第一次，一个开源模型真正做到了这一点。

如果你正在构建需要眼睛背后有大脑的工具，不只是视觉，还有判断力，停止修补旧的LLaVA分支，开始尝试GLM-4.5V吧。

汇智网翻译整理，转载请标明出处