GLM-4.5V最佳开源视觉语言模型

我们来了。又是一周,又有一个模型发布。但这次不同。没有可爱的发布会视频。也没有关于“解锁多模态创造力”的诗意语言。只是由智谱AI和清华大学悄悄推送到GitHub上的一个强大模型GLM-4.5V。而且它真的非常出色。

如果你还在痴迷于LLaVA或Qwen-VL,那你已经落后了。GLM-4.5V比它们强得多。这不是我吹捧。我是在说在42个硬核基准测试中都达到了最先进的水平,数学、科学、视频、编程、图表、GUI等等。不是挑选的,也不是过度拟合的。

1、什么让GLM-4.5V脱颖而出?

主要有两点:

1. 它确实能对视觉内容进行推理。
2. 它像其他人无法做到的一样扩展强化学习。

而这种组合在开源领域是罕见的。大多数VLM只能描述一只猫。GLM-4.5V可以解决物理图示,从截图生成React代码,阅读PDF表格,并在图像和视频中进行长链推理。

2、内部结构

Press enter or click to view image in full size

它使用了一个基于ViT的编码器,一个干净的MLP适配器,然后将所有这些内容输入到一个巨大的语言解码器中。但这并不是令人印象深刻的部分。真正的秘诀在于它是如何训练的。

他们没有像大多数团队那样仅仅使用CLIP嵌入到LLMs上就称之为多模态。他们做了以下事情:

  • 在10B+的精心筛选的图像-文本对上进行预训练。不是刮取的垃圾数据。他们清理并重新编写了它们。
  • 添加了学术图表、科学书籍、OCR数据、GUI屏幕和完整的PDF。
  • 使用类似<think>…</think><answer>…</answer>的标记方案,将所有内容与长形式的思维链提示融合在一起。

这种结构使它可以展示其工作过程,而不是仅仅吐出答案。

然后,他们做了一些大多数团队避免的事情:全面的强化学习,不仅在一个领域,而是同时在多个领域进行。这包括STEM、视频理解、GUI交互、图表阅读、文档解析……全部在同一屋檐下。他们称之为RLCS(基于课程采样的强化学习)

3、基准测试

让我们谈谈数字。GLM-4.5V在以下方面击败或与任何大小的最佳开源模型持平:

  • 通用VQA: MMStar, GeoBench, HallusionBench
  • 数学与STEM: MathVista, AI2D, MMMU Pro
  • OCR与图表: OCRBench, ChartQAPro, ChartMuseum
  • 视频: VideoMMME, LVBench, MMVU
  • GUI代理: WebVoyager, AndroidWorld
  • 编程: Design2Code, Flame-React-Eval
即使较小的变体,GLM-4.1V-9B-Thinking,在42项任务中的29项上也超过了Qwen2.5-VL-72B。这是一个9B模型击败了一个72B模型。你很少看到这种情况。

4、思考模式与非思考模式

另一个转折点:GLM-4.5V有两种运行模式。

  • 思考模式: 进行长时间的思维链推理,正确标记输出。
  • 非思考模式: 快速、简短、高效——基本上只是像典型的VLM一样回答问题。

而且,你可以通过一个特殊的/nothink标签随时切换它们。

5、真实用例,而非演示

忘记基准测试的喧嚣。这个模型实际上可以做什么:

  • 将整篇研究论文作为图像页面读取并解释。
  • 观看一个科学实验视频并告诉你发生了什么,带有时间索引的推理。
  • 理解GUI截图,点击按钮,甚至生成HTML+JS来重建它。
  • 解析图表,解码杂乱扫描中的OCR,并从PDF中提取表格数据。
这个东西就像一个视觉原生的GPT-4,但开源。

模型权重可在HuggingFace上免费获得。

7、不好的消息?

它非常庞大。106B参数,采用MoE架构。运行它并不免费。你需要强大的硬件或推理技巧(比如vLLM、张量/模型并行性、长上下文优化)。但团队也开源了一个较小的9B版本,令人惊讶地稳固。

8、为什么这个模型重要?

我们最近一直在沉浸在VLM平庸的海洋中。每一个仓库都是BLIP、LLaVA或Flamingo的混合拼接。GLM-4.5V改变了游戏规则。不是通过一个炫酷的网站,而是通过纯粹的工程实力和学术诚实。

他们构建了他们想要的模型。然后他们把它送出来了。

不是因为它已经完成。而是因为他们知道视觉语言模型的未来不仅仅是更好的描述或更漂亮的演示,而是推理定位理解。而第一次,一个开源模型真正做到了这一点。

9、结束语

如果你正在构建需要眼睛背后有大脑的工具,不只是视觉,还有判断力,停止修补旧的LLaVA分支,开始尝试GLM-4.5V吧。


原文链接:GLM-4.5V : Best Open-Sourced Vision model

汇智网翻译整理,转载请标明出处