Meta Dino-V3:终极视觉AI

我一直关注DINO系列模型。主要是因为它们触及了很多视觉模型甚至没有尝试的东西:在没有监督的情况下提供密集特征。

DINOv1很酷。DINOv2引起了轰动。但DINOv3呢?

这是Meta试图构建一个视觉基础模型,学习图像所需的一切……而无需任何标签。并且它确实有效。

让DINOv3真正发生转变的是以下几点。

1、无标签、无需微调,仍然处于最前沿。

让我们从它最擅长的事情开始。DINOv3不仅仅学习全局内容,比如“这是一只猫”与“这是一个烤面包机”。

它学习密集特征。这意味着:图像中的每个块、每个区域都具有某种语义上的意义。

这对于分割、目标跟踪、深度估计、3D匹配等任务来说意义重大。而且无需微调。你只需冻结模型并使用输出。

这是我见过的第一个SSL模型,它实际上在密集任务上击败了CLIP或SAM等模型,尽管这些模型是通过监督或文本标签进行训练的。

2、规模化构建:7B参数,从零开始

核心模型是一个70亿参数的Vision Transformer(ViT-7B)。这不是你可以在笔记本电脑上随意运行的东西,但Meta完成了这项工作。他们没有使用JFT-300M或LAION或标签或网络元数据。只是原始图像,从Instagram中抓取的170亿张图像。

而且不是随机拼凑在一起的。他们使用以下方法对数据进行了筛选:

层次化k均值聚类以确保视觉多样性 基于检索的采样以获取概念相关的样本 一点点ImageNet用于平衡

因此,这不是一种“把一切扔进训练箱”的方法。它是经过调整、平衡且庞大的。

3、无崩溃的密集特征,Gram锚定

这里的问题在于密集特征。训练模型时间太长,特别是大型模型时,你的块级特征会变得奇怪。嘈杂。过度平滑。有时它们就会崩溃。

为了防止这种情况,Meta引入了一种叫做Gram Anchoring的新技术。

什么是Gram Anchoring?

这是一种新的损失函数,迫使块特征之间的相似性结构在长时间训练中保持稳定。基本上,模型将其当前的块相似性与早期更一致的检查点进行比较。它不关心特征稍微漂移,只要块之间的关系保持清晰。

这个技巧解决了困扰DINOv2和其他SSL模型的特征退化问题。并解锁了长周期训练,即使是在70亿参数的大模型上。

额外奖励:他们还尝试了一个高分辨率版本的Gram Anchoring,其中教师使用更大的输入图像。这进一步平滑了块的不一致性。

4、适应高分辨率输入

大多数模型是在224x224或可能256x256的分辨率下训练的。但人们却将1024像素的图像扔给它们,并期望得到清晰的分割。除非你适配模型,否则不会发生。

DINOv3有一个训练后的高分辨率微调阶段。他们输入512、768甚至更高的裁剪图像,并使用Gram Anchoring调整模型。这使模型能够向上泛化分辨率。

现在你可以将4K分辨率的卫星图像、航空地图或密集街道场景扔给它,它不会崩溃。你仍然可以在整个图像中获得可用的特征。

5、冻结主干,许多任务,无需微调

一旦训练完成,DINOv3就直接工作。你不需要微调。 你不需要添加头部。你运行它,冻结输出,并应用简单的线性层或KNN或轻量级聚类。就是这样。

以下是DINOv3表现极佳的任务类型:

  • 语义分割: ADE20k、Cityscapes、Pascal VOC,仅用线性探测即可处理
  • 单目深度估计: 在NYUv2和KITTI等数据集上
  • 3D对应匹配: 多视角一致性保持清晰,这在几何密集型任务中很有帮助
  • 目标跟踪和视频理解: 块级特征在帧与帧之间保持稳定
在所有这些任务中,它都优于DINOv2、CLIP风格的模型(如SigLIP),甚至优于最近的AM-RADIO,后者将SAM + CLIP + DINOv2融合成一个模型。

6、正确的蒸馏

完整的70亿模型如果拥有足够的资源是非常棒的。但Meta也将其蒸馏为更小的模型,这些模型实际上可以使用:

  • ViT-S(2100万参数)
  • ViT-B(8600万)
  • ViT-L(3亿)
  • ViT-H+(8亿)

他们甚至建立了一个多学生蒸馏设置,允许他们在并行训练所有这些学生的同时,跨GPU重复使用教师输出。这是对计算资源的智能利用。这些较小的模型保留了70亿模型的大部分能力,尤其是在密集任务中。而且它们运行速度快。

7、如果你想添加文本

该模型本身是纯视觉的。但如果你想进行零样本分类或检索,你可以添加一个文本编码器。他们使用对比目标(如CLIP)将池化的视觉+块特征与文本对齐,同时保持视觉主干冻结。

这样你就可以获得全局和局部对齐,因此你不仅匹配“猫”,还可以在块级别匹配“条纹尾巴”或“胡须”。

8、为什么这个模型真的很重要

这就是DINOv3不仅仅是在基准图表上的另一个提升的原因:

  • 它打破了对监督的需求。 没有标签,没有替代文本,没有人工干预。只有原始像素。
  • 它在密集和全局任务上同样强大。 大多数模型选择一边。这个模型不会。
  • 它可以扩展。 在70亿参数下训练不会崩溃。特征质量不会随时间下降。
  • 它具有泛化能力。 可以在自然图像、航拍视图、医学扫描、生物学数据集上运行,而无需特定任务的微调。

它并不是完美的。你仍然需要一些GPU能力。但对于任何认真致力于构建模型的人,而不是仅仅使用别人的API,DINOv3是一个里程碑。

如果你想探索自监督视觉,或者构建一个在不脆弱于领域变化的情况下运行良好的东西,开始研究DINOv3吧。它不仅仅是另一个ViT,而是当ViT真正理解空间时的样子。


原文链接:Meta Dino-V3 : The ultimate Vision AI for every Image task

汇智网翻译整理,转载请标明出处