LocateAnything-3B:再见YOLO!

NVIDIA悄悄地在Hugging Face上发布了一个非常有趣的视觉语言模型,名为LocateAnything-3B。乍一看,它可能像"只是又一个多模态模型",但一旦你深入研究,就会发现它是为更具体的目标而构建的——教会AI系统如何精确定位图像中的物体、UI元素、文本甚至微小细节。

今天的大多数图像模型非常擅长描述图像。它们可以告诉你发生了什么。但LocateAnything专注于不同的方向:

"它到底在哪里?"

这个微小的差异改变了一切。

1、LocateAnything-3B 到底是什么?

LocateAnything-3B是由NVIDIA开发的用于视觉定位任务的视觉语言模型(VLM)。

简单来说,该模型可以理解图像,并指出自然语言提示中提到的物体或元素的精确位置。

例如:

  • "定位红绿灯"
  • "指向搜索按钮"
  • "找到所有穿红衬衫的人"
  • "检测图像中的所有文本"
  • "定位发票号码"

该模型不是仅仅生成文本,而是返回结构化坐标,如边界框和点。这使它在以下场景中极其有用:

  • AI代理
  • 机器人技术
  • GUI自动化
  • OCR系统
  • 自动驾驶
  • 文档理解
  • 智能监控
  • 数据集标注流水线

有趣的是,NVIDIA将其定位为通用定位模型,而非狭义的目标检测器。

2、重大创新:并行框解码

LocateAnything背后最大的技术理念叫做并行框解码(PBD)。

通常,模型以自回归的方式逐个token生成边界框坐标。这意味着AI先预测一个坐标,然后是下一个,再下一个。

并行框解码不是顺序生成坐标,而是并行预测整个边界框。根据NVIDIA的说法,这带来了:

  • 高达2.5倍的吞吐量提升
  • 更快的定位速度
  • 更好的几何一致性
  • 改进的密集检测性能

这实际上是一件大事,因为定位模型正在成为AI代理的核心基础设施。

如果你未来的AI助手需要操作桌面UI、浏览网站、点击按钮或以视觉方式与软件交互,定位速度就非常重要。

3、基于海量多领域数据训练

训练规模确实惊人。LocateAnything在以下数据上进行了训练:

  • 1200万张图像
  • 1.38亿+查询
  • 7.85亿个边界框

而且不仅仅是普通照片。训练数据包括:

  • 自然场景
  • GUI截图
  • 文档
  • OCR数据集
  • 机器人环境
  • 驾驶数据集
  • 密集杂乱场景

这解释了为什么该模型能够处理如此多样化的任务。

大多数定位模型在场景变得拥挤或杂乱时会遇到困难。NVIDIA特别提到LocateAnything在密集场景和长尾目标检测方面表现出色。

4、也能定位GUI元素

这可能是此次发布最重要的部分之一。LocateAnything可以理解用户界面。这意味着像以下提示:

  • "点击登录按钮"
  • "定位搜索图标"
  • "指向设置菜单"

可以直接在截图上工作。这正是AI计算机使用代理所需要的能力。

目前每个人都在竞相开发能够像人类一样使用计算机的自主AI代理。但为了可靠地工作,模型需要强大的GUI定位能力。

5、基于 Qwen2.5–3B + MoonViT 构建

架构组合了:

  • Qwen2.5–3B-Instruct 作为语言模型
  • MoonViT 作为视觉编码器
  • MLP投影器用于多模态对齐

模型总大小约为3B参数,考虑到其功能,这令人惊讶地紧凑。NVIDIA还说该模型支持:

  • 最高2.5K分辨率的图像
  • 最长24K token的提示长度
  • 多种推理模式

最后一部分非常有趣。

6、三种不同的推理模式

LocateAnything支持:

快速模式

使用纯并行解码。

  • 最快速度
  • 鲁棒性较低
  • 适合简单场景

慢速模式

传统自回归解码。

  • 最慢
  • 最准确
  • 适合复杂场景

混合模式

默认模式。

它结合了两种方法,仅在出现不确定性时回退到自回归解码。这实际上是一个聪明的设计选择,因为定位质量可能在解码变得不稳定时崩溃。

7、Worker API 出乎意料地简洁

这次发布中让我喜欢的一点是worker实现看起来非常实用。

NVIDIA提供了即用型函数,如:

worker.detect(img, ["person", "car"])
worker.ground_multi(img, "people wearing red shirts")
worker.detect_text(img)
worker.point(img, "traffic light")

这使得模型更容易集成到:

  • FastAPI后端
  • 机器人技术栈
  • 浏览器代理
  • OCR工作流
  • AI桌面助手

你还获得了将归一化坐标转换为实际像素位置的解析工具。这听起来可能是小事,但它为开发者节省了大量烦人的后处理工作。

8、支持 Transformers、vLLM 和 SGLang 运行

部署支持也很扎实。你可以使用以下方式运行LocateAnything:

  • Transformers
  • vLLM
  • SGLang
  • Docker

vLLM的设置非常简单:

pip install vllm
vllm serve "nvidia/LocateAnything-3B"

之后,你可以通过兼容OpenAI的API访问它。仅此一点就让实验变得更加容易。

9、NVIDIA 正在悄然构建 AI 代理技术栈

这次发布之所以更加重要,是因为更大的图景。

LocateAnything是NVIDIA Eagle VLM家族的一部分,NVIDIA提到这项技术已经集成到Nemotron Nano Omni等生产级多模态系统中。

这意味着定位不再仅仅是研究领域的小众话题。它正在成为以下领域的基础设施:

  • 多模态代理
  • 机器人技术
  • 桌面AI助手
  • 企业自动化
  • 物理AI系统

行业正在慢慢从"会说话的AI"转向"会行动的AI"。而像LocateAnything这样的模型正是让AI系统能够精确地与视觉世界交互的关键。

10、当前限制

不过有一个主要限制。该模型以NVIDIA的非商业研究许可发布。因此除非你是NVIDIA或其认可的关联方,否则商业使用受到限制。

这意味着初创公司和公司目前不能直接将其用于商业用途,除非处理许可约束。

尽管如此,对于正在实验定位系统的研究人员和开发者来说,这次发布非常有价值。

11、结束语

LocateAnything-3B给人的感觉像是那种最初看起来很小但后来变得非常重要的发布。AI行业在过去几年里一直在教模型如何生成文本和图像。

现在焦点正在转向空间理解和交互。AI系统需要知道:

  • 东西在哪里
  • 界面如何工作
  • 该点击什么
  • 该指向什么
  • 如何进行视觉导航

这正是LocateAnything试图解决的层面。如果AI代理在未来几年变得主流,这样的模型可能将成为许多代理的底层基础。


原文链接: NVIDIA LocateAnything-3B : GoodBye YOLO Object Detection

汇智网翻译整理,转载请标明出处