LocateAnything-3B：再见YOLO！

NVIDIA悄悄地在Hugging Face上发布了一个非常有趣的视觉语言模型，名为LocateAnything-3B。乍一看，它可能像"只是又一个多模态模型"，但一旦你深入研究，就会发现它是为更具体的目标而构建的——教会AI系统如何精确定位图像中的物体、UI元素、文本甚至微小细节。

今天的大多数图像模型非常擅长描述图像。它们可以告诉你发生了什么。但LocateAnything专注于不同的方向：

"它到底在哪里？"

这个微小的差异改变了一切。

1、LocateAnything-3B 到底是什么？

LocateAnything-3B是由NVIDIA开发的用于视觉定位任务的视觉语言模型（VLM）。

简单来说，该模型可以理解图像，并指出自然语言提示中提到的物体或元素的精确位置。

例如：

"定位红绿灯"
"指向搜索按钮"
"找到所有穿红衬衫的人"
"检测图像中的所有文本"
"定位发票号码"

该模型不是仅仅生成文本，而是返回结构化坐标，如边界框和点。这使它在以下场景中极其有用：

AI代理
机器人技术
GUI自动化
OCR系统
自动驾驶
文档理解
智能监控
数据集标注流水线

有趣的是，NVIDIA将其定位为通用定位模型，而非狭义的目标检测器。

2、重大创新：并行框解码

LocateAnything背后最大的技术理念叫做并行框解码（PBD）。

通常，模型以自回归的方式逐个token生成边界框坐标。这意味着AI先预测一个坐标，然后是下一个，再下一个。

并行框解码不是顺序生成坐标，而是并行预测整个边界框。根据NVIDIA的说法，这带来了：

高达2.5倍的吞吐量提升
更快的定位速度
更好的几何一致性
改进的密集检测性能

这实际上是一件大事，因为定位模型正在成为AI代理的核心基础设施。

如果你未来的AI助手需要操作桌面UI、浏览网站、点击按钮或以视觉方式与软件交互，定位速度就非常重要。

3、基于海量多领域数据训练

训练规模确实惊人。LocateAnything在以下数据上进行了训练：

1200万张图像
1.38亿+查询
7.85亿个边界框

而且不仅仅是普通照片。训练数据包括：

自然场景
GUI截图
文档
OCR数据集
机器人环境
驾驶数据集
密集杂乱场景

这解释了为什么该模型能够处理如此多样化的任务。

大多数定位模型在场景变得拥挤或杂乱时会遇到困难。NVIDIA特别提到LocateAnything在密集场景和长尾目标检测方面表现出色。

4、也能定位GUI元素

这可能是此次发布最重要的部分之一。LocateAnything可以理解用户界面。这意味着像以下提示：

"点击登录按钮"
"定位搜索图标"
"指向设置菜单"

可以直接在截图上工作。这正是AI计算机使用代理所需要的能力。

目前每个人都在竞相开发能够像人类一样使用计算机的自主AI代理。但为了可靠地工作，模型需要强大的GUI定位能力。

5、基于 Qwen2.5–3B + MoonViT 构建

架构组合了：

Qwen2.5–3B-Instruct 作为语言模型
MoonViT 作为视觉编码器
MLP投影器用于多模态对齐

模型总大小约为3B参数，考虑到其功能，这令人惊讶地紧凑。NVIDIA还说该模型支持：

最高2.5K分辨率的图像
最长24K token的提示长度
多种推理模式

最后一部分非常有趣。

6、三种不同的推理模式

LocateAnything支持：

快速模式

使用纯并行解码。

最快速度
鲁棒性较低
适合简单场景

慢速模式

传统自回归解码。

最慢
最准确
适合复杂场景

混合模式

默认模式。

它结合了两种方法，仅在出现不确定性时回退到自回归解码。这实际上是一个聪明的设计选择，因为定位质量可能在解码变得不稳定时崩溃。

7、Worker API 出乎意料地简洁

这次发布中让我喜欢的一点是worker实现看起来非常实用。

NVIDIA提供了即用型函数，如：

worker.detect(img, ["person", "car"])
worker.ground_multi(img, "people wearing red shirts")
worker.detect_text(img)
worker.point(img, "traffic light")

这使得模型更容易集成到：

FastAPI后端
机器人技术栈
浏览器代理
OCR工作流
AI桌面助手

你还获得了将归一化坐标转换为实际像素位置的解析工具。这听起来可能是小事，但它为开发者节省了大量烦人的后处理工作。

8、支持 Transformers、vLLM 和 SGLang 运行

部署支持也很扎实。你可以使用以下方式运行LocateAnything：

Transformers
vLLM
SGLang
Docker

vLLM的设置非常简单：

pip install vllm
vllm serve "nvidia/LocateAnything-3B"

之后，你可以通过兼容OpenAI的API访问它。仅此一点就让实验变得更加容易。

9、NVIDIA 正在悄然构建 AI 代理技术栈

这次发布之所以更加重要，是因为更大的图景。

LocateAnything是NVIDIA Eagle VLM家族的一部分，NVIDIA提到这项技术已经集成到Nemotron Nano Omni等生产级多模态系统中。

这意味着定位不再仅仅是研究领域的小众话题。它正在成为以下领域的基础设施：

多模态代理
机器人技术
桌面AI助手
企业自动化
物理AI系统

行业正在慢慢从"会说话的AI"转向"会行动的AI"。而像LocateAnything这样的模型正是让AI系统能够精确地与视觉世界交互的关键。

10、当前限制

不过有一个主要限制。该模型以NVIDIA的非商业研究许可发布。因此除非你是NVIDIA或其认可的关联方，否则商业使用受到限制。

这意味着初创公司和公司目前不能直接将其用于商业用途，除非处理许可约束。

尽管如此，对于正在实验定位系统的研究人员和开发者来说，这次发布非常有价值。

11、结束语

LocateAnything-3B给人的感觉像是那种最初看起来很小但后来变得非常重要的发布。AI行业在过去几年里一直在教模型如何生成文本和图像。

现在焦点正在转向空间理解和交互。AI系统需要知道：

东西在哪里
界面如何工作
该点击什么
该指向什么
如何进行视觉导航

这正是LocateAnything试图解决的层面。如果AI代理在未来几年变得主流，这样的模型可能将成为许多代理的底层基础。

原文链接: NVIDIA LocateAnything-3B : GoodBye YOLO Object Detection

汇智网翻译整理，转载请标明出处