LocateAnything-3B:再见YOLO!
NVIDIA悄悄地在Hugging Face上发布了一个非常有趣的视觉语言模型,名为LocateAnything-3B。乍一看,它可能像"只是又一个多模态模型",但一旦你深入研究,就会发现它是为更具体的目标而构建的——教会AI系统如何精确定位图像中的物体、UI元素、文本甚至微小细节。
今天的大多数图像模型非常擅长描述图像。它们可以告诉你发生了什么。但LocateAnything专注于不同的方向:
"它到底在哪里?"
这个微小的差异改变了一切。
1、LocateAnything-3B 到底是什么?
LocateAnything-3B是由NVIDIA开发的用于视觉定位任务的视觉语言模型(VLM)。
简单来说,该模型可以理解图像,并指出自然语言提示中提到的物体或元素的精确位置。
例如:
- "定位红绿灯"
- "指向搜索按钮"
- "找到所有穿红衬衫的人"
- "检测图像中的所有文本"
- "定位发票号码"
该模型不是仅仅生成文本,而是返回结构化坐标,如边界框和点。这使它在以下场景中极其有用:
- AI代理
- 机器人技术
- GUI自动化
- OCR系统
- 自动驾驶
- 文档理解
- 智能监控
- 数据集标注流水线
有趣的是,NVIDIA将其定位为通用定位模型,而非狭义的目标检测器。
2、重大创新:并行框解码
LocateAnything背后最大的技术理念叫做并行框解码(PBD)。
通常,模型以自回归的方式逐个token生成边界框坐标。这意味着AI先预测一个坐标,然后是下一个,再下一个。
并行框解码不是顺序生成坐标,而是并行预测整个边界框。根据NVIDIA的说法,这带来了:
- 高达2.5倍的吞吐量提升
- 更快的定位速度
- 更好的几何一致性
- 改进的密集检测性能
这实际上是一件大事,因为定位模型正在成为AI代理的核心基础设施。
如果你未来的AI助手需要操作桌面UI、浏览网站、点击按钮或以视觉方式与软件交互,定位速度就非常重要。
3、基于海量多领域数据训练
训练规模确实惊人。LocateAnything在以下数据上进行了训练:
- 1200万张图像
- 1.38亿+查询
- 7.85亿个边界框
而且不仅仅是普通照片。训练数据包括:
- 自然场景
- GUI截图
- 文档
- OCR数据集
- 机器人环境
- 驾驶数据集
- 密集杂乱场景
这解释了为什么该模型能够处理如此多样化的任务。
大多数定位模型在场景变得拥挤或杂乱时会遇到困难。NVIDIA特别提到LocateAnything在密集场景和长尾目标检测方面表现出色。
4、也能定位GUI元素
这可能是此次发布最重要的部分之一。LocateAnything可以理解用户界面。这意味着像以下提示:
- "点击登录按钮"
- "定位搜索图标"
- "指向设置菜单"
可以直接在截图上工作。这正是AI计算机使用代理所需要的能力。
目前每个人都在竞相开发能够像人类一样使用计算机的自主AI代理。但为了可靠地工作,模型需要强大的GUI定位能力。
5、基于 Qwen2.5–3B + MoonViT 构建
架构组合了:
- Qwen2.5–3B-Instruct 作为语言模型
- MoonViT 作为视觉编码器
- MLP投影器用于多模态对齐
模型总大小约为3B参数,考虑到其功能,这令人惊讶地紧凑。NVIDIA还说该模型支持:
- 最高2.5K分辨率的图像
- 最长24K token的提示长度
- 多种推理模式
最后一部分非常有趣。
6、三种不同的推理模式
LocateAnything支持:
快速模式
使用纯并行解码。
- 最快速度
- 鲁棒性较低
- 适合简单场景
慢速模式
传统自回归解码。
- 最慢
- 最准确
- 适合复杂场景
混合模式
默认模式。
它结合了两种方法,仅在出现不确定性时回退到自回归解码。这实际上是一个聪明的设计选择,因为定位质量可能在解码变得不稳定时崩溃。
7、Worker API 出乎意料地简洁
这次发布中让我喜欢的一点是worker实现看起来非常实用。
NVIDIA提供了即用型函数,如:
worker.detect(img, ["person", "car"])
worker.ground_multi(img, "people wearing red shirts")
worker.detect_text(img)
worker.point(img, "traffic light")
这使得模型更容易集成到:
- FastAPI后端
- 机器人技术栈
- 浏览器代理
- OCR工作流
- AI桌面助手
你还获得了将归一化坐标转换为实际像素位置的解析工具。这听起来可能是小事,但它为开发者节省了大量烦人的后处理工作。
8、支持 Transformers、vLLM 和 SGLang 运行
部署支持也很扎实。你可以使用以下方式运行LocateAnything:
- Transformers
- vLLM
- SGLang
- Docker
vLLM的设置非常简单:
pip install vllm
vllm serve "nvidia/LocateAnything-3B"
之后,你可以通过兼容OpenAI的API访问它。仅此一点就让实验变得更加容易。
9、NVIDIA 正在悄然构建 AI 代理技术栈
这次发布之所以更加重要,是因为更大的图景。
LocateAnything是NVIDIA Eagle VLM家族的一部分,NVIDIA提到这项技术已经集成到Nemotron Nano Omni等生产级多模态系统中。
这意味着定位不再仅仅是研究领域的小众话题。它正在成为以下领域的基础设施:
- 多模态代理
- 机器人技术
- 桌面AI助手
- 企业自动化
- 物理AI系统
行业正在慢慢从"会说话的AI"转向"会行动的AI"。而像LocateAnything这样的模型正是让AI系统能够精确地与视觉世界交互的关键。
10、当前限制
不过有一个主要限制。该模型以NVIDIA的非商业研究许可发布。因此除非你是NVIDIA或其认可的关联方,否则商业使用受到限制。
这意味着初创公司和公司目前不能直接将其用于商业用途,除非处理许可约束。
尽管如此,对于正在实验定位系统的研究人员和开发者来说,这次发布非常有价值。
11、结束语
LocateAnything-3B给人的感觉像是那种最初看起来很小但后来变得非常重要的发布。AI行业在过去几年里一直在教模型如何生成文本和图像。
现在焦点正在转向空间理解和交互。AI系统需要知道:
- 东西在哪里
- 界面如何工作
- 该点击什么
- 该指向什么
- 如何进行视觉导航
这正是LocateAnything试图解决的层面。如果AI代理在未来几年变得主流,这样的模型可能将成为许多代理的底层基础。
原文链接: NVIDIA LocateAnything-3B : GoodBye YOLO Object Detection
汇智网翻译整理,转载请标明出处