SAM 3D:从单张图像抽取3D模型

我还记得我第一次在哥本哈根大学的研究实验室使用 Meta 最初的 Segment Anything Model 的情景。那是 2023 年,我淹没在需要标注的医学成像数据中。我的博士同事也是一位非常好的朋友走过我的办公桌,看到我以闪电般的速度点击图像,并问我是否已经自动化了该过程。 “有点像,”我告诉他。 “人工智能正在做最困难的部分。我只是……指点。”

就在那时我知道计算机视觉领域发生了一些根本性的变化。我们跨越了一些无形的门槛,图像理解中乏味的部分变得几乎变得非常简单。

今天,Meta 再次迈出了这个门槛,更进一步。

1、Z轴终于到来

Meta 的新 SAM 3D 不再仅仅了解照片中的内容。它了解事物在 3D 空间中的位置。单击照片中的咖啡杯,它会返回完整的 3D 网格。指向一个人,你就可以得到他们完整的身体姿势和形状。

来自单个 2D 图像。

让我们暂时理解这一点。

SAM 3D Objects的架构

这不是一些精心布置的摄影棚镜头。这是你凌乱的客厅。你尴尬的家庭照片。你在音乐会上拍的那张模糊的照片。该技术适用于我们实际拥有的混乱、不完美的图像,而不是我们希望拥有的原始数据集。

2、两个模型,无限可能

SAM 3D 实际上有两种风格,每种风格都解决“将 2D 变成 3D”问题的不同风格:

  • SAM 3D Objects 可以拍摄任何场景并重建其中的对象。角落里的那盏灯?现在它是一个 3D 资源,您可以移动、旋转和重新点亮。家具、杂物、阿姨给你的奇怪雕塑,所有这些都变成了可操纵的 3D 几何图形。
  • SAM 3D Body 专注于人类。向它展示一张某人半藏在家具后面、穿着宽松衣服做瑜伽的照片,它仍然会重建他们的完整 3D 姿势和身体形状。这就像为模型提供 X 射线视觉,但纯粹基于对人类如何塑造的背景和常识的理解。

作为一个花了多年时间从事医学成像和人体姿势估计工作的人,我可以告诉你:这很难。事实上,它适用于日常照片,这一点确实令人惊叹。

3、秘密武器:数据引擎,而不仅仅是数据集

从研究的角度来看,这就是它变得有趣的地方。

大多数 3D 重建模型都面临着残酷的先有鸡还是先有蛋的问题:您需要大量的 3D 地面实况数据来训练它们,但创建 3D 基准数据的成本昂贵、速度缓慢,并且需要专门的专业知识。因此,模型最终会在合成数据或精心策划的工作室捕获上进行训练,然后在现实世界的图像上表现得非常糟糕。

Meta 的解决方案很优雅:他们构建了一个数据引擎,而不是要求 3D 艺术家从头开始创建每个训练样本。

管道的工作原理如下:

  • 模型为每个图像生成多个候选 3D 重建
  • 人类标注者对看起来更好的进行排名(比从头开始创建容易得多)
  • 最困难的案例将交给 3D 专家进行改进
  • 这些改进反馈到训练更好的模型
  • 更好的模型产生更好的候选人
  • 循环继续

它本质上应用了使 ChatGPT 如此出色的相同人类反馈循环,但用于 3D 重建。而且它正在发挥作用——他们使用这种方法标注了近 100 万张真实世界图像以及超过 300 万个网格。

4、真正引起我注意的是什么

SAM 3D 的三件事让我特别兴奋:

  • 已经投入生产

这不是PPT软件,也不是永远不会发布的炫酷演示。 Meta 已经使用它来支持 Facebook Marketplace 上的“View in Room”功能。您可以在购买之前查看家具在您的空间中的实际外观。从研究到产品的时间线基本上崩溃了。

作为目前在学术界和工业界之间游走的人,我发现这种步伐既令人兴奋又有点令人恐惧。

  • 基准是真实的

他们创建了一个名为 SA-3DAO 的新评估数据集,其中包含来自现实世界的实际具有挑战性的图像,而不仅仅是原始的合成渲染。最后,衡量我们真正关心的内容的基准:您的模型是否可以处理我相机胶卷中的杂乱照片?

在我的医学人工智能博士研究中,我不断地与干净的基准性能和真实临床数据之间的差距作斗争。看到 Meta 从第一天起就优先考虑现实世界的评估,这令人耳目一新。

  • 实时3D 人体

SAM 3D Body 不仅仅是一个吐出 3D 身体的黑匣子。您可以使用分割蒙版、2D 关键点或其他提示来引导它。它是协作的——你给出提示,它完善重建。

这种交互式方法反映了我对人工智能工具的看法:不是作为人类专业知识的替代品,而是作为与我们合作的放大器。


5、局限性(因为没有什么是完美的)

Meta 对于目前还不起作用的内容坦诚得令人耳目一新:

  • 分辨率仍然有限。复杂的细节可能看起来很模糊或扭曲。
  • 对象是独立重建的——无法理解它们如何物理交互(就像放在桌子上的一本书)。
    多人交互没有很好地建模。
  • 手部姿势虽然有所改进,但不如专门的纯手部模型。

但事情是这样的:了解局限性几乎与了解功能一样有价值。它准确地告诉您人类专业知识在哪些方面仍然至关重要,以及下一个研究挑战在哪里。

6、为什么感觉不同

我看过很多令人印象深刻的计算机视觉演示。大多数在最初的炒作周期之后就消失了。

SAM 3D 感觉不同有以下几个原因:

  • 基础设施建设是明智的。通过发布模型、检查点、推理代码,甚至无代码游乐场,Meta 正在使其变得足够易于访问,以便人们能够真正在其上进行构建。开放的研究也是有用的研究往往具有持久力。
  • 用例是直接且实用的。我可以从自己的工作中想到十几个应用程序:从用于患者教育的快速医疗化身创建,到训练机器人系统以更好地理解 3D 场景,再到从运动镜头中分析生物力学。
  • 时机是对的。我们正处于 AR/VR 正在从“炫酷技术演示”过渡到“人们使用的实际产品”的时刻。从普通照片进行可靠的 3D 重建消除了这些空间中内容创建的巨大瓶颈。

7、更大的图景

真正令我感动的是:我们正在见证 3D 理解实时民主化。

  1. 五年前,从单个图像重建 3D 是专业研究人员使用昂贵设备和定制算法的领域。现在,它变得就像单击网络界面中的按钮一样简单。
  2. 这遵循了我在攻读博士学位期间看到的一个模式:曾经需要深厚专业知识的人工智能功能正在成为可用的工具。文本生成、图像创建、分割以及现在的 3D 重建。
  3. 但是——这一点很重要——专业知识不会过时。它只是改变了。我们不必把时间花在重建机制上,而是可以专注于更困难的问题:我们应该构建什么?我们如何负责任地使用这些能力?现在我们可以解决哪些新问题?

8、自己尝试一下

如果你好奇,可以轻松进行实验:

  • 访问 Segment Anything Playground
  • 上传一些您自己的照片:越乱越好
  • 单击物体和人物即可查看 3D 重建
  • 注意它在哪里成功以及在哪里挣扎

从手机上传一张随机照片并观看它转变成交互式 3D 场景,这是一件意义深远的事情。这种体验会重新调整你对可能性的直觉。

我自己的手表示例,尝试使用 Meta 的 SAM 3D

上面是我尝试使用手表照片的一个示例。乍一看,生成的 3D 手表看起来不错,但它有三个表冠而不是一个,缺少许多细节,Meta 在博客中实际上承认了这一点。

9、最后的想法

我是在哥本哈根写这篇文章的,那里的冬天意味着白天短、夜晚长。最近我一直在思考我们如何捕捉和记住瞬间。照片一直是我们冻结时间、保留经历、地点和人物的尝试。

但照片很平淡。它们是现实的影子,缺失了整个维度。

Meta 使用 SAM 3D 所做的不仅仅是一项技术成就,它正在改变我们与视觉记忆的关系。这些平面照片可能很快就会成为回到某个时刻的完整几何结构的门户。您不仅会看到自己在哪里;还会看到自己在哪里。您将能够再次浏览它。

也许,只是也许,这会改变我们对保存、记忆以及我们用图像讲述的故事的看法。

这项技术并不完美。这些限制是真实存在的。但方向很明确:我们正在教我们的照片呼吸,有深度,不仅要记住我们所看到的内容,还要记住我们看到它时所处的位置。

这感觉像是值得关注的事情的开始。


原文链接:Meta's SAM 3D Just Broke Reality: Your Old Photos Can Now Be Walked Inside

汇智网翻译整理,转载请标明chc