TRELLIS.2:照片转3D模型

说实话,当我第一次看到 Julien Chaumond 在 LinkedIn 上发布的帖子,展示那个蓝银色的机器人如何从平面图像变成完全可旋转的 3D 模型时,我以为这又是那种好得令人难以置信的 AI 演示。你知道那种:在受控环境下令人印象深刻,但在现实生活中毫无用处。

然后我真的试了一下。

三秒钟。微软的 TRELLIS.2 仅用了三秒钟就从一张照片中生成了一个带有完整纹理的、可用于生产的 3D 网格模型。不是线框占位符,也不是基本的形状近似。而是一个完整的、专业纹理的 3D 模型,如果用 Blender 的话,我需要花上好几天才能完成(前提是我会用 Blender,但说实话,我们大多数人都不会)。

TRELLIS.2 于 2025 年 12 月 16 日发布,采用 MIT 许可证,并提供完整的开放权重。它不仅仅是又一次渐进式的改进,它标志着专业 3D 内容创作不再是那些经过多年 Maya 或 Cinema 4D 练习才掌握这些软件的专家的专属领域。这才是真正的民主化。

1、改变我视角的那杯咖啡

让我来给你描述一下。上周,我帮一位朋友做家具网店。她想在网站上添加3D产品视图,就是那种高端电商网站上常见的“360度旋转”互动功能。她从几家3D建模工作室得到的报价是:每件商品200到500美元。对于她这种中档家具卖家来说,这价格太贵了。

我们把她的一张咖啡桌照片上传到了Hugging Face上的TRELLIS.2演示版。17秒后(我们用的是102⁴³的高分辨率),一个完整的3D模型就出来了,纹理也一应俱全。她可以随意拖动模型,放大查看木纹细节,甚至可以翻转过来仔细观察桌腿。

完美吗?当然不。底部(原图中看不到的部分)的纹理有些奇怪。但对于顾客想要查看整体设计的产品页面来说,这已经足够好了。更令人震惊的是:我们只用了一个下午就为她的整个产品目录生成了模型。原本需要花费数千美元的工作,我们免费完成了,时间只相当于一口气看完几集你最喜欢的剧集。

那一刻我恍然大悟。这并非要取代 3D 艺术家,而是要让那些以前从未接触过 3D 技术的人也能轻松上手。

2、幕后究竟发生了什么?

我知道你在想什么。“演示很酷,但它究竟是如何运作的?” 即使你不是机器学习研究人员,这部分内容也同样引人入胜。

TRELLIS.2 包含了 40 亿个参数(你可以把它们想象成人工智能用来理解和生成 3D 形状的微小旋钮)。即使以今天的标准来看,这都是一个庞大的数字。但真正的突破并不在于规模;它叫做 O-Voxel,听起来像是超级反派的巢穴,但实际上是微软针对困扰 3D 生成多年的难题提出的解决方案。

O-Voxel 可以生成高质量的 3D 资产,包含精细的几何细节和物理上精确的材质,并具有极高的视觉保真度,包括纤薄的结构、开放的表面和半透明区域,充分展现了模型的表现力。

问题在于:之前的 AI 模型使用称为符号距离场 (SDF) 的数学结构来表示 3D 物体。对于实体物体,例如咖​​啡杯或篮球,这种方法效果很好。但是,如果尝试生成飘逸的连衣裙、铁丝网或带孔的叶子,旧系统就会产生奇怪的瑕疵。网格会堵塞本应存在的孔洞,或者生成无法渲染的几何形状。

O-Voxel 则彻底解决了这些问题。它是一种稀疏体素结构(可以想象成 3D 像素,但只存储实际需要的像素),能够原生处理各种特殊情况:开放曲面、重叠几何体、带有内部空腔的物体。微软团队从根本上重新定义了 AI 处理 3D 空间的方式。

实际应用效果如何?TRELLIS.2 可以生成飘逸的连衣裙、铁丝网围栏、穿孔叶片。以前模型无法处理的情况,现在都能轻松应对。

3、真正重要的速度提升

现在来说说三秒的说法,因为我一开始也持怀疑态度。

你可能用过的大多数 AI 图像生成器(例如 Midjourney、DALL-E、Stable Diffusion)都使用一种叫做扩散模型的技术。你可以这样理解:它们从完全噪声开始,然后逐渐去除噪声。

经过无数次迭代,最终才能生成图像。这种方法虽然精妙,但速度较慢,通常需要数百次迭代。

左图:使用 TRELLIS.2 重建 153⁶³ 个资源。尽管潜在表示非常紧凑(见下方的标记计数),它仍然能够忠实地恢复极其精细的几何和材质细节,支持任意拓扑结构,并保留封闭结构(见第二行)。

中图:生成 153⁶³ 个 3D 资源耗时约一分钟(形状约 35 秒,纹理约 25 秒;更多运行时间信息请参见底行)。基于我们提出的潜在表示,该生成器能够高效地生成高质量的 PBR 纹理资源,在开放域输入上呈现复杂的几何细节和逼真的材质。

右图:形状重建的潜在表示比较。我们的方法以适中的标记数量实现了更高的保真度,在质量和紧凑性方面都取得了突破性进展。 TRELLIS.2 使用流匹配技术。你可以把它想象成在迷宫中漫步和沿着笔直的高速公路行驶之间的区别。流匹配技术利用一种叫做最优传输理论(不必担心数学原理)的方法,学习从噪声到最终输出的直接路径。结果是确定性的(相同的输入,相同的输出),而且速度显著提升。

在 NVIDIA H100 GPU 上(没错,就是价格昂贵的 GPU,但别担心,我们稍后会讨论它的可及性),TRELLIS.2 可以生成:

  • 51²³ 分辨率的模型,耗时 3 秒
  • 102⁴³ 分辨率的模型,耗时 17 秒
  • 最高 153⁶³ 分辨率的模型,耗时 60 秒

153⁶³ 分辨率代表 36 亿体素。简单来说,这个分​​辨率足以满足电影制作的需求。我们说的是,这种质量水平足以让你在皮克斯电影中使用(当然,需要经过一些艺术加工)。

4、和其他产品的比较

我花了一个周末测试了所有能找到的图像转3D工具。以下是我的心得。

OpenAI 的 Point-E 和 Shap-E 速度极快,但(OpenAI 自己也承认这一点)它们的生成质量“低于目前最先进的水平”。如果你只需要一个大致的形状,它们非常适合快速原型制作,但结果看起来……嗯,粗糙。

TripoSR 可以在不到半秒的时间内生成模型,这听起来很惊人,但当你意识到它只处理大约 5 亿个参数时,就会觉得有点不可思议。它创建的拓扑结构很简单,复杂的物体看起来更像是近似值,而不是忠实的还原。

InstantMesh 可以生成真正高质量的模型,但需要额外的步骤:它首先生成物体的多个视图,然后将它们合成为 3D 模型。步骤越多,出错的可能性就越大,等待的时间也就越长。

TRELLIS.2 则恰到好处:速度足够快,实用性强(17 秒不算短,但也不至于“渲染的时候你可以去泡杯咖啡”)。 (或者说,足够高质量,可以实际使用),而且(这一点至关重要)完全开源,提供完整的训练代码,甚至包括公开的 50 万个对象的训练数据集。

相比之下,腾讯的混元 3D 2.5 质量与之相当,但权重是专有的;而像 Rodin Gen-2 这样的商业解决方案可能更完善,但需要付费,而且不允许用户查看底层代码。

5、真正实用的地方(除了炫酷的演示之外)

还记得我那位开家具店的朋友吗?那只是冰山一角。

我上周和一位游戏开发者聊过,他告诉我,他们的工作室大约 40% 的时间都花在创建环境素材上:岩石、植物、碎片、背景物体,这些玩家几乎注意不到,但对于营造游戏世界的生机至关重要。TRELLIS.2 将他们的原型制作时间缩短了 75%。现在,他们可以生成几十个变体,从中挑选最佳版本,然后让美术人员进行精细化处理,而不是从零开始建模。

电子商务应用方面更是如此。立竿见影。确凿的数据显示,带有 3D/AR 模型的产品页面转化率提升高达 40%,退货率降低 30%。想想看:当你可以旋转产品、放大查看细节、从各个角度观察时,你就能清楚地知道自己买的是什么。再也不会有“照片比实物大”的失望了。

还有一个惊人的数字:预计到 2027 年,AR 购物将创造 900 亿美元的零售额。每个能够将产品照片转化为 3D 模型的小企业主都拥有了进入这个市场的通行证。

在医疗保健领域(这正是我感兴趣的领域),微软在 HoloLens 2 上更广泛的空间计算工作已经取得了令人瞩目的成果。Medivis 已经使用 HoloLens 3D 可视化技术完成了 200 多例手术。凯斯西储大学的研究发现,与传统学习方法相比,使用 3D 解剖模型的学生在 12 个月内知识保留率提高了 120%。想象一下,只需几秒钟就能根据医学影像生成患者专属的 3D 模型,而不需要几个小时。

6、微软的真正目标

我发现最吸引人的是:TRELLIS.2 并非一个独立项目,而是微软宏大愿景的一部分。

微软位于苏黎世的空间人工智能研究院(由苏黎世联邦理工学院教授马克·波勒菲斯领导,他撰写了多视图几何学的权威著作)致力于将空间智能集成到微软的所有产品中。他们正在开发 RenderFormer(已在 SIGGRAPH 2025 上发布),该技术利用神经网络取代传统的 3D 渲染流程。他们还在构建 Magma,这是一个用于人工智能代理的基础模型,该代理能够理解并在 3D 空间中运行。

微软已与 AMD、英特尔、英伟达和高通合作,将神经渲染直接集成到 DirectX API 中。英伟达的 RTX 50 系列 GPU 通过其 Tensor Core 支持神经着色。这不仅仅是一篇研究论文,而是 3D 图形在硬件和软件层面的根本性变革。

Azure 的空间计算服务已经提供了所需的基础设施:空间锚点用于在全球范围内映射和共享 3D 内容,对象锚点用于将数字内容与物理对象对齐。 NVIDIA 已将 TRELLIS 集成到 NIM 微服务中,而 PiAPI 和 fal.ai 等公司提供的商业 API 服务也让开发者能够轻松使用它,而无需自行运行基础设施。

这是人工智能、3D 图形和空间计算实时融合的体现。

7、我们来谈谈它的不足之处

如果我把它描述得完美无缺,那就太不公平了,因为它并非如此。

首先是硬件要求。你需要至少 24GB 的显存,这意味着你需要 A100 或 H100 GPU,这并非普通的消费级硬件。官方支持的平台是 Linux。如果你使用的是 Windows 或 Mac,则不在支持范围内(尽管有人已经成功运行;欢迎来到开源世界)。

生成的网格有时会有一些小孔,需要进行后期处理,尤其是在需要用于 3D 打印的密封几何体时。还记得我说过我朋友的咖啡桌底部看起来很奇怪吗?这是单张图像三维重建的一个根本局限性。模型实际上无法看到物体背面的情况,因此只能进行“想象”,根据从训练数据中学习到的信息做出合理的猜测。

对于被遮挡(隐藏)的物体部分,TRELLIS.2 能够产生合理的结果,但不一定精确。如果您需要高精度(例如用于制造业、动画绑定,或任何“差不多就行”不够的应用),您仍然需要人工处理。

而且,它是一个没有 RLHF 对齐的基础模型(RLHF 对齐是 ChatGPT 能够友好且乐于助人的关键微调过程)。这意味着它反映的是训练数据的分布情况,而不是特定的艺术偏好。结果就是这样,没有结果。

8、创意行业并没有消亡,而是在发展演变

以下是我和一些担心人工智能会抢走他们工作的艺术家朋友们一直在讨论的话题。我理解他们的担忧,真的。当你花费数年时间精通 Blender 或 Maya 后,看到 AI 几秒钟就能生成你耗费数天才能完成的作品,难免会感到威胁。

但我观察到的实际情况是:AI 的角色正在演变,而非消失。

我认识的一位 3D 艺术家对此做了精辟的概括:“我的价值已经从执行转向了策展。AI 在我制作一个模型的时间里就能生成十个不同的版本。我的工作是知道哪个版本是正确的,为什么它是正确的,以及如何精益求精,使其臻于完美。”

新兴的工作流程如下:AI 生成基础网格和原型,艺术家根据需要进行细化和重新拓扑,AI 辅助纹理贴图,艺术家则提供最终的创意指导和质量控制。这是一个协作的过程,而非竞争。

对于独立创作者、小型工作室、产品设计师、教育工作者、业余爱好者,以及任何拥有创意但缺乏技术技能或时间来实现它的人来说,这都具有变革性的意义。曾经将 3D 内容创作限制在拥有昂贵软件和多年培训的专业人士手中的壁垒正在瓦解。

微软决定以 MIT 许可证发布 TRELLIS.2,并完全开放权重?这极大地加速了整个进程。无需支付 API 费用,无需担心预算超支。没有限制商业用途的服务条款。没有无法审查的黑匣子。任何人都能获得几个月前只有资金雄厚的研究实验室才能实现的功能。

9、接下来的发展方向(以及我为何如此兴奋)

TRELLIS.2 解决了之前被认为是根本性障碍的问题。以往方法的局限性(例如无法处理开放曲面、速度与质量之间的权衡)现在都得到了解决或显著改进。

但我们仍处于故事的早期阶段。剩余的前沿领域包括:人类偏好对齐(教会 AI 理解审美选择,而不仅仅是几何精度)、用于生成视频或协调视图的多视图一致性、对结构是否能够实际支撑的物理推理、无需重新生成整个结构即可进行局部编辑,以及自动生成可用于动画的拓扑结构和绑定。

行业预测表明,80%的游戏工作室将使用人工智能驱动的3D工具。到 2025 年,生成式 AI 3D 资产市场规模预计将达到 92.4 亿美元。2024 年,该市场价值 16.3 亿美元。这些不仅仅是数字,它们代表着数字内容制作方式的真正变革。

9、亲自体验一下(真的,现在就试试!)

Hugging Face 演示程序已上线,完全免费。上传一张照片,稍等片刻,见证奇迹的发生。

如果您想深入了解,完整的代码库在这里,训练代码、数据集规范和架构细节都已公开。

无论你是在制作游戏原型、为你的网店设计产品可视化、尝试数字艺术,还是仅仅好奇人工智能和 3D 图形技术的融合方向,我们都诚挚邀请你来体验这项正在真正重塑我们创建和互动三维内容方式的技术。

我整个周末都在为公寓里的所有东西创建 3D 模型。我的咖啡杯、我的台灯,还有我的猫(它不太配合,导致了一些滑稽的几何错误)。每一次,我都感受到那份同样的惊奇:这本不应该成为现实,但它真的实现了。

这就是我们所处的时代。一年前还像是科幻小说里的工具,如今已经成为开源软件,你今天下午就可以运行。

你会用它创造出什么呢?


原文链接:Microsoft TRELLIS.2: Turning Photos Into 3D Models in 3 Seconds

汇智网翻译整理,转载请标明出处