混元世界1:3D世界生成式AI
混元世界1.0 是腾讯混元用于从文本描述或单张图像生成沉浸式、交互式3D世界的框架。你提供一句句子或一张照片,系统就会生成一个分层的、可探索的3D环境,具有真实的几何结构和物体分离。

就在刚才,腾讯发布了一个独一无二的世界生成模型,即混元世界1,它可以仅凭一个提示和一张图片就为电影或视频游戏生成3D交互世界。
混元世界1.0 是腾讯混元用于从文本描述或单张图像生成沉浸式、交互式3D世界的框架。你提供一句句子或一张照片,系统就会生成一个分层的、可探索的3D环境,具有真实的几何结构和物体分离。它旨在支持VR、模拟和游戏设计等应用。
1、它试图解决的问题


3D世界生成主要采用了两种方法:
- 基于视频的方法 使用视频扩散来生成逼真的序列,但缺乏真正的3D结构。它们无法处理超出狭窄范围的相机移动,并且渲染成本高昂。
- 基于3D的方法 在几何上是一致的,并且更容易插入图形流水线。但是它们在内存使用方面存在问题,缺乏足够的3D数据,并且经常将所有内容融合成一个网格,没有物体分离。
混元世界1.0结合了两者的优点,使用全景图像作为代理,以连接2D生成模型与3D重建。
2、核心组件

2.1 全景图作为场景代理
全景图用作场景的360°表示。这些是后续深度估计和3D重建的基础。
2.2 全景图-DiT(扩散变压器)
一种训练用于生成等距全景图的扩散模型,使用圆形填充和高度感知增强等改进,以最小化接缝和极点处的伪影。
2.3 语义分层(智能世界分解)
全景图被分割成离散的层次:
- 前景物体(建筑物、车辆、角色)
- 背景(地形、建筑)
- 天空(转换为HDRI以用于照明)
每个层次分别重建,以便更好地控制和交互。
2.4 分层深度估计
使用MOGE或UniK3D等模型为每个层次预测深度图。各层次的深度值对齐,以在重建过程中保持几何结构和视差。
2.5 3D物体重建
前景物体可以直接从图像中变形,或者使用混元3D的图像到3D模型重新生成。物体保持分离,允许在生成后进行移动和操作。
2.6 世界扩展
Voyager是一个视频扩散模型,用于将场景扩展到原始视野之外。它从可见几何体构建缓存点云,然后使用此缓存作为参考生成一致的新视角。
3、它是如何工作的?

混元世界将文本提示或照片转化为可以探索的3D世界。但它并不是一次完成的。它逐步工作,就像从蓝图建造房屋,然后装饰它,再逐室扩展。
以下是简单的说明:
- 制作全景图(Panorama-DiT): 它首先将您的输入文本或单张照片转换为完整的360°图像。这就像生成一个展示周围一切的球形场景。
- 将场景分成层次(语义分解): 那个全景图被分成部分:天空、背景(如地形或建筑)以及前景中的物体(如汽车或人物)。每部分单独处理,以便以后可以移动它们。
- 确定深度(分层深度估计): 对于每个层次,它猜测事物的距离。因此,它知道什么近,什么远,并可以构建真实的3D形状而不是只是平面图像。
- 构建3D网格(3D重建): 使用图像和深度信息,它构建实际的3D世界,像一个由表面和物体组成的视频游戏地图。一切都分开:树木、建筑物、天空,您可以与它们互动。
- 扩展世界(Voyager): 如果您想探索原始场景之外的内容,一个特殊的视频模型会随着您移动不断生成更多视角。它记住它已经创建的内容,并在您继续时添加一致的新细节。
- 使其高效(系统优化): 最后,它压缩3D数据,使其加载更快,运行更流畅,并在不同硬件(甚至在网页浏览器中)上运行得更好。它还将任务分布在多个GPU上以加快速度。
4、混元世界1.0的基准测试

混元世界1.0已在图像到世界和文本到世界生成任务中进行了基准测试,显示出相对于竞争模型的一致优势。对于图像到世界生成,它使用了World Labs和Tanks and Temples等真实世界数据集进行评估,并与WonderJourney和DimensionX等模型进行了比较。
- 使用BRISQUE、NIQE、Q-Align和CLIP-I等指标来衡量视觉质量、几何对齐和语义一致性。混元世界在所有这些指标上都取得了最佳成绩, 表明失真较低、深度一致性较好,并且与原始输入图像有更强的对齐。
- 在文本到世界基准测试中,它在精心挑选的提示集上与Director3D和LayerPano3D进行了比较,涵盖了不同的风格、长度和场景类型。它再次在所有测量领域超越了这两个基线,包括CLIP-T用于语义保真度、Q-Align用于深度一致性,以及BRISQUE和NIQE等图像质量指标。
- 除了3D重建之外,混元世界还在从文本和图像生成全景图方面进行了评估。其全景图-DiT模块优于专门的全景图生成模型如Diffusion360、MVDiffusion和PanFusion。
5、应用案例
该模型可用于多种用途
- 虚拟现实: 完全的360°环境,适用于Apple Vision Pro或Meta Quest等设备
- 模拟: 网格导出支持基于物理的系统
- 游戏开发: 输出与Unity和Unreal Engine兼容
- 交互式应用: 物体在3D空间中是分离和可操作的
6、结束语
该模型是开源的,权重可以从这里访问。
混元世界1.0代表了将2D生成模型与交互式3D环境相结合的一个实用步骤。通过结合全景扩散、语义分解、分层深度对齐和基于网格的重建,它构建的世界不仅在视觉上连贯,而且在结构上可用。
与早期系统不同,这些系统要么缺乏几何结构,要么将所有内容融合成一个静态网格,混元世界分离了物体,支持操作,并可在大型可导航场景中扩展。其基准测试结果也证明了这一点,在视觉质量、语义对齐和深度一致性方面均优于现有模型。
虽然它不是完全实时的,仍然依赖于定制的数据,但目前它是将文本或图像转换为可探索的3D空间最完整和可扩展的流程之一。
原文链接:Hunyuan World 1 : 1st open-sourced Interactive 3D World Generation AI model
汇智网翻译整理,转载请标明出处
