EMBODIED AI

8个主流具身智能3D世界构建包

以前需要数周的工作现在只需几分钟。

admin

Apr 13, 2026 • 5 min read

AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

这篇文章涵盖了当今可用于为机器人训练构建3D世界和模拟就绪资产的每个工具。使用上面的对比表找到适合你设置和预算的工具，然后跳转到你感兴趣的工具部分。

1、World Labs Marble

制造者： World Labs
链接： https://marble.worldlabs.ai

Marble是一个基于Web的生成式世界模型，可以从文本、图像、360度全景或视频创建逼真的3D环境。它输出用于视觉渲染的高斯 splat 和用于物理的单独碰撞器网格。生成不需要本地GPU。

最适合： 导航测试和领域随机化。不适合操作研究，因为单个物体无法作为独立刚体交互。

注意事项：

默认导出格式是SPZ，不是PLY。3DGRUT转换只接受PLY。下载前手动切换。
在Isaac Sim中选择OpenGL作为坐标系会导致场景倒置导入。改用OpenCV。
USDZ文件是zip压缩包。在Isaac Sim中打开前先解压。

文档： https://docs.worldlabs.ai
Marble + Isaac Sim工作流（NVIDIA）： https://developer.nvidia.com/blog/simulate-robotic-environments-faster-with-nvidia-isaac-sim-and-world-labs-marble/

2、BlenderMCP

制造者： Siddharth Ahuja
链接： https://github.com/ahujasid/blender-mcp

BlenderMCP通过模型上下文协议将Claude AI连接到Blender。用 plain language 描述场景，Claude自动执行Blender Python命令。集成Poly Haven、Hyper3D Rodin、Hunyuan3D和Sketchfab。

最适合： 无需Blender专业知识的快速场景原型设计。

文档： https://github.com/ahujasid/blender-mcp

3、SceneSmith

制造者： MIT CSAIL和Toyota Research Institute
链接： https://scenesmith.github.io

SceneSmith接收文本提示，通过分层VLM智能体管道生成完全家具化、物理就绪的室内场景。每个物体获得碰撞几何、估计质量、摩擦力和关节。1,284个场景的预生成数据集在HuggingFace上免费提供，无需运行管道即可使用。

最适合： 需要密集物体布置和家具关节的操作研究。

注意事项：

运行管道最少需要32到45GB显存。消费级硬件无解。

文档： https://github.com/nepfaff/scenesmith
数据集： https://huggingface.co/datasets/nepfaff/scenesmith-example-scenes

4、Infinigen

制造者： Princeton Vision and Learning Lab
链接： https://infinigen.org

Infinigen是一个完全程序化3D生成器，使用数学Python代码和Blender。零AI。它生成户外自然场景、室内环境和模拟就绪的关节物体，自动烘焙PBR纹理和真实值标注。生成仅需CPU，渲染仅需2GB显存。

最适合： 生成大规模多样化训练数据集，自动获取深度、法线、分割和光流。

注意事项：

约束求解器在某些seed上会崩溃。尝试不同的seed，并始终添加fast_solve.gin。
整个场景的USD导出器会剥离所有关节。对于关节物体，单独使用spawn_sim_ready_asset.sh。

文档： https://github.com/princeton-vl/infinigen

5、EmbodiedGen

制造者： HorizonRobotics
链接： https://github.com/HorizonRobotics/EmbodiedGen

EmbodiedGen将单个图像或文本提示转换为物理就绪的3D物体，具有碰撞几何、质量和摩擦力，同时导出到USD、URDF、MJCF、GLB和OBJ。

最适合： 将真实物体数字化为用于操作任务的模拟就绪资产。

文档： https://github.com/HorizonRobotics/EmbodiedGen

6、fVDB Reality Capture

制造者： NVIDIA
链接： https://fvdb.ai/reality-capture

fVDB Reality Capture从照片重建真实物理环境到高斯splat和三角网格，直接USDZ导出到Isaac Sim。由NVIDIA构建，Apache 2.0开源。

最适合： 创建真实设施的数字孪生用于模拟到真实迁移。

注意事项：

16GB显存足以进行高斯splat重建，但不足以进行生产级网格提取。

文档： https://fvdb.ai/reality-capture

7、LiteReality

制造者： 剑桥大学、香港大学、慕尼黑工业大学。NeurIPS 2025
链接： https://github.com/LiteReality/LiteReality

LiteReality通过检索艺术家制作的模型并在其上绘制完整PBR材质，将LiDAR iPhone扫描转换为图形就绪的3D场景。输出是真实的可编辑几何，而非高斯splat。

最适合： 构建具有高材质保真度的结构化室内数字孪生的研究实验室。

注意事项：

最少24GB显存。RTX 5080及以下硬阻塞。
需要200GB材质数据库下载。非可选。
扫描需要带LiDAR的iPhone Pro。不支持Android和标准网络摄像头。

文档： https://github.com/LiteReality/LiteReality

8、SAGE / SAGE-10k

制造者： NVIDIA、UIUC、康奈尔大学、斯坦福大学
链接： https://nvlabs.github.io/sage
数据集： https://huggingface.co/datasets/nvidia/SAGE-10k

SAGE是一个智能体管道，使用视觉评判和物理评判（在循环中运行Isaac Sim）为Isaac Sim生成经过物理验证的家具化室内场景。SAGE-10k是随附的免费数据集，包含HuggingFace上10,000个预生成场景，可在几分钟内加载，无需运行管道。

最适合： 需要在GPU集群上大规模物理验证环境的团队。对于其他人，SAGE-10k是实际的入口点。

注意事项：

完整管道需要在8个GPU上90GB+显存。任何单GPU设置完全阻塞。

文档： https://github.com/NVlabs/sage

9、结束语

这个工具包涵盖了从快速原型到生产级模拟的完整3D世界构建流程。选择适合你的工具，开始构建具身AI的未来。

原文链接: The Complete 3D World Building Toolkit for Embodied AI (2026)

汇智网翻译整理，转载请标明出处