EMBODIED AI

反思：从LeRobot到具身AI基建

本文是我这几个月思考的记录。从LeRobot给我的启发到项目中的实践和挫折，我想分享我的观点：具身智能目前的瓶颈不是算法，而是硬件碎片化和"物理诅咒"下的标准化缺失。

admin

Apr 12, 2026 • 7 min read

微信 ezpoda免费咨询：AI编程 | AI模型微调| AI私有化部署
AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

2026年初，我坐在达文波特的工作室里，盯着满是Docker容器和ROS2节点的屏幕，调试我的人形机器人基础设施平台。今年，Hugging Face的LeRobot框架彻底改变了机器人学习的游戏规则。早在去年年初，它就让我这样一个从未接触过具身智能的开发者，能够像训练LLM一样轻松地收集数据、微调VLA模型和运行RL微调。而在下半年，大约10月份，我的小型团队（只有三到五个人）开始建造一个全尺寸的人形机器人。但我们越是深入，就越意识到：虽然LeRobot很强大，但它也暴露了具身AI领域的一个更深层的痛点——真正工业级的基础设施（Infra）还远未成熟。

本文是我这几个月思考的记录。从LeRobot给我的启发到项目中的实践和挫折，我想分享我的观点：具身智能目前的瓶颈不是算法，而是硬件碎片化和"物理诅咒"下的标准化缺失。这篇文章既是个人记录，也是邀请更广泛的讨论。

1、LeRobot的辉煌：降低门槛的革命

让我们从成就说起。LeRobot一直是2024年至2026年开源机器人生态系统最大的亮点：

端到端管道集成：从lerobot record进行远程操作数据收集，到HF Hub上的标准化数据集，再到支持模仿学习、Diffusion Policy和VLA模型（如OpenVLA-7B和GR00T N系列）的lerobot train——这真是一键式操作。社区拥有超过20,000个星标、167+个数据集、深度NVIDIA集成，即使是低成本硬件（如约300美元的LeKiwi机械臂）也能运行最先进的模型。
加速模拟到现实：内置MuJoCo/Isaac Sim支持，开箱即用的域随机化。在黑客马拉松上，无数项目从"零"到"运行"只需几天。
协作精神：无缝的HF生态系统集成——直接使用repo_id加载模型，就像使用Transformers一样自然。

对我来说，LeRobot是起点。它让我从"与硬件驱动程序搏斗"中解脱出来，让我专注于跨不同具身智能形式的多模态交互和执行LeRobot策略。但随着我使用得越来越多，问题开始浮现。

2、痛点浮现：从实验室到生产的"物理诅咒"

LeRobot非常适合研究和可访问性，但从工业级角度来看，它的局限性变得清晰。我的人形项目（一个基于自定义关节+Realsense+IMU构建的平台）让我深切感受到了这些问题：

硬件适配地狱

多模态硬件（视觉：多相机同步/校准；本体感知：关节编码器/IMU/扭矩；驱动：电机模式/通信）变化巨大。从工业级EtherCAT到Raspberry Pi GPIO自定义PWM，一个新设备通常需要完全重写适配器。LeRobot的Robot类很灵活，但没有统一的硬件抽象层（HAL）。实时关节PD控制和边缘ARM优化（如Jetson）完全依赖用户SDK桥接。

我的看法：这不是LeRobot的错——这是整个行业的问题。"物理诅咒"——机器人没有像PC那样的标准化接口如USB/PCIe。即使没有灵巧的手，整机的变量也会爆炸（关节限制、零位姿态、传动、传感器组合）。即使在人形机器人之间（Unitree vs. Figure vs. 我的自定义构建），排列组合也是惊人的。短期内，没有通用适配器；长期来看，我们需要大玩家推动"机器人Android"式的标准（但这又有可能成为烧钱游戏）。

模拟到现实仍然痛苦

模拟看起来很完美，但现实世界的部署经常遭受抖动或失败。域随机化有很大帮助，但回程间隙、摩擦噪声和光照变化没有被准确建模。标准化的校准工具缺失，让我们只能手动调整。

我的想法：抖动的根源不仅仅是延迟——而是物理/观察差距。我们需要更多的现实世界微调和自动适应。

生产部署不足

大多是异步推理脚本，缺乏内置的安全堆栈（急停、碰撞检测）、车队管理或热更新。边缘优化薄弱，多模型并行（上半身/下半身）需要用户设置。

配置和维护噩梦

数百个YAML文件提供了灵活性，但面对整机变化，它们很容易变成一团糟。类+配置方法的维护成本很高，使得工业管道难以标准化。实验可重复性（种子/版本固定）也很弱。

这些痛点让我意识到：算法管道是连通的，但Infra的"最后一公里"——从硬件到生产桥梁——仍然很远。

3、我的实践：探索混合架构

在项目中，我尝试填补其中一些空白：

混合模式：数据收集/远程操作/RL运动控制在主机模式下运行（零开销、低延迟、直接访问相机/GPU/关节）。训练/评估在主机上高效运行，而推理使用Docker微服务（多模型隔离、一键迁移）。
运动控制SDK：自定义桥接层，封装关节PD、IMU融合和模拟到现实校准。
Web UI：在Docker内部运行，用于统一管理（容器监控、终端、构建），但通过轻量级主机代理桥接主机任务（一键启动远程操作/训练）。
LeRobot集成：执行器直接导入官方策略加载器，兼容完整的HF模型库（进行中）。

我的核心观点：纯Docker或纯主机都不行——混合目前是最好的。主机处理实时/硬件敏感任务，Docker处理生产隔离。配置爆炸？使用UI包装器动态生成它们，并使用模板库覆盖常见的人形套件。

但硬件碎片化仍然是最大的瓶颈。我做了无数次适配（从Dynamixel到Raspberry Pi衍生产品），每个新设备仍然需要重写。暂时无法解决——社区模板+分层（底层供应商SDK→中间ROS/URDF→顶层LeRobot）是唯一的缓解路径。

4、展望：具身AI基础设施的未来

LeRobot的方向是正确的（由社区和NVIDIA驱动），像UMA Robots（前核心团队）这样的分支正在填补工业空白。但要从实验室走向生产，我们需要：

分层标准化。
模板/社区贡献（低成本人形套件）。
统一的HAL（可能是完整的NVIDIA Isaac生态系统）。

我相信突破将在2026年至2030年之间到来，但现在，我们开发者仍在"物理诅咒"下挣扎。

原文链接：From LeRobot to Embodied AI Infra: A Humanoid Developer's Reflections in 2026

汇智网翻译整理，转载请标明出处