反思:从LeRobot到具身AI基建

本文是我这几个月思考的记录。从LeRobot给我的启发到项目中的实践和挫折,我想分享我的观点:具身智能目前的瓶颈不是算法,而是硬件碎片化和"物理诅咒"下的标准化缺失。

反思:从LeRobot到具身AI基建
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

2026年初,我坐在达文波特的工作室里,盯着满是Docker容器和ROS2节点的屏幕,调试我的人形机器人基础设施平台。今年,Hugging Face的LeRobot框架彻底改变了机器人学习的游戏规则。早在去年年初,它就让我这样一个从未接触过具身智能的开发者,能够像训练LLM一样轻松地收集数据、微调VLA模型和运行RL微调。而在下半年,大约10月份,我的小型团队(只有三到五个人)开始建造一个全尺寸的人形机器人。但我们越是深入,就越意识到:虽然LeRobot很强大,但它也暴露了具身AI领域的一个更深层的痛点——真正工业级的基础设施(Infra)还远未成熟。

本文是我这几个月思考的记录。从LeRobot给我的启发到项目中的实践和挫折,我想分享我的观点:具身智能目前的瓶颈不是算法,而是硬件碎片化和"物理诅咒"下的标准化缺失。这篇文章既是个人记录,也是邀请更广泛的讨论。

1、LeRobot的辉煌:降低门槛的革命

让我们从成就说起。LeRobot一直是2024年至2026年开源机器人生态系统最大的亮点:

  • 端到端管道集成:从lerobot record进行远程操作数据收集,到HF Hub上的标准化数据集,再到支持模仿学习、Diffusion Policy和VLA模型(如OpenVLA-7B和GR00T N系列)的lerobot train——这真是一键式操作。社区拥有超过20,000个星标、167+个数据集、深度NVIDIA集成,即使是低成本硬件(如约300美元的LeKiwi机械臂)也能运行最先进的模型。
  • 加速模拟到现实:内置MuJoCo/Isaac Sim支持,开箱即用的域随机化。在黑客马拉松上,无数项目从"零"到"运行"只需几天。
  • 协作精神:无缝的HF生态系统集成——直接使用repo_id加载模型,就像使用Transformers一样自然。

对我来说,LeRobot是起点。它让我从"与硬件驱动程序搏斗"中解脱出来,让我专注于跨不同具身智能形式的多模态交互和执行LeRobot策略。但随着我使用得越来越多,问题开始浮现。

2、痛点浮现:从实验室到生产的"物理诅咒"

LeRobot非常适合研究和可访问性,但从工业级角度来看,它的局限性变得清晰。我的人形项目(一个基于自定义关节+Realsense+IMU构建的平台)让我深切感受到了这些问题:

  • 硬件适配地狱

多模态硬件(视觉:多相机同步/校准;本体感知:关节编码器/IMU/扭矩;驱动:电机模式/通信)变化巨大。从工业级EtherCAT到Raspberry Pi GPIO自定义PWM,一个新设备通常需要完全重写适配器。LeRobot的Robot类很灵活,但没有统一的硬件抽象层(HAL)。实时关节PD控制和边缘ARM优化(如Jetson)完全依赖用户SDK桥接。

我的看法:这不是LeRobot的错——这是整个行业的问题。"物理诅咒"——机器人没有像PC那样的标准化接口如USB/PCIe。即使没有灵巧的手,整机的变量也会爆炸(关节限制、零位姿态、传动、传感器组合)。即使在人形机器人之间(Unitree vs. Figure vs. 我的自定义构建),排列组合也是惊人的。短期内,没有通用适配器;长期来看,我们需要大玩家推动"机器人Android"式的标准(但这又有可能成为烧钱游戏)。

  • 模拟到现实仍然痛苦

模拟看起来很完美,但现实世界的部署经常遭受抖动或失败。域随机化有很大帮助,但回程间隙、摩擦噪声和光照变化没有被准确建模。标准化的校准工具缺失,让我们只能手动调整。

我的想法:抖动的根源不仅仅是延迟——而是物理/观察差距。我们需要更多的现实世界微调和自动适应。

  • 生产部署不足

大多是异步推理脚本,缺乏内置的安全堆栈(急停、碰撞检测)、车队管理或热更新。边缘优化薄弱,多模型并行(上半身/下半身)需要用户设置。

  • 配置和维护噩梦

数百个YAML文件提供了灵活性,但面对整机变化,它们很容易变成一团糟。类+配置方法的维护成本很高,使得工业管道难以标准化。实验可重复性(种子/版本固定)也很弱。

这些痛点让我意识到:算法管道是连通的,但Infra的"最后一公里"——从硬件到生产桥梁——仍然很远。

3、我的实践:探索混合架构

在项目中,我尝试填补其中一些空白:

  • 混合模式:数据收集/远程操作/RL运动控制在主机模式下运行(零开销、低延迟、直接访问相机/GPU/关节)。训练/评估在主机上高效运行,而推理使用Docker微服务(多模型隔离、一键迁移)。
  • 运动控制SDK:自定义桥接层,封装关节PD、IMU融合和模拟到现实校准。
  • Web UI:在Docker内部运行,用于统一管理(容器监控、终端、构建),但通过轻量级主机代理桥接主机任务(一键启动远程操作/训练)。
  • LeRobot集成:执行器直接导入官方策略加载器,兼容完整的HF模型库(进行中)。

我的核心观点:纯Docker或纯主机都不行——混合目前是最好的。主机处理实时/硬件敏感任务,Docker处理生产隔离。配置爆炸?使用UI包装器动态生成它们,并使用模板库覆盖常见的人形套件。

但硬件碎片化仍然是最大的瓶颈。我做了无数次适配(从Dynamixel到Raspberry Pi衍生产品),每个新设备仍然需要重写。暂时无法解决——社区模板+分层(底层供应商SDK→中间ROS/URDF→顶层LeRobot)是唯一的缓解路径。

4、展望:具身AI基础设施的未来

LeRobot的方向是正确的(由社区和NVIDIA驱动),像UMA Robots(前核心团队)这样的分支正在填补工业空白。但要从实验室走向生产,我们需要:

  • 分层标准化。
  • 模板/社区贡献(低成本人形套件)。
  • 统一的HAL(可能是完整的NVIDIA Isaac生态系统)。

我相信突破将在2026年至2030年之间到来,但现在,我们开发者仍在"物理诅咒"下挣扎。


原文链接:From LeRobot to Embodied AI Infra: A Humanoid Developer's Reflections in 2026

汇智网翻译整理,转载请标明出处