基础模型及其对机器人未来的影响

我们正处于机器人技术历史上一个独特的时刻。超过5亿美元的资金涌入Field AI和Genesis AI,这不仅仅是风险投资追逐下一个闪亮的事物——而是对我们终于组装好了解决机器人技术基本智能问题所需的所有部件的认可。

基础模型及其对机器人未来的影响

我在 Cruise 工作的最后一年(在我们被通用汽车完全收购之前),我遇到了一个施工区域场景,这个场景体现了当前机器人 AI 的根本局限性:机器人可以看到孤立的元素,但错过了全局。

我们的 L4 感知系统在单独检测锥体和障碍物方面实际上非常出色(准确率超过 90%),但它很容易忽略这些物体组合在一起的含义。锥形路障组合形成的松散线条通常会向人类驾驶员发出封闭车道的信号——我们本能地理解其意图,即改变交通方向或阻止车辆进入。但感知系统无法推断其意图。即使漏掉一个锥形路障,或者间隙看起来刚好足够宽,系统也可能将该场景解读为可行驶车道。

不幸的是,这种故障模式会带来灾难性的后果,因为车辆可能会直接驶入一个有建筑工人、敞开的检修孔、重型机械或杂物的施工区域,同时阻塞其后方的交通,直到人类安全操作员介入。

这就像擅长识别单个字母,却不擅长阅读单词。它们能看到碎片,却无法掌握全局——这是一个根本性的限制,Field AI 和 Genesis AI 现在押注数十亿美元将决定机器人技术的未来十年。

这让我们意识到,在许多关键情况下,瓶颈并非传感器,而是一个以人的生命来衡量的智能架构问题。

1、什么是机器人技术的基础模型?

首先,让我们了解基础模型与传统机器人软件的区别。

传统机器人技术依赖于在狭窄数据集上训练的特定任务模型,使用基于规则的逻辑,例如“如果检测到锥体 → 减速”。这些系统在开发过程中未明确编程的边缘情况下,通常会失败。

如今的机器人 AI 通常将手动调整的启发式算法与多层神经网络处理相结合。这些算法试图将来自激光雷达、雷达和摄像头的输入整合成一个连贯的世界视图。一个非常简单的感知架构示例如下:

Input: raw sensor data (LiDAR, Radar, Camera, IMU)
↓
Neural Net: detects and classifies objects, even infer scene semantics
↓
Kalman Filter: fuses those outputs to estimate precise object tracks or ego-motion
↓
Control/Planning: uses this estimate to decide what to do next

该流程在约束条件下工作,但较为僵化,通常采用启发式方法,对极端情况敏感,并且仍然依赖高清地图等外部数据来源来保持准确性。在变化的环境或未经明确训练的场景中(例如不寻常的物体排列或越野地形),这些系统难以泛化。

另一方面,基础模型允许系统跨任务和环境迁移知识,而这是传统系统无法做到的。基础模型不是构建针对特定任务训练的狭窄模型,而是规模庞大,并基于文本、图像、视频、模拟日志和真实世界传感器流等海量多模态数据进行训练。

可以将它们视为机器人领域的 GPT-4,它能够:

  • 以统一的方式理解激光雷达、雷达和摄像头输入
  • 跨任务和环境泛化,例如从仓库运营到工厂车间再到城市街道
  • 推理空间上下文和物体交互
  • 即使在从未见过的情况下也能做出安全决策

这种从模块化、基于规则的模块到能够学习模式的统一模型的转变,使得基础模型在机器人领域如此令人兴奋。

基础模型最大的突破在于它们能够在不熟悉的情况下进行推理,这被称为零样本推理。

基础模型无需在训练期间接触所有可能的场景,而是可以从庞大而多样的数据集中学习到的模式中进行泛化。这使得它们能够解释和应对新情况(例如被误解的施工区域),而不是通过死记硬背,而是通过识别更高层次的结构和意图。这是传统机器人系统一直无法达到的推理水平。

图 2:机器人系统的核心组件(感知、规划、控制、人机交互)及其外圈中的子模块。颜色编码表示与大型语言模型 (LLM)、视觉语言模型 (VLM) 或多模态模型的链接

2、基础模型的崛起

Field AI 的 4.05 亿美元 A 轮融资和 Genesis AI 的 1.05 亿美元种子轮融资不仅仅是它们的规模引人注目,但它们也代表了基础模型中两种截然不同的方法,旨在解决机器人技术最持久的挑战之一:构建能够在复杂非结构化环境中可靠运行的系统。

Field AI 采用全栈式方法,构建一个物理优先、“风险感知”的平台,旨在在非结构化环境中运行。他们的 Field 基础模型旨在用一个统一的系统取代整个传统的机器人技术栈。通过将感知、规划和控制融合到一个多模态模型中,他们相信这些模型的性能可以比当今的模块化流程高出几个数量级。

相比之下,Genesis AI 专注于赋能更广泛的生态系统。他们并非要取代机器人公司现有的架构,而是构建能够增强其架构的即插即用基础设施——一个可以无缝集成到现有工作流程中的智能层,就像机器人领域的 OpenAI 一样。他们利用高保真物理模拟和真实世界传感器数据,旨在为广泛的合作伙伴提供可泛化的能力,从仓库机器人到 Figure 和 1X 等人形平台。

Field AI 和 Genesis 等公司的基础模型不仅仅是略胜一筹;它们在感知、规划和泛化方面的能力如今已超越旧有流程所能提供的水平,尤其是在非结构化的真实世界环境中。

这可以说是代际转变的标志:对传统架构的渐进式调整已无法弥补差距,而维护“旧方法”的成本超过了采用新方法的风险。最近的几轮融资不仅奖励了技术潜力,他们还认识到,到2024年,三大强大的推动因素也将最终汇聚在一起:

  • 边缘计算变得经济实惠且功能强大,足以支持嵌入式系统的实时推理[CNBC 报告CDOTrends]
  • 真实和合成训练数据的规模和多样性达到临界点,使得在已知环境之外进行可靠的泛化成为可能[MITCovariant]
  • 监管机构开始接受概率性、数据驱动的安全措施,超越了完全确定性验证的要求[ScaleVP]

2025年的这些大规模融资表明,我们可能正在迎来一个转折点,基础模型将成为机器人技术的主导方法。问题在于,仍在构建传统堆栈的公司是否能够足够快地适应,或者他们是否会发现自己正在努力追赶一个根本不同的范式。

3、我们未来十年的赌注

最近,我的兴趣不仅在于构建机器人系统,更在于放眼更广阔的视野,将机器人技术理解为未来几十年将塑造我们行业的平台和生态系统。

Genesis AI 和 Field AI 在过去几周内接连获得融资,这立刻引起了我的注意,因为它们与我所见过的常见的机器人技术炒作周期截然不同。以下是我的观察:

它们正在大规模地解决最棘手的技术难题。Field AI 基于物理的模型针对的是我所见过的机器人系统中常见的根本故障模式。他们将物理理解和不确定性处理直接嵌入模型的方法,可以解决导致像我们这样的系统误读施工区域的(不可推广的)决策问题。这是否真的能够提供更安全、更强大的智能,还有待实践检验,但其技术方向是合理的。

他们对市场洞察敏锐。这些公司并非追逐通用家用机器人的幻想,而是从结构化、高风险的环境入手:物流枢纽、工业场所、国防应用。在这些领域,安全性和可靠性比多功能性更重要,客户愿意为阶梯式功能改进支付高价。

他们构建的是平台,而非产品。Genesis AI 正在构建现有公司可以接入其工作流程的智能层。Field AI 则希望成为连接不同机器人躯体(包括手臂、车辆和步行机器人)的大脑。两者都创造了网络效应,每一次新的集成都会使平台更好地服务于其他所有人。这听起来是不是更像一个操作系统?

时机恰到好处。正如我们刚才讨论的那样,价格实惠的边缘计算、海量训练数据集以及概率安全系统的监管认可,都在 2024 年汇聚。基础模型已经从有趣的研究发展成为可部署的技术。

随着投资者意识到这一转变,资本正流向那些最有能力定义未来趋势的公司——释放机器人技术数万亿美元的潜力,在未来十年实现自动化,并改进人类的工作、生活和互动方式。如今,这不仅仅是经济层面的,更是关乎将时间留给人类,并重新构想智能如何在物理世界中运行。

4、过去十年的教训

过去十年,许多机器人技术的失败源于一系列因素:技术、财务、运营,当然,有时也包括运气。仅靠工程人才和资金并不能保证万无一失。有时,正如 Cruise 惨痛经历所证明的那样,领导层的选择、文化和风险管理不善——无视透明度和安全性——甚至可能毁掉最有希望的进步。

图 3:从我位于布兰南街 333 号的办公室看到的旧金山几辆 Cruise 自动驾驶出租车(2023 年 7 月)

Cruise(2025 年关闭)拥有数十亿美元的资金、世界一流的人才和先进的人工智能。当我们在 2022 年向公众推出时,我亲眼目睹了我们的技术如何与 Waymo 相媲美。然而,2023 年末的一起行人事故——随后信息被隐瞒——导致了许可证被吊销和严格的监管审查。到 2025 年,Cruise 被关闭并被通用汽车重新收购。我所在的公司所有人都被解雇了。近距离观察,这感觉不像是技术的失败——而是领导层决策、透明度和负责任的执行力的失败。机器人技术的成功不仅仅需要创新;它需要诚信、监管协调以及各个层面的清晰沟通。

放眼望去,该领域的其他人也面临着类似的命运。旧金山的机器人世界规模很小,想到我曾与其中一些创始人和早期工程师有过交集,感觉有些不可思议。Rethink Robotics(2018 年倒闭)将协作机器人推向了聚光灯下,但却误判了产品准备度和市场时机。由 Boris Sofman(2019 年倒闭)创立的 Anki 创造了令人愉悦的消费机器人,但却无法维持可行的商业模式。Starsky Robotics(2020 年倒闭)大胆押注远程驾驶卡车,但低估了监管障碍以及大规模验证边缘案例安全性的复杂性。

与此同时,像 Zipline、特斯拉和 Waymo 这样的幸存者迄今为止取得了成功,他们将创新技术与切实可行、适应现实需求的商业模式相结合。Zipline 通过在速度和可靠性至关重要的地区提供紧急医疗物资,开辟了一个独特的利基市场。特斯拉将自动驾驶技术融入到人们渴望已久的汽车中,利用其庞大的车队数据快速迭代,并通过垂直整合降低成本。Waymo 采取了谨慎的、安全第一的策略,专注于高度地图化的环境,并通过严格的测试赢得了监管机构的信任。

当然,单靠战略并不能说明全部问题。时机、市场准备、资金以及一些运气也发挥了作用。在一个即使是伟大的想法也可能失败的行业中,往往是执行力、环境和情况的结合,决定了哪些企业能够扩张,哪些企业停滞不前。更重要的是,有效的领导力和风险管理在这里不再是可有可无的附加条件,而是下一代机器人创新的基础。

5、那么技术本身呢?

正是在这一点上,基础模型提供了一条真正的前进之路,而不仅仅是“更好的人工智能”。通过在基于物理的、适应性强的框架内统一感知、推理和行动,基础模型有望更好地应对边缘情况和部署失败。这些模型基于海量真实和合成数据进行训练,能够在模拟环境中对更安全的策略进行压力测试,从而降低现实世界风险,并可能缩短验证周期数年 [国际机器人研究杂志,2025]。

此外,基础架构鼓励构建统一的平台,而不是非通用的定制堆栈,从而将固定成本分摊到更广泛的市场,并减轻单位经济效益的压力。但仍然存在一些重大问题:如何在通用化与特定任务的专业化之间取得平衡?如何在无需长达十年的试验的情况下验证安全性?如何建立既重视透明度又注重可衡量风险承担的领导文化?

简而言之,基础模型并不能解决所有问题。但它们使机器人技术更安全、更具可扩展性且经济可行。下一章的成功既取决于领导力创新,也取决于人工智能领域的突破,这是一个极具挑战性但前景光明的前沿领域 [ICRA, 2025]。

6、结束语

我们正处于机器人技术历史上一个独特的时刻。超过5亿美元的资金涌入Field AI和Genesis AI,这不仅仅是风险投资追逐下一个闪亮的事物——而是对我们终于组装好了解决机器人技术基本智能问题所需的所有部件的认可。

困扰我Cruise时代施工现场的场景不仅仅是一个需要解决的技术问题,也代表着一个更广泛的挑战,即制造能够在混乱、不可预测的现实世界中真正推理并根据情境采取行动的机器。现实世界泛化——机器人理解现实世界的能力理解复杂环境并适应——这仍然是机器人技术领域最难的难题之一。

让我感到乐观的是,基础模型最终或许能弥补这一差距。通过在基于物理的框架内统一感知、推理和行动,这些模型提供了应对极端情况所需的适应性,并减少了代价高昂的部署失败。这些模型基于海量真实和合成数据集进行训练,有望在机器人投入使用之前就缩短验证周期并提升鲁棒性。通过用统一平台取代脆弱的定制化堆栈,它们能够实现跨行业的可扩展性和更健康的单位经济效益。

下一波人工智能浪潮不仅仅是编写代码或创作诗歌。它将包装箱子、修复太阳能电池板、清理灾区,并帮助重建我们的城市。我希望引领这场变革的公司能够将尖端人工智能与原则性的领导力、安全至上的文化和严谨的执行力相结合。

我希望这不仅仅是一次技术上的飞跃——它不仅是迈向更智能机器的一步,更是迈向基于构建者人性及其服务世界现实的系统。


原文链接:When AI Gets a Body: Foundational Models and What It Means for the Future of Robotics

汇智网翻译整理,转载请标明出处