PHYSICAL AI

端到端可微分自动驾驶

大融合：当所有子系统合为一体

admin

Jun 30, 2026 • 8 min read

AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

在自动驾驶的早期，软件栈看起来像工厂的流水线：

摄像头捕捉像素
感知模块检测车道
预测模块预估行人和车辆
规划模块计算轨迹
控制模块调整转向和油门

每个阶段都是手工设计的。每个阶段将输出传递给下一个，像脆弱的多米诺骨牌。

如果车道检测稍有偏差 → 规划器产生不安全的路径。如果预测器误判了一辆车 → 控制器可能过度转向。误差级联放大。

这种模块化流水线功能强大，但很脆弱。

1、现代自动驾驶：统一时代

约在2022–2025年间，一种新的理念出现了：

"与其分别优化五个子系统，不如训练一个统一的大脑，让它们联合学习。"

这是以下技术背后的哲学：

Tesla 的端到端神经管道
Wayve 的 LINGO 系列
UniSim、UniDrive
Dreamer 风格的潜在空间智能体
用于样本高效控制的 TD-MPC

而现在，在这个博客系列中，你的自动驾驶汽车达到了这个水平。

第6篇博文正是汽车从"模块"进化为一个单一神经有机体的时刻。

2、为什么统一改变了一切

问题1：误差累积

如果感知偏差5厘米 → 预测出错 → 规划出错 → 控制出错。

问题2：模块之间没有梯度

规划器无法告诉感知哪些特征重要。感知无法知道它的误差是否会在下游产生影响。

问题3：训练目标不匹配

感知学习的是分割精度，但规划需要的是安全、进展和舒适——而不是分割的IoU。

解决方案：端到端优化

现在损失函数变成了：

这意味着：

感知编码器接收规划梯度
世界模型接收控制梯度
策略直接接收感知特征
所有子系统学习一个共享的潜在表征 z

这就像让五个孩子分别学习五门独立科目，与教一个孩子掌握一项协调运动技能之间的区别。

3、统一架构：一个单一的可微分循环

我们把第1–5篇博文中的所有内容连接成一个连续的计算图：

逐步解析：

3.1 编码器（感知）

提取紧凑的潜在信念状态：

这取代了：

车道检测
可行驶区域地图
语义分割
深度预测

全部融合到一个潜在表征中。

3.2 世界模型

预测未来的潜在状态和奖励：

与第3篇博文相同。

3.3 想象推演

在潜在空间内模拟未来：

与 Dreamer 类似。

3.4 参与者（策略）

直接从潜在状态生成动作：

3.5 评论家（价值函数）

预测长期回报：

3.6 TD-MPC 头部

融合 MPC 规划与价值梯度：

这稳定了控制。

3.7 辅助感知头

用于训练稳定性：

未来占用率
碰撞时间（TTC）地图
车道偏离
交通灯状态
行人接近度

所有这些共同塑造 z_t。

4、端到端损失函数（完整数学）

主目标函数：

其中：

4.1 世界模型损失

4.2 参与者损失

4.3 评论家（TD）损失

4.4 辅助损失

4.5 安全损失（可微分！）

其中 σ(⋅) 是 softplus。

所有梯度都反向传播到：

编码器权重
世界模型
演员
评论家

这就是真正的端到端优化。

5、数值示例1：感知通过控制损失来学习

这是核心思想：规划梯度流入感知权重。

设：

观测 o_t = 10
编码器：z_t = f_φ(o_t) = w · o_t，其中 w 可训练
世界模型：z_{t+1} = z_t + 0.5a_t
策略：a_t = -z_t
奖励：r_t = -(z_{t+1}-5)²

我们要计算：

第1步：计算 z_t

第2步：策略输出动作

第3步：世界模型预测

第4步：奖励函数

第5步：计算梯度

取 w = 0.8：

含义： 增大编码器权重 w 会增加奖励。规划损失直接塑造感知！

这就是端到端驾驶的核心。

6、数值示例2：带辅助项的联合损失

设：

世界模型损失 = 0.35
演员损失 = −2.1（负值表示最大化）
评论家损失 = 0.44
车道偏离 = 0.15
安全惩罚 = 0.20

权重：

计算：

逐步计算：

2(0.15) = 0.30
4(0.20) = 0.80

所以：

解读： 安全项主导损失（0.8）。参与者受到强烈激励去避免不安全状态。

7、统一端到端学习中的安全性

安全变得可微分：

其中 d_obs 从潜在空间预测得到。

这产生了：

平滑的梯度
安全感知的潜在表征
隐式的碰撞边界

模型在潜在空间中学会了"危险"的含义。

8、部署：当统一大脑在CARLA中驾驶

完全在想象空间内训练完成后：

将 CARLA 图像编码为 z
预测未来的 z
演员生成动作
TD-MPC 进行精炼
在 CARLA 中执行动作
反馈循环

这个系统：

能即时适应天气变化
对新地图具有更好的泛化能力
避免了手工设计的脆弱规则
计算效率高（单次前向传播）

9、结束语

想象一下让五位音乐家独立学习：一个学小提琴，一个学鼓，一个学钢琴……然后强迫他们一起演奏。结果是混乱的，因为他们从未学习过如何协调。现在想象一下训练整个乐团一起演奏：每位音乐家都能听到其他人的声音，调整节奏、速度和和声。这就是端到端驾驶。所有组件作为一个统一整体共同学习。

原文链接：One Brain to Drive Them All: End-to-End Differentiable Autonomous Driving

汇智网翻译整理，转载请标明出处