MODEL-ZOO

BEVFusion 雷视融合模型

BEVFusion统一的鸟瞰视角和多任务学习方法如何塑造自动驾驶车辆感知的未来。

admin

Jul 2, 2026 • 23 min read

AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

现代自动驾驶汽车配备了众多传感器。例如，Waymo的自动驾驶车辆拥有29个摄像头、6个雷达和5个激光雷达传感器。每个传感器都像一个说各自"语言"的专家：摄像头从前视视角提供丰富的色彩和纹理信息，激光雷达以俯视3D视图提供精确的3D距离测量，雷达则提供速度数据。挑战在于这些传感器无法自然对齐；就像一个专家用2D照片描述世界，而另一个用3D点云来描述。合并它们的输出就像在两种截然不同的语言之间翻译。如果我们简单地将激光雷达的3D点投影到摄像头的2D图像上，会扭曲几何距离；而将摄像头图像投影到激光雷达的空间中，则会丢失大部分丰富的视觉细节。换句话说，强制将一个传感器的视角映射到另一个传感器会导致信息丢失，就像糟糕的翻译丢失了细微差别。

为了真正"看清"全局，自动驾驶车辆需要一个共同的基准面，使所有传感器的数据能够在不损害各自优势的情况下进行融合。这就是鸟瞰视图（BEV）表示方法的用武之地。鸟瞰视图就是从上方俯瞰世界（就像一只飞在空中的鸟）。通过将传感器数据转换到这个俯视视图中，我们为摄像头和激光雷达提供了一个共享的参考框架。BEVFusion方法 embraces 这一理念，将摄像头和激光雷达的特征统一到同一个BEV空间中，而不是强制一个适应另一个。这样做，它既保留了摄像头密集的语义信息，又保留了激光雷达精确的几何结构，避免了早期融合方法所面临的权衡取舍。结果就是自动驾驶汽车神经网络能够理解的单一"语言"——同时具备丰富的视觉信息和精确的空间术语。

1、鸟瞰视图中的共同基准面

通过建立统一的俯视视角，BEVFusion以一种全新的方式处理传感器融合。不再费力地将2D像素匹配到3D点（过程中会丢失大量信息），所有传感器输入被转换为统一的类地图视图。这个BEV地图就像一个共享画布，每个传感器都在不与其他传感器冲突的情况下贡献自己的拼图碎片。早期的融合尝试经常采用*"将一个传感器投影到另一个传感器的空间"*的方法——如上所述，它们遇到了瓶颈。例如，将摄像头特征投影到稀疏的激光雷达点上，意味着只有约5%的图像特征能找到与之对应的激光雷达点，其余的被有效丢弃。相反，将激光雷达投影到摄像头视角中则引入了几何扭曲，损害了3D目标检测。BEVFusion通过选择一个独立、中立的基准面（BEV平面），使两种传感器类型都能被完整表示，从而避免了这些陷阱。

关键的是，BEVFusion在特征层面进行融合，而不是在原始数据层面。这意味着系统不会尝试直接混合原始图像和原始点云（这很难）；相反，它首先让每个传感器的数据由专门的神经网络处理成高级特征（模式、边缘、目标线索等）。原始层面的融合之所以困难，是因为图像像素存在于具有未知深度的2D透视网格上，而激光雷达采样是稀疏、不规则的3D点——对齐它们需要精确的标定、逐像素深度估计以及产生多对一/一对多对应关系和透视畸变的非线性投影。然后这些特征被映射到鸟瞰网格上并进行合并。通过这样做，BEVFusion既保留了摄像头的"语义密度"（所有那些丰富的细节像素），又保留了激光雷达的"几何结构"（精确的距离和形状）。这就像两位专家同意用共同语言协作：双方都不必完全放弃自己的原生知识，这种协作产生了更完整的结果。

使用BEV表示的另一个优势是它自然地支持同时进行多项感知任务。在自动驾驶场景中，我们不仅想要检测目标，还想了解可行驶区域、车道标线和环境的其他语义元素。在鸟瞰地图上，目标位置和语义地图层可以一起学习。BEVFusion充分利用了这一点，采用了多任务"HydraNet"设计——一个融合特征主体为多个不同任务的头部提供输入。通过统一的BEV视图，单个网络可以同时执行3D目标检测和BEV语义分割（绘制道路、人行横道等），而不需要为每个任务设置单独的系统。这不仅简化了感知流程（节省计算和时间），还意味着任务之间可以相互促进。例如，检测车辆和识别周围可行驶路面在一个连贯的框架中完成，很可能提高一致性（检测到的汽车将精确地落在BEV地图的道路上，恰如其分）。

总之，鸟瞰视图为自动驾驶汽车中的传感器融合提供了完美的**"共同基准面"。它通过将数据置于同一几何空间解决了模态不匹配问题，并一次性实现了多传感器、多任务学习**。现在，让我们深入了解BEVFusion如何分步实现这一目标。

2、BEVFusion的工作原理：融合管线的关键阶段

BEVFusion的架构可以分解为一系列阶段，从原始传感器数据（多视角RGB帧和激光雷达点云）到单一的俯视世界模型。通俗地讲，它首先学习每个传感器"看到"了什么，将这些学习内容转换到同一个鸟瞰网格中，将它们融合成一个连贯的BEV特征图，最后将该图解码为汽车可以据此行动的边界框和道路语义。

高层来看，该过程如下：

编码器（每个传感器）• 摄像头 → CNN/ViT主干网络将图像转换为2D特征图。 • 激光雷达 → 体素/柱体主干网络将点云转换为3D/BEV特征。
视图变换到BEV• 摄像头特征通过逐像素深度估计被"提升"并汇聚到BEV网格上。 • 激光雷达特征沿高度方向折叠到同一BEV网格上。
BEV中的融合• 摄像头-BEV和激光雷达-BEV张量逐单元对齐并按通道拼接形成单一融合图。
BEV编码器（精化）• 轻量级的2D卷积/残差块堆叠混合模态、修正微小错位并增加空间上下文。
任务头部（多任务输出）• 3D检测头部（CenterPoint风格）预测中心、尺寸、方向和速度。 • BEV分割头部标记可行驶空间、人行横道、车道分隔线等。 • 其他头部（如跟踪、占用）可以附加到同一融合BEV上。

2.1 编码器——分别从每个传感器学习

BEVFusion的第一阶段涉及将每个传感器的原始数据通过其编码器网络处理，以生成高级特征图。本质上，编码器消化输入（图像或点云）并输出一组学习到的特征，这些特征突出显示重要结构（如边缘、形状或与检测目标或自由空间相关的其他模式）。对于摄像头图像，编码器通常是2D卷积神经网络（CNN）——例如，可以使用ResNet或VGG风格的主干网络来提取视觉特征。CNN是这里自然的选择，因为它们擅长处理图像，捕捉局部纹理和形状。

对于激光雷达传感器，编码器则完全不同，因为输入是3D点云而不是2D图像。一种方法是使用像PointNet++这样的网络直接处理点云，从3D坐标中学习特征。另一种方法（BEVFusion使用的方法）是首先通过体素化或柱体化将点云转换为结构化的3D网格，然后应用3D或伪3D卷积。简单来说，分散的激光雷达点被转换为一组3D像素（体素）或垂直列（柱体），然后由3D CNN处理以提取特征。BEVFusion的作者测试了几种激光雷达编码器的组合，最终使用了涉及体素化/柱体化后跟CNN层的管线来获得有效的激光雷达特征。到这一阶段结束时，我们有两组特征图：一组来自摄像头，一组来自激光雷达。每组都针对其模态定制，编码了摄像头特征中的视觉纹理和激光雷达特征中的形状/距离线索。

2.2 鸟瞰视图变换——将特征投影到共同平面

一旦我们从每个传感器获得了特征，下一步就是将那些特征映射到鸟瞰视图坐标系中。这是实现统一表示的核心步骤。变换分别针对摄像头和激光雷达特征进行：

摄像头到BEV：对于摄像头特征，BEVFusion使用一种称为特征提升的技术。想象摄像头特征图中的每个像素现在"向上生长"到3D空间中。网络为每个像素预测一个深度分布——本质上是估计该图像特征在3D中可能有多远。通过这样做，2D特征被提升为3D点特征（就像一片特征点云，每个点携带原始图像特征但被放置在某估计的高度/距离处）。例如，对应于图像中交通灯的特征将被投影到该交通灯可能位置的3D空间中。一旦所有图像特征被提升到3D，我们执行BEV汇聚：我们将这些3D特征点聚合到代表地面的固定2D网格上。本质上，汽车周围的区域被划分为一个网格（BEV地图单元），任何落入同一单元的提升特征被合并（例如，通过求和或平均）。这为摄像头生成了一个俯视特征图，其中每个单元包含摄像头在该地面位置感知到的任何内容的聚合表示。这就像将摄像头图像映射回3D世界并将其铺设在地面上，从上方创建一个特征马赛克。

激光雷达到BEV：激光雷达特征天然处于3D空间中（因为激光雷达编码器产生排列在3D网格或点云中的特征）。要将它们转换为BEV，操作更直接：我们沿垂直（Z）轴折叠特征，因为对于BEV，我们只关心水平平面中的信息。在实践中，这可能意味着取每个垂直列中激光雷达特征的最大值或总和，最终在地面上得到激光雷达特征单元的2D网格。由于激光雷达直接测量3D结构，这一步不需要像摄像头那样显式的深度猜测；更多是关于将数据格式化成相同类型的网格。之后，我们有了摄像头BEV特征图和激光雷达BEV特征图，两者都对齐到相同的地理坐标系（通常是现实世界中的米制单位）。

此时，值得反思已经取得了多少成就。系统有效地将2D图像和3D点云都转换成了兼容的"地图"。这些BEV地图中的任何给定单元对应于例如"汽车前方5-6米、左侧2-3米的区域"，并且该位置的摄像头衍生特征和激光雷达衍生特征现在都指向世界中的同一点。这个共同定位为接下来的轻松融合奠定了基础。

2.3 融合——在BEV网格上合并模态

摄像头和激光雷达特征图都处于BEV格式后，融合它们变得简单。既然每个都是同一地面的"图像"，融合就是将一层叠放在另一层上并进行组合。BEVFusion的融合步骤通过拼接完成：对于BEV网格中的每个单元，从摄像头图中取特征向量，从激光雷达图中取特征向量，并将它们连接成一个更长的特征向量。在代码中，这可能就像 torch.cat(camera_features, lidar_features) 一样简单——实际上是在通道维度上堆叠两个特征图。

这种直接的融合之所以强大，是因为到我们进行拼接时，繁重的工作（对齐坐标和保留信息）已经完成。不需要复杂的重新标定或迭代匹配；每个融合的BEV单元 [i, j] 包含一个联合特征，结合了摄像头纹理线索和激光雷达几何信息。例如，如果摄像头特征指示与行人一致的某种颜色/纹理，而激光雷达特征指示在该位置有一个直立的小物体，则该单元的融合表示将编码这两个线索，使网络最终更容易将其分类为行人。

这种设计的另一个好处是可扩展性：因为一切都统一在BEV网格上，额外的传感器可以以相同的方式集成。雷达、额外的摄像头甚至未来的模态都可以被编码、投影到BEV，并与现有特征拼接在一起。BEVFusion的融合阶段并不硬编码为"摄像头+激光雷达"；它是一个通用的、BEV空间的多模态管线，可以轻松容纳新输入以丰富感知。

2.4 BEV编码器——精化融合表示

拼接之后，我们获得来自所有传感器的融合BEV特征图，但微小的不一致性可能仍然存在（例如，摄像头深度误差或稀疏的激光雷达覆盖）。BEVFusion使用BEV编码器来解决这个问题：一个带有残差块的卷积网络，在俯视图上操作以精化融合结果。它平滑差异并学习真正混合摄像头语义和激光雷达几何的组合特征。例如，当摄像头边缘和激光雷达点略微偏移时，编码器的滤波器在训练过程中学会协调它们，从而改善下游的检测和分割。该阶段是完全卷积的，无需手工设计的对齐规则即可学习，因此在任务头部之前，表示被微调成一个连贯、鲁棒的BEV。选择卷积而非重型Transformer也保留了实时效率：CNN利用局部BEV结构，并能在GPU上高效运行处理大型网格。结合论文中高效的BEV操作（包括快速的视图变换），这使延迟保持在自动驾驶车辆的预算范围内。

2.5 多任务头部——检测目标和分割场景

有了精化的BEV特征图，BEVFusion分支到特定任务的头部，以生成人类可解释的输出：3D目标检测和语义BEV地图。设计是HydraNet风格——一个主干，多个头部，因此同一融合表示高效地支持两种预测。

3D目标检测头部：BEVFusion采用CenterPoint风格的头部，在BEV平面上找到目标中心并回归完整的3D边界框（尺寸、方向、速度）。将这个成熟的头部置于融合特征之上避免了重新发明轮子：对于每个位置，头部利用组合的摄像头语义和激光雷达几何信息，以更高的置信度定位和测量车辆、行人等。
BEV分割头部：该头部按BEV单元标记地面平面——可行驶空间、人行横道、人行道、停止线、停车区、车道分隔线及相关类别——生成规划器可直接使用的地图。与前视图分割不同，结果是直接指示汽车可以去哪里和不能去哪里的俯视布局。由于两个头部读取相同的融合特征，预测自然是一致的（例如，检测到的汽车位于可行驶区域上，而不是人行道上）。

在一个主干上使用两个头部不同于旧的分裂管线，带来了两个优势：效率（一个共享的主干而不是多个独立模型）和多任务协同效应。联合训练鼓励检测和语义地图相互协调，提高整体场景理解。

3、对自动驾驶的性能与影响

BEVFusion不仅仅是学术练习——它在真实的自动驾驶基准测试中以创纪录的性能证明了其价值。在要求严苛的nuScenes数据集上，BEVFusion在多个指标上建立了新的最优水平。对于3D目标检测，它取得了#1排行榜排名，mAP/NDS比此前最佳高出约1.3%（见图11）。其优势在BEV地图分割中更为明显：比仅用激光雷达的模型提高13.6% IoU，比仅用摄像头的模型提高约6%。早期的融合方法经常在此任务上挣扎或直接跳过，而BEVFusion表现出色（图11中各类别的增益说明了这一点）。结论很简单：结合摄像头语义和激光雷达几何不仅能提升检测——对于复杂场景中的鲁棒场景映射，这几乎是必不可少的。

同样重要的是，这些增益并没有带来沉重的效率代价。得益于快速、精确的摄像头到BEV汇聚核和完全卷积的设计，BEVFusion报告的计算量比之前的融合方法低约1.9倍，同时消除了视图变换中的主要瓶颈（加速超过40倍）。结果是一个在实时自动驾驶车辆中实用的模型，而不仅仅是排行榜演示（效率和延迟总结于图11）。

超越表面数字，BEVFusion是一个概念性转变——它改变了融合发生的位置。逐点融合将图像线索添加到每个激光雷达点或体素，这浪费了大部分像素并忽略了许多背景。提议级融合在生成3D边界框候选后合并，这有助于检测但不能构建完整的场景地图，且可能错过小目标或远距离目标。BEVFusion则在整个场景的密集鸟瞰网格上进行融合，因此每个像素和激光雷达回波都有贡献，改善了小目标/远距离情况并实现了地图语义（见图12）。这一模板已经在启发混合方法，在高效的BEV CNN之上增加轻量Transformer上下文。

行业趋势也呼应了这一方向。注重生产的系统越来越多地将多传感器输入转换为统一的BEV用于规划，多家公司公开描述使用BEV风格的自车中心地图作为核心接口。BEVFusion验证了这一方向，并将其干净地扩展到真正的多传感器融合——摄像头和激光雷达在统一的、规划器可直接使用的视图中协同工作（分割质量反映于图13）。

4、结论与展望

BEVFusion已经表明，在感知世界方面，两个（或更多）"眼睛"优于一个——特别是如果它们能共享共同的视角。通过在鸟瞰视图中统一摄像头和激光雷达数据，这种方法实现了任何一种模态都无法单独完成的结果，同时保持系统高效和多功能。对于自动驾驶车辆，这意味着对环境更可靠的理解：汽车不仅能高精度检测其他交通参与者，还能在同一时刻理解场景的布局（道路与 sidewalk 等）。这产生的连锁反应是显著的。更丰富的感知系统能促进更好的决策——例如，知道精确可行驶表面并发现新障碍物的汽车可以规划更安全的绕行路线。

关键要点包括：

共同参考框架：将多传感器数据转换到共享的BEV空间保留了每个传感器的优势，避免了传感器间直接投影的信息丢失。
多任务效率：单个融合模型可以同时处理检测和分割，提高一致性并减少对独立模块的需求。
最优结果：BEVFusion的融合策略在具有挑战性的基准测试中提供了顶级性能，显著提升了3D检测，特别是BEV分割的准确性。
实时就绪：通过优化的操作和卷积设计，该方法运行快速（解决了先前的瓶颈），降低了延迟，使其适用于实际驾驶系统。
下一代启发：这项工作正在影响学术界研究（例如，增加Transformer的混合模型）和工业实践（主要AV公司采用以BEV为中心的传感器融合）。

展望未来，可以期待更丰富的系统将更多传感器（雷达、超声波、GNSS）接入同一BEV画布，将BEVFusion随时间扩展到运动感知的"4D"理解，并在同一坐标空间中将感知与预测和规划直接耦合。简而言之，选择正确的表示至关重要：通过让摄像头和激光雷达从上方"对视"，BEVFusion提供了更强大、更可靠的视觉核心——这种方法有望成为自动驾驶的基石。

总之，BEVFusion展示了找到正确表示的力量。通过让摄像头和激光雷达从鸟瞰视角"对视"，它为自动驾驶汽车解锁了更丰富、更可靠的机器视觉形式。这是一个引人注目的例子，展示了当不同技术经过深思熟虑地结合在一起时，如何产生超越各部分之和的结果。随着自动驾驶车辆继续发展，像BEVFusion这样的方法很可能成为它们"大脑"的基石，确保这些车辆以前所未有的清晰度和置信度感知世界。

原文链接： BEVFusion: Unifying Vision in Autonomous Driving Systems

汇智网翻译整理，转载请标明出处