在网站挂广告一个月多少钱,创建一个网站的步骤,南通城乡建设局网站首页,seo是哪里今天要分享的是基于BEV的多模态、多任务、端到端自动驾驶模型FusionAD#xff0c;其专注于自动驾驶预测和规划任务。这项工作首次发表于2023年8月2日#xff0c;性能超越了2023 CVPR最佳论文UniAD模型。论文题目是FusionAD: Multi-modality Fusion for Prediction and Planni…今天要分享的是基于BEV的多模态、多任务、端到端自动驾驶模型FusionAD其专注于自动驾驶预测和规划任务。这项工作首次发表于2023年8月2日性能超越了2023 CVPR最佳论文UniAD模型。论文题目是FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving主要作者来自Udeer.ai、西湖大学和和菜鸟网络。
Abstract
构建多模态、多任务神经网络以实现准确和稳健的性能是自动驾驶感知任务的事实标准。然而利用来自多个传感器的这些数据来联合优化预测和规划任务在很大程度上仍未得到探索。为此我们提出了 FusionAD这是第一个融合来自两个最关键传感器相机和 LiDAR 信息的统一框架超越了感知任务。具体来说我们首先构建了一个基于transformer的多模态网络以有效地产生基于融合的特征。与基于相机的端到端方法UniAD相比我们建立了一个旨在融合模态感知预测和状态感知规划的模块。它利用了多模态特征在这里称为 FMSPnP。我们在常用的基准nuScenes数据集进行了广泛的实验FusionAD在检测和跟踪等感知任务上有最先进的性能。它平均超过基线15%占用预测精度提高10%ADE评分的预测误差从0.708降低到0.389并将碰撞率从0.31%降低到仅0.12%。
Introduction
在过去的几年里深度学习一直在加速自动驾驶 (Autonomous DrivingAD) 的发展。对于自动驾驶AD算法通常将相机和激光雷达信号作为感知输入然后直接输出控制命令。AD任务通常分为感知、预测和规划。在传统的范式中AD中的每个学习模块分别使用自己的主干并独立执行学习任务。此外预测和规划等下游任务通常依赖于感知结果的向量化表示而高级语义信息通常是不可用的如图所示。 以前基于端到端学习的方法通常基于透视视图相机和激光雷达信息直接输出控制命令或轨迹。最近的端到端学习方法开始将端到端学习表述为一个多任务学习问题同时输出中间信息以及计划的轨迹。这些方法仅采用单一输入模式。另一方面特别是通过融合激光雷达和相机信息进行感知任务可以显著提高感知结果。最近人们对BEV (Bird’s Eye View)感知的兴趣激增特别是对于以视觉为中心的感知。这一发展显著提高了自动驾驶汽车的能力并使视觉和激光雷达模式的融合更加自然。对于感知任务已经证明了使用基于BEV融合的方法是非常有效的。然而以端到端的方式使用来自多模态传感器的特征在预测和规划任务中仍未得到探索。 为此我们提出了 FusionAD。据我们所知这是第一个基于专注于自动驾驶预测和规划任务的BEV多模态、多任务端到端学习框架。我们从最近流行的以视觉为中心的方法开始来制定我们的pipeline。首先我们设计了一个简单而有效的transformer架构融合多模态信息在BEV transformer 空间中产生统一特征。由于我们的主要重点是探索融合特征以增强预测和规划任务为此制定了融合模态感知预测和状态感知规划的模块称为FMSPnP。它结合了渐进式交互和细化制定了基于融合的碰撞损失建模。与其他方法不同的是FMSPnP 模块利用了如图所示的分层金字塔架构以确保所有任务都可以从中间感知特征中受益。该方法更好地传播高级语义信息并有效地共享不同任务之间的特征。 我们在流行的自动驾驶基准nuScenes数据集上进行了广泛的实验实验表明FusionAD显著优于目前最先进的方法。主要贡献总结如下
我们提出了一种基于BEV融合的自动驾驶多感知、多任务、端到端的学习方法。与基于相机的BEV方法相比基于融合的方法大大提高了性能。
我们提出了 FMSPnP 模块该模块结合了模态自注意力和预测任务以及宽泛的碰撞损失和与矢量化的自我信息融合以进行规划任务。实验研究表明FMSPnP提高了预测和规划结果。
我们对多个任务进行了广泛的研究以验证所提方法的有效性实验结果表明FusionAD在预测和规划任务中取得了SOTA结果同时在中间感知任务中也保持具有竞争力的结果。
Related work
BEV Perception
BEV感知方法在自动驾驶中用于感知周围环境引起了人们广泛的关注。基于相机的BEV方法将多视角摄像机图像特征转换为BEV空间无需后处理重叠区域即可实现端到端感知。LSS 和BEVDet 使用基于图像的深度预测来构建视锥并提取图像BEV特征进行地图分割和3D对象检测。在此基础上BEVdet4D和SoloFusion通过将当前帧BEV特征与对齐的历史帧BEV特性相结合来实现时间融合。BEVFormer使用带有transformer的时空注意力来获得时间融合的图像BEV特征。这些方法提高了对动态环境的理解增强了感知效果。但是基于相机的感知方法距离感知精度不足LiDAR可以提供准确的位置信息然其点云又是稀疏的。为了解决这个问题之前的一些方法探索了融合多模态数据以进行感知。BEV是基于Lidar的感知算法的一个共同视角将多模态特征转换为BEV空间有助于融合特征的融合。BEVFusion将LSS方法得到的图像BEV特征与Voxelnet得到的LiDAR BEV特征连接起来得到融合的BEV特征提高了感知性能。SuperFusion进一步提出了基于多模态地图感知的多阶段融合。
Motion Forecasting
由于VectorNet方法取得的成功现在主流运动预测(或轨迹预测)方法通常利用高清地图和基于矢量的障碍物表示来预测agent的未来轨迹。在此基础上LaneGCN和PAGA通过改进的地图特征(如车道连接属性)来增强轨迹-地图匹配。此外某些基于锚点的方法对地图附近的目标点进行采样从而能够基于这些点进行轨迹预测。然而这些方法严重依赖于预先收集的高清地图这使得它们不适合地图不可用的区域。
矢量化预测方法往往缺乏高级语义信息需要高清地图辅助因而最近的工作开始使用原始感知信息进行轨迹预测。PnPNet提出了一种新的跟踪模块该模块从检测任务中在线生成目标轨迹并利用轨迹级特征进行运动预测但其总体框架基于CNN运动预测模块相对简单只有单模输出。由于transformer应用于检测和跟踪VIP3D成功地借鉴了以前的工作提出了第一个基于transformer的联合感知预测框架。UniAD进一步合并了更多的下游任务并提出了一个面向规划的端到端自动驾驶模型。在前辈的基础上我们对运动预测任务进行了更精细的优化并引入了细化机制和模型注意力大大提高了预测指标。
Learning for Planning
模仿学习(IL)和强化学习(RL)已被用于规划。IL 和 RL 用于端到端方法 使用图像和/或激光雷达作为输入或矢量化方法使用矢量化感知结果作为输入。虽然使用中间感知结果进行规划可以提高泛化和透明度但矢量化方法存在后处理噪声和感知结果的变化。早期的端到端方法如ALVINN和PilotNet通常直接输出控制命令或轨迹而缺乏中间结果/任务。相反P3、MP3、UniAD学习了一个端到端的可学习网络该网络执行联合感知、预测和规划可以产生可解释的中间表示提高了最终的规划性能。然而它们要么只使用激光雷达输入要么利用相机输入这限制了它们的性能。Transfuser方法同时使用激光雷达和相机输入但不在BEV空间中只执行很少的AD学习任务作为辅助任务。为了解决这个问题我们提出了一种基于BEV融合的、统一的多模态、多任务框架该框架同时融合激光雷达和相机输入。
Method
我们提出的FusionAD的整体网络架构如图所示。最初使用基于BEVFormer的图像编码器将相机图像映射到BEV空间。然后这些再与BEV空间中的激光雷达特征相结合。再经过时间融合之后融合的 BEV 特征将用于通过基于查询的方法进行检测、跟踪和映射任务。随后token被转发到运动和占用预测任务和规划任务。我们把辅助模态感知预测和状态感知规划模块简称为FMSPnP。 BEV Encoder and Perception
我们从FusionFormer中获得灵感提出了一种新的多模态时间融合框架用基于transformer的架构进行三维目标检测。为了提高效率我们采用类似于BEVFormer的循环时间融合技术。与FusionFormer不同我们使用BEV格式的特征作为LiDAR分支的输入而不是体素特征。多模态时间融合模块包括6个编码层首先利用一组可学习的BEV查询器分别使用points cross-attention和image cross-attention融合LiDAR特征和图像特征然后我们通过时间自注意力将生成的特征与前一帧的历史BEV特征融合。查询由前馈网络更新然后作为下一层的输入。经过6层融合编码后这将为后续任务生成最终的多模态时间融合BEV特征。
LiDAR 首先对原始LiDAR点云数据进行体素化然后根据SECOND网络生成LiDAR BEV特征。
Camera 多视角相机图像首先通过骨干网进行特征提取然后利用FPN网络生成多尺度图像特征。我们进一步开发了以下技术来有效地提高融合模块的性能。
Points Cross-Attention
在points cross-attention过程中每个BEV查询只与其对应的参考点周围的LiDAR BEV特征交互。这种交互是使用可变形注意力实现的 其中 Qp 表示点 p (x, y) 处的BEV查询BLiDAR表示LiDAR分支输出的BEV特征。P是BEV空间中坐标p(xy)在LiDAR BEV空间中的投影。
Image Cross-Attention
为了实现image cross-attention我们参照了BEVFormer类似的方法。每个BEV查询都以类似于pillar表示。在每个pillar沿 Z 轴采样固定数量的 Nref 3D 参考点。image cross-attention过程如下所示: 其中 Vhit 表示可以投影参考点的相机视图的数量i 是相机视图的索引Fi 表示第 i 个相机的图像特征P (p, i, j) 表示 BEV 查询 Qp 到第 i 个相机的图像坐标系中的 3D 参考点 (x, y, zi) 的投影。
Temporal Self-Attention
我们还参考了BEVFormer来实现时间自我注意。具体来说我们的方法涉及基于车辆在帧之间的运动的历史帧 BEV 特征的时间对齐。然后我们使用时间自注意力来融合历史帧 BEV 特征如下所示 其中B t−1表示时间对齐后时间戳t−1处的BEV特征。由于我们对预测和规划增强感兴趣对于感知中的检测、跟踪和映射任务我们主要遵循UniAD论文中的设置。
Prediction
得益于信息量更大的BEV特征预测模块能接收到更稳定、更细粒度的信息。在此基础上为了进一步捕获多模态分布并提高预测精度我们引入了模态自注意力和细化网络。设计细节可以在下图中找到Design of the prediction module in FMSPnP。 Context-Informed Mode attention
在UniAD中使用数据集级的统计锚点来辅助多模态轨迹学习并应用锚点间自注意力来提高锚点的质量。然而由于这些锚点没有考虑历史状态和地图信息它们对多模态学习的贡献是有限的。因此我们稍后考虑添加此操作。在运动查询检索所有场景上下文以捕获代理-代理、代理-地图和代理-目标点信息后我们引入 mode self-attention来实现各种mode之间的相互可见性从而获得更好的质量和多样性。 其中MHSA表示多头自注意。Qu 表示获取上下文信息的查询。
Refinement Network
可变形注意力使用统计锚作为参考轨迹与 Bev 特征交互。如前所述由于需要特定的场景信息该参考轨迹增加了后续学习的难度。我们引入了一个Refinement Network使用Motionformer生成的轨迹作为更精确的空间先验查询场景上下文并在这个阶段预测地面真实轨迹和先验轨迹之间的偏移量。如下所示 Anchorp 表示空间先验一个简单的MLP将用于对Motionformer输出的轨迹进行编码在时间维度上执行maxpool得到它。Xm表示Motionformer输出轨迹的端点。 Planning
在评估过程中我们无法访问高清 (HD) 地图或预定义的路线。因此我们依靠可学习的命令嵌入来表示导航信号包括左转、右转和保持前进来指导方向。为了获得周围的嵌入我们将由自我查询和命令嵌入组成的计划查询输入到BEV特征中。然后我们将其与由 MLP 网络处理的自我车辆嵌入进行融合以获得状态嵌入。然后将此状态嵌入解码为未来的航路点 ^τ。 为了确保安全在训练过程中除了简单的imitation L2 loss外我们还将碰撞损失的可微分collision loss纳入如下设计。 其中 λimi 1, λcol 2.5, ^τ 是原始规划结果~τ 表示规划标签b 表示场景中预测的代理。碰撞损失由下式计算 Trainning
我们利用三阶段训练进行多传感器、多任务学习。在第一阶段我们只训练BEV编码器和感知任务;在第二阶段我们固定BEV编码器并训练感知、预测和规划任务;而对于可选的第三阶段我们进一步训练占用和规划任务固定所有其他组件。
Experiments
Experiment Setup
我们使用 32 个 A100 GPU 进行实验训练使用 nuScenes 数据集包括在波士顿和新加坡捕获的 1000 个驾驶场景。每个场景跨越大约 20 秒nuScenes 提供了 140 万个 3D 边界框其中包含 23 个不同的类别以 2Hz 采样。我们遵循业界常用评估方法来评估端到端自动驾驶任务的性能。具体来说使用 mAP 和 NDS 来评估检测任务AMOTA 和 AMOTP 来评估跟踪任务IoU 来评估映射任务而且使用端预测精度 (EPA)、平均位移误差 (ADE)、最终位移误差 (FDE) 和错误率 (MR) 来评估运动预测的性能。对于未来的占用率预测我们使用FIERY中采用的近(30 × 30m)和远(100 × 100m)范围的度量未来视频全景质量(VPQ)和IoU。我们采用位移误差(DE)和碰撞率(CR)来评价规划性能其中碰撞率被认为是主要指标。
Experiment Results
The results of motion forecasting FusionAD remarkably outperforms The results of occupancy prediction FusionAD remarkably outperforms Planning Results: FusionAD achieves the stateof-the-art performance Ablation Studies
消融实验相对来说做得少些。
FMSPnP模块相关的消融研究如表五和表六所示。很明显细化网络和self-attention模块对提高预测结果有显著贡献。同时对规划结果而言当过去轨迹矢量化表示和自我状态相融合时观察到显著的改进。 Qualitative Results Discussion
虽然所提出的方法表现出很强的定量和定性性能但它仍然依赖于基于规则的系统对输出进行后处理以实现可靠的现实世界性能。此外目前的研究工作主要使用规划任务的开环结果来评估学习的规划器这可能无法有效地衡量其性能。用真实世界的感知数据以闭环方式评估规划器带来了挑战。尽管如此端到端框架下的预测结果仍然很有希望并且有可能在此框架内进一步改进规划模块。
Conclusions
我们提出了FusionAD这是一种利用BEV融合来促进多感知、多任务、端到端的学习新方法从而显着增强自动驾驶领域的预测和规划任务。该方法强调了将统一的端到端框架有效地扩展到基于融合方法的潜力。与仅依赖于基于相机的BEV的端到端学习方法相比在预测和规划任务上都有显着的性能改进同时也提高了感知性能。
https://arxiv.org/abs/2308.01006