网站开发怎么设置打印按钮,重庆森林经典台词 凤梨罐头,产品设计开发流程图,会声会影免费模板网站文章目录 1. 前言1.1 3D VS 4D1.2 .特征融合过程中可能遇到的问题1.3 .BEV提出背景1.4 .BEV最终得到了什么1.5 .输入数据格式 2. 背景/Motivation2.1 为什么视觉感知要用BEV#xff1f;2.2 生成BEV视角的方法有哪些#xff1f;为何选用Transformer呢#xff1f; 3. Method/S… 文章目录 1. 前言1.1 3D VS 4D1.2 .特征融合过程中可能遇到的问题1.3 .BEV提出背景1.4 .BEV最终得到了什么1.5 .输入数据格式 2. 背景/Motivation2.1 为什么视觉感知要用BEV2.2 生成BEV视角的方法有哪些为何选用Transformer呢 3. Method/Strategy——BEVFormer3.1 Overall Architecture3.2 BEV Queries3.3 SCA: Spatial cross-attention3.4 TSA: Temporal self-attention3.5 Application of BEV Features3.6 Implementation details 4. Experiments4.1 experimental settings4.2 3D目标检测结果4.3 multi-tasks perception results4.4 消融试验4.4.1Spatial Cross-attention有效性4.4.2Temporal Self-attention有效性4.4.3Model Scale and Latency 5. Discussion 1. 前言
1.1 3D VS 4D
BEV空间的特征我们可以当作是3D的但是能不能再拓展一步呢如果再考虑到时间维度那就是一个4D特征空间了包括是时序信息时序特征更适合预测速度轨迹检测等任务而且还可以进行‘猜想’.
1.2 .特征融合过程中可能遇到的问题
1.自身运动补偿车在运动不同时刻之间的特征要对齐
2.时间差异不同传感器可能具有时间差要对齐这部分信息
3.空间差异最后肯定都要映射到同一坐标系空间位置特征也要对齐
4.谁去对齐呢肯定不是手动完成的这些都交给模型去学习就好了1.3 .BEV提出背景
1.相当于我们在上帝视角下重构了一个特征空间空间的大小我们自己定义
2.特征空间相当于一个网格网格的间隔也可以自己定义对应精度也会有差异
3.在特征空间中我们可以以全局的视角来进行预测特征都给你了咋用你来定
4.难点既想做的细致还想节约计算成本怎么办BevFormer它来了1.4 .BEV最终得到了什么
一个核心纯视觉解决方案多个视角摄像头进行特征融合 两个策略将Attention应用于时间与空间维度其实就是对齐特征 三个节约Attention计算简化特征映射简化粗粒度特征空间 基本奠定了框架结构时间空间DeformableAttention
1.5 .输入数据格式
输入张量bsqueuecamCHW
queue表示连续帧的个数主要解决遮挡问题
cam表示每帧中包含的图像数量nuScenes数据集中有6个
CHW分别表示图片的通道数图片的高度图片的宽度 我们只用这6个视觉的CAM数据.
2. 背景/Motivation
2.1 为什么视觉感知要用BEV
相机图像描述的是一个2D像素世界然而自动驾驶中利用相机感知结果的后续决策、路径规划都是在车辆所处的3D世界下进行。由此引入的2D和3D维度不匹配就导致基于相机感知结果直接进行自动驾驶变得异常困难。
这种感知和决策规划的空间维度不匹配的矛盾也体现在学开车的新手上。倒车泊车时新手通过后视镜观察车辆周围很难直观地构建车子与周围障碍物的空间联系容易导致误操作剐蹭或需要尝试多次才能泊车成功本质上还是新手从2D图像到3D空间的转换能力较弱。基于相机图像平面感知结果进行决策规划的自动驾驶AI就好比缺乏空间理解力的驾驶新手很难把车开好。
实际上利用感知结果进行决策和路径规划问题还出现在多视角融合过程中在每个相机上进行目标检测然后对目标进行跨相机融合。如2021 TESLA AI Day给出的图1带拖挂的卡车分布在多个相机感知野内在这种场景下试图通过目标检测和融合来真实地描述卡车在真实世界中的姿态存在非常大的挑战。 图1. 拖挂卡车在多相机中的成像 为了解决这些问题很多公司采用硬件补充深度感知能力如引入毫米波雷达或激光雷达与相机结合辅助相机把图像平面感知结果转换到自车所在的3D世界描述这个3D世界的专业术语叫做BEV map或BEV features鸟瞰图或鸟瞰图特征如果忽略高程信息就把拍扁后的自车坐标系叫做BEV坐标系即鸟瞰俯视图坐标系。 但另外一些公司则坚持不引入深度感知传感器他们尝试从本质入手基于视觉学习得到从图像理解空间的能力让自动驾驶AI系统更像老司机例如TESLA。Elon Musk认为人类不是超人也不是蝙蝠侠不能够眼放激光也没安装雷达但是通过眼睛捕捉到的图像人类反复练习就可以构建出对周围世界的3D空间理解能力从而很好地掌握驾驶这项能力那么要像人一样单纯利用眼睛相机进行自动驾驶就必须具备从2D图像平面到3D自车空间BEV的转换能力。 传统获取BEV map/features的方法有局限性它一般是利用相机外参以及地面平面假设即IPMInverse Perspective Mapping)方法将图像平面的感知结果反投影到自车BEV坐标系。Tesla以前的方案也是这样然而当车辆周围地面不满足平面假设且多相机视野关联受到各种复杂环境影响的时候这类方法就难以应付。 针对IPM方法获取BEV遇到的困难TESLA自动驾驶感知负责人Andrej Karparthy的团队直接在神经网络中完成图像平面到BEV的空间变换这一改变成为了2020年10月发布的FSD Beta与之前Autopilot产品最显著的差别。TESLA利用Transformer生成BEV Featrues得到的Features通道数是256IPM方法最多保留RGB3个channel这样能极大程度地保留图像信息用于后续基于BEV Features的各种任务如动、静态目标检测和线检测等。
2.2 生成BEV视角的方法有哪些为何选用Transformer呢
把相机2D平面图像转换成BEV视角的方法有两种视觉几何方法和神经网络方法。
视觉几何方法基于IPM进行逐像素几何投影转换为BEV视角再对多个视角的部分BEV图拼接形成完整BEV图。此方法有两个假设1.路面与世界坐标系平行2.车辆自身的坐标系与世界坐标系平行。前者在路面非平坦的情况下并不满足后者依赖车辆姿态参数Pitch和Roll实时校正且精度要求较高不易实现。
神经网络方法用神经网络生成BEV其中的关键要找到合适的方法实现神经网络内部Feature Map空间尺寸上的变换。
实现空间尺寸变换的神经网络主流操作有两种方法如图2所示MLP中的Fully Connected Layer和Transformer Cross Attention图片引用自《超长延迟的特斯拉AI Day解析讲明白FSD车端感知》。 图2. MLP和Transformer实现空间变换的对比 TESLA在2021年AI Day上仅介绍了用Transformer转换BEV Features的技术思想并未披露更多实现细节。论文BEVFormer充分研究了TESLA的技术思想后利用Transformer融合图像的时、空特征得到BEV Features与TESLA的关键方法、实现效果都非常接近。BEVFormer既通过论文披露了详尽方法又在2022年6月开源了工程接下来就围绕BEVFormer介绍如何通过Transformer获取BEV Features。
3. Method/Strategy——BEVFormer
3.1 Overall Architecture
如下图3所示BEVFormer主体部分有6层结构相同的BEVFormer encoder layers每一层都是由以transformer为核心的modulesTSASCA再加上FF、Add和Norm组成。BEVFormer encoder layer结构中有3个特别的设计BEV Queries Spatial Cross-attentionSCA和Temporal Self-attentionTSA。其中BEV Queries是栅格形可学习参数承载着通过attention机制在multi-camera views中查询、聚合的features。SCA和TSA是以BEV Queries作为输入的注意力层负责实施查询、聚合空间features来自multi-camera images和时间features来自历史BEV的过程。
下面分步骤观察BEV完整模型的前向推理过程 图3. BEVFormer架构 3.2 BEV Queries
BEVFormer采用显性定义BEV的方式BEV Queries就是其中的显性BEV features。
可从3个概念循序渐进地认识/理解BEV QueriesBEV平面 → BEV 感知空间 → BEV Queries。
3.3 SCA: Spatial cross-attention
如上图b所示作者设计了一种空间交叉注意力机制使 BEV queries 从多个相机的image Features中提取所需信息并转换为BEV Features。
每个BEV栅格的query在image features的哪些范围提取信息呢这里有3个方案
一、从image features的所有点上提取信息即global attention。
二、从BEV栅格在image features的投影点上提取信息。
三、从BEV栅格在image features的投影点及其周围取信息即deformable attention。
由于使用了多尺度图像特征和高分辨率 BEV 特征200x200如果采用方案一 global attention 会带来无法负担的计算代价显存和计算复杂度。但是方案一完全用不到相机内外参这算是它独有的优势。
方案二依赖非常精确的相机内、外参且不能充分利用image features上的局部区域信息。
3.4 TSA: Temporal self-attention 综合3.3和3.4节观察6个 BEVFormer Encoder Layers的完整结构会发现 BEV query 既能通过 spatial cross-attention 聚合空间特征又能通过 temporal self-attention 聚合时序特征这个过程会重复多次让时空特征融合能够相互促进最终得到更好的融合BEV features。
3.5 Application of BEV Features 3.6 Implementation details 4. Experiments
4.1 experimental settings 4.2 3D目标检测结果
BEVFormer的3D检测性能如Table1、Table2和Table3所示远超之前最优方法DETR3D。
BEVFormer引入了temporal information因此它在估计目标速度方面效果也很好。从速度估计指标mean Average Velocity mAVE来看BEVFormer误差为0.378m/s效果远好于同类基于相机的方法甚至逼近了基于激光的方法。
4.3 multi-tasks perception results
联合训练3D detection和map segmentation任务与单独训练比较训练效果如Table4所示对3D目标检测和分割中的车辆类语义感知联合训练效果有提升对分割中的road、lane类的语义感知联合训练效果反而会下降。
4.4 消融试验
4.4.1Spatial Cross-attention有效性
为了验证SCA的有效性利用不包含TSA的BEVFormer-S来设计消融试验结果如Table5所示。
默认的SCA基于deformable attention在对比试验中构建了基于2种不同attention机制的baselines1. 用global attention取代deformable attention2. 让每个query仅与它的图像参考点交互而不是像SCA那样query与图像参考点周围区域交互。为了扩大对比范围把BEVFormer中的BEV生成方法替换为了VPN和Lift-Spalt中的方法。从Table5结果可见Deformable Attention方法显著优于其它方法且在GPU Memory使用量和query兴趣区域大小之间实现了balance。
4.4.2Temporal Self-attention有效性
从Table1和Table4可见在相同的设置下BEVFormer相比于BEVFormer-S的性能大幅提升针对有挑战性的检测任务提升更明显。TSA主要是在以下方面影响性能提升的1.temporal information的引入对提高目标速度估计精度非常有益2.利用temporal information目标预测的location和orientations更精确3.受益于temporal information包含过去时刻object的信息如图4所示严重遮挡目标的recall 更高。根据nuScenes标注的遮挡程度把验证数据集进行划分成4部分来评估BEVFormer对各种程度遮挡的性能针对每个数据子集都会计算average recall匹配时把中心距离的阈值设为2m。 图5. BEVFormer中TSA对不同程度遮挡目标的检测性能分析 4.4.3Model Scale and Latency
针对不同Scale Settings的BEVFormer对比检测性能和latency结果如Table6所示。在3方面进行BEVFormer的Scale配置1. 输入到BEVFormer Encoder的features是multi-scale还是single-scale2.BEV Queries/features的尺寸3. encoder layer数目。 从实验结果看来Backbone的Latency远大于BEVFormer因此Latency优化的主要瓶颈在于Backbone而不是BEVFormer这里指BEVFormer Encoder部分BEVFormer可以采用不同的Scale具备支持灵活平衡性能和efficiency的特性。
5. Discussion
1.理论上视觉图像的数据比激光数据稠密但基于视觉的BEV效果还是比基于激光的方法性能差那么也说明了理论上视觉还有可提升空间。
2.BEV Features能用于泊车位检测么 可能可以用BEVFormer在环视鱼眼相机上生成BEV features用于泊车位检测或近距离目标的精确检测。
3.显性地引入BEV 特征限制了最大检测距离在高速公路场景检测远处目标非常重要如何权衡BEV的大小与检测距离是一个需要考虑的问题。
4.如何在检测精度和grid大小之间做平衡是一个问题。针对2、3问题的一个优化方向设计自适应尺寸的BEV特征。这里的自适应是指根据场景来调整BEV尺寸或精度。
参考文档https://zhuanlan.zhihu.com/p/538490215