当前位置：首页 > news >正文

中国网站建设市场排名手机网站推荐几个

news 2025/11/16 16:54:41

中国网站建设市场排名,手机网站推荐几个,做网站盈利方式,河南网站建设设计价格论文链接 BEVFormer BEVFormer#xff0c;这是一个将Transformer和时间结构应用于自动驾驶的范式#xff0c;用于从多相机输入中生成鸟瞰#xff08;BEV#xff09;特征利用查询来查找空间/时间#xff0c;并相应地聚合时空信息#xff0c;从而为感知任务提供更强的表示…论文链接 BEVFormer BEVFormer这是一个将Transformer和时间结构应用于自动驾驶的范式用于从多相机输入中生成鸟瞰BEV特征利用查询来查找空间/时间并相应地聚合时空信息从而为感知任务提供更强的表示 0. Abstract BEVFormer通过时空转换器学习统一的BEV表示以支持多个自动驾驶感知任务过预定义的网格状BEV查询与空间和时间空间相互作用以利用空间和时间信息为了聚合空间信息设计了空间交叉注意力每个BEV查询从不同摄像机视图中提取感兴趣区域的空间特征对于时间信息提出了时间自注意力以循环地融合历史BEV信息 1. Abstract 相比于基于激光雷达的对应方法摄像头拥有能够检测远距离物体和识别基于视觉的道路元素例如交通信号灯、停车线的优势基于单目框架和跨摄像头后处理的方法性能和效率较低作为单目框架的替代方案更统一的框架是从多摄像头图像中提取整体表示鸟瞰图BEV是周围场景的常用表示清楚地呈现了物体的位置和规模BEV 是连接时空空间的理想桥梁利用 BEV 特征循环传递从过去到现在的时间信息与 RNN 异曲同工 BEVFormer 包含三个关键设计网格状 BEV 查询通过注意力机制灵活地融合空间和时间特征空间交叉注意力模块聚合来自多个维度的空间特征时间自注意力模块用于从历史 BEV 特征中提取时间信息该模型可以与不同的特定任务头进行端到端 3D 对象检测和地图分割本文的主要贡献提出了 BEVFormer**一种时空转换器编码器**可将多摄像机和/或时间戳输入投射到 BEV 表示中。凭借统一的 BEV 特征可以同时支持多个自动驾驶感知任务包括 3D 检测和地图分割设计了可学习的 BEV 查询以及空间交叉注意层和时间自注意层分别从跨摄像机查找空间特征和从历史 BEV 查找时间特征然后将它们聚合成统一的 BEV 特征在多个具有挑战性的基准上评估了所提出的 BEVFormer。始终实现了改进的性能 2. Related Work 2.1 Transformer-based 2D perception DETR 使用一组对象查询直接由交叉注意力解码器生成检测结果但训练时间长Deformable DETR 可变形注意力与局部感兴趣区域交互仅对每个参考点附近的 K 个点进行采样并计算注意力结果效率很高并显着缩短了训练时间 2.2 Camera-based 3D Perception 经典方案基于 2D 边界框预测 3D 边界框将图像特征转换为 BEV 特征并从自上而下的视图预测 3D 边界框利用深度估计或分类深度分布中的深度信息将图像特征转换为 BEV 特征 **多相机生成 BEV ** 通过逆透视映射 (IPM) 将透视图转换为 BEV根据深度分布生成 BEV 特征通过堆叠来自多个时间戳的BEV特征来考虑时间信息 3. BEVFormer 提出了一种新的基于 Transformer 的 BEV 生成框架它可以通过注意力机制有效聚合来自多视图相机的时空特征和历史 BEV 特征 3.1 Overall Architecture BEVFormer 有 6 个编码器层每个编码器层都遵循 Transformer 的传统结构除此之外有三种定制设计即 BEV 查询、空间交叉注意力和时间自注意力 BEV 查询网格状的可学习参数旨在通过注意机制从多摄像机视图查询 BEV 空间中的特征空间交叉注意力和时间自注意力与 BEV 查询一起使用的注意力层用于根据 BEV 查询查找和聚合多摄像机图像中的空间特征以及历史 BEV 中的时间特征 3.2 BEV Queries 预先定义一组网格状的可学习参数 Q ∈ R H × W × C Q ∈ \mathbb{R}^{H×W×C} Q∈RH×W×C 作为 BEVFormer 的查询其中 H、W 是 BEV 平面的空间形状位于 Q 的 p ( x , y ) p (x, y) p(x,y) 处的查询 Q p ∈ R 1 × C Q_p ∈ \mathbb{R}^{1×C} Qp∈R1×C 负责 BEV 平面中相应的网格单元区域BEV 平面中的每个网格单元对应于现实世界的 s 米大小。默认情况下BEV 功能的中心对应于本车的位置将 BEV 查询 Q 输入到 BEVFormer 之前将可学习的位置嵌入添加到其中 3.3 Spatial Cross-Attention 多摄像头的 3D 感知输入规模大故开发了基于可变形注意力的空间交叉注意力每个 BEV 查询 Q p Q_p Qp 仅与其跨摄像机视图的感兴趣区域交互首先将 BEV 平面上的每个查询提升为类似柱子的查询从柱子中采样 Nref 3D 参考点然后将这些点投影到 2D 视图。投影的2D点只能落在某些视图上而其他视图不会命中将点击视图称为 Vhit。将这些 2D 点视为查询 Q p Q_p Qp 的参考点并从这些参考点周围的命中视图 Vhit 中采样特征对采样特征进行加权求和作为空间交叉注意力SCA的输出 S C A ( Q p , F t ) 1 ∣ V h i t ∣ ∑ i ∈ V h i t ∑ j 1 N r e f D e f o r m A t t n ( Q p , P ( p , i , j ) , F t i ) (Eq.2) SCA(Q_p, F_t) \frac{1}{|V_{hit}|} \underset{i∈Vhit}∑ \sum\limits^{N_{ref}}_{j1} DeformAttn(Q_p, \mathcal{P}(p,i,j), F^i_t ) \tag{Eq.2} SCA(Qp,Ft)∣Vhit∣1i∈Vhit∑j1∑NrefDeformAttn(Qp,P(p,i,j),Fti)(Eq.2) 其中 i 索引相机视图j 索引参考点Nref 是每个 BEV 查询的总参考点。 F t i F_t^i Fti 是第 i 个摄像机视图的特征。对于每个 BEV 查询 Q p Q_p Qp我们使用投影函数 P ( p , i , j ) \mathcal{P}(p,i,j) P(p,i,j) 来获取第 i 个视图图像上的第 j 个参考点对于投影函数首先计算与位于 Q 的 p ( x , y ) p(x,y) p(x,y) 处的查询 Q p Q_p Qp 对应的现实世界位置 ( x ′ , y ′ ) (x,y) (x′,y′) x ′ ( x − W 2 ) × s ; y ′ ( y − H 2 ) × s (Eq.3) x(x-\frac{W}{2})\times s;\ \ \ \ y(y-\frac{H}{2})\times s \ \tag{Eq.3} x′(x−2W)×s; y′(y−2H)×s (Eq.3) HW是BEV查询的空间形状s 是BEV网格的分辨率大小 ( x ′ y ′ ) (xy) (x′y′) 是本车位置为原点的坐标预先定义了一组锚点高度 { z j ′ } j 1 N r e f \{z_j\}^{N_{ref}}_{j1} {zj′}j1Nref以确保我们能够捕获出现在不同高度的线索。这样对于每个查询 Q p Q_p Qp我们获得了3D参考点 ( x ′ , y ′ , z j ′ ) j 1 N r e f (x,y,z_j)^{N_{ref}}_{j1} (x′,y′,zj′)j1Nref 的支柱 P ( p , i , j ) ( x i j , y i j ) , w h e r e z i j ⋅ [ x i j y i j 1 ] T T i ⋅ [ x ′ y ′ z j ′ 1 ] T \begin{align} \mathcal{P}(p,i,j)(x_{ij},y_{ij}), \\ where\ \ z_{ij} \cdot [x_{ij}\ \ y_{ij}\ \ 1]^T T_i\cdot[x\ \ y\ \ z_j\ \ 1]^T \tag{Eq.4} \end{align} P(p,i,j)where zij⋅[xij yij 1]T(xij,yij),Ti⋅[x′ y′ zj′ 1]T(Eq.4) 3.4 Temporal Self-Attention 给定当前时间戳 t t t 处的 BEV 查询 Q Q Q 和时间戳 t − 1 t−1 t−1 处保留的历史 BEV 特征 B t − 1 B_{t−1} Bt−1 首先根据自我运动将 B t − 1 B_{t−1} Bt−1 与 Q Q Q 对齐以使同一网格处的特征对应于相同的现实世界位置将对齐的历史 BEV 特征 B t − 1 B_{t−1} Bt−1 表示为 B t − 1 ′ B_{t−1} Bt−1′ 时间自注意力TSA层对特征之间的时间联系进行建模 T S A ( Q p , { Q , B t − 1 ′ } ) ∑ V ∈ { Q , B t − 1 ′ } D e f o r m A t t n ( Q p , p , V ) , TSA(Q_p,\{Q, B_{t−1}\}) \underset{V ∈\{Q,B_{t−1}\}}{\sum} DeformAttn(Q_p,p,V), TSA(Qp,{Q,Bt−1′})V∈{Q,Bt−1′}∑DeformAttn(Qp,p,V), Q p Q_p Qp 表示位于 p ( x , y ) p (x, y) p(x,y) 处的 BEV 查询时间自注意力中的偏移量 Δ p Δp Δp 是通过 Q Q Q 和 B t − 1 ′ B_{t−1} Bt−1′ 的串联来预测的对于每个序列的第一个样本时间自注意力将退化为没有时间信息的自注意力用重复的 BEV 查询 { Q , Q } \{Q,Q\} {Q,Q} 替换 BEV 特征 { Q , B t − 1 ′ } \{Q,B_{t−1}\} {Q,Bt−1′} 时间自注意力可以更有效地建模长时间依赖性 BEVFormer 从之前的 BEV 特征中提取时间信息而不是多个堆叠 BEV 特征因此需要更少的计算成本并受到更少的干扰信息 3.5 Applications of BEV Features 3D 目标检测基于 2D 检测器 Deformable DETR 设计了一个端到端 3D 检测头。修改包括使用单尺度 BEV 特征 Bt 作为解码器的输入预测 3D 边界框和速度而不是 2D 边界框以及仅使用 L1 损失来监督 3D 边界框回归借助检测头模型可以端到端预测 3D 边界框和速度无需 NMS 后处理地图分割基于 2D 分割方法 Panoptic SegFormer 设计了一个地图分割头基于BEV的地图分割与常见的语义分割基本相同 3.6 Implementation Details 训练阶段对于时间戳 t 的每个样本从过去 2 秒的连续序列中随机采样另外 3 个样本将这四个样本的时间戳记为 t−3、t−2、t−1 和 t循环生成 BEV 特征 { B t − 3 , B t − 2 , B t − 1 } \{B_{t−3}, B_{t−2}, B_{t−1}\} {Bt−3,Bt−2,Bt−1}并且此阶段不需要梯度对于时间戳 t−3 的第一个样本没有先前的 BEV 特征并且时间自注意力退化为自注意力模型基于多相机输入和先验BEV特征 B t − 1 B_{t−1} Bt−1 生成BEV特征 B t B_t Bt使得 B t B_t Bt包含跨越四个样本的时间和空间线索最后我们将 BEV 特征 B t B_t Bt 输入到检测和分割头中并计算相应的损失函数推理阶段在推理阶段按时间顺序评估视频序列的每一帧前一个时间戳的BEV特征被保存并用于下一个时间戳 4. Experiments 数据集 nuScenes DatasetWaymo Open Dataset 4.1 Experimental Settings 两种主干从 FCOS3D 检查点初始化的 ResNet101-DCN 和从 DD3D 检查点初始化的VoVnet-99利用 FPN 的输出多尺度特征大小为 1/16、1/32、1/64维度为 C 256对于nuScenes上的实验BEV查询的默认大小为200×200X轴和Y轴的感知范围为[−51.2m51.2m]BEV网格的分辨率s的大小为0.512m用 24 个时期训练模型学习率为 2 × 1 0 − 4 2×10^{−4} 2×10−4对于 Waymo 上的实验BEV查询的默认空间形状为300×220X轴的感知范围为[−35.0m75.0m] Y 轴为 [−75.0m, 75.0m]。每个网格的分辨率 s 的大小为0.5m Baseline 为了消除任务头的影响并公平地比较其他 BEV 生成方法使用 VPN 和 Lift-Splat 来替换我们的 BEVFormer 并保持任务头和其他设置相同通过将时间自注意力调整为普通自注意力而不使用历史 BEV 特征将 BEVFormer 改编成名为 BEVFormer-S 的静态模型 4.2 3D Object Detection Results 4.3 Multi-tasks Perception Results 4.4 Ablation Study 空间交叉注意力的有效性在可比较的模型规模下可变形注意力明显优于其他注意力机制。全局注意力消耗过多的GPU内存点交互的感受野有限。稀疏注意力可以实现更好的性能因为它与先验确定的感兴趣区域交互平衡感受野和 GPU 消耗时间自注意力的有效性时间信息的作用主要有以下几个方面时间信息的引入极大地有利于速度估计的准确性利用时间信息预测物体的位置和方向更加准确由于时间信息包含过去的对象线索我们在严重遮挡的对象上获得了更高的召回率模型规模和延迟从三个方面消除了 BEVFormer 的尺度包括是否使用多尺度视图特征、BEV 查询的形状和层数以验证性能和推理延迟之间的权衡 4.5 Visualization Results 5. Discussion and Conclusion 提出了 BEVFormer 从多摄像头输入生成鸟瞰图特征。 BEVFormer 可以有效聚合空间和时间信息并生成强大的 BEV 功能同时支持 3D 检测和地图分割任务。局限性基于相机的方法在效果和效率上与基于激光雷达的方法仍然存在一定的差距。从 2D 信息准确推断 3D 位置仍然是基于相机的方法的长期挑战更广泛的影响BEVFormer 所展示的优势例如更准确的速度估计和对低可见度物体的更高召回率对于构建更好、更安全的自动驾驶系统及其他系统至关重要

查看全文

http://www.pierceye.com/news/926330/