当前位置: 首页 > news >正文

中国网站建设市场排名手机网站推荐几个

中国网站建设市场排名,手机网站推荐几个,做网站盈利方式,河南网站建设设计价格论文链接 BEVFormer BEVFormer#xff0c;这是一个将Transformer和时间结构应用于自动驾驶的范式#xff0c;用于从多相机输入中生成鸟瞰#xff08;BEV#xff09;特征利用查询来查找空间/时间#xff0c;并相应地聚合时空信息#xff0c;从而为感知任务提供更强的表示…论文链接 BEVFormer BEVFormer这是一个将Transformer和时间结构应用于自动驾驶的范式用于从多相机输入中生成鸟瞰BEV特征利用查询来查找空间/时间并相应地聚合时空信息从而为感知任务提供更强的表示 0. Abstract BEVFormer通过时空转换器学习统一的BEV表示以支持多个自动驾驶感知任务过预定义的网格状BEV查询与空间和时间空间相互作用以利用空间和时间信息为了聚合空间信息设计了空间交叉注意力每个BEV查询从不同摄像机视图中提取感兴趣区域的空间特征对于时间信息提出了时间自注意力以循环地融合历史BEV信息 1. Abstract 相比于基于激光雷达的对应方法摄像头拥有能够检测远距离物体和识别基于视觉的道路元素例如交通信号灯、停车线的优势基于单目框架和跨摄像头后处理的方法性能和效率较低作为单目框架的替代方案更统一的框架是从多摄像头图像中提取整体表示 鸟瞰图BEV是周围场景的常用表示清楚地呈现了物体的位置和规模BEV 是连接时空空间的理想桥梁利用 BEV 特征循环传递从过去到现在的时间信息与 RNN 异曲同工 BEVFormer 包含三个关键设计 网格状 BEV 查询通过注意力机制灵活地融合空间和时间特征空间交叉注意力模块聚合来自多个维度的空间特征时间自注意力模块用于从历史 BEV 特征中提取时间信息 该模型可以与不同的特定任务头进行端到端 3D 对象检测和地图分割 本文的主要贡献 提出了 BEVFormer**一种时空转换器编码器**可将多摄像机和/或时间戳输入投射到 BEV 表示中。凭借统一的 BEV 特征可以同时支持多个自动驾驶感知任务包括 3D 检测和地图分割设计了可学习的 BEV 查询以及空间交叉注意层和时间自注意层分别从跨摄像机查找空间特征和从历史 BEV 查找时间特征然后将它们聚合成统一的 BEV 特征在多个具有挑战性的基准上评估了所提出的 BEVFormer。始终实现了改进的性能 2. Related Work 2.1 Transformer-based 2D perception DETR 使用一组对象查询直接由交叉注意力解码器生成检测结果但训练时间长Deformable DETR 可变形注意力与局部感兴趣区域交互仅对每个参考点附近的 K 个点进行采样并计算注意力结果效率很高并显着缩短了训练时间 2.2 Camera-based 3D Perception 经典方案 基于 2D 边界框预测 3D 边界框将图像特征转换为 BEV 特征并从自上而下的视图预测 3D 边界框利用深度估计或分类深度分布中的深度信息将图像特征转换为 BEV 特征 **多相机生成 BEV ** 通过逆透视映射 (IPM) 将透视图转换为 BEV根据深度分布生成 BEV 特征通过堆叠来自多个时间戳的BEV特征来考虑时间信息 3. BEVFormer 提出了一种新的基于 Transformer 的 BEV 生成框架它可以通过注意力机制有效聚合来自多视图相机的时空特征和历史 BEV 特征 3.1 Overall Architecture BEVFormer 有 6 个编码器层每个编码器层都遵循 Transformer 的传统结构 除此之外有三种定制设计即 BEV 查询、空间交叉注意力和时间自注意力 BEV 查询网格状的可学习参数旨在通过注意机制从多摄像机视图查询 BEV 空间中的特征 空间交叉注意力和时间自注意力与 BEV 查询一起使用的注意力层用于根据 BEV 查询查找和聚合多摄像机图像中的空间特征以及历史 BEV 中的时间特征 3.2 BEV Queries 预先定义一组网格状的可学习参数 Q ∈ R H × W × C Q ∈ \mathbb{R}^{H×W×C} Q∈RH×W×C 作为 BEVFormer 的查询其中 H、W 是 BEV 平面的空间形状位于 Q 的 p ( x , y ) p (x, y) p(x,y) 处的查询 Q p ∈ R 1 × C Q_p ∈ \mathbb{R}^{1×C} Qp​∈R1×C 负责 BEV 平面中相应的网格单元区域BEV 平面中的每个网格单元对应于现实世界的 s 米大小。默认情况下BEV 功能的中心对应于本车的位置将 BEV 查询 Q 输入到 BEVFormer 之前将可学习的位置嵌入添加到其中 3.3 Spatial Cross-Attention 多摄像头的 3D 感知输入规模大故开发了基于可变形注意力的空间交叉注意力 每个 BEV 查询 Q p Q_p Qp​ 仅与其跨摄像机视图的感兴趣区域交互 首先将 BEV 平面上的每个查询提升为类似柱子的查询从柱子中采样 Nref 3D 参考点然后将这些点投影到 2D 视图。投影的2D点只能落在某些视图上而其他视图不会命中 将点击视图称为 Vhit。将这些 2D 点视为查询 Q p Q_p Qp​ 的参考点并从这些参考点周围的命中视图 Vhit 中采样特征 对采样特征进行加权求和作为空间交叉注意力SCA的输出 S C A ( Q p , F t ) 1 ∣ V h i t ∣ ∑ i ∈ V h i t ∑ j 1 N r e f D e f o r m A t t n ( Q p , P ( p , i , j ) , F t i ) (Eq.2) SCA(Q_p, F_t) \frac{1}{|V_{hit}|} \underset{i∈Vhit}∑ \sum\limits^{N_{ref}}_{j1} DeformAttn(Q_p, \mathcal{P}(p,i,j), F^i_t ) \tag{Eq.2} SCA(Qp​,Ft​)∣Vhit​∣1​i∈Vhit∑​j1∑Nref​​DeformAttn(Qp​,P(p,i,j),Fti​)(Eq.2) 其中 i 索引相机视图j 索引参考点Nref 是每个 BEV 查询的总参考点。 F t i F_t^i Fti​ 是第 i 个摄像机视图的特征。对于每个 BEV 查询 Q p Q_p Qp​我们使用投影函数 P ( p , i , j ) \mathcal{P}(p,i,j) P(p,i,j) 来获取第 i 个视图图像上的第 j 个参考点 对于投影函数 首先计算与位于 Q 的 p ( x , y ) p(x,y) p(x,y) 处的查询 Q p Q_p Qp​ 对应的现实世界位置 ( x ′ , y ′ ) (x,y) (x′,y′) x ′ ( x − W 2 ) × s ; y ′ ( y − H 2 ) × s (Eq.3) x(x-\frac{W}{2})\times s;\ \ \ \ y(y-\frac{H}{2})\times s \ \tag{Eq.3} x′(x−2W​)×s;    y′(y−2H​)×s (Eq.3) HW是BEV查询的空间形状s 是BEV网格的分辨率大小 ( x ′ y ′ ) (xy) (x′y′) 是本车位置为原点的坐标 预先定义了一组锚点高度 { z j ′ } j 1 N r e f \{z_j\}^{N_{ref}}_{j1} {zj′​}j1Nref​​以确保我们能够捕获出现在不同高度的线索。这样对于每个查询 Q p Q_p Qp​我们获得了3D参考点 ( x ′ , y ′ , z j ′ ) j 1 N r e f (x,y,z_j)^{N_{ref}}_{j1} (x′,y′,zj′​)j1Nref​​ 的支柱 P ( p , i , j ) ( x i j , y i j ) , w h e r e z i j ⋅ [ x i j y i j 1 ] T T i ⋅ [ x ′ y ′ z j ′ 1 ] T \begin{align} \mathcal{P}(p,i,j)(x_{ij},y_{ij}), \\ where\ \ z_{ij} \cdot [x_{ij}\ \ y_{ij}\ \ 1]^T T_i\cdot[x\ \ y\ \ z_j\ \ 1]^T \tag{Eq.4} \end{align} P(p,i,j)where  zij​⋅[xij​  yij​  1]T​(xij​,yij​),Ti​⋅[x′  y′  zj′​  1]T​(Eq.4)​ 3.4 Temporal Self-Attention 给定当前时间戳 t t t 处的 BEV 查询 Q Q Q 和时间戳 t − 1 t−1 t−1 处保留的历史 BEV 特征 B t − 1 B_{t−1} Bt−1​ 首先根据自我运动将 B t − 1 B_{t−1} Bt−1​ 与 Q Q Q 对齐以使同一网格处的特征对应于相同的现实世界位置 将对齐的历史 BEV 特征 B t − 1 B_{t−1} Bt−1​ 表示为 B t − 1 ′ B_{t−1} Bt−1′​ 时间自注意力TSA层对特征之间的时间联系进行建模 T S A ( Q p , { Q , B t − 1 ′ } ) ∑ V ∈ { Q , B t − 1 ′ } D e f o r m A t t n ( Q p , p , V ) , TSA(Q_p,\{Q, B_{t−1}\}) \underset{V ∈\{Q,B_{t−1}\}}{\sum} DeformAttn(Q_p,p,V), TSA(Qp​,{Q,Bt−1′​})V∈{Q,Bt−1′​}∑​DeformAttn(Qp​,p,V), Q p Q_p Qp​ 表示位于 p ( x , y ) p (x, y) p(x,y) 处的 BEV 查询时间自注意力中的偏移量 Δ p Δp Δp 是通过 Q Q Q 和 B t − 1 ′ B_{t−1} Bt−1′​ 的串联来预测的对于每个序列的第一个样本时间自注意力将退化为没有时间信息的自注意力用重复的 BEV 查询 { Q , Q } \{Q,Q\} {Q,Q} 替换 BEV 特征 { Q , B t − 1 ′ } \{Q,B_{t−1}\} {Q,Bt−1′​} 时间自注意力可以更有效地建模长时间依赖性 BEVFormer 从之前的 BEV 特征中提取时间信息而不是多个堆叠 BEV 特征因此需要更少的计算成本并受到更少的干扰信息 3.5 Applications of BEV Features 3D 目标检测 基于 2D 检测器 Deformable DETR 设计了一个端到端 3D 检测头。修改包括使用单尺度 BEV 特征 Bt 作为解码器的输入预测 3D 边界框和速度而不是 2D 边界框以及仅使用 L1 损失来监督 3D 边界框回归借助检测头模型可以端到端预测 3D 边界框和速度无需 NMS 后处理 地图分割 基于 2D 分割方法 Panoptic SegFormer 设计了一个地图分割头基于BEV的地图分割与常见的语义分割基本相同 3.6 Implementation Details 训练阶段 对于时间戳 t 的每个样本从过去 2 秒的连续序列中随机采样另外 3 个样本将这四个样本的时间戳记为 t−3、t−2、t−1 和 t循环生成 BEV 特征 { B t − 3 , B t − 2 , B t − 1 } \{B_{t−3}, B_{t−2}, B_{t−1}\} {Bt−3​,Bt−2​,Bt−1​}并且此阶段不需要梯度对于时间戳 t−3 的第一个样本没有先前的 BEV 特征并且时间自注意力退化为自注意力模型基于多相机输入和先验BEV特征 B t − 1 B_{t−1} Bt−1​ 生成BEV特征 B t B_t Bt​使得 B t B_t Bt​包含跨越四个样本的时间和空间线索最后我们将 BEV 特征 B t B_t Bt​ 输入到检测和分割头中并计算相应的损失函数 推理阶段 在推理阶段按时间顺序评估视频序列的每一帧前一个时间戳的BEV特征被保存并用于下一个时间戳 4. Experiments 数据集 nuScenes DatasetWaymo Open Dataset 4.1 Experimental Settings 两种主干从 FCOS3D 检查点初始化的 ResNet101-DCN 和从 DD3D 检查点初始化的VoVnet-99利用 FPN 的输出多尺度特征大小为 1/16、1/32、1/64维度为 C 256对于nuScenes上的实验BEV查询的默认大小为200×200X轴和Y轴的感知范围为[−51.2m51.2m]BEV网格的分辨率s的大小为0.512m用 24 个时期训练模型学习率为 2 × 1 0 − 4 2×10^{−4} 2×10−4对于 Waymo 上的实验BEV查询的默认空间形状为300×220X轴的感知范围为[−35.0m75.0m] Y 轴为 [−75.0m, 75.0m]。每个网格的分辨率 s 的大小为0.5m Baseline 为了消除任务头的影响并公平地比较其他 BEV 生成方法使用 VPN 和 Lift-Splat 来替换我们的 BEVFormer 并保持任务头和其他设置相同通过将时间自注意力调整为普通自注意力而不使用历史 BEV 特征将 BEVFormer 改编成名为 BEVFormer-S 的静态模型 4.2 3D Object Detection Results 4.3 Multi-tasks Perception Results 4.4 Ablation Study 空间交叉注意力的有效性 在可比较的模型规模下可变形注意力明显优于其他注意力机制。全局注意力消耗过多的GPU内存点交互的感受野有限。稀疏注意力可以实现更好的性能因为它与先验确定的感兴趣区域交互平衡感受野和 GPU 消耗 时间自注意力的有效性 时间信息的作用主要有以下几个方面 时间信息的引入极大地有利于速度估计的准确性利用时间信息预测物体的位置和方向更加准确由于时间信息包含过去的对象线索我们在严重遮挡的对象上获得了更高的召回率 模型规模和延迟 从三个方面消除了 BEVFormer 的尺度包括是否使用多尺度视图特征、BEV 查询的形状和层数以验证性能和推理延迟之间的权衡 4.5 Visualization Results 5. Discussion and Conclusion 提出了 BEVFormer 从多摄像头输入生成鸟瞰图特征。 BEVFormer 可以有效聚合空间和时间信息并生成强大的 BEV 功能同时支持 3D 检测和地图分割任务。 局限性基于相机的方法在效果和效率上与基于激光雷达的方法仍然存在一定的差距。从 2D 信息准确推断 3D 位置仍然是基于相机的方法的长期挑战 更广泛的影响BEVFormer 所展示的优势例如更准确的速度估计和对低可见度物体的更高召回率对于构建更好、更安全的自动驾驶系统及其他系统至关重要
http://www.pierceye.com/news/926330/

相关文章:

  • 有关建筑网站建设方案案例平台网站建设哪家有
  • 网站域名跳转是怎么做的空间一个数据库可以做几个网站
  • asp网站幻灯片不显示微商刚起步怎么找客源
  • 婚恋网站翻译可以做吗科技局网站建设方案
  • 长沙哪里学网站建设德阳做网站的公司
  • 制作短链接网站做抽奖网站违法吗
  • 网站备案每年审吗做网站做推广
  • 网站名称 规则个人网页模板背景
  • 网站制作方案策划简历网站建设咨询有客诚信网站建设咨询
  • 格尔木市住房和城乡建设局网站能看全景的地图软件
  • 一站式网站建设与运营wordpress后台代码修改
  • 企业品牌类网站有哪些做网站建设的公司是什么类型
  • 自己制作的网站怎么做分页2022建站市场
  • 网贷审核网站怎么做wordpress 文章列表页
  • 搬家网站建设公司西安是哪个省市
  • php 网站 整合 数据库智能建站系统个人网站
  • 福田区罗湖区宝安区龙华区seo上首页排名
  • 网站建设业务员提成企业网站 需求
  • 做淘宝客网站 首选霍常亮国外网页设计
  • 天津小型企业网站设计方案网页升级访问每天自动更新 下载
  • 好的学习网站打广告壹搜网站建设优化排名
  • 响应式设计 手机网站手机自己制作app软件
  • 东方头条网站源码杭州正晖建设工程有限公司网站
  • 阿里巴巴网站建设与维护深圳民治网站建设
  • 郑州短视频代运营seo外链是什么
  • 网站建设公司 经营资质wordpress文学
  • 手机网站建设请示常州建设网站公司哪家好
  • 网站开发报价ppt重庆沙坪坝有哪些大学
  • 牛商网做的包装盒网站怎么在门户网站上发布
  • 北京网络公司建站成品app直播源码下载