当前位置: 首页 > news >正文

手机备案网站营销网络建设怎么写

手机备案网站,营销网络建设怎么写,网站建设时关键词要怎么选呢,湖南网站设计方案自动驾驶感知新范式——BEV感知经典论文总结和对比#xff08;一#xff09; 博主之前的博客大多围绕自动驾驶视觉感知中的视觉深度估计#xff08;depth estimation#xff09;展开#xff0c;包括单目针孔、单目鱼眼、环视针孔、环视鱼眼等#xff0c;目标是只依赖于视…自动驾驶感知新范式——BEV感知经典论文总结和对比一 博主之前的博客大多围绕自动驾驶视觉感知中的视觉深度估计depth estimation展开包括单目针孔、单目鱼眼、环视针孔、环视鱼眼等目标是只依赖于视觉环视摄像头在车身周围产生伪激光雷达点云Pseudo lidar可以模拟激光雷达的测距功能辅助3D目标检测等视觉定位任务而且比激光雷达更加稠密。这是自动驾驶视觉感知的一个热门研究方向。 关于自动驾驶视觉感知最近两三年另外一个热门方向便是更为直接的bev视角下的视觉感知。不同于深度估计先显式获取各个像素点的深度再支持其他相关任务bev视角下可以实现端到端的目标检测、语义分割、轨迹预测等各项任务。由于这种方法pipline更加简单直接且能够更好地被下游规控所使用在同一个坐标系近期相关研究工作达到井喷趋势霸占各大SOTA榜单。现按照大致发展顺序介绍一系列经典模型帮助感兴趣的小伙伴快速了解相关内容。 0 为什么要在bev视角下做感知 对于纯视觉的感知来说准确地测距是最关键也是最难的问题。对单目测距来说这是一个病态问题对于图像中的物体难以判断它是一个远处的大目标还是一个近处的小目标。例如下图的场景以我们的经验对于车、人和建筑物尺度的大致判断来说镜头离道路上的车大概有几米到十几米的距离但细看会发现这是一个仿真场景假如人和车都是玩具的仿真只有十几厘米高那这个距离也就只有几十厘米而已了。 解决这个问题的一个方法是使用双目测距。传统方法是对双目进行严格的标定利用特征点匹配对极几何进行计算但这种方法计算量很大且严重依赖于标定质量同时基线的长度限制了测距的范围所以实际应用有较大的局限性。目前常用的视觉3D检测主要有以下两种方法 1.基于视觉几何的方法 这种方法依赖很多假设和先验知识 假设1地面平坦没有起伏和坑洞 假设2目标接地且可以看到接地点 先验1目标的实际高度或宽度可以通过分类的方式与经验平均值回归得到或照相机高度 先验2相机的焦距 满足了以上假设并且已知相关先验即可通过2D检测的结果经过相似三角形关系估算目标大致深度如下图深度ZH *f / h再通过内参转换估算出3D box的位置。 视觉几何深度估计 显而易见这种方法局限性很多首先两个假设和先验知识就很难获取其次对于多视角目标检测来说同一个目标可能同时出现在两个视角中且都不完整对其做拼接也非常困难。再次这种方法还依赖于2D检测的结果即使检测框很准由于目标角度的千变万化也难以表征目标在2D空间中的实际高度所以还需要大量的后处理工程进行优化。 2.基于深度估计的方法 即本文开头提到的方法先得到伪激光雷达点云再使用点云3D检测的方法这类方法最大问题就是严重依赖于深度估计的结果不能进行端到端的调优。由于深度估计方法的潜能目前并未挖掘充分所以也对结果产生了局限性。 基于以上问题具有上帝视角的鸟瞰图bird-eye-view(bev)是一个很好的解决方案。关于如何获取bev传统方法是进行逆透视变换IPM即通过多相机的内外参标定求得相机平面到地平面的单应性矩阵实现平面到平面的转换再进行多视角图像的拼接。效果如下 IPM示例 IPM相关的技术已比较成熟并广泛运用在自动泊车等场景中但也有不小的局限性比如同样依赖于标定的准确性且内外参必须固定而且从原理上说IPM只能表征地平面的信息有一定高度的目标都会在图片上产生畸变所以同样需要假设地面平坦、目标接地这就意味着难以应用在较远距离的感知任务中。 所以目前对bev大量的研究都是基于深度学习的方法。而且随着近年来transformer的横空出世深度学习网络对于全局特征的学习和多特征融合都有了相比CNN的显著提升所以bev是transformer非常合适的应用场景。下面介绍的一系列模型几乎都以transformer作为基础架构。 1 自底向上BEV特征建模的最初尝试LSS(Nvidia, 2020)[1] [1] Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D 代码GitHub - nv-tlabs/lift-splat-shoot: Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D (ECCV 2020) LSS是早期的比较直接的尝试即先估计每个像素的深度再通过内外参投影到bev空间。只是因为不存在深度标签这里并没有直接回归深度值而是对每个像素点预测一系列的离散深度值的概率文中是1-50m概率最大的深度值即为估计结果。如下图所示 BEV转换示例 此时我们可以得到深度分布特征α和图像特征c将二者做外积可以得到一个视锥特征frustum-shaped point cloud如下图左二所示因为近大远小的特点。这一步作者称为lift。 LSS框架 得到多视角的视锥特征后可以通过外参将视锥投影到bev平面。在bev平面下每个存在高度信息的像素称为体素voxel具有无限高度的voxel称为pillar[2]。我们将每个视锥的每个点分配给最近的pillar再执行sum pooling得到CxHxW的bev特征。作者采用cumsum trick来提升sum pooling 效率并把这一过程称为splat. [2] Pointpillars: Fast encoders for object detection from point clouds. 有了bev特征后就可以很方便的进行3D检测、语义分割、预测和规划等一系列任务作者把这个过程称为shoot。LSS方法可以得到稠密的bev特征缺点是由于每个像素都预测了一系列深度概率值计算量相对较大。LSS方法为bev感知提供了一种重要的思路。 2 自底向上的BEV检测思路BEVDET[2]和感知预测一体框架BEVerse[3](鉴智机器人2022 [2] BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View [3] BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving BEVdet是近期出现的基于LSS的自底向上建立BEV的方法。如下图所示先对多视角图像进行特征提取Image-view Encoder,再通过基于LSS的视角转换View Transformer将多视角特征投影到bev空间下再用和第一步类似的backbone对bev特征进行编码最后进行目标检测。这种方法虽然在LSS这一步存在不少冗余的计算但好处是得到了显式的bev特征可以做bev视角下的特征提取和数据增强并且可以使用任意的目标检测头。 BEVDet 在真值匹配和后处理上BEVdet也偏向传统使用了NMS但提出了scale-NMS即对不同类别的目标进行不同尺度的缩放来做更符合客观场景的目标框过滤如下图所示。 scale-NMS 鉴智的另一篇工作是**BEVerse**加入时序序列构建了感知预测一体的框架。基本思路是对于一个长度为N的时序序列每一帧分别做特征提取和基于LSS的视角转换再经过BEV时空编码器融合空间域和时域的多种特征最后经过多任务解码器做目标检测、建图和运动预测等下游任务。 BEVerse 感知预测一提的框架最初是从Wayve的Fiery[11]发展而来****同样是基于LSS视角转换。Fiery主要步骤如下 [4]FIERY: Future Instance Prediction in Bird’s-Eye View from Surround Monocular Cameras 代码FIERY: Future Instance Prediction in Bird’s-Eye View from Surround Monocular Cameras •从1到t时刻参照LSS思路预测每个点的深度分布并投影到bev空间 •根据ego-motion将1……t-1时刻特征都转换到t时刻Spatial Transformer module S •用3D卷积学习时序特征 •根据未来的标签y预测当前和未来的特征分布 •支撑未来的实例分割和预测任务 Fiery框架 BEVerse改善了Fiery的内存消耗提出了高效生成未来状态的迭代流。因为博主对轨迹预测的研究不是很深就不详述了具体可参照黄浴大佬的博客 黄浴BEVerse自动驾驶视觉为中心的BEV统一感知和预测框架 3 自顶向下稀疏bev 3D检测范式从DETR[5]到DETR3D[6](麻省理工、丰田、理想、清华等,2021 [5] End-to-End Object Detection with Transformers [6] DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries 代码GitHub - WangYueFt/detr3d LSS方法进行透视视角到bev视角转换是非常直接的但会带来较高的计算复杂度。而且仅从目标检测这个任务来说稠密的特征表达其实是非必要的因为最终目标是得到少量的target bbox。又因为我们有transformer这个大杀器让自顶向下的稀疏bev表示成为可能。DETR3D便是在bev空间中使用transformer进行自顶向下特征提取的新范式。 介绍DETR3D之前先要介绍DETR[5]facebook,2020和deformable DETR[7](商汤科技2021。 [7] Deformable DETR: Deformable Transformers for End-to-End Object Detection DETR是vision transformer用在目标检测的开山之作首先应用在2D检测。它将目标检测任务视为一个图像到集合的问题即给定一张图像模型的预测结果是一个包含了所有目标的无序集合。这打破了以faster-rcnn为代表的anchors和非极大值抑制NMS机制大大简化了目标检测pipeline。 [8] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks DETR 如上图所示DETR的主要框架是首先经过CNN提取特征再通过transformer encoder进行全局特征编码得到K和V再通过预设的object queries与上一步获取的K和V做cross-attention更新object queries再经过FFN(feed forward network)得到目标分类和bbox回归结果。这里的object queries代表每一个潜在的目标检测框个数即为最大支持的检测数目省去了预设大量anchors的步骤。作者使用的初始化方式是先进行全0初始化再加上位置编码也就是只保留位置信息与检测框的物理意义一致。 DETR另一个创新之处就是用匈牙利匹配算法Hungarian algorithm代替NMS机制在训练阶段计算损失函数之前先得到一对一的最大匹配而不是一对多的冗余匹配在推理阶段也直接得到最终结果不需要执行NMS实现了真正的端到端检测显著提高了效率。具体可参见https://zhuanlan.zhihu.com/p/345985277 Deformable DETR是针对DETR计算量大、收敛较慢、难以作用于高分辨率图像等问题基于可变卷积[9]思想提出了一种可变注意力机制deformable attention : 原生注意力机制 可变注意力机制 [9] Deformable convolutional networks 可变注意力机制避免了原生注意力机制中每个query和所有图像特征之间的交互计算而是引入了参考点reference points和采样点sampling points,每个object query对应一个参考点代表目标的初始位置它只和K个采样点做交互计算大大节省了计算量其中参考点和采样点的位置同样是可学习的推理的结果不是bbox的绝对坐标而是与参考点坐标的offset使推理结果与decoder attention直接相关有利于模型加速收敛。另外deformable DETR还使用cross attention进行多尺度特征之间的信息交互不需要FPN并用scale-level embedding来区分不同尺度对于小目标的检测效果提升显著。deformable DETR后续也成为一种重要的范式。 deformable DETR 本节要介绍的DETR3D即是建立在DETR和deformable DETR的基础上将2D检测推广到bev 3D检测的经典模型。 DETR3D 由于bev特征需要从多视角图像特征融合得到所以需要先对多视角图像提取特征文中用的是ResnetFPN没有transformer encoder模块。Decoder模块参照deformable DETR的思路在bev空间预设多个3D的object queries并从object queries经线性映射得到3D的参考点reference points)。下一步是3D的参考点如何与2D的特征做交互文中利用了内外参的先验信息将3D reference points投影到各个视角的图片上。由于多相机之间存在共视区域和盲区问题一个参考点可能投影到多个视角也可能一个视角也投不到所以作者加了一个二进制的mask代表当前视角是否被投影成功。 接下来是做cross-attention看代码后发现DETR3D的做法与DETR和deformable DETR都有一些不同object queries不是和DETR那样与全图交互也不是和deformable DETR那样先从object queries预测一些参考点再预测一些以参考点为基准的采样点然后和采样点的特征交互而是直接和3D参考点投影的2D参考点处的特征交互经过双线性插值相当于交互的特征个数object queries个数比deformable DETR还要少每个object query预测K个采样点默认是4个应该说是更稀疏的deformable DETR了。后面bbox推理值和真值的匹配和损失函数的计算和DETR是一样的。 比较三者的代码还会发现DETR的transformer阶段是标准的attention计算方式包含QKV的计算而deformable DETR和DETR3D的K和V是合二为一的与Q进行交互。这里可能也是为了节省计算量或者因为已经进行了特征筛选不需要再做多维度的特征提取欢迎留言讨论。 倾囊相授自动驾驶学习资料和经验链接
http://www.pierceye.com/news/470669/

相关文章:

  • 怎样做企业的网站公司部门解散
  • 三亚中国检科院生物安全中心门户网站建设什么是响应式网站
  • 为什么要建设公司网站怎么制作图片视频和配音乐
  • 建设项目环境影响登记表备案系统网站论坛门户网站开发
  • 铁岭网站建设建设云企业服务平台
  • 响应式网站制作方法泰安明航网络科技有限公司
  • 建设网站需要几级安全等保深圳网站开发招聘
  • 无锡网站建设制作公司甘肃省建设工程网站
  • 广州微信网站建设哪家好公司网站排名优化手段
  • 深圳市路桥建设集团有限公司招标采购网站crntos wordpress
  • 广告网站制作报价深圳建筑设计平台网站
  • 网站ns记录南宁企业建站模板
  • 网站服务建设目前做哪些网站能致富
  • 专业网站定制公司深圳网页制作服务
  • 白云网站(建设信科网络)网页工具在哪里
  • 食品网站策划网站建设送企业邮箱吗
  • 天津自贸区建设局网站手机网站导航设计
  • 企业网站建设制作大连网站建设吗
  • 做网页兼职网站有哪些建设网站需要花费
  • 如何快速写一个网站黄页网络的推广软件下载
  • 网站建设公司注册enfold wordpress
  • 上海网站建设百度推广公司哪家好模具厂咋做网站
  • 网站背景自动切换织梦网站模板使用教程
  • 网站建设的成果怎么写找人做淘宝网站需要多少钱
  • 网站制作 企业网站建设哪家好tiktok海外运营推广
  • 南昌做网站哪个公司好玉溪市住房和城乡建设局网站
  • 男女做暖网站是什么样子的wordpress 时间轴 主题
  • 国外建设网站jsp网站开发工具
  • 网站流量怎么赚钱wordpress 08影院模板
  • win网站建设网站哪个公司做的好