当前位置: 首页 > news >正文

苏州网站建设制作方案手机上做app的软件

苏州网站建设制作方案,手机上做app的软件,建立一个购物网站,有想做企业网站建设文章目录前言一、题目和摘要二、引言三、相关工作四、方法五、训练前言 开冲#xff0c;清华大学的#xff0c;带HDmap的端论文#xff0c;用的Query#xff0c;和UniAD一样。 一、题目和摘要 ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries ViP3… 文章目录前言一、题目和摘要二、引言三、相关工作四、方法五、训练前言 开冲清华大学的带HDmap的端论文用的Query和UniAD一样。 一、题目和摘要 ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries ViP3D通过三维智能体查询进行端到端视觉轨迹预测 注意这篇论文要输入HDMap PSQuery 是 Transformer 框架里的“查询向量” Agent Query 的核心想法是 给场景中每一个潜在的交通参与者分配一个可学习的 Query 向量就像是给每个人一个“跟踪编号” 这个向量在网络计算时会主动去从传感器特征比如图像特征里抓取与自己对应的那个人/车的相关信息。 它和传统的密集 BEV 特征不一样 传统先生成一张密密麻麻的地图再用算法去找人 → 中间有 NMS、关联匹配等不可微步骤。 Agent Query一开始就假设“我有 N 个对象”每个对象一个 Query全程跟踪 → 不需要 NMS 或匹配过程可微。 感知和预测如果分离预测作为下游模块只能从感知模块接收有限的信息。更糟糕的是感知模块的误差会传播和累积对预测结果产生不利影响。 在这项工作中我们提出了ViP3D这是一种基于查询的视觉轨迹预测管道它利用原始视频中的丰富信息直接预测场景中代理的未来轨迹。ViP3D采用稀疏代理查询来检测、跟踪和分析并在整个管道中进行预测使其成为第一种完全可微的基于视觉的轨迹预测方法。 与使用历史特征图和轨迹不同来自先前时间戳的有用信息被编码在Agent Queries中这使得ViP3D成为一种简洁的流式预测方法。此外在nuScenes数据集上的大量实验结果表明ViP3D在基于视觉的预测方面比传统管道和之前的端到端模型具有更强的性能。 二、引言 感知和预测是现有自动驾驶软件管道中的两个独立模块它们之间的接口通常被定义为手工挑选的几何和语义特征如历史目标轨迹、目标类型、目标大小等。 缺点导致可用于轨迹预测的有用感知信息的丢失。例如尾灯和刹车灯指示车辆的意图行人的头部姿势和身体姿势则表明他们的注意力。 基于激光雷达的轨迹预测的端到端模型缺点 1无法利用来自相机的丰富细粒度视觉信息 2这些模型使用卷积特征图作为帧内和帧间的中间表示因此受到不可微操作的影响如对象解码中的非最大抑制和多对象跟踪中的对象关联。 为了解决这些缺点我们提出了一种新的管道该管道利用以查询为中心的模型设计来预测未来的轨迹称为ViP3D通过3D目标查询进行视觉轨迹预测。 如何做ViP3D消耗来自周围摄像机和高清地图的多视图视频并以端到端和简洁的流式方式进行代理级未来轨迹预测如图1所示。 ViP3D使用3D目标查询作为流水线的主线从原始视频帧输入中实现端到端的未来轨迹预测。这种新颖的设计通过有效地利用细粒度的视觉信息如车辆的转向信号来提高轨迹预测性能。 具体而言ViP3D利用3D代理查询作为整个管道的接口其中每个查询最多可以mapping到环境中的一个目标。 在每个时间步查询从多视图图像中聚合视觉特征学习代理的时间动态对代理之间的关系进行建模并最终为每个代理生成可能的未来轨迹。随着时间的推移3D代理查询被保存在一个内存库中可以对其进行初始化、更新和丢弃以跟踪环境中的代理。 此外与以前利用历史代理轨迹和来自多个历史帧的特征图的预测方法不同ViP3D只使用来自一个先前时间戳的3D代理查询和来自当前时间戳的传感器特征使其成为一种简洁的流式方法。 三点核心贡献 ViP3D是第一种完全可微分的基于视觉的方法用于预测自动驾驶目标的未来轨迹。而不是使用手工挑选的特征像是历史轨迹和目标大小ViP3D利用了原始图像中丰富而精细的视觉特征这些特征对轨迹预测任务很有用。ViP3D以3D Agent Queries为接口显式地对目标级检测、跟踪和预测进行建模使其具有可解释性和可调试性。我们实验最jb屌 三、相关工作 目前端到端的痛点它们都依赖于BEV特征图或热图作为中间表示这导致从密集特征图到实例级特征时不可避免的不可微操作例如检测中的非最大抑制NMS和跟踪中的关联。 我们牛逼HDmap把稀疏目标查询作为表示大大提高了可微性和可解释性。真的有用吗 从密集特征图 → 实例级信息一般会经历两个关键步骤 检测里的 NMS非最大抑制 检测会生成一堆可能的框然后 NMS 会把重叠度高的框合并掉只保留一个最可能的。 这个过程是基于“比较大小、硬决策”的不可导即在梯度反传时没法平滑计算。 跟踪里的关联 跟踪要把“这一帧的车”和“下一帧的车”对应起来这通常用匈牙利算法等匹配方法也属于硬匹配不可导。 四、方法 ViP3D利用以查询为中心的模型设计。 被跟踪的Agent Queries可能包含许多有用的视觉信息包括目标的运动动力学和视觉特征。 感知 输入多视图cam 输出跟踪agent query集合这包含许多视觉信息包括agent的运动特性和视觉特征 预测 输入跟踪query和HDmap 输出agent的未来轨迹。 初始的3D agent query更新和丢弃在一个query存储库里完成。 模型介绍这里提取图像用的是ResNet50和FPN不是ViT系列。然后用相机内参和外参矩阵把3D查询参考点映射到图像的2D坐标上然后将上面得到的向量作为Q图像特征L经过W映射得到三个QKV矩阵然后计算跨注意力最后经过一个带层归一化的两层感知机FFN更新agent query。 作者设计了两个query来更新和移除agent一个是匹配query一个是空query。如果出现一个未匹配query说明是新出现的agent如果一个agent消失了就分配一个未匹配且空的标签留待后用。对于匹配query那就说明还在视野里正在处理。 针对二分匹配使用了一个query解码器输出每个query的中心坐标损失函数有类别损失和坐标回归损失即bbox的L1损失。 Query存储库是一个单进单出的队列大小为S仅在每个query和它的历史状态之间进行注意力计算没有多agent交互每个query对应一个agent。 以往的轨迹预测模型分为三部分agent编码器地图编码器和轨迹解码器。 agent编码器基于查询的检测和跟踪输出被跟踪的agent查询这相当于agent编码器的输出。因此基于查询的预测模块仅由地图编码器和轨迹解码器组成 地图编码器采用VectorNet。 轨迹解码器框架级设计基于回归的方法Regression-based、基于目标的方法Goal-based、基于热图的方法Heatmap-based都能用。 五、训练 模型的loss是联合训练的包括前面的分类和坐标回归loss。提出了一个新指标EPA端到端预测精度。数据集是nuscenes。 这里提到一个trick就是把agent的最后一个位置作为原始值和方向作为y轴可以使预测模型集中于未来模态预测而不是坐标变换。
http://www.pierceye.com/news/539970/

相关文章:

  • 青岛营销型网站html网页制作期末作业
  • 加强网站微信公众号平台建设php 5.4 wordpress
  • 比价网站开发东莞微客巴巴做网站
  • 怎么免费搭建自己的网站交互网站建设
  • 网站架构 规划考研网站做刷词
  • 昆山网站建设kshuituo适合seo优化的站点
  • 免费十八种禁用网站圣诞网站怎么做
  • 做网站排名赚钱吗安卓开发快速入门
  • 南宁百度网站建设求个网站或者软件
  • 岳阳网站项目建设报道网站建设色调的
  • 站长平台怎么添加网站南京市高淳县建设厅网站
  • 广州市住房和城乡建设厅网站首页一键制作自己的app软件
  • 设一个网站链接为安全怎么做微博内容放到wordpress
  • 好的网站设计培训学校wordpress主题 表白
  • 做网站服务器系统模板网站的建设方式与方法
  • 网站建设需要的公司市住房城乡建设部网站
  • 网站备案 厦门怎样做自己的购物网站
  • 旅行社应做哪些网站wordpress新建页面发布内容
  • 网站建设业中国宁波网天一论坛
  • 代表网站开发的logo小程序制作推广费用
  • 建个大型网站要多少钱怎么建自己的网址
  • 网站建站模板做网站一般的尺寸
  • 西安网站设设学校品牌建设
  • 工信部网站备案查询做网站用的大图
  • 手机版网站图片自适应怎么做找快照网站查询
  • 建设网站推广文案浙江网警
  • 笑话网站域名网站做优化效果怎么样
  • 正规网站建设网站制作婚庆网站的设计意义
  • 用服务器如何做网站拌合站建站方案
  • 如何给公司做网站网站建设板块建议