当前位置：首页 > news >正文

苏州网站建设制作方案手机上做app的软件

news 2025/11/14 3:05:40

苏州网站建设制作方案,手机上做app的软件,建立一个购物网站,有想做企业网站建设文章目录前言一、题目和摘要二、引言三、相关工作四、方法五、训练前言开冲#xff0c;清华大学的#xff0c;带HDmap的端论文#xff0c;用的Query#xff0c;和UniAD一样。一、题目和摘要 ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries ViP3… 文章目录前言一、题目和摘要二、引言三、相关工作四、方法五、训练前言开冲清华大学的带HDmap的端论文用的Query和UniAD一样。一、题目和摘要 ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries ViP3D通过三维智能体查询进行端到端视觉轨迹预测注意这篇论文要输入HDMap PSQuery 是 Transformer 框架里的“查询向量” Agent Query 的核心想法是给场景中每一个潜在的交通参与者分配一个可学习的 Query 向量就像是给每个人一个“跟踪编号” 这个向量在网络计算时会主动去从传感器特征比如图像特征里抓取与自己对应的那个人/车的相关信息。它和传统的密集 BEV 特征不一样传统先生成一张密密麻麻的地图再用算法去找人 → 中间有 NMS、关联匹配等不可微步骤。 Agent Query一开始就假设“我有 N 个对象”每个对象一个 Query全程跟踪 → 不需要 NMS 或匹配过程可微。感知和预测如果分离预测作为下游模块只能从感知模块接收有限的信息。更糟糕的是感知模块的误差会传播和累积对预测结果产生不利影响。在这项工作中我们提出了ViP3D这是一种基于查询的视觉轨迹预测管道它利用原始视频中的丰富信息直接预测场景中代理的未来轨迹。ViP3D采用稀疏代理查询来检测、跟踪和分析并在整个管道中进行预测使其成为第一种完全可微的基于视觉的轨迹预测方法。与使用历史特征图和轨迹不同来自先前时间戳的有用信息被编码在Agent Queries中这使得ViP3D成为一种简洁的流式预测方法。此外在nuScenes数据集上的大量实验结果表明ViP3D在基于视觉的预测方面比传统管道和之前的端到端模型具有更强的性能。二、引言感知和预测是现有自动驾驶软件管道中的两个独立模块它们之间的接口通常被定义为手工挑选的几何和语义特征如历史目标轨迹、目标类型、目标大小等。缺点导致可用于轨迹预测的有用感知信息的丢失。例如尾灯和刹车灯指示车辆的意图行人的头部姿势和身体姿势则表明他们的注意力。基于激光雷达的轨迹预测的端到端模型缺点 1无法利用来自相机的丰富细粒度视觉信息 2这些模型使用卷积特征图作为帧内和帧间的中间表示因此受到不可微操作的影响如对象解码中的非最大抑制和多对象跟踪中的对象关联。为了解决这些缺点我们提出了一种新的管道该管道利用以查询为中心的模型设计来预测未来的轨迹称为ViP3D通过3D目标查询进行视觉轨迹预测。如何做ViP3D消耗来自周围摄像机和高清地图的多视图视频并以端到端和简洁的流式方式进行代理级未来轨迹预测如图1所示。 ViP3D使用3D目标查询作为流水线的主线从原始视频帧输入中实现端到端的未来轨迹预测。这种新颖的设计通过有效地利用细粒度的视觉信息如车辆的转向信号来提高轨迹预测性能。具体而言ViP3D利用3D代理查询作为整个管道的接口其中每个查询最多可以mapping到环境中的一个目标。在每个时间步查询从多视图图像中聚合视觉特征学习代理的时间动态对代理之间的关系进行建模并最终为每个代理生成可能的未来轨迹。随着时间的推移3D代理查询被保存在一个内存库中可以对其进行初始化、更新和丢弃以跟踪环境中的代理。此外与以前利用历史代理轨迹和来自多个历史帧的特征图的预测方法不同ViP3D只使用来自一个先前时间戳的3D代理查询和来自当前时间戳的传感器特征使其成为一种简洁的流式方法。三点核心贡献 ViP3D是第一种完全可微分的基于视觉的方法用于预测自动驾驶目标的未来轨迹。而不是使用手工挑选的特征像是历史轨迹和目标大小ViP3D利用了原始图像中丰富而精细的视觉特征这些特征对轨迹预测任务很有用。ViP3D以3D Agent Queries为接口显式地对目标级检测、跟踪和预测进行建模使其具有可解释性和可调试性。我们实验最jb屌三、相关工作目前端到端的痛点它们都依赖于BEV特征图或热图作为中间表示这导致从密集特征图到实例级特征时不可避免的不可微操作例如检测中的非最大抑制NMS和跟踪中的关联。我们牛逼HDmap把稀疏目标查询作为表示大大提高了可微性和可解释性。真的有用吗从密集特征图 → 实例级信息一般会经历两个关键步骤检测里的 NMS非最大抑制检测会生成一堆可能的框然后 NMS 会把重叠度高的框合并掉只保留一个最可能的。这个过程是基于“比较大小、硬决策”的不可导即在梯度反传时没法平滑计算。跟踪里的关联跟踪要把“这一帧的车”和“下一帧的车”对应起来这通常用匈牙利算法等匹配方法也属于硬匹配不可导。四、方法 ViP3D利用以查询为中心的模型设计。被跟踪的Agent Queries可能包含许多有用的视觉信息包括目标的运动动力学和视觉特征。感知输入多视图cam 输出跟踪agent query集合这包含许多视觉信息包括agent的运动特性和视觉特征预测输入跟踪query和HDmap 输出agent的未来轨迹。初始的3D agent query更新和丢弃在一个query存储库里完成。模型介绍这里提取图像用的是ResNet50和FPN不是ViT系列。然后用相机内参和外参矩阵把3D查询参考点映射到图像的2D坐标上然后将上面得到的向量作为Q图像特征L经过W映射得到三个QKV矩阵然后计算跨注意力最后经过一个带层归一化的两层感知机FFN更新agent query。作者设计了两个query来更新和移除agent一个是匹配query一个是空query。如果出现一个未匹配query说明是新出现的agent如果一个agent消失了就分配一个未匹配且空的标签留待后用。对于匹配query那就说明还在视野里正在处理。针对二分匹配使用了一个query解码器输出每个query的中心坐标损失函数有类别损失和坐标回归损失即bbox的L1损失。 Query存储库是一个单进单出的队列大小为S仅在每个query和它的历史状态之间进行注意力计算没有多agent交互每个query对应一个agent。以往的轨迹预测模型分为三部分agent编码器地图编码器和轨迹解码器。 agent编码器基于查询的检测和跟踪输出被跟踪的agent查询这相当于agent编码器的输出。因此基于查询的预测模块仅由地图编码器和轨迹解码器组成地图编码器采用VectorNet。轨迹解码器框架级设计基于回归的方法Regression-based、基于目标的方法Goal-based、基于热图的方法Heatmap-based都能用。五、训练模型的loss是联合训练的包括前面的分类和坐标回归loss。提出了一个新指标EPA端到端预测精度。数据集是nuscenes。这里提到一个trick就是把agent的最后一个位置作为原始值和方向作为y轴可以使预测模型集中于未来模态预测而不是坐标变换。

查看全文

http://www.pierceye.com/news/539970/