服装网站建设优点有哪些,广州网站建设知名 乐云践新,公司怎么申请企业邮箱,保险业网站建设1.ReID与MOT的联系在MOT任务中#xff0c;一般常用的特征模型有运动模型和表观模型#xff0c;其中表观模型以行人重识别(ReID)类算法为主流。Re-ID任务主要解决的是跨摄像头场景下行人的识别与检索#xff0c;其中存在给定了身份的图片序列query#xff0c;需要为不同摄像…1.ReID与MOT的联系在MOT任务中一般常用的特征模型有运动模型和表观模型其中表观模型以行人重识别(ReID)类算法为主流。Re-ID任务主要解决的是跨摄像头场景下行人的识别与检索其中存在给定了身份的图片序列query需要为不同摄像头场景下的多组图片gallery的行人身份进行判定。随着现在视觉任务需求的增加车辆重识别任务也随之诞生包括与之对应的数据集。对于多目标跟踪任务而言由于目前只有行人和车辆的标注所以基本只针对这两类目标不过最近出来一个833类的多目标跟踪数据集TAO。以行人为例多目标跟踪相对于Re-ID多出了空间位置信息和时间联系其更多的是针对的同一摄像头场景还包括可能出现的相机运动。除此之外对于Re-ID任务而言其不需要考虑新身份的诞生和旧身份的消失所有目标在query中一般都有对应的身份而MOT任务中需要判定是否有可能不存在现有跟踪轨迹中是否需要与已经丢失跟踪轨迹身份进行匹配等等二者的异同总结如下其中目标序列严格对称的意思是指的待比对的两个序列中目标的id是否一致如果不一致则表明两个序列各自可能存在新的目标。借鉴这个问题里面的回答行人重识别re-ID与跟踪tracking有什么区别我们可以看到ReID是一个相对底层的任务随着检测、时序信息的加入就可以拓展至行人检索和视频ReID任务再引入MOT则可以得到更为高层的任务MTMC跨摄像头多目标跟踪。实际上ReID只是个任务名我们不要将其具象化成了某一类数据集或者某一类深度框架我们甚至可以直接用传统的图像特征来应用于这个任务关键要看这个任务的定义。2.MOT/MTMC中的ReID框架设计2.1 DeepCC论文题目 Features for multi-target multi-camera tracking and re-identification作者Ergys RistaniCarlo Tomasi备注信息CVPR2018论文链接https://arxiv.org/pdf/1803.10859.pdf代码链接https://github.com/SamvitJ/Duke-DeepCC考虑到MOT和MTMC在表征模型方面的相似性我们一并介绍。DeepCC是MTMC领域的一篇经典论文我们可以先看看MTMC的基础流程给定多个摄像头的视频流由检测器得到所有的观测行人信息通过提取每个人的特征对每个行人进行关联匹配/聚类最后通过后处理进行完善。这篇论文主要做的是ReID任务在MTMC任务上的适配其关注点不在网络的设计上而是从训练策略上着手。首先我们不妨思考下如果从MTMC/MOT任务中抽象出ReID任务无非就是数据集的提取即相同身份行人序列的抽取网络框架的设计特征模型还有训练策略损失函数的设计等而且这里面抽取出来的行人序列在多样性等方面可能都与ReID数据集有着差异。当然不同视频数据集之间的域自适应性问题是这几个任务的共性问题。由于我们这次主要关注的是表观特征层面所以对于其他的部分就暂时忽略。DeepCC设计了一种自适应的三元组损失函数我们知道的是在batch-hard triplet loss选取的是相同身份中距离最远的样本组为positive不同身份中距离最近的为negative组。作者并没有使用batch-hard的方式通过自适应权重的设计我们可以看到作者通过softmax的方式使得相同身份样本组中距离越大的权重越大不同身份样本组中距离越小的权重越大相当于给了easy sampels更多的注意力。为了防止数据量大了之后很多batch不存在hard samples作者创建了两个样本池根据给定的query设计一组难例样本池和一组随机身份样本池在训练的时候就可保证难例样本对的正常获取。很可惜由于国外对于个人隐私的保护MTMC相关的数据集都被禁用了。2.2 NOTA论文题目Aggregate Tracklet Appearance Features for Multi-Object Tracking作者Long Chen , Haizhou Ai, Senior Member, IEEE,RuiChen , and Zijie Zhuang备注信息SPL2019论文链接https://www.sci-hub.shop/10.1109/lsp.2019.2940922如果说DeepCC关注的是ReID任务在MTMC任务中的训练策略设计那NOTA就是针对ReID任务在MOT任务中的网络框架设计。熟悉MOT任务的人应该知道由于不同质量观测信息和遮挡等问题的影响我们直接根据给定行人框提取的行人特征并不一定可靠例如下图中一个行人框中可能存在多个行人和大量背景信息。因此这篇文章设计了一种时空注意力网络其中空间注意力模型叫做Position-Sensitive Mask类似于检测框架中的R-FCN算法通过将空间分为3x3的网格每个网格都预测前景/背景的概率整体打分取平均得到这张图属于前景的概率。紧接着利用前景背景预测分支的mask对预测的注意力mask进行element-wise乘法相当于一次过滤从而得到空间注意力再对表观特征进行一次element-wise乘法。那么时间注意力来自哪里呢作者所针对的是测试阶段的跟踪序列以前景背景mask作为时间注意力然后对跟踪序列每个patch的特征和前景背景mask进行加权融合得到轨迹特征用于轨迹相似度计算而关于特征模型这篇论文做了很多实验挺有价值的2.3 LAAM论文题目Locality Aware Appearance Metric for Multi-Target Multi-Camera Tracking作者Yunzhong Hou, Liang Zheng, Zhongdao Wang, Shengjin Wang备注信息CVPR2019 WorkShop论文链接https://arxiv.org/abs/1911.12037代码链接https://github.com/hou-yz/DeepCC-localLAAM这篇关注的主要是ReID任务在MTMC任务中的数据集构建和训练策略这里有作者的详细讲解我也相应地谈谈。我们知道无论是Tracktor[4]还是DeepSort[5]二者都是单独训练的ReID特征模型然后直接应用于MOT任务。LAAM一文就是提出了一个re-ID特征是否适合直接用于跟踪任务的问题。作者提到由于目标行人/车辆轨迹trajectory的连续性在一般情况下跟踪系统只需要匹配一个局部邻域中的目标而不需要全局匹配。局部邻域对于单相机跟踪指代同相机的连续帧内的样本对于跨相机跟踪指代相邻距离较小的几个相机如下图小框中的一组相机内的样本。全局指代全部相机中的样本。跟踪系统中的匹配一般被限制在局部邻域内而应用于相似度估计的重识别特征则是从全局学到的相似度估计的结果直接决定数据匹配的性能。在这个关键部分出现了局部vs全局的失配则会对系统整体性能有很大影响。的确在MTMC任务中如果处理的是较短时间内的连续视频帧目标更倾向于出现在较小的局部空间内并且特征差异性并没有很大。对此作者就提出对相机内和相机之间的样本分开训练即同相机内的正负样本来自于同一相机不同相机内的正负样本来自于不同相机。虽然方法很简单但是也具有一定启发意义2.4 STRN论文题目Spatial-temporal relation networks for multi-object tracking作者Jiarui Xu, Yue Cao, Zheng Zhang, Han Hu备注信息ICCV2019论文链接http://openaccess.thecvf.com/content_ICCV_2019/papers/Xu_Spatial-Temporal_Relation_Networks_for_Multi-Object_Tracking_ICCV_2019_paper.pdf在MOT任务中除了表观特征还存在运动特征除此之外跟踪序列与跟踪序列/目标之间的相似度度量也是一个问题。STRN这篇论文所针对的就是运动表观特征的结合、跟踪序列特征的融合和目标与周围目标间的交互。下图中虽然t帧中中心目标被遮挡了但是其周围目标还在所以依旧被跟踪到了这一点对于遮挡问题有一定缓解能力。首先作者利用周围目标表观特征对中心目标的特征进行更新其中周围目标的注意力模型ORM权重是通过一组仿射矩阵求得周围目标与中心目标的相似度和位置形状相似度加权得到的。而对于时间信息同样地就是对于跟踪序列中不同特征的注意力打分接下来作者对于每条跟踪序列和每个观测行人之间的相似度度量进行了研究首先是将跟踪序列最新的一部分特征加权融合再与待比对特征进行拼接通过一个线性转换得到表观关联性特征。同样地计算出二者的余弦距离那么对于位置信息L和运动信息M则有我们可以看到的是这里面大多数的相似性度量都是人为设定的但是也都引入了线性变换矩阵W这些都是通过一个小网络得来的整体框架如下其效果如下3 总结这次我主要介绍了ReID和MOT/MTMC等跟踪人物的结合可以看到ReID任务可以应用于跟踪人物中的表观特征模型部分。而应用时则需要注意数据集构建的差异、网络框架的设计、训练策略的问题、ReID中域自适应性问题、特征融合与选择等问题。随着这两年联合检测和跟踪的框架的兴起在这类集成框架中引入ReID分支的算法也相继出现包括JDE和FairMOT等。那么单独使用ReID特征进行跟踪的话效果会如何呢各位不妨试试。参考文献[1] Ristani E, Tomasi C. Features for multi-target multi-camera tracking and re-identification[C]. in: Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. 6036-6046.[2] Chen L, Ai H, Chen R, et al. Aggregate Tracklet Appearance Features for Multi-Object Tracking[J]. IEEE Signal Processing Letters, 2019, 26(11): 1613-1617.[3] Yunzhong H, Liang Z, Zhongdao W, et al. Locality Aware Appearance Metric for Multi-Target Multi-Camera Tracking[J]. arXiv preprint arXiv:1911.12037, 2019.[4] Bergmann P, Meinhardt T, Leal-Taixe L. Tracking without bells and whistles[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2019. 941-951.[5] Wojke N, Bewley A, Paulus D. Simple online and realtime tracking with a deep association metric[C]. in: 2017 IEEE international conference on image processing (ICIP). IEEE, 2017. 3645-3649.[6] Xu J, Cao Y, Zhang Z, et al. Spatial-temporal relation networks for multi-object tracking[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2019. 3988-3998.[7] Wang Z, Zheng L, Liu Y, et al. Towards Real-Time Multi-Object Tracking[J]. arXiv preprint arXiv:1909.12605, 2019.