邢台县教育局五库建设网站,wordpress面包屑,网站建设需要哪些流程,河南公司网站建设阿里妹导读#xff1a;现在的我们在手机上花费了越来越多的时间#xff0c;其中#xff0c;视频又格外地吸引我们的注意力。有很多好玩的视频#xff0c;需要把前景物体从视频中分割出来#xff0c;这需要花费创作者99%以上的时间。今天#xff0c;阿里资深算法专家任海兵… 阿里妹导读现在的我们在手机上花费了越来越多的时间其中视频又格外地吸引我们的注意力。有很多好玩的视频需要把前景物体从视频中分割出来这需要花费创作者99%以上的时间。今天阿里资深算法专家任海兵将告诉阿里巴巴关于视频物体分割算法的三个方向与最新应用希望对喜欢视频创作的你有所帮助。 视频物体分割Video Object Segmentation简称 VOS )顾名思义就是从视频所有图像中把感兴趣的物体区域完整地分割出来。为了方便大家的理解。
视频物体分割结果是进行内容二次创作的重要素材。例如目前火爆的“裸眼3D视频”基于视频中主要物体与观众之间的距离利用蒙皮遮挡的变化产生3D效果。其核心点是将前景物体从视频中分割出来这部分会花费创作者99%以上的时间。
因此对于优酷这样的视频类网站视频物体分割是非常有价值的算法能够赋能内容生产者提升内容生产效率。特别是交互式视频物体分割算法能利用用户少量交互逐步提高视频物体分割正确率提升用户观感体验。这是任何无监督视频物体分割算法所不能达到的。
目前CV 学术界在视频物体分割方面的研究主要分为三个方向
半监督视频物体分割 (Semi-supervised video object segmentation)交互式视频物体分割(Interactive video object segmentation)无监督视频物体分割Un-supervised video object segmentation
这三个研究方向对应于 Davis Challenge 2019 on Video Object Segmentation [1]中的三个赛道。其中学术界更倾向于研究半监督视频物体分割因为这是视频物体分割的最基础算法也是比较纯粹的一个研究点。 接下来我首选介绍视频物体分割的三个研究方向然后结合阿里文娱摩酷实验室的探索分享在视频领域的最新应用。
一、半监督视频物体分割
半监督视频物体分割又称为单一样本视频物体分割(one-shot video object segmentation, 简称 OSVOS)。在半监督视频物体分割中给定用户感兴趣物体在视频第一帧图片上的分割区域算法来获取在后续帧上的物体分割区域。物体可以是一个也可以是多个。在视频中存在物体和背景运动变化、光照变化、物体旋转变化、遮挡等因此半监督视频物体分割算法研究的重点是算法如何自适应获取变化的物体表观信息。一个示例如下图所示 图1. 半监督视频物体分割示例
在图1中第一行为序列的 RGB 图片第二行为感兴趣物体区域。其中a为视频第一帧图像骆驼区域是给定物体的 ground-truth。b(c)和 (d)是后续的第20、40和60帧后续的图像只有 RGB 图片需要算法去估计物体的区域。该示例的难点是
前景背景颜色非常相似随着目标骆驼的运动背景中出现一个新的骆驼需要分割出这两个不同的骆驼区域。
目前半监督视频物体分割算法分为两大类有在线学习、无在线学习。
基于在线学习的算法根据第一帧物体的 ground-truth利用 one-shot learning 的策略来 fine-tune 分割模型。经典的在线学习算法包括 Lucid datadreaming[2]OSVOS[3]PreMVOS[4]等。在线学习算法针对每个物体单独训练模型可以达到很高的分割正确率。但是在线学习本身是深度学习模型的 fine-tuning需要耗费大量的计算时间。在2019年之前在线学习算法是主流。今年出现了不少无在线学习的算法它的模型是事先训练好的不需要针对样本进行 fine-tune具有更好的时效性例如 CVPR2019 的 FEELVOS[5]Space-time memory network[6]等。
半监督视频物体分割的最主要的结果评估标准是平均 Jaccard 和 F-measurement.平均Jaccard 值是所有物体在所有帧上分割精度 Jaccard 的均值。F-measurement 为分割区域边缘的准确度。半监督视频物体分割由于其需要第一帧物体区域的 ground-truth因此无法直接应用于实际应用。但它是交互式和无监督视频物体分割算法的核心组成部分。
二、交互式视频物体分割
交互式视频物体分割是从去年开始兴起的、更贴近实用的视频物体分割方法。在交互式视频物体分割中输入不是第一帧物体的 ground-truth而是视频任意一帧中物体的用户交互信息。交互信息可以是物体 boundingbox、物体区域的划线scribble)、外边缘的极值点等。
基本流程如下图所示 图2.交互式视频物体分割流程
交互式视频物体分割通常包括以下5个步骤
用户输入交互信息标记感兴趣物体例如物体的 bounding boxscribble 信息、边缘点等根据用户输入的交互信息利用交互式图像物体分割算法分割出物体在该帧图像上的物体区域根据前一帧物体区域利用半监督视频物体分割算法向视频其他帧图像逐帧传递进行物体分割得到所有帧图像上物体区域。然后用户检查分割结果在分割较差帧上给出新的交互信息算法根据新的交互信息修改该帧图像上的分割结果重复步骤3和4直到视频物体分割结果让用户满意。
交互式视频物体分割不是一个单一算法而且多种算法有机融合的解决方案包括交互式图像物体分割、半监督视频物体分割、交互式视频物体区域传递算法等。其主要评估方法为 Davis Challenge on Video Object Segmentation 中提出的 JaccardF-measurement60s (简称 JF60s )和 Area Under Curve简称 AUC)。Davis竞赛提出限定8次用户交互建立准确度随时间的变化曲线图曲线下方区域的面积就是 AUCt60s 时刻曲线插值就是 JF60s。下图为一个 JF 随时间变化曲线图。 图3. 交互式分割结果 JF曲线示例
从评估指标可以看出交互式视频物体分割强调分割算法的时效性不能让用户长时间等待。所以在交互式视频物体分割中一般不采用基于在线学习方法的半监督视频物体分割算法。目前还没有交互式视频物体分割的开源代码。但是交互式视频物体分割算法对工业界有非常重要的意义其原因是
1半监督视频物体分割需要物体第一帧的 ground-truth实用中获取比较麻烦。而交互式视频物体分割只需要用户的简单交互非常容易达到 2交互式视频物体分割可以通过多次交互达到非常高的分割正确率。高精度的分割结果能够提供更好的用户体验才是用户需要的结果。
三、无监督视频物体分割
无监督视频物体分割是全自动的视频物体除了 RGB 视频没有其他任何输入。其目的是分割出视频中显著性的物体区域。在上述三个方向中无监督视频物体分割是最新的研究方向。
Davis 和 Youtube VOS 竞赛今年第一次出现无监督赛道。从算法层面上说无监督视频物体分割需要增加显著性物体检测模块其他核心算法没有变化。
半监督和交互式视频物体分割中物体是事先指定的不存在任何歧义。而在无监督视频物体分割中物体显著性是主观概念不同人之间存在一定的歧义。因此在 Davis VOS 中要求参赛者总共提供 N 个物体的视频分割结果在 Davis Unsupervised VOS 2019 中N20)与数据集 ground-truth 标记的 L 个显著物体序列计算对应关系。对应上的物体和遗漏的物体参与计算 JF 的均值。N 个物体中多余的物体不做惩罚。
四、阿里文娱摩酷实验室的研究现状
目前很多半监督视频物体分割算法在学术上有很好的创新但是实用中效果不佳。我们统计了今年 CVPR 的论文在 Davis 2017 val数据集上没有一篇正会论文JF0.76。FEELVOS[5]、siamMask[7]等算法理论上有很好实用中却存在多种问题。交互式视频物体分割更是没有开源代码。
所以阿里文娱摩酷实验室从2019年3月底开始从事半监督和交互式视频物体分割算法的研究。
2019年5月我们完成一版基础的半监督视频物体分割算法和交互式视频物体分割解决方案并以此参加了 DAVIS Challenge on Video Object Segmentation 2019在交互式视频物体分割赛道获得第四名。
我们提出的 VOS with robust tracking 策略[8]可以较大幅度的提高基础算法的鲁棒性。在 Davis 2017验证集上我们交互式视频物体分割算法 JF60s 准确率从3月底的0.353 提高到5月初的0.761。现在我们的半监督视频物体分割算法也达到了JF0.763。可以说在这个集合上我们的结果已经接近业界一流水准。
五、阿里文娱摩酷实验室的后续计划
目前我们在继续探索复杂场景下的算法应用这些复杂场景包括小物体、前景背景高度相似、物体运动速度很快或表观变化很快、物体遮挡严重等。后续我们计划在online learning、space-time network、region proposal and verification 等策略上发力以提高视频物体分割算法在复杂场景下的分割精度。
另外图像物体分割算法、多目标物体跟踪算法也是视频物体分割算法的重要基础我们也将在这些方面持续提升精度。
原文链接 本文为云栖社区原创内容未经允许不得转载。