当前位置：首页 > news >正文

北京城建设计集团网站电脑做网站空间

news 2025/11/12 14:16:23

北京城建设计集团网站,电脑做网站空间,黑客攻击的网站,全国设计师网站Universal Instance Perception as Object Discovery and Retrieval 论文阅读笔记一、Abstract二、引言三、相关工作实例感知通过类别名进行检索通过语言表达式的检索通过指代标注的检索统一的视觉模型Unified Learning ParadigmsUnified Model Architectures 四、方法4.1 Pr… Universal Instance Perception as Object Discovery and Retrieval 论文阅读笔记一、Abstract二、引言三、相关工作实例感知通过类别名进行检索通过语言表达式的检索通过指代标注的检索统一的视觉模型Unified Learning ParadigmsUnified Model Architectures 四、方法4.1 Prompt 生成4.2 图像-Prompt 特征融合4.3 目标发现和检索4.4 训练和推理训练推理五、实验5.1 实施细节5.2 在 10 个任务上的评估目标检测和实例分割REC 和 RESSOTVOSMOTMOTSVISR-VOS 5.3 消融和其它分析六、结论写在前面马上又是一周周末了开始写论文博客啦。这是一篇顶会文章标题很清楚就是一个一统的框架用于解决各种任务。这类文章在 21 年的时候挺多的现在倒是不常见了。因为需要的资源很多外部数据集也很庞大一般的小资源团队基本搞不定。但一旦出世效果必然十分炸裂。论文地址Universal Instance Perception as Object Discovery and Retrieval代码地址https://github.com/MasterBin-IIAU/UNINEXT收录于CVPR 2023 一、Abstract 所有的实例感知任务旨在发现利用 queries 查询到的目标例如类别名、语言表达式、目标标注但这一领域被划分为多个独立的子任务。于是本文提出了一种统一的实例感知模型 UNINEXT。UNINEXT 将多个实例感知任务划分为一个统一的目标发现和检索过程通过改变输入的 promots 能够弹性地感知不同类型的目标。于是有一些好处不同任务的数据和标签词汇能够用于训练统一的模型而且有益于那些缺乏训练数据的任务参数有效性能够降低冗余的计算。UNINEXT 在 20 个数据集10 种实例级别的任务6 种视频级别的任务上效果很好。二、引言计算机视觉领域中以目标为中心的理解是其中一个最关键和挑战性的任务。本文主要讨论其中的 10 个子任务。如下图所示最基础的任务则是目标检测、实例分割、多目标跟踪\分割、视频实例分割。除了这些类别名外还有一些任务则需要其他的指代信息例如 Referring Expression Comprehension (REC) /Segmentation (RES)、Referring Video Object Segmentation (R-VOS)、单目标跟踪、视频目标分割等等。这些任务统称为实例感知。当前的实例感知方法都是基于一个或一部分子任务开发出的方法且仅仅在特定的数据集上训练。这一设计有如下缺陷独立的设计阻止了模型学习和共享不同任务的知识多个任务间的交互合作可能被忽略掉了。受限于固定范围的类别传统的目标检测器很难在多个目标类别的数据集上进行训练。于是问题来了所有的实例感知任务旨在根据一些 queries 发现某些特定的目标那么有没有可能设计一个统一的模型用于所有主流的实例感知任务呢于是本文提出 UNINEXT首先根据三种不同的输入 prompt 重新组织 10 种感知任务类别名作为 Prompt包含 Object Detection、Instance Segmentation、VIS,、MOT、MOTS语言表达式作为 Prompt包含 REC、RES、R-VOS指代标注作为 Prompt包含 SOT、VOS 然后提出一种统一的prompt 引导的目标发现和检测方法来解决这些任务。具体来说UNINEXT 首先在 prompts 的引导下发现 N N N 个目标 Proposals然后根据实例-Prompt 匹配得分检索出最终的实例。为解决不同的 prompt 模态采用一种 Prompt 生成模块由一个指代文本编码器和一个指代视觉编码器组成。然后一个早期融合模块用于增强初始的视觉特征和 prompt embeddings。选择基于 Transformer 的目标检测器作为实例解码器。具体来说解码器首先生成 N N N 个实例 Proposals然后这些 Prompt 从这些 Proposals 中检索出匹配的目标。在 10 个实例级别的感知任务上统一使用一个模型相同的模型参数UNINEXT 在 20 个 benchmarks 上达到了 SOTA 的性能。本文贡献总结如下提出一个统一的 Prompt 框架用于统一的实例感知UNINEXT 能够在不同的任务和领域上训练不需要特定的任务头UNINEXT 在 20 个 benchmarks10 个实例感知任务上达到了 SOTA 的性能。三、相关工作实例感知通过类别名进行检索目标检测和实例感知旨在找到所有特定类别的目标 boxes 或 masks。早期的目标检测器可以大致划分为两阶段和一阶段的方法。最近是一些基于 Transformer 的检测器开始兴起。同时实例分割方法也可以根据是否需要 box 级别的检测器划分为基于检测器和无检测器的方法。目标检测和实例分割同时也是 MOT、MOTS、VIS 的基石。主流的方法采用在线 “检测-关联” 的策略。然而最近的一些 VIS 方法采用离线的方式在 VIS2019 数据集上表现很好但是在 OVIS 上表现不行。通过语言表达式的检索 REC、RES、RVOS 旨在根据一条语言表达式发现一个特定的目标。与目标检测类似REC 方法同样可以划分为三种类型。两阶段、单阶段和基于 Transformer 的方法。不同于 RECRES 关注于设计不同的注意力机制从而实现视觉-语言的对齐。最近SeqTR 提出将 REC 和 RES 视为点预测问题达到了新的 SOTA。最后 R-VOS 可以视为 RES 在视频领域上的拓展。当前的 SOTA 方法是基于 Transformer 的离线方式。然而离线方式妨碍了现实世界的应用例如自动驾驶。通过指代标注的检索 SOT 和 VOS 首先在视频的第一帧上面使用 boxes 或者 masks 确定要跟踪的目标然后要求算法去预测被跟踪目标的轨迹。这一任务核心问题在于如何提取信息量丰富的目标特征如何融合目标信息与当前帧的表示对于第一个问题大部分 SOT 方法通过一个 Siamese Backbone 编码目标信息。而 VOS 方法通常聚合多帧信息与相应的 masks 送入一个 memory 编码器中提取细粒度的目标信息。对于第二个问题之前的方法通常采用关联的手段可能会导致信息丢失。最近的一些工作利用 Transformer 得到更具有区分性的表示。此外VOS 中的特征融合也被空间-时间 memory 网络采用。统一的视觉模型分为统一的学习算法和统一的模型架构 Unified Learning Paradigms 通常是一种统一的学习算法用于覆盖尽可能多的任务和模态。例如 MuST、INTERN、Unified-IO、OFA。尽管这些工作在多个任务上的表现很好但是模态内和模态间的关系还有待探索。 Unified Model Architectures 通常设计一种统一的框架或者模型结构用于一组密切关联的任务。例如 Mask R-CNN、Mask2Former、Pix2SeqV2、GLIP、Unicorn。而本文提出一种统一的 Prompt 引导的结构用于 10 种实例感知任务。四、方法首先将现有的实例感知任务分为三类目标检测、实例分割、MOT、MOTS、VIS以类别名为 Prompt 找到所有特定类别的实例。REC、RES、R-VOS以表达式作为 Prompt定位到某个特定的目标。SOT 和 VOS使用第一帧给定的标注作为 Prompt预测被跟踪目标的轨迹。 UNINEXT 由三个主要模块组成prompt 生成、image-prompt 特征融合、目标发现和检索。 4.1 Prompt 生成首先一个 Prompt 模块将原始的 prompts 输入转化为统一的格式。为解决语言相关的 Prompt使用语言编码器 BERT表示为 EncL。具体来说。对于类别引导的任务将当前数据集内出现的类别名作为语言表达式。以 COCO 为例表达式可以写作“person. bicycle. … . toothbrush”。对于所有的类别引导和表达式引导的任务语言表达式通过 EncL得到一个 Prompt embedding F p ∈ R L × d F_p\in\mathbb{R}^{L\times d} Fp∈RL×d L L L 为序列长度。对于标注引导的任务采用一个指代视觉编码器 Enc V ref \text{Enc}_\text{V}^\text{ref} EncVref。具体来说首先在相关帧的指代位置处裁剪出一个 2 2 2^2 22 倍原目标区域的模板。然后将这一模板调整为固定尺寸 256 × 256 256\times256 256×256。接下来添加一个额外的通道名为目标先验拼接上去形成一个 4 通道的输入。目标区域先验处的值设为 1其它为 0。然后这一模板图像与目标先验一起通过 Enc V ref \text{Enc}_\text{V}^\text{ref} EncVref得到一个级联的特征金字塔 { C 3 , C 4 , C 5 , C 6 } \{C_3,C_4,C_5,C_6\} {C3,C4,C5,C6}相应的空间尺寸为 32 × 32 32\times32 32×32、 16 × 16 16\times16 16×16、 8 × 8 8\times8 8×8、 4 × 4 4\times4 4×4。最后将所有特征上采样到 32 × 32 32\times32 32×32之后相加。展平后得到最终的 Prompt embedding F p ∈ R 1024 × d F_p\in\mathbb{R}^{1024\times d} Fp∈R1024×d。 Prompt 生成过程表示如下 F p { E n c L r e f ( exp ⁡ ression ) expression-guided E n c L r e f ( concat ( categories ) ) category-guided m e r g e ( E n c V r e f ( [template, prior] ) annotation-guided F_p\begin{cases}\mathrm{Enc}_\mathrm{L}^\mathrm{ref} (\exp\text{ression})~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\text{expression-guided}\\\mathrm{Enc}_\mathrm{L}^\mathrm{ref}(\text{concat}(\text{categories}))~~~~~~~~~~~~~~~~~~~~~~~~\text{category-guided}\\\mathrm{merge}(\mathrm{Enc}_\mathrm{V}^\mathrm{ref}(\text{[template, prior]})~~~~~~~~~~~~~~~~ \text{annotation-guided}\end{cases} Fp⎩ ⎨ ⎧EncLref(expression) expression-guidedEncLref(concat(categories)) category-guidedmerge(EncVref([template, prior]) annotation-guided 4.2 图像-Prompt 特征融合与 Prompt 并行整个图像穿过另一个视觉编码器 Enc V \text{Enc}_\text{V} EncV得到级联的视觉特征 F v F_v Fv然后采用一个提前融合模块。具体来说。一个双向的 cross-attentionBi-XAtt模块用于检索不同输入的信息然后将检索到的表示添加到原始的特征上。这一过程描述为 F p 2 v , F v 2 p B i − X A t t ( F v , F p ) F v ′ F v F p 2 v ; F p ′ F p F v 2 p \begin{aligned} F_{\mathrm{p2v}},F_{\mathrm{v2p}}\mathrm{Bi-XAtt}(F_{v},F_{p}) \\ F_{v}^{\prime}F_{v}F_{\mathbf{p}2\mathbf{v}};F_{p}^{\prime}F_{p}F_{\mathbf{v}2\mathbf{p}} \end{aligned} Fp2v,Fv2pBi−XAtt(Fv,Fp)Fv′FvFp2v;Fp′FpFv2p 不同于 GLIP其采用 6 层的视觉-语言融合层和 6 层外部 BERT 层用于特征增强本文的提前融合模块则更有效率。 4.3 目标发现和检索在提出显著性的视觉和 prompt 表示后下一个关键步骤则是将输入的特征转化为不同感知任务中的实例。UNINEXT 采用 Deformable-DETR 中的编码器-解码器架构。 Transformer 编码器以级联的 prompt 感知的视觉特征作为输入。然后采用 Multi-scale Deformable Self-Attention 增强目标信息。此外添加辅助的预测头用于编码器的结尾生成 N N N 个初始的参考点作为解码器的输入。 Transformer 解码器以增强的多尺度特征 N N N 个参考点和 N N N 个目标 queries 作为输入。本文尝试两种 query 生成策略静态 query不随图像或 Prompts 而改变基于 Prompt 的动态 queries。第一种策略很容易通过 nn.Embedding(N,d) \text{nn.Embedding(N,d)} nn.Embedding(N,d) 实现而第二种策略则可以通过池化序列维度增强的 Prompt 特征 F v ′ F_v^{\prime} Fv′ 得到之后重复 N N N 次。实验部分表明静态策略通常执行的比动态策略好。原因可能是静态部分包含了更丰富的信息同时拥有更好的训练稳定性。在解码器的结尾采用一组预测头来得到最终的实例预测产生目标的 boxes 和 masks。此外引入一个 embedding 头用于辅助 MOT、MOTS、VIS 所需要的轨迹。接下来产生精确的目标。具体来说给定早期融合后的 prompt embedding F p ′ F_p^{\prime} Fp′对于类别引导任务将每个名字的 embedding 视为一个权重矩阵 W ∈ R 1 × d W\in\mathbb{R}^{1\times d} W∈R1×d。此外对于表达式引导和标注引导的任务权重矩阵 W W W 通过对聚合的 prompt embedding F p ′ F_p^{\prime} Fp′使用全局平均池化 global average pooling (GAP) 沿着序列维度得到。给出公式描述过程 W { F p ′ [ i ] , i ∈ { 0 , 1 , . . . , C − 1 } category 1 L ∑ i 0 L F p ′ ( i , j ) expression/annotation W\begin{cases}F_p[i],i\in\{0,1,...,C-1\}\text{category}\\\frac{1}{L}\sum_{i0}^LF_p(i,j)\text{expression/annotation}\end{cases} W{Fp′[i],i∈{0,1,...,C−1}L1∑i0LFp′(i,j)categoryexpression/annotation 最终实例-Prompt 匹配得分 S S S 表示为目标特征和转换后的权重矩阵的乘积 S F ins W T SF_\text{ins}W^{\text{T}} SFinsWT通过 Focal Loss 监督其训练。 4.4 训练和推理训练整体的训练过程包含三个连续阶段通用的感知预训练图像级别的共同训练视频级别的共同训练。第一阶段预训练 UNINEXT 在大规模目标检测数据集 Objects365 上。由于 Objects365 没有 mask 标注于是引入 BoxInst 中提出的辅助损失用于训练 mask 分支于是损失函数为 L s t a g e 1 L r e t r i e v e L b o x L m a s k b o x i n s t \mathcal{L}_{\mathrm{stage}1}\mathcal{L}_{\mathrm{retrieve}}\mathcal{L}_{\mathrm{box}}\mathcal{L}_{\mathrm{mask}}^{\mathrm{boxinst}} Lstage1LretrieveLboxLmaskboxinst 然后基于第一阶段的预训练权重在图像数据集 COCO、RefCOCO、RefCOCO、RefCOCOg 上微调 UNINEXT。使用 Dice Loss 和 Focal Loss 进行 mask 的训练 L s t a g e 2 L r e t r i e v e L b o x L m a s k \mathcal{L}_{\mathrm{stage2}}\mathcal{L}_{\mathrm{retrieve}}\mathcal{L}_{\mathrm{box}}\mathcal{L}_{\mathrm{mask}} Lstage2LretrieveLboxLmask 最后在视频级别的数据集上微调 UNINEXT。为防止模型遗忘之前在图像级别上学到的知识将图像级别的数据集转化为伪视频和其它视频数据集一起训练。总结下第三阶段的训练数据包含伪标签视频、SOTVOS 数据集GOT-10K、LaSOT、TrackingNet、Youtube-VOSMOTVIS 数据集BDD100K、VIS19、OVIS)R-VOS 数据集 Ref-Youtube-VOS。同时一个用于 SOTVOS 任务的指代视觉编码器和一个外部的 embedding 头用于辅助优化。于是第三阶段的损失如下 L s t a g e 3 L r e t r i e v e L l o o x L m a s k L e m b e d \mathcal{L}_{\mathrm{stage}3}\mathcal{L}_{\mathrm{retrieve}}\mathcal{L}_{\mathrm{loox}}\mathcal{L}_{\mathrm{mask}}\mathcal{L}_{\mathrm{embed}} Lstage3LretrieveLlooxLmaskLembed 推理对于类别引导的任务UNINEXT 预测不同类别的实例并将其与之前的轨迹关联起来这一过程是在线的方式。对于表达式引导和标注引导的任务直接选择与给定 Prompt 最高匹配得分的目标作为最终的结果无需后处理。五、实验 5.1 实施细节尝试不同的视觉 Backbone 作为编码器如 ResNet-50、ConvNeXt-Large、ViT-Huge。BERT 为文本编码器其参数在第一个阶段训练而在第二个阶段冻结。Transformer 中的编码器和解码器结构有 6 层的编码器层和 6 层的解码器层。目标 queries 的数量 N 900 N900 N900。优化器 AdamW权重衰减 0.05。预训练在 Objects365 上采用 32 个 A100 GPU而在其它阶段则采用 16 块 A100一般的小作坊就不用尝试啦。 5.2 在 10 个任务上的评估目标检测和实例分割 REC 和 RES SOT VOS MOT MOTS VIS R-VOS 5.3 消融和其它分析所有的模型均采用 ResNet-50 作为 backbone在五个任务目标检测、REC、VOS、R-VOS、VIS的五个数据集 COCO、RefCOCO、Youtube-VOS、Ref-Youtube-VOS、Youtube-VIS 2019 上进行评估。结果如下表所示六、结论本文提出 UNINEXT采用 Prompt 引导的目标发现和检索算法统一了 10 个实例感知任务大量实验表明 UNINEXT 在 20 个数据集上同一套模型参数达到了 SOTA 的性能。写在后面附录还有一些内容关于训练细节、可视化、损失函数啥的这里就不过多展开了。通篇读下来是一个以 Prompt 为主要形式的框架新颖性可能也不算太高吧毕竟有 SAM 和 Unified 等模型在前面开路但是这个调参和实验的工作量应该是值得一篇顶会论文的。

查看全文

http://www.pierceye.com/news/729817/