python做流量网站,wordpress 类似微博,网页ui设计尺寸规范,软文广告是什么原文标题为#xff1a;DA-DETR: Domain Adaptive Detection Transformer with Information Fusion#xff1b;发表于CVPR2023
一、概述 本文所描述的模型基于DETR#xff0c;DETR网络是一种基于Transformer的目标检测网络#xff0c;详细原理可以参见往期文章#xff1a;…原文标题为DA-DETR: Domain Adaptive Detection Transformer with Information Fusion发表于CVPR2023
一、概述 本文所描述的模型基于DETRDETR网络是一种基于Transformer的目标检测网络详细原理可以参见往期文章[自注意力神经网络]DETR目标检测网络。本文在DETR模型的基础上引入了信息融合机制可以有效的实现从有标记的源域向无标记的目标域之间的转移。 相较于传统的两段式网络Two-Stage如Faster RCNNDETR可以通过CNN骨干网络获得低层次的定位特征如对象周围的边缘通过Transformer Head获得全局像素间的关系和高级语义特征。融合这两种不同层次的信息可以有效的解决域自适应问题。 本文创造性的提出了CTBlenderCNN-Transformer Blender的概念。其原理是使用Transformer Head中的高级语义特征来有条件的调节CNN主干中的低级特征。CTBlender由两个组件构成 ①分裂-合并融合split-merge fusionSMF将CNN特征分为多个具有不同语义的组再通过Transformer捕获这些语义信息然后将这些通过并排合并便于不同组之间有效的通信 ②多尺度聚合融合scale aggregation fusionSAF通过融合多尺度特征的语义信息和本地化信息来聚合SMF获得的特征。
二、模型方法 1.Deformable-MSA DETR采用“编码器-解码器”模式对于给定的图像先由骨干网络生成特征向量然后通过Transformer对其进行编解码Transformer由多头注意力模块组成可以定义为公式 其中是由个单头注意力构成和表示查询元素和关键元素和为可学习的投影权重而一种缩放的点注意力将查询和键值映射到输出中可以描述为公式 其中均为可学习权重。 本文提出了一种Deformable-Transformer可变形Transformer来代替传统的Transformer这种结构拥有更快的收敛速度其可以表述为 其中为第k个采样点的偏移量为关注权重改结构可以有效的缓解DERT收敛慢的问题同时可变形的特点也适合从骨干网络中融合多尺度特征结构。 2.网络结构 网络总体结构如上图所示整个网络可以被描述为公式 其中为源域图像,为源域标签为骨干网络为DERT Head为匈牙利损失函数。 从结构图可以看出与传统DERT相比其最大的区别是加入了CTBlender模块用于进行非监督的域适应训练。故其用于监督学习的分支①与传统DERT相同通过将损失函数前向传递即可完成训练。 对于无监督训练CTBlender以源图和目标图的CNN的多尺度特征向量和Transformer编码的语义向量作为输入CTBlender的输出将作为鉴别器Discriminator的输入计算得出用于域间对齐的对抗损失函数可以表述为公式 其中是骨干网络函数为Transformer编码器函数为CTBlender函数为鉴别器。 DA-DERT的总体优化函数可以描述为 3.CTBlender CTBlender由两个模块组成SMF负责混合CNN和Transformer的特征和SAF负责融合不同尺寸的加权特征图其具体结构如下 ①SMF 由于SMF对每层的操作都是一样的原文选择时的数据进行展示。首先将CNN的特征图和Transformer的语义特征拆分(split)为多个组和沿着通道均分为个组并通过空间(Spatial-wise)和通道(Channel-wise)两个方向进行融合融合后的特征与信道进行合并(merge)。 空间融合分裂的特征首先进行归一化然后通过可学习权重图对偏置图(bias map)进行重加权可以描述为公式 其中的输出范围限定在[0,1] 通道融合分裂的通过全局池化进行压缩然后通过可学习权重图对偏置图(bias map)进行重加权可以描述为公式 其中GAP为全局平均池化(Global Average Pooling)的输出范围限定在[0,1] 利用上面求出的权重和在对应的方向上对分裂后的特征图进行重新加权得到加权后的特征图然后沿着通道方向对进行K次混洗(shuffle)将混洗后的特征图融合为 ②SAF 将SMF得到的多尺度加权特征图组通过全局平均池化(GAP)压缩为向量组。首先通过逐元素求和的方法将通道方向的向量求和为然后通过全连接层将向量和对应的权重向量连接最后将文本信息嵌入到向量中可描述为公式。