在线做gif图网站,wordpress导航栏该怎么设置,武昌有专业做网站,wholee跨境电商平台提示#xff1a;文章写完后#xff0c;目录可以自动生成#xff0c;如何生成可参考右边的帮助文档 文章目录 前言1. 网络结构2. 特征融合3. 文本引导#xff08;Text-guided#xff09;4. 图像池化注意力#xff08;Image-Pooling Attention#xff09;5. 区域文本匹配文章写完后目录可以自动生成如何生成可参考右边的帮助文档 文章目录 前言1. 网络结构2. 特征融合3. 文本引导Text-guided4. 图像池化注意力Image-Pooling Attention5. 区域文本匹配Region-Text Matching 总结 前言
通过前边的YOLO检测器和文本编码器分别得到了特征图像和词向量那么如何实现二者的融合以达到目标检测的目的呢就是通过yolo-world中提出的新的网络架构RepVL-PAN下边我们来研究一下他是如何工作的。 RepVL-PANRe-parameterizable Vision-Language Path Aggregation Network是YOLO-World中的一个核心网络结构它通过融合视觉信息和语言信息来提升目标检测的性能。
1. 网络结构
RepVL-PAN基于YOLO架构并采用特征金字塔网络FPN来提取多尺度图像特征提取图像特征的部分已经在前文讲过详情参考Yolo-World网络模型结构及原理分析一——YOLO检测器。它利用Transformer文本编码器例如CLIP模型来处理输入文本生成文本嵌入。这部分也在前文讲过详情参考Yolo-World网络模型结构及原理分析二——文本编码器
2. 特征融合
通过Top-Down和Bottom-Up的路径来建立特征金字塔这有助于在不同尺度上融合图像特征。
1Top-Down Path从高层特征图向低层特征图传递信息。这种路径通过上采样操作如反卷积或插值将高层的抽象特征图扩展到低层的空间分辨率上。这样可以将高层特征与低层特征结合使得模型在检测较小目标时具有更好的精度。2Bottom-Up Path从低层特征图向高层特征图传递信息。这种路径通过卷积操作将低层的细节特征图逐步融合到高层特征图中从而保留更多的细节信息。这样可以帮助模型在检测较大目标时更好地保留细节信息。3引入Text-guided Cross Stage Partial LayersT-CSPLayer这是一种扩展的CSPLayer它将文本嵌入整合到多尺度图像特征中。图示中的C3,C4,C5就是从YOLO检测器之后获取到的三种不同尺度的特征图尺寸分别为80x8040x4020x20三种尺寸。
3. 文本引导Text-guided
T-CSPLayer使用文本嵌入来引导图像特征的更新通过在CSPLayer后应用max-sigmoid注意力机制来聚合文本特征。 T-CSPLayer结构如图所示1首先将传进来的特征图进行Split切分比如一开始传入的特征图为40x40x512那么切分之后一份是40x40x256另一份也是40x40x256。2其中一份进入Dark Bottleneck进行一次普通卷积使用较小的卷积核如 1x1 卷积来减少通道数和计算复杂度。可以有效地压缩特征图中的信息同时保留重要的特征。然后进行深度可分离卷积这种卷积方式将标准卷积拆分为深度卷积和逐点卷积两个步骤从而进一步减少计算量和参数数量。深度卷积在每个通道上独立进行卷积操作而逐点卷积则在通道间进行卷积。最后进行残差连接来增强模型的训练能力和稳定性。3从Dark Bottleneck输出特征图之后进入Max-Sigmoid同时text文本向量也进入Max-Sigmoid在Max-Sigmoid中的处理过程是这样的比如传进来的特征图是40x40x256文本向量是3x2563个词汇“男”“女”“狗”在特征图中有40x401600个像素点每个像素点与3个文本提示词逐一计算看哪个像素点与文本提示词的相关性最大就给哪个像素点更多的权重sigmoid。也就是通过这个操作找到特征图中与文本提示词相关性更大的区域。这样就可以实现文本对图像的更新。4从Max-Sigmoid出来的融合图再与最开始切分之后的特征图拼接做一个残差连接生成含有更丰富信息的特征图注意这里还是特征图只是有些像素点的权重更大。
4. 图像池化注意力Image-Pooling Attention
为了增强文本嵌入的图像意识RepVL-PAN使用图像池化操作来更新文本嵌入。通过在多尺度特征上应用最大池化生成小区域的patch tokens然后使用多头注意力机制来更新文本嵌入。
Image-Pooling Attention结构如图所示
1多尺度特征聚合在I-Pooling Attention中首先对图像进行多尺度特征提取。这意味着模型会从不同分辨率的图像中提取特征以捕捉图像的不同层次的信息。2最大池化操作在提取多尺度特征后使用最大池化max pooling操作来聚合这些特征。最大池化是一种常用的池化技术它选择每个池化窗口内的最大值作为输出这有助于保留图像中最重要的信息。3生成Patch Tokens通过最大池化操作将每个特征图80x8040x4020x20三种尺寸聚合成3x3的区域每个区域生成一个patch token。这样对于一个给定的图像总共会生成27个patch tokens3x3每个token都是一个特征向量其维度为D。4 更新文本嵌入生成的patch tokens随后用于更新文本嵌入。这是通过多头注意力机制实现的。具体来说原始的文本嵌入w与patch tokens 含有文本信息w和图像信息token的向量进行多头注意力计算然后将结果加到原始文本嵌入上得到更新后的文本嵌入w’实现用图像更新文本嵌入模型可以在更新文本嵌入时同时考虑来自图像的多个不同区域的特征。
5. 区域文本匹配Region-Text Matching
区域-文本匹配的目的是将检测到的图像区域bounding boxes与文本中提到的对象类别或名词进行匹配的过程。 区域文本匹配图示
1 通过RepVL-PAN网络之后输出的P3 P4 P5是含有语义信息的特征图将特征图输入到不同的Head中首先通过BoxHead预测图像中每个对象的位置这些位置以边界框bounding boxes的形式表示每个边界框包含了对象的位置和大小信息。2除了边界框检测器还会为每个检测到的对象生成一个对象嵌入向量object embeddings。这个嵌入向量是一个高维空间中的点它编码了对象的特征信息每个对象含有语义信息“男”“女”“狗”使得不同对象之间可以进行比较和区分。3文本对比头Text Contrastive Head 通过RepVL-PAN网络之后得到的Image-aware Embeddings也含有了图像信息object embeddings中含有了语义信息。利用文本对比头计算的相似度分数来匹配文本中提到的类别或名词与图像中的对象。找到对象嵌入与哪个文本嵌入之间的相似性最大。这样模型不仅能够识别图像中的对象还能够理解这些对象与用户输入的文本之间的关系。 也就是说YOLO-World 为每个边界框分配一个最匹配的类别或名词。这是基于相似度计算结果模型会选择与对象嵌入最相似的文本嵌入所对应的类别或名词。4零样本学习能力 YOLO-World 的一个关键特点是其零样本学习能力。这意味着即使在训练数据中没有见过某些类别或名词模型也能够通过其语言和视觉的联合表示来识别和匹配这些新对象。
总结
通过RepVL-PAN网络YOLO-World 展示了如何有效地结合视觉信息和语言描述以实现对图像内容的深入理解和准确的自动标注为开放词汇表对象检测领域提供了一种新的解决方案。