移动网站开发视频怎样嵌入,在线制作网站,济南免费网站建站模板,口碑推广FPN结构详解 目录
一、概念介绍 二、结构详解
1、对比试验
2、特征图融合
3、结构详解
4、不同尺度预测
5、Proposal映射到预测特征层 一、概念介绍 Feature Pyramid Network (FPN)是一种用于目标检测和语义分割的神经网络架构。它的目标是解决在处理不同尺度的图像时… FPN结构详解 目录
一、概念介绍 二、结构详解
1、对比试验
2、特征图融合
3、结构详解
4、不同尺度预测
5、Proposal映射到预测特征层 一、概念介绍 Feature Pyramid Network (FPN)是一种用于目标检测和语义分割的神经网络架构。它的目标是解决在处理不同尺度的图像时信息丢失和语义细节模糊的问题。 FPN的核心思想是通过在网络中添加一组横向连接来构建多尺度特征金字塔。这些横向连接将底层的高分辨率特征与高层的低分辨率特征进行融合以捕捉不同尺度的语义信息。融合后的特征金字塔可用于检测和分割任务中的多尺度目标识别。 具体来说FPN在主干网络如ResNet中的每个阶段添加一个横向连接以便从高层到底层传递信息。这些连接可以通过上采样或卷积操作来进行特征融合和调整分辨率。最后通过在FPN上构建特定的任务头部网络如分类器或分割器可以实现目标的检测和分割。 FPN的优点是能够有效地解决多尺度的问题提高目标检测和语义分割的性能。它已经在许多计算机视觉任务中取得了显著的成果并被广泛应用于许多最先进的目标检测和分割算法中。 二、结构详解
1、对比试验 图(a)是一个特征图像金字塔结构常用于传统图像处理。 对于要检测不同尺度目标的时候将图片首先缩放到不同的尺度针对每个尺度图片依次通过算法进行预测。此时会面临一个问题生成多少个尺度就需要预测多少次效率低下。 图(b)是Faster R-CNN采用的一种方式将图片通过骨干网络提取得到最终的特征图在最终的特征图上进行预测但是这种方式对于小目标检测效果不是很好。 图(c)是SSD算法采用的方式将图片输入到骨干网络此时会在骨干网络正向传播中得到的不同的特征图上分别进行预测。 图(d)为FPN特征金字塔结构与图(c)进行简单的对比可以看出特征金字塔结构并不是简单的在骨干网络得到的不同特征图上进行预测而是将不同特征图上的特征进行融合然后再融合之后的特征图上再进行预测。
2、特征图融合 需要将不同尺度特征图进行融合不同的特征图构建时都是以2的整数倍进行选取这是因为分类网络中的骨干网络缩放特征图时都是以2的整数倍进行缩放的。 针对每一个骨干网络上的特征图都先用1x1的卷积层进行处理目的是为了之后进行特征图融合调整骨干网络中不同特征图的通道数。 在高层次特征图与低层次特征图进行融合时因为高层的特征图的大小在骨干网络正向传播时会缩小为低一层特征图的一半所以在融合之前需要将高层特征图进行2倍上采样正好与低一层特征图大小相同低一层特征图又经过1x1卷积之后与高层特征图统一了通道数可以进行特征图融合操作。 2倍上采样通过邻近插值算法。
notes 邻近插值算法是一种简单且常用的上采样方法它通过复制最近邻像素的值来增加特征图的尺寸。 邻近插值算法的基本思想是对于每个新像素找到与其最接近的原始像素并将其值赋给新像素。这种方法不涉及任何计算或插值操作因此计算效率很高适合用于快速的上采样需求。
具体实现上邻近插值算法可以通过以下步骤进行
根据上采样的倍数计算新特征图的尺寸。对于新特征图中的每个像素找到与其最接近的原始特征图的位置。将原始特征图中最接近的像素值赋给新特征图中的对应像素。 例如假设有一个大小为4x4的低分辨率特征图需要将其上采样为8x8的高分辨率特征图。那么对于高分辨率特征图中的每个像素可以找到最接近的原始特征图像素的位置并将其值赋给新特征图。这样就完成了邻近插值算法的上采样过程。 虽然邻近插值算法简单高效但它可能会导致一些细节信息的损失因为它只是简单地复制最接近的像素值。因此对于一些对细节信息要求较高的任务如图像分割或图像生成可能需要使用更复杂的上采样方法如转置卷积。
3、结构详解 选取ResNet-50作为骨干网络结合FPN结构。主干网络输入图像尺寸为[640x640x3]。对于C2、C3、C4、C5得到的特征图分别通过1x1的卷积层调整通道数之后从C5到C2通过上采样操作进行融合。在所得到的新的特征图之后再分别接上一个3x3卷积层对融合后的特征图进一步融合依次得到P2、P3、P4、P5原论文给的一个描述会在P5的基础上进行最大池化下采样得到P6。
notes 需要注意的是P6只用于区域生成网络RPN部分。RPN生成Proposal预选框时候会在P2、P3、P4、P5、P6特征图上进行预测但是在Fast R-CNN部分中只会在P2、P3、P4、P5上进行预测。 在Faster R-CNN是在预测特征图上通过RPN网络生成得到一系列的Proposal预选框然后将Proposal预选框映射到特征图上然后将映射的这部分特征输入到Fast R-CNN部分得到最终预测结果。 在FPN结构中首先通过RPN结构在P2、P3、P4、P5、P6上进行预测Proposal预选框然后将预测得到的Proposal预选框映射到P2、P3、P4、P5上然后通过Fast R-CNN部分得到最终预测结果。
4、不同尺度预测 由于在RPN网络中生成了多个预测特征层所以可以在不同的预测特征层上分别针对不同尺度的目标进行预测。在Faster R-CNN上只有一个预测特征层所以是在这一个预测特征层上生成不同面积不同比例的anchor。但是在FPN上不同预测特征层可以针对不同尺度的目标。 随着卷积池化等操作之后细节信息会丢失。P2相对较为底层的预测特征层会保留更多的底层细节信息更适合预测小目标。会将面积为比例为1:21:12:1的anchor在P2上生成。针对P3使用面积P4使用面积P5使用面积P6使用面积比例都为1:21:12:1的anchor。这也是与Faster R-CNN不一样的地方。 在不同的特征预测层上共用同一个RPN和Fast R-CNN和分别在不同的特征预测层上用不同的RPN和Fast R-CNN的情况下检测精度并无差异。所以为了减少网络训练参数可以在不同特征预测层上共享RPN预测头和Fast R-CNN模块。在RPN部分P2到P6使用同一个模块而Fast R-CNN部分P2到P5使用同一模块。
5、Proposal映射到预测特征层 k为应该对应的预测特征值的层数对应P2到P5数值为2到5设置为4w为RPN预测得到的Proposal在原图上的宽度h为RPN预测得到的Proposal在原图上的高度