大连做网站哪家便宜,网站建设工期,网页设计教程视频教程,wordpress js优化0 - 背景 经典的R-CNN存在以下几个问题#xff1a; 训练分多步骤#xff08;先在分类数据集上预训练#xff0c;再进行fine-tune训练#xff0c;然后再针对每个类别都训练一个线性SVM分类器#xff0c;最后再用regressors对bounding box进行回归#xff0c;并且bounding …0 - 背景   经典的R-CNN存在以下几个问题 训练分多步骤先在分类数据集上预训练再进行fine-tune训练然后再针对每个类别都训练一个线性SVM分类器最后再用regressors对bounding box进行回归并且bounding box还需要通过selective search生成时间和空间开销大在训练SVM和回归的时候需要用网络训练的特征作为输入特征保存在磁盘上再读入的时间开销较大测试比较慢每张图片的每个region proposal都要做卷积重复操作太多  在Fast RCNN之前提出过SPPnet来解决R-CNN中重复卷积问题但SPPnet仍然存在与R-CNN类似的缺陷 训练分多步骤需要SVM分类器额外的regressors空间开销大  因此该文提出的Fast RCNN便是解决上述不足在保证效果的同时提高效率。基于VGG16的Fast RCNN模型在训练速度上比R-CNN快大约9倍比SPPnet快大约3倍测试速度比R-CNN快大约213倍比SPPnet快大约10倍在VOC2012数据集上的mAP大约为66%。 1 - 整体思路 1.1 - 训练 输入是$224 \times 224$的固定大小图片经过5个卷积层2个降采样层分别跟在第一和第二个卷积层后面进入ROIPooling层其输入是conv5层的输出和region proposalregion proposal个数大约为2000个再经过两个output都为4096维的全连接层分别经过output各为21和84维的全连接层并列的前者是分类输出后者是回归输出最后接上两个损失层分类是softmax回归是smoothL1  fast R-CNN模型的流程图如下          1.1.1 - ROIPooling   由于region proposal的尺度各不相同而期望提取出来的特征向量维度相同因此需要某种特殊的技术来做保证。ROIPooling的提出便是为了解决这一问题的。其思路如下 将region proposal划分为$H \times W$大小的网格对每一个网格做MaxPooling即每一个网格对应一个输出值将所有输出值组合起来便形成固定大小为$H \times W$的feature map1.1.2 - 训练样本   训练过程中每个mini-batch包含2张图像和128个region proposal即ROI64个ROI/张其中大约25%的ROI和ground truth的IOU值大于0.5即正样本且只通过随机水平翻转进行数据增强。 1.1.3 - 损失函数   多损失融合分类损失和回归损失融合分类采用log loss即对真实分类的概率取负log分类输出K1维回归的loss和R-CNN基本一样。   总的损失函数如下 $$L(p,u,t^u,v)L_{cls}(p,u)\lambda [u\geqslant 1]L_{loc}(t^u,v)$$   分类损失函数如下 $$L_{cls}(p,u)-log\ p_u$$   回归损失函数如下 $$L_{loc}(t^u,v)\sum_{i\epsilon \{x,y,w,h\}}smooth_{L_1}(t_i^u-v_i)$$   其中有 $$smooth_{L_1}(x)\left\{\begin{matrix}0.5x^2\ \ \ \ \ \ if\ |x| 1\\|x|-0.5\ \ otherwise\end{matrix}\right.$$ 1.1.4 - 改进全连接层   由于卷积层计算针对的是一整张图片而全连接层需要对每一个region proposal都作用一次所以全连接层的计算占网络计算的将近一半如下图。作者采用SVD来简化全连接层计算。           1.1.5 - 训练整体架构总结   图片引用自博客。        1.2 - 测试 1.2.1 - 测试整体架构总结   图片引用自博客。        2 - 思考 2.1 - 改进 卷积不再是重复对每一个region proposal而是对于整张图像先提取了泛化特征这样子减少了大量的计算量注意到R-CNN中对于每一个region proposal做卷积会有很多重复计算ROIPooling的提出巧妙的解决了尺度放缩的问题将regressor放进网络一起训练同时用softmax代替SVM分类器更加简单高效2.2 - 不足   region proposal的提取仍然采用selective search整个检测流程时间大多消耗在这上面生成region proposal大约2~3s而特征提取分类只需要0.32s之后的Faster RCNN的改进之一便是此点。 3 - 结果 3.1 - mAP   FRCN相比其他算法表现更好且注意到VOC12由于数据集更大而使得模型效果提高很多。这一角度也说明了数据对于当前深度学习的重要性不容忽视  3.2 - 速度            3.3 - 多任务训练multi-task   由于本文提出的模型是基于R-CNN通过multi-task训练方式进行改进的因此要说明multi-task的有效性。一共分为S/M/L三组每组对应四列分别为 仅采用分类训练测试也没有回归采用论文中的分类回归训练测试没有回归采用分段训练测试没有回归采用论文中的分类回归训练测试有回归 3.4 - 单尺度vs多尺度   多尺度表示输入图像采用多种尺度输入在测试的时候发现多尺度虽然能在mAP上得到些许提升但也增加了时间开销作者给出原因深度卷积网络可以学习尺度不变性。            4 - 参考资料 https://blog.csdn.net/u014380165/article/details/72851319 https://www.cnblogs.com/CZiFan/p/9901729.html https://www.cnblogs.com/CZiFan/p/9901000.html转载于:https://www.cnblogs.com/CZiFan/p/9903518.html