在线设计海报网站,建设网站费用多少钱,苏州高新区网站建设,聚名网作为经典的图像识别网络模型#xff0c;学习YOLO的过程也是了解图像识别的发展过程#xff0c;对于初学者来说#xff0c;也可以了解所采用算法的来龙去脉#xff0c;构建解决问题的思路。
1.YOLO V1
论文地址#xff1a;https://arxiv.org/abs/1506.02640
YOLO#x…作为经典的图像识别网络模型学习YOLO的过程也是了解图像识别的发展过程对于初学者来说也可以了解所采用算法的来龙去脉构建解决问题的思路。
1.YOLO V1
论文地址https://arxiv.org/abs/1506.02640
YOLOYou Only Look Once是一种基于深度神经网络的对象识别和定位算法其最大的特点是运行速度很快可以用于实时系统。YOLO V1不同于之前模型的特点是创造性的将候选区和对象识别这两个阶段合二为一所以速度是它优于其他模型的点。 YOLO 网络模型 YOLO并没有真正去掉候选区而是采用了预定义的预测区。也就是将图片划分为 7*749 个网格grid每个网格允许预测出2个边框bounding box包含某个对象的矩形框。 模型的输入为448*448*3的图像最后输出的是7*7*30的tensor7*7是网格的大小后面的30则是有两部分组成前10位是描述的两个bounding box分别是x,y,h,w,c,xy是中心点的位置wh是预选框的宽度和高度c是预选框的置信度后20位是代表方框所属类别的概率。为了达成这种30位的输出层效果我们需要通过损失函数来对模型进行限制。 NMS 非极大值抑制 简单来说每个物体只保留最准确置信度最高的一个矩形框其余的全删除。 YOLO采用重叠度的方式来进行筛选 将候选框按照置信度排序依次计算两个候选框的重叠度当重叠度大于我们设定的阈值时则丢弃置信度较小的候选框从而达到减少候选框的目的。
IoU 并集面积/交集面积 union_area/intersection_area
2.YOLO V2
YOLO V2的改进 Batch Normalization V2版本舍弃Dropout卷积后全部加入Batch Normalization 网络的每一层的输入都做了归一化收敛相对更容易 更大的分辨率 V1训练时用的是224*224测试时使用448*448 V2训练时额外又进行了10次448*448 的微调 网络结构 采用Darknet网络模型去掉了FC层全部采用卷积层经过5次降采样最后的输出为13*13的网格5次降采样每次降为原来的一半所以最出的输入是416*416即便需要自己修改输入数据的大小也要确保是32的倍数。 采用1*1的卷积减少计算量 聚类提取先验框 k-means聚类中采用的距离为1-IOU Anchor Box 通过引入anchor boxes使得预测的box数量更多13*13*n Directed Location Prediction V2中并没有直接使用偏移量而是选择相对grid cell的偏移量 感受野 采用多层卷积感受野更大