当前位置：首页 > news >正文

中卫网站推广公司泰安有限公司

news 2025/11/15 6:13:03

中卫网站推广公司,泰安有限公司,网站备案网址,个人网站注销原因从简单的图像分类到3D位置估算#xff0c;在机器视觉领域里从来都不乏有趣的问题。其中我们最感兴趣的问题之一就是目标检测。如同其他的机器视觉问题一样#xff0c;目标检测目前为止还没有公认最好的解决方法。在了解目标检测之前#xff0c;让我们先快速地了解一下这个领… 从简单的图像分类到3D位置估算在机器视觉领域里从来都不乏有趣的问题。其中我们最感兴趣的问题之一就是目标检测。如同其他的机器视觉问题一样目标检测目前为止还没有公认最好的解决方法。在了解目标检测之前让我们先快速地了解一下这个领域里普遍存在的一些问题。目标检测 vs 其他计算机视觉问题图像分类在计算机视觉领域中最为人所知的问题便是图像分类问题。图像分类是把一幅图片分成多种类别中的一类。 ImageNet是在学术界使用的最受欢迎的数据集之一它由数百万个已分类图像组成部分数据用于ImageNet大规模视觉识别挑战赛ILSVRC。最近几年来解决分类问题的模型已经有了超越人类的识别能力所以分类问题实际上已经被解决了。然而图像分类问题有许多挑战相伴随着的是许多如何解决这些问题的文献以及对还未被解决的问题的探讨。图像分类实例 1. 目标定位同图像分类类似目标定位要找到单个目标在图像中的位置。目标定位实例目标定位在实际生活中的应用很广泛比如智能剪切(通过定位目标所在的位置,识别需要图片从哪里剪切) 或者进行常规的目标提取以便进一步处理。结合图像分类技术它不仅仅可以定位目标还能对该物体分类。 2. 实例分割从目标检测更进一步我们不仅仅要找到图片中的对象更是要发现该检测对象对应的像素码。我们把这个问题称为实例分割或者是对象分割。 3. 目标检测在迭代处理定位和图片分类问题时我们最终还是需要对多个目标进行同时检测和分类。目标检测是在图片中对可变数量的目标进行查找和分类。其中重要的区别是“可变”这一部分。和图像分类问题不同的是由于每一张图片待检测目标的数量不一目标检测的输出长度是可变的。在这篇文章中我们将详细地介绍一些实际应用讨论目标检测作为机器学习问题的主要困难以及在过去的几年里如何应用深度学习处理目标检测。目标检测实例实际案例在Tryolabs 中我们专注于使用现有的机器学习方法解决商务问题所以即使我们热衷于机器学习的科研问题但最终我们还是要回归实际应用中。虽然目标检测从某种程度上在工业界还是一个很新的工具但它已经有了很多实用和有趣的应用。 1. 人脸检测自20世纪中期以来傻瓜相机开始通过更为高效的自动对焦来检测人面。虽然这是一种比较浅显的目标检测应用但是这种方法同样适用于其他类型的目标检测我们稍后将会介绍。 2. 计数计数是一个简单但是经常被忽略的目标检测问题。统计人车花甚至是微生物数量是现实世界的需求在大部分基于图像的系统中都要使用。近几年伴随着监控视频设备的不断涌现使用机器视觉将原图像转化为结构化数据的需求也越来越多。 3. 视觉搜索引擎最后我们比较喜欢的一个实例是Pinterest图片社交平台的视觉搜索引擎。他们将目标检测作为索引图像内容的处理流程之一。比如你可以在不同的背景下找到某个特定的钱包。这比Google Image的反向搜索引擎只是找到类似的图像更强大。相似查找我们应用目标检测方法定位包或鞋子这些产品。在这张图片中用户可以点击图片中的目标对象便可以查找类似的产品 4. 空中影像分析在这个廉价无人机和卫星兴起的年代我们能在空中获取空前多的关于地球的数据。如今已经有越来越多的公司开始使用planet 或者descartes labs 公司提供的卫星图片应用目标检测来计算汽车树船的数量。这些举措都为我们带来了高质量的数据这在从前是不可能实现的。一些公司正在应用无人机摄像对人难以到达的地方进行自动监测例如BetterView或者使用物体检测方法进行整体分析例如TensorFlight。除此之外一些公司实现了不需人为干预下的场景自动检测和位置识别。使用TensorFlight实现汽车、树和行人的识别目标检测存在的问题和挑战现在让我们开始深入了解目标检测中的主要问题。 1. 对象数量不确定我们在前面提到过对象数量可变但是并没有解释为什么是个问题。当训练机器学习模型的时候你经常需要把数据表示成固定长度的向量。如果在训练之前图片中的对象数量是未知的模型的输出数量也就是未知的了。因此一些增加模型复杂性的预处理是必要的。在传统的方法中输出的数量可以使用滑动窗函数来计算给不同位置产生一个固定大小的特征窗。在做完了预测之后有些预测会被丢弃有些会被合并到最终结果里面。滑动窗示例 2. 对象大小不同另外一个挑战是处理不同大小对象的问题。面对一个简单的分类问题你期望是尽可能将覆盖图片大部分面积的对象进行分类。而在有些情境中你想识别的对象可能只有几十个像素点大小或者说是原图片中占比很小的一部分。以往人们通过使用不同大小的滑动窗来解决这个问题这种方法虽然简单却效率低下。 3. 建模第三个挑战是同时解决目标定位和图像分类这两个问题。我们如何将这两种不同类型的需求组合到一个模型里呢在进入深度学习和如何应对这些挑战之前让我们先快速了解一些经典的检测方法。检测方法 1. 传统方法在这里我们将集中介绍其中两个最流行且目前依然被广泛使用的模型。第一个是2001年由Paul Viola和Michael Jones在论文《Robust Real-time Object Detection》里提出的Viola-Jones框架。这个方法快速且相对简单使得低处理能力的傻瓜相机得以进行实时的面部识别。我们不打算深入介绍它是如何工作和训练的但是总体来说该算法是通过使用哈尔特征Haar features生成许多可能几千个简单的二元分类器来实现的。这些分类器通过一个多尺度级联滑动窗进行评估一旦遇到错误的分类结果则提前结束。另一个传统方法是使用方向梯度直方图HOG特征和支持向量机来分类。这个方法依然需要一个多尺度滑动窗尽管它比Viola-Jones表现优异但速度却慢了很多。 2. 深度学习方法在机器学习领域深度学习一直是个大boss尤其在计算机视觉方面。在图像分类的任务上深度学习已经彻底击败了其他的传统模型。同样在目标检测方面深度学习也代表了目前的最先进水平。读到这里你应该对我们面临的挑战和对解决它们的办法有了一定的了解接下来我们将概述一下在过去的几年深度学习方法的发展历程。 OverFeat 2013年由NYU纽约大学提出的OverFeat 是最早将深度学习用于目标检测的方法之一。他们提出了一个使用卷积神经网络CNNs来处理多尺度滑窗的算法。 R-CNN OverFeat提出后不久加州大学伯克利分校的Ross Girshick及其同事就发表了Regins with CNN features简称R-CNN的方法该方法在物体识别挑战中有50%的效果提升。他们提出了目标检测分三步走的方法使用候选区域方法最流行的一个是’Selective Search’提取可能的物体使用CNN从每一个区域提取特征使用支持向量机SVM分类每一个区域 R-CNN架构 Girshick, Ross, et al. Rich feature hierarchies for accurate object detection and semantic segmentation. 2014. 尽管R-CNN能达到很好的识别效果但是它在训练中有很多的问题。为了训练模型你首先要对训练数据集产生候选区域然后把CNN特征提取应用于每一个区域对于Pascal 2012数据集通常需要处理200GB的数据最后再训练支持向量机分类器。 Fast R-CNN R-CNN被提出不久后它又延伸出了一个完全使用深度学习的版本——就在一年后Ross Girshick目前在微软研究中心发表了Fast R-CNN。和R-CNN类似Fast R-CNN依然采用Selective Search生成候选区域但是和之前的分别提取出所有的候选区域然后使用支持向量机分类器不同Fast R-CNN 在完整的图片上使用CNN然后使用集中了特征映射的兴趣区域Region of Interest, RoI以及前向传播网络进行分类和回归。这个方法不仅更快而且有Rol集中层和全连接层使得模型从头到尾可求导更容易训练。 Fast R-CNN最大的不足是这个模型依然依赖Selective Search或者其他的区域候选算法当用该方法进行推论时这块就成了一个瓶颈。 Fast R-CNN Girshick, Ross. Fast R-CNN 2015. YOLO 在Fast R-CNN被提出过后不久Joseph Redmon与Girshick等人合著发表了You Only Look OnceUnified Real-Time Object DetectionYOLO这篇论文。 YOLO提出了一个兼具准确性和速度性的简单的卷积神经网络首次实现了实时物体检测。 YOLO架构 Redmon, Joseph, et al. You only look once: Unified, real-time object detection. 2016. Faster R-CNN 接着Shaoqing Ren依然与Girshick合著目前在Fackbook研究中心发表了Faster R-CNN这是R-CNN的第三次迭代。 Faster R-CNN添加了候选区域网络(Region Proposal Network, RPN)试图取消对Selective Search 算法的依赖这使得模型可以完全实现端到端训练。我们暂时不会详细深入地介绍RPNs的运行原理但抽象地说它基于一个叫“物体性”objectness的分数输出对象。这些物体被用在Rol集中层和全连接层从而实现分类的目标。 Faster R-CNN架构 Ren, Shaoqing, et al. Faster R-CNN: Towards real-time object detection with region proposal networks. 2015. SSD和R-FCN 最后还有两篇论文不得不提Single Shot DetectorSSD) 和 Region-based Fully Convolutional NetworksR-FCN。前者在YOLO的基础上使用多尺寸的卷积特征图使得在结果和速度上都有提升。后者基于Faster R-CNN的架构但是只使用了卷积网络。数据集的重要性在研究中数据集扮演了十分重要的角色其重要性经常被低估。每一次新的数据集发布都会有论文被发表新的模型在此基础上进行比对和提升把不可能变成可能。很可惜对于目标检测我们还没有足够的数据集。数据很难产生而且成本很高具备优秀数据库的公司一般不愿意公开他们的数据而学校则无法接触到优质的数据集。话虽如此我们还是有一些不错的公开数据可以使用下面的列表就是目前可用的主要数据集。 Name # Images (trainval) # Classes Last updated ImageNet 450k 200 2015 COCO 120K 80 2014 Pascal VOC 12k 20 2012 Oxford-IIIT Pet 7K 37 2012 KITTI Vision 7K 3 2014 结论最后在目标检测领域还有很多未知的领域值得我们探索不论是业界应用还是新型算法。尽管这篇文章只对目标检测作了简单的概述我们依然希望它能帮助你初步了解目标检测这一领域并为你更进一步的学习打下基础。原文发布时间为2017-09-29 本文作者及子龙张礼俊余志文钱天培本文来自云栖社区合作伙伴“数据派THU”了解相关信息可以关注“数据派THU”微信公众号

查看全文

http://www.pierceye.com/news/957469/