苏州市建设局老网站,python做网站步骤,中文域名做的网站有哪些,丹徒网站建设价格本文通过整理李宏毅老师的机器学习教程的内容#xff0c;介绍 CNN#xff08;卷积神经网络#xff09;的网络结构。
CNN 网络结构, 李宏毅
CNN 主要应用在图像识别#xff08;image classification, 图像分类#xff09;领域。
通常#xff0c;输入的图片大小相同介绍 CNN卷积神经网络的网络结构。
CNN 网络结构, 李宏毅
CNN 主要应用在图像识别image classification, 图像分类领域。
通常输入的图片大小相同如 100 × 100 100 \times 100 100×100输出的分类为 one-hot 形式
输入数据的格式为 tensor张量维数为宽度 × \times × 高度 × \times × channel频道数
理解方式一神经元视角neuron version story 如果使用全连接fully connected network的网络结构参数量会非常大
考虑到图片识别问题的特性其实并不需要全连接的网络下面基于此进行简化。
感受野 图像识别本质上是对图像中的各个部位进行识别如一只鸟的喙、眼和爪等因此每个神经元neuron只需输入图片的一部分即可即感受野receptive field 值得注意的是
不同神经元的感受野可以重叠同一个感受野也可以有多个神经元用以侦测不同的特征
此外感受野还可以有一些其他的操作
可以有大有小可以只考虑部分 channel在通常的 CNN 中不常见但在 network corporation 时会遇到可以是长方形理论上甚至可以不相连但是要想清楚这样做的理由。
总之感受野可以任意设计。
最经典的感受野的设计如下
考虑所有 channel因此只需要输入宽度和高度即可宽度和高度合称为 kernel sizekernal size 往往不会很大如 3 × 3 3 \times 3 3×3后面会解释如何对更大范围的模式pattern进行识别同一个感受野会有多个神经元感受野的移动步长stride不要太大通常为 1 或 2希望感受野之间有重叠防止感受野交界上的模式被遗漏对于位于边界上、超出范围的感受野需要对超出的位置进行补值padding通常补 0也有其他补值方法如补全图的平均值或补边界值等感受野整体要覆盖全图。
参数共享 由于同样的模式可能出现在图片的不同位置
于是侦测不同位置的相同模式的神经元其对应的参数相同即参数共享
侦测相同位置的神经元不能共享参数。
共享的参数叫做滤波器filter
综上所述以上两种 CNN 对全连接网络的简化方式
理解方式二滤波器视角filter version story 将每个卷积层convolutional layer视为若干滤波器扫过整张图片去识别对应的模式 同一卷积层的所有滤波器输出的所有数据叫做 feature map它可以看成是另一张图片只不过 channel 数量由 3 个RGB变成了滤波器的数量因此下一层的滤波器的高度需要设为上一层的滤波器数量
当网络更深时同样大小的感受野所看到的范围会越来越大例如同样是 3 × 3 3 \times 3 3×3 的感受野在第二层就可以看到原图片中 5 × 5 5 \times 5 5×5 的范围
此外第一种理解方式中的参数共享即是把滤波器扫过整张图片的过程。
两种理解方式总结如下
有关 pooling pooling 即 subsampling是把一张大的图片缩小以减少运算量的过程。 常见的 pooling 方式为 max pooling即保留最大值 通常是做一层或几层卷积后做一次 pooling整体网络结构如下
但近年来pooling 用得越来越少甚至可有可无因为其操作会影响性能而运算资源又越来越强。
AlphaGo 的网络结构 其中rectifier nonlinearity 即为 ReLU。
此外AlphaGo 没有使用 pooling。
局限性 CNN 无法处理图片放大缩小或旋转的情形解决方案有
数据增强data augmentation即把训练资料的每张图片都截成小块再放大并把每张图片都旋转使网络看到放大和旋转后的图片使用 spatial transformer layer。