CNN比全连接网络计算效率更高_为什么全连接神经网络在图像识别中不如卷积神经网络

Ⅰ 卷积神经网络（Convolutional Neural Networks, CNN)——更有效率地提取特征

卷积神经网络（Convolutional Neural Networks, CNN)——更有效率地提取特征

图像识别问题本质上就是分类问题，比如我们要区分猫和狗，那么我们就需要构建一个模型，将照片丢进去后，模型能输出猫或者狗的概率有多大。在做图像识别时首要的就是要提取图片的特征，那么如何提取图片的特征呢？前面讲到了前向全连接网络，我们可以尝试用前向全连接网络提取。假设图片的像素是100*100，如果如片是彩色的，每个像素都有RGB三种颜色的数值。因此，一张图片是有一个三维向量构成的，一维是长100，一维是宽100，还有一维是R、G、B 3个通道（channels）。把这个三维向量拉直作为一个一维向量，长度就是100*100*3。

我们在区分一张图片时，我们观察的往往是图片的局部的、最重要的特征。 比如图片上是一只鸟，我们可能通过嘴巴、眼睛、爪子等就可以判断出是一只鸟了。因此，输入层的每一个神经元没有必要看图片的全局，只需要看一个局部就行了。

在两张不同的图片上，同一个特征区域可能处于不同位置。 比如鸟嘴的局部特征区域在下面这两张图上就处在不同的位置上。那么如何才能让两个不同的神经元在看到这两个不同的感受野时，能产生一致的特征值呢？

对上面的内容进行一个总结：
（1）我们设置一个局部感受野，假设感受野的大小为W*H*C，其中W表示感受野的宽度，H表示感受野的高度，C表示感受野的通道数。那么对应的神经元的参数的个数就为：W*H*C个权值加1个偏置。在卷积神经网络中，我们称这样一个神经元为一个 滤波器（filter） 。
（3）我们通过滑动的方式让感受野铺满整个图片，假设图片的尺寸是W1*H1*C，滑动步长为S，零填充的数量为P。假设感受野的个数是W2*H2，其中，
(4)我们让所有感受野的观测滤波器参数进行共享，即相当于一个滤波器通过滑动扫描的方式扫描了所有感受野。
（5）我们设置多个滤波器，假设滤波器的个数为K，这K个滤波器都通过滑动扫描的方式扫过整个图片。此时参数的个数为：（W*H*C+1）*K。
（6）由于每个滤波器每经过一个感受野都会进行一次计算输出一个值，所以输出的维度为：W2*H2*K。我们将这个输出称为特征图，所以特征图宽度为W2，高度为H2，通道数C2=K。
举个例子： 假设某个图片的大小是100*100*3，设置滤波器的大小为3*3*3，滤波器的个数为64，设置步长S=1，设置零填充的数量为P=0。那么卷积神经网络的参数为，相比前向全连接个参数，参数的个数缩小了几个数量级。
输出特征图的宽度和高度均为，输出特征图的通道数为，所以输出特征图的维度为98*98*64。
如果在上面输出的基础上再叠加一层卷积神经网络，滤波器的设置宽和高可以不变，但是通道数不再是3了，而是变成64了，因为输入特征图的通道数已经变64了。假设滤波器的大小为3*3*64，滤波器的个数为32，设置步长S=1，设置零填充的数量为P=0。可以计算出来，新的输出特征图的维度是96*96*32。

以上就是卷积神经网络（CNN）的解析。但是CNN一般不是单独用的，因为一般提取图片的特征是为了分类，还需要进一步处理，常见的形式如下图所示。

Ⅱ 用于图像分割的CNN

姓名：闫伟学号：15020150038

【嵌牛导读】：在计算机视觉领域，图像分割指的是为图像中的每个像素分配一个标签的任务，它也可以被看作是dense prediction task，对图像中每个像素进行分类。和使用矩形候选框的目标检测不同，图像分割需要精确到像素级位置，因此它在医学分析、卫星图像物体检测、虹膜识别和自动驾驶汽车等任务中起着非常重要的作用。

【嵌牛鼻子】：图像分割 CNN 语义分割

【嵌牛提问】：如何利用CNN对图像进行分割?

【嵌牛正文】：

随着深度学习的不断发展，近年来图像分割技术也在速度和准确率上迎来了一次次突破。现在，我们能在几分之一秒内完成分割，同时保证极高的准确性。在这篇文章中，我们将介绍一些用于图像分割的主要技术及其背后的简单思路。我们将从最基础的语义分割（semantic segmentation）开始，慢慢进阶到更复杂的实例分割（instance segmentation）。

目标检测、语义分割和实例分割

语义分割

语义图像分割是为图像中的每个像素分配语义类别标签的任务，它不分割对象实例。现在，处理这类任务的主流方法是FCN及其衍生，所以我们先从FCN看起。

全卷积网络（FCN）

FCN架构

创建FCN的方法很简单，我们只需把CNN里的所有全连接层替换成宽高1×1的卷积层，这时卷积层的filter数量等于全连接层的神经元（输出）数量，所有层都是卷积层，故称全卷积网络。之所以要这么做，是因为每个像素的空间位置对于分割来说都很重要，而卷积层能分类全连接层无法处理的单个像素。作为处理结果，神经网络较高层中的位置会对应于它们路径连接的图像中的位置，即它们的感受野。

如上图所示，FCN的架构非常简单，主要由编码器CNN（以VGG为例）构成，只不过其中和分类网络对应的最后三层被改成了(4096,1,1)(4096,1,1)(N+1,1,1)的卷积层（N表示类别数量）。编码器后是一个解码器网络，它只包含一个反向的卷积层（也称为转置卷积transposed convolution或反卷积deconvolution）。它的输出与输入图像具有相同的空间维度，并具有N+1个通道，每个通道预测一个类别。

反向的卷积操作

仍以VGG为例，由于前面采样部分过大，有时候会导致后面进行反向卷积操作得到的结果分辨率较低，会出现细节丢失等问题。为此，FCN的解决方法是叠加第三、四、五层池化层的特征，以生成更精准的边界分割。如下图所示：

需要注意的一点是，在进行上采样之前，所有池化特征都会先通过(N+1,1,1)这个卷积层。

FCN分割效果

U-NET

U-NET架构

U-NET常被用于生物医学图像分割，它遵循了FCN的编码器-解码器结构，不使用任何全连接层。如上图所示，常规情况下，U-NET的编码器是一个包含10个卷积层的CNN，中间包含最大池化层（红色箭头）。它的解码器会对feature map进行多次上采样和卷积，目的是为了提取更高效、更抽象的特征。得到heatmap后，U-NET最后再用1×1的卷积层做分类，也就是说解码器一共有13层，整个架构总共由23层可学习的卷积层组成。

为什么要做上采样？

答：池化层会丢失图像信息和降低图像分辨率且是不可逆的操作，对图像分割任务有一些影响。上采样可以补足一些图片的信息，但是信息补充的肯定不完全，所以还需要与左边的分辨率比较高的图片相连接起来（直接复制过来再裁剪到与上采样图片一样大小），这就相当于在高分辨率和更抽象特征当中做一个折衷，因为随着卷积次数增多，提取的特征也更加有效，更加抽象。—— jianyuchen23

SEGNET

SegNet架构

SegNet的全称是“用于图像分割的深度卷积编码器-解码器架构”，事实上，大多数语义分割方法都遵循这种基本架构，它们的编码器都是用VGG16，解码器都仿照U-NET——多次上采样后再卷积。但是，SegNet有自己独到的特点：

上采样是不可学习的

解码器使用和编码器相同的卷积（filter大小和相应层的通道数量）

SegNet中的上采样是一种反向最大池化操作。为了补足图像信息，U-NET会对编码阶段的特征做通道降维，再把它和特征反向卷积后得到上采样进行相加，这一过程需要学习。而SegNet采用的方法是记录下编码阶段的最大池化index，比如在某层移动2×2的最大池化窗口时最高值像素的位置，然后把这个index用于解码阶段的上采样。空白的值用0填充：

SegNet上采样

在这个稀疏feature map进行正常卷积后，我们就能得到密集feature map。因此相比较FCN，SegNet的内存利用率更高，计算效率也更高。

需要注意的是，一般来说，解码器每一层的输入通道数和feature map大小都与其对应的编码器相同，但第一层不是。编码器的第一层都3个输入通道（RGB），但解码器第一层有更多通道，这是为了给每个类别生成分割掩膜。

用SegNet进行道路场景分割

实例分割

所谓实例分割，指的就是结合了语义分割和分类的任务。它在本质上更复杂，因为为了区分同一类的不同实例，我们往往需要为每个独立对象创建单独的、缩小的掩膜，然后再把它的大小调整为输入图像中对象的大小。

下面是实例分割的一些常用方法。

DEEPMASK

DeepMask架构

DeepMask是FAIR于2015年提出的一种实例分割方法，输入一张图片后，它能为子图像块（image patch）中的对象生成56×56的分割掩膜，并以掩膜为中心进行分类。对于图像的子图像块，它有两个约束：

子图像块中必须包含一个大致居中的对象

这个对象必须被完整包含在子图像块中，且在给定的比例范围内

由于DeepMask一次只能为子图像块分割一个对象，当它处理包含复杂、重复对象的图像时，它会在多个位置以多个比例密集应用。鉴于以上两个约束条件，这是可以理解的，也是必要的。

整个模型由VGG-A构成，它保留了两个全连接层，但删去了最后一个最大池化层，共有8个卷积层和4个池化层。模型输出的下采样因子为16，共有2个输出，一是子图像块对应物体的一个掩膜，二是这个子图像块包含一个物体的得分。

DeepMask分割效果

Multi-task Network Cascades(MNC)

MNC架构，右上为简化原理图

MNC不直接进行实例分割，它把这个任务分成了三个更小、更简单的子任务：

区分实例。这个子任务的目标是为每个实例预测候选框和候选框是否包含对象的概率；

估计掩膜。这个子任务的目标是预测对象的像素级掩膜；

对对象进行分类。这个子任务的目标是为每个掩膜级实例预测类别标签。

这三个子任务不是并行执行的，它们要按照顺序一个个完成，这也是MNC的全称“多任务网络级联”的原因。模型用移除了所有全连接层的VGG-16处理输入图像，生成feature map，作为三个子任务的共用数据。

子任务1：预测实例候选框

首先，神经网络以窗口的形式提取对象实例，这些候选框不包含分类预测信息，但有一个包含/不包含对象的概率。这是个全卷积的子网络，结构类似RPN。

子任务2：估计实例掩膜

基于子任务1返回的候选框预测，模型再用ROI pooling从共享卷积特征中提取该候选框的特征，之后是两个全连接层（fc），第一个fc负责把维度降到256，第二个fc负责回归像素级的掩膜。掩膜的预定义分辨率是M×M，这和DeepMask中使用的预测方法有些类似，但不同的是MNC只从几个候选框中回归掩膜，计算成本大大降低。

子任务3：对实例进行分类

现在模型有了子任务1给出的候选框预测，也有了子任务2用ROI pooling提取的feature map，之后就是基于掩膜和候选框预测实例类别。

这是两条并行路径。在基于掩膜的路径中，ROI提取的feature map被子任务2预测的掩膜“覆盖”，使模型更关注预测掩膜的前景特征，计算乘积后，将特征输入两路4096维的fc层。在基于候选框的路径中，用ROI pooling提取的特征被直接传递到4096维的fc层（图中未画出），目的是为了解决特征大幅被掩模级通道“覆盖”的情况（如目标对象很大）。之后，基于掩膜和基于候选框的路径被连接起来，紧接着是N+1类的Softmax分类器，其中N类是物体，1类是背景。

MNC分割效果

即便是这么复杂的架构，整个网络也是可以端到端训练的。

INSTANCEFCN

InstanceFCN是FCN的改进版，它不仅在语义分割任务上表现出色，在实例分割上也有不错的结果。之前我们提到过，FCN的每个输出像素是一个类别的分类器，那么InstanceFCN的每个输出像素就是实例相对位置的分类器。例如，下图被分为9块区域，在其中的第6个得分图中，每个像素就是对象是否在实例右侧的分类器。

试想一下，如果图像中只有一个实例，分割过程会很简单；如果有多个重叠实例，那么我们就得先区分实例，然后再进行分割。相比FCN，InstanceFCN的最大改进是引入相对位置，它在输入图像上生成k2实例敏感分数图，每个分数图对应于特定的相对位置，这就实现了相同位置不同语义的预测。

为了从这些分数图上生成图像实例，InstanceFCN在这组分数图上用了一个m×m的滑动窗口。在这个滑动窗中，每一个m/k×m/k的子窗口直接从相应的分数图中同样的子窗口复制那一部分数值。之后这组子窗口按照相对位置拼起来就得到了m×m的结果。这一部分被称为实例组合模块（instance assembling mole）。

模型的架构包括在输入图像上用VGG-16做特征提取。在输出的feature map顶部，有两个全卷积分支：一个用来估计分割实例（如上所述），另一个用来对实例进行评分。

InstanceFCN架构

如上图所示，对于第一个分支，模型先采用一个512维的1×1卷积层转换特征，然后用3x3的卷积层生成一组k2实例敏感分数图。这个实例组合模块负责在分辨率为m×m（m=21）的滑动窗中预测分割掩膜。

对于第二个分支，模型先采用一个512维的3×3卷积层，后面跟随一个1x1的卷积层。这个1x1的卷积层是逐像素的逻辑回归，用于分类以像素为中心的m×m滑动窗口中的对象是/不是实例。因此，这个分支的输出是对象分数图，其中一个分数对应于生成一个实例的一个滑动窗口，所以它对不同的对象类别会“视而不见”。

InstanceFCN分割效果

FCIS

正如InstanceFCN是对FCN的改进，完全卷积实例感知语义分割（FCIS）也是在InstanceFCN基础上做出的进一步优化。上节我们说道，InstanceFCN预测分割掩膜的分辨率都是m×m，而且没法将对象分类为不同类别。FCIS解决了这两个问题，它既能预测不同分辨率的掩膜，也能预测不同的对象类别。

FCIS实例敏感分数图

给定ROI，首先用InstanceFCN的实例组合模块生成上述分数图。对于ROI中的每个像素，有两个任务（所以要生成两个分数图）：

检测：它是否在某相对位置的对象检测候选框内，是（detection+），否（detection-）

分割：它是否在对象实例的边界内，是（segmentation+），否（segmentation-）

基于上述任务，这时出现了三种情况：

内部得分高，外部得分低：detection+，segmentation+（像素点位于ROI中的目标部分）

内部得分低，外部得分高：detection+，segmentation-（像素点位于ROI中的背景部分）

两个得分都很低：detection-，segmentation-（像素点不在ROI中）

对于检测，我们可以用取最大值把前两种情况（detection+）和情况3（detection-）区分开。整个ROI的得分是求取最大值得到分数图的所有值的平均数，之后再通过一个softmax分类器。对于分割，softmax可以区分情况1（segmentation+）和其他情况（segmentation-）。ROI的前景掩膜是每个类别每个像素分割分数的合并。

FCIS架构

FCIS分割效果

MASK R-CNN

MASK R-CNN是目标检测模型Faster R-CNN的进阶版，它在后者候选框提取的基础上添加了一个并行的分支网络，用预测分割掩膜。这个分支网络是个共享feature map的FCN，它为每个ROI提供Km2 维的输出，其中K对应类别个数，即输出K个掩膜，m对应池化分辨率。这样的设计允许网络为每个类别生成掩膜，避免了不同类实例之间因重叠产生混淆。此外，分类分支是直接在掩膜上分类，所以分割和分类是分离的。

Mask R-CNN架构中用于预测掩膜的分支

关注输入图像的空间结构是准确预测掩膜的前提，而这种像素到像素的操作需要ROI特征的完全对齐。在目标检测任务中，一些模型会用RoIPool提取这些特征，但它们不总是严格对齐的，因为ROI的维度不仅可以是积分，也可以是浮点数。RoIPool通过将它们四舍五入到最接近的整数来量化这些维度，不仅如此，量化的RoI还被进一步细分为量化的空间区间，在该区间上执行合并。虽然这些量化对分类问题没什么影响，但如果把它们用于像素级对齐，分割掩膜预测会出现巨大偏差。

RoIAlign：虚线网格表示feature map，实线表示RoI（有2×2个bin，每个bin中4个采样点）

考虑到实例分割要求像素级别的精准，MASK R-CNN引入了一种新的方法来提取特征，称为RoIAlign。它背后的想法是很简单：既然错位是由量化引起的，那就避免所有量化。RoIAlign不会对维度做任何约减，它引入了一个插值过程，先通过双线性插值到14×14，再池化到7×7，很大程度上解决了由直接池化采样造成的Misalignment对齐问题。需要注意的是，使用RoIAlign提取的RoI特征具有固定的空间维度，这点和RoIPool一样。

小结

以上就是现在常用的语义分割、实例分割模型，它们基本上都是FCN的变体，把编码器作为简单的特征提取器，重点放在解码器创新上。此外，一些研究人员也尝试过用其他方法来解决实例分割问题，比如上面提到的MASK R-CNN就是改造目标检测模型的成果，总而言之，FCN还是解决这类任务的重要基石。

译者的话：以上只是简短的关键提炼，如果读者希望了解这些模型的具体细节，可以参考文末推荐的几篇中文论文解读，点击阅读原文获取超链接。

参考文献

[1] J. Long, E. Shelhamer, and T. D ar rell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. (paper)

[2] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation,” in MICCAI, pp. 234–241, Springer, 2015. (paper)

[3] Badrinarayanan, V., Kendall, A., & Cipolla, R. (2017). SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39, 2481-2495. (paper)

[4] P. O. Pinheiro, R. Collobert, and P. Dollar. Learning to segment object candidates. In NIPS, 2015. (paper)

[5] Dai, J., He, K., Sun, J. Instance-aware semantic segmentation via multi-task network cascades. In CVPR., 2016. (paper)

[6] J. Dai, K. He, Y. Li, S. Ren, and J. Sun. Instance-sensitive fully convolutional networks. In ECCV, 2016. (paper)

[7] Y. Li, H. Qi, J. Dai, X. Ji, and Y. Wei. Fully convolutional instance-aware semantic segmentation. In CVPR, 2017. (paper)

[8] K He, G Gkioxari, P Dollár, R Girshick. Mask R-CNN. In ICCV, 2017. (paper)

编译参考

[1] jianyuchen23—— U-Net论文详解

[2] DelphiFan’s Blog—— 语义分割论文-SegNet

[3] Elaine_Bao—— 物体检测与分割系列 DeepMask

[4] AHU-WangXiao—— Instance-aware Semantic Segmentation via Multi-task Network Cascades

[5] Tina’s Blog—— InstanceFCN:Instance-sensitive Fully Convolutional Networks

[6] 技术挖掘者—— Mask R-CNN详解

Ⅲ 为什么全连接神经网络在图像识别中不如卷积神经网络

输入数据是n*n的像素矩阵，再使用全连接神经网络，那么参数的个数会是指数级的增长，需要训练的数据太多。
而CNN的话，可以通过共享同一个参数，来提取特定方向上的特征，所以训练量将比全连接神经网络小了很多。

Ⅳ CNN原理解析

然后通过CNN的可视化可知，CNN识别物体是通过从局部到整体到实现的，CNN识别了局部的特征之后，以及局部特征的相对应的位置，就可以拼凑起来，对整体进行识别。
CNN是由卷积层，采样层和全连接层构成的，大致过程是这样的：

对于一个输入的图片，只考虑一个通道的话，为一个二维矩阵，以下图为例，一个5*5的图像，经过一个3*3的filter，得到了一个3*3的结果，运算的过程是这样的：蓝色框中的3*3的矩阵和filter进行运算，得到了结果矩阵中的那个蓝色的4，运算的方式就是每个相同位置的值相乘，然后把九个数加起来即可。然后卷积核右移一个单位，与红框中的九个数进行运算，得到结果中的红色的3，依次这么右移和下移计算即可得到最终的结果，

下面是一个动图，可以更直观反映：

实际上，输入的图片一般为RGB格式，即三通道，那么一次需要三个卷积核，

卷积的计算公式：输入一个图片后，结果卷积，输出的结果与原图片和卷积核的大小存在一定的联系，先介绍几个概念：

下面给出公式：

其中：

实际上，仅仅是这样的一个简单的操作，可以让我们的效率大大提高，其优点如下：

参考：
卷积神经网络（CNN）入门讲解
卷积神经网络（Convolutional Neural Networks，CNN）

Ⅳ 神经网络：卷积神经网络（CNN）

神经网络最早是由心理学家和神经学家提出的，旨在寻求开发和测试神经的计算模拟。

粗略地说，神经网络是一组连接的输入/输出单元，其中每个连接都与一个权相关联。在学习阶段，通过调整权值，使得神经网络的预测准确性逐步提高。由于单元之间的连接，神经网络学习又称连接者学习。

神经网络是以模拟人脑神经元的数学模型为基础而建立的，它由一系列神经元组成，单元之间彼此连接。从信息处理角度看，神经元可以看作是一个多输入单输出的信息处理单元，根据神经元的特性和功能，可以把神经元抽象成一个简单的数学模型。

神经网络有三个要素：拓扑结构、连接方式、学习规则

神经网络的拓扑结构：神经网络的单元通常按照层次排列，根据网络的层次数，可以将神经网络分为单层神经网络、两层神经网络、三层神经网络等。结构简单的神经网络，在学习时收敛的速度快，但准确度低。

神经网络的层数和每层的单元数由问题的复杂程度而定。问题越复杂，神经网络的层数就越多。例如，两层神经网络常用来解决线性问题，而多层网络就可以解决多元非线性问题

神经网络的连接：包括层次之间的连接和每一层内部的连接，连接的强度用权来表示。

根据层次之间的连接方式，分为：

1）前馈式网络：连接是单向的，上层单元的输出是下层单元的输入，如反向传播网络，Kohonen网络

2）反馈式网络：除了单项的连接外，还把最后一层单元的输出作为第一层单元的输入，如Hopfield网络

根据连接的范围，分为：

1）全连接神经网络：每个单元和相邻层上的所有单元相连

2）局部连接网络：每个单元只和相邻层上的部分单元相连

神经网络的学习

根据学习方法分：

感知器：有监督的学习方法，训练样本的类别是已知的，并在学习的过程中指导模型的训练

认知器：无监督的学习方法，训练样本类别未知，各单元通过竞争学习。

根据学习时间分：

离线网络：学习过程和使用过程是独立的

在线网络：学习过程和使用过程是同时进行的

根据学习规则分：

相关学习网络：根据连接间的激活水平改变权系数

纠错学习网络：根据输出单元的外部反馈改变权系数

自组织学习网络：对输入进行自适应地学习

摘自《数学之美》对人工神经网络的通俗理解：

神经网络种类很多，常用的有如下四种：

1）Hopfield网络，典型的反馈网络，结构单层，有相同的单元组成

2）反向传播网络，前馈网络，结构多层，采用最小均方差的纠错学习规则，常用于语言识别和分类等问题

3）Kohonen网络：典型的自组织网络，由输入层和输出层构成，全连接

4）ART网络：自组织网络

深度神经网络：

Convolutional Neural Networks(CNN)卷积神经网络

Recurrent neural Network(RNN)循环神经网络

Deep Belief Networks(DBN)深度信念网络

深度学习是指多层神经网络上运用各种机器学习算法解决图像，文本等各种问题的算法集合。深度学习从大类上可以归入神经网络，不过在具体实现上有许多变化。

深度学习的核心是特征学习，旨在通过分层网络获取分层次的特征信息，从而解决以往需要人工设计特征的重要难题。

Machine Learning vs. Deep Learning

神经网络（主要是感知器）经常用于分类

神经网络的分类知识体现在网络连接上，被隐式地存储在连接的权值中。

神经网络的学习就是通过迭代算法，对权值逐步修改的优化过程，学习的目标就是通过改变权值使训练集的样本都能被正确分类。

神经网络特别适用于下列情况的分类问题：

1) 数据量比较小，缺少足够的样本建立模型

2) 数据的结构难以用传统的统计方法来描述

3) 分类模型难以表示为传统的统计模型

缺点：

1) 需要很长的训练时间，因而对于有足够长训练时间的应用更合适。

2) 需要大量的参数，这些通常主要靠经验确定，如网络拓扑或“结构”。

3) 可解释性差。该特点使得神经网络在数据挖掘的初期并不看好。

优点：

1) 分类的准确度高

2)并行分布处理能力强

3)分布存储及学习能力高

4)对噪音数据有很强的鲁棒性和容错能力

最流行的基于神经网络的分类算法是80年代提出的后向传播算法。后向传播算法在多路前馈神经网络上学习。

定义网络拓扑

在开始训练之前，用户必须说明输入层的单元数、隐藏层数（如果多于一层）、每一隐藏层的单元数和输出层的单元数，以确定网络拓扑。

对训练样本中每个属性的值进行规格化将有助于加快学习过程。通常，对输入值规格化，使得它们落入0.0和1.0之间。

离散值属性可以重新编码，使得每个域值一个输入单元。例如，如果属性A的定义域为(a0,a1,a2)，则可以分配三个输入单元表示A。即，我们可以用I0 ,I1 ,I2作为输入单元。每个单元初始化为0。如果A = a0，则I0置为1；如果A = a1，I1置1；如此下去。

一个输出单元可以用来表示两个类（值1代表一个类，而值0代表另一个）。如果多于两个类，则每个类使用一个输出单元。

隐藏层单元数设多少个“最好” ，没有明确的规则。

网络设计是一个实验过程，并可能影响准确性。权的初值也可能影响准确性。如果某个经过训练的网络的准确率太低，则通常需要采用不同的网络拓扑或使用不同的初始权值，重复进行训练。

后向传播算法学习过程：

迭代地处理一组训练样本，将每个样本的网络预测与实际的类标号比较。

每次迭代后，修改权值，使得网络预测和实际类之间的均方差最小。

这种修改“后向”进行。即，由输出层，经由每个隐藏层，到第一个隐藏层（因此称作后向传播）。尽管不能保证，一般地，权将最终收敛，学习过程停止。

算法终止条件：训练集中被正确分类的样本达到一定的比例，或者权系数趋近稳定。

后向传播算法分为如下几步：

1) 初始化权

网络的权通常被初始化为很小的随机数（例如，范围从-1.0到1.0，或从-0.5到0.5）。

每个单元都设有一个偏置（bias），偏置也被初始化为小随机数。

2) 向前传播输入

对于每一个样本X，重复下面两步：

向前传播输入，向后传播误差

计算各层每个单元的输入和输出。输入层：输出=输入=样本X的属性；即，对于单元j，Oj = Ij = Xj。隐藏层和输出层：输入=前一层的输出的线性组合,即，对于单元j， Ij =wij Oi + θj，输出=

3) 向后传播误差

计算各层每个单元的误差。

输出层单元j，误差：

Oj是单元j的实际输出，而Tj是j的真正输出。

隐藏层单元j，误差：

wjk是由j到下一层中单元k的连接的权，Errk是单元k的误差

更新权和偏差，以反映传播的误差。

权由下式更新：

其中，△wij是权wij的改变。l是学习率，通常取0和1之间的值。

偏置由下式更新：

其中，△θj是偏置θj的改变。

Example

人类视觉原理：

深度学习的许多研究成果，离不开对大脑认知原理的研究，尤其是视觉原理的研究。1981 年的诺贝尔医学奖，颁发给了 David Hubel（出生于加拿大的美国神经生物学家）和Torsten Wiesel，以及Roger Sperry。前两位的主要贡献，是“发现了视觉系统的信息处理”，可视皮层是分级的。

人类的视觉原理如下：从原始信号摄入开始（瞳孔摄入像素Pixels），接着做初步处理（大脑皮层某些细胞发现边缘和方向），然后抽象（大脑判定，眼前的物体的形状，是圆形的），然后进一步抽象（大脑进一步判定该物体是只气球）。

对于不同的物体，人类视觉也是通过这样逐层分级，来进行认知的：

在最底层特征基本上是类似的，就是各种边缘，越往上，越能提取出此类物体的一些特征（轮子、眼睛、躯干等），到最上层，不同的高级特征最终组合成相应的图像，从而能够让人类准确的区分不同的物体。

可以很自然的想到：可以不可以模仿人类大脑的这个特点，构造多层的神经网络，较低层的识别初级的图像特征，若干底层特征组成更上一层特征，最终通过多个层级的组合，最终在顶层做出分类呢？答案是肯定的，这也是许多深度学习算法（包括CNN）的灵感来源。

卷积神经网络是一种多层神经网络，擅长处理图像特别是大图像的相关机器学习问题。卷积网络通过一系列方法，成功将数据量庞大的图像识别问题不断降维，最终使其能够被训练。

CNN最早由Yann LeCun提出并应用在手写字体识别上。LeCun提出的网络称为LeNet，其网络结构如下：

这是一个最典型的卷积网络，由卷积层、池化层、全连接层组成。其中卷积层与池化层配合，组成多个卷积组，逐层提取特征，最终通过若干个全连接层完成分类。

CNN通过卷积来模拟特征区分，并且通过卷积的权值共享及池化，来降低网络参数的数量级，最后通过传统神经网络完成分类等任务。

降低参数量级：如果使用传统神经网络方式，对一张图片进行分类，那么，把图片的每个像素都连接到隐藏层节点上，对于一张1000x1000像素的图片，如果有1M隐藏层单元，一共有10^12个参数，这显然是不能接受的。

但是在CNN里，可以大大减少参数个数，基于以下两个假设：

1）最底层特征都是局部性的，也就是说，用10x10这样大小的过滤器就能表示边缘等底层特征

2）图像上不同小片段，以及不同图像上的小片段的特征是类似的，也就是说，能用同样的一组分类器来描述各种各样不同的图像

基于以上两个假设，就能把第一层网络结构简化

用100个10x10的小过滤器，就能够描述整幅图片上的底层特征。

卷积运算的定义如下图所示：

如上图所示，一个5x5的图像，用一个3x3的卷积核：

   101

   010

   101

来对图像进行卷积操作（可以理解为有一个滑动窗口，把卷积核与对应的图像像素做乘积然后求和），得到了3x3的卷积结果。

这个过程可以理解为使用一个过滤器（卷积核）来过滤图像的各个小区域，从而得到这些小区域的特征值。在实际训练过程中，卷积核的值是在学习过程中学到的。

在具体应用中，往往有多个卷积核，可以认为，每个卷积核代表了一种图像模式，如果某个图像块与此卷积核卷积出的值大，则认为此图像块十分接近于此卷积核。如果设计了6个卷积核，可以理解为这个图像上有6种底层纹理模式，也就是用6种基础模式就能描绘出一副图像。以下就是24种不同的卷积核的示例：

池化的过程如下图所示：

可以看到，原始图片是20x20的，对其进行采样，采样窗口为10x10，最终将其采样成为一个2x2大小的特征图。

之所以这么做，是因为即使做完了卷积，图像仍然很大（因为卷积核比较小），所以为了降低数据维度，就进行采样。

即使减少了许多数据，特征的统计属性仍能够描述图像，而且由于降低了数据维度，有效地避免了过拟合。

在实际应用中，分为最大值采样（Max-Pooling）与平均值采样（Mean-Pooling）。

LeNet网络结构：

注意，上图中S2与C3的连接方式并不是全连接，而是部分连接。最后，通过全连接层C5、F6得到10个输出，对应10个数字的概率。

卷积神经网络的训练过程与传统神经网络类似，也是参照了反向传播算法

第一阶段，向前传播阶段：

a）从样本集中取一个样本(X,Yp)，将X输入网络；

b）计算相应的实际输出Op

第二阶段，向后传播阶段

a）计算实际输出Op与相应的理想输出Yp的差；

b）按极小化误差的方法反向传播调整权矩阵。

Ⅵ 从R-CNN到Faster R-CNN

论文：《Rich feature hierarchies for accurate object detection and semantic segmentation》

发表年份：2013

RCNN(Regions with CNN features)是将CNN用到目标检测的一个里程碑，借助CNN良好的特征提取和分类性能，通过RegionProposal方法实现目标检测问题的转化。

Region proposal是一类传统的候选区域生成方法，论文使用 selective search 生成大约2k个候选区域（先用分割手段将图片完全分割成小图，再通过一些合并规则，将小图均匀的合并，经过若干次合并，直到合并成整张原图），然后将proposal的图片进行归一化(大小为217*217)用于CNN的输入。

对每个Region proposal使用CNN提取出一个4096维的特征向量

3.1 CNN提取的特征输入到SVM分类器中，对region proposal进行分类，与 ground-truth box的IoU大于0.5的为正样本，其余为负样本。论文中每个图片正样本个数为32负样本个数为96。得到所有region proposals的对于每一类的分数，再使用贪心的非极大值抑制方法对每一个SVM分类器类去除相交的多余的框。

3.2 使用一个线性回归器对bounding box进行修正，proposal bounding box的大小位置与真实框的转换关系如下：

综上，整个网络结构如下：

R-CNN在当年无论是在学术界还是工业界都是具有创造性的，但是现在来看RCNN主要存在下面三个问题：

1）多个候选区域对应的图像需要预先提取，占用较大的磁盘空间；

2）针对传统CNN需要固定尺寸（217*217）的输入图像，crop/warp（归一化）产生物体截断或拉伸，丧失或者改变了图片本身的信息；

3）每一个ProposalRegion都需要进入CNN网络计算，上千个Region存在大量的范围重叠，重复的CNN特征提取导致巨大的计算浪费。

论文：《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》

发表年份：2015

既然CNN特征提取如此耗时，为什么还要对每个Region proposal进行特征提取，而不是整体进行特征提取，然后在分类之前做一次Region的截取呢，于是就诞生了SPP-Net。

1.解决了CNN需要固定大小输入的变换后导致图片信息丢失或者变化的问题

2.对于一张图，只需要进行一次的特征提取运算，避免了R-CNN中特征重复计算的问题

CNN为什么需要固定大小的输入？

R-CNN中会对图片缩放成217*217的固定大小，从而导致物体发生形变（如下图的上部分所示）。与前面不同，SPP-Net是加在最后一个卷积层的输出的后面，使得不同输入尺寸的图像在经过前面的卷积池化过程后，再经过SPP-net，得到相同大小的feature map，最后再经过全连接层进行分类

以AlexNet为例，经CNN得到conv5输出的任意尺寸的feature map，图中256-d是conv5卷积核的数量。将最后一个池化层pool5替换成SPP layer，将feature map划分成不同大小的网格，分别是`4x4`,`2x2`,`1x1`，每个网格中经过max pooling，从而得到4x4+2x2+1x1=21个特征值，最后将这21个特征值平铺成一个特征向量作为全连接层的输入，这种方式就是空间金字塔池化。

与R-CNN不同，SPP-Net中是将整张图片进行一次特征提取，得到整张图片的feature map，然后对feature map中的候选区域（RoIs）经过空间金字塔池化，提取出固定长度的特征向量进入全连接层。

原图候选区域与特征图上的RoIs的转换流程：

综上，整个网络结构如下图。SPP-Net相比R-CNN做了很多优化，但现在来看依然存在一些问题，主要如下：

论文：《Fast R-CNN》

发表年份：2015

Fast R-CNN是对R-CNN的一个提升版本，相比R-CNN，训练速度提升9倍，测试速度提升213倍，mAP由66%提升到66.9%

主要改进点如下：

多任务损失函数(Multi-task Loss)：

        Fast R-CNN将分类和边框回归合并，通过多任务Loss层进一步整合深度网络，统一了训练过程。分为两个损失函数：分类损失和回归损失。分类采用softmax代替SVM进行分类，共输出N(类别)+1(背景)类。softmax由于引入了类间竞争，所以分类效果优于SVM，SVM在R-CNN中用于二分类。回归损失输出的是4*N(类别)，4表示的是(x,y,w,h分别表示候选框的中心坐标和宽、高)。

SVD对全连接层进行分解：

        由于一张图像约产生2000个RoIs，将近一半多的时间用在全连接层计算，为了提高运算速度，使用 SVD(奇异值分解) 对全连接层进行变换来提高运算速度。一个大的矩阵可以近似分解为三个小矩阵的乘积，分解后的矩阵的元素数目远小于原始矩阵的元素数目，从而达到减少计算量的目的。通过对全连接层的权值矩阵进行SVD分解，使得处理一张图像的速度明显提升。

论文：《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》

发表年份：2016

SPP-Net和Fast R-CNN都有一个非常耗时的候选框选取的过程，提取候选框最常用的SelectiveSearch方法，提取一副图像大概需要2s的时间，改进的EdgeBoxes算法将效率提高到了0.2s，但是还是比较耗时。

        Fast R-CNN中引入Region Proposal Network(RPN)替代Selective Search，同时引入anchor box应对目标形状的变化问题（anchor就是位置和大小固定的box，可以理解成事先设置好的固定的proposal）

Region Proposal Network：

RPN的核心思想是候选框的提取不在原图上做，而是在feature map上做，这意味着相比原图更少的计算量。在Faster R-CNN中，RPN是单独的分支，通过RPN提取候选框并合并到深度网络中。

多尺度先验框：

RPN网络的特点在于通过滑动窗口的方式实现候选框的提取，每个滑动窗口位置生成9个候选窗口（不同尺度、不同宽高），提取对应9个候选窗口（anchor）的特征，用于目标分类和边框回归，与FastRCNN类似。

anchor的生成规则有两个：调整宽高比和放大。如下图所示，假设base_size为16，按照1:2,1:1,2:1三种比例进行变换生成下图上部分三种anchor；第二种是将宽高进行三种倍数放大，2^3=8，2^4=16，2^5=32倍的放大，如16x16的区域变成(16*8)*(16*8)=128*128的区域，(16*16)*(16*16)=256*256的区域，(16*32)*(16*32)=512*512的区域。

训练过程中，涉及到的候选框选取，选取依据如下：

从模型训练的角度来看，通过使用共享特征交替训练的方式，达到接近实时的性能，交替训练方式为：

Faster R-CNN实现了端到端的检测，并且几乎达到了效果上的最优，有些基于Faster R-CNN的变种准确度已经刷到了87%以上。速度方面还有优化的余地，比如Yolo系列（Yolo v1/v2/v3/v4）。对于目标检测，仍处于一个探索和高度发展的阶段，还不断有更优的模型产生。

Ⅶ CNN网络简介

卷积神经网络简介（Convolutional Neural Networks，简称CNN）

卷积神经网络是近年发展起来，并引起广泛重视的一种高效识别方法。20世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络（Convolutional

Neural

Networks-简称CNN）。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。

K.Fukushima在1980年提出的新识别机是卷积神经网络的第一个实现网络。随后，更多的科研工作者对该网络进行了改进。其中，具有代表性的研究成果是Alexander和Taylor提出的“改进认知机”，该方法综合了各种改进方法的优点并避免了耗时的误差反向传播。

一般地，CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显示的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

1. 神经网络

首先介绍神经网络，这一步的详细可以参考资源1。简要介绍下。神经网络的每个单元如下：

其对应的公式如下：

其中，该单元也可以被称作是Logistic回归模型。当将多个单元组合起来并具有分层结构时，就形成了神经网络模型。下图展示了一个具有一个隐含层的神经网络。

其对应的公式如下：

比较类似的，可以拓展到有2,3,4,5，…个隐含层。

神经网络的训练方法也同Logistic类似，不过由于其多层性，还需要利用链式求导法则对隐含层的节点进行求导，即梯度下降+链式求导法则，专业名称为反向传播。关于训练算法，本文暂不涉及。

2 卷积神经网络

在图像处理中，往往把图像表示为像素的向量，比如一个1000×1000的图像，可以表示为一个1000000的向量。在上一节中提到的神经网络中，如果隐含层数目与输入层一样，即也是1000000时，那么输入层到隐含层的参数数据为1000000×1000000=10^12，这样就太多了，基本没法训练。所以图像处理要想练成神经网络大法，必先减少参数加快速度。就跟辟邪剑谱似的，普通人练得很挫，一旦自宫后内力变强剑法变快，就变的很牛了。

2.1 局部感知

卷积神经网络有两种神器可以降低参数数目，第一种神器叫做局部感知野。一般认为人对外界的认知是从局部到全局的，而图像的空间联系也是局部的像素联系较为紧密，而距离较远的像素相关性则较弱。因而，每个神经元其实没有必要对全局图像进行感知，只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息。网络部分连通的思想，也是受启发于生物学里面的视觉系统结构。视觉皮层的神经元就是局部接受信息的（即这些神经元只响应某些特定区域的刺激）。如下图所示：左图为全连接，右图为局部连接。

在上右图中，假如每个神经元只和10×10个像素值相连，那么权值数据为1000000×100个参数，减少为原来的千分之一。而那10×10个像素值对应的10×10个参数，其实就相当于卷积操作。

2.2 参数共享

但其实这样的话参数仍然过多，那么就启动第二级神器，即权值共享。在上面的局部连接中，每个神经元都对应100个参数，一共1000000个神经元，如果这1000000个神经元的100个参数都是相等的，那么参数数目就变为100了。

怎么理解权值共享呢？我们可以这100个参数（也就是卷积操作）看成是提取特征的方式，该方式与位置无关。这其中隐含的原理则是：图像的一部分的统计特性与其他部分是一样的。这也意味着我们在这一部分学习的特征也能用在另一部分上，所以对于这个图像上的所有位置，我们都能使用同样的学习特征。

更直观一些，当从一个大尺寸图像中随机选取一小块，比如说 8×8 作为样本，并且从这个小块样本中学习到了一些特征，这时我们可以把从这个

8×8 样本中学习到的特征作为探测器，应用到这个图像的任意地方中去。特别是，我们可以用从 8×8

样本中所学习到的特征跟原本的大尺寸图像作卷积，从而对这个大尺寸图像上的任一位置获得一个不同特征的激活值。

如下图所示，展示了一个33的卷积核在55的图像上做卷积的过程。每个卷积都是一种特征提取方式，就像一个筛子，将图像中符合条件（激活值越大越符合条件）的部分筛选出来。

2.3 多卷积核

上面所述只有100个参数时，表明只有1个100*100的卷积核，显然，特征提取是不充分的，我们可以添加多个卷积核，比如32个卷积核，可以学习32种特征。在有多个卷积核时，如下图所示：

上图右，不同颜色表明不同的卷积核。每个卷积核都会将图像生成为另一幅图像。比如两个卷积核就可以将生成两幅图像，这两幅图像可以看做是一张图像的不同的通道。如下图所示，下图有个小错误，即将w1改为w0，w2改为w1即可。下文中仍以w1和w2称呼它们。

下图展示了在四个通道上的卷积操作，有两个卷积核，生成两个通道。其中需要注意的是，四个通道上每个通道对应一个卷积核，先将w2忽略，只看w1，那么在w1的某位置（i,j）处的值，是由四个通道上（i,j）处的卷积结果相加然后再取激活函数值得到的。

所以，在上图由4个通道卷积得到2个通道的过程中，参数的数目为4×2×2×2个，其中4表示4个通道，第一个2表示生成2个通道，最后的2×2表示卷积核大小。

2.4 Down-pooling

在通过卷积获得了特征 (features)

之后，下一步我们希望利用这些特征去做分类。理论上讲，人们可以用所有提取得到的特征去训练分类器，例如 softmax

分类器，但这样做面临计算量的挑战。例如：对于一个 96X96

像素的图像，假设我们已经学习得到了400个定义在8X8输入上的特征，每一个特征和图像卷积都会得到一个 (96 − 8 + 1) × (96 − 8+ 1) = 7921 维的卷积特征，由于有 400 个特征，所以每个样例 (example) 都会得到一个 892 × 400 =3,168,400 维的卷积特征向量。学习一个拥有超过 3 百万特征输入的分类器十分不便，并且容易出现过拟合 (over-fitting)。

为了解决这个问题，首先回忆一下，我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性，这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述大的图像，一个很自然的想法就是对不同位置的特征进行聚合统计，例如，人们可以计算图像一个区域上的某个特定特征的平均值(或最大值)。这些概要统计特征不仅具有低得多的维度 (相比使用所有提取得到的特征)，同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池(pooling)，有时也称为平均池化或者最大池化 (取决于计算池化的方法)。

至此，卷积神经网络的基本结构和原理已经阐述完毕。

2.5 多层卷积

在实际应用中，往往使用多层卷积，然后再使用全连接层进行训练，多层卷积的目的是一层卷积学到的特征往往是局部的，层数越高，学到的特征就越全局化。

3 ImageNet-2010网络结构

ImageNetLSVRC是一个图片分类的比赛，其训练集包括127W+张图片，验证集有5W张图片，测试集有15W张图片。本文截取2010年AlexKrizhevsky的CNN结构进行说明，该结构在2010年取得冠军，top-5错误率为15.3%。值得一提的是，在今年的ImageNetLSVRC比赛中，取得冠军的GoogNet已经达到了top-5错误率6.67%。可见，深度学习的提升空间还很巨大。

下图即为Alex的CNN结构图。需要注意的是，该模型采用了2-GPU并行结构，即第1、2、4、5卷积层都是将模型参数分为2部分进行训练的。在这里，更进一步，并行结构分为数据并行与模型并行。数据并行是指在不同的GPU上，模型结构相同，但将训练数据进行切分，分别训练得到不同的模型，然后再将模型进行融合。而模型并行则是，将若干层的模型参数进行切分，不同的GPU上使用相同的数据进行训练，得到的结果直接连接作为下一层的输入。

上图模型的基本参数为：

输入：224×224大小的图片，3通道

第一层卷积：5×5大小的卷积核96个，每个GPU上48个。

第一层max-pooling：2×2的核。

第二层卷积：3×3卷积核256个，每个GPU上128个。

第二层max-pooling：2×2的核。

第三层卷积：与上一层是全连接，3*3的卷积核384个。分到两个GPU上个192个。

第四层卷积：3×3的卷积核384个，两个GPU各192个。该层与上一层连接没有经过pooling层。

第五层卷积：3×3的卷积核256个，两个GPU上个128个。

第五层max-pooling：2×2的核。

第一层全连接：4096维，将第五层max-pooling的输出连接成为一个一维向量，作为该层的输入。

第二层全连接：4096维

Softmax层：输出为1000，输出的每一维都是图片属于该类别的概率。

4 DeepID网络结构

DeepID网络结构是香港中文大学的Sun

Yi开发出来用来学习人脸特征的卷积神经网络。每张输入的人脸被表示为160维的向量，学习到的向量经过其他模型进行分类，在人脸验证试验上得到了97.45%的正确率，更进一步的，原作者改进了CNN，又得到了99.15%的正确率。

如下图所示，该结构与ImageNet的具体参数类似，所以只解释一下不同的部分吧。

上图中的结构，在最后只有一层全连接层，然后就是softmax层了。论文中就是以该全连接层作为图像的表示。在全连接层，以第四层卷积和第三层max-pooling的输出作为全连接层的输入，这样可以学习到局部的和全局的特征。

Ⅷ CNN、RNN、DNN的一般解释

CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别？

转自知乎科言君的回答

神经网络技术起源于上世纪五、六十年代，当时叫感知机（perceptron），拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层，在输出层得到分类结果。早期感知机的推动者是Rosenblatt。（扯一个不相关的：由于计算技术的落后，当时感知器传输函数是用线拉动变阻器改变电阻的方法机械实现的，脑补一下科学家们扯着密密麻麻的导线的样子…）

但是，Rosenblatt的单层感知机有一个严重得不能再严重的问题，即它对稍复杂一些的函数都无能为力（比如最为典型的“异或”操作）。连异或都不能拟合，你还能指望这货有什么实际用途么o(╯□╰)o

随着数学的发展，这个缺点直到上世纪八十年代才被Rumelhart、Williams、Hinton、LeCun等人（反正就是一票大牛）发明的多层感知机（multilayerperceptron）克服。多层感知机，顾名思义，就是有多个隐含层的感知机（废话……）。好好，我们看一下多层感知机的结构：

图1 上下层神经元全部相连的神经网络——多层感知机

多层感知机可以摆脱早期离散传输函数的束缚，使用sigmoid或tanh等连续函数模拟神经元对激励的响应，在训练算法上则使用Werbos发明的反向传播BP算法。对，这货就是我们现在所说的神经网络 NN ——神经网络听起来不知道比感知机高端到哪里去了！这再次告诉我们起一个好听的名字对于研（zhuang）究（bi）很重要！

多层感知机解决了之前无法模拟异或逻辑的缺陷，同时更多的层数也让网络更能够刻画现实世界中的复杂情形。相信年轻如Hinton当时一定是春风得意。

多层感知机给我们带来的启示是，神经网络的层数直接决定了它对现实的刻画能力 ——利用每层更少的神经元拟合更加复杂的函数[1]。

（Bengio如是说：functions that can be compactly

represented by a depth k architecture might require an exponential number of

computational elements to be represented by a depth k − 1 architecture.）

即便大牛们早就预料到神经网络需要变得更深，但是有一个梦魇总是萦绕左右。随着神经网络层数的加深，优化函数越来越容易陷入局部最优解，并且这个“陷阱”越来越偏离真正的全局最优。利用有限数据训练的深层网络，性能还不如较浅层网络。同时，另一个不可忽略的问题是随着网络层数增加， “梯度消失”现象更加严重。具体来说，我们常常使用sigmoid作为神经元的输入输出函数。对于幅度为1的信号，在BP反向传播梯度时，每传递一层，梯度衰减为原来的0.25。层数一多，梯度指数衰减后低层基本上接受不到有效的训练信号。

2006年，Hinton利用预训练方法缓解了局部最优解问题，将隐含层推动到了7层[2]，神经网络真正意义上有了“深度”，由此揭开了深度学习的热潮。这里的“深度”并没有固定的定义——在语音识别中4层网络就能够被认为是“较深的”，而在图像识别中20层以上的网络屡见不鲜。为了克服梯度消失，ReLU、maxout等传输函数代替了sigmoid，形成了如今DNN的基本形式。单从结构上来说，全连接的 DNN 和图 1 的多层感知机是没有任何区别的。

值得一提的是，今年出现的高速公路网络（highway network）和深度残差学习（deep resial learning）进一步避免了梯度消失，网络层数达到了前所未有的一百多层（深度残差学习：152层）[3,4]！具体结构题主可自行搜索了解。如果你之前在怀疑是不是有很多方法打上了“深度学习”的噱头，这个结果真是深得让人心服口服。

图2 缩减版的深度残差学习网络，仅有34 层，终极版有152 层，自行感受一下

如图1所示，我们看到全连接 DNN 的结构里下层神经元和所有上层神经元都能够形成连接，带来的潜在问题是参数数量的膨胀。假设输入的是一幅像素为1K*1K的图像，隐含层有1M个节点，光这一层就有10^12个权重需要训练，这不仅容易过拟合，而且极容易陷入局部最优。另外，图像中有固有的局部模式（比如轮廓、边界，人的眼睛、鼻子、嘴等）可以利用，显然应该将图像处理中的概念和神经网络技术相结合。此时我们可以祭出题主所说的卷积神经网络CNN。对于CNN来说，并不是所有上下层神经元都能直接相连，而是通过“卷积核”作为中介。同一个卷积核在所有图像内是共享的，图像通过卷积操作后仍然保留原先的位置关系。两层之间的卷积传输的示意图如下：

图3 卷积神经网络隐含层（摘自Theano 教程）

通过一个例子简单说明卷积神经网络的结构。假设图3中m-1=1是输入层，我们需要识别一幅彩色图像，这幅图像具有四个通道ARGB（透明度和红绿蓝，对应了四幅相同大小的图像），假设卷积核大小为100*100，共使用100个卷积核w1到w100（从直觉来看，每个卷积核应该学习到不同的结构特征）。用w1在ARGB图像上进行卷积操作，可以得到隐含层的第一幅图像；这幅隐含层图像左上角第一个像素是四幅输入图像左上角100*100区域内像素的加权求和，以此类推。同理，算上其他卷积核，隐含层对应100幅“图像”。每幅图像对是对原始图像中不同特征的响应。按照这样的结构继续传递下去。CNN中还有max-pooling等操作进一步提高鲁棒性。

图4 一个典型的卷积神经网络结构，注意到最后一层实际上是一个全连接层（摘自Theano 教程）

在这个例子里，我们注意到输入层到隐含层的参数瞬间降低到了 100*100*100=10^6 个！这使得我们能够用已有的训练数据得到良好的模型。题主所说的适用于图像识别，正是由于 CNN 模型限制参数了个数并挖掘了局部结构的这个特点。顺着同样的思路，利用语音语谱结构中的局部信息，CNN照样能应用在语音识别中。

全连接的DNN还存在着另一个问题——无法对时间序列上的变化进行建模。然而，样本出现的时间顺序对于自然语言处理、语音识别、手写体识别等应用非常重要。对了适应这种需求，就出现了题主所说的另一种神经网络结构——循环神经网络RNN。

在普通的全连接网络或CNN中，每层神经元的信号只能向上一层传播，样本的处理在各个时刻独立，因此又被成为前向神经网络(Feed-forward Neural Networks)。而在 RNN 中，神经元的输出可以在下一个时间戳直接作用到自身，即第i层神经元在m时刻的输入，除了（i-1）层神经元在该时刻的输出外，还包括其自身在（m-1）时刻的输出！表示成图就是这样的：

图5 RNN 网络结构

我们可以看到在隐含层节点之间增加了互连。为了分析方便，我们常将RNN在时间上进行展开，得到如图6所示的结构：

图6 RNN 在时间上进行展开

Cool，（ t+1 ）时刻网络的最终结果O(t+1) 是该时刻输入和所有历史共同作用的结果！这就达到了对时间序列建模的目的。

不知题主是否发现，RNN可以看成一个在时间上传递的神经网络，它的深度是时间的长度！正如我们上面所说， “梯度消失”现象又要出现了，只不过这次发生在时间轴上。对于t时刻来说，它产生的梯度在时间轴上向历史传播几层之后就消失了，根本就无法影响太遥远的过去。因此，之前说“所有历史”共同作用只是理想的情况，在实际中，这种影响也就只能维持若干个时间戳。

为了解决时间上的梯度消失，机器学习领域发展出了长短时记忆单元 LSTM ，通过门的开关实现时间上记忆功能，并防止梯度消失，一个LSTM单元长这个样子：

图7 LSTM 的模样

除了题主疑惑的三种网络，和我之前提到的深度残差学习、LSTM外，深度学习还有许多其他的结构。举个例子，RNN既然能继承历史信息，是不是也能吸收点未来的信息呢？因为在序列信号分析中，如果我能预知未来，对识别一定也是有所帮助的。因此就有了双向 RNN 、双向 LSTM ，同时利用历史和未来的信息。

图8 双向RNN

事实上，不论是那种网络，他们在实际应用中常常都混合着使用，比如 CNN 和RNN 在上层输出之前往往会接上全连接层，很难说某个网络到底属于哪个类别。不难想象随着深度学习热度的延续，更灵活的组合方式、更多的网络结构将被发展出来。尽管看起来千变万化，但研究者们的出发点肯定都是为了解决特定的问题。题主如果想进行这方面的研究，不妨仔细分析一下这些结构各自的特点以及它们达成目标的手段。入门的话可以参考：

Ng写的Ufldl： UFLDL教程 - Ufldl

也可以看Theano内自带的教程，例子非常具体： Deep Learning Tutorials

欢迎大家继续推荐补充。

当然啦，如果题主只是想凑个热闹时髦一把，或者大概了解一下方便以后把妹使，这样看看也就罢了吧。

参考文献：

[1]

Bengio Y. Learning Deep

Architectures for AI[J]. Foundations & Trends® in Machine Learning, 2009,

2(1):1-127.

[2]

Hinton G E, Salakhutdinov R R.

Recing the Dimensionality of Data with Neural Networks[J]. Science, 2006,

313(5786):504-507.

[3]

He K, Zhang X, Ren S, Sun J. Deep

Resial Learning for Image Recognition. arXiv:1512.03385, 2015.

[4]

Srivastava R K, Greff K,

Schmidhuber J. Highway networks. arXiv:1505.00387, 2015.

Ⅸ 卷积神经网络（CNN）基础

在七月初七情人节，牛郎织女相见的一天，我终于学习了CNN（来自CS231n），感觉感触良多，所以赶快记下来，别忘了，最后祝大家情人节快乐5555555.正题开始!

CNN一共有卷积层（CONV）、ReLU层（ReLU）、池化层（Pooling）、全连接层（FC（Full Connection））下面是各个层的详细解释。

卷积，尤其是图像的卷积，需要一个滤波器，用滤波器对整个图像进行遍历，我们假设有一个32*32*3的原始图像A，滤波器的尺寸为5*5*3，用w表示，滤波器中的数据就是CNN的参数的一部分，那么在使用滤波器w对A进行滤波的话，可以用下面的式子表示：

其中x为原始图像的5*5*3的一部分，b是偏置项置为1。在对A进行滤波之后，产生的是一个28*28*1的数据。那么假设我们存在6个滤波器，这六个滤波器之间彼此是独立的，也就是他们内部的数据是不同的且没有相关性的。可以理解为一个滤波器查找整幅图像的垂直边缘，一个查找水平边缘，一个查找红色，一个查找黑色这样。那么我就可以产生6个28*28*1的数据，将它们组合到一起就可以产生28*28*6的数据，这就是卷积层主要做的工作。

CNN可以看作一系列的卷积层和ReLU层对原始数据结构进行处理的神经网络，处理的过程可以用下面这幅图表示

特别要注意的是滤波器的深度一定要与上一层传来的数据的深度相同，就像上图的第二个卷积层在处理传来的28*28*6的数据时要使用5*5*6的滤波器.

滤波器在图像上不断移动对图像滤波，自然存在步长的问题，在上面我们举的例子都是步长为1的情况，如果步长为3的话，32*32*3的图像经过5*5*3的滤波器卷积得到的大小是（32-5）/3+1=10， 注：步长不能为2因为（32-5）/2+1=14.5是小数。

所以当图像大小是N，滤波器尺寸为F时，步长S，那么卷积后大小为（N-F）/S+1

我们从上面的图中可以看到图像的长和宽在逐渐的减小，在经过超过5层之后极可能只剩下1*1的空间尺度，这样是十分不好的，而且也不利于我们接下来的计算，所以我们想让卷积层处理完之后图像在空间尺度上大小不变，所以我们引入了pad the border的操作。pad其实就是在图像周围补0，扩大图像的尺寸，使得卷积后图像大小不变。在CNN中，主要存在4个超参数，滤波器个数K，滤波器大小F，pad大小P和步长S，其中P是整数，当P=1时，对原始数据的操作如图所示：

那么在pad操作后卷积后的图像大小为：（N-F+2*P）/S+1
而要想让卷积层处理后图像空间尺度不变，P的值可以设为P=（F-1）/2

卷积层输入W₁ *H₁ *D₁ 大小的数据，输出W₂ *H₂ *D₂ 的数据，此时的卷积层共有4个超参数：
K：滤波器个数
P：pad属性值
S：滤波器每次移动的步长
F：滤波器尺寸
此时输出的大小可以用输入和超参计算得到：
W₂ =（W₁ -F+2P）/S+1
H₂ =（H₁ -F+2P）/S+1
D₂ =D₁

1*1的滤波器也是有意义的，它在深度方向做卷积，例如1*1*64的滤波器对56*56*64的数据卷积得到56*56的数据

F通常是奇数，这样可以综合考虑上下左右四个方向的数据。

卷积层从神经元的角度看待可以有两个性质： 参数共享和局域连接 。对待一个滤波器，例如5*5*3的一个滤波器，对32*32*3的数据卷积得到28*28的数据，可以看作存在28*28个神经元，每个对原图像5*5*3的区域进行计算，这28*28个神经元由于使用同一个滤波器，所以参数相同，我们称这一特性为 参数共享 。

针对不同的滤波器，我们可以看到他们会看到同一区域的图像，相当于在深度方向存在多个神经元，他们看着相同区域叫做 局域连接

参数共享减少了参数的数量，防止了过拟合
局域连接为查找不同特征更丰富的表现图像提供了可能。
卷积就像是对原图像的另一种表达。

激活函数，对于每一个维度经过ReLU函数输出即可。不改变数据的空间尺度。

通过pad操作，输出图像在控件上并没有变化，但是深度发生了变化，越来越庞大的数据给计算带来了困难，也出现了冗余的特征，所以需要进行池化操作，池化不改变深度，只改变长宽，主要有最大值和均值两种方法，一般的池化滤波器大小F为2步长为2，对于最大值池化可以用下面的图像清晰的表示：

卷积层输入W₁ *H₁ *D₁ 大小的数据，输出W₂ *H₂ *D₂ 的数据，此时的卷积层共有2个超参数：
S：滤波器每次移动的步长
F：滤波器尺寸
此时输出的大小可以用输入和超参计算得到：
W₂ =（W₁ -F）/S+1
H₂ =（H₁ -F）/S+1
D₂ =D₁

将最后一层（CONV、ReLU或Pool）处理后的数据输入全连接层，对于W₂ *H₂ *D₂ 数据，我们将其展成1*1*W₂ *H₂ *D₂ 大小的数据，输入层共有W₂ *H₂ *D₂ 个神经元，最后根据问题确定输出层的规模，输出层可以用softmax表示。也就是说，全连接层就是一个常见的BP神经网络。而这个网络也是参数最多的部分，是接下来想要去掉的部分。完整的神经网络可以用下面的图表示：

[(CONV-ReLU)*N-POOL?]*M-(FC-RELU)*K,SoftMax

1.更小的滤波器与更深的网络
2.只有CONV层而去掉池化与全链接

最早的CNN，用于识别邮编，结构为：
CONV-POOL-CONV-POOL-CONV-FC
滤波器大小5*5，步长为1，池化层2*2，步长为2

2012年由于GPU技术所限，原始AlexNet为两个GPU分开计算，这里介绍合起来的结构。

输入图像为227*227*3

1.首次使用ReLU
2.使用Norm layers，现在已经抛弃，因为效果不大
3.数据经过预处理（例如大小变化，颜色变化等）
4.失活比率0.5
5.batch size 128
6.SGD Momentum 参数0.9（SGD和Momentum见我的其他文章）
7.学习速率 0.01，准确率不在提升时减少10倍，1-2次后达到收敛
8.L2权重减少0.0005
9.错误率15.4%

改进自AlexNet，主要改变：
1.CONV1的滤波器从11*11步长S=4改为7*7步长为2.
2.CONV3,4,5滤波器数量有384，384，256改为512，1024，512（滤波器数量为2的n次幂有利于计算机计算可以提高效率）
错误率：14.8%后继续改进至11.2%

当前最好的最易用的CNN网络，所有卷积层滤波器的大小均为3*3，步长为1，pad=1，池化层为2*2的最大值池化，S=2。

主要参数来自全连接层，这也是想要去掉FC的原因。

具有高度的统一性和线性的组合，易于理解，十分方便有VGG-16，VGG-19等多种结构。
错误率7.3%

完全移除FC层，参数只有500万，使用Inception模块（不太理解，有时间继续看）
准确率6.67%

准确率3.6%
拥有极深的网络结构，且越深准确率越高。是传统CNN不具备的特点，传统CNN并非越深越准确。需要训练时间较长但是快于VGG

1.每个卷积层使用Batch Normalization
2.Xavier/2初始化
3.SGD+Momentum（0.9）
4.Learning rate:0.1,准确率不变减小10倍（因为Batch Normalization所以比AlexNet大）
5.mini-batch size 256
6.Weight decay of 0.00001
7.不适用失活（因为Batch Normalization）

具体的梯度过程学完ResNet再说吧。

CNN比全连接网络计算效率更高

与CNN比全连接网络计算效率更高相关的内容