全连接神经网络会发生权重共享吗_什么是全连接神经网络怎么理解“全连接”

❶ 理解神经网络卷积层、全连接层

https://zhuanlan.hu.com/p/32472241

卷积神经网络，这玩意儿乍一听像是生物和数学再带点计算机技术混合起来的奇怪东西。奇怪归奇怪，不得不说，卷积神经网络是计算机视觉领域最有影响力的创造之一。

2012年是卷积神经网络崛起之年。这一年，Alex Krizhevsky带着卷积神经网络参加了ImageNet竞赛（其重要程度相当于奥运会）并一鸣惊人，将识别错误率从26%降到了15%,。从那开始，很多公司开始使用深度学习作为他们服务的核心。比如，Facebook在他们的自动标记算法中使用了它，Google在照片搜索中使用了，Amazon在商品推荐中使用，Printerst应用于为他们的家庭饲养服务提供个性化定制，而Instagram应用于他们的搜索引擎。

然而，神经网络最开始也是最多的应用领域是图像处理。那我们就挑这块来聊聊，怎样使用卷积神经网络（下面简称CNN）来进行图像分类。

图像分类是指，向机器输入一张图片，然后机器告诉我们这张图片的类别（一只猫，一条狗等等），或者如果它不确定的话，它会告诉我们属于某个类别的可能性（很可能是条狗但是我不太确定）。对我们人类来说，这件事情简单的不能再简单了，从出生起，我们就可以很快地识别周围的物体是什么。当我们看到一个场景，我们总能快速地识别出所有物体，甚至是下意识的，没有经过有意的思考。但这种能力，机器并不具有。所以我们更加要好好珍惜自己的大脑呀！ (:зゝ∠)

电脑和人看到的图片并不相同。当我们输入一张图片时，电脑得到的只是一个数组，记录着像素的信息。数组的大小由图像的清晰度和大小决定。假设我们有一张jpg格式的480 480大小的图片，那么表示它的数组便是480 480*3大小的。数组中所有数字都描述了在那个位置处的像素信息，大小在[0,255]之间。

这些数字对我们来说毫无意义，但这是电脑们可以得到的唯一的信息（也足够了）。抽象而简单的说，我们需要一个接受数组为输入，输出一个数组表示属于各个类别概率的模型。

既然问题我们已经搞明白了，现在我们得想想办法解决它。我们想让电脑做的事情是找出不同图片之间的差别，并可以识别狗狗（举个例子）的特征。

我们人类可以通过一些与众不同的特征来识别图片，比如狗狗的爪子和狗有四条腿。同样地，电脑也可以通过识别更低层次的特征（曲线，直线）来进行图像识别。电脑用卷积层识别这些特征，并通过更多层卷积层结合在一起，就可以像人类一样识别出爪子和腿之类的高层次特征，从而完成任务。这正是CNN所做的事情的大概脉络。下面，我们进行更具体的讨论。

在正式开始之前，我们先来聊聊CNN的背景故事。当你第一次听说卷积神经网络的时候，你可能就会联想到一些与神经学或者生物学有关的东西，不得不说，卷积神经网络还真的与他们有某种关系。

CNN的灵感的确来自大脑中的视觉皮层。视觉皮层某些区域中的神经元只对特定视野区域敏感。1962年，在一个Hubel与Wiesel进行的试验（视频）中，这一想法被证实并且拓展了。他们发现，一些独立的神经元只有在特定方向的边界在视野中出现时才会兴奋。比如，一些神经元在水平边出现时兴奋，而另一些只有垂直边出现时才会。并且所有这种类型的神经元都在一个柱状组织中，并且被认为有能力产生视觉。

在一个系统中，一些特定的组件发挥特定的作用（视觉皮层中的神经元寻找各自特定的特征）。这一想法应用于很多机器中，并且也是CNN背后的基本原理。（译者注：作者没有说清楚。类比到CNN中，应是不同的卷积核寻找图像中不同的特征）

回到主题。

更详细的说，CNN的工作流程是这样的：你把一张图片传递给模型，经过一些卷积层，非线性化（激活函数），池化，以及全连层，最后得到结果。就像我们之前所说的那样，输出可以是单独的一个类型，也可以是一组属于不同类型的概率。现在，最不容易的部分来了：理解各个层的作用。

首先，你要搞清楚的是，什么样的数据输入了卷积层。就像我们之前提到的那样，输入是一个32 × 32 × 3（打个比方）的记录像素值的数组。现在，让我来解释卷积层是什么。解释卷积层最好的方法，是想象一个手电筒照在图片的左上角。让我们假设手电筒的光可以招到一个5 × 5的区域。现在，让我们想象这个手电筒照过了图片的所有区域。在机器学习术语中，这样一个手电筒被称为卷积核（或者说过滤器，神经元） (kernel, filter, neuron) 。而它照到的区域被称为感知域 (receptive field) 。卷积核同样也是一个数组（其中的数被称为权重或者参数）。很重要的一点就是卷积核的深度和输入图像的深度是一样的（这保证可它能正常工作），所以这里卷积核的大小是5 × 5 × 3。

现在，让我们拿卷积核的初始位置作为例子，它应该在图像的左上角。当卷积核扫描它的感知域（也就是这张图左上角5 × 5 × 3的区域）的时候，它会将自己保存的权重与图像中的像素值相乘（或者说，矩阵元素各自相乘，注意与矩阵乘法区分），所得的积会相加在一起（在这个位置，卷积核会得到5 × 5 × 3 = 75个积）。现在你得到了一个数字。然而，这个数字只表示了卷积核在图像左上角的情况。现在，我们重复这一过程，让卷积核扫描完整张图片，（下一步应该往右移动一格，再下一步就再往右一格，以此类推），每一个不同的位置都产生了一个数字。当扫描完整张图片以后，你会得到一组新的28 × 28 × 1的数。（译者注：(32 - 5 + 1) × (32 - 5 + 1) × 1）。这组数，我们称为激活图或者特征图 (activation map or feature map) 。

如果增加卷积核的数目，比如，我们现在有两个卷积核，那么我们就会得到一个28 × 28 × 2的数组。通过使用更多的卷积核，我们可以更好的保留数据的空间尺寸。

在数学层面上说，这就是卷积层所做的事情。

让我们来谈谈，从更高角度来说，卷积在做什么。每一个卷积核都可以被看做特征识别器。我所说的特征，是指直线、简单的颜色、曲线之类的东西。这些都是所有图片共有的特点。拿一个7 × 7 × 3的卷积核作为例子，它的作用是识别一种曲线。（在这一章节，简单起见，我们忽略卷积核的深度，只考虑第一层的情况）。作为一个曲线识别器，这个卷积核的结构中，曲线区域内的数字更大。（记住，卷积核是一个数组）

现在我们来直观的看看这个。举个例子，假设我们要把这张图片分类。让我们把我们手头的这个卷积核放在图片的左上角。

记住，我们要做的事情是把卷积核中的权重和输入图片中的像素值相乘。

(译者注：图中最下方应是由于很多都是0所以把0略过不写了。)

基本上，如果输入图像中有与卷积核代表的形状很相似的图形，那么所有乘积的和会很大。现在我们来看看，如果我们移动了卷积核呢？

可以看到，得到的值小多了！这是因为感知域中没有与卷积核表示的相一致的形状。还记得吗，卷积层的输出是一张激活图。所以，在单卷积核卷积的简单情况下，假设卷积核是一个曲线识别器，那么所得的激活图会显示出哪些地方最有可能有曲线。在这个例子中，我们所得激活图的左上角的值为6600。这样大的数字表明很有可能这片区域中有一些曲线，从而导致了卷积核的激活（译者注：也就是产生了很大的数值。）而激活图中右上角的数值是0，因为那里没有曲线来让卷积核激活（简单来说就是输入图像的那片区域没有曲线）。

但请记住，这只是一个卷积核的情况，只有一个找出向右弯曲的曲线的卷积核。我们可以添加其他卷积核，比如识别向左弯曲的曲线的。卷积核越多，激活图的深度就越深，我们得到的关于输入图像的信息就越多。

在传统的CNN结构中，还会有其他层穿插在卷积层之间。我强烈建议有兴趣的人去阅览并理解他们。但总的来说，他们提供了非线性化，保留了数据的维度，有助于提升网络的稳定度并且抑制过拟合。一个经典的CNN结构是这样的：

网络的最后一层很重要，我们稍后会讲到它。

现在，然我们回头看看我们已经学到了什么。

我们讲到了第一层卷积层的卷积核的目的是识别特征，他们识别像曲线和边这样的低层次特征。但可以想象，如果想预测一个图片的类别，必须让网络有能力识别高层次的特征，例如手、爪子或者耳朵。让我们想想网络第一层的输出是什么。假设我们有5个5 × 5 × 3的卷积核，输入图像是32 × 32 × 3的，那么我们会得到一个28 × 28 × 5的数组。来到第二层卷积层，第一层的输出便成了第二层的输入。这有些难以可视化。第一层的输入是原始图片，可第二层的输入只是第一层产生的激活图，激活图的每一层都表示了低层次特征的出现位置。如果用一些卷积核处理它，得到的会是表示高层次特征出现的激活图。这些特征的类型可能是半圆（曲线和边的组合）或者矩形（四条边的组合）。随着卷积层的增多，到最后，你可能会得到可以识别手写字迹、粉色物体等等的卷积核。

如果，你想知道更多关于可视化卷积核的信息，可以看这篇研究报告，以及这个视频。

还有一件事情很有趣，当网络越来越深，卷积核会有越来越大的相对于输入图像的感知域。这意味着他们有能力考虑来自输入图像的更大范围的信息（或者说，他们对一片更大的像素区域负责）。

到目前为止，我们已经识别出了那些高层次的特征吧。网络最后的画龙点睛之笔是全连层。

简单地说，这一层接受输入（来自卷积层，池化层或者激活函数都可以），并输出一个N维向量，其中，N是所有有可能的类别的总数。例如，如果你想写一个识别数字的程序，那么N就是10，因为总共有10个数字。N维向量中的每一个数字都代表了属于某个类别的概率。打个比方，如果你得到了[0 0.1 0.1 0.75 0 0 0 0 0 0.05]，这代表着这张图片是1的概率是10%，是2的概率是10%，是3的概率是75%，是9的概率5%（小贴士：你还有其他表示输出的方法，但现在我只拿softmax (译者注：一种常用于分类问题的激活函数) 来展示）。全连层的工作方式是根据上一层的输出（也就是之前提到的可以用来表示特征的激活图）来决定这张图片有可能属于哪个类别。例如，如果程序需要预测哪些图片是狗，那么全连层在接收到一个包含类似于一个爪子和四条腿的激活图时输出一个很大的值。同样的，如果要预测鸟，那么全连层会对含有翅膀和喙的激活图更感兴趣。

基本上，全连层寻找那些最符合特定类别的特征，并且具有相应的权重，来使你可以得到正确的概率。

现在让我们来说说我之前有意没有提到的神经网络的可能是最重要的一个方面。刚刚在你阅读的时候，可能会有一大堆问题想问。第一层卷积层的卷积核们是怎么知道自己该识别边还是曲线的？全连层怎么知道该找哪一种激活图？每一层中的参数是怎么确定的？机器确定参数（或者说权重）的方法叫做反向传播算法。

在讲反向传播之前，我们得回头看看一个神经网络需要什么才能工作。我们出生的时候并不知道一条狗或者一只鸟长什么样。同样的，在CNN开始之前，权重都是随机生成的。卷积核并不知道要找边还是曲线。更深的卷积层也不知道要找爪子还是喙。

等我们慢慢长大了，我们的老师和父母给我们看不同的图片，并且告诉我们那是什么（或者说，他们的类别）。这种输入一幅图像以及这幅图像所属的类别的想法，是CNN训练的基本思路。在细细讲反向传播之前，我们先假设我们有一个包含上千张不同种类的动物以及他们所属类别的训练集。

反向传播可以被分成四个不同的部分。前向传播、损失函数、反向传播和权重更新。

在前向传播的阶段，我们输入一张训练图片，并让它通过整个神经网络。对于第一个输入图像，由于所有权重都是随机生成的，网络的输出很有可能是类似于[.1 .1 .1 .1 .1 .1 .1 .1 .1 .1]的东西，一般来说并不对任一类别有偏好。具有当前权重的网络并没有能力找出低层次的特征并且总结出可能的类别。

下一步，是损失函数部分。注意，我们现在使用的是训练数据。这些数据又有图片又有类别。打个比方，第一张输入的图片是数字“3”。那么它的标签应该是[0 0 0 1 0 0 0 0 0 0]。一个损失函数可以有很多定义的方法，但比较常见的是MSE（均方误差）。被定义为(实际−预测)22(实际−预测)22。

记变量L为损失函数的值。正如你想象的那样，在第一组训练图片输入的时候，损失函数的值可能非常非常高。来直观地看看这个问题。我们想到达CNN的预测与数据标签完全一样的点（这意味着我们的网络预测的很对）。为了到达那里，我们想要最小化误差。如果把这个看成一个微积分问题，那我们只要找到哪些权重与网络的误差关系最大。

这就相当于数学中的δLδWδLδW (译者注：对L关于W求导) ，其中，W是某个层的权重。现在，我们要对网络进行 反向传播 。这决定了哪些权重与误差的关系最大，并且决定了怎样调整他们来让误差减小。计算完这些导数以后，我们就来到了最后一步： 更新权重 。在这里，我们以与梯度相反的方向调整层中的权重。

学习率是一个有程序员决定的参数。一个很高的学习率意味着权重调整的幅度会很大，这可能会让模型更快的拥有一组优秀的权重。然而，一个太高的学习率可能会让调整的步伐过大，而不能精确地到达最佳点。

前向传播、损失函数、反向传播和更新权重，这四个过程是一次迭代。程序会对每一组训练图片重复这一过程（一组图片通常称为一个batch）。当对每一张图片都训练完之后，很有可能你的网络就已经训练好了，权重已经被调整的很好。

最后，为了验证CNN是否工作的很好，我们还有另一组特殊的数据。我们把这组数据中的图片输入到网络中，得到输出并和标签比较，这样就能看出网络的表现如何了。

❷ 什么是全连接神经网络怎么理解“全连接”

1、全连接神经网络解析：对n-1层和n层而言，n-1层的任意一个节点，都和第n层所有节点有连接。即第n层的每个节点在进行计算的时候，激活函数的输入是n-1层所有节点的加权。

2、全连接的神经网络示意图：

3、“全连接”是一种不错的模式，但是网络很大的时候，训练速度回很慢。部分连接就是认为的切断某两个节点直接的连接，这样训练时计算量大大减小。

❸ 如何理解人工智能神经网络中的权值共享问题

权值(权重)共享这个词是由LeNet5模型提出来的。以CNN为例，在对一张图偏进行卷积的过程中，使用的是同一个卷积核的参数。比如一个3×3×1的卷积核，这个卷积核内9个的参数被整张图共享，而不会因为图像内位置的不同而改变卷积核内的权系数。说的再直白一些，就是用一个卷积核不改变其内权系数的情况下卷积处理整张图片(当然CNN中每一层不会只有一个卷积核的，这样说只是为了方便解释而已)。

❹ 卷积神经网络的卷积层、激活层、池化层、全连接层

数据输入的是一张图片（输入层），CONV表示卷积层，RELU表示激励层，POOL表示池化层，Fc表示全连接层

全连接神经网络需要非常多的计算资源才能支撑它来做反向传播和前向传播，所以说全连接神经网络可以存储非常多的参数，如果你给它的样本如果没有达到它的量级的时候，它可以轻轻松松把你给他的样本全部都记下来，这会出现过拟合的情况。

所以我们应该把神经元和神经元之间的连接的权重个数降下来，但是降下来我们又不能保证它有较强的学习能力，所以这是一个纠结的地方，所以有一个方法就是 局部连接+权值共享 ，局部连接+权值共享不仅权重参数降下来了，而且学习能力并没有实质的降低，除此之外还有其它的好处，下来看一下，下面的这几张图片：

一个图像的不同表示方式

这几张图片描述的都是一个东西，但是有的大有的小，有的靠左边，有的靠右边，有的位置不同，但是我们构建的网络识别这些东西的时候应该是同一结果。为了能够达到这个目的，我们可以让图片的不同位置具有相同的权重（权值共享），也就是上面所有的图片，我们只需要在训练集中放一张，我们的神经网络就可以识别出上面所有的，这也是 权值共享 的好处。

而卷积神经网络就是局部连接+权值共享的神经网络。

现在我们对卷积神经网络有一个初步认识了，下面具体来讲解一下卷积神经网络，卷积神经网络依旧是层级结构，但层的功能和形式做了改变，卷积神经网络常用来处理图片数据，比如识别一辆汽车：

在图片输出到神经网络之前，常常先进行图像处理，有三种常见的图像的处理方式：

均值化和归一化

去相关和白化

图片有一个性质叫做局部关联性质，一个图片的像素点影响最大的是它周边的像素点，而距离这个像素点比较远的像素点二者之间关系不大。这个性质意味着每一个神经元我们不用处理全局的图片了（和上一层全连接），我们的每一个神经元只需要和上一层局部连接，相当于每一个神经元扫描一小区域，然后许多神经元（这些神经元权值共享）合起来就相当于扫描了全局，这样就构成一个特征图，n个特征图就提取了这个图片的n维特征，每个特征图是由很多神经元来完成的。

在卷积神经网络中，我们先选择一个局部区域（filter），用这个局部区域（filter）去扫描整张图片。局部区域所圈起来的所有节点会被连接到下一层的 一个节点上 。我们拿灰度图（只有一维）来举例：

局部区域

图片是矩阵式的，将这些以矩阵排列的节点展成了向量。就能更好的看出来卷积层和输入层之间的连接，并不是全连接的，我们将上图中的红色方框称为filter，它是2*2的，这是它的尺寸，这不是固定的，我们可以指定它的尺寸。

我们可以看出来当前filter是2*2的小窗口，这个小窗口会将图片矩阵从左上角滑到右下角，每滑一次就会一下子圈起来四个，连接到下一层的一个神经元，然后产生四个权重，这四个权重(w1、w2、w3、w4)构成的矩阵就叫做卷积核。

卷积核是算法自己学习得到的，它会和上一层计算，比如，第二层的0节点的数值就是局部区域的线性组合（w1 0+w2 1+w3 4+w4 5），即被圈中节点的数值乘以对应的权重后相加。

卷积核计算

卷积操作

我们前面说过图片不用向量表示是为了保留图片平面结构的信息。同样的，卷积后的输出若用上图的向量排列方式则丢失了平面结构信息。所以我们依然用矩阵的方式排列它们，就得到了下图所展示的连接，每一个蓝色结点连接四个黄色的结点。

卷积层的连接方式

图片是一个矩阵然后卷积神经网络的下一层也是一个矩阵，我们用一个卷积核从图片矩阵左上角到右下角滑动，每滑动一次，当然被圈起来的神经元们就会连接下一层的一个神经元，形成参数矩阵这个就是卷积核，每次滑动虽然圈起来的神经元不同，连接下一层的神经元也不同，但是产生的参数矩阵确是一样的，这就是 权值共享 。

卷积核会和扫描的图片的那个局部矩阵作用产生一个值，比如第一次的时候，（w1 0+w2 1+w3 4+w4 5），所以，filter从左上到右下的这个过程中会得到一个矩阵（这就是下一层也是一个矩阵的原因），具体过程如下所示：

卷积计算过程

上图中左边是图矩阵，我们使用的filter的大小是3 3的，第一次滑动的时候，卷积核和图片矩阵作用（1 1+1 0+1 1+0 0+1 1+1 0+0 1+0 0+1 1）=4，会产生一个值，这个值就是右边矩阵的第一个值，filter滑动9次之后，会产生9个值，也就是说下一层有9个神经元，这9个神经元产生的值就构成了一个矩阵，这矩阵叫做特征图，表示image的某一维度的特征，当然具体哪一维度可能并不知道，可能是这个图像的颜色，也有可能是这个图像的轮廓等等。

单通道图片总结 ：以上就是单通道的图片的卷积处理，图片是一个矩阵，我们用指定大小的卷积核从左上角到右下角来滑动，每次滑动所圈起来的结点会和下一层的一个结点相连，连接之后就会形成局部连接，每一条连接都会产生权重，这些权重就是卷积核，所以每次滑动都会产生一个卷积核，因为权值共享，所以这些卷积核都是一样的。卷积核会不断和当时卷积核所圈起来的局部矩阵作用，每次产生的值就是下一层结点的值了，这样多次产生的值组合起来就是一个特征图，表示某一维度的特征。也就是从左上滑动到右下这一过程中会形成一个特征图矩阵（共享一个卷积核），再从左上滑动到右下又会形成另一个特征图矩阵（共享另一个卷积核），这些特征图都是表示特征的某一维度。

三个通道的图片如何进行卷积操作？

至此我们应该已经知道了单通道的灰度图是如何处理的，实际上我们的图片都是RGB的图像，有三个通道，那么此时图像是如何卷积的呢？

彩色图像

filter窗口滑的时候，我们只是从width和height的角度来滑动的，并没有考虑depth，所以每滑动一次实际上是产生一个卷积核，共享这一个卷积核，而现在depth=3了，所以每滑动一次实际上产生了具有三个通道的卷积核（它们分别作用于输入图片的蓝色、绿色、红色通道），卷积核的一个通道核蓝色的矩阵作用产生一个值，另一个和绿色的矩阵作用产生一个值，最后一个和红色的矩阵作用产生一个值，然后这些值加起来就是下一层结点的值，结果也是一个矩阵，也就是一张特征图。

三通道的计算过程

要想有多张特征图的话，我们可以再用新的卷积核来进行左上到右下的滑动，这样就会形成 新的特征图 。

三通道图片的卷积过程

也就是说增加一个卷积核，就会产生一个特征图，总的来说就是输入图片有多少通道，我们的卷积核就需要对应多少通道，而本层中卷积核有多少个，就会产生多少个特征图。这样卷积后输出可以作为新的输入送入另一个卷积层中处理，有几个特征图那么depth就是几，那么下一层的每一个特征图就得用相应的通道的卷积核来对应处理，这个逻辑要清楚，我们需要先了解一下 基本的概念：

卷积计算的公式

4x4的图片在边缘Zero padding一圈后，再用3x3的filter卷积后，得到的Feature Map尺寸依然是4x4不变。

填充

当然也可以使用5x5的filte和2的zero padding可以保持图片的原始尺寸，3x3的filter考虑到了像素与其距离为1以内的所有其他像素的关系，而5x5则是考虑像素与其距离为2以内的所有其他像素的关系。

规律： Feature Map的尺寸等于

(input_size + 2 * padding_size − filter_size)/stride+1

我们可以把卷积层的作用 总结一点： 卷积层其实就是在提取特征，卷积层中最重要的是卷积核（训练出来的），不同的卷积核可以探测特定的形状、颜色、对比度等，然后特征图保持了抓取后的空间结构，所以不同卷积核对应的特征图表示某一维度的特征，具体什么特征可能我们并不知道。特征图作为输入再被卷积的话，可以则可以由此探测到"更大"的形状概念，也就是说随着卷积神经网络层数的增加，特征提取的越来越具体化。

激励层的作用可以理解为把卷积层的结果做 非线性映射 。

激励层

上图中的f表示激励函数，常用的激励函数几下几种：

常用的激励函数

我们先来看一下激励函数Sigmoid导数最小为0，最大为1/4，

激励函数Sigmoid

Tanh激活函数：和sigmoid相似，它会关于x轴上下对应，不至于朝某一方面偏向

Tanh激活函数

ReLU激活函数（修正线性单元)：收敛快，求梯度快，但较脆弱，左边的梯度为0

ReLU激活函数

Leaky ReLU激活函数：不会饱和或者挂掉，计算也很快，但是计算量比较大

Leaky ReLU激活函数

一些激励函数的使用技巧 ：一般不要用sigmoid，首先试RELU，因为快，但要小心点，如果RELU失效，请用Leaky ReLU，某些情况下tanh倒是有不错的结果。

这就是卷积神经网络的激励层，它就是将卷积层的线性计算的结果进行了非线性映射。可以从下面的图中理解。它展示的是将非线性操作应用到一个特征图中。这里的输出特征图也可以看作是"修正"过的特征图。如下所示：

非线性操作

池化层：降低了各个特征图的维度，但可以保持大分重要的信息。池化层夹在连续的卷积层中间，压缩数据和参数的量，减小过拟合，池化层并没有参数，它只不过是把上层给它的结果做了一个下采样（数据压缩）。下采样有两种常用的方式：

Max pooling ：选取最大的，我们定义一个空间邻域（比如，2x2 的窗口），并从窗口内的修正特征图中取出最大的元素，最大池化被证明效果更好一些。

Average pooling ：平均的，我们定义一个空间邻域（比如，2x2 的窗口），并从窗口内的修正特征图算出平均值

Max pooling

我们要注意一点的是：pooling在不同的depth上是分开执行的，也就是depth=5的话，pooling进行5次，产生5个池化后的矩阵，池化不需要参数控制。池化操作是分开应用到各个特征图的，我们可以从五个输入图中得到五个输出图。

池化操作

无论是max pool还是average pool都有分信息被舍弃，那么部分信息被舍弃后会损坏识别结果吗？

因为卷积后的Feature Map中有对于识别物体不必要的冗余信息，我们下采样就是为了去掉这些冗余信息，所以并不会损坏识别结果。

我们来看一下卷积之后的冗余信息是怎么产生的？

我们知道卷积核就是为了找到特定维度的信息，比如说某个形状，但是图像中并不会任何地方都出现这个形状，但卷积核在卷积过程中没有出现特定形状的图片位置卷积也会产生一个值，但是这个值的意义就不是很大了，所以我们使用池化层的作用，将这个值去掉的话，自然也不会损害识别结果了。

比如下图中，假如卷积核探测"横折"这个形状。卷积后得到3x3的Feature Map中，真正有用的就是数字为3的那个节点，其余数值对于这个任务而言都是无关的。所以用3x3的Max pooling后，并没有对"横折"的探测产生影响。试想在这里例子中如果不使用Max pooling，而让网络自己去学习。网络也会去学习与Max pooling近似效果的权重。因为是近似效果，增加了更多的参数的代价，却还不如直接进行最大池化处理。

最大池化处理

在全连接层中所有神经元都有权重连接，通常全连接层在卷积神经网络尾部。当前面卷积层抓取到足以用来识别图片的特征后，接下来的就是如何进行分类。通常卷积网络的最后会将末端得到的长方体平摊成一个长长的向量，并送入全连接层配合输出层进行分类。比如，在下面图中我们进行的图像分类为四分类问题，所以卷积神经网络的输出层就会有四个神经元。

四分类问题

我们从卷积神经网络的输入层、卷积层、激活层、池化层以及全连接层来讲解卷积神经网络，我们可以认为全连接层之间的在做特征提取，而全连接层在做分类，这就是卷积神经网络的核心。

❺ 哪些神经网络结构会发生权重共享

说的确定应该就是训练方法吧，神经网络的权值不是人工给定的。而是用训练集（包括输入和输出）训练，用训练集训练一遍称为一个epoch，一般要许多epoch才行，目的是使得目标与训练结果的误差(一般采用均方误差）小到一个给定的阈值。以上所说是有监督的学习方法，还有无监督的学习方法。

❻ 卷积神经网络

关于花书中卷积网络的笔记记录于 https://www.jianshu.com/p/5a3c90ea0807 。

卷积神经网络（Convolutional Neural Network，CNN或ConvNet）是一种具有 局部连接、权重共享 等特性的深层前馈神经网络。卷积神经网络是受生物学上感受野的机制而提出。 感受野（Receptive Field） 主要是指听觉、视觉等神经系统中一些神经元的特性，即 神经元只接受其所支配的刺激区域内的信号 。

卷积神经网络最早是主要用来处理图像信息。如果用全连接前馈网络来处理图像时，会存在以下两个问题：

目前的卷积神经网络一般是由卷积层、汇聚层和全连接层交叉堆叠而成的前馈神经网络，使用反向传播算法进行训练。 卷积神经网络有三个结构上的特性：局部连接，权重共享以及汇聚 。这些特性使卷积神经网络具有一定程度上的平移、缩放和旋转不变性。

卷积（Convolution）是分析数学中一种重要的运算。在信号处理或图像处理中，经常使用一维或二维卷积。

一维卷积经常用在信号处理中，用于计算信号的延迟累积。假设一个信号发生器每个时刻t 产生一个信号，其信息的衰减率为，即在个时间步长后，信息为原来的倍。假设，那么在时刻t收到的信号为当前时刻产生的信息和以前时刻延迟信息的叠加：

我们把称为 滤波器（Filter）或卷积核（Convolution Kernel） 。假设滤波器长度为，它和一个信号序列的卷积为：

信号序列和滤波器的卷积定义为：

一般情况下滤波器的长度远小于信号序列长度，下图给出一个一维卷积示例，滤波器为：

二维卷积经常用在图像处理中。因为图像为一个两维结构，所以需要将一维卷积进行扩展。给定一个图像和滤波器，其卷积为：

下图给出一个二维卷积示例：

注意这里的卷积运算并不是在图像中框定卷积核大小的方框并将各像素值与卷积核各个元素相乘并加和，而是先把卷积核旋转180度，再做上述运算。

在图像处理中，卷积经常作为特征提取的有效方法。一幅图像在经过卷积操作后得到结果称为 特征映射（Feature Map） 。

最上面的滤波器是常用的高斯滤波器，可以用来对图像进行 平滑去噪 ；中间和最下面的过滤器可以用来 提取边缘特征 。

在机器学习和图像处理领域，卷积的主要功能是在一个图像（或某种特征）上滑动一个卷积核（即滤波器），通过卷积操作得到一组新的特征。在计算卷积的过程中，需要进行卷积核翻转（即上文提到的旋转180度）。 在具体实现上，一般会以互相关操作来代替卷积，从而会减少一些不必要的操作或开销。

互相关（Cross-Correlation）是一个衡量两个序列相关性的函数，通常是用滑动窗口的点积计算来实现 。给定一个图像和卷积核，它们的互相关为：

互相关和卷积的区别仅在于卷积核是否进行翻转。因此互相关也可以称为不翻转卷积 。当卷积核是可学习的参数时，卷积和互相关是等价的。因此，为了实现上（或描述上）的方便起见，我们用互相关来代替卷积。事实上，很多深度学习工具中卷积操作其实都是互相关操作。

在卷积的标准定义基础上，还可以引入滤波器的 滑动步长 和 零填充 来增加卷积多样性，更灵活地进行特征抽取。

滤波器的步长（Stride）是指滤波器在滑动时的时间间隔。

零填充（Zero Padding）是在输入向量两端进行补零。

假设卷积层的输入神经元个数为，卷积大小为，步长为，神经元两端各填补个零，那么该卷积层的神经元数量为。

一般常用的卷积有以下三类：

因为卷积网络的训练也是基于反向传播算法，因此我们重点关注卷积的导数性质：

假设。

，，。函数为一个标量函数。

则由有：

可以看出， 关于的偏导数为和的卷积 ：

同理得到：

当或时，，即相当于对进行的零填充。从而 关于的偏导数为和的宽卷积 。

用互相关的“卷积”表示，即为（注意 宽卷积运算具有交换性性质 ）：

在全连接前馈神经网络中，如果第层有个神经元，第层有个神经元，连接边有个，也就是权重矩阵有个参数。当和都很大时，权重矩阵的参数非常多，训练的效率会非常低。

如果采用卷积来代替全连接，第层的净输入为第层活性值和滤波器的卷积，即：

根据卷积的定义，卷积层有两个很重要的性质：

由于局部连接和权重共享，卷积层的参数只有一个m维的权重和1维的偏置，共个参数。参数个数和神经元的数量无关。此外，第层的神经元个数不是任意选择的，而是满足。

卷积层的作用是提取一个局部区域的特征，不同的卷积核相当于不同的特征提取器。

特征映射（Feature Map）为一幅图像（或其它特征映射）在经过卷积提取到的特征，每个特征映射可以作为一类抽取的图像特征。 为了提高卷积网络的表示能力，可以在每一层使用多个不同的特征映射，以更好地表示图像的特征。

在输入层，特征映射就是图像本身。如果是灰度图像，就是有一个特征映射，深度；如果是彩色图像，分别有RGB三个颜色通道的特征映射，深度。

不失一般性，假设一个卷积层的结构如下：

为了计算输出特征映射，用卷积核分别对输入特征映射进行卷积，然后将卷积结果相加，并加上一个标量偏置得到卷积层的净输入再经过非线性激活函数后得到输出特征映射。

在输入为，输出为的卷积层中，每个输出特征映射都需要个滤波器以及一个偏置。假设每个滤波器的大小为，那么共需要个参数。

汇聚层（Pooling Layer）也叫子采样层（Subsampling Layer），其作用是进行特征选择，降低特征数量，并从而减少参数数量。

常用的汇聚函数有两种：

其中为区域内每个神经元的激活值。

可以看出，汇聚层不但可以有效地减少神经元的数量，还可以使得网络对一些小的局部形态改变保持不变性，并拥有更大的感受野。

典型的汇聚层是将每个特征映射划分为大小的不重叠区域，然后使用最大汇聚的方式进行下采样。汇聚层也可以看做是一个特殊的卷积层，卷积核大小为，步长为，卷积核为函数或函数。过大的采样区域会急剧减少神经元的数量，会造成过多的信息损失。

一个典型的卷积网络是由卷积层、汇聚层、全连接层交叉堆叠而成。

目前常用卷积网络结构如图所示，一个卷积块为连续个卷积层和个汇聚层（通常设置为，为或）。一个卷积网络中可以堆叠个连续的卷积块，然后在后面接着个全连接层（的取值区间比较大，比如或者更大；一般为）。

目前，整个网络结构 趋向于使用更小的卷积核（比如和）以及更深的结构（比如层数大于50） 。此外，由于卷积的操作性越来越灵活（比如不同的步长），汇聚层的作用变得也越来越小，因此目前比较流行的卷积网络中， 汇聚层的比例也逐渐降低，趋向于全卷积网络 。

在全连接前馈神经网络中，梯度主要通过每一层的误差项进行反向传播，并进一步计算每层参数的梯度。在卷积神经网络中，主要有两种不同功能的神经层：卷积层和汇聚层。而参数为卷积核以及偏置，因此 只需要计算卷积层中参数的梯度。

不失一般性，第层为卷积层，第层的输入特征映射为，通过卷积计算得到第层的特征映射净输入，第层的第个特征映射净输入

由得：

同理可得，损失函数关于第层的第个偏置的偏导数为：

在卷积网络中，每层参数的梯度依赖其所在层的误差项。

卷积层和汇聚层中，误差项的计算有所不同，因此我们分别计算其误差项。

第层的第个特征映射的误差项的具体推导过程如下：

其中为第层使用的激活函数导数，为上采样函数（upsampling），与汇聚层中使用的下采样操作刚好相反。如果下采样是最大汇聚（max pooling），误差项中每个值会直接传递到上一层对应区域中的最大值所对应的神经元，该区域中其它神经元的误差项的都设为0。如果下采样是平均汇聚（meanpooling），误差项中每个值会被平均分配到上一层对应区域中的所有神经元上。

第层的第个特征映射的误差项的具体推导过程如下：

其中为宽卷积。

LeNet-5虽然提出的时间比较早，但是是一个非常成功的神经网络模型。基于LeNet-5 的手写数字识别系统在90年代被美国很多银行使用，用来识别支票上面的手写数字。LeNet-5 的网络结构如图：

不计输入层，LeNet-5共有7层，每一层的结构为：

AlexNet是第一个现代深度卷积网络模型，其首次使用了很多现代深度卷积网络的一些技术方法，比如采用了ReLU作为非线性激活函数，使用Dropout防止过拟合，使用数据增强来提高模型准确率等。AlexNet 赢得了2012 年ImageNet 图像分类竞赛的冠军。

AlexNet的结构如图，包括5个卷积层、3个全连接层和1个softmax层。因为网络规模超出了当时的单个GPU的内存限制，AlexNet 将网络拆为两半，分别放在两个GPU上，GPU间只在某些层（比如第3层）进行通讯。

AlexNet的具体结构如下：

在卷积网络中，如何设置卷积层的卷积核大小是一个十分关键的问题。 在Inception网络中，一个卷积层包含多个不同大小的卷积操作，称为Inception模块。Inception网络是由有多个inception模块和少量的汇聚层堆叠而成 。

v1版本的Inception模块，采用了4组平行的特征抽取方式，分别为1×1、3× 3、5×5的卷积和3×3的最大汇聚。同时，为了提高计算效率，减少参数数量，Inception模块在进行3×3、5×5的卷积之前、3×3的最大汇聚之后，进行一次1×1的卷积来减少特征映射的深度。如果输入特征映射之间存在冗余信息， 1×1的卷积相当于先进行一次特征抽取 。

❼ 神经网络（Neural Network）

（1）结构：许多树突（dendrite）用于输入，一个轴突（axon）用于输出。

（2）特性：兴奋性和传导性。兴奋性是指当信号量超过某个阈值时，细胞体就会被激活，产生电脉冲。传导性是指电脉冲沿着轴突并通过突触传递到其它神经元。

（3）有两种状态的机器：激活时为“是”，不激活时为“否”。神经细胞的状态取决于从其他神经细胞接收到的信号量，以及突触的性质（抑制或加强）。

（1）神经元——不重要

① 神经元是包含权重和偏置项的函数：接收数据后，执行一些计算，然后使用激活函数将数据限制在一个范围内（多数情况下）。

② 单个神经元：线性可分的情况下，本质是一条直线，，这条直线将数据划分为两类。而线性分类器本身就是一个单层神经网络。

③ 神经网络：非线性可分的情况下，神经网络通过多个隐层的方法来实现非线性的函数。

（2）权重/参数/连接（Weight）——最重要

每一个连接上都有一个权重。一个神经网络的训练算法就是让权重的值调整到最佳，以使得整个网络的预测效果最好。

（3）偏置项（Bias Units）——必须

① 如果没有偏置项，所有的函数都会经过原点。

② 正则化偏置会导致欠拟合：若对偏置正则化，会导致激活变得更加简单，偏差就会上升，学习的能力就会下降。

③ 偏置的大小度量了神经元产生激励（激活）的难易程度。

（1）定义：也称为转换函数，是一种将输入 (input) 转成输出 (output) 的函数。

（2）作用：一般直线拟合的精确度要比曲线差很多，引入激活函数能给神经网络增加一些非线性的特性。

（3）性质：

① 非线性：导数不是常数，否则就退化成直线。对于一些画一条直线仍然无法分开的问题，非线性可以把直线变弯，就能包罗万象；

② 可微性：当优化方法是基于梯度的时候，处处可导为后向传播算法提供了核心条件；

③ 输出范围：一般限定在[0,1]，使得神经元对一些比较大的输入会比较稳定；

④ 非饱和性：饱和就是指，当输入比较大的时候输出几乎没变化，会导致梯度消失；

⑤ 单调性：导数符号不变，输出不会上蹿下跳，让神经网络训练容易收敛。

（1）线性函数 (linear function)—— purelin()

（2）符号函数 (sign function)—— hardlim()

① 如果z值高于阈值，则激活设置为1或yes，神经元将被激活。

② 如果z值低于阈值，则激活设置为0或no，神经元不会被激活。

（3）对率函数 (sigmoid function)—— logsig()

① 优点：光滑S型曲线连续可导，函数阈值有上限。

② 缺点：❶ 函数饱和使梯度消失，两端梯度几乎为0，更新困难，做不深；

                ❷ 输出不是0中心，将影响梯度下降的运作，收敛异常慢；

                ❸ 幂运算相对来讲比较耗时

（4）双曲正切函数(hyperbolic tangent function)—— tansig()

① 优点：取值范围0中心化，防止了梯度偏差

② 缺点：梯度消失现象依然存在，但相对于sigmoid函数问题较轻

（5）整流线性单元 ReLU 函数(rectified linear unit)

① 优点：❶ 分段线性函数，它的非线性性很弱，因此网络做得很深；

                ❷ 由于它的线性、非饱和性，对于随机梯度下降的收敛有巨大的加速作用；

② 缺点：❶ 当x<0，梯度都变成0，参数无法更新，也导致了数据多样化的丢失；

                ❷ 输出不是0中心

（6）渗漏型整流线性单元激活函数 Leaky ReLU 函数

① 优点：❶ 是为解决“ReLU死亡”问题的尝试，在计算导数时允许较小的梯度；

                ❷ 非饱和的公式，不包含指数运算，计算速度快。

② 缺点：❶ 无法避免梯度爆炸问题；（没有体现优于ReLU）

                ❷ 神经网络不学习 α 值。

（7）指数线性单元 ELU (Exponential Linear Units)

① 优点：❶ 能避免“死亡 ReLU” 问题；

                ❷ 能得到负值输出，这能帮助网络向正确的方向推动权重和偏置变化；

                ❸ 在计算梯度时能得到激活，而不是让它们等于 0。

② 缺点：❶ 由于包含指数运算，所以计算时间更长；

                ❷ 无法避免梯度爆炸问题；（没有体现优于ReLU）

                ❸ 神经网络不学习 α 值。

（8）Maxout（对 ReLU 和 Leaky ReLU的一般化归纳）

① 优点：❶ 拥有ReLU的所有优点（线性和不饱和）

                ❷ 没有ReLU的缺点（死亡的ReLU单元）

                ❸ 可以拟合任意凸函数

② 缺点：参数数量增加了一倍。难训练，容易过拟合

（9）Swish

① 优点：❶ 在负半轴也有一定的不饱和区，参数的利用率更大

                ❷ 无上界有下界、平滑、非单调

                ❸ 在深层模型上的效果优于 ReLU

每个层都包含一定数量的单元（units）。增加层可增加神经网络输出的非线性。

（1）输入层：就是接收原始数据，然后往隐层送

（2）输出层：神经网络的决策输出

（3）隐藏层：神经网络的关键。把前一层的向量变成新的向量，让数据变得线性可分。

（1）结构：仅包含输入层和输出层，直接相连。

（2）作用：仅能表示线性可分函数或决策，且一定可以在有限的迭代次数中收敛。

（3）局限：可以建立与门、或门、非门等，但无法建立更为复杂的异或门（XOR），即两个输入相同时输出1，否则输出0。（“AI winter”）

（1）目的：拟合某个函数    （两层神经网络可以逼近任意连续函数）

（2）结构：包含输入层、隐藏层和输出层，由于从输入到输出的过程中不存在与模型自身的反馈连接，因此被称为“前馈”。    （层与层之间全连接）

（3）作用：非线性分类、聚类、预测等，通过训练，可以学习到数据中隐含的知识。

（4）局限：计算复杂、计算速度慢、容易陷入局部最优解，通常要将它们与其他网络结合形成新的网络。

（5）前向传播算法（Forward Propagation）

① 方法：从左至右逐级依赖的算法模型，即网络如何根据输入X得到输出Y，最终的输出值和样本值作比较，计算出误差。

② 目的：完成了一次正反向传播，就完成了一次神经网络的训练迭代。通过输出层的误差，快速求解对每个ω、b的偏导，利用梯度下降法，使Loss越来越小。

② 局限：为使最终的误差达到最小，要不断修改参数值，但神经网络的每条连接线上都有不同权重参数，修改这些参数变得棘手。

（6）误差反向传播（Back Propagation）

① 原理：梯度下降法求局部极值

② 方法：从后往前，从输出层开始计算 L 对当前层的微分，获得各层的误差信号，此误差信号即作为修正单元权值的依据。计算结束以后，所要的两个参数矩阵的梯度就都有了。

③ 局限：如果激活函数是饱和的，带来的缺陷就是系统迭代更新变慢，系统收敛就慢，当然这是可以有办法弥补的，一种方法是使用交叉熵函数作为损失函数。

（1）原理：随着网络的层数增加，每一层对于前一层次的抽象表示更深入。在神经网络中，每一层神经元学习到的是前一层神经元值的更抽象的表示。通过抽取更抽象的特征来对事物进行区分，从而获得更好的区分与分类能力。

（2）方法：ReLU函数在训练多层神经网络时，更容易收敛，并且预测性能更好。

（3）优点：① 易于构建，表达能力强，基本单元便可扩展为复杂的非线性函数

② 并行性号，有利于在分布是系统上应用

（4）局限：① 优化算法只能获得局部极值，性能与初始值相关

② 调参理论性缺乏

③ 不可解释，与实际任务关联性模糊

（1）原理：由手工设计卷积核变成自动学习卷积核

（2）卷积（Convolutional layer）：输入与卷积核相乘再累加（内积、加权叠加）

① 公式：

② 目的：提取输入的不同特征，得到维度很大的特征图（feature map）

③ 卷积核：需要训练的参数。一般为奇数维，有中心像素点，便于定位卷积核

④ 特点：局部感知、参数变少、权重共享、分层提取

（3）池化（Pooling Layer）：用更高层的抽象表达来表示主要特征，又称“降采样”

① 分类：最大（出现与否）、平均（保留整体）、随机（避免过拟合）

② 目的：降维，不需要训练参数，得到新的、维度较小的特征

（4）步长（stride）：若假设输入大小是n∗n，卷积核的大小是f∗f，步长是s，则最后的feature map的大小为o∗o，其中

（5）填充（zero-padding）

① Full模式：即从卷积核（fileter）和输入刚相交开始做卷积，没有元素的部分做补0操作。

② Valid模式：卷积核和输入完全相交开始做卷积，这种模式不需要补0。

③ Same模式：当卷积核的中心C和输入开始相交时做卷积。没有元素的部分做补0操作。

（7）激活函数：加入非线性特征

（8）全连接层（Fully-connected layer）

如果说卷积层、池化层和激活函数层等是将原始数据映射到隐层特征空间（决定计算速度），全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用（决定参数个数）。

参考：

[1] 神经网络（入门最详细）_ruthy的博客-CSDN博客_神经网络算法入门

[2] 神经网络（容易被忽视的基础知识） - Evan的文章 - 知乎

[3] 人工神经网络——王的机器

[4] 如何简单形象又有趣地讲解神经网络是什么？ - 舒小曼的回答 - 知乎

[5] 神经网络15分钟入门！足够通俗易懂了吧 - Mr.括号的文章 - 知乎

[6] 神经网络——最易懂最清晰的一篇文章_illikang的博客-CSDN博客_神经网络

[7] 直觉化深度学习教程——什么是前向传播——CSDN

[8] “反向传播算法”过程及公式推导（超直观好懂的Backpropagation）_aift的专栏-CSDN

[9] 卷积、反卷积、池化、反池化——CSDN

[10] 浙大机器学习课程- bilibili.com

全连接神经网络会发生权重共享吗

与全连接神经网络会发生权重共享吗相关的内容