神经网络模型电脑重启_人工神经网络综述

① 人工神经网络综述

文章主要分为：
一、人工神经网络的概念；
二、人工神经网络的发展历史；
三、人工神经网络的特点；
四、人工神经网络的结构。
。。

人工神经网络（Artificial Neural Network，ANN）简称神经网络(NN)，是基于生物学中神经网络的基本原理，在理解和抽象了人脑结构和外界刺激响应机制后，以网络拓扑知识为理论基础，模拟人脑的神经系统对复杂信息的处理机制的一种数学模型。该模型以并行分布的处理能力、高容错性、智能化和自学习等能力为特征，将信息的加工和存储结合在一起，以其独特的知识表示方式和智能化的自适应学习能力，引起各学科领域的关注。它实际上是一个有大量简单元件相互连接而成的复杂网络，具有高度的非线性，能够进行复杂的逻辑操作和非线性关系实现的系统。

神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成。每个节点代表一种特定的输出函数，称为激活函数（activation function）。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重（weight），神经网络就是通过这种方式来模拟人类的记忆。网络的输出则取决于网络的结构、网络的连接方式、权重和激活函数。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。神经网络的构筑理念是受到生物的神经网络运作启发而产生的。人工神经网络则是把对生物神经网络的认识与数学统计模型相结合，借助数学统计工具来实现。另一方面在人工智能学的人工感知领域，我们通过数学统计学的方法，使神经网络能够具备类似于人的决定能力和简单的判断能力，这种方法是对传统逻辑学演算的进一步延伸。

人工神经网络中，神经元处理单元可表示不同的对象，例如特征、字母、概念，或者一些有意义的抽象模式。网络中处理单元的类型分为三类：输入单元、输出单元和隐单元。输入单元接受外部世界的信号与数据；输出单元实现系统处理结果的输出；隐单元是处在输入和输出单元之间，不能由系统外部观察的单元。神经元间的连接权值反映了单元间的连接强度，信息的表示和处理体现在网络处理单元的连接关系中。人工神经网络是一种非程序化、适应性、大脑风格的信息处理，其本质是通过网络的变换和动力学行为得到一种并行分布式的信息处理功能，并在不同程度和层次上模仿人脑神经系统的信息处理功能。

神经网络，是一种应用类似于大脑神经突触连接结构进行信息处理的数学模型，它是在人类对自身大脑组织结合和思维机制的认识理解基础之上模拟出来的，它是根植于神经科学、数学、思维科学、人工智能、统计学、物理学、计算机科学以及工程科学的一门技术。

在介绍神经网络的发展历史之前，首先介绍一下神经网络的概念。神经网络主要是指一种仿造人脑设计的简化的计算模型，这种模型中包含了大量的用于计算的神经元，这些神经元之间会通过一些带有权重的连边以一种层次化的方式组织在一起。每一层的神经元之间可以进行大规模的并行计算，层与层之间进行消息的传递。

下图展示了整个神经网络的发展历程：

神经网络的发展有悠久的历史。其发展过程大致可以概括为如下4个阶段。

(1)、M-P神经网络模型：20世纪40年代，人们就开始了对神经网络的研究。1943 年，美国心理学家麦克洛奇（Mcculloch）和数学家皮兹（Pitts）提出了M-P模型，此模型比较简单，但是意义重大。在模型中，通过把神经元看作个功能逻辑器件来实现算法，从此开创了神经网络模型的理论研究。
(2)、Hebb规则：1949 年，心理学家赫布（Hebb）出版了《The Organization of Behavior》（行为组织学），他在书中提出了突触连接强度可变的假设。这个假设认为学习过程最终发生在神经元之间的突触部位，突触的连接强度随之突触前后神经元的活动而变化。这一假设发展成为后来神经网络中非常着名的Hebb规则。这一法则告诉人们，神经元之间突触的联系强度是可变的，这种可变性是学习和记忆的基础。Hebb法则为构造有学习功能的神经网络模型奠定了基础。
(3)、感知器模型：1957 年，罗森勃拉特（Rosenblatt）以M-P 模型为基础，提出了感知器（Perceptron）模型。感知器模型具有现代神经网络的基本原则，并且它的结构非常符合神经生理学。这是一个具有连续可调权值矢量的MP神经网络模型，经过训练可以达到对一定的输入矢量模式进行分类和识别的目的，它虽然比较简单，却是第一个真正意义上的神经网络。Rosenblatt 证明了两层感知器能够对输入进行分类，他还提出了带隐层处理元件的三层感知器这一重要的研究方向。Rosenblatt 的神经网络模型包含了一些现代神经计算机的基本原理，从而形成神经网络方法和技术的重大突破。
(4)、ADALINE网络模型： 1959年，美国着名工程师威德罗（B.Widrow）和霍夫（M.Hoff）等人提出了自适应线性元件(Adaptive linear element，简称Adaline)和Widrow-Hoff学习规则（又称最小均方差算法或称δ规则）的神经网络训练方法，并将其应用于实际工程，成为第一个用于解决实际问题的人工神经网络，促进了神经网络的研究应用和发展。ADALINE网络模型是一种连续取值的自适应线性神经元网络模型，可以用于自适应系统。

人工智能的创始人之一Minsky和Papert对以感知器为代表的网络系统的功能及局限性从数学上做了深入研究，于1969年发表了轰动一时《Perceptrons》一书，指出简单的线性感知器的功能是有限的，它无法解决线性不可分的两类样本的分类问题，如简单的线性感知器不可能实现“异或”的逻辑关系等。这一论断给当时人工神经元网络的研究带来沉重的打击。开始了神经网络发展史上长达10年的低潮期。
(1)、自组织神经网络SOM模型：1972年，芬兰的KohonenT.教授，提出了自组织神经网络SOM(Self-Organizing feature map)。后来的神经网络主要是根据KohonenT.的工作来实现的。SOM网络是一类无导师学习网络，主要用于模式识别﹑语音识别及分类问题。它采用一种“胜者为王”的竞争学习算法，与先前提出的感知器有很大的不同，同时它的学习训练方式是无指导训练，是一种自组织网络。这种学习训练方式往往是在不知道有哪些分类类型存在时，用作提取分类信息的一种训练。
(2)、自适应共振理论ART：1976年，美国Grossberg教授提出了着名的自适应共振理论ART(Adaptive Resonance Theory)，其学习过程具有自组织和自稳定的特征。

(1)、Hopfield模型：1982年，美国物理学家霍普菲尔德（Hopfield）提出了一种离散神经网络，即离散Hopfield网络，从而有力地推动了神经网络的研究。在网络中，它首次将李雅普诺夫（Lyapunov）函数引入其中，后来的研究学者也将Lyapunov函数称为能量函数。证明了网络的稳定性。1984年，Hopfield 又提出了一种连续神经网络，将网络中神经元的激活函数由离散型改为连续型。1985 年，Hopfield和Tank利用Hopfield神经网络解决了着名的旅行推销商问题（Travelling Salesman Problem）。Hopfield神经网络是一组非线性微分方程。Hopfield的模型不仅对人工神经网络信息存储和提取功能进行了非线性数学概括，提出了动力方程和学习方程，还对网络算法提供了重要公式和参数，使人工神经网络的构造和学习有了理论指导，在Hopfield模型的影响下，大量学者又激发起研究神经网络的热情，积极投身于这一学术领域中。因为Hopfield 神经网络在众多方面具有巨大潜力，所以人们对神经网络的研究十分地重视，更多的人开始了研究神经网络，极大地推动了神经网络的发展。
(2)、Boltzmann机模型：1983年，Kirkpatrick等人认识到模拟退火算法可用于NP完全组合优化问题的求解，这种模拟高温物体退火过程来找寻全局最优解的方法最早由Metropli等人1953年提出的。1984年，Hinton与年轻学者Sejnowski等合作提出了大规模并行网络学习机，并明确提出隐单元的概念，这种学习机后来被称为Boltzmann机。
Hinton和Sejnowsky利用统计物理学的感念和方法，首次提出的多层网络的学习算法，称为Boltzmann 机模型。
(3)、BP神经网络模型：1986年，儒默哈特（D.E.Ru melhart）等人在多层神经网络模型的基础上，提出了多层神经网络权值修正的反向传播学习算法----BP算法（Error Back-Propagation），解决了多层前向神经网络的学习问题，证明了多层神经网络具有很强的学习能力，它可以完成许多学习任务，解决许多实际问题。
(4)、并行分布处理理论：1986年，由Rumelhart和McCkekkand主编的《Parallel Distributed Processing：Exploration in the Microstructures of Cognition》，该书中，他们建立了并行分布处理理论，主要致力于认知的微观研究，同时对具有非线性连续转移函数的多层前馈网络的误差反向传播算法即BP算法进行了详尽的分析，解决了长期以来没有权值调整有效算法的难题。可以求解感知机所不能解决的问题，回答了《Perceptrons》一书中关于神经网络局限性的问题，从实践上证实了人工神经网络有很强的运算能力。
(5)、细胞神经网络模型：1988年，Chua和Yang提出了细胞神经网络（CNN）模型，它是一个细胞自动机特性的大规模非线性计算机仿真系统。Kosko建立了双向联想存储模型（BAM），它具有非监督学习能力。
(6)、Darwinism模型：Edelman提出的Darwinism模型在90年代初产生了很大的影响，他建立了一种神经网络系统理论。
(7)、1988年，Linsker对感知机网络提出了新的自组织理论，并在Shanon信息论的基础上形成了最大互信息理论，从而点燃了基于NN的信息应用理论的光芒。
(8)、1988年，Broomhead和Lowe用径向基函数(Radialbasis function, RBF)提出分层网络的设计方法，从而将NN的设计与数值分析和线性适应滤波相挂钩。
(9)、1991年，Haken把协同引入神经网络，在他的理论框架中，他认为，认知过程是自发的，并断言模式识别过程即是模式形成过程。
(10)、1994年，廖晓昕关于细胞神经网络的数学理论与基础的提出，带来了这个领域新的进展。通过拓广神经网络的激活函数类，给出了更一般的时滞细胞神经网络(DCNN)、Hopfield神经网络（HNN）、双向联想记忆网络（BAM）模型。
(11)、90年代初，Vapnik等提出了支持向量机(Supportvector machines, SVM)和VC(Vapnik-Chervonenkis)维数的概念。
经过多年的发展，已有上百种的神经网络模型被提出。

深度学习(Deep Learning,DL)由Hinton等人于2006年提出，是机器学习的一个新领域。深度学习本质上是构建含有多隐层的机器学习架构模型，通过大规模数据进行训练，得到大量更具代表性的特征信息。深度学习算法打破了传统神经网络对层数的限制，可根据设计者需要选择网络层数。

突触是神经元之间相互连接的接口部分，即一个神经元的神经末梢与另一个神经元的树突相接触的交界面，位于神经元的神经末梢尾端。突触是轴突的终端。
大脑可视作为1000多亿神经元组成的神经网络。神经元的信息传递和处理是一种电化学活动．树突由于电化学作用接受外界的刺激，通过胞体内的活动体现为轴突电位，当轴突电位达到一定的值则形成神经脉冲或动作电位；再通过轴突末梢传递给其它的神经元．从控制论的观点来看；这一过程可以看作一个多输入单输出非线性系统的动态过程。
神经元的功能特性：（1）时空整合功能；（2）神经元的动态极化性；（3）兴奋与抑制状态；（4）结构的可塑性；（5）脉冲与电位信号的转换；（6）突触延期和不应期；（7）学习、遗忘和疲劳。

神经网络从两个方面模拟大脑：
(1)、神经网络获取的知识是从外界环境中学习得来的。
(2)、内部神经元的连接强度，即突触权值，用于储存获取的知识。
神经网络系统由能够处理人类大脑不同部分之间信息传递的由大量神经元连接形成的拓扑结构组成，依赖于这些庞大的神经元数目和它们之间的联系，人类的大脑能够收到输入的信息的刺激由分布式并行处理的神经元相互连接进行非线性映射处理，从而实现复杂的信息处理和推理任务。
对于某个处理单元（神经元）来说，假设来自其他处理单元（神经元）i的信息为Xi，它们与本处理单元的互相作用强度即连接权值为Wi, i=0,1,…,n-1,处理单元的内部阈值为θ。那么本处理单元（神经元）的输入为：

，而处理单元的输出为：

式中，xi为第i个元素的输入，wi为第i个处理单元与本处理单元的互联权重即神经元连接权值。f称为激活函数或作用函数，它决定节点（神经元）的输出。θ表示隐含层神经节点的阈值。

神经网络的主要工作是建立模型和确定权值，一般有前向型和反馈型两种网络结构。通常神经网络的学习和训练需要一组输入数据和输出数据对，选择网络模型和传递、训练函数后，神经网络计算得到输出结果，根据实际输出和期望输出之间的误差进行权值的修正，在网络进行判断的时候就只有输入数据而没有预期的输出结果。神经网络一个相当重要的能力是其网络能通过它的神经元权值和阈值的不断调整从环境中进行学习，直到网络的输出误差达到预期的结果，就认为网络训练结束。

对于这样一种多输入、单输出的基本单元可以进一步从生物化学、电生物学、数学等方面给出描述其功能的模型。利用大量神经元相互连接组成的人工神经网络，将显示出人脑的若干特征，人工神经网络也具有初步的自适应与自组织能力。在学习或训练过程中改变突触权重wij值，以适应周围环境的要求。同一网络因学习方式及内容不同可具有不同的功能。人工神经网络是一个具有学习能力的系统，可以发展知识，以至超过设计者原有的知识水平。通常，它的学习(或训练)方式可分为两种，一种是有监督(supervised)或称有导师的学习，这时利用给定的样本标准进行分类或模仿；另一种是无监督(unsupervised)学习或称无导师学习，这时，只规定学习方式或某些规则，而具体的学习内容随系统所处环境(即输入信号情况)而异，系统可以自动发现环境特征和规律性，具有更近似于人脑的功能。
在人工神经网络设计及应用研究中，通常需要考虑三个方面的内容，即神经元激活函数、神经元之间的连接形式和网络的学习(训练)。

② 神经网络浅谈

人工智能技术是当前炙手可热的话题，而基于神经网络的深度学习技术更是热点中的热点。去年谷歌的Alpha Go 以4:1大比分的优势战胜韩国的李世石九段，展现了深度学习的强大威力，后续强化版的Alpha Master和无师自通的Alpha Zero更是在表现上完全碾压前者。不论你怎么看，以深度学习为代表的人工智能技术正在塑造未来。

下图为英伟达（NVIDIA）公司近年来的股价情况，该公司的主要产品是“图形处理器”（GPU），而GPU被证明能大大加快神经网络的训练速度，是深度学习必不可少的计算组件。英伟达公司近年来股价的飞涨足以证明当前深度学习的井喷之势。

好，话不多说，下面简要介绍神经网络的基本原理、发展脉络和优势。

神经网络是一种人类由于受到生物神经细胞结构启发而研究出的一种算法体系，是机器学习算法大类中的一种。首先让我们来看人脑神经元细胞：

一个神经元通常具有多个树突，主要用来接受传入信息，而轴突只有一条，轴突尾端有许多轴突末梢，可以给其他多个神经元传递信息。轴突末梢跟其他神经元的树突产生连接，从而传递信号。

下图是一个经典的神经网络（Artificial Neural Network,ANN）：

乍一看跟传统互联网的拓扑图有点类似，这也是称其为网络的原因，不同的是节点之间通过有向线段连接，并且节点被分成三层。我们称图中的圆圈为神经元，左边三个神经元组成的一列为输入层，中间神经元列为隐藏层,右边神经元列为输出层，神经元之间的箭头为权重。

神经元是计算单元，相当于神经元细胞的细胞核，利用输入的数据进行计算，然后输出，一般由一个线性计算部分和一个非线性计算部分组成；输入层和输出层实现数据的输入输出，相当于细胞的树突和轴突末梢；隐藏层指既不是输入也不是输出的神经元层，一个神经网络可以有很多个隐藏层。

神经网络的关键不是圆圈代表的神经元，而是每条连接线对应的权重。每条连接线对应一个权重，也就是一个参数。权重具体的值需要通过神经网络的训练才能获得。我们实际生活中的学习体现在大脑中就是一系列神经网络回路的建立与强化，多次重复的学习能让回路变得更加粗壮，使得信号的传递速度加快，最后对外表现为“深刻”的记忆。人工神经网络的训练也借鉴于此，如果某种映射关系出现很多次，那么在训练过程中就相应调高其权重。

1943年，心理学家McCulloch和数学家Pitts参考了生物神经元的结构，发表了抽象的神经元模型MP：

符号化后的模型如下：

Sum函数计算各权重与输入乘积的线性组合，是神经元中的线性计算部分，而sgn是取符号函数，当输入大于0时，输出1，反之输出0，是神经元中的非线性部分。向量化后的公式为z=sgn(w^T a)（w^T=(w_1,w_2,w_3)，a=〖(a_1,a_2,a_3)〗^T）。

但是，MP模型中，权重的值都是预先设置的，因此不能学习。该模型虽然简单，并且作用有限，但已经建立了神经网络大厦的地基

1958年，计算科学家Rosenblatt提出了由两层神经元组成(一个输入层，一个输出层)的神经网络。他给它起了一个名字–“感知器”（Perceptron）

感知器是当时首个可以学习的人工神经网络。Rosenblatt现场演示了其学习识别简单图像的过程，在当时引起了轰动，掀起了第一波神经网络的研究热潮。

但感知器只能做简单的线性分类任务。1969年，人工智能领域的巨擘Minsky指出这点，并同时指出感知器对XOR（异或，即两个输入相同时输出0，不同时输出1）这样的简单逻辑都无法解决。所以，明斯基认为神经网络是没有价值的。

随后，神经网络的研究进入低谷，又称 AI Winter 。

Minsky说过单层神经网络无法解决异或问题，但是当增加一个计算层以后，两层神经网络不仅可以解决异或问题，而且具有非常好的非线性分类效果。

下图为两层神经网络（输入层一般不算在内）：

上图中，输出层的输入是上一层的输出。

向量化后的公式为：

注意：

每个神经元节点默认都有偏置变量b，加上偏置变量后的计算公式为：

同时，两层神经网络不再使用sgn函数作为激励函数，而采用平滑的sigmoid函数：

σ(z)=1/(1+e^(-z) )

其图像如下：

理论证明：两层及以上的神经网络可以无限逼近真实的对应函数，从而模拟数据之间的真实关系，这是神经网络强大预测能力的根本。但两层神经网络的计算量太大，当时的计算机的计算能力完全跟不上，直到1986年，Rumelhar和Hinton等人提出了反向传播（Backpropagation，BP）算法，解决了两层神经网络所需要的复杂计算量问题，带动了业界使用两层神经网络研究的热潮。

但好景不长，算法的改进仅使得神经网络风光了几年，然而计算能力不够，局部最优解，调参等一系列问题一直困扰研究人员。90年代中期，由Vapnik等人发明的SVM（Support Vector Machines，支持向量机）算法诞生，很快就在若干个方面体现出了对比神经网络的优势：无需调参；高效；全局最优解。

由于以上原因，SVM迅速打败了神经网络算法成为主流。神经网络的研究再一次进入低谷， AI Winter again 。

多层神经网络一般指两层或两层以上的神经网络（不包括输入层），更多情况下指两层以上的神经网络。

2006年，Hinton提出使用预训练 ”（pre-training）和“微调”(fine-tuning)技术能优化神经网络训练，大幅度减少训练多层神经网络的时间

并且，他给多层神经网络相关的学习方法赋予了一个新名词–“ 深度学习 ”，以此为起点，“深度学习”纪元开始了：）

“深度学习”一方面指神经网络的比较“深”，也就是层数较多；另一方面也可以指神经网络能学到很多深层次的东西。研究发现，在权重参数不变的情况下，增加神经网络的层数，能增强神经网络的表达能力。

但深度学习究竟有多强大呢？没人知道。2012年，Hinton与他的学生在ImageNet竞赛中，用多层的卷积神经网络成功地对包含一千类别的一百万张图片进行了训练，取得了分类错误率15%的好成绩，这个成绩比第二名高了近11个百分点，充分证明了多层神经网络识别效果的优越性。

同时，科研人员发现GPU的大规模并行矩阵运算模式完美地契合神经网络训练的需要，在同等情况下，GPU的速度要比CPU快50-200倍，这使得神经网络的训练时间大大减少，最终再一次掀起了神经网络研究的热潮，并且一直持续到现在。

2016年基于深度学习的Alpha Go在围棋比赛中以4:1的大比分优势战胜了李世石，深度学习的威力再一次震惊了世界。

神经网络的发展历史曲折荡漾，既有被捧上神坛的高潮，也有无人问津的低谷，中间经历了数次大起大落，我们姑且称之为“三起三落”吧，其背后则是算法的改进和计算能力的持续发展。

下图展示了神经网络自发明以来的发展情况及一些重大时间节点。

当然，对于神经网络我们也要保持清醒的头脑。由上图，每次神经网络研究的兴盛期持续10年左右，从最近2012年算起，或许10年后的2022年，神经网络的发展将再次遇到瓶颈。

神经网络作为机器学习的一种，其模型训练的目的，就是使得参数尽可能的与真实的模型逼近。理论证明，两层及以上的神经网络可以无限逼近真实的映射函数。因此，给定足够的训练数据和训练时间，总能通过神经网络找到无限逼近真实关系的模型。

具体做法：首先给所有权重参数赋上随机值，然后使用这些随机生成的参数值，来预测训练数据中的样本。假设样本的预测目标为yp ，真实目标为y，定义值loss，计算公式如下：

loss = (yp -y) ^2

这个值称之为损失（loss），我们的目标就是使对所有训练数据的损失和尽可能的小，这就转化为求loss函数极值的问题。

一个常用方法是高等数学中的求导，但由于参数不止一个，求导后计算导数等于0的运算量很大，所以常用梯度下降算法来解决这样的优化问题。梯度是一个向量，由函数的各自变量的偏导数组成。

比如对二元函数 f =(x,y)，则梯度∇f=(∂f/∂x,∂f/∂y)。梯度的方向是函数值上升最快的方向。梯度下降算法每次计算参数在当前的梯度，然后让参数向着梯度的反方向前进一段距离，不断重复，直到梯度接近零时截止。一般这个时候，所有的参数恰好达到使损失函数达到一个最低值的状态。下图为梯度下降的大致运行过程：

在神经网络模型中，由于结构复杂，每次计算梯度的代价很大。因此还需要使用反向传播（Back Propagation）算法。反向传播算法利用了神经网络的结构进行计算，不一次计算所有参数的梯度，而是从后往前。首先计算输出层的梯度，然后是第二个参数矩阵的梯度，接着是中间层的梯度，再然后是第一个参数矩阵的梯度，最后是输入层的梯度。计算结束以后，所要的两个参数矩阵的梯度就都有了。当然，梯度下降只是其中一个优化算法，其他的还有牛顿法、RMSprop等。

确定loss函数的最小值后，我们就确定了整个神经网络的权重，完成神经网络的训练。

在神经网络中一样的参数数量，可以用更深的层次去表达。

由上图，不算上偏置参数的话，共有三层神经元，33个权重参数。

由下图，保持权重参数不变，但增加了两层神经元。

在多层神经网络中，每一层的输入是前一层的输出，相当于在前一层的基础上学习，更深层次的神经网络意味着更深入的表示特征，以及更强的函数模拟能力。更深入的表示特征可以这样理解，随着网络的层数增加，每一层对于前一层次的抽象表示更深入。

如上图，第一个隐藏层学习到“边缘”的特征，第二个隐藏层学习到“边缘”组成的“形状”的特征，第三个隐藏层学习到由“形状”组成的“图案”的特征，最后的隐藏层学习到由“图案”组成的“目标”的特征。通过抽取更抽象的特征来对事物进行区分，从而获得更好的区分与分类能力。

前面提到，明斯基认为Rosenblatt提出的感知器模型不能处理最简单的“异或”（XOR）非线性问题，所以神经网络的研究没有前途，但当增加一层神经元后，异或问题得到了很好地解决，原因何在？原来从输入层到隐藏层，数据发生了空间变换，坐标系发生了改变，因为矩阵运算本质上就是一种空间变换。

如下图，红色和蓝色的分界线是最终的分类结果，可以看到，该分界线是一条非常平滑的曲线。

但是，改变坐标系后，分界线却表现为直线，如下图：

同时，非线性激励函数的引入使得神经网络对非线性问题的表达能力大大加强。

对于传统的朴素贝叶斯、决策树、支持向量机SVM等分类器，提取特征是一个非常重要的前置工作。在正式训练之前，需要花费大量的时间在数据的清洗上，这样分类器才能清楚地知道数据的维度，要不然基于概率和空间距离的线性分类器是没办法进行工作的。然而在神经网络中，由于巨量的线性分类器的堆叠（并行和串行）以及卷积神经网络的使用，它对噪声的忍耐能力、对多通道数据上投射出来的不同特征偏向的敏感程度会自动重视或忽略，这样我们在处理的时候，就不需要使用太多的技巧用于数据的清洗了。有趣的是，业内大佬常感叹，“你可能知道SVM等机器学习的所有细节，但是效果并不好，而神经网络更像是一个黑盒，很难知道它究竟在做什么，但工作效果却很好”。

人类对机器学习的环节干预越少，就意味着距离人工智能的方向越近。神经网络的这个特性非常有吸引力。

1) 谷歌的TensorFlow开发了一个非常有意思的神经网络入门教程，用户可以非常方便地在网页上更改神经网络的参数，并且能看到实时的学习效率和结果，非常适合初学者掌握神经网络的基本概念及神经网络的原理。网页截图如下：

2) 深度学习领域大佬吴恩达不久前发布的《神经网络和深度学习》MOOC，现在可以在网易云课堂上免费观看了，并且还有中文字幕。

3) 《神经网络于深度学习》（Michael Nielsen着）、《白话深度学习与TensorFlow》也是不错的入门书籍。

③ 一文看懂四种基本的神经网络架构

原文链接：
http://blackblog.tech/2018/02/23/Eight-Neural-Network/

更多干货就在我的个人博客 http://blackblog.tech 欢迎关注

刚刚入门神经网络，往往会对众多的神经网络架构感到困惑，神经网络看起来复杂多样，但是这么多架构无非也就是三类，前馈神经网络，循环网络，对称连接网络，本文将介绍四种常见的神经网络，分别是CNN，RNN，DBN，GAN。通过这四种基本的神经网络架构，我们来对神经网络进行一定的了解。

神经网络是机器学习中的一种模型，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。
一般来说，神经网络的架构可以分为三类：

前馈神经网络：
这是实际应用中最常见的神经网络类型。第一层是输入，最后一层是输出。如果有多个隐藏层，我们称之为“深度”神经网络。他们计算出一系列改变样本相似性的变换。各层神经元的活动是前一层活动的非线性函数。

循环网络：
循环网络在他们的连接图中定向了循环，这意味着你可以按照箭头回到你开始的地方。他们可以有复杂的动态，使其很难训练。他们更具有生物真实性。
循环网络的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。
循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

对称连接网络：
对称连接网络有点像循环网络，但是单元之间的连接是对称的（它们在两个方向上权重相同）。比起循环网络，对称连接网络更容易分析。这个网络中有更多的限制，因为它们遵守能量函数定律。没有隐藏单元的对称连接网络被称为“Hopfield 网络”。有隐藏单元的对称连接的网络被称为玻尔兹曼机。

其实之前的帖子讲过一些关于感知机的内容，这里再复述一下。
首先还是这张图
这是一个M-P神经元

一个神经元有n个输入，每一个输入对应一个权值w，神经元内会对输入与权重做乘法后求和，求和的结果与偏置做差，最终将结果放入激活函数中，由激活函数给出最后的输出，输出往往是二进制的，0 状态代表抑制，1 状态代表激活。

可以把感知机看作是 n 维实例空间中的超平面决策面，对于超平面一侧的样本，感知器输出 1，对于另一侧的实例输出 0，这个决策超平面方程是 w⋅x=0。那些可以被某一个超平面分割的正反样例集合称为线性可分(linearly separable)样例集合，它们就可以使用图中的感知机表示。
与、或、非问题都是线性可分的问题，使用一个有两输入的感知机能容易地表示，而异或并不是一个线性可分的问题，所以使用单层感知机是不行的，这时候就要使用多层感知机来解决疑惑问题了。

如果我们要训练一个感知机，应该怎么办呢？
我们会从随机的权值开始，反复地应用这个感知机到每个训练样例，只要它误分类样例就修改感知机的权值。重复这个过程，直到感知机正确分类所有的样例。每一步根据感知机训练法则来修改权值，也就是修改与输入 xi 对应的权 wi，法则如下：

这里 t 是当前训练样例的目标输出，o 是感知机的输出，η 是一个正的常数称为学习速率。学习速率的作用是缓和每一步调整权的程度，它通常被设为一个小的数值（例如 0.1），而且有时会使其随着权调整次数的增加而衰减。

多层感知机，或者说是多层神经网络无非就是在输入层与输出层之间加了多个隐藏层而已，后续的CNN，DBN等神经网络只不过是将重新设计了每一层的类型。感知机可以说是神经网络的基础，后续更为复杂的神经网络都离不开最简单的感知机的模型，

谈到机器学习，我们往往还会跟上一个词语，叫做模式识别，但是真实环境中的模式识别往往会出现各种问题。比如：
图像分割：真实场景中总是掺杂着其它物体。很难判断哪些部分属于同一个对象。对象的某些部分可以隐藏在其他对象的后面。
物体光照：像素的强度被光照强烈影响。
图像变形：物体可以以各种非仿射方式变形。例如，手写也可以有一个大的圆圈或只是一个尖头。
情景支持：物体所属类别通常由它们的使用方式来定义。例如，椅子是为了让人们坐在上面而设计的，因此它们具有各种各样的物理形状。
卷积神经网络与普通神经网络的区别在于，卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中，通常包含若干个特征平面(featureMap)，每个特征平面由一些矩形排列的的神经元组成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。共享权值（卷积核）带来的直接好处是减少网络各层之间的连接，同时又降低了过拟合的风险。子采样也叫做池化（pooling），通常有均值子采样（mean pooling）和最大值子采样（max pooling）两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型复杂度，减少了模型的参数。
卷积神经网络由三部分构成。第一部分是输入层。第二部分由n个卷积层和池化层的组合组成。第三部分由一个全连结的多层感知机分类器构成。
这里举AlexNet为例：

·输入：224×224大小的图片，3通道
·第一层卷积：11×11大小的卷积核96个，每个GPU上48个。
·第一层max-pooling：2×2的核。
·第二层卷积：5×5卷积核256个，每个GPU上128个。
·第二层max-pooling：2×2的核。
·第三层卷积：与上一层是全连接，3*3的卷积核384个。分到两个GPU上个192个。
·第四层卷积：3×3的卷积核384个，两个GPU各192个。该层与上一层连接没有经过pooling层。
·第五层卷积：3×3的卷积核256个，两个GPU上个128个。
·第五层max-pooling：2×2的核。
·第一层全连接：4096维，将第五层max-pooling的输出连接成为一个一维向量，作为该层的输入。
·第二层全连接：4096维
·Softmax层：输出为1000，输出的每一维都是图片属于该类别的概率。

卷积神经网络在模式识别领域有着重要应用，当然这里只是对卷积神经网络做了最简单的讲解，卷积神经网络中仍然有很多知识，比如局部感受野，权值共享，多卷积核等内容，后续有机会再进行讲解。

传统的神经网络对于很多问题难以处理，比如你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNN能够对任何长度的序列数据进行处理。
这是一个简单的RNN的结构，可以看到隐藏层自己是可以跟自己进行连接的。

那么RNN为什么隐藏层能够看到上一刻的隐藏层的输出呢，其实我们把这个网络展开来开就很清晰了。

从上面的公式我们可以看出，循环层和全连接层的区别就是循环层多了一个权重矩阵 W。
如果反复把式2带入到式1，我们将得到：

在讲DBN之前，我们需要对DBN的基本组成单位有一定的了解，那就是RBM，受限玻尔兹曼机。
首先什么是玻尔兹曼机？
[图片上传失败...(image-d36b31-1519636788074)]
如图所示为一个玻尔兹曼机，其蓝色节点为隐层，白色节点为输入层。
玻尔兹曼机和递归神经网络相比，区别体现在以下几点：
1、递归神经网络本质是学习一个函数，因此有输入和输出层的概念，而玻尔兹曼机的用处在于学习一组数据的“内在表示”，因此其没有输出层的概念。
2、递归神经网络各节点链接为有向环，而玻尔兹曼机各节点连接成无向完全图。

而受限玻尔兹曼机是什么呢？
最简单的来说就是加入了限制，这个限制就是将完全图变成了二分图。即由一个显层和一个隐层构成，显层与隐层的神经元之间为双向全连接。

h表示隐藏层，v表示显层
在RBM中，任意两个相连的神经元之间有一个权值w表示其连接强度，每个神经元自身有一个偏置系数b（对显层神经元）和c（对隐层神经元）来表示其自身权重。
具体的公式推导在这里就不展示了

DBN是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是建立一个观察数据和标签之间的联合分布，对P(Observation|Label)和 P(Label|Observation)都做了评估，而判别模型仅仅而已评估了后者，也就是P(Label|Observation)。
DBN由多个限制玻尔兹曼机（Restricted Boltzmann Machines）层组成，一个典型的神经网络类型如图所示。这些网络被“限制”为一个可视层和一个隐层，层间存在连接，但层内的单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。

生成对抗网络其实在之前的帖子中做过讲解，这里在说明一下。
生成对抗网络的目标在于生成，我们传统的网络结构往往都是判别模型，即判断一个样本的真实性。而生成模型能够根据所提供的样本生成类似的新样本，注意这些样本是由计算机学习而来的。
GAN一般由两个网络组成，生成模型网络，判别模型网络。
生成模型 G 捕捉样本数据的分布，用服从某一分布（均匀分布，高斯分布等）的噪声 z 生成一个类似真实训练数据的样本，追求效果是越像真实样本越好；判别模型 D 是一个二分类器，估计一个样本来自于训练数据（而非生成数据）的概率，如果样本来自于真实的训练数据，D 输出大概率，否则，D 输出小概率。
举个例子：生成网络 G 好比假币制造团伙，专门制造假币，判别网络 D 好比警察，专门检测使用的货币是真币还是假币，G 的目标是想方设法生成和真币一样的货币，使得 D 判别不出来，D 的目标是想方设法检测出来 G 生成的假币。
传统的判别网络：

生成对抗网络：

下面展示一个cDCGAN的例子（前面帖子中写过的）
生成网络

判别网络

最终结果，使用MNIST作为初始样本，通过学习后生成的数字，可以看到学习的效果还是不错的。

本文非常简单的介绍了四种神经网络的架构，CNN，RNN，DBN，GAN。当然也仅仅是简单的介绍，并没有深层次讲解其内涵。这四种神经网络的架构十分常见，应用也十分广泛。当然关于神经网络的知识，不可能几篇帖子就讲解完，这里知识讲解一些基础知识，帮助大家快速入（zhuang）门（bi）。后面的帖子将对深度自动编码器，Hopfield 网络长短期记忆网络（LSTM）进行讲解。

④ 跑完神经网络后电脑自动关机

电脑关机可能是温度过高、内存问题、系统不稳定或者系统病毒。
按经验来说，最常见的就是电脑里的散热风扇故障导致过热关机，温度过高会烧坏你的硬件，如主板、cpu等，自动关机是一种自我保护方法。内存条上如果某个芯片不完全损坏时，很有可能会通过自检在运行时就会因为内存发热量大而导致功能失效而意外重启。还有就是电脑电源故障导致的不稳定关机。系统病毒导致自动关机，恶意行为。

神经网络模型电脑重启

与神经网络模型电脑重启相关的内容