神经网络跳跃连接可以绕过低频_神经网络连接方式分为哪几类每一类有哪些特点

‘壹’ 神经网络连接方式分为哪几类每一类有哪些特点

神经网络模型的分类
人工神经网络的模型很多，可以按照不同的方法进行分类。其中，常见的两种分类方法是，按照网络连接的拓朴结构分类和按照网络内部的信息流向分类。
1 按照网络拓朴结构分类
网络的拓朴结构，即神经元之间的连接方式。按此划分，可将神经网络结构分为两大类：层次型结构和互联型结构。
层次型结构的神经网络将神经元按功能和顺序的不同分为输出层、中间层（隐层）、输出层。输出层各神经元负责接收来自外界的输入信息，并传给中间各隐层神经元；隐层是神经网络的内部信息处理层，负责信息变换。根据需要可设计为一层或多层；最后一个隐层将信息传递给输出层神经元经进一步处理后向外界输出信息处理结果。

而互连型网络结构中，任意两个节点之间都可能存在连接路径，因此可以根据网络中节点的连接程度将互连型网络细分为三种情况：全互连型、局部互连型和稀疏连接型
2 按照网络信息流向分类
从神经网络内部信息传递方向来看，可以分为两种类型：前馈型网络和反馈型网络。
单纯前馈网络的结构与分层网络结构相同，前馈是因网络信息处理的方向是从输入层到各隐层再到输出层逐层进行而得名的。前馈型网络中前一层的输出是下一层的输入，信息的处理具有逐层传递进行的方向性，一般不存在反馈环路。因此这类网络很容易串联起来建立多层前馈网络。
反馈型网络的结构与单层全互连结构网络相同。在反馈型网络中的所有节点都具有信息处理功能，而且每个节点既可以从外界接受输入，同时又可以向外界输出。

‘贰’ 论文笔记-卷积神经网络中的感受野

感受野（receptive field或者field of view）是卷积神经网络中的一个基本概念。与全连接层中每个输出值都与全部输入特征值有关不同的是，卷积层的一个输出值只与一部分的输入特征值有关。输入特征值中与输出特征值有关的部分就是它的感受野。
对于处于中心位置的特征值，对于输出的影响会更大，根据实验结果在一个接受野的影响分布是高斯分布。由此也引入了一个 有效感受野 的概念，因为高斯分布在中心位置强度更高，然后逐渐向周围递减。

我们想用数学的方法来描述一个接收野中的每个输入像素对网络上一个单元层的输出的影响程度，并研究这种影响是如何在输出单元的接收野内分布的。为了简化符号，我们只考虑每层上的一个信道，但是对于具有更多输入和输出的卷积层，可以很容易地得到类似的结果通道。
假设每层上的像素用（i，j）索引，其中心位于（0,0）。表示第层的第（i，j）个像素为，其中作为网络的输入，作为第n层的输出。我们要测量每个对贡献了多少。我们将这个中央输出单元的有效感受野（ERF）定义为包含任何输入像素且对其影响不可忽略的区域单位。
本文采用偏导数，j来度量随有多大的变化；因此，它是相对于重要性的自然度量。然而，这种度量不仅取决于网络的权值，而且在大多数情况下也依赖于输入，因此我们的大多数结果都是期望值大于输入分布。
偏导数可以用反向传播法计算。在标准设置中，反向传播传播相对于某个损耗函数的误差梯度。假设我们有一个任意的损失函数l，根据链式规则，我们有
我们可以设置误差梯度和，然后将这个梯度从那里传播回网络。得到的，相当于期望的partial{y_{0,0}}}{partial {x^0_{i,j}}。这里我们使用无显式损失函数的反向传播过程，并且该过程可以用标准神经网络轻松实现工具。
在下面我们首先考虑线性网络，其中这个导数不依赖于输入，而纯粹是网络权重和（i，j），它清楚地显示了感受野中像素的影响是如何分布的。然后我们继续考虑更现代的架构设计，并讨论非线性激活、dropout、子采样、空洞卷积和跳跃连接对ERF的影响。
2.1最简单的情况：权值都等于1的卷积层
考虑使用k×k卷积核的步长为1的卷积层的情况，每层一个单通道，无非线性，叠加成一个深线性CNN。在这个分析中，我们忽略了所有层上的偏差。我们首先分析权值都等于1的卷积核。（推理过程公式好多，看原文吧……）

在本节中，我们将实证研究各种深层CNN架构的ERF。我们首先使用人工构造的CNN模型来验证我们分析中的理论结果。然后，我们提出了在实际数据集上训练深层cnn时ERF如何变化的观察结果。对于所有ERF研究，我们在输出平面的中心放置一个梯度信号1，在其他任何地方放置0，然后通过网络反向传播该梯度，得到输入的梯度。
3.1验证理论结果
我们首先在人工构建的CNN中验证我们的理论结果。为了计算ERF我们使用随机输入，对于所有随机权重网络，我们进行适当的随机初始化。在本节中，我们验证以下内容结果：

ERF是高斯分布的 。如图所示在图1中，我们可以观察到均匀加权卷积核和随机加权，没有非线性激活卷积核的完美高斯形状，以及随机加权非线性激活的卷积核的近似高斯形状。加上ReLU非线性使得分布的高斯性变小，因为ERF的分布也取决于输入。另一个原因是ReLU单元的一半输入输出正好为零，而且很容易为输出平面上的中心像素设置零输出，这意味着感受野的路径无法到达输出，因此梯度都为零。在这里，ERF在不同的传输种子下平均运行20次。下图显示了具有20层随机权值、具有不同非线性的网络的ERF。在这里，结果是不同的随机权重以及不同的随机输入平均运行的100次的结果。在这种情况下，感受野更像高斯分布。

绝对增长和相对收缩 。图2中，我们给出了ERF尺寸的改变和ERF相对于理论RF的比例随卷积层数的变化。ERF大小的最佳拟合线在对数域的斜率为0.56，而ERF比值的拟合线斜率为-0.43。这表明ERF大小对于呈线性增长，ERF比率对于呈线性缩小。注意这里我们使用2个标准偏差作为ERF大小的测量值，即任何大于中心点1−95.45%的像素都被视为ERF。ERF大小由ERF中像素数目的平方根表示，而理论RF大小是平方的边长，在该边长中，所有像素对输出像素的影响都是非零的，无论多么小。所有实验是在超过20次的结果上平均得到的。

3.2在训练过程中ERF是如何演变的
在这一部分中，我们将研究分类CNN和语义分割CNN最顶层的单元ERF在训练过程中是如何演变的。对于这两个任务，我们采用了 ResNet架构，它广泛地使用了skip-connection。分析表明，该网络的ERF应明显小于理论感受野。这是我们最初观察到的。有趣的是，随着网络的学习，ERF变得更大，并且在训练结束时，ERF明显大于初始ERF。
对于分类任务，我们在CIFAR-10数据集上训练了一个包含17个残差块的ResNet。在训练结束时，该网络的测试准确率达到89%。请注意，在这个实验中，我们没有使用池或降采样，而是专门关注具有跳过连接的体系结构。网络的精确度虽然不是最先进的，但仍然相当高。在图3中，我们显示了在训练开始时（随机初始化权重）和训练结束时，当达到最佳验证精度时，32×32图像空间上的有效感受野。请注意，我们网络的理论接收场实际上是74×74，大于图像大小，但是ERF仍然可以完全填充图像。比较训练前后的结果，我们发现有效感受野有所增加很明显。
对于语义分割任务利用CamVid数据集进行城市场景分割。我们训练了一个“前端”模型，它是一个纯粹的卷积网络，它预测输出的分辨率略低。该网络与VGG网络在许多以前的着作中所起的作用相同。我们训练了一个ResNet，16个残差块交错，每个子采样操作的因子为2。由于这些子采样操作，输出是输入大小的1/16。对于这个模型，顶层卷积层单元的理论感受野为505×505。然而，如图3所示，在训练开始时，ERF只得到直径为100的部分。我们再次观察到，在训练过程中，ERF的尺寸增大，最后达到直径约为150的直径。

上述分析表明ERF只占理论接收野的一小部分，这对于需要较大接收能力的任务是不可取的领域。
新的初始化。 一增加有效感受野的简单方法是控制初始权重。我们提出了一种新的随机权值初始化方案，使得卷积核中心的权值具有较小的尺度，而外部的权值较大，这使得中心的集中度向外围扩散。实际上，我们可以用任何初始化方法对网络进行初始化，然后根据中心低标度、外标度高的分布来调整权重。
在极端情况下，我们可以优化w（m）以使ERF大小最大化，或者等价地使等式（前面推公式部分里的公式）中的方差最大化。解决这个优化问题的结果是在卷积核的4个角上平均地设置权重，而其他地方都是0。但是，使用此解决方案进行随机权重初始化过于激进，并且将大量权重保留为0会使学习变慢。这种想法的温和版本通常是有效的更好。
我们用这种初始化方法训练了一个用于CIFAR-10分类任务的CNN，使用了几种随机种子。在一些情况下，与更标准的初始化相比，我们的训练速度提高了30%。但总的来说，这种方法的好处并不总是如此很重要。
我们请注意，无论我们如何改变w（m），有效感受野仍然是高斯分布的，因此上述建议只解决了问题部分。
改变构架。 一个潜在的更好的方法是对cnn进行架构上的更改，这可能会改变在更基本的方面。例如，我们不用将CNN中的每个单元连接到本地矩形卷积窗口，而是可以使用相同的连接数将每个单元稀疏地连接到下层的一个较大区域。空洞卷积属于这一类，但我们可以进一步推进，并使用不类似网格的稀疏连接。

与生物神经的联系网络。 在我们的分析表明，深部CNN中的有效接收场实际上比我们以前想象的要慢得多。这表明即使经过许多卷积层，仍然保留了许多局部信息。这一发现与深层生物网络中一些长期持有的相关概念相矛盾。哺乳动物视觉系统的一个普遍特征是分为“什么”和“哪里”路径。沿着what或where路径进行，连通性的性质逐渐改变：感受野大小增加，空间组织变得松散，直到没有明显的视网膜色素组织；视网膜脱离意味着单个神经元对视野中的面部等物体做出反应。然而，如果ERF比RF小，这表明表示可以保留位置信息，同时也提出了一个有趣的问题，即这些区域在发育过程中的大小变化。
我们的分析的第二个相关影响是，它表明卷积网络可能会自动地产生一种中心凹表现形式。人类视网膜中央凹只在中心像素附近提取高分辨率信息。等分辨率的子场的排列使得它们的大小随着距中心的距离而增大固定。在视网膜的外围，低分辨率的信息是从图像的较大区域提取的。一些神经网络已经明确地构造了这种形式的表示。然而，由于卷积网络形成高斯感受野，其底层表示自然会有这种感受野特性。
与之前研究的联系。 虽然CNN中的感受野尚未得到深入研究，一些人在计算方差如何通过网络演化方面进行了类似的分析。他们开发了一个很好的卷积层初始化方案，遵循的原则是方差在经过网络。
研究人员为了理解神经网络是如何工作的，我们还利用了可视化技术。[14] 展示了使用自然图像先验的重要性，以及卷积层的激活将代表什么。[22]使用反褶积网络来显示图像中像素点与被激活神经元之间的关系。[23]对感受野进行了实证研究，并将其作为定位的提示。也有可视化研究使用梯度上升技术[4]产生有趣的图像，如[15]。这些都集中在单位激活或特征图上，而不是我们在这里研究的有效感受野。

本文对CNN的感受野进行了细致的研究，并对有效感受野大小进行了初步探讨。特别地，我们已经证明了在感受野内的影响分布是渐近高斯的，有效感受野只占整个理论感受野的一小部分。实证结果与我们建立的理论相呼应。我们认为这只是有效感受野研究的一个开始，它为深入了解CNN提供了一个新的视角。在未来的研究中，我们希望更多地研究在实践中影响有效感受野的因素以及如何更好地控制这些因素。

‘叁’ 网络架构搜索

作为计算智能方法的代表，起源于上个世纪四十年代的人工神经网络经历了五六十年代的繁荣，七十年代的低潮，八十年代的再次复苏，到近十年的广泛关注，如今已经成为理论日趋完善，应用逐步发展的前沿方向。Hinton 等人2006 年在《Science》上发表的文章引发了深度神经网络研究的热潮。面对大数据的诸多挑战，以深度信念网络、卷积神经网络和递归神经网络为代表的深度神经网络模型在很多应用领域展示出明显的优势和潜力，特别是随着数据量和数据维数的增加，深度学习的优势愈加突出。例如，Google 借助深度学习开发的AlphaGo 能从海量的对弈中学习正确的决策，微软语音识别采用深度学习使识别错误率显着降低，网络基于深度学习开发的机器人“小度”在跨年龄人脸识别上超越了人类。

经过多年的研究和发展，基于人工神经网络的识别方法也逐渐取代传统的模式识别方法。神经网络已成为当前比较先进的技术，用来解决许多具有挑战性的识别任务如文字识别、语音识别、指纹识别、遥感图像识别、人脸识别、手写体字符的识别等。其中主流的神经网络模型有卷积网络和递归神经网络，卷积神经网络由 Yann LeCun 在 1998 年提出，自从 AlexNe 在 2012 年的 ImageNet 比赛中使用了这一架构拔得头筹，卷积神经网络迅速流行起来并广泛应用到视觉任务。如今，最先进的卷积神经网络算法在进行图像识别时，甚至可以超过人类肉眼识别的准确率。递归神经网络网络提出于 1990 年，被视为循环神经网络的推广，递归神经网络可以引入门控机制以学习长距离依赖，适用于包含结构关系的机器学习任务，在序列识别方面有重要应用。

深度神经网络和深度学习算法因为在科研工作与工程任务中都取得了显着的效果从而大受欢迎。它取代了传统的手动提取特征方法，够端到端地自动提取和学习特征。而其中取得显着成功的深度神经网络通常是由于它们成功的架构设计，研究的工作重心从提取特征转移到了寻找最优架构上。通常来说，模型的容量越大网络的性能就越好，能够拟合任意函数。因此为了提升网络性能，网络结构被设计的越来越复杂。例如，VGG-16 约有1.4亿浮点数参数，整个网络占用超过500兆存储空间，需要153亿次浮点操作来处理一个$224\times224$大小的图像。虽然更深的网络层次和复杂的拓扑结构能够更有效地学习特征，但是网络规模的增大意味着人工设计网络时需要花费更多时间来反复试验，即使是专家也需要大量的资源和时间来创建性能良好的模型。

神经网络架构搜索(NAS)是一种自动化学习网络结构的新方法，用于减少繁重的网络设计成本。目前为止，NAS方法设计的网络在识别任务上的表现已经超过了人工设计的架构。NAS可以视作自动机器学习（AutoML）的子领域，与超参数优化和元学习有明显的重叠。不同的NAS方法的区别主要在于三个维度：搜索空间、搜索策略和性能评估，我们对此分别进行了调研。

搜索空间：搜索空间定义了网络的所有可选结构和操作，通常指数级大，甚至无界。在设计搜索空间时结合先验知识，即参考现有的针对当前任务的先进结构设计知识，能够有效减小搜索空间并简化搜索。但这也会引入偏好，从而限制网络学习到超越当前人类知识的结构。

搜索策略：定义搜索空间后，搜索策略引导寻找高性能的模型架构，其中的难点是保证探索和利用的平衡。一方面，希望快速找到性能良好的架构，另一方面，需要避免过早收敛到次优的架构。

性能评估：NSA的目的是找到一个在未知数据上具有良好泛化性能的架构，一旦模型生成，就需要对其性能进行评估。直观的方法是在训练集上训练收敛，并在验证集上得到其性能，但是这种方法会耗费巨大的算力，从而限制了可探索的网络结构。一些先进的方法关注于减小性能评估时的计算代价，但会引入误差。因此，平衡评价的效率和效果是一个需要研究的问题。

     从计算的角度来看，神经网络代表了一个通过一系列操作将输入变量 x 转换为输出变量 y 的函数。基于计算图语言，神经网络可以表示为一个有向无环图(DAG)，其中每个节点表示一个张量 z ，通过边连接其父节点 I(k)，每条边表示从候选操作集O中选择的一个操作 o 。节点 k 的计算公式为：

        其中候选操作集合$O$主要包括卷积、池化、激活函数、跳跃连接、拼接、加法等基本操作。此外，为了进一步提高模型的性能，一些先进的人工设计模块也可以作为候选操作，如深度可分离卷积、膨胀卷积、组卷积。基于操作的类型可以选择不同的超参数，例如输入节点选取、卷积核数量、尺寸、步长等。不同的搜索空间设计，选择和组合操作的方法也不同所以参数化的形式也不一样。一般来说，一个好的搜索空间应该能够排除人类的偏见，并且足够灵活，能够覆盖更广泛的模型架构。

        全局搜索空间搜索一个完整的网络结构，具有很高的自由度。最简单的例子是链式搜索空间，见图1左。固定的数量的节点按顺序堆叠，只有前一个节点的输出提供给后一个节点作为输入，每个节点代表一个层，并具有指定的操作。右图引入更复杂的跳跃链接和多支路结构，此时当前节点可以结合前面所有节点的输出作为输入，使得搜索的自由度显着增大。许多网络都是多分支网络的特例，比如

1）链式网络：；

2）残差网络：；

3）DenseNets：

        虽然整体结构搜索很容易实现，但它也有一些缺点。首先，搜索空间的大小与网络深度是指数级关系，寻找泛化性能好的深度网络计算成本高。此外，生成的架构缺乏可迁移性和灵活性，在小型数据集上生成的模型可能不适合较大的数据集。有研究提出，初始架构的选择在搜索全局结构时十分重要。在适当的初始条件下，可以获得与单元搜索空间性能相当的架构，但是初始架构选择的指导原则仍然不明确。

        基于单元的搜索空间受启发于人工设计知识，许多有效的网络结构都会重复使用固定结构，例如在RNNs中重复LSTM块或堆叠残差模块。因此可以只搜索这样的重复单元(cells)，整个神经结构的搜索问题被简化为在单元搜索空间中搜索最优的单元结构，从而极大的减小搜索空间。大多数研究对比了基于全局搜索空间和单元搜索空间的实验结果，证明在基于单元的搜索空间中可以获得良好的性能。单元搜索空间的另一个优势是能方便地在数据集和任务之间进行泛化，因为通过增减卷积核和单元的数量，架构的复杂性几乎可以任意改变。

        NASNet是最早提出的单元搜索空间之一，也是当前最热门的选择，之后的大部分改进只是在此基础上对操作选择和单元组合策略进行了少量修改。如图2所示，它由两种单元组成，分别为保持输入特征维度的标准单元(normal cell)，和减小空间维度的简化单元(rection cell)。每个单元由b个块组成，每个块由它的两个输入和相应的操作定义。可选的输入包括前两个单元的输出和单元中先前定义的块的输出，所以它支持跨单元的跳跃连接。未使用的块被连接起来并作为单元格的输出，最终通过预定义好的规则级联这些单元。

        不同于上面将单元结构按照人工定义的宏结构进行连接，层次结构是将前一步骤生成的单元结构作为下一步单元结构的基本组成部件，通过迭代的思想得到最终的网络结构。Hier提出的层次搜索空间，通过合并低层单元生成高级单元实现单元级别和网络级别的同时优化。此方法具体分为3层。第一层包含一系列的基础操作；第二层通过有向无环图连接第一层的基础操作，构建不同的单元，图结构用邻接矩阵编码；第三层是网络级的编码，决定如何连接第二层的单元，组合成一个完整的网络。基于单元的搜索空间可以看作是这种层次搜索空间的一个特殊情况。

        强化学习方法（RL）能够有效建模一个顺序决策的过程，其中代理与环境相互作用，代理学会改善其行为从而使目标回报最大化。（图3）给出了一个基于强化的NAS算法的概述。代理通常是一个递归神经网络(RNN)，它在每一步t执行一个动作来从搜索空间采样一个新的样本，同时接收状态的观察值和环境中的奖励，以更新代理的采样策略。这种方法非常适合于神经结构搜索，代理的行为是生成神经结构，行为空间是搜索空间，环境是指对代理生成的网络进行训练和评估，奖励是训练后的网络结构对未知数据的预测性能，在最后一个行为之后获得。

4.2进化算法

        进化算法（EA）是一种成熟的全局优化方法，具有较高的鲁棒性和广泛的适用性。许多研究使用进化算法来优化神经网络结构。进化算法演化了一组模型，即一组网络；在每个世代中，至少从这组模型中选择一个模型，作为亲本在突变后作为生成子代。在对子代进行训练之后，评估它们的适应度并将它们添加到种群中。

        典型的进化算法包括选择、交叉、变异和更新等步骤。选择时一般使用联赛选择算法对父类进行采样，其中适应性最好的一个作为亲本。Lemonade对适应度使用核密度估计，使网络被选择的概率与密度成反比。交叉方式因编码方案的不同而不同。突变针对的是亲本的部分操作，例如添加或移除层，改变层的超参数，添加跳跃连接，以及改变训练超参数。对于产生的后代，大多数方法随机初始化子网络权重，而Lemonade把父网络学习到的权重通过使用网络态射传递给其子网络。Real等人让后代继承其父母的所有不受突变影响的参数，虽然这种继承不是严格意义上的功能保留，它可以加速学习。生成新的网络的同时需要从种群中移除一些个体。Real等人从群体中移除最差的个体，AmoebaNet移除最老的个体。也有一些方法定期丢弃所有个体，或者完全不移除个体。EENA通过一个变量调节最坏模型和最老模型的删除概率。

        基于代理模型的优化方法(SMBO)用一个代理模型来近似目标函数。即不需要训练采样到的网络结构，只需要训练一个代理模型，使用代理模型预测网络的性能。通常在实践中只需要得到架构的性能排序，而不一定要计算出具体的损失值，因此代理模型只需要预测相对得分并选出有前途的候选架构。然后只对预测性能好的架构进行评估，用它们的验证精度更新代理模型，这样只需要完全训练少量候选架构，大大减少搜索时间。代理模型通常训练为最小化平方误差：

        贝叶斯优化（BO）是用于超参数优化的最流行的方法之一。最经典的是基于高斯过程的BO，生成的神经结构的验证结果可以建模为高斯过程，然而，基于高斯的BO方法在观察次数上的推理时间尺度是立方的，并且不擅长处理变长神经网络。有些工作使用基于树或者随机森林的方法来在非常高维的空间中高效的搜索，并且在很多问题上取得了优异的效果。Negrinho利用其搜索空间的树形结构，并使用蒙特卡洛树搜索。虽然没有完整的比较，但初步的证据表明这些方法可以超越进化算法。

        上面的搜索策略搜是从一个离散的搜索空间提取神经结构样本。DARTS提出搜索空间的连续松弛，在连续可微的搜索空间上搜索神经架构如图4所示，并使用如下softmax函数来松弛离散空间:

松弛后，架构搜索的任务转化为网络架构与神经权值的联合优化。这两类参数分别在训练集和验证集上交替优化，表示为一个双层优化问题。

        为了对搜索过程进行引导，必须对产生的神经网络性能进行评估。一种直观的方法是训练网络至收敛，然后评估其性能。但是，这种方法需要大量的时间和计算资源。因此提出了几种加速模型评估的方法。

        为了减少计算负担，可以用实际性能的低质近似来估测性能。实现方法包括: 缩短训练时间、选择数据集的子集、在低分辨率的图像上训练、每层使用更少的通道数、堆叠更少的单元结构。在低质条件下搜索到的最优网络或单元，构建出最终结构在数据集上重新训练，得到目标网络。虽然这些低精度的近似能够减少训练花费，但性能被低估的同时不可避免地引入了误差。最近的研究表明，当这种低质评价与完全评价之间的差异较大时，网络性能的相对排名可能变化很大，并强调这种误差会逐渐增加。

        早停技术最初用于防止过拟合。一些研究通过在训练初期预测网络性能，在验证集上预计表现不佳的模型被强制停止训练，以此来加速模型评估。一种在早期估计网络性能的方法是学习曲线外推法。Domhan 等提出训练初期对学习曲线进行插值，并终止那些预测性能不好的网络结构的训练。Swersky等在评估学习曲线的好坏时，把网络架构的超参数作为参考因素。另一种方法根据梯度的局部统计信息实现早期停止，它不再依赖验证集，允许优化器充分利用所有的训练数据。

代理模型可以被训练用预测网络性能。PNAS提出训练一个代理网络（LSTM）来预测网络结构的性能，他不考虑学习曲线而是基于结构的特点来预测性能，并在训练时推断更大的网络结构。SemiNAS是一种半监督NAS方法，利用大量的未标记架构进一步提高搜索效率。不需要在对模型进行训练，只使用代理模型来预测模型精度。预测网络性能的主要难点是：为加快搜索过程，需要在对较大的搜索空间进行较少的评估的基础上进行良好的预测。当优化空间过大且难以量化，且对每个结构的评估成本极高时，基于代理的方法就不适用。

        代理模型还可以用来预测网络权重。超网络（Hypernetworks）是一种神经网络，被训练来为各种架构生成网络权值。超网络在搜索过程中节省了候选体系结构的训练时间，因为它们的权值是通过超网络的预测得到的。Zhang等人提出了一种计算图表示，并使用图超网络(GHN)比常规超网络(SMASH)更快更准确地预测所有可能架构的权值。

权重继承是让新网络结构继承之前训练完成的其他网络结构的权值。其中一种方法是网络态射，一般的网络设计方法是首先设计出一个网络结构，然后训练它并在验证集上查看它的性能表现，如果表现较差，则重新设计一个网络。可以很明显地发现这种设计方法会做很多无用功，因此耗费大量时间。而基于网络态射结构方法能够在原有的网络结构基础上做修改，修改后的网络可以重用之前训练好的权重。其特殊的变换方式能够保证新的网络结构还原成原网络，因此子网络的表现至少不会差于原网络，并且能在较短的训练时间内继续成长为一个更健壮的网络。具体地，网络射态能够处理任意非线性激活函数，可以添加跳跃连接，并且支持添加层或通道得到更深或更宽的等效模型。经典的网络态射只能使网络变大，这可能导致网络过于复杂，之后提出的近似网络态射通过知识蒸馏允许网络结构减小。进化算法经常使用基于网络态射的变异，或者直接让孩子继承亲本的权重，再执行一般变异操作，这样产生的网络具有一个更好的初始值，而不用重头开始训练。

‘肆’ 人工智能：什么是人工神经网络

许多人工智能计算机系统的核心技术是人工神经网络(ANN)，而这种网络的灵感来源于人类大脑中的生物结构。

通过使用连接的“神经元”结构，这些网络可以通过“学习”并在没有人类参与的情况下处理和评估某些数据。

这样的实际实例之一是使用人工神经网络(ANN)识别图像中的对象。在构建一个识别“猫“图像的一个系统中，将在包含标记为“猫”的图像的数据集上训练人工神经网络，该数据集可用作任何进行分析的参考点。正如人们可能学会根据尾巴或皮毛等独特特征来识别狗一样，人工神经网络(ANN)也可以通过将每个图像分解成不同的组成部分(如颜色和形状)进行识别。

实际上，神经网络提供了位于托管数据之上的排序和分类级别，可基于相似度来辅助数据的聚类和分组。可以使用人工神经网络(ANN)生成复杂的垃圾邮件过滤器，查找欺诈行为的算法以及可以精确了解情绪的客户关系工具。

人工神经网络如何工作

人工神经网络的灵感来自人脑的神经组织，使用类似于神经元的计算节点构造而成，这些节点沿着通道(如神经突触的工作方式)进行信息交互。这意味着一个计算节点的输出将影响另一个计算节点的处理。

神经网络标志着人工智能发展的巨大飞跃，在此之前，人工智能一直依赖于使用预定义的过程和定期的人工干预来产生所需的结果。人工神经网络可以使分析负载分布在多个互连层的网络中，每个互连层包含互连节点。在处理信息并对其进行场景处理之后，信息将传递到下一个节点，然后向下传递到各个层。这个想法是允许将其他场景信息接入网络，以通知每个阶段的处理。

单个“隐藏”层神经网络的基本结构

就像渔网的结构一样，神经网络的一个单层使用链将处理节点连接在一起。大量的连接使这些节点之间的通信得到增强，从而提高了准确性和数据处理吞吐量。

然后，人工神经网络将许多这样的层相互叠放以分析数据，从而创建从第一层到最后一层的输入和输出数据流。尽管其层数将根据人工神经网络的性质及其任务而变化，但其想法是将数据从一层传递到另一层，并随其添加附加的场景信息。

人脑是用3D矩阵连接起来的，而不是大量堆叠的图层。就像人类大脑一样，节点在接收到特定刺激时会在人工神经网络上“发射”信号，并将信号传递到另一个节点。但是，对于人工神经网络，输入信号定义为实数，输出为各种输入的总和。

这些输入的值取决于它们的权重，该权重用于增加或减少与正在执行的任务相对应的输入数据的重要性。其目标是采用任意数量的二进制数值输入并将其转换为单个二进制数值输出。

更复杂的神经网络提高了数据分析的复杂性

早期的神经网络模型使用浅层结构，其中只使用一个输入和输出层。而现代的系统由一个输入层和一个输出层组成，其中输入层首先将数据输入网络，多个“隐藏”层增加了数据分析的复杂性。

这就是“深度学习”一词的由来——“深度”部分专门指任何使用多个“隐藏”层的神经网络。

聚会的例子

为了说明人工神经网络在实际中是如何工作的，我们将其简化为一个实际示例。

想象一下你被邀请参加一个聚会，而你正在决定是否参加，这可能需要权衡利弊，并将各种因素纳入决策过程。在此示例中，只选择三个因素——“我的朋友会去吗?”、“聚会地点远吗?”、“天气会好吗?”

通过将这些考虑因素转换为二进制数值，可以使用人工神经网络对该过程进行建模。例如，我们可以为“天气”指定一个二进制数值，即‘1'代表晴天，‘0'代表恶劣天气。每个决定因素将重复相同的格式。

然而，仅仅赋值是不够的，因为这不能帮助你做出决定。为此需要定义一个阈值，即积极因素的数量超过消极因素的数量。根据二进制数值，合适的阈值可以是“2”。换句话说，在决定参加聚会之前，需要两个因素的阈值都是“1”，你才会决定去参加聚会。如果你的朋友要参加聚会(‘1')，并且天气很好(‘1')，那么这就表示你可以参加聚会。

如果天气不好(‘0')，并且聚会地点很远(‘0')，则达不到这一阈值，即使你的朋友参加(‘1')，你也不会参加聚会。

神经加权

诚然，这是神经网络基本原理的一个非常基本的例子，但希望它有助于突出二进制值和阈值的概念。然而，决策过程要比这个例子复杂得多，而且通常情况下，一个因素比另一个因素对决策过程的影响更大。

要创建这种变化，可以使用“神经加权”——-通过乘以因素的权重来确定因素的二进制值对其他因素的重要性。

尽管示例中的每个注意事项都可能使你难以决策，但你可能会更重视其中一个或两个因素。如果你不愿意在大雨中出行去聚会，那恶劣的天气将会超过其他两个考虑因素。在这一示例中，可以通过赋予更高的权重来更加重视天气因素的二进制值：

天气= w5

朋友= w2

距离= w2

如果假设阈值现在已设置为6，则恶劣的天气(值为0)将阻止其余输入达到所需的阈值，因此该节点将不会“触发”(这意味着你将决定不参加聚会)。

虽然这是一个简单的示例，但它提供了基于提供的权重做出决策的概述。如果要将其推断为图像识别系统，则是否参加聚会(输入)的各种考虑因素将是给定图像的折衷特征，即颜色、大小或形状。例如，对识别狗进行训练的系统可以对形状或颜色赋予更大的权重。

当神经网络处于训练状态时，权重和阈值将设置为随机值。然后，当训练数据通过网络传递时将不断进行调整，直到获得一致的输出为止。

神经网络的好处

神经网络可以有机地学习。也就是说，神经网络的输出结果并不受输入数据的完全限制。人工神经网络可以概括输入数据，使其在模式识别系统中具有价值。

他们还可以找到实现计算密集型答案的捷径。人工神经网络可以推断数据点之间的关系，而不是期望数据源中的记录是明确关联的。

它们也可以是容错的。当神经网络扩展到多个系统时，它们可以绕过无法通信的缺失节点。除了围绕网络中不再起作用的部分进行路由之外，人工神经网络还可以通过推理重新生成数据，并帮助确定不起作用的节点。这对于网络的自诊断和调试非常有用。

但是，深度神经网络提供的最大优势是能够处理和聚类非结构化数据，例如图片、音频文件、视频、文本、数字等数据。在分析层次结构中，每一层节点都在前一层的输出上进行训练，深层神经网络能够处理大量的这种非结构化数据，以便在人类处理分析之前找到相似之处。

神经网络的例子

神经网络应用还有许多示例，可以利用它从复杂或不精确数据中获得见解的能力。

图像识别人工神经网络可以解决诸如分析特定物体的照片等问题。这种算法可以用来区分狗和猫。更重要的是，神经网络已经被用于只使用细胞形状信息来诊断癌症。

近30年来，金融神经网络被用于汇率预测、股票表现和选择预测。神经网络也被用来确定贷款信用评分，学习正确识别良好的或糟糕的信用风险。而电信神经网络已被电信公司用于通过实时评估网络流量来优化路由和服务质量。

‘伍’ 人工智能时代，神经网络的原理及使用方法 | 微课堂

人工智能时代已经悄然来临，在计算机技术高速发展的未来，机器是否能代替人脑？也许有些读者会说，永远不可能，因为人脑的思考包含感性逻辑。事实上，神经网络算法正是在模仿人脑的思考方式。想不想知道神经网络是如何“思考”的呢？下面我向大家简单介绍一下神经网络的原理及使用方法。

所谓人工智能，就是让机器具备人的思维和意识。人工智能主要有三个学派——行为主义、符号主义和连接主义。

行为主义是基于控制论，是在构建感知动作的控制系统。理解行为主义有个很好的例子，就是让机器人单脚站立，通过感知要摔倒的方向控制两只手的动作，保持身体的平衡，这就构建了一个感知动作控制系统。

符号主义是基于算数逻辑和表达式。求解问题时，先把问题描述为表达式，再求解表达式。如果你在求解某个问题时，可以用if case这样的条件语句，和若干计算公式描述出来，这就使用了符号主义的方法，比如“专家系统”。符号主义可以认为是用公式描述的人工智能，它让计算机具备了理性思维。但是人类不仅具备理性思维，还具备无法用公式描述的感性思维。比如，如果你看过这篇推送，下回再见到“符号主义”几个字，你会觉得眼熟，会想到这是人工智能相关的知识，这是人的直觉，是感性的。

连接主义就是在模拟人的这种感性思维，是在仿造人脑内的神经元连接关系。这张图给出了人脑中的一根神经元，左侧是神经元的输入，“轴突”部分是神经元的输出。人脑就是由860亿个这样的神经元首尾相接组成的网络。

神经网络可以让计算机具备感性思维。我们首先理解一下基于连接主义的神经网络设计过程。这张图给出了人类从出生到24个月神经网络的变化：

随着我们的成长，大量的数据通过视觉、听觉涌入大脑，使我们的神经网络连接，也就是这些神经元连线上的权重发生了变化，有些线上的权重增强了，有些线上的权重减弱了。

我们要用计算机仿出这些神经网络连接关系，让计算机具备感性思维。

首先需要准备数据，数据量越大越好，以构成特征和标签对。如果想识别猫，就要有大量猫的图片和这张图片是猫的标签构成特征标签对，然后搭建神经网络的网络结构，再通过反向传播优化连接的权重，直到模型的识别准确率达到要求，得到最优的连线权重，把这个模型保存起来。最后用保存的模型输入从未见过的新数据，它会通过前向传播输出概率值，概率值最大的一个就是分类和预测的结果。

我们举个例子来感受一下神经网络的设计过程。鸢尾花可以分为三类：狗尾鸢尾、杂色鸢尾和佛吉尼亚鸢尾。我们拿出一张图，需要让计算机判断这是哪类鸢尾花。人们通过经验总结出了规律：通过测量花的花萼长、花萼宽、花瓣长、花瓣宽分辨出鸢尾花的类别，比如花萼长>花萼宽，并且花瓣长/花瓣宽>2，则可以判定为这是第一种，杂色鸢尾。看到这里，也许有些读者已经想到用if、case这样的条件语句来实现鸢尾花的分类。没错，条件语句根据这些信息可以判断鸢尾花分类，这是一个非常典型的专家系统，这个过程是理性计算。只要有了这些数据，就可以通过条件判定公式计算出是哪类鸢尾花。但是我们发现鸢尾花的种植者在识别鸢尾花的时候并不需要这么理性的计算，因为他们见识了太多的鸢尾花，一看就知道是哪种，而且随着经验的增加，识别的准确率会提高。这就是直觉，是感性思维，也是我们这篇文章想要和大家分享的神经网络方法。

这种神经网络设计过程首先需要采集大量的花萼长、花萼宽、花瓣长、花瓣宽，和它们所对应的是哪种鸢尾花。花萼长、花萼宽、花瓣长、花瓣宽叫做输入特征，它们对应的分类叫做标签。大量的输入特征和标签对构建出数据集，再把这个数据集喂入搭建好的神经网络结构，网络通过反向传播优化参数，得到模型。当有新的、从未见过的输入特征，送入神经网络时，神经网络会输出识别的结果。

展望21世纪初，在近十年神经网络理论研究趋向的背景下，神经网络理论的主要前沿领域包括：

一、对智能和机器关系问题的认识进一步增长。

研究人类智力一直是科学发展中最有意义，也是空前困难的挑战性问题。人脑是我们所知道的唯一智能系统，具有感知识别、学习、联想、记忆、推理等智能。我们通过不断探索人类智能的本质以及联结机制，并用人工系统复现或部分复现，制造各种智能机器，这样可使人类有更多的时间和机会从事更为复杂、更富创造性的工作。

神经网络是由大量处理单元组成的非线性、自适应、自组织系统，是在现代神经科学研究成果的基础上提出的，试图模拟神经网络加工、记忆信息的方式，设计一种新的机器，使之具有人脑风格的信息处理能力。智能理论所面对的课题来自“环境——问题——目的”，有极大的诱惑力与压力，它的发展方向将是把基于连接主义的神经网络理论、基于符号主义的人工智能专家系统理论和基于进化论的人工生命这三大研究领域，在共同追求的总目标下，自发而有机地结合起来。

二、神经计算和进化计算的重大发展。

计算和算法是人类自古以来十分重视的研究领域，本世纪30年代，符号逻辑方面的研究非常活跃。近年来，神经计算和进化计算领域很活跃，有新的发展动向，在从系统层次向细胞层次转化里，正在建立数学理论基础。随着人们不断探索新的计算和算法，将推动计算理论向计算智能化方向发展，在21世纪人类将全面进入信息社会，对信息的获取、处理和传输问题，对网络路由优化问题，对数据安全和保密问题等等将有新的要求，这些将成为社会运行的首要任务。因此，神经计算和进化计算与高速信息网络理论联系将更加密切，并在计算机网络领域中发挥巨大的作用，例如大范围计算机网络的自组织功能实现就要进行进化计算。

人类的思维方式正在转变，从线性思维转到非线性思维神经元，神经网络都有非线性、非局域性、非定常性、非凸性和混沌等特性。我们在计算智能的层次上研究非线性动力系统、混沌神经网络以及对神经网络的数理研究，进一步研究自适应性子波、非线性神经场的兴奋模式、神经集团的宏观力学等。因为，非线性问题的研究是神经网络理论发展的一个最大动力，也是它面临的最大挑战。

以上就是有关神经网络的相关内容，希望能为读者带来帮助。

以上内容由苏州空天信息研究院谢雨宏提供。

‘陆’ 神经网络的功能！

完成某种信号处理或模式识别的功能、构作专家系统、制成机器人、复杂系统控制等等。
在机器学习和相关领域，人工神经网络（人工神经网络）的计算模型灵感来自动物的中枢神经系统（尤其是脑），并且被用于估计或可以依赖于大量的输入和一般的未知近似函数。人工神经网络通常呈现为相互连接的“神经元”，它可以从输入的计算值，并且能够机器学习以及模式识别由于它们的自适应性质的系统。
人工神经网络的最大优势是他们能够被用作一个任意函数逼近的机制，那是从观测到的数据“学习”。然而，使用起来也不是那么简单的，一个比较好理解的基本理论是必不可少的。

‘柒’ BP神经网络原理

人工神经网络有很多模型，但是日前应用最广、基本思想最直观、最容易被理解的是多层前馈神经网络及误差逆传播学习算法（Error Back-Prooaeation），简称为BP网络。

在1986年以Rumelhart和McCelland为首的科学家出版的《Parallel Distributed Processing》一书中，完整地提出了误差逆传播学习算法，并被广泛接受。多层感知网络是一种具有三层或三层以上的阶层型神经网络。典型的多层感知网络是三层、前馈的阶层网络（图4.1），即：输入层、隐含层（也称中间层）、输出层，具体如下：

图4.1 三层BP网络结构

（1）输入层

输入层是网络与外部交互的接口。一般输入层只是输入矢量的存储层，它并不对输入矢量作任何加工和处理。输入层的神经元数目可以根据需要求解的问题和数据表示的方式来确定。一般而言，如果输入矢量为图像，则输入层的神经元数目可以为图像的像素数，也可以是经过处理后的图像特征数。

（2）隐含层

1989年，Robert Hecht Nielsno证明了对于任何在闭区间内的一个连续函数都可以用一个隐层的BP网络来逼近，因而一个三层的BP网络可以完成任意的n维到m维的映射。增加隐含层数虽然可以更进一步的降低误差、提高精度，但是也使网络复杂化，从而增加了网络权值的训练时间。误差精度的提高也可以通过增加隐含层中的神经元数目来实现，其训练效果也比增加隐含层数更容易观察和调整，所以一般情况应优先考虑增加隐含层的神经元个数，再根据具体情况选择合适的隐含层数。

（3）输出层

输出层输出网络训练的结果矢量，输出矢量的维数应根据具体的应用要求来设计，在设计时，应尽可能减少系统的规模，使系统的复杂性减少。如果网络用作识别器，则识别的类别神经元接近1，而其它神经元输出接近0。

以上三层网络的相邻层之间的各神经元实现全连接，即下一层的每一个神经元与上一层的每个神经元都实现全连接，而且每层各神经元之间无连接，连接强度构成网络的权值矩阵W。

BP网络是以一种有教师示教的方式进行学习的。首先由教师对每一种输入模式设定一个期望输出值。然后对网络输入实际的学习记忆模式，并由输入层经中间层向输出层传播（称为“模式顺传播”）。实际输出与期望输出的差即是误差。按照误差平方最小这一规则，由输出层往中间层逐层修正连接权值，此过程称为“误差逆传播”（陈正昌，2005）。所以误差逆传播神经网络也简称BP（Back Propagation）网。随着“模式顺传播”和“误差逆传播”过程的交替反复进行。网络的实际输出逐渐向各自所对应的期望输出逼近，网络对输入模式的响应的正确率也不断上升。通过此学习过程，确定下各层间的连接权值后。典型三层BP神经网络学习及程序运行过程如下（标志渊，2006）：

（1）首先，对各符号的形式及意义进行说明：

网络输入向量P_k=（a₁，a₂，...，a_n）；

网络目标向量T_k=（y₁，y₂，...，y_n）；

中间层单元输入向量S_k=（s₁，s₂，...，s_p），输出向量B_k=（b₁，b₂，...，b_p）；

输出层单元输入向量L_k=（l₁，l₂，...，l_q），输出向量C_k=（c₁，c₂，...，c_q）；

输入层至中间层的连接权w_ij，i=1，2，...，n，j=1，2，...p；

中间层至输出层的连接权v_jt，j=1，2，...，p，t=1，2，...，p；

中间层各单元的输出阈值θ_j，j=1，2，...，p；

输出层各单元的输出阈值γ_j，j=1，2，...，p；

参数k=1，2，...，m。

（2）初始化。给每个连接权值w_ij、v_jt、阈值θ_j与γ_j赋予区间（-1，1）内的随机值。

（3）随机选取一组输入和目标样本

提供给网络。

（4）用输入样本

、连接权w_ij和阈值θ_j计算中间层各单元的输入s_j，然后用s_j通过传递函数计算中间层各单元的输出b_j。

基坑降水工程的环境效应与评价方法

b_j=f（s_j） j=1，2，...，p （4.5）

（5）利用中间层的输出b_j、连接权v_jt和阈值γ_t计算输出层各单元的输出L_t，然后通过传递函数计算输出层各单元的响应C_t。

基坑降水工程的环境效应与评价方法

C_t=f（L_t） t=1，2，...，q （4.7）

（6）利用网络目标向量

，网络的实际输出C_t，计算输出层的各单元一般化误差

。

基坑降水工程的环境效应与评价方法

（7）利用连接权v_jt、输出层的一般化误差d_t和中间层的输出b_j计算中间层各单元的一般化误差

。

基坑降水工程的环境效应与评价方法

（8）利用输出层各单元的一般化误差

与中间层各单元的输出b_j来修正连接权v_jt和阈值γ_t。

基坑降水工程的环境效应与评价方法

（9）利用中间层各单元的一般化误差

，输入层各单元的输入P_k=（a₁，a₂，...，a_n）来修正连接权w_ij和阈值θ_j。

基坑降水工程的环境效应与评价方法

（10）随机选取下一个学习样本向量提供给网络，返回到步骤（3），直到m个训练样本训练完毕。

（11）重新从m个学习样本中随机选取一组输入和目标样本，返回步骤（3），直到网路全局误差E小于预先设定的一个极小值，即网络收敛。如果学习次数大于预先设定的值，网络就无法收敛。

（12）学习结束。

可以看出，在以上学习步骤中，（8）、（9）步为网络误差的“逆传播过程”，（10）、（11）步则用于完成训练和收敛过程。

通常，经过训练的网络还应该进行性能测试。测试的方法就是选择测试样本向量，将其提供给网络，检验网络对其分类的正确性。测试样本向量中应该包含今后网络应用过程中可能遇到的主要典型模式（宋大奇，2006）。这些样本可以直接测取得到，也可以通过仿真得到，在样本数据较少或者较难得到时，也可以通过对学习样本加上适当的噪声或按照一定规则插值得到。为了更好地验证网络的泛化能力，一个良好的测试样本集中不应该包含和学习样本完全相同的模式（董军，2007）。

‘捌’ 深度前馈网络

看过西瓜书和李航的《统计学习方法》，对机器学习的基本算法算是有了初步的理解。机器学习的算法和思想固然重要，在实际中也有很多应用场景，但在超大数据集的表现上，深度学习才是当下效果最好的工具。可惜的是，花书这样一本经典着作的中文版翻译和机翻差不多水平，因此看的时候只能放慢速度。闲言少叙，下面是第六章的学习记录。

深度前馈网络（deep feedforward network） ，也叫作前馈神经网络（feedforward neural network）或者多层感知机（multilayer perceptron, MLP），是典型的深度学习模型。前馈网络的目标是近似某个函数。例如，对于分类器，将输入映射到一个类别。前馈网络定义了一个映射，并且学习参数的值使它能够得到最佳的函数近似。

下面我们把“深度前馈网络”这个词拆开来看：

那么深度前馈网络的各层之间有什么区别呢？从功能来讲，训练样本直接指明了 输出层 在每一点x上必须做什么，它必须产生一个接近 y 的值。但训练数据并没有给出其它层中的所需的输出，所以这些层被称为 隐藏层（hidden layer） 。

一种理解前馈网络的方式是从线性模型开始，并考虑如何克服它的局限性。如果各层的函数都是线性函数，那么复合后的函数依然是线性的，此时我们的网络模型等价于线性模型。为了提高模型的表示能力，我们需要将各层的设置为非线性的，从而得到一个非线性映射。我们可以认为提供了一组描述的特征，或者认为它提供了的一个新的表示。

设计和训练神经网络与使用梯度下降训练其他任何机器学习模型并没有太大不同。神经网络和线性模型等算法的最大区别，在于神经网络的非线性导致大多数我们感兴趣的代价函数都变得非凸。这意味着神经网络的训练通常使用迭代的、基于梯度的优化， 仅仅使得代价函数达到一个非常小的值 ；而不是像用于训练线性回归模型的线性方程求解器或者用于训练逻辑回归或 SVM 的凸优化算法那样保证全局收敛。

用于非凸损失函数的随机梯度下降没有这种收敛性保证，并且 对参数的初始值很敏感。对于前馈神经网络，将所有的权重值初始化为小随机数是很重要的。偏置可以初始化为零或者小的正值。

大多数现代的神经网络使用最大似然来训练。这意味着代价函数就是负的对数似然，它与训练数据和模型分布间的 交叉熵 等价。这个代价函数表示为

使用最大似然来导出代价函数的方法的一个优势是，它减轻了为每个模型设计代价函数的负担。明确一个模型则自动地确定了一个代价函数。

用于实现最大似然估计的交叉熵代价函数有一个不同寻常的特性，那就是当它被应用于实践中经常遇到的模型时，它 通常没有最小值。 如果模型可以控制输出分布的密度（例如，通过学习高斯输出分布的方差参数），那么它可能对正确的训练集输出赋予极其高的密度，这将导致交叉熵趋向负无穷。 正则化技术提供了一些不同的方法来修正学习问题，使得模型不会通过这种方式来获得无限制的收益。

一种简单的输出单元是基于仿射变换的输出单元，仿射变换不具有非线性。这些单元往往被直接称为 线性单元 。给定特征，线性输出层产生一个向量，线性输出层经常被用来 产生条件高斯分布的均值 ：

最大化其对数似然此时等价于最小化均方误差。

许多任务需要预测二值型变量的值。具有两个类的分类问题可以归结为这种形式。此时最大似然的方法是定义在条件下的 Bernoulli 分布。为保证模型给出了错误答案时，总能有一个较大的梯度。可以使用 sigmoid输出单元 结合最大似然来实现。sigmoid 输出单元定义为：

这种在对数空间里预测概率的方法可以很自然地使用最大似然学习。因为用于最大似然的代价函数是，代价函数中的抵消了中的。如果没有这个效果，sigmoid 的饱和性会阻止基于梯度的学习做出好的改进。因此， 最大似然几乎总是训练输出单元的优选方法。

当我们想要表示一个具有 n 个可能取值的离散型随机变量的分布时，我们可以使用函数。它可以看作是函数的扩展。

函数最常用作分类器的输出，来表示个不同类上的概率分布。比较少见的是，函数可以在模型内部使用，例如如果我们想要在某个内部变量的个不同选项中进行选择。函数的形式为：

和一样，当使用最大化对数似然训练来输出目标值时，使用指数函数工作地非常好。

隐藏单元的设计是一个非常活跃的研究领域，并且还没有许多明确的指导性理论原则。

整流线性单元（Rectified Linear Unit, ReLU）是隐藏单元极好的默认选择。许多其他类型的隐藏单元也是可用的。决定何时使用哪种类型的隐藏单元是困难的事（尽管整流线性单元通常是一个可接受的选择）。我们这里描述对于每种隐藏单元的一些基本直觉。这些直觉可以用来建议我们何时来尝试一些单元。通常不可能预先预测出哪种隐藏单元工作得最好。设计过程充满了试验和错误，先直觉认为某种隐藏单元可能表现良好，然后用它组成神经网络进行训练，最后用验证集来评估它的性能。

大多数的隐藏单元都接受输入向量 x，计算仿射变换，然后使用一个逐元素的非线性函数。大多数隐藏单元的区别仅仅在于激活函数的形式。

整流线性单元使用激活函数：

整流线性单元通常作用于仿射变换之上：

当初始化仿射变换的参数时，可以将 b 的所有元素设置成一个小的正值，例如 0.1。这使得整流线性单元很可能初始时就对训练集中的大多数输入呈现激活状态，并且允许导数通过。

整流线性单元的一个缺陷是它们不能通过基于梯度的方法学习那些使它们激活为零的样本。整流线性单元的各种扩展保证了它们能在各个位置都接收到梯度。

整流线性单元的三个扩展基于当时使用一个非零的斜率：

绝对值整流（absolute value rectification） 固定来得到：，它用于图像中的对象识别（Jarrett et al., 2009a）； 渗漏整流线性单元（Leaky ReLU） (Maas et al., 2013) 将固定成一个类似 0.01 的小值； 参数化整流线性单元（parametric ReLU） 将作为学习的参数 (He et al., 2015)。

maxout 单元（maxout unit） (Goodfellow et al., 2013a) 进一步扩展了整流线性单元。maxout单元将划分为每组有个值的组，而不是使用作用于每个元素的函数。每个maxout单元则输出每组中的最大元素：

这里是组的输入索引集。因为激活函数中有了max操作，所以整个maxout网络也是一种非线性的变换。

maxout的拟合能力是非常强的，它可以拟合任意的的凸函数。最直观的解释就是任意的凸函数都可以由分段线性函数以任意精度拟合，而maxout又是取k个隐隐含层节点的最大值，这些”隐隐含层"节点也是线性的，所以在不同的取值范围下，最大值也可以看做是分段线性的（分段的个数与k值有关）。

整流线性单元和它们的这些扩展都是基于一个原则，那就是如果它们的行为更接近线性，那么模型更容易优化。

在引入整流线性单元之前，大多数神经网络使用 logistic sigmoid 激活函数：

或者是双曲正切激活函数：

这些激活函数紧密相关，因为：

我们已经看过 sigmoid 单元作为输出单元用来预测二值型变量取值为 1 的概率。与分段线性单元不同，sigmoid 单元在其大部分定义域内都饱和——当 z 取绝对值很大的正值时，它们饱和到一个高值，当 z 取绝对值很大的负值时，它们饱和到一个低值，并且仅仅当 z 接近 0 时它们才对输入强烈敏感。sigmoid 单元的广泛饱和性会使得基于梯度的学习变得非常困难。因为这个原因，现在不鼓励将它们用作前馈网络中的隐藏单元。当使用一个合适的代价函数来抵消 sigmoid 的饱和性时，它们作为输出单元可以与基于梯度的学习相兼容。

当必须要使用 sigmoid 激活函数时，双曲正切激活函数通常要比 logistic sigmoid 函数表现更好。在而的意义上，它更像是单位函数。因为 tanh 在 0 附近与单位函数类似。

架构（architecture） 一词是指网络的整体结构： 它应该具有多少单元，以及这些单元应该如何连接。

在链式架构中，主要的架构考虑是选择网络的深度和每一层的宽度。我将会看到，即使只有一个隐藏层的网络也足够适应训练集。 更深层的网络通常能够对每一层使用更少的单元数和更少的参数，并且经常容易泛化到测试集，但是通常也更难以优化。 对于一个具体的任务，理想的网络架构必须通过实验，观测在验证集上的误差来找到。

万能近似定理（universal approximation theorem）

一个前馈神经网络如果具有线性输出层和至少一层具有任何一种 ‘‘挤压’’ 性质的激活函数（例如logistic sigmoid激活函数）的隐藏层，只要给予网络足够数量的隐藏单元，它可以 以任意的精度来近似任何从一个有限维空间到另一个有限维空间的 Borel 可测函数 。前馈网络的导数也可以任意好地来近似函数的导数 (Hornik et al., 1990)。

万能近似定理意味着无论我们试图学习什么函数，我们知道一个大的MLP一定能够表示这个函数。

然而，我们不能保证训练算法能够学得这个函数。即使 MLP能够表示该函数，学习也可能因两个不同的原因而失败。 首先，用于训练的优化算法可能找不到用于期望函数的参数值。其次，训练算法可能由于过拟合而选择了错误的函数。

总之，具有单层的前馈网络足以表示任何函数，但是网络层可能大得不可实现，并且可能无法正确地学习和泛化。在很多情况下，使用更深的模型能够减少表示期望函数所需的单元的数量，并且可以减少泛化误差。

存在一些函数族能够在网络的深度大于某个值d时被高效地近似，而当深度被限制到小于或等于d时需要一个远远大于之前的模型。在很多情况下，浅层模型所需的隐藏单元的数量是n的指数级。

Montufar et al. (2014) 的主要定理指出， 具有个输入深度为每个隐藏层具有个单元的深度整流网络可以描述的线性区域的数量是 ：

根据经验，更深的模型似乎确实在广泛的任务中泛化得更好。

目前为止，我们都将神经网络描述成层的简单链式结构，主要的考虑因素是网络的深度和每层的宽度。在实践中，神经网络显示出相当的多样性。

一般的，层不需要连接在链中，尽管这是最常见的做法。许多架构构建了一个主链，但随后又添加了额外的架构特性，例如从层 i 到层 i + 2 或者更高层的 跳跃连接 。这些跳跃连接使得梯度更容易从输出层流向更接近输入的层。

架构设计考虑的另外一个关键点是如何将层与层之间连接起来。默认的神经网络层采用矩阵 W 描述的线性变换，每个输入单元连接到每个输出单元。许多专用网络具有较少的连接，使得输入层中的每个单元仅连接到输出层单元的一个小子集。这些用于 减少连接数量 的策略减少了参数的数量以及用于评估网络的计算量，但通常高度依赖于问题。

当我们使用前馈神经网络接收输入并产生输出时，信息通过网络向前流动。输入提供初始信息，然后传播到每一层的隐藏单元，最终产生输出。这称之为 前向传播（forward propagation） 。在训练过程中，前向传播可以持续向前直到它产生一个标量代价函数。 反向传播（back propagation） 算法 (Rumelhart et al., 1986c)，经常简称为backprop，允许来自代价函数的信息通过网络向后流动，以便计算梯度。

将计算形式化为图形的方法有很多。这里，我们使用图中的每一个节点来表示一个变量。变量可以是标量、向量、矩阵、张量、或者甚至是另一类型的变量。为了形式化我们的图形，我们还需引入操作（operation）这一概念。操作是指一个或多个变量的简单函数。我们的图形语言伴随着一组被允许的操作。我们可以通过将多个操作复合在一起来描述更为复杂的函数。

如果变量 y 是变量 x 通过一个操作计算得到的，那么我们画一条从 x 到 y 的有向边。我们有时用操作的名称来注释输出的节点，当上下文很明确时，有时也会省略这个标注。计算图的实例如下：

使用符号到符号的方法计算导数的示例如下。在这种方法中，反向传播算法不需要访问任何实际的特定数值。相反，它将节点添加到计算图中来描述如何计算这些导数。通用图形求值引擎可以在随后计算任何特定数值的导数。本例从表示的图开始，运行反向传播算法，指导它构造表达式对应的图。

这部分花书上讲了很多内容……我看得有些失去耐心……可能是讲得太细致了吧……我对反向传播算法的认识很简单，就是一个链式法则，一层一层计算梯度然后向后传播。这里根据之前上课时候的课件内容做下简单回顾：

总之反向传播算法的要点就是 以恰当的顺序计算梯度，从而充分利用链式法则来提高计算效率 。我个人认为理解BP的最佳方式就是自己画个图手推一遍。

‘玖’ 神经网络的基本原理是什么

神经网络的基本原理是：每个神经元把最初的输入值乘以一定的权重，并加上其他输入到这个神经元里的值（并结合其他信息值），最后算出一个总和，再经过神经元的偏差调整，最后用激励函数把输出值标准化。基本上，神经网络是由一层一层的不同的计算单位连接起来的。我们把计算单位称为神经元，这些网络可以把数据处理分类，就是我们要的输出。

神经网络常见的工具：

以上内容参考：在众多的神经网络工具中，NeuroSolutions始终处于业界领先位置。它是一个可用于windows XP/7高度图形化的神经网络开发工具。其将模块化，基于图标的网络设计界面，先进的学习程序和遗传优化进行了结合。该款可用于研究和解决现实世界的复杂问题的神经网络设计工具在使用上几乎无限制。

以上内容参考：网络-神经网络

‘拾’ 深度卷积网络

LeNet网络的结构如下图所示，可以看出，LeNet网络并没有使用padding，每进行一次卷积，图像的高度和宽度都会缩小，而通道数会一直增加。在全连接层中有400个节点，每个极点都有120个神经元，有时还会从这400个节点抽取一部分节点构建一个全连接层，即有两个全连接层。在该网络中，最后一步就是利用84个特征得到最后的输出，该网络刚开始使用的是 sigmoid 函数 tanh 函数，而现在常常倾向于使用 softmax 函数。需要注意的是，LeNet-5网络进行图像分类时，输入的图像是单通道的灰度图像。

AlexNet是以论文第一作者的名字命名的，该网络的结构，如下图所示，该网络的输出层使用了 softmax 函数。AlexNet网络比LeNet网络规模更大，大约有6000万个参数，用于训练图像和数据集时，能够处理非常相似的基本构造模块，这些模块中包含着大量的隐藏单元，并且与LeNet网络不同的是，该网络使用了ReLu的激活函数。

VGG-16网络没有太多的超参数，这是一种专注于构建卷积层的简单网络。如下图所示，该网络首先利用64个过滤器进行了两次卷积，接着在池化层将输入图像压缩，接着又是128个过滤器进行两次卷积，接着载池化。继续用256个过滤器进行3次卷积，再池化，接着再利用512个过滤器卷积3次，再池化，将稍后得到的特征图进行全连接操作，再进 softmax 激活。

由于存在梯度消失和梯度爆炸的原因，深层次的神经网络是很难训练的，如果采用一种跳跃连接的方式，即从某一层网络层获取激活，然后迅速反馈给另外一层，甚至是神经网络的更深层。这种利用跳跃连接构建的深度神经网络ResNets，深度能够超过100层

一个简单的两层神经网络示例，如下图所示：

常规的输出和输出之间的关系可以用如下的公式表示：

如上公式所述，这是一条神经网络的主路径。如果将的输入直接到深层的激活函数之前，此时，神经网络有了一条副路径，其对应输出将有公式（5）变成如下所示的公式（6）

此时的输入除了原先的输入外，多了一个项，即由于产生了一个残差块。

构建一个ResNet网络就是将很多这样的残差块堆积在一起，形成一个深度神经网络，如下所示：

使用传统的标准优化算法训练一个网络，随着网络深度的增加，训练误差会先减小再增加，随着网络层数的增加，优化算法会越难以训练，训练误差也会越来越多。但是，使用ResNet网络，能够有效地避免这种情况。

如上所述，加入残差网络之后，其输出计算公式如公式（6）所示，展开这个公式，则有：

如果使用L2正则化或者权重衰减，则会压缩权重参数的值，如果参数和参数等于0，其输出将由公式（7）变成，假定使用ReLU激活函数，则有：

由于残差网络存在的这种跳跃连接，很容易得出以上等式，这意味着，即使给神经网络增加两层，但是其效率并不逊色与更简单的神经网络。并且由于存在以上恒等式，使得网络学习隐藏层的单元的信息更加容易。而普通网络，随着网络层数的增加，学习参数会变得很困难。

此外，关于残差网络，如公式（6）所示，假设与具有相同的维度，由于ResNets使用了许多same卷积，的维度等于输出层的维度。如果输入和输出具有不同的维度，可以再增加一个矩阵，使得和具有相同的维度。而的维度可以通过0值填充调节。

在卷积网络的架构设计中，一种有趣的想法是会使用到1×1的过滤矩阵，实际上，对于单通道的图像而言，1×1的过滤矩阵，意义不大，但是，对于多通道的图像而言，1×1的过滤矩阵能够有效减少图像卷积之后的通道数量。

根据卷积和池化的基本知识，随着神经网络层数的增加，图像的通道数量会逐渐增加，采用1×1的过滤矩阵卷积之后，可以有效减少图像的通道数量，一个简单的示例，如下所示：

假设有一个6×6×32的图片，使用1×1×32的过滤矩阵进行卷积运算，整个运算过程将会遍历36个单元格，并计算过滤矩阵所覆盖区域的元素积之和，将其应用到ReLu非线性函数，会得到一个输出值。此计算过程中，可能会用到多个1×1×32的过滤器，那么，通过以上计算会得到一个 6×6×过滤器数量的矩阵。

构建卷积神经网络时，有时会很难决定过滤器的大小，而Inception网络的引入，却能很好的解决这个问题。

Inception网络的作用就是代替人工确定选择卷积层的过滤器类型。如下图所示，对于一个多通道图像，可以使用不同的过滤矩阵或者池化层，得到不同的输出，将这些输出堆积起来。

有了如上图所示的Inception块，最终输出为32+32+64+128=256，而Inception模块的输入为28×28×192，其整个计算成本，以5×5的过滤矩阵为例，其乘法的计算次数为：28×28×32×5×5×192，整个计算次数超过了1.2亿次。而如果使用如下所示的优化计算方法，则可以有效减少计算量。

如果利用1×1的过滤器，将输入矩阵的通道减少至16，则可以有效减少计算量，如下所示：

如上图所示的价格中，整个网络的运算次数为：28×28×192×16+28×28×32×5×5×16=1240万，整个计算成本降低至原来的十分之一。而，通过1×1×192过滤器卷积得到的这个网络层被称之为瓶颈层。

如上，所示，可以给每一个非1×1的卷积层之前，加入一个1×1的瓶颈层，就可以构建一个基本的inception模块了，如下图所示：

而一个inception网络就是多个Inception模块连接起来，如下图所示：

事实上，以上网络中，还存在一些分支，如编号1所示，这些分支就是全连接层，而全连接层之后就是一个softmax层用于预测。又如分支2所示，包含一些隐藏层（编号3），通过全连接层和softmax进行预测。这些分支结构能够确保，即使是隐藏层和中间层也参与了特征计算，并且也能够预测图片的分类。这种做法能够有效避免网络过拟合。

对于计算机视觉领域而言，神经网络的训练可能需要大量的数据，但是当数据量有限时，可以通过数据增强来实现数据量的扩充，以提高系统的鲁棒性，具体的数据增强方法如下所示：

除了以上三种数据增强的方法外，更多的数据增强方法和实现可以参考图像数据增强

数据增强可以利用计算机多线程实现，一个线程用来实现加载数据，实现数据增强，其他线程可以训练这些数据以加快整体的运算速度。

神经网络跳跃连接可以绕过低频

与神经网络跳跃连接可以绕过低频相关的内容