全連接網路mlp的定義_線性層和全連接層的區別

㈠線性層和全連接層的區別

線性層和全連接層沒有區別。線性層即全連接層。

全連接層，是每一個結點都與上一層的所有結點相連，用來把前邊提取到的特徵綜合起來。由於其全相連的特性，一般全連接層的參數也是最多的。

例如在VGG16中，第一個全連接層FC1有4096個節點，上一層POOL2是7*7*512 = 25088個節點，則該傳輸需要4096*25088個權值，需要耗很大的內存。

卷積神經網路的全連接層

在 CNN 結構中，經多個卷積層和池化層後，連接著1個或1個以上的全連接層。與 MLP 類似，全連接層中的每個神經元與其前一層的所有神經元進行全連接。全連接層可以整合卷積層或者池化層中具有類別區分性的局部信息。為了提升 CNN 網路性能，全連接層每個神經元的激勵函數一般採用 ReLU 函數。

最後一層全連接層的輸出值被傳遞給一個輸出，可以採用 softmax 邏輯回歸（softmax regression）進行分類，該層也可稱為 softmax 層（softmax layer）。對於一個具體的分類任務，選擇一個合適的損失函數是十分重要的，CNN 有幾種常用的損失函數，各自都有不同的特點。通常，CNN 的全連接層與 MLP 結構一樣，CNN 的訓練演算法也多採用BP演算法。

㈡深度前饋網路

看過西瓜書和李航的《統計學習方法》，對機器學習的基本演算法算是有了初步的理解。機器學習的演算法和思想固然重要，在實際中也有很多應用場景，但在超大數據集的表現上，深度學習才是當下效果最好的工具。可惜的是，花書這樣一本經典著作的中文版翻譯和機翻差不多水平，因此看的時候只能放慢速度。閑言少敘，下面是第六章的學習記錄。

深度前饋網路（deep feedforward network） ，也叫作前饋神經網路（feedforward neural network）或者多層感知機（multilayer perceptron, MLP），是典型的深度學習模型。前饋網路的目標是近似某個函數。例如，對於分類器，將輸入映射到一個類別。前饋網路定義了一個映射，並且學習參數的值使它能夠得到最佳的函數近似。

下面我們把「深度前饋網路」這個詞拆開來看：

那麼深度前饋網路的各層之間有什麼區別呢？從功能來講，訓練樣本直接指明了 輸出層 在每一點x上必須做什麼，它必須產生一個接近 y 的值。但訓練數據並沒有給出其它層中的所需的輸出，所以這些層被稱為 隱藏層（hidden layer） 。

一種理解前饋網路的方式是從線性模型開始，並考慮如何克服它的局限性。如果各層的函數都是線性函數，那麼復合後的函數依然是線性的，此時我們的網路模型等價於線性模型。為了提高模型的表示能力，我們需要將各層的設置為非線性的，從而得到一個非線性映射。我們可以認為提供了一組描述的特徵，或者認為它提供了的一個新的表示。

設計和訓練神經網路與使用梯度下降訓練其他任何機器學習模型並沒有太大不同。神經網路和線性模型等演算法的最大區別，在於神經網路的非線性導致大多數我們感興趣的代價函數都變得非凸。這意味著神經網路的訓練通常使用迭代的、基於梯度的優化， 僅僅使得代價函數達到一個非常小的值 ；而不是像用於訓練線性回歸模型的線性方程求解器或者用於訓練邏輯回歸或 SVM 的凸優化演算法那樣保證全局收斂。

用於非凸損失函數的隨機梯度下降沒有這種收斂性保證，並且 對參數的初始值很敏感。對於前饋神經網路，將所有的權重值初始化為小隨機數是很重要的。偏置可以初始化為零或者小的正值。

大多數現代的神經網路使用最大似然來訓練。這意味著代價函數就是負的對數似然，它與訓練數據和模型分布間的 交叉熵 等價。這個代價函數表示為

使用最大似然來導出代價函數的方法的一個優勢是，它減輕了為每個模型設計代價函數的負擔。明確一個模型則自動地確定了一個代價函數。

用於實現最大似然估計的交叉熵代價函數有一個不同尋常的特性，那就是當它被應用於實踐中經常遇到的模型時，它 通常沒有最小值。 如果模型可以控制輸出分布的密度（例如，通過學習高斯輸出分布的方差參數），那麼它可能對正確的訓練集輸出賦予極其高的密度，這將導致交叉熵趨向負無窮。 正則化技術提供了一些不同的方法來修正學習問題，使得模型不會通過這種方式來獲得無限制的收益。

一種簡單的輸出單元是基於仿射變換的輸出單元，仿射變換不具有非線性。這些單元往往被直接稱為 線性單元 。給定特徵，線性輸出層產生一個向量，線性輸出層經常被用來 產生條件高斯分布的均值 ：

最大化其對數似然此時等價於最小化均方誤差。

許多任務需要預測二值型變數的值。具有兩個類的分類問題可以歸結為這種形式。此時最大似然的方法是定義在條件下的 Bernoulli 分布。為保證模型給出了錯誤答案時，總能有一個較大的梯度。可以使用 sigmoid輸出單元 結合最大似然來實現。sigmoid 輸出單元定義為：

這種在對數空間里預測概率的方法可以很自然地使用最大似然學習。因為用於最大似然的代價函數是，代價函數中的抵消了中的。如果沒有這個效果，sigmoid 的飽和性會阻止基於梯度的學習做出好的改進。因此， 最大似然幾乎總是訓練輸出單元的優選方法。

當我們想要表示一個具有 n 個可能取值的離散型隨機變數的分布時，我們可以使用函數。它可以看作是函數的擴展。

函數最常用作分類器的輸出，來表示個不同類上的概率分布。比較少見的是，函數可以在模型內部使用，例如如果我們想要在某個內部變數的個不同選項中進行選擇。函數的形式為：

和一樣，當使用最大化對數似然訓練來輸出目標值時，使用指數函數工作地非常好。

隱藏單元的設計是一個非常活躍的研究領域，並且還沒有許多明確的指導性理論原則。

整流線性單元（Rectified Linear Unit, ReLU）是隱藏單元極好的默認選擇。許多其他類型的隱藏單元也是可用的。決定何時使用哪種類型的隱藏單元是困難的事（盡管整流線性單元通常是一個可接受的選擇）。我們這里描述對於每種隱藏單元的一些基本直覺。這些直覺可以用來建議我們何時來嘗試一些單元。通常不可能預先預測出哪種隱藏單元工作得最好。設計過程充滿了試驗和錯誤，先直覺認為某種隱藏單元可能表現良好，然後用它組成神經網路進行訓練，最後用驗證集來評估它的性能。

大多數的隱藏單元都接受輸入向量 x，計算仿射變換，然後使用一個逐元素的非線性函數。大多數隱藏單元的區別僅僅在於激活函數的形式。

整流線性單元使用激活函數：

整流線性單元通常作用於仿射變換之上：

當初始化仿射變換的參數時，可以將 b 的所有元素設置成一個小的正值，例如 0.1。這使得整流線性單元很可能初始時就對訓練集中的大多數輸入呈現激活狀態，並且允許導數通過。

整流線性單元的一個缺陷是它們不能通過基於梯度的方法學習那些使它們激活為零的樣本。整流線性單元的各種擴展保證了它們能在各個位置都接收到梯度。

整流線性單元的三個擴展基於當時使用一個非零的斜率：

絕對值整流（absolute value rectification） 固定來得到：，它用於圖像中的對象識別（Jarrett et al., 2009a）； 滲漏整流線性單元（Leaky ReLU） (Maas et al., 2013) 將固定成一個類似 0.01 的小值； 參數化整流線性單元（parametric ReLU） 將作為學習的參數 (He et al., 2015)。

maxout 單元（maxout unit） (Goodfellow et al., 2013a) 進一步擴展了整流線性單元。maxout單元將劃分為每組有個值的組，而不是使用作用於每個元素的函數。每個maxout單元則輸出每組中的最大元素：

這里是組的輸入索引集。因為激活函數中有了max操作，所以整個maxout網路也是一種非線性的變換。

maxout的擬合能力是非常強的，它可以擬合任意的的凸函數。最直觀的解釋就是任意的凸函數都可以由分段線性函數以任意精度擬合，而maxout又是取k個隱隱含層節點的最大值，這些」隱隱含層"節點也是線性的，所以在不同的取值范圍下，最大值也可以看做是分段線性的（分段的個數與k值有關）。

整流線性單元和它們的這些擴展都是基於一個原則，那就是如果它們的行為更接近線性，那麼模型更容易優化。

在引入整流線性單元之前，大多數神經網路使用 logistic sigmoid 激活函數：

或者是雙曲正切激活函數：

這些激活函數緊密相關，因為：

我們已經看過 sigmoid 單元作為輸出單元用來預測二值型變數取值為 1 的概率。與分段線性單元不同，sigmoid 單元在其大部分定義域內都飽和——當 z 取絕對值很大的正值時，它們飽和到一個高值，當 z 取絕對值很大的負值時，它們飽和到一個低值，並且僅僅當 z 接近 0 時它們才對輸入強烈敏感。sigmoid 單元的廣泛飽和性會使得基於梯度的學習變得非常困難。因為這個原因，現在不鼓勵將它們用作前饋網路中的隱藏單元。當使用一個合適的代價函數來抵消 sigmoid 的飽和性時，它們作為輸出單元可以與基於梯度的學習相兼容。

當必須要使用 sigmoid 激活函數時，雙曲正切激活函數通常要比 logistic sigmoid 函數表現更好。在而的意義上，它更像是單位函數。因為 tanh 在 0 附近與單位函數類似。

架構（architecture） 一詞是指網路的整體結構： 它應該具有多少單元，以及這些單元應該如何連接。

在鏈式架構中，主要的架構考慮是選擇網路的深度和每一層的寬度。我將會看到，即使只有一個隱藏層的網路也足夠適應訓練集。 更深層的網路通常能夠對每一層使用更少的單元數和更少的參數，並且經常容易泛化到測試集，但是通常也更難以優化。 對於一個具體的任務，理想的網路架構必須通過實驗，觀測在驗證集上的誤差來找到。

萬能近似定理（universal approximation theorem）

一個前饋神經網路如果具有線性輸出層和至少一層具有任何一種『『擠壓』』性質的激活函數（例如logistic sigmoid激活函數）的隱藏層，只要給予網路足夠數量的隱藏單元，它可以 以任意的精度來近似任何從一個有限維空間到另一個有限維空間的 Borel 可測函數 。前饋網路的導數也可以任意好地來近似函數的導數 (Hornik et al., 1990)。

萬能近似定理意味著無論我們試圖學習什麼函數，我們知道一個大的MLP一定能夠表示這個函數。

然而，我們不能保證訓練演算法能夠學得這個函數。即使 MLP能夠表示該函數，學習也可能因兩個不同的原因而失敗。 首先，用於訓練的優化演算法可能找不到用於期望函數的參數值。其次，訓練演算法可能由於過擬合而選擇了錯誤的函數。

總之，具有單層的前饋網路足以表示任何函數，但是網路層可能大得不可實現，並且可能無法正確地學習和泛化。在很多情況下，使用更深的模型能夠減少表示期望函數所需的單元的數量，並且可以減少泛化誤差。

存在一些函數族能夠在網路的深度大於某個值d時被高效地近似，而當深度被限制到小於或等於d時需要一個遠遠大於之前的模型。在很多情況下，淺層模型所需的隱藏單元的數量是n的指數級。

Montufar et al. (2014) 的主要定理指出， 具有個輸入深度為每個隱藏層具有個單元的深度整流網路可以描述的線性區域的數量是 ：

根據經驗，更深的模型似乎確實在廣泛的任務中泛化得更好。

目前為止，我們都將神經網路描述成層的簡單鏈式結構，主要的考慮因素是網路的深度和每層的寬度。在實踐中，神經網路顯示出相當的多樣性。

一般的，層不需要連接在鏈中，盡管這是最常見的做法。許多架構構建了一個主鏈，但隨後又添加了額外的架構特性，例如從層 i 到層 i + 2 或者更高層的 跳躍連接 。這些跳躍連接使得梯度更容易從輸出層流向更接近輸入的層。

架構設計考慮的另外一個關鍵點是如何將層與層之間連接起來。默認的神經網路層採用矩陣 W 描述的線性變換，每個輸入單元連接到每個輸出單元。許多專用網路具有較少的連接，使得輸入層中的每個單元僅連接到輸出層單元的一個小子集。這些用於 減少連接數量 的策略減少了參數的數量以及用於評估網路的計算量，但通常高度依賴於問題。

當我們使用前饋神經網路接收輸入並產生輸出時，信息通過網路向前流動。輸入提供初始信息，然後傳播到每一層的隱藏單元，最終產生輸出。這稱之為 前向傳播（forward propagation） 。在訓練過程中，前向傳播可以持續向前直到它產生一個標量代價函數。 反向傳播（back propagation） 演算法 (Rumelhart et al., 1986c)，經常簡稱為backprop，允許來自代價函數的信息通過網路向後流動，以便計算梯度。

將計算形式化為圖形的方法有很多。這里，我們使用圖中的每一個節點來表示一個變數。變數可以是標量、向量、矩陣、張量、或者甚至是另一類型的變數。為了形式化我們的圖形，我們還需引入操作（operation）這一概念。操作是指一個或多個變數的簡單函數。我們的圖形語言伴隨著一組被允許的操作。我們可以通過將多個操作復合在一起來描述更為復雜的函數。

如果變數 y 是變數 x 通過一個操作計算得到的，那麼我們畫一條從 x 到 y 的有向邊。我們有時用操作的名稱來注釋輸出的節點，當上下文很明確時，有時也會省略這個標注。計算圖的實例如下：

使用符號到符號的方法計算導數的示例如下。在這種方法中，反向傳播演算法不需要訪問任何實際的特定數值。相反，它將節點添加到計算圖中來描述如何計算這些導數。通用圖形求值引擎可以在隨後計算任何特定數值的導數。本例從表示的圖開始，運行反向傳播演算法，指導它構造表達式對應的圖。

這部分花書上講了很多內容……我看得有些失去耐心……可能是講得太細致了吧……我對反向傳播演算法的認識很簡單，就是一個鏈式法則，一層一層計算梯度然後向後傳播。這里根據之前上課時候的課件內容做下簡單回顧：

總之反向傳播演算法的要點就是 以恰當的順序計算梯度，從而充分利用鏈式法則來提高計算效率 。我個人認為理解BP的最佳方式就是自己畫個圖手推一遍。

㈢什麼是徑向基函數神經網路 mlp

RBF網路能夠逼近任意的非線性函數，可以處理系統內的難以解析的規律性，具有良好的泛化能力，並有很快的學習收斂速度，已成功應用於非線性函數逼近、時間序列分析、數據分類、模式識別、信息處理、圖像處理、系統建模、控制和故障診斷等。

簡單說明一下為什麼RBF網路學習收斂得比較快。當網路的一個或多個可調參數（權值或閾值）對任何一個輸出都有影響時，這樣的網路稱為全局逼近網路。由於對於每次輸入，網路上的每一個權值都要調整，從而導致全局逼近網路的學習速度很慢。BP網路就是一個典型的例子。

如果對於輸入空間的某個局部區域只有少數幾個連接權值影響輸出，則該網路稱為局部逼近網路。常見的局部逼近網路有RBF網路、小腦模型（CMAC）網路、B樣條網路等。

全連接網路mlp的定義

與全連接網路mlp的定義相關的內容