全連接神經網路模型復雜嗎_什麼是全連接神經網路怎麼理解「全連接」

❶ 一文看懂四種基本的神經網路架構

原文鏈接：
http://blackblog.tech/2018/02/23/Eight-Neural-Network/

更多干貨就在我的個人博客 http://blackblog.tech 歡迎關注

剛剛入門神經網路，往往會對眾多的神經網路架構感到困惑，神經網路看起來復雜多樣，但是這么多架構無非也就是三類，前饋神經網路，循環網路，對稱連接網路，本文將介紹四種常見的神經網路，分別是CNN，RNN，DBN，GAN。通過這四種基本的神經網路架構，我們來對神經網路進行一定的了解。

神經網路是機器學習中的一種模型，是一種模仿動物神經網路行為特徵，進行分布式並行信息處理的演算法數學模型。這種網路依靠系統的復雜程度，通過調整內部大量節點之間相互連接的關系，從而達到處理信息的目的。
一般來說，神經網路的架構可以分為三類：

前饋神經網路：
這是實際應用中最常見的神經網路類型。第一層是輸入，最後一層是輸出。如果有多個隱藏層，我們稱之為「深度」神經網路。他們計算出一系列改變樣本相似性的變換。各層神經元的活動是前一層活動的非線性函數。

循環網路：
循環網路在他們的連接圖中定向了循環，這意味著你可以按照箭頭回到你開始的地方。他們可以有復雜的動態，使其很難訓練。他們更具有生物真實性。
循環網路的目的使用來處理序列數據。在傳統的神經網路模型中，是從輸入層到隱含層再到輸出層，層與層之間是全連接的，每層之間的節點是無連接的。但是這種普通的神經網路對於很多問題卻無能無力。例如，你要預測句子的下一個單詞是什麼，一般需要用到前面的單詞，因為一個句子中前後單詞並不是獨立的。
循環神經網路，即一個序列當前的輸出與前面的輸出也有關。具體的表現形式為網路會對前面的信息進行記憶並應用於當前輸出的計算中，即隱藏層之間的節點不再無連接而是有連接的，並且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。

對稱連接網路：
對稱連接網路有點像循環網路，但是單元之間的連接是對稱的（它們在兩個方向上權重相同）。比起循環網路，對稱連接網路更容易分析。這個網路中有更多的限制，因為它們遵守能量函數定律。沒有隱藏單元的對稱連接網路被稱為「Hopfield 網路」。有隱藏單元的對稱連接的網路被稱為玻爾茲曼機。

其實之前的帖子講過一些關於感知機的內容，這里再復述一下。
首先還是這張圖
這是一個M-P神經元

一個神經元有n個輸入，每一個輸入對應一個權值w，神經元內會對輸入與權重做乘法後求和，求和的結果與偏置做差，最終將結果放入激活函數中，由激活函數給出最後的輸出，輸出往往是二進制的，0 狀態代表抑制，1 狀態代表激活。

可以把感知機看作是 n 維實例空間中的超平面決策面，對於超平面一側的樣本，感知器輸出 1，對於另一側的實例輸出 0，這個決策超平面方程是 w⋅x=0。那些可以被某一個超平面分割的正反樣例集合稱為線性可分(linearly separable)樣例集合，它們就可以使用圖中的感知機表示。
與、或、非問題都是線性可分的問題，使用一個有兩輸入的感知機能容易地表示，而異或並不是一個線性可分的問題，所以使用單層感知機是不行的，這時候就要使用多層感知機來解決疑惑問題了。

如果我們要訓練一個感知機，應該怎麼辦呢？
我們會從隨機的權值開始，反復地應用這個感知機到每個訓練樣例，只要它誤分類樣例就修改感知機的權值。重復這個過程，直到感知機正確分類所有的樣例。每一步根據感知機訓練法則來修改權值，也就是修改與輸入 xi 對應的權 wi，法則如下：

這里 t 是當前訓練樣例的目標輸出，o 是感知機的輸出，η 是一個正的常數稱為學習速率。學習速率的作用是緩和每一步調整權的程度，它通常被設為一個小的數值（例如 0.1），而且有時會使其隨著權調整次數的增加而衰減。

多層感知機，或者說是多層神經網路無非就是在輸入層與輸出層之間加了多個隱藏層而已，後續的CNN，DBN等神經網路只不過是將重新設計了每一層的類型。感知機可以說是神經網路的基礎，後續更為復雜的神經網路都離不開最簡單的感知機的模型，

談到機器學習，我們往往還會跟上一個詞語，叫做模式識別，但是真實環境中的模式識別往往會出現各種問題。比如：
圖像分割：真實場景中總是摻雜著其它物體。很難判斷哪些部分屬於同一個對象。對象的某些部分可以隱藏在其他對象的後面。
物體光照：像素的強度被光照強烈影響。
圖像變形：物體可以以各種非仿射方式變形。例如，手寫也可以有一個大的圓圈或只是一個尖頭。
情景支持：物體所屬類別通常由它們的使用方式來定義。例如，椅子是為了讓人們坐在上面而設計的，因此它們具有各種各樣的物理形狀。
卷積神經網路與普通神經網路的區別在於，卷積神經網路包含了一個由卷積層和子采樣層構成的特徵抽取器。在卷積神經網路的卷積層中，一個神經元只與部分鄰層神經元連接。在CNN的一個卷積層中，通常包含若干個特徵平面(featureMap)，每個特徵平面由一些矩形排列的的神經元組成，同一特徵平面的神經元共享權值，這里共享的權值就是卷積核。卷積核一般以隨機小數矩陣的形式初始化，在網路的訓練過程中卷積核將學習得到合理的權值。共享權值（卷積核）帶來的直接好處是減少網路各層之間的連接，同時又降低了過擬合的風險。子采樣也叫做池化（pooling），通常有均值子采樣（mean pooling）和最大值子采樣（max pooling）兩種形式。子采樣可以看作一種特殊的卷積過程。卷積和子采樣大大簡化了模型復雜度，減少了模型的參數。
卷積神經網路由三部分構成。第一部分是輸入層。第二部分由n個卷積層和池化層的組合組成。第三部分由一個全連結的多層感知機分類器構成。
這里舉AlexNet為例：

·輸入：224×224大小的圖片，3通道
·第一層卷積：11×11大小的卷積核96個，每個GPU上48個。
·第一層max-pooling：2×2的核。
·第二層卷積：5×5卷積核256個，每個GPU上128個。
·第二層max-pooling：2×2的核。
·第三層卷積：與上一層是全連接，3*3的卷積核384個。分到兩個GPU上個192個。
·第四層卷積：3×3的卷積核384個，兩個GPU各192個。該層與上一層連接沒有經過pooling層。
·第五層卷積：3×3的卷積核256個，兩個GPU上個128個。
·第五層max-pooling：2×2的核。
·第一層全連接：4096維，將第五層max-pooling的輸出連接成為一個一維向量，作為該層的輸入。
·第二層全連接：4096維
·Softmax層：輸出為1000，輸出的每一維都是圖片屬於該類別的概率。

卷積神經網路在模式識別領域有著重要應用，當然這里只是對卷積神經網路做了最簡單的講解，卷積神經網路中仍然有很多知識，比如局部感受野，權值共享，多卷積核等內容，後續有機會再進行講解。

傳統的神經網路對於很多問題難以處理，比如你要預測句子的下一個單詞是什麼，一般需要用到前面的單詞，因為一個句子中前後單詞並不是獨立的。RNN之所以稱為循環神經網路，即一個序列當前的輸出與前面的輸出也有關。具體的表現形式為網路會對前面的信息進行記憶並應用於當前輸出的計算中，即隱藏層之間的節點不再無連接而是有連接的，並且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。理論上，RNN能夠對任何長度的序列數據進行處理。
這是一個簡單的RNN的結構，可以看到隱藏層自己是可以跟自己進行連接的。

那麼RNN為什麼隱藏層能夠看到上一刻的隱藏層的輸出呢，其實我們把這個網路展開來開就很清晰了。

從上面的公式我們可以看出，循環層和全連接層的區別就是循環層多了一個權重矩陣 W。
如果反復把式2帶入到式1，我們將得到：

在講DBN之前，我們需要對DBN的基本組成單位有一定的了解，那就是RBM，受限玻爾茲曼機。
首先什麼是玻爾茲曼機？
[圖片上傳失敗...(image-d36b31-1519636788074)]
如圖所示為一個玻爾茲曼機，其藍色節點為隱層，白色節點為輸入層。
玻爾茲曼機和遞歸神經網路相比，區別體現在以下幾點：
1、遞歸神經網路本質是學習一個函數，因此有輸入和輸出層的概念，而玻爾茲曼機的用處在於學習一組數據的「內在表示」，因此其沒有輸出層的概念。
2、遞歸神經網路各節點鏈接為有向環，而玻爾茲曼機各節點連接成無向完全圖。

而受限玻爾茲曼機是什麼呢？
最簡單的來說就是加入了限制，這個限制就是將完全圖變成了二分圖。即由一個顯層和一個隱層構成，顯層與隱層的神經元之間為雙向全連接。

h表示隱藏層，v表示顯層
在RBM中，任意兩個相連的神經元之間有一個權值w表示其連接強度，每個神經元自身有一個偏置系數b（對顯層神經元）和c（對隱層神經元）來表示其自身權重。
具體的公式推導在這里就不展示了

DBN是一個概率生成模型，與傳統的判別模型的神經網路相對，生成模型是建立一個觀察數據和標簽之間的聯合分布，對P(Observation|Label)和 P(Label|Observation)都做了評估，而判別模型僅僅而已評估了後者，也就是P(Label|Observation)。
DBN由多個限制玻爾茲曼機（Restricted Boltzmann Machines）層組成，一個典型的神經網路類型如圖所示。這些網路被「限制」為一個可視層和一個隱層，層間存在連接，但層內的單元間不存在連接。隱層單元被訓練去捕捉在可視層表現出來的高階數據的相關性。

生成對抗網路其實在之前的帖子中做過講解，這里在說明一下。
生成對抗網路的目標在於生成，我們傳統的網路結構往往都是判別模型，即判斷一個樣本的真實性。而生成模型能夠根據所提供的樣本生成類似的新樣本，注意這些樣本是由計算機學習而來的。
GAN一般由兩個網路組成，生成模型網路，判別模型網路。
生成模型 G 捕捉樣本數據的分布，用服從某一分布（均勻分布，高斯分布等）的雜訊 z 生成一個類似真實訓練數據的樣本，追求效果是越像真實樣本越好；判別模型 D 是一個二分類器，估計一個樣本來自於訓練數據（而非生成數據）的概率，如果樣本來自於真實的訓練數據，D 輸出大概率，否則，D 輸出小概率。
舉個例子：生成網路 G 好比假幣製造團伙，專門製造假幣，判別網路 D 好比警察，專門檢測使用的貨幣是真幣還是假幣，G 的目標是想方設法生成和真幣一樣的貨幣，使得 D 判別不出來，D 的目標是想方設法檢測出來 G 生成的假幣。
傳統的判別網路：

生成對抗網路：

下面展示一個cDCGAN的例子（前面帖子中寫過的）
生成網路

判別網路

最終結果，使用MNIST作為初始樣本，通過學習後生成的數字，可以看到學習的效果還是不錯的。

本文非常簡單的介紹了四種神經網路的架構，CNN，RNN，DBN，GAN。當然也僅僅是簡單的介紹，並沒有深層次講解其內涵。這四種神經網路的架構十分常見，應用也十分廣泛。當然關於神經網路的知識，不可能幾篇帖子就講解完，這里知識講解一些基礎知識，幫助大家快速入（zhuang）門（bi）。後面的帖子將對深度自動編碼器，Hopfield 網路長短期記憶網路（LSTM）進行講解。

❷ 神經網路淺談

人工智慧技術是當前炙手可熱的話題，而基於神經網路的深度學習技術更是熱點中的熱點。去年穀歌的Alpha Go 以4:1大比分的優勢戰勝韓國的李世石九段，展現了深度學習的強大威力，後續強化版的Alpha Master和無師自通的Alpha Zero更是在表現上完全碾壓前者。不論你怎麼看，以深度學習為代表的人工智慧技術正在塑造未來。

下圖為英偉達（NVIDIA）公司近年來的股價情況，該公司的主要產品是「圖形處理器」（GPU），而GPU被證明能大大加快神經網路的訓練速度，是深度學習必不可少的計算組件。英偉達公司近年來股價的飛漲足以證明當前深度學習的井噴之勢。

好，話不多說，下面簡要介紹神經網路的基本原理、發展脈絡和優勢。

神經網路是一種人類由於受到生物神經細胞結構啟發而研究出的一種演算法體系，是機器學習演算法大類中的一種。首先讓我們來看人腦神經元細胞：

一個神經元通常具有多個樹突，主要用來接受傳入信息，而軸突只有一條，軸突尾端有許多軸突末梢，可以給其他多個神經元傳遞信息。軸突末梢跟其他神經元的樹突產生連接，從而傳遞信號。

下圖是一個經典的神經網路（Artificial Neural Network,ANN）：

乍一看跟傳統互聯網的拓撲圖有點類似，這也是稱其為網路的原因，不同的是節點之間通過有向線段連接，並且節點被分成三層。我們稱圖中的圓圈為神經元，左邊三個神經元組成的一列為輸入層，中間神經元列為隱藏層,右邊神經元列為輸出層，神經元之間的箭頭為權重。

神經元是計算單元，相當於神經元細胞的細胞核，利用輸入的數據進行計算，然後輸出，一般由一個線性計算部分和一個非線性計算部分組成；輸入層和輸出層實現數據的輸入輸出，相當於細胞的樹突和軸突末梢；隱藏層指既不是輸入也不是輸出的神經元層，一個神經網路可以有很多個隱藏層。

神經網路的關鍵不是圓圈代表的神經元，而是每條連接線對應的權重。每條連接線對應一個權重，也就是一個參數。權重具體的值需要通過神經網路的訓練才能獲得。我們實際生活中的學習體現在大腦中就是一系列神經網路迴路的建立與強化，多次重復的學習能讓迴路變得更加粗壯，使得信號的傳遞速度加快，最後對外表現為「深刻」的記憶。人工神經網路的訓練也借鑒於此，如果某種映射關系出現很多次，那麼在訓練過程中就相應調高其權重。

1943年，心理學家McCulloch和數學家Pitts參考了生物神經元的結構，發表了抽象的神經元模型MP：

符號化後的模型如下：

Sum函數計算各權重與輸入乘積的線性組合，是神經元中的線性計算部分，而sgn是取符號函數，當輸入大於0時，輸出1，反之輸出0，是神經元中的非線性部分。向量化後的公式為z=sgn(w^T a)（w^T=(w_1,w_2,w_3)，a=〖(a_1,a_2,a_3)〗^T）。

但是，MP模型中，權重的值都是預先設置的，因此不能學習。該模型雖然簡單，並且作用有限，但已經建立了神經網路大廈的地基

1958年，計算科學家Rosenblatt提出了由兩層神經元組成(一個輸入層，一個輸出層)的神經網路。他給它起了一個名字–「感知器」（Perceptron）

感知器是當時首個可以學習的人工神經網路。Rosenblatt現場演示了其學習識別簡單圖像的過程，在當時引起了轟動，掀起了第一波神經網路的研究熱潮。

但感知器只能做簡單的線性分類任務。1969年，人工智慧領域的巨擘Minsky指出這點，並同時指出感知器對XOR（異或，即兩個輸入相同時輸出0，不同時輸出1）這樣的簡單邏輯都無法解決。所以，明斯基認為神經網路是沒有價值的。

隨後，神經網路的研究進入低谷，又稱 AI Winter 。

Minsky說過單層神經網路無法解決異或問題，但是當增加一個計算層以後，兩層神經網路不僅可以解決異或問題，而且具有非常好的非線性分類效果。

下圖為兩層神經網路（輸入層一般不算在內）：

上圖中，輸出層的輸入是上一層的輸出。

向量化後的公式為：

注意：

每個神經元節點默認都有偏置變數b，加上偏置變數後的計算公式為：

同時，兩層神經網路不再使用sgn函數作為激勵函數，而採用平滑的sigmoid函數：

σ(z)=1/(1+e^(-z) )

其圖像如下：

理論證明：兩層及以上的神經網路可以無限逼近真實的對應函數，從而模擬數據之間的真實關系，這是神經網路強大預測能力的根本。但兩層神經網路的計算量太大，當時的計算機的計算能力完全跟不上，直到1986年，Rumelhar和Hinton等人提出了反向傳播（Backpropagation，BP）演算法，解決了兩層神經網路所需要的復雜計算量問題，帶動了業界使用兩層神經網路研究的熱潮。

但好景不長，演算法的改進僅使得神經網路風光了幾年，然而計算能力不夠，局部最優解，調參等一系列問題一直困擾研究人員。90年代中期，由Vapnik等人發明的SVM（Support Vector Machines，支持向量機）演算法誕生，很快就在若干個方面體現出了對比神經網路的優勢：無需調參；高效；全局最優解。

由於以上原因，SVM迅速打敗了神經網路演算法成為主流。神經網路的研究再一次進入低谷， AI Winter again 。

多層神經網路一般指兩層或兩層以上的神經網路（不包括輸入層），更多情況下指兩層以上的神經網路。

2006年，Hinton提出使用預訓練」（pre-training）和「微調」(fine-tuning)技術能優化神經網路訓練，大幅度減少訓練多層神經網路的時間

並且，他給多層神經網路相關的學習方法賦予了一個新名詞–「深度學習」，以此為起點，「深度學習」紀元開始了：）

「深度學習」一方面指神經網路的比較「深」，也就是層數較多；另一方面也可以指神經網路能學到很多深層次的東西。研究發現，在權重參數不變的情況下，增加神經網路的層數，能增強神經網路的表達能力。

但深度學習究竟有多強大呢？沒人知道。2012年，Hinton與他的學生在ImageNet競賽中，用多層的卷積神經網路成功地對包含一千類別的一百萬張圖片進行了訓練，取得了分類錯誤率15%的好成績，這個成績比第二名高了近11個百分點，充分證明了多層神經網路識別效果的優越性。

同時，科研人員發現GPU的大規模並行矩陣運算模式完美地契合神經網路訓練的需要，在同等情況下，GPU的速度要比CPU快50-200倍，這使得神經網路的訓練時間大大減少，最終再一次掀起了神經網路研究的熱潮，並且一直持續到現在。

2016年基於深度學習的Alpha Go在圍棋比賽中以4:1的大比分優勢戰勝了李世石，深度學習的威力再一次震驚了世界。

神經網路的發展歷史曲折盪漾，既有被捧上神壇的高潮，也有無人問津的低谷，中間經歷了數次大起大落，我們姑且稱之為「三起三落」吧，其背後則是演算法的改進和計算能力的持續發展。

下圖展示了神經網路自發明以來的發展情況及一些重大時間節點。

當然，對於神經網路我們也要保持清醒的頭腦。由上圖，每次神經網路研究的興盛期持續10年左右，從最近2012年算起，或許10年後的2022年，神經網路的發展將再次遇到瓶頸。

神經網路作為機器學習的一種，其模型訓練的目的，就是使得參數盡可能的與真實的模型逼近。理論證明，兩層及以上的神經網路可以無限逼近真實的映射函數。因此，給定足夠的訓練數據和訓練時間，總能通過神經網路找到無限逼近真實關系的模型。

具體做法：首先給所有權重參數賦上隨機值，然後使用這些隨機生成的參數值，來預測訓練數據中的樣本。假設樣本的預測目標為yp ，真實目標為y，定義值loss，計算公式如下：

loss = (yp -y) ^2

這個值稱之為損失（loss），我們的目標就是使對所有訓練數據的損失和盡可能的小，這就轉化為求loss函數極值的問題。

一個常用方法是高等數學中的求導，但由於參數不止一個，求導後計算導數等於0的運算量很大，所以常用梯度下降演算法來解決這樣的優化問題。梯度是一個向量，由函數的各自變數的偏導數組成。

比如對二元函數 f =(x,y)，則梯度∇f=(∂f/∂x,∂f/∂y)。梯度的方向是函數值上升最快的方向。梯度下降演算法每次計算參數在當前的梯度，然後讓參數向著梯度的反方向前進一段距離，不斷重復，直到梯度接近零時截止。一般這個時候，所有的參數恰好達到使損失函數達到一個最低值的狀態。下圖為梯度下降的大致運行過程：

在神經網路模型中，由於結構復雜，每次計算梯度的代價很大。因此還需要使用反向傳播（Back Propagation）演算法。反向傳播演算法利用了神經網路的結構進行計算，不一次計算所有參數的梯度，而是從後往前。首先計算輸出層的梯度，然後是第二個參數矩陣的梯度，接著是中間層的梯度，再然後是第一個參數矩陣的梯度，最後是輸入層的梯度。計算結束以後，所要的兩個參數矩陣的梯度就都有了。當然，梯度下降只是其中一個優化演算法，其他的還有牛頓法、RMSprop等。

確定loss函數的最小值後，我們就確定了整個神經網路的權重，完成神經網路的訓練。

在神經網路中一樣的參數數量，可以用更深的層次去表達。

由上圖，不算上偏置參數的話，共有三層神經元，33個權重參數。

由下圖，保持權重參數不變，但增加了兩層神經元。

在多層神經網路中，每一層的輸入是前一層的輸出，相當於在前一層的基礎上學習，更深層次的神經網路意味著更深入的表示特徵，以及更強的函數模擬能力。更深入的表示特徵可以這樣理解，隨著網路的層數增加，每一層對於前一層次的抽象表示更深入。

如上圖，第一個隱藏層學習到「邊緣」的特徵，第二個隱藏層學習到「邊緣」組成的「形狀」的特徵，第三個隱藏層學習到由「形狀」組成的「圖案」的特徵，最後的隱藏層學習到由「圖案」組成的「目標」的特徵。通過抽取更抽象的特徵來對事物進行區分，從而獲得更好的區分與分類能力。

前面提到，明斯基認為Rosenblatt提出的感知器模型不能處理最簡單的「異或」（XOR）非線性問題，所以神經網路的研究沒有前途，但當增加一層神經元後，異或問題得到了很好地解決，原因何在？原來從輸入層到隱藏層，數據發生了空間變換，坐標系發生了改變，因為矩陣運算本質上就是一種空間變換。

如下圖，紅色和藍色的分界線是最終的分類結果，可以看到，該分界線是一條非常平滑的曲線。

但是，改變坐標系後，分界線卻表現為直線，如下圖：

同時，非線性激勵函數的引入使得神經網路對非線性問題的表達能力大大加強。

對於傳統的樸素貝葉斯、決策樹、支持向量機SVM等分類器，提取特徵是一個非常重要的前置工作。在正式訓練之前，需要花費大量的時間在數據的清洗上，這樣分類器才能清楚地知道數據的維度，要不然基於概率和空間距離的線性分類器是沒辦法進行工作的。然而在神經網路中，由於巨量的線性分類器的堆疊（並行和串列）以及卷積神經網路的使用，它對雜訊的忍耐能力、對多通道數據上投射出來的不同特徵偏向的敏感程度會自動重視或忽略，這樣我們在處理的時候，就不需要使用太多的技巧用於數據的清洗了。有趣的是，業內大佬常感嘆，「你可能知道SVM等機器學習的所有細節，但是效果並不好，而神經網路更像是一個黑盒，很難知道它究竟在做什麼，但工作效果卻很好」。

人類對機器學習的環節干預越少，就意味著距離人工智慧的方向越近。神經網路的這個特性非常有吸引力。

1) 谷歌的TensorFlow開發了一個非常有意思的神經網路入門教程，用戶可以非常方便地在網頁上更改神經網路的參數，並且能看到實時的學習效率和結果，非常適合初學者掌握神經網路的基本概念及神經網路的原理。網頁截圖如下：

2) 深度學習領域大佬吳恩達不久前發布的《神經網路和深度學習》MOOC，現在可以在網易雲課堂上免費觀看了，並且還有中文字幕。

3) 《神經網路於深度學習》（Michael Nielsen著）、《白話深度學習與TensorFlow》也是不錯的入門書籍。

❸ 卷積神經網路的卷積層、激活層、池化層、全連接層

數據輸入的是一張圖片（輸入層），CONV表示卷積層，RELU表示激勵層，POOL表示池化層，Fc表示全連接層

全連接神經網路需要非常多的計算資源才能支撐它來做反向傳播和前向傳播，所以說全連接神經網路可以存儲非常多的參數，如果你給它的樣本如果沒有達到它的量級的時候，它可以輕輕鬆鬆把你給他的樣本全部都記下來，這會出現過擬合的情況。

所以我們應該把神經元和神經元之間的連接的權重個數降下來，但是降下來我們又不能保證它有較強的學習能力，所以這是一個糾結的地方，所以有一個方法就是 局部連接+權值共享 ，局部連接+權值共享不僅權重參數降下來了，而且學習能力並沒有實質的降低，除此之外還有其它的好處，下來看一下，下面的這幾張圖片：

一個圖像的不同表示方式

這幾張圖片描述的都是一個東西，但是有的大有的小，有的靠左邊，有的靠右邊，有的位置不同，但是我們構建的網路識別這些東西的時候應該是同一結果。為了能夠達到這個目的，我們可以讓圖片的不同位置具有相同的權重（權值共享），也就是上面所有的圖片，我們只需要在訓練集中放一張，我們的神經網路就可以識別出上面所有的，這也是 權值共享 的好處。

而卷積神經網路就是局部連接+權值共享的神經網路。

現在我們對卷積神經網路有一個初步認識了，下面具體來講解一下卷積神經網路，卷積神經網路依舊是層級結構，但層的功能和形式做了改變，卷積神經網路常用來處理圖片數據，比如識別一輛汽車：

在圖片輸出到神經網路之前，常常先進行圖像處理，有三種常見的圖像的處理方式：

均值化和歸一化

去相關和白化

圖片有一個性質叫做局部關聯性質，一個圖片的像素點影響最大的是它周邊的像素點，而距離這個像素點比較遠的像素點二者之間關系不大。這個性質意味著每一個神經元我們不用處理全局的圖片了（和上一層全連接），我們的每一個神經元只需要和上一層局部連接，相當於每一個神經元掃描一小區域，然後許多神經元（這些神經元權值共享）合起來就相當於掃描了全局，這樣就構成一個特徵圖，n個特徵圖就提取了這個圖片的n維特徵，每個特徵圖是由很多神經元來完成的。

在卷積神經網路中，我們先選擇一個局部區域（filter），用這個局部區域（filter）去掃描整張圖片。局部區域所圈起來的所有節點會被連接到下一層的 一個節點上 。我們拿灰度圖（只有一維）來舉例：

局部區域

圖片是矩陣式的，將這些以矩陣排列的節點展成了向量。就能更好的看出來卷積層和輸入層之間的連接，並不是全連接的，我們將上圖中的紅色方框稱為filter，它是2*2的，這是它的尺寸，這不是固定的，我們可以指定它的尺寸。

我們可以看出來當前filter是2*2的小窗口，這個小窗口會將圖片矩陣從左上角滑到右下角，每滑一次就會一下子圈起來四個，連接到下一層的一個神經元，然後產生四個權重，這四個權重(w1、w2、w3、w4)構成的矩陣就叫做卷積核。

卷積核是演算法自己學習得到的，它會和上一層計算，比如，第二層的0節點的數值就是局部區域的線性組合（w1 0+w2 1+w3 4+w4 5），即被圈中節點的數值乘以對應的權重後相加。

卷積核計算

卷積操作

我們前面說過圖片不用向量表示是為了保留圖片平面結構的信息。同樣的，卷積後的輸出若用上圖的向量排列方式則丟失了平面結構信息。所以我們依然用矩陣的方式排列它們，就得到了下圖所展示的連接，每一個藍色結點連接四個黃色的結點。

卷積層的連接方式

圖片是一個矩陣然後卷積神經網路的下一層也是一個矩陣，我們用一個卷積核從圖片矩陣左上角到右下角滑動，每滑動一次，當然被圈起來的神經元們就會連接下一層的一個神經元，形成參數矩陣這個就是卷積核，每次滑動雖然圈起來的神經元不同，連接下一層的神經元也不同，但是產生的參數矩陣確是一樣的，這就是 權值共享 。

卷積核會和掃描的圖片的那個局部矩陣作用產生一個值，比如第一次的時候，（w1 0+w2 1+w3 4+w4 5），所以，filter從左上到右下的這個過程中會得到一個矩陣（這就是下一層也是一個矩陣的原因），具體過程如下所示：

卷積計算過程

上圖中左邊是圖矩陣，我們使用的filter的大小是3 3的，第一次滑動的時候，卷積核和圖片矩陣作用（1 1+1 0+1 1+0 0+1 1+1 0+0 1+0 0+1 1）=4，會產生一個值，這個值就是右邊矩陣的第一個值，filter滑動9次之後，會產生9個值，也就是說下一層有9個神經元，這9個神經元產生的值就構成了一個矩陣，這矩陣叫做特徵圖，表示image的某一維度的特徵，當然具體哪一維度可能並不知道，可能是這個圖像的顏色，也有可能是這個圖像的輪廓等等。

單通道圖片總結 ：以上就是單通道的圖片的卷積處理，圖片是一個矩陣，我們用指定大小的卷積核從左上角到右下角來滑動，每次滑動所圈起來的結點會和下一層的一個結點相連，連接之後就會形成局部連接，每一條連接都會產生權重，這些權重就是卷積核，所以每次滑動都會產生一個卷積核，因為權值共享，所以這些卷積核都是一樣的。卷積核會不斷和當時卷積核所圈起來的局部矩陣作用，每次產生的值就是下一層結點的值了，這樣多次產生的值組合起來就是一個特徵圖，表示某一維度的特徵。也就是從左上滑動到右下這一過程中會形成一個特徵圖矩陣（共享一個卷積核），再從左上滑動到右下又會形成另一個特徵圖矩陣（共享另一個卷積核），這些特徵圖都是表示特徵的某一維度。

三個通道的圖片如何進行卷積操作？

至此我們應該已經知道了單通道的灰度圖是如何處理的，實際上我們的圖片都是RGB的圖像，有三個通道，那麼此時圖像是如何卷積的呢？

彩色圖像

filter窗口滑的時候，我們只是從width和height的角度來滑動的，並沒有考慮depth，所以每滑動一次實際上是產生一個卷積核，共享這一個卷積核，而現在depth=3了，所以每滑動一次實際上產生了具有三個通道的卷積核（它們分別作用於輸入圖片的藍色、綠色、紅色通道），卷積核的一個通道核藍色的矩陣作用產生一個值，另一個和綠色的矩陣作用產生一個值，最後一個和紅色的矩陣作用產生一個值，然後這些值加起來就是下一層結點的值，結果也是一個矩陣，也就是一張特徵圖。

三通道的計算過程

要想有多張特徵圖的話，我們可以再用新的卷積核來進行左上到右下的滑動，這樣就會形成 新的特徵圖 。

三通道圖片的卷積過程

也就是說增加一個卷積核，就會產生一個特徵圖，總的來說就是輸入圖片有多少通道，我們的卷積核就需要對應多少通道，而本層中卷積核有多少個，就會產生多少個特徵圖。這樣卷積後輸出可以作為新的輸入送入另一個卷積層中處理，有幾個特徵圖那麼depth就是幾，那麼下一層的每一個特徵圖就得用相應的通道的卷積核來對應處理，這個邏輯要清楚，我們需要先了解一下 基本的概念：

卷積計算的公式

4x4的圖片在邊緣Zero padding一圈後，再用3x3的filter卷積後，得到的Feature Map尺寸依然是4x4不變。

填充

當然也可以使用5x5的filte和2的zero padding可以保持圖片的原始尺寸，3x3的filter考慮到了像素與其距離為1以內的所有其他像素的關系，而5x5則是考慮像素與其距離為2以內的所有其他像素的關系。

規律： Feature Map的尺寸等於

(input_size + 2 * padding_size − filter_size)/stride+1

我們可以把卷積層的作用 總結一點： 卷積層其實就是在提取特徵，卷積層中最重要的是卷積核（訓練出來的），不同的卷積核可以探測特定的形狀、顏色、對比度等，然後特徵圖保持了抓取後的空間結構，所以不同卷積核對應的特徵圖表示某一維度的特徵，具體什麼特徵可能我們並不知道。特徵圖作為輸入再被卷積的話，可以則可以由此探測到"更大"的形狀概念，也就是說隨著卷積神經網路層數的增加，特徵提取的越來越具體化。

激勵層的作用可以理解為把卷積層的結果做 非線性映射 。

激勵層

上圖中的f表示激勵函數，常用的激勵函數幾下幾種：

常用的激勵函數

我們先來看一下激勵函數Sigmoid導數最小為0，最大為1/4，

激勵函數Sigmoid

Tanh激活函數：和sigmoid相似，它會關於x軸上下對應，不至於朝某一方面偏向

Tanh激活函數

ReLU激活函數（修正線性單元)：收斂快，求梯度快，但較脆弱，左邊的梯度為0

ReLU激活函數

Leaky ReLU激活函數：不會飽和或者掛掉，計算也很快，但是計算量比較大

Leaky ReLU激活函數

一些激勵函數的使用技巧 ：一般不要用sigmoid，首先試RELU，因為快，但要小心點，如果RELU失效，請用Leaky ReLU，某些情況下tanh倒是有不錯的結果。

這就是卷積神經網路的激勵層，它就是將卷積層的線性計算的結果進行了非線性映射。可以從下面的圖中理解。它展示的是將非線性操作應用到一個特徵圖中。這里的輸出特徵圖也可以看作是"修正"過的特徵圖。如下所示：

非線性操作

池化層：降低了各個特徵圖的維度，但可以保持大分重要的信息。池化層夾在連續的卷積層中間，壓縮數據和參數的量，減小過擬合，池化層並沒有參數，它只不過是把上層給它的結果做了一個下采樣（數據壓縮）。下采樣有兩種常用的方式：

Max pooling ：選取最大的，我們定義一個空間鄰域（比如，2x2 的窗口），並從窗口內的修正特徵圖中取出最大的元素，最大池化被證明效果更好一些。

Average pooling ：平均的，我們定義一個空間鄰域（比如，2x2 的窗口），並從窗口內的修正特徵圖算出平均值

Max pooling

我們要注意一點的是：pooling在不同的depth上是分開執行的，也就是depth=5的話，pooling進行5次，產生5個池化後的矩陣，池化不需要參數控制。池化操作是分開應用到各個特徵圖的，我們可以從五個輸入圖中得到五個輸出圖。

池化操作

無論是max pool還是average pool都有分信息被舍棄，那麼部分信息被舍棄後會損壞識別結果嗎？

因為卷積後的Feature Map中有對於識別物體不必要的冗餘信息，我們下采樣就是為了去掉這些冗餘信息，所以並不會損壞識別結果。

我們來看一下卷積之後的冗餘信息是怎麼產生的？

我們知道卷積核就是為了找到特定維度的信息，比如說某個形狀，但是圖像中並不會任何地方都出現這個形狀，但卷積核在卷積過程中沒有出現特定形狀的圖片位置卷積也會產生一個值，但是這個值的意義就不是很大了，所以我們使用池化層的作用，將這個值去掉的話，自然也不會損害識別結果了。

比如下圖中，假如卷積核探測"橫折"這個形狀。卷積後得到3x3的Feature Map中，真正有用的就是數字為3的那個節點，其餘數值對於這個任務而言都是無關的。所以用3x3的Max pooling後，並沒有對"橫折"的探測產生影響。試想在這里例子中如果不使用Max pooling，而讓網路自己去學習。網路也會去學習與Max pooling近似效果的權重。因為是近似效果，增加了更多的參數的代價，卻還不如直接進行最大池化處理。

最大池化處理

在全連接層中所有神經元都有權重連接，通常全連接層在卷積神經網路尾部。當前面卷積層抓取到足以用來識別圖片的特徵後，接下來的就是如何進行分類。通常卷積網路的最後會將末端得到的長方體平攤成一個長長的向量，並送入全連接層配合輸出層進行分類。比如，在下面圖中我們進行的圖像分類為四分類問題，所以卷積神經網路的輸出層就會有四個神經元。

四分類問題

我們從卷積神經網路的輸入層、卷積層、激活層、池化層以及全連接層來講解卷積神經網路，我們可以認為全連接層之間的在做特徵提取，而全連接層在做分類，這就是卷積神經網路的核心。

❹ 什麼是全連接神經網路怎麼理解「全連接」

1、全連接神經網路解析：對n-1層和n層而言，n-1層的任意一個節點，都和第n層所有節點有連接。即第n層的每個節點在進行計算的時候，激活函數的輸入是n-1層所有節點的加權。

2、全連接的神經網路示意圖：

3、「全連接」是一種不錯的模式，但是網路很大的時候，訓練速度回很慢。部分連接就是認為的切斷某兩個節點直接的連接，這樣訓練時計算量大大減小。

❺ 為什麼說Transformer的注意力機制是相對廉價的注意力機制相對更對於RNN系列及CNN系列演算法有何優勢

QA形式對自然語言處理中注意力機制（Attention）進行總結，並對Transformer進行深入解析。

二、Transformer（Attention Is All You Need）詳解
1、Transformer的整體架構是怎樣的？由哪些部分組成？
2、Transformer Encoder 與 Transformer Decoder 有哪些不同？
3、Encoder-Decoder attention 與self-attention mechanism有哪些不同？
4、multi-head self-attention mechanism具體的計算過程是怎樣的？
5、Transformer在GPT和Bert等詞向量預訓練模型中具體是怎麼應用的？有什麼變化？

一、Attention機制剖析

1、為什麼要引入Attention機制？

根據通用近似定理，前饋網路和循環網路都有很強的能力。但為什麼還要引入注意力機制呢？

計算能力的限制：當要記住很多「信息「，模型就要變得更復雜，然而目前計算能力依然是限制神經網路發展的瓶頸。
優化演算法的限制：雖然局部連接、權重共享以及pooling等優化操作可以讓神經網路變得簡單一些，有效緩解模型復雜度和表達能力之間的矛盾；但是，如循環神經網路中的長距離以來問題，信息「記憶」能力並不高。

可以藉助人腦處理信息過載的方式，例如Attention機制可以提高神經網路處理信息的能力。

2、Attention機制有哪些？（怎麼分類？）

當用神經網路來處理大量的輸入信息時，也可以借鑒人腦的注意力機制，只選擇一些關鍵的信息輸入進行處理，來提高神經網路的效率。按照認知神經學中的注意力，可以總體上分為兩類：

聚焦式（focus）注意力：自上而下的有意識的注意力，主動注意——是指有預定目的、依賴任務的、主動有意識地聚焦於某一對象的注意力；
顯著性（saliency-based）注意力：自下而上的有意識的注意力，被動注意——基於顯著性的注意力是由外界刺激驅動的注意，不需要主動干預，也和任務無關；可以將max-pooling和門控（gating）機制來近似地看作是自下而上的基於顯著性的注意力機制。

在人工神經網路中，注意力機制一般就特指聚焦式注意力。

3、Attention機制的計算流程是怎樣的？

Attention機制的實質：定址（addressing）

Attention機制的實質其實就是一個定址（addressing）的過程，如上圖所示：給定一個和任務相關的查詢Query向量q，通過計算與Key的注意力分布並附加在Value上，從而計算Attention Value，這個過程實際上是Attention機制緩解神經網路模型復雜度的體現：不需要將所有的N個輸入信息都輸入到神經網路進行計算，只需要從X中選擇一些和任務相關的信息輸入給神經網路。

注意力機制可以分為三步：一是信息輸入；二是計算注意力分布α；三是根據注意力分布α 來計算輸入信息的加權平均。

step1-信息輸入：用X= [x1, · · · , xN ]表示N 個輸入信息；

step2-注意力分布計算：令Key=Value=X，則可以給出注意力分布

我們將稱之為注意力分布（概率分布），為注意力打分機制，有幾種打分機制：

step3-信息加權平均：注意力分布可以解釋為在上下文查詢q時，第i個信息受關注的程度，採用一種「軟性」的信息選擇機制對輸入信息X進行編碼為：

這種編碼方式為軟性注意力機制（soft Attention），軟性注意力機制有兩種：普通模式（Key=Value=X）和鍵值對模式（Key！=Value）。

軟性注意力機制（soft Attention）

4、Attention機制的變種有哪些？

與普通的Attention機制（上圖左）相比，Attention機制有哪些變種呢？

變種1-硬性注意力：之前提到的注意力是軟性注意力，其選擇的信息是所有輸入信息在注意力分布下的期望。還有一種注意力是只關注到某一個位置上的信息，叫做硬性注意力（hard attention）。硬性注意力有兩種實現方式：（1）一種是選取最高概率的輸入信息；（2）另一種硬性注意力可以通過在注意力分布式上隨機采樣的方式實現。硬性注意力模型的缺點：
硬性注意力的一個缺點是基於最大采樣或隨機采樣的方式來選擇信息。因此最終的損失函數與注意力分布之間的函數關系不可導，因此無法使用在反向傳播演算法進行訓練。為了使用反向傳播演算法，一般使用軟性注意力來代替硬性注意力。硬性注意力需要通過強化學習來進行訓練。——《神經網路與深度學習》
變種2-鍵值對注意力：即上圖右邊的鍵值對模式，此時Key！=Value，注意力函數變為：

變種3-多頭注意力：多頭注意力（multi-head attention）是利用多個查詢Q = [q1, · · · , qM]，來平行地計算從輸入信息中選取多個信息。每個注意力關注輸入信息的不同部分，然後再進行拼接：

5、一種強大的Attention機制：為什麼自注意力模型（self-Attention model）在長距離序列中如此強大？

（1）卷積或循環神經網路難道不能處理長距離序列嗎？

當使用神經網路來處理一個變長的向量序列時，我們通常可以使用卷積網路或循環網路進行編碼來得到一個相同長度的輸出向量序列，如圖所示：

基於卷積網路和循環網路的變長序列編碼

從上圖可以看出，無論卷積還是循環神經網路其實都是對變長序列的一種「局部編碼」：卷積神經網路顯然是基於N-gram的局部編碼；而對於循環神經網路，由於梯度消失等問題也只能建立短距離依賴。

（2）要解決這種短距離依賴的「局部編碼」問題，從而對輸入序列建立長距離依賴關系，有哪些辦法呢？

如果要建立輸入序列之間的長距離依賴關系，可以使用以下兩種方法：一種方法是增加網路的層數，通過一個深層網路來獲取遠距離的信息交互，另一種方法是使用全連接網路。 ——《神經網路與深度學習》
全連接模型和自注意力模型：實線表示為可學習的權重，虛線表示動態生成的權重。

由上圖可以看出，全連接網路雖然是一種非常直接的建模遠距離依賴的模型，但是無法處理變長的輸入序列。不同的輸入長度，其連接權重的大小也是不同的。

這時我們就可以利用注意力機制來「動態」地生成不同連接的權重，這就是自注意力模型（self-attention model）。由於自注意力模型的權重是動態生成的，因此可以處理變長的信息序列。

總體來說，為什麼自注意力模型（self-Attention model）如此強大：利用注意力機制來「動態」地生成不同連接的權重，從而處理變長的信息序列。

（3）自注意力模型（self-Attention model）具體的計算流程是怎樣的呢?

同樣，給出信息輸入：用X = [x1, · · · , xN ]表示N 個輸入信息；通過線性變換得到為查詢向量序列，鍵向量序列和值向量序列：

上面的公式可以看出，self-Attention中的Q是對自身（self）輸入的變換，而在傳統的Attention中，Q來自於外部。

self-Attention計算過程剖解（來自《細講 | Attention Is All You Need 》）

注意力計算公式為：

自注意力模型（self-Attention model）中，通常使用縮放點積來作為注意力打分函數，輸出向量序列可以寫為：

二、Transformer（Attention Is All You Need）詳解

從Transformer這篇論文的題目可以看出，Transformer的核心就是Attention，這也就是為什麼本文會在剖析玩Attention機制之後會引出Transformer，如果對上面的Attention機制特別是自注意力模型（self-Attention model）理解後，Transformer就很容易理解了。

1、Transformer的整體架構是怎樣的？由哪些部分組成？

Transformer模型架構

Transformer其實這就是一個Seq2Seq模型，左邊一個encoder把輸入讀進去，右邊一個decoder得到輸出：

Seq2Seq模型

Transformer=Transformer Encoder+Transformer Decoder

（1）Transformer Encoder（N=6層，每層包括2個sub-layers）：

Transformer Encoder
sub-layer-1：multi-head self-attention mechanism，用來進行self-attention。
sub-layer-2：Position-wise Feed-forward Networks，簡單的全連接網路，對每個position的向量分別進行相同的操作，包括兩個線性變換和一個ReLU激活輸出（輸入輸出層的維度都為512，中間層為2048）：

每個sub-layer都使用了殘差網路：

（2）Transformer Decoder（N=6層，每層包括3個sub-layers）：

Transformer Decoder
sub-layer-1：Masked multi-head self-attention mechanism，用來進行self-attention，與Encoder不同：由於是序列生成過程，所以在時刻 i 的時候，大於 i 的時刻都沒有結果，只有小於 i 的時刻有結果，因此需要做Mask。
sub-layer-2：Position-wise Feed-forward Networks，同Encoder。
sub-layer-3：Encoder-Decoder attention計算。

2、Transformer Encoder 與 Transformer Decoder 有哪些不同？

（1）multi-head self-attention mechanism不同，Encoder中不需要使用Masked，而Decoder中需要使用Masked；

（2）Decoder中多了一層Encoder-Decoder attention，這與 self-attention mechanism不同。

3、Encoder-Decoder attention 與self-attention mechanism有哪些不同？

它們都是用了 multi-head計算，不過Encoder-Decoder attention採用傳統的attention機制，其中的Query是self-attention mechanism已經計算出的上一時間i處的編碼值，Key和Value都是Encoder的輸出，這與self-attention mechanism不同。代碼中具體體現：

## Multihead Attention ( self-attention)

self.dec = multihead_attention(queries=self.dec,

keys=self.dec,

num_units=hp.hidden_units,

num_heads=hp.num_heads,

dropout_rate=hp.dropout_rate,

is_training=is_training,

causality=True,

scope="self_attention")

## Multihead Attention ( Encoder-Decoder attention)

self.dec = multihead_attention(queries=self.dec,

keys=self.enc,

num_units=hp.hidden_units,

num_heads=hp.num_heads,

dropout_rate=hp.dropout_rate,

is_training=is_training,

causality=False,

scope="vanilla_attention")

4、multi-head self-attention mechanism具體的計算過程是怎樣的？

multi-head self-attention mechanism計算過程

Transformer中的Attention機制由Scaled Dot-Proct Attention和Multi-Head Attention組成，上圖給出了整體流程。下面具體介紹各個環節：

Expand：實際上是經過線性變換，生成Q、K、V三個向量；
Split heads: 進行分頭操作，在原文中將原來每個位置512維度分成8個head，每個head維度變為64；
Self Attention：對每個head進行Self Attention，具體過程和第一部分介紹的一致；
Concat heads：對進行完Self Attention每個head進行拼接；

上述過程公式為：

5、Transformer在GPT和Bert等詞向量預訓練模型中具體是怎麼應用的？有什麼變化？

GPT中訓練的是單向語言模型，其實就是直接應用Transformer Decoder；
Bert中訓練的是雙向語言模型，應用了Transformer Encoder部分，不過在Encoder基礎上還做了Masked操作；

BERT Transformer 使用雙向self-attention，而GPT Transformer 使用受限制的self-attention，其中每個token只能處理其左側的上下文。雙向 Transformer 通常被稱為「Transformer encoder」，而左側上下文被稱為「Transformer decoder」，decoder是不能獲要預測的信息的。

❻ 為什麼當神經元結點和層數增加時,全連接深度神經網路訓練權值很困難

節點越多參數量越大
層數越多模型越復雜
困難倒沒多困難，就是計算量大點

全連接神經網路模型復雜嗎

與全連接神經網路模型復雜嗎相關的內容