⑴ 網路配置模型(configuration model)中兩點之間存在連邊的概率
給定一個配置網路的定義,如下:
Definition:We are given a degree sequence (d1, d2, ..., dn) where d1 ≥ d2 ≥ ... ≥ dn and the Configuration Model generates a random graph that realizes this provided degree sequence.
即,任取一個總和為2m的正整數序列 (d1, d2, ..., dn) ,作為網路中對應n個節點的度,再通過配置模型方法生成網路。
那麼,在這個網路中,任意兩個節點v i 、v j 之間存在連邊的概率 [1, 2] ?
可以這么理解,i、j節改遲點分別向外伸出仿岩d i 、d j 條邊。對於i節點,除了連向i節點的一條邊以外核大李,還有另外共計2m-1條邊。對於j節點,它向外伸出d j 條邊,那麼任選一遍連到j節點的概率是
又因為i節點有d i 條邊伸出來,所以i節點連到j節點的概率就是d i 乘以上式,即
參考文獻
[1] Newman M. Networks. An introction[M], Networks: An Introction. Oxford University Press, Inc. 2010.
[2] 汪小帆, 李翔, 陳關榮. 網路科學導論[M]. 高等教育出版社, 2012.
⑵ (二)大連接:社交網路的形成與行為
主要內容:三元閉包關系的強度及其與網路結構的關系
一、圖論
1、圖:包含一組元素以及他們之間連接關系的集合
(1)節點(vertex,node,point)
邊(鏈接,連接,關系,聯系;edge,link,tie)
鄰居
(2)常用的圖:合作圖、即時通信圖、信息鏈接圖
(3)有向圖(節點、有向邊)、無向圖
2、圖的同構:畫法不同,但本質上(結構上)相同
節點的連接關系比節點的位置更重要。
【題目】下面哪些圖是同構的?
【題目】
3、路徑、最短路徑、距離、圈
①路徑:一個節點序列的集合,且序列中任意兩個相鄰節點都有一條邊相連。
兩點之間可有多條路徑。
路徑念攜的長度:一條路徑所包含的邊數
②最短路徑-->又叫兩點之間的距離
③距離-->最短路徑的長度
【題目】下圖中節點A和節點B之間的距離是多少?
④圈
環狀結構;至少三條邊,起點與終點相同,所有節點均不重復。
部署網路的一個原則:要求每條邊都至少在一個圈裡(為了保證連通性,帶來冗餘)。eg:ARPANET的每條邊都在圈裡
4、連通性
(1)連通圖:一個圖中任意兩點間有路徑相通;每條邊都在一個圈裡。
(2)非連通圖
(3)連通分量
若圖G的節點子集滿足:①連通性:子集中任意兩個節點間均有路徑相連;②獨立性:該子集不是其他滿足條件1的子集的一部分;則稱G的節點子集是連通分量
【題目】下面指出的哪些節點集合不對應這個6節點圖的一個連通分量?
(4)超大連通分量(giant component)
非形式化地對於包含其中大部分節點的連通分量的稱謂。
Q:全世界友型游誼圖是否為連通圖?A:即使本身不具備聯通性,其中的連通分量也是巨大的。
5、距離與廣度優先搜索法
深度搜索和廣度搜索的演算法復雜度相同,但是深度搜索用的多,因為廣度搜索對存儲的要求高,一層中節點太多。
廣度優先:從一個節點開始,沿著相連的邊,將圖的節點一一列舉。
二、弱聯系和強聯系
1、三元閉包(triadic closure)
在一個社交圈內,如果兩個互不認識的人有了一個共同的朋友,則他們將來成為朋友的可能性會提高。
三元閉包是社交網路演化的基本結構性原因。
三語閉包產生的原因:機會、信任、動機
三元閉包原理擴展:
①「量」的方面
兩個人的共同朋友越多,他們成為朋友的可能性越高
②「質」的方面
兩個人與共同朋友的關系越密切,則他們成為朋友的可能性越高。
2、聚卜高銷集系數
節點A的聚集系數:A的任意兩個朋友彼此也是朋友的概率
總對數=節點的度*(節點度-1)/2
聚集系數就是三元閉包在一個節點上的屬性測度,表示「凝聚力」的大小
聚集系數隨時間的變化體現了三元閉包對網路結構的影響趨勢。節點附近的三元閉包過程越強,其聚集系數就越大。
【題目】
3、三元閉包原理的大數據驗證
(1)三元閉包原理的表達(定量)
最初表述:如果兩個互不認識的人有了一個共用朋友,則他們在未來成為朋友的可能性增加。
轉變成:兩個互不認識的人的共同朋友數越多,則他倆在未來成為朋友的可能性越大。
(2)驗證數據:電子郵件網路≈社會網路
(3)考察網路的演化:考察兩個相繼的網路快照
考察三元閉包現象的測度:當前共同朋友數與後來成為朋友的概率關系。
得到一個圖-->找不連接的邊-->計算不連接節點他們的共同朋友-->過一定的時間再做。
【題目】
4、弱聯系的力量
(1)橋:一張圖中,已知A和B相連,若去掉連接A和B的邊,會導致A和B屬於不同的連通分量,則該邊稱為橋。(斷開就不通)
(2)捷徑(local bridge):若邊A-B的端點A和B沒有共同朋友,則稱邊A-B為捷徑。(斷開距離>2)
(3)跨度:沒有捷徑時的距離。
如果A和B的跨度>2,則A和B之間的邊是捷徑。
跨度很大的捷徑的作用類似於橋。
通過捷徑聯系的人更可能為你提供工作信息。(找工作問題的第一個解釋)
5、強三元閉包
捷徑很大程度上可能是弱聯系
考慮社交網路中關系的強度-->邊的屬性
邊屬性的一種測度:強-弱(強度可以使連續變數)
(1)強三元閉包原理(架設):如果A-B和A-C之間的關系為強聯系,則B-C之間形成邊的可能性應該很高
若A有兩個強聯系鄰居B和C,但B-C之間沒有任何關系(s或w,即strengh或weak),則稱節點A違背了強三元閉包原理。反之,則稱A符合強三元閉包原理。
(2)在一定條件下:捷徑-->弱聯系
若節點A符合強三元閉包,且至少有兩個強聯系鄰居,則與A相連的任何捷徑必定是弱聯系。
(假設A-B是s,而A有個強聯系鄰居C,即A-C為s,那麼根據強三元閉包,一段時間後B-C會有聯系,A-B的跨度為2,與捷徑的定義矛盾)
連接關系:強聯系、弱聯系
結構關系:捷徑、非捷徑
三元閉包將連接關系和結構關系連接起來了。
(兩人的關系強度如何,與兩人是否有共同好友相關,但不等價)捷徑意味著沒有共同朋友,強度為「弱」。
(3)統計推論:共同朋友越多,關系強度越高
6、鄰里重疊度
(1)社交網路中,橋、捷徑一般不存在-->鄰里重疊度(Neighborhood Overlap)
①捷徑是鄰里重疊度為0的邊
②可以把鄰里重疊地很低的邊粗略的視為捷徑
③一種很好的從二到多的數學抽象的例子
目標3:弱聯系起到將包含大量強聯系的緊密社區連接起來的作用。(方法:從強度最強的關系邊開始,按強度的降序逐漸刪邊;從強度最弱的關系邊,按強度的升序,逐漸刪除邊。發現:從弱的開始刪,網路崩的快)
(2)社交網路實驗
Facebook的三種連接:相互連接、單向連接、保持關系。
社交網路中好友數目:盡管一個用戶可聲明關注大量(幾百)其,但實際關注的大約在50以下,而真正有聯系的則更少,在20以下。
社會網路是用弱系連起來的若干緊密群體。
7、結構洞
(1)嵌入性:一條邊的嵌入性為其兩個端點共同的鄰居數
①嵌入性就是鄰里疊度的分子
②捷徑就是嵌入性0的邊
③嵌入性越大的邊相互間的信任就越強;嵌入性越強的邊社會資本也越多
節點A:
①聚集系數較高(7/10)
②A關聯的邊多數具有較大的嵌入性
③處於一個相對比較誠實可信的群體
節點B:
①聚集數較(2/10)
②他關聯的邊多數具有較小的嵌入性
③結構洞: 兩個沒有緊密聯系的節點集合之間的「空地」
節點B具有的優勢:
①信息優勢: 可以較早地獲得網路中多個互不交叉部分的信息
②創新優勢: 處在捷徑的一端對創造性有放大功能
③權力優勢:所處位置具有某種社交「把關」的機會
啟示:有效破壞網路的連通性(以最快最小的代價):破壞處於結構洞位置的節點或捷徑(關鍵連接)
(2)數字大炮(一種DDoS)(攻的是路由器的BGP協議)
邊界網關協議(BGP)
主要用於兩個自治系統(AS)間交換路由信息
使用矢量路徑機制,路由信息格式:<目的站, AS有序列表(由AS構成的路徑) >
UPDATE報文:(發生時機:發生變化時,發送UPDATE報文)
「數字大炮」攻擊示意:
攻擊的基本原理:
數字大炮的攻擊步驟:
① 構建僵屍網路(可預先構建)
② 啟動僵屍網路中的計算機之間流量發送,建立它們之間的「路徑地圖」 (拓撲發現),找到眾多路共用的連接(關鍵鏈路)(可預先構建)
③ 由僵屍網路對關鍵鏈路兩端路由器BGP協議發動ZMW攻擊,使得關鍵鏈路處於斷開狀態
④ 附近路由器會對此作出回應,發送BGP更新消息
⑤ 很短的時間之後,這兩個被切斷的路由器可能會重新連接,並發送BGP更新信息
⑥ 不斷重復(3) ~(5),最後互聯網上每一台路由器都會接收到超出自身處理能力的更新消息,從而導致互聯網癱瘓
數字大炮的攻擊效果:
選好節點,靠網路自身的擴散功能。實驗不錯,但是實際中很難。這幾年很少用,DDoS多用放大協議,即受到的包不大,但是會回過來一個很大的包。
(3)如何找到重要的邊
①橋,捷徑,鄰里疊度很低的邊,……
②許多節點之間的最短路徑都要經過它
8、介數
節點介數定義為網路中所有最短路徑中經過該節點的路徑的數目占最短路徑總數的比例。
邊介數定義為網路中所有最短路徑中經過該邊的路徑的數目占最短路徑總數的比例。
(本課中,後面說的介數,都是指最短路徑數)
(1)介數:一條邊承載的一種「流量」
①兩個節點A和B,設想1個單位的流量從A到B,均分到它們之間所有的最短路徑上
②K條路徑,則每條路徑上分得1/k,
③若一條邊被m條路徑共用,則在它面流過m/k
④所有節點對都考慮後,一條邊上的累記流量就是它的介數(betweenness)
(2)破壞連通性
①Girvan-Neman方法: 逐步刪除高介數邊
(3)介數計算的一種方法-->廣度搜索
路徑的數目從上往下算
下圖:因為A給每個人都發了一個單位流量(可以想數據包),所以每個節點都會留下1個單位流量
介數:很適合描述實際網路中,承載流量的邊的信息
三、回顧總結
⑶ matlab中如何設定復雜網路節點間的連接概率
需要兩個小數(0~1)做比較:1,使用matlab隨機生成0~1的隨機數p;2,輸入參數或者計算的小數q。如果q>p,不加邊;否則,加邊。
⑷ 路由協議方面的研究:網路的連接概率和從源節點到目的節點的一條鏈路的連接概率相同嗎
不同,網路的連接概率是指總連接次數除以連接成功的次數,而源節點到目的節點的一條鏈路的鏈接概率為總連接次數除以源節點到目的節點的一條鏈路的鏈接次數。一般的正常情況下是不同的則梁消,但是在特殊情況下是可以渣沖相同的,那就是整個網路就一條鏈路,即孫知源節點到目的節點的一條鏈路。
⑸ 什麼是網路的連接速度定義也可以,舉例亦可。
連接速度是指:你的網卡、網線、另外一頭的網路設備3者之間的最大復傳輸速度。
一般網卡是自適應的,通常是10M/100M/1G的連接速度。
網線也是對應的,一般只有普通網線和千兆(1G)網線的區別。
家用的路由器一般只支持10M/100M自適應速度。
所以家裡電腦如果網卡支持千兆,網線也買千兆網線,那路由就要1000M級別的才不會造成瓶頸。
但是這種速度一般是應用於區域網的,家用100M足矣。
家用連接的互聯網,一般都由ISP(接入商)限制了帶寬,貌似現在家用獨享最大10M吧?一般是4M或2M。所以你的網卡,網線,路由器即使只在10M的連接速度下工作,也是完全可以滿足這個帶寬的傳輸需求的。制
實際網速很大程度上就是上面所說的帶寬所限制的。
順便糾正一下1樓的一些概念問題。
網速的4Mb,是指bps(bit
per
second)每秒鍾傳輸的比特率,和我們平常理解的文件大小1MB不同,1MB是指1M
Byte,1Byte
=
8
bit,所以4Mb的網速最大傳輸每秒512KB。在計算機表達上通常用小寫的b來代表bit,大寫的B來代表Byte作為區分。一樓沒有把這個關鍵的區分方法說明。
⑹ 網路連接的定義是什麼
鏈接是互聯網的橋梁,是網頁的核心與靈魂,互聯網上的各種信息都是通過鏈接聯系在一起的,它將網頁文件和其他資源連接在成一個無邊無際的網路,鏈接可以是文本、圖像或是其他的網頁元素。
超鏈接,也稱為網頁鏈接,可以看作是文件指針,利用相關聯文件的路徑,以指向本地網路驅動器或互聯網存儲的文件,同時可以跳轉到相應的文件,也可以在超鏈接中指定跳轉到文件中的一個上體位置。超鏈接由源端點和目標端點兩部分組成,超級鏈接中有鏈接的一端稱為鏈接的源端點(即單擊的文本或圖像),跳轉到的頁面稱為鏈接的目標端點。
每一個文件都有自己的存放位置和路徑,一個文件要鏈接的另一個文件二者之間的路徑關系是創建鏈接的根本。
鏈接路徑主要可以分為相對路徑,絕對路徑和根路徑三種。
絕對路徑是指包括伺服器協議在內的完全路徑,如http://www.wangyesheji/dreamweaver/index.html,使用絕對路徑與鏈接的源端點無關,只要目標站點地址不變,無論文件在站點中如何移動,都可以正常實跳轉而不會發生錯誤,如果所需鏈接當前站點之外的網頁或網站就必須使用絕對路徑。
相對路徑是指以當前文件所在位置為起點到被鏈接文件經由的路徑,它是站點內最常用的鏈接形式,如dreamweaver/main.html就是一個文件的相對路徑。
根路徑是站點內常用的一種鏈接形式,不過它的參照物是站點根目錄,如「D:mysitewangyewangye.html」。4.3.1創建文本鏈接
文本鏈接是最常見的超級的鏈接之一,它是通過文本作為源端點,達到鏈接的目的。創建文本超級鏈接的步驟如下。
①在需要插入超級鏈接的位置選擇「插入/超級鏈接」命令,在打開的「超級鏈接」對話框中進行鏈接文本、鏈接文件和目標打開方式設置,如圖17所示。②在網頁中選中要創建超級鏈接的文本,在「屬性」面板的「鏈接」下拉列表框中直接輸入鏈接的URL地址或完整的路徑和文件名。
③單擊「鏈接」下拉列表框後的按鈕,在打開的「選擇文件」對話框中選擇所需要鏈接的文件,單擊「確定」按鈕即可鏈接。
④按住「鏈接」下拉列表框後的按鈕,拖動到右側的「文件」面板,並指向所需要鏈接的文件。
創建超級鏈接後,還需要在「目標」下拉列表框中選擇鏈接文件的打開方式,其中有5個選項,如圖18所示,其含義分別如下。_blank:單擊超鏈接文本後,目標端點網頁會在一個新窗口中打開。
new:單擊超鏈接文本後,將新打開一個瀏覽器窗口並顯示鏈接文件,它與_blank的區別只有在某些瀏覽器中才會體現出來。
_parent:單擊超鏈接文本後,在上一級瀏覽器窗口中顯示目標端點網頁。
_self:單擊超鏈接文本後,在當前瀏覽器窗口中顯示目標端點網頁,即替換掉原來的網頁。這是Dreamweaver的默認設置,當不進行選擇設置時,將以該方式打開鏈接文件。
_top:單擊超鏈接文本後,在最頂層的瀏覽器窗口中顯示目標端點網頁。4.3.2創建圖像鏈接
創建圖像超級鏈接有兩種類型,一種與文本的超級鏈接基本相同,選擇圖像後在「屬性」面板的「鏈接」文本框中進行超級鏈接設置即可;另一種是在同一張圖像上創建多個熱點區域,然後分別選中這些熱點區域,在「屬性」面板的「鏈接」文本框中進行超級鏈接設置,當用戶單擊某個熱點時,會自動鏈接到相應的網頁。
要創建圖像熱點區域,在選中圖像後,使用「屬性面板」左下角的熱點創建工具進行熱點區域的創建,如圖19所示。下面介紹熱點工具及其使用方法。
指針熱點工具:該工具用於對熱點進行操作,如選擇、移動、調整圖像熱點區域范圍等。
矩形熱點工具:用於創建規則的矩形或正方形熱點區域。選擇該工具後,將滑鼠指針移動到選中圖像上要創建矩形熱點區域的左上角位置,按住滑鼠左鍵不放,向右下角拖動覆蓋整個需要的熱點區域范圍後釋放滑鼠,完成矩形熱點區域的創建,如圖20所示。
圓形熱點工具:用於繪制圓形熱點區域,其使用方法與矩形熱點工具的使用方法相同,如圖21所示為創建的圓形熱點區域。
多邊形熱點工具:用於繪制不規則的熱點區域。選擇該工具後,將滑鼠游標定位到選中圖像上要繪制的區域的某一個位置單擊,然後將滑鼠游標定位到另一位置後再單擊,重復確定熱點區域的各個關鍵點,最後回到第一個關鍵點上單擊,以形成一個封閉的區域,完成多邊形熱點區域的繪制,如圖22所示為繪制的多邊形熱點區域。4.3.3創建錨點鏈接
有時候網頁很長,為了找到其中的目標,不得不上下拖動滾動條將整個文檔內容瀏覽一遍,這樣就浪費了很多時間。利用錨點鏈接可以精確地控制訪問者在單擊超鏈接之後到達的位置,使訪問者能夠快速瀏覽到指定的位置。
錨點鏈接的創建分為創建錨點和創建鏈接兩部分。具體操作步驟如下。
①打開網頁文檔,將游標置於要插入錨點的位置,然後選擇「插入」/「命名錨記」,在打開的「命名錨記」對話框中輸入錨記名稱後單擊「確定」按鈕即可,如圖23所示。
創建錨記後將在錨記位置顯示一個標記,如圖24所示。②選中作為鏈接的文本、圖像或其他網頁元素,在「屬性」面板的「鏈接」下拉列表框中輸入「#」及錨點名稱,如「#m01」。如果源端點與錨記不在同一個網頁中,則應先寫上網頁的路徑及名稱,再加上前綴「#」和錨記名稱,如「info.html#m01」,然後在「目標」下拉列表框中選擇打開網頁的方式,如圖25所示。完成錨記鏈接後在網頁中單擊鏈接的源端點,即可立即跳轉到相應的命名錨點處。4.3.4創建電子郵件鏈接
電子郵件鏈接可讓瀏覽者啟動電子郵件客戶端,向指定郵箱發送郵件,當用戶在瀏覽器上單擊指向郵件地址的超級鏈接時,將會打開默認的郵件管理器的新郵件窗口,其中會提示用戶輸入信息並將該信息傳送給指定的E-mail地址。
創建電子郵件鏈接的具體操作步驟如下:
打開網頁文檔,將游標置於要插入電子郵件鏈接的位置,選擇「插入」/「電子郵件鏈接」命令,打開「電子郵件鏈接」對話框,在對話框中的「文本」框中輸入「聯系我」,在「電子郵件」文本框中輸入「[email protected]」,如圖26所示。
當用戶單擊電子郵件鏈接時,將打開電腦中的默認郵件客戶端,在其客戶端窗口中,將自動填寫收件人為鏈接中指定的地址。
圖17
圖18
圖19
圖21
圖22>圖23
圖24
圖25
圖26
⑺ 復雜網路介紹(Network Analysis)
網路,數學上稱為圖,最早研究始於1736年歐拉的哥尼斯堡七橋問題,但是之後關於圖的研究發展緩慢,直到1936年,才有了第一本關於圖論研究的著作。
1960年,數學家Erdos和Renyi建立了隨機圖理論,為構造網路提供了一種新的方法。在這種方法中,兩個節點之間是否有邊連接不再是確定的事情,而是根據一個概率決定,這樣生成的網路稱作隨機網路。隨機圖的思想主宰復雜網路研究長達四十年之久,然而,直到近幾年,科學家們對大量的現實網路的實際數據進行計算研究後得到的許多結果,絕大多數的實際網路並不是完全隨機的,既不是規則網路,也不是隨機網路,而是具有與前兩者皆不同的統計特徵的網路。這樣的一•些網路稱為復雜網路,對於復雜網路的研究標志著網路研究的第三階段的到來。
1998年,Watts及其導師Strogatz在Nature上的文章《Collective Dynamics of Small-world Networks》,刻畫了現實世界中的網路所具有的大的凝聚系數和短的平均路徑長度的小世界特性。隨後,1999年,Barabasi及其博士生Albert在Science上的文章《Emergence of Scaling in Random Networks》提出無尺度網路模型(度分布為冪律分布),,刻畫了實際網路中普遍存在的「富者更富」的現象,從此開啟了復雜網路研究的新紀元。
隨著研究的深入,越來越多關於復雜網路的性質被發掘出來,其中很重要的一項研究是2002年Girvan和Newman在PNAS上的一篇文章《Community structure in social and biological networks》,指出復雜網路中普遍存在著聚類特性,每一個類稱之為一個社團(community),並提出了一個發現這些社團的演算法。從此,熱門對復雜網路中的社團發現問題進行了大量研究,產生了大量的演算法。
許多復雜系統都可以建模成一種復雜網路進行分析,比如常見的電力網路、航空網路、交通網路、計算機網路以及社交網路等等。復雜網路不僅是一種數據的表現形式,它同樣也是一種科學研究的手段。
復雜網路的定義
錢學森對於復雜網路給出了一種嚴格的定義:
復雜網路具有網路平均路徑長度較小、聚類系數較大、節點度分度服從冪律分布等相同特性
言外之意,復雜網路就是指一種呈現高度復雜性的網路,其特點主要具體體現在如下幾個方面:
小世界特性(Small world theory)又被稱之為是六度空間理論或者是六度分割理論(Six degrees of separation)。小世界特性指出:社交網路中的任何一個成員和任何一個陌生人之間所間隔的人不會超過六個。
在考慮網路特徵的時候,通常使用兩個特徵來衡量網路:
對於規則網路,任意兩個點(個體)之間的特徵路徑長度長(通過多少個體聯系在一起),但聚合系數高(你是朋友的朋友的朋友的幾率高)。對於隨機網路,任意兩個點之間的特徵路徑長度短,但聚合系數低。而小世界網路,點之間特徵路徑長度小,接近隨機網路,而聚合系數依舊相當高,接近規則網路。
復雜網路的小世界特性跟網路中的信息傳播有著密切的聯系。實際的社會、生態、等網路都是小世界網路,在這樣的系統里,信息傳遞速度快,並且少量改變幾個連接,就可以劇烈地改變網路的性能,如對已存在的網路進行調整,如蜂窩電話網,改動很少幾條線路,就可以顯著提高性能。
現實世界的網路大部分都不是隨機網路,少數的節點往往擁有大量的連接,而大部分節點卻很少,節點的度數分布符合冪率分布,而這就被稱為是網路的無標度特性(Scale-free)。將度分布符合冪律分布的復雜網路稱為無標度網路。
例如,知乎中用戶的fellow數的分布情況:
無標度特性反映了復雜網路具有嚴重的異質性,其各節點之間的連接狀況(度數)具有嚴重的不均勻分布性:網路中少數稱之為Hub點的節點擁有極其多的連接,而大多數節點只有很少量的連接。少數Hub點對無標度網路的運行起著主導的作用。從廣義上說,無標度網路的無標度性是描述大量復雜系統整體上嚴重不均勻分布的一種內在性質。
其實復雜網路的無標度特性與網路的魯棒性分析具有密切的關系。無標度網路中冪律分布特性的存在極大地提高了高度數節點存在的可能性,因此,無標度網路同時顯現出針對隨機故障的魯棒性和針對蓄意攻擊的脆弱性。這種魯棒且脆弱性對網路容錯和抗攻擊能力有很大影響。
研究表明,無標度網路具有很強的容錯性,但是對基於節點度值的選擇性攻擊而言,其抗攻擊能力相當差,高度數節點的存在極大地削弱了網路的魯棒性,一個惡意攻擊者只需選擇攻擊網路很少的一部分高度數節點,就能使網路迅速癱瘓。
人以類聚,物以群分。復雜網路中的節點往往也呈現出集群特性。例如,社會網路中總是存在熟人圈或朋友圈,其中每個成員都認識其他成員。集群程度的意義是網路集團化的程度;這是一種網路的內聚傾向。連通集團概念反映的是一個大網路中各集聚的小網路分布和相互聯系的狀況。例如,它可以反映這個朋友圈與另一個朋友圈的相互關系。
下圖為網路聚集現象的一種描述:
真實網路所表現出來的小世界特性、無尺度冪律分布或高聚集度等現象促使人們從理論上構造出多樣的網路模型,以解釋這些統計特性,探索形成這些網路的演化機制。本節介紹了幾個經典網路模型的原理和構造方法,包括ER隨機網路模型、BA無尺度網路模型和小世界模型。
ErdOs-Renyi隨機網路模型(簡稱ER隨機網路模型)是匈牙利數學家Erdos和Renyi提出的一種網路模型。1959年,為了描述通信和生命科學中的網路,Erdos和Renyi提出,通過在網路節點間隨機地布置連接,就可以有效地模擬出這類系統。這種方法及相關定理的簡明扼要,導致了圖論研究的復興,數學界也因此出現了研究隨機網路的新領域。ER隨機網路模型在計算機科學、統計物理、生命科學、通信工程等領域都得到了廣泛應用。
ER隨機網路模型是個機會均等的網路模型。在該網路模型中,給定一定數目的個體(節點),它和其他任意一個個體(節點)之間有相互關系(連接)的概率相同,記為戶。因為一個節點連接k個其他節點的概率,會隨著k值的增大而呈指數遞減。這樣,如果定義是為每個個體所連接的其他個體的數目,可以知道連接概率p(k)服從鍾形的泊松(Poisson)分布,有時隨機網路也稱作指數網路。
隨機網路理論有一項重要預測:盡管連接是隨機安置的,但由此形成的網路卻是高度民主的,也就是說,絕大部分節點的連接數目會大致相同。實際上,隨機網路中連接數目比平均數高許多或低許多的節點,都十分罕見。
在過去40多年裡,科學家習慣於將所有復雜網路都看作是隨機網路。在1998年研究描繪萬維網(以網頁為節點、以超級鏈接為邊)的項目時,學者們原以為會發現一個隨機網路:人們會根據自己的興趣,來決定將網路文件鏈接到哪些網站,而個人興趣是多種多樣的,可選擇的網頁數量也極其龐大,因而最終的鏈接模式將呈現出相當隨機的結果。
然而,事實並非如此。因為在萬維網上,並非所有的節點都是平等的。在選擇將網頁鏈接到何處時,人們可以從數十億個網站中進行選擇。然而,我們中的大部分人只熟悉整個萬維網的一小部分,這一小部分中往往包含那些擁有較多鏈接的站點,因為這樣的站點更容易為人所知。只要鏈接到這些站點,就等於造就或加強了對它們的偏好。這種「擇優連接(Preferential Attachment)」的過程,也發生在其他網路中。在Internet上,那些具有較多連接的路由器通常也擁有更大的帶寬,因而新用戶就更傾向於連接到這些路由器上。在美國的生物技術產業內,某些知名公司更容易吸引到同盟者,而這又進一步加強了它在未來合作中的吸引力。類似地,在論文引用網路(論文為節點,引用關系為邊)中,被引用次數較多的科學文獻,會吸引更多的研究者去閱讀並引用它。針對這些網路的「擇優連接」的新特性,學者提出了BA無尺度網路模型。
無尺度網路的發現,使人類對於復雜網路的認識進入了一個新的天地。無尺度網路的最主要特徵是節點的度分布服從冪次定律。BA模型是無尺度網路(Scale-free Network)的第一個抽象模型。由於考慮了系統的成長性(Growth)和擇優連接性,BA模型給我們帶來了很多啟發,並且可以應用於多種實際網路。但是BA模型的兩個基本假定,對於解釋許多現實中的現象來說過於簡單,與現實的網路還有較大的距離。
有學者試圖對BA模型進行擴展,即根據現實中的網路,增添某些假定,以便進一步探索復雜網路系統的規律。對BA模型的擴充可以考慮三個因素:擇優選擇的成本、邊的重新連接、網路的初始狀態。擴充的BA模型可以更好地模擬現實世界中的網路現象。
1999年,丸Barabasi和兄Albert在對互聯網的研究中發現了無尺度網路,使人類對於復雜網路系統有了全新的認識。過去,人們習慣於將所有復雜網路看作是隨機網路,但Barabasi和Albert發現互聯網實際上是由少數高連接性的頁面組織起來的,80%以上頁面的鏈接數不到4個。只佔節點總數不到萬分之一的極少數節點,卻有1000個以上的鏈接。這種網頁的鏈接分布遵循所謂的「冪次定律」:任何一個節點擁有是條連接的概率,與1/k成正比。它不像鍾形曲線那樣具有一個集中度很高的峰值,而是一條連續遞減的曲線。如果取雙對數坐標系來描述冪次定律,得到的是一條直線。
Scale-free網路指的是節點的度分布符合冪律分布的網路,由於其缺乏一個描述問題的特徵尺度而被稱為無尺度網路。其後的幾年中,研究者們在許多不同的領域中都發現了無尺度網路。從生態系統到人際關系,從食物鏈到代謝系統,處處可以看到無尺度網路。
為什麼隨機模型與實際不相符合呢?Barabasi和Albert在深入分析了ER模型之後,發現問題在於ER模型討論的網路是一個既定規模的,不會繼續擴展的網路。正是由於現實當中的網路往往具有不斷成長的特性,早進入的節點(老節點)獲得連接的概率就更大。當網路擴張到一定規模以後,這些老節點很容易成為擁有大量連接的集散節點。這就是網路的「成長性」。
其次,ER模型中每個節點與其他節點連接時,建立連接的概率是相同的。也就是說,網路當中所有的節點都是平等的。這一情況與實際也不相符。例如,新成立的網站選擇與其他網站鏈接時,自然是在人們所熟知的網站中選擇一個進行鏈接,新的個人主頁上的超文本鏈接更有可能指向新浪、雅虎等著名的站點。由此,那些熟知的網站將獲得更多的鏈接,這種特性稱為「擇優連接」。這種現象也稱為「馬太效應(Matthew Effect)」或「富者更富(Rich Get Richer)」。
「成長性」和「擇優連接」這兩種機制解釋了網路當中集散節點的存在。
BA無尺度模型的關鍵在於,它把實際復雜網路的無尺度特性歸結為增長和優先連接這兩個非常簡單的機制。當然,這也不可避免地使得BA無尺度網路模型和真實網路相比存在一些明顯的限制。比如,一些實際網路的局域特性對網路演化結果的影響、外界對網路節點及其連接邊刪除的影響等。
一般自然的或者人造的現實網路與外界之間有節點交換,節點間連接也在不斷變化,網路自身具有一定的自組織能力,會對自身或者外界的變化作出相應的反應。因此,在BA模型基礎上,可以把模型的動力學過程進行推廣,包括對網路中已有節點或者連接的隨機刪除及其相應的連接補償機制。
對每一個時間步長,考慮如下三種假設:
復雜網路研究中一個重要的發現是絕大多數大規模真實網路的平均路徑長度比想像的小得多,稱之為「小世界現象」,或稱「六度分離(Six Degrees of Separation)」。
所謂小世界現象,是來自社會網路(Social Networks)中的基本現象,即每個人只需要很少的中間人(平均6個)就可以和全世界的人建立起聯系。在這一理論中,每個人可看作是網路的一個節點,並有大量路徑連接著他們,相連接的節點表示互相認識的人。
1998年,Watts和Strogatz引入了一個介於規則網路和完全隨機網路之間的單參數小世界網路模型,稱為WS小世界模型,該模型較好地體現了社會網路的小平均路徑長度和大聚類系數兩種現象。
WS小世界模型的構造方法如下:
在WS小世界模型中,p=0對應於規則網路,p=l則對應於完全隨機網路,通過調節聲的值就可以控制從規則網路到完全隨機圖的過渡。因此,WS小世界網路是介於規則網路和隨機網路之間的一種網路。
WS小世界模型構造演算法中的隨機化過程有可能破壞網路的連通性。因此,Newman和Watts稍後提出了NW小世界模型。NW小世界模型的構造方法如下:
NW模型只是將WS小世界模型構造中的「隨機化重連」改為「隨機化加邊」。
NW模型不同於WS模型之處在於它不切斷規則網路中的原始邊,而是以概率p重新連接一對節點。這樣構造出來的網路同時具有大的聚類數和小的平均距離。NW模型的優點在於其簡化了理論分析,因為WS模型可能存在孤立節點,但NW模型不會。當戶足夠小和N足夠大時,NW小世界模型本質上就等同於WS小世界模型。
小世界網路模型反映了實際網路所具有的一些特性,例如朋友關系網,大部分人的朋友都是和他們住在同一個地方,其地理位置不是很遠,或只在同一單位工作或學習的同事和同學。另一方面,也有些人住得較遠的,甚至是遠在異國他鄉的朋友,這種情形好比WS小世界模型中通過重新連線或在NW小世界模型中通過加入連線產生的遠程連接。
小世界網路模型的主要特徵之一是節點之間的平均距離隨遠程連接的個數而指數下降。對於規則網路,平均距離L可估計為L正比於N;而對於小世界網路模型,L正比於ln(N)/1n(K)。例如,對於一個千萬人口的城市,人與人的平均接觸距離是6左右,這使得生活人群之間的距離大大縮短。該模型由一個規則的環組成,通常是一個一維的幾乎具有周期性邊界條件的環(即環中每個節點幾乎都連接到一固定數目的鄰近節點)和少量的隨機選取節點連接成的「捷徑」 (重新連接現存的邊)。小世界網路同時具有「高網路聚集度」和「低平均路徑」的特性。
從小世界網路模型中可以看到,只要改變很少的幾個連接,就可以劇烈的改變網路的性能。這樣的性質也可以應用其他網路,尤其是對已有網路的調整方面。例如,蜂窩電話網,改動很少幾條線路(低成本、低工作量)的連接,就可以顯著提高性能。也可以應用到互聯網的主幹路由器上,以改變流量和提高傳輸速度。同樣的思路也可以應用到電子郵件的快速傳遞、特定Web站點的定位等。
如果學習復雜網路,目前認為最好的視頻教程:
【社交計算與社會網路分析】Network Analysis
1) 復雜網路中聚類演算法總結
2) Network Analysis復雜網路分析總結
3) 復雜網路和社會網路