⑴ 网络配置模型(configuration model)中两点之间存在连边的概率
给定一个配置网络的定义,如下:
Definition:We are given a degree sequence (d1, d2, ..., dn) where d1 ≥ d2 ≥ ... ≥ dn and the Configuration Model generates a random graph that realizes this provided degree sequence.
即,任取一个总和为2m的正整数序列 (d1, d2, ..., dn) ,作为网络中对应n个节点的度,再通过配置模型方法生成网络。
那么,在这个网络中,任意两个节点v i 、v j 之间存在连边的概率 [1, 2] ?
可以这么理解,i、j节改迟点分别向外伸出仿岩d i 、d j 条边。对于i节点,除了连向i节点的一条边以外核大李,还有另外共计2m-1条边。对于j节点,它向外伸出d j 条边,那么任选一遍连到j节点的概率是
又因为i节点有d i 条边伸出来,所以i节点连到j节点的概率就是d i 乘以上式,即
参考文献
[1] Newman M. Networks. An introction[M], Networks: An Introction. Oxford University Press, Inc. 2010.
[2] 汪小帆, 李翔, 陈关荣. 网络科学导论[M]. 高等教育出版社, 2012.
⑵ (二)大连接:社交网络的形成与行为
主要内容:三元闭包关系的强度及其与网络结构的关系
一、图论
1、图:包含一组元素以及他们之间连接关系的集合
(1)节点(vertex,node,point)
边(链接,连接,关系,联系;edge,link,tie)
邻居
(2)常用的图:合作图、即时通信图、信息链接图
(3)有向图(节点、有向边)、无向图
2、图的同构:画法不同,但本质上(结构上)相同
节点的连接关系比节点的位置更重要。
【题目】下面哪些图是同构的?
【题目】
3、路径、最短路径、距离、圈
①路径:一个节点序列的集合,且序列中任意两个相邻节点都有一条边相连。
两点之间可有多条路径。
路径念携的长度:一条路径所包含的边数
②最短路径-->又叫两点之间的距离
③距离-->最短路径的长度
【题目】下图中节点A和节点B之间的距离是多少?
④圈
环状结构;至少三条边,起点与终点相同,所有节点均不重复。
部署网络的一个原则:要求每条边都至少在一个圈里(为了保证连通性,带来冗余)。eg:ARPANET的每条边都在圈里
4、连通性
(1)连通图:一个图中任意两点间有路径相通;每条边都在一个圈里。
(2)非连通图
(3)连通分量
若图G的节点子集满足:①连通性:子集中任意两个节点间均有路径相连;②独立性:该子集不是其他满足条件1的子集的一部分;则称G的节点子集是连通分量
【题目】下面指出的哪些节点集合不对应这个6节点图的一个连通分量?
(4)超大连通分量(giant component)
非形式化地对于包含其中大部分节点的连通分量的称谓。
Q:全世界友型游谊图是否为连通图?A:即使本身不具备联通性,其中的连通分量也是巨大的。
5、距离与广度优先搜索法
深度搜索和广度搜索的算法复杂度相同,但是深度搜索用的多,因为广度搜索对存储的要求高,一层中节点太多。
广度优先:从一个节点开始,沿着相连的边,将图的节点一一列举。
二、弱联系和强联系
1、三元闭包(triadic closure)
在一个社交圈内,如果两个互不认识的人有了一个共同的朋友,则他们将来成为朋友的可能性会提高。
三元闭包是社交网络演化的基本结构性原因。
三语闭包产生的原因:机会、信任、动机
三元闭包原理扩展:
①“量”的方面
两个人的共同朋友越多,他们成为朋友的可能性越高
②“质”的方面
两个人与共同朋友的关系越密切,则他们成为朋友的可能性越高。
2、聚卜高销集系数
节点A的聚集系数:A的任意两个朋友彼此也是朋友的概率
总对数=节点的度*(节点度-1)/2
聚集系数就是三元闭包在一个节点上的属性测度,表示“凝聚力”的大小
聚集系数随时间的变化体现了三元闭包对网络结构的影响趋势。节点附近的三元闭包过程越强,其聚集系数就越大。
【题目】
3、三元闭包原理的大数据验证
(1)三元闭包原理的表达(定量)
最初表述:如果两个互不认识的人有了一个共用朋友,则他们在未来成为朋友的可能性增加。
转变成:两个互不认识的人的共同朋友数越多,则他俩在未来成为朋友的可能性越大。
(2)验证数据:电子邮件网络≈社会网络
(3)考察网络的演化:考察两个相继的网络快照
考察三元闭包现象的测度:当前共同朋友数与后来成为朋友的概率关系。
得到一个图-->找不连接的边-->计算不连接节点他们的共同朋友-->过一定的时间再做。
【题目】
4、弱联系的力量
(1)桥:一张图中,已知A和B相连,若去掉连接A和B的边,会导致A和B属于不同的连通分量,则该边称为桥。(断开就不通)
(2)捷径(local bridge):若边A-B的端点A和B没有共同朋友,则称边A-B为捷径。(断开距离>2)
(3)跨度:没有捷径时的距离。
如果A和B的跨度>2,则A和B之间的边是捷径。
跨度很大的捷径的作用类似于桥。
通过捷径联系的人更可能为你提供工作信息。(找工作问题的第一个解释)
5、强三元闭包
捷径很大程度上可能是弱联系
考虑社交网络中关系的强度-->边的属性
边属性的一种测度:强-弱(强度可以使连续变量)
(1)强三元闭包原理(架设):如果A-B和A-C之间的关系为强联系,则B-C之间形成边的可能性应该很高
若A有两个强联系邻居B和C,但B-C之间没有任何关系(s或w,即strengh或weak),则称节点A违背了强三元闭包原理。反之,则称A符合强三元闭包原理。
(2)在一定条件下:捷径-->弱联系
若节点A符合强三元闭包,且至少有两个强联系邻居,则与A相连的任何捷径必定是弱联系。
(假设A-B是s,而A有个强联系邻居C,即A-C为s,那么根据强三元闭包,一段时间后B-C会有联系,A-B的跨度为2,与捷径的定义矛盾)
连接关系:强联系、弱联系
结构关系:捷径、非捷径
三元闭包将连接关系和结构关系连接起来了。
(两人的关系强度如何,与两人是否有共同好友相关,但不等价)捷径意味着没有共同朋友,强度为“弱”。
(3)统计推论:共同朋友越多,关系强度越高
6、邻里重叠度
(1)社交网络中,桥、捷径一般不存在-->邻里重叠度(Neighborhood Overlap)
①捷径是邻里重叠度为0的边
②可以把邻里重叠地很低的边粗略的视为捷径
③一种很好的从二到多的数学抽象的例子
目标3:弱联系起到将包含大量强联系的紧密社区连接起来的作用。(方法:从强度最强的关系边开始,按强度的降序逐渐删边;从强度最弱的关系边,按强度的升序,逐渐删除边。发现:从弱的开始删,网络崩的快)
(2)社交网络实验
Facebook的三种连接:相互连接、单向连接、保持关系。
社交网络中好友数目:尽管一个用户可声明关注大量(几百)其,但实际关注的大约在50以下,而真正有联系的则更少,在20以下。
社会网络是用弱系连起来的若干紧密群体。
7、结构洞
(1)嵌入性:一条边的嵌入性为其两个端点共同的邻居数
①嵌入性就是邻里叠度的分子
②捷径就是嵌入性0的边
③嵌入性越大的边相互间的信任就越强;嵌入性越强的边社会资本也越多
节点A:
①聚集系数较高(7/10)
②A关联的边多数具有较大的嵌入性
③处于一个相对比较诚实可信的群体
节点B:
①聚集数较(2/10)
②他关联的边多数具有较小的嵌入性
③结构洞: 两个没有紧密联系的节点集合之间的“空地”
节点B具有的优势:
①信息优势: 可以较早地获得网络中多个互不交叉部分的信息
②创新优势: 处在捷径的一端对创造性有放大功能
③权力优势:所处位置具有某种社交“把关”的机会
启示:有效破坏网络的连通性(以最快最小的代价):破坏处于结构洞位置的节点或捷径(关键连接)
(2)数字大炮(一种DDoS)(攻的是路由器的BGP协议)
边界网关协议(BGP)
主要用于两个自治系统(AS)间交换路由信息
使用矢量路径机制,路由信息格式:<目的站, AS有序列表(由AS构成的路径) >
UPDATE报文:(发生时机:发生变化时,发送UPDATE报文)
“数字大炮”攻击示意:
攻击的基本原理:
数字大炮的攻击步骤:
① 构建僵尸网络(可预先构建)
② 启动僵尸网络中的计算机之间流量发送,建立它们之间的“路径地图” (拓扑发现),找到众多路共用的连接(关键链路)(可预先构建)
③ 由僵尸网络对关键链路两端路由器BGP协议发动ZMW攻击,使得关键链路处于断开状态
④ 附近路由器会对此作出回应,发送BGP更新消息
⑤ 很短的时间之后,这两个被切断的路由器可能会重新连接,并发送BGP更新信息
⑥ 不断重复(3) ~(5),最后互联网上每一台路由器都会接收到超出自身处理能力的更新消息,从而导致互联网瘫痪
数字大炮的攻击效果:
选好节点,靠网络自身的扩散功能。实验不错,但是实际中很难。这几年很少用,DDoS多用放大协议,即受到的包不大,但是会回过来一个很大的包。
(3)如何找到重要的边
①桥,捷径,邻里叠度很低的边,……
②许多节点之间的最短路径都要经过它
8、介数
节点介数定义为网络中所有最短路径中经过该节点的路径的数目占最短路径总数的比例。
边介数定义为网络中所有最短路径中经过该边的路径的数目占最短路径总数的比例。
(本课中,后面说的介数,都是指最短路径数)
(1)介数:一条边承载的一种“流量”
①两个节点A和B,设想1个单位的流量从A到B,均分到它们之间所有的最短路径上
②K条路径,则每条路径上分得1/k,
③若一条边被m条路径共用,则在它面流过m/k
④所有节点对都考虑后,一条边上的累记流量就是它的介数(betweenness)
(2)破坏连通性
①Girvan-Neman方法: 逐步删除高介数边
(3)介数计算的一种方法-->广度搜索
路径的数目从上往下算
下图:因为A给每个人都发了一个单位流量(可以想数据包),所以每个节点都会留下1个单位流量
介数:很适合描述实际网络中,承载流量的边的信息
三、回顾总结
⑶ matlab中如何设定复杂网络节点间的连接概率
需要两个小数(0~1)做比较:1,使用matlab随机生成0~1的随机数p;2,输入参数或者计算的小数q。如果q>p,不加边;否则,加边。
⑷ 路由协议方面的研究:网络的连接概率和从源节点到目的节点的一条链路的连接概率相同吗
不同,网络的连接概率是指总连接次数除以连接成功的次数,而源节点到目的节点的一条链路的链接概率为总连接次数除以源节点到目的节点的一条链路的链接次数。一般的正常情况下是不同的则梁消,但是在特殊情况下是可以渣冲相同的,那就是整个网络就一条链路,即孙知源节点到目的节点的一条链路。
⑸ 什么是网络的连接速度定义也可以,举例亦可。
连接速度是指:你的网卡、网线、另外一头的网络设备3者之间的最大复传输速度。
一般网卡是自适应的,通常是10M/100M/1G的连接速度。
网线也是对应的,一般只有普通网线和千兆(1G)网线的区别。
家用的路由器一般只支持10M/100M自适应速度。
所以家里电脑如果网卡支持千兆,网线也买千兆网线,那路由就要1000M级别的才不会造成瓶颈。
但是这种速度一般是应用于局域网的,家用100M足矣。
家用连接的互联网,一般都由ISP(接入商)限制了带宽,貌似现在家用独享最大10M吧?一般是4M或2M。所以你的网卡,网线,路由器即使只在10M的连接速度下工作,也是完全可以满足这个带宽的传输需求的。制
实际网速很大程度上就是上面所说的带宽所限制的。
顺便纠正一下1楼的一些概念问题。
网速的4Mb,是指bps(bit
per
second)每秒钟传输的比特率,和我们平常理解的文件大小1MB不同,1MB是指1M
Byte,1Byte
=
8
bit,所以4Mb的网速最大传输每秒512KB。在计算机表达上通常用小写的b来代表bit,大写的B来代表Byte作为区分。一楼没有把这个关键的区分方法说明。
⑹ 网络连接的定义是什么
链接是互联网的桥梁,是网页的核心与灵魂,互联网上的各种信息都是通过链接联系在一起的,它将网页文件和其他资源连接在成一个无边无际的网络,链接可以是文本、图像或是其他的网页元素。
超链接,也称为网页链接,可以看作是文件指针,利用相关联文件的路径,以指向本地网络驱动器或互联网存储的文件,同时可以跳转到相应的文件,也可以在超链接中指定跳转到文件中的一个上体位置。超链接由源端点和目标端点两部分组成,超级链接中有链接的一端称为链接的源端点(即单击的文本或图像),跳转到的页面称为链接的目标端点。
每一个文件都有自己的存放位置和路径,一个文件要链接的另一个文件二者之间的路径关系是创建链接的根本。
链接路径主要可以分为相对路径,绝对路径和根路径三种。
绝对路径是指包括服务器协议在内的完全路径,如http://www.wangyesheji/dreamweaver/index.html,使用绝对路径与链接的源端点无关,只要目标站点地址不变,无论文件在站点中如何移动,都可以正常实跳转而不会发生错误,如果所需链接当前站点之外的网页或网站就必须使用绝对路径。
相对路径是指以当前文件所在位置为起点到被链接文件经由的路径,它是站点内最常用的链接形式,如dreamweaver/main.html就是一个文件的相对路径。
根路径是站点内常用的一种链接形式,不过它的参照物是站点根目录,如“D:mysitewangyewangye.html”。4.3.1创建文本链接
文本链接是最常见的超级的链接之一,它是通过文本作为源端点,达到链接的目的。创建文本超级链接的步骤如下。
①在需要插入超级链接的位置选择“插入/超级链接”命令,在打开的“超级链接”对话框中进行链接文本、链接文件和目标打开方式设置,如图17所示。②在网页中选中要创建超级链接的文本,在“属性”面板的“链接”下拉列表框中直接输入链接的URL地址或完整的路径和文件名。
③单击“链接”下拉列表框后的按钮,在打开的“选择文件”对话框中选择所需要链接的文件,单击“确定”按钮即可链接。
④按住“链接”下拉列表框后的按钮,拖动到右侧的“文件”面板,并指向所需要链接的文件。
创建超级链接后,还需要在“目标”下拉列表框中选择链接文件的打开方式,其中有5个选项,如图18所示,其含义分别如下。_blank:单击超链接文本后,目标端点网页会在一个新窗口中打开。
new:单击超链接文本后,将新打开一个浏览器窗口并显示链接文件,它与_blank的区别只有在某些浏览器中才会体现出来。
_parent:单击超链接文本后,在上一级浏览器窗口中显示目标端点网页。
_self:单击超链接文本后,在当前浏览器窗口中显示目标端点网页,即替换掉原来的网页。这是Dreamweaver的默认设置,当不进行选择设置时,将以该方式打开链接文件。
_top:单击超链接文本后,在最顶层的浏览器窗口中显示目标端点网页。4.3.2创建图像链接
创建图像超级链接有两种类型,一种与文本的超级链接基本相同,选择图像后在“属性”面板的“链接”文本框中进行超级链接设置即可;另一种是在同一张图像上创建多个热点区域,然后分别选中这些热点区域,在“属性”面板的“链接”文本框中进行超级链接设置,当用户单击某个热点时,会自动链接到相应的网页。
要创建图像热点区域,在选中图像后,使用“属性面板”左下角的热点创建工具进行热点区域的创建,如图19所示。下面介绍热点工具及其使用方法。
指针热点工具:该工具用于对热点进行操作,如选择、移动、调整图像热点区域范围等。
矩形热点工具:用于创建规则的矩形或正方形热点区域。选择该工具后,将鼠标指针移动到选中图像上要创建矩形热点区域的左上角位置,按住鼠标左键不放,向右下角拖动覆盖整个需要的热点区域范围后释放鼠标,完成矩形热点区域的创建,如图20所示。
圆形热点工具:用于绘制圆形热点区域,其使用方法与矩形热点工具的使用方法相同,如图21所示为创建的圆形热点区域。
多边形热点工具:用于绘制不规则的热点区域。选择该工具后,将鼠标光标定位到选中图像上要绘制的区域的某一个位置单击,然后将鼠标光标定位到另一位置后再单击,重复确定热点区域的各个关键点,最后回到第一个关键点上单击,以形成一个封闭的区域,完成多边形热点区域的绘制,如图22所示为绘制的多边形热点区域。4.3.3创建锚点链接
有时候网页很长,为了找到其中的目标,不得不上下拖动滚动条将整个文档内容浏览一遍,这样就浪费了很多时间。利用锚点链接可以精确地控制访问者在单击超链接之后到达的位置,使访问者能够快速浏览到指定的位置。
锚点链接的创建分为创建锚点和创建链接两部分。具体操作步骤如下。
①打开网页文档,将光标置于要插入锚点的位置,然后选择“插入”/“命名锚记”,在打开的“命名锚记”对话框中输入锚记名称后单击“确定”按钮即可,如图23所示。
创建锚记后将在锚记位置显示一个标记,如图24所示。②选中作为链接的文本、图像或其他网页元素,在“属性”面板的“链接”下拉列表框中输入“#”及锚点名称,如“#m01”。如果源端点与锚记不在同一个网页中,则应先写上网页的路径及名称,再加上前缀“#”和锚记名称,如“info.html#m01”,然后在“目标”下拉列表框中选择打开网页的方式,如图25所示。完成锚记链接后在网页中单击链接的源端点,即可立即跳转到相应的命名锚点处。4.3.4创建电子邮件链接
电子邮件链接可让浏览者启动电子邮件客户端,向指定邮箱发送邮件,当用户在浏览器上单击指向邮件地址的超级链接时,将会打开默认的邮件管理器的新邮件窗口,其中会提示用户输入信息并将该信息传送给指定的E-mail地址。
创建电子邮件链接的具体操作步骤如下:
打开网页文档,将光标置于要插入电子邮件链接的位置,选择“插入”/“电子邮件链接”命令,打开“电子邮件链接”对话框,在对话框中的“文本”框中输入“联系我”,在“电子邮件”文本框中输入“[email protected]”,如图26所示。
当用户单击电子邮件链接时,将打开电脑中的默认邮件客户端,在其客户端窗口中,将自动填写收件人为链接中指定的地址。
图17
图18
图19
图21
图22>图23
图24
图25
图26
⑺ 复杂网络介绍(Network Analysis)
网络,数学上称为图,最早研究始于1736年欧拉的哥尼斯堡七桥问题,但是之后关于图的研究发展缓慢,直到1936年,才有了第一本关于图论研究的着作。
1960年,数学家Erdos和Renyi建立了随机图理论,为构造网络提供了一种新的方法。在这种方法中,两个节点之间是否有边连接不再是确定的事情,而是根据一个概率决定,这样生成的网络称作随机网络。随机图的思想主宰复杂网络研究长达四十年之久,然而,直到近几年,科学家们对大量的现实网络的实际数据进行计算研究后得到的许多结果,绝大多数的实际网络并不是完全随机的,既不是规则网络,也不是随机网络,而是具有与前两者皆不同的统计特征的网络。这样的一•些网络称为复杂网络,对于复杂网络的研究标志着网络研究的第三阶段的到来。
1998年,Watts及其导师Strogatz在Nature上的文章《Collective Dynamics of Small-world Networks》,刻画了现实世界中的网络所具有的大的凝聚系数和短的平均路径长度的小世界特性。随后,1999年,Barabasi及其博士生Albert在Science上的文章《Emergence of Scaling in Random Networks》提出无尺度网络模型(度分布为幂律分布),,刻画了实际网络中普遍存在的“富者更富”的现象,从此开启了复杂网络研究的新纪元。
随着研究的深入,越来越多关于复杂网络的性质被发掘出来,其中很重要的一项研究是2002年Girvan和Newman在PNAS上的一篇文章《Community structure in social and biological networks》,指出复杂网络中普遍存在着聚类特性,每一个类称之为一个社团(community),并提出了一个发现这些社团的算法。从此,热门对复杂网络中的社团发现问题进行了大量研究,产生了大量的算法。
许多复杂系统都可以建模成一种复杂网络进行分析,比如常见的电力网络、航空网络、交通网络、计算机网络以及社交网络等等。复杂网络不仅是一种数据的表现形式,它同样也是一种科学研究的手段。
复杂网络的定义
钱学森对于复杂网络给出了一种严格的定义:
复杂网络具有网络平均路径长度较小、聚类系数较大、节点度分度服从幂律分布等相同特性
言外之意,复杂网络就是指一种呈现高度复杂性的网络,其特点主要具体体现在如下几个方面:
小世界特性(Small world theory)又被称之为是六度空间理论或者是六度分割理论(Six degrees of separation)。小世界特性指出:社交网络中的任何一个成员和任何一个陌生人之间所间隔的人不会超过六个。
在考虑网络特征的时候,通常使用两个特征来衡量网络:
对于规则网络,任意两个点(个体)之间的特征路径长度长(通过多少个体联系在一起),但聚合系数高(你是朋友的朋友的朋友的几率高)。对于随机网络,任意两个点之间的特征路径长度短,但聚合系数低。而小世界网络,点之间特征路径长度小,接近随机网络,而聚合系数依旧相当高,接近规则网络。
复杂网络的小世界特性跟网络中的信息传播有着密切的联系。实际的社会、生态、等网络都是小世界网络,在这样的系统里,信息传递速度快,并且少量改变几个连接,就可以剧烈地改变网络的性能,如对已存在的网络进行调整,如蜂窝电话网,改动很少几条线路,就可以显着提高性能。
现实世界的网络大部分都不是随机网络,少数的节点往往拥有大量的连接,而大部分节点却很少,节点的度数分布符合幂率分布,而这就被称为是网络的无标度特性(Scale-free)。将度分布符合幂律分布的复杂网络称为无标度网络。
例如,知乎中用户的fellow数的分布情况:
无标度特性反映了复杂网络具有严重的异质性,其各节点之间的连接状况(度数)具有严重的不均匀分布性:网络中少数称之为Hub点的节点拥有极其多的连接,而大多数节点只有很少量的连接。少数Hub点对无标度网络的运行起着主导的作用。从广义上说,无标度网络的无标度性是描述大量复杂系统整体上严重不均匀分布的一种内在性质。
其实复杂网络的无标度特性与网络的鲁棒性分析具有密切的关系。无标度网络中幂律分布特性的存在极大地提高了高度数节点存在的可能性,因此,无标度网络同时显现出针对随机故障的鲁棒性和针对蓄意攻击的脆弱性。这种鲁棒且脆弱性对网络容错和抗攻击能力有很大影响。
研究表明,无标度网络具有很强的容错性,但是对基于节点度值的选择性攻击而言,其抗攻击能力相当差,高度数节点的存在极大地削弱了网络的鲁棒性,一个恶意攻击者只需选择攻击网络很少的一部分高度数节点,就能使网络迅速瘫痪。
人以类聚,物以群分。复杂网络中的节点往往也呈现出集群特性。例如,社会网络中总是存在熟人圈或朋友圈,其中每个成员都认识其他成员。集群程度的意义是网络集团化的程度;这是一种网络的内聚倾向。连通集团概念反映的是一个大网络中各集聚的小网络分布和相互联系的状况。例如,它可以反映这个朋友圈与另一个朋友圈的相互关系。
下图为网络聚集现象的一种描述:
真实网络所表现出来的小世界特性、无尺度幂律分布或高聚集度等现象促使人们从理论上构造出多样的网络模型,以解释这些统计特性,探索形成这些网络的演化机制。本节介绍了几个经典网络模型的原理和构造方法,包括ER随机网络模型、BA无尺度网络模型和小世界模型。
ErdOs-Renyi随机网络模型(简称ER随机网络模型)是匈牙利数学家Erdos和Renyi提出的一种网络模型。1959年,为了描述通信和生命科学中的网络,Erdos和Renyi提出,通过在网络节点间随机地布置连接,就可以有效地模拟出这类系统。这种方法及相关定理的简明扼要,导致了图论研究的复兴,数学界也因此出现了研究随机网络的新领域。ER随机网络模型在计算机科学、统计物理、生命科学、通信工程等领域都得到了广泛应用。
ER随机网络模型是个机会均等的网络模型。在该网络模型中,给定一定数目的个体(节点),它和其他任意一个个体(节点)之间有相互关系(连接)的概率相同,记为户。因为一个节点连接k个其他节点的概率,会随着k值的增大而呈指数递减。这样,如果定义是为每个个体所连接的其他个体的数目,可以知道连接概率p(k)服从钟形的泊松(Poisson)分布,有时随机网络也称作指数网络。
随机网络理论有一项重要预测:尽管连接是随机安置的,但由此形成的网络却是高度民主的,也就是说,绝大部分节点的连接数目会大致相同。实际上,随机网络中连接数目比平均数高许多或低许多的节点,都十分罕见。
在过去40多年里,科学家习惯于将所有复杂网络都看作是随机网络。在1998年研究描绘万维网(以网页为节点、以超级链接为边)的项目时,学者们原以为会发现一个随机网络:人们会根据自己的兴趣,来决定将网络文件链接到哪些网站,而个人兴趣是多种多样的,可选择的网页数量也极其庞大,因而最终的链接模式将呈现出相当随机的结果。
然而,事实并非如此。因为在万维网上,并非所有的节点都是平等的。在选择将网页链接到何处时,人们可以从数十亿个网站中进行选择。然而,我们中的大部分人只熟悉整个万维网的一小部分,这一小部分中往往包含那些拥有较多链接的站点,因为这样的站点更容易为人所知。只要链接到这些站点,就等于造就或加强了对它们的偏好。这种“择优连接(Preferential Attachment)”的过程,也发生在其他网络中。在Internet上,那些具有较多连接的路由器通常也拥有更大的带宽,因而新用户就更倾向于连接到这些路由器上。在美国的生物技术产业内,某些知名公司更容易吸引到同盟者,而这又进一步加强了它在未来合作中的吸引力。类似地,在论文引用网络(论文为节点,引用关系为边)中,被引用次数较多的科学文献,会吸引更多的研究者去阅读并引用它。针对这些网络的“择优连接”的新特性,学者提出了BA无尺度网络模型。
无尺度网络的发现,使人类对于复杂网络的认识进入了一个新的天地。无尺度网络的最主要特征是节点的度分布服从幂次定律。BA模型是无尺度网络(Scale-free Network)的第一个抽象模型。由于考虑了系统的成长性(Growth)和择优连接性,BA模型给我们带来了很多启发,并且可以应用于多种实际网络。但是BA模型的两个基本假定,对于解释许多现实中的现象来说过于简单,与现实的网络还有较大的距离。
有学者试图对BA模型进行扩展,即根据现实中的网络,增添某些假定,以便进一步探索复杂网络系统的规律。对BA模型的扩充可以考虑三个因素:择优选择的成本、边的重新连接、网络的初始状态。扩充的BA模型可以更好地模拟现实世界中的网络现象。
1999年,丸Barabasi和兄Albert在对互联网的研究中发现了无尺度网络,使人类对于复杂网络系统有了全新的认识。过去,人们习惯于将所有复杂网络看作是随机网络,但Barabasi和Albert发现互联网实际上是由少数高连接性的页面组织起来的,80%以上页面的链接数不到4个。只占节点总数不到万分之一的极少数节点,却有1000个以上的链接。这种网页的链接分布遵循所谓的“幂次定律”:任何一个节点拥有是条连接的概率,与1/k成正比。它不像钟形曲线那样具有一个集中度很高的峰值,而是一条连续递减的曲线。如果取双对数坐标系来描述幂次定律,得到的是一条直线。
Scale-free网络指的是节点的度分布符合幂律分布的网络,由于其缺乏一个描述问题的特征尺度而被称为无尺度网络。其后的几年中,研究者们在许多不同的领域中都发现了无尺度网络。从生态系统到人际关系,从食物链到代谢系统,处处可以看到无尺度网络。
为什么随机模型与实际不相符合呢?Barabasi和Albert在深入分析了ER模型之后,发现问题在于ER模型讨论的网络是一个既定规模的,不会继续扩展的网络。正是由于现实当中的网络往往具有不断成长的特性,早进入的节点(老节点)获得连接的概率就更大。当网络扩张到一定规模以后,这些老节点很容易成为拥有大量连接的集散节点。这就是网络的“成长性”。
其次,ER模型中每个节点与其他节点连接时,建立连接的概率是相同的。也就是说,网络当中所有的节点都是平等的。这一情况与实际也不相符。例如,新成立的网站选择与其他网站链接时,自然是在人们所熟知的网站中选择一个进行链接,新的个人主页上的超文本链接更有可能指向新浪、雅虎等着名的站点。由此,那些熟知的网站将获得更多的链接,这种特性称为“择优连接”。这种现象也称为“马太效应(Matthew Effect)”或“富者更富(Rich Get Richer)”。
“成长性”和“择优连接”这两种机制解释了网络当中集散节点的存在。
BA无尺度模型的关键在于,它把实际复杂网络的无尺度特性归结为增长和优先连接这两个非常简单的机制。当然,这也不可避免地使得BA无尺度网络模型和真实网络相比存在一些明显的限制。比如,一些实际网络的局域特性对网络演化结果的影响、外界对网络节点及其连接边删除的影响等。
一般自然的或者人造的现实网络与外界之间有节点交换,节点间连接也在不断变化,网络自身具有一定的自组织能力,会对自身或者外界的变化作出相应的反应。因此,在BA模型基础上,可以把模型的动力学过程进行推广,包括对网络中已有节点或者连接的随机删除及其相应的连接补偿机制。
对每一个时间步长,考虑如下三种假设:
复杂网络研究中一个重要的发现是绝大多数大规模真实网络的平均路径长度比想象的小得多,称之为“小世界现象”,或称“六度分离(Six Degrees of Separation)”。
所谓小世界现象,是来自社会网络(Social Networks)中的基本现象,即每个人只需要很少的中间人(平均6个)就可以和全世界的人建立起联系。在这一理论中,每个人可看作是网络的一个节点,并有大量路径连接着他们,相连接的节点表示互相认识的人。
1998年,Watts和Strogatz引入了一个介于规则网络和完全随机网络之间的单参数小世界网络模型,称为WS小世界模型,该模型较好地体现了社会网络的小平均路径长度和大聚类系数两种现象。
WS小世界模型的构造方法如下:
在WS小世界模型中,p=0对应于规则网络,p=l则对应于完全随机网络,通过调节声的值就可以控制从规则网络到完全随机图的过渡。因此,WS小世界网络是介于规则网络和随机网络之间的一种网络。
WS小世界模型构造算法中的随机化过程有可能破坏网络的连通性。因此,Newman和Watts稍后提出了NW小世界模型。NW小世界模型的构造方法如下:
NW模型只是将WS小世界模型构造中的“随机化重连”改为“随机化加边”。
NW模型不同于WS模型之处在于它不切断规则网络中的原始边,而是以概率p重新连接一对节点。这样构造出来的网络同时具有大的聚类数和小的平均距离。NW模型的优点在于其简化了理论分析,因为WS模型可能存在孤立节点,但NW模型不会。当户足够小和N足够大时,NW小世界模型本质上就等同于WS小世界模型。
小世界网络模型反映了实际网络所具有的一些特性,例如朋友关系网,大部分人的朋友都是和他们住在同一个地方,其地理位置不是很远,或只在同一单位工作或学习的同事和同学。另一方面,也有些人住得较远的,甚至是远在异国他乡的朋友,这种情形好比WS小世界模型中通过重新连线或在NW小世界模型中通过加入连线产生的远程连接。
小世界网络模型的主要特征之一是节点之间的平均距离随远程连接的个数而指数下降。对于规则网络,平均距离L可估计为L正比于N;而对于小世界网络模型,L正比于ln(N)/1n(K)。例如,对于一个千万人口的城市,人与人的平均接触距离是6左右,这使得生活人群之间的距离大大缩短。该模型由一个规则的环组成,通常是一个一维的几乎具有周期性边界条件的环(即环中每个节点几乎都连接到一固定数目的邻近节点)和少量的随机选取节点连接成的“捷径” (重新连接现存的边)。小世界网络同时具有“高网络聚集度”和“低平均路径”的特性。
从小世界网络模型中可以看到,只要改变很少的几个连接,就可以剧烈的改变网络的性能。这样的性质也可以应用其他网络,尤其是对已有网络的调整方面。例如,蜂窝电话网,改动很少几条线路(低成本、低工作量)的连接,就可以显着提高性能。也可以应用到互联网的主干路由器上,以改变流量和提高传输速度。同样的思路也可以应用到电子邮件的快速传递、特定Web站点的定位等。
如果学习复杂网络,目前认为最好的视频教程:
【社交计算与社会网络分析】Network Analysis
1) 复杂网络中聚类算法总结
2) Network Analysis复杂网络分析总结
3) 复杂网络和社会网络