CN108229546A

CN108229546A - 一种基于特征向量中心性峰值聚类的重叠社团检测方法

Info

Publication number: CN108229546A
Application number: CN201711415866.9A
Authority: CN
Inventors: 杨旭华; 沈敏; 陈果
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2018-06-29

Abstract

一种基于特征向量中心性峰值聚类的重叠社团检测方法，构建网络模型；对于任意节点v_i，计算特征向量中心性x_i，将x_i与其他节点的特征向量中心性比较，得到特征向量中心性比自己高的节点的集合，计算v_i与该集合中每个点的距离，选择最小距离δ_i，计算节点v_i的决策积按照决策积的数值对所有的节点降序排列；取决策积前β个节点作为社团中心；计算节点v_i概率向量P_i，v_i归属P_i中数值最大分量所对应的社团，如果概率向量的分量中，数值最大的两个分量比较接近，则该节点为同时属于相应两个社团的重叠节点；遍历网络中所有节点，完成社团划分。本发明根据特征向量中心性检测社团，算法速度快，精度高。

Description

一种基于特征向量中心性峰值聚类的重叠社团检测方法

技术领域

本发明涉及网络科学，特别是指一种基于特征向量中心性峰值聚类的重叠社团检测方法。

背景技术

现实网络不仅具有小世界和无标度等特征，且还具有社区结构特征。社区与社区之间的连接虽然较为稀疏,但是社区内部节点之间的连接却非常稠密。这种社区结构特征能够反映节点之间的局部聚集特性。由于社区内部的节点基本上都具有相似的性质或者相似的功能,因此社区结构的研究是进一步对整个复杂网络及其社区进行功能研究的基础。

目前,学者们已经提出了很多社区结构发现算法,其中比较典型的是图分割方法和层次聚类方法。图分割方法包括基于拉普拉斯图特征值的谱平分法；层次聚类方法根据网络中是否加边可以分为两大类:一类是凝聚算法,另一类是***算法。其中,***方法在实现社区划分过程中主要是按照某种标准来判断是否移除某边,而这个标准主要分为边介数、边聚类系数以及边信息中心度三类。GN算法是典型的***方法,该算法就是按照边介数最大的先移除的办法进行的。随着对社区发现的深入研究,Newman等提出了模块度函数,随后又出现了某些基于模块度极值优化的方法,如CNM算法、BGLL算法。然而,在现实生活中的网络,其节点并不是完全只属于某一个社区,而是可能属于多个社区,也就是说网络中存在着重叠部分。因此,学者们为了能更加真实地刻画网络的结构特征,又提出了许多重叠社区划分方法。如CONGA算法、GCE算法、LFM算法等。

发明内容

为了克服已有的重叠社团检测算法检测结果精确度不高、实时性较差的不足，本发明提出了一种考虑了快速收敛的基于特征向量中心性峰值聚类的重叠社团检测方法。

本发明解决其技术问题所采用的技术方案是：

一种基于特征向量中心性峰值聚类的重叠社团检测方法，包括以下步骤：

步骤一：构建一个网络G(V,E),V代表网络节点，E代表网络中的边，该网络的邻接矩阵为A，其中A_ij是邻接矩阵中的元素，当节点v_i和节点v_j有连边时，A_ij＝1；当节点v_i和节点v_j无连边时，A_ij＝0；λ₁是矩阵A的最大的特征根；

步骤二：对于任意节点v_i,计算其特征向量中心性遍历网络，求出网络中每个节点的特征向量中心性，作为衡量每个节点在网络中的重要性的指标；

步骤三：对于任意节点v_i，比较该节点的特征向量中心性v_i与其他网络中节点的特征向量中心性，得到特征向量中心性比自己高的节点的集合θ_i，计算v_i与该集合θ_i中每个点的距离，其中的最小值被定义为节点v_i的最小距离δ_i，节点v_i的决策积定义为遍历网络，求出网络中每个节点的最小距离和决策积，按照决策积的数值对所有的节点从高到低降序排列；

步骤四：把所有的节点标注在以特征向量中心性和最小距离值为横和纵坐标的二维坐标系上，得到决策图，选择决策图右上角决策积的前β个节点作为网络的β个社团中心；

步骤五：定义任意节点v_i属于不同类社团的概率向量为P_i＝{p_i1,p_i2,…,p_ij,…,p_iβ}，其中p_ij表示节点v_i属于社团j的概率；因此第α个社团中心的概率向量为P_α＝{p_α1,p_α2,…,p_αj,…,p_αβ}，其中1≤α≤β；当j＝α时，p_αj＝1；当j≠α时，p_αj＝0；

步骤六：对于其他未归属社团的非社团中心节点,从决策积最大的v_i节点开始计算其概率向量，获取比节点v_i的决策积大的节点个数为N_i个,并按和该节点的距离从小到大排序,对该N_i个节点编号为i₁,i₂,...,N_b为决策积大于而且与节点v_i距离最近的节点个数，n₀＝min{N_b,N_i},j表示n₀中的第j个节点，d_ij表示节点v_i与v_j之间的距离，则节点v_i的概率向量为

步骤七：对于节点v_i,r＝argmax{p_i1,p_i2,…,p_ir,…,p_iβ}，则节点v_i属于r社团，其中argmax表示取出概率向量中数值最大的分量的第二个下标；

步骤八：对于节点v_i，其概率向量为P_i＝{p_i1,…,p_ik,…,p_ij,…,p_iβ}，如果v_i已经被划分到社区k中，则p_ik为概率向量中数值最大的分量，如果p_ij为概率向量中第二大的分量，而且p_ik-p_ij＜ε,ε为一个数值很小的正数,那么v_i为社团k和社团j的重叠节点，即v_i既属于社区k也属于社区j；

步骤九：重复步骤六～步骤八，直到得到网络中所有节点找到其归属的社团。

本发明的有益效果为：将复杂网络中的特征向量中心性与聚类算法中的密度峰值聚类算法相结合，有效地提高了重叠社团的检测效果。

附图说明

图1为一个网络模型的示意图。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1，一种基于特征向量中心性峰值聚类的重叠社团检测方法，包括以下步骤：

步骤一：构建一个网络G(V,E),V代表网络节点，E代表网络中的边，如图1所示，该网络的邻接矩阵为A，其中A_ij是邻接矩阵中的元素，当节点v_i和节点v_j有连边时，A_ij＝1；当节点v_i和节点v_j无连边时，A_ij＝0；λ₁是矩阵A的最大的特征根；

步骤二：对于任意节点v_i,计算其特征向量中心性如图1中的节点①，运用公式计算图1的特征向量中心性；

步骤三：对于任意节点v_i，如图1中的节点①，比较该节点的特征向量中心性x₁与其他网络中节点的特征向量中心性，得到特征向量中心性比自己高的节点的集合θ₁，计算v₁与该集合θ₁中每个点的距离，其中的最小值被定义为节点v₁的最小距离δ_i，节点v_i的决策积定义为则可以求出节点v₁的遍历网络，求出网络中每个节点的最小距离和决策积，按照决策积的数值对所有的节点从高到低降序排列；

步骤四：把所有的节点标注在以特征向量中心性和最小距离值为横和纵坐标的二维坐标系上，得到决策图，选择决策图右上角决策积的前β个节点作为网络的β个社团中心，如图1所示，β＝2，节点1和2为社团中心；

步骤五：定义任意节点v_i属于不同社团的概率向量为P_i＝{p_i1,p_i2,…,p_ij,…,p_iβ}，其中p_ij表示节点v_i属于社团的概率；因此第α个社团中心的概率向量为P_α＝{p_α1,p_α2,…,p_αj,…,p_αβ}，其中1≤α≤β；当j＝α时，p_αj＝1；当j≠α时，p_αj＝0,如图1中节点①为社团中心，则P₁＝{1,0}；

步骤八：对于节点v_i，其概率向量为P_i＝{p_i1,…,p_ik,…,p_ij,…,p_iβ}，如果v_i已经被划分到社区k中，则p_ik为概率向量中数值最大的分量，如果p_ij为概率向量中第二大的分量，而且p_ik-p_ij<ε,ε为一个数值很小的正数,那么v_i为社团k和社团j的重叠节点，即v_i既属于社区k也属于社区j,如图中的节点3，p₃₁-p₃₁₂<0.01,则节点3为重叠节点；

Claims

1.一种基于特征向量中心性峰值聚类的重叠社团检测方法，其特征在于：包括以下步骤：

步骤六：对于其他未归属社团的非社团中心节点,从决策积最大的v_i节点开始计算其概率向量，获取比节点v_i的决策积大的节点个数为N_i个,并按和该节点的距离从小到大排序,对该N_i个节点编号为N_b为决策积大于而且与节点v_i距离最近的节点个数，n₀＝min{N_b,N_i},j表示n₀中的第j个节点，d_ij表示节点v_i与v_j之间的距离，则节点v_i的概率向量为