CN108229546A - 一种基于特征向量中心性峰值聚类的重叠社团检测方法 - Google Patents
一种基于特征向量中心性峰值聚类的重叠社团检测方法 Download PDFInfo
- Publication number
- CN108229546A CN108229546A CN201711415866.9A CN201711415866A CN108229546A CN 108229546 A CN108229546 A CN 108229546A CN 201711415866 A CN201711415866 A CN 201711415866A CN 108229546 A CN108229546 A CN 108229546A
- Authority
- CN
- China
- Prior art keywords
- node
- corporations
- network
- decision
- probability vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 4
- 240000000233 Melia azedarach Species 0.000 claims description 3
- 238000005303 weighing Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 11
- 241001077262 Conga Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000011430 maximum method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2323—Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Discrete Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于特征向量中心性峰值聚类的重叠社团检测方法,构建网络模型;对于任意节点vi,计算特征向量中心性xi,将xi与其他节点的特征向量中心性比较,得到特征向量中心性比自己高的节点的集合,计算vi与该集合中每个点的距离,选择最小距离δi,计算节点vi的决策积按照决策积的数值对所有的节点降序排列;取决策积前β个节点作为社团中心;计算节点vi概率向量Pi,vi归属Pi中数值最大分量所对应的社团,如果概率向量的分量中,数值最大的两个分量比较接近,则该节点为同时属于相应两个社团的重叠节点;遍历网络中所有节点,完成社团划分。本发明根据特征向量中心性检测社团,算法速度快,精度高。
Description
技术领域
本发明涉及网络科学,特别是指一种基于特征向量中心性峰值聚类的重叠社团检测方法。
背景技术
现实网络不仅具有小世界和无标度等特征,且还具有社区结构特征。社区与社区之间的连接虽然较为稀疏,但是社区内部节点之间的连接却非常稠密。这种社区结构特征能够反映节点之间的局部聚集特性。由于社区内部的节点基本上都具有相似的性质或者相似的功能,因此社区结构的研究是进一步对整个复杂网络及其社区进行功能研究的基础。
目前,学者们已经提出了很多社区结构发现算法,其中比较典型的是图分割方法和层次聚类方法。图分割方法包括基于拉普拉斯图特征值的谱平分法;层次聚类方法根据网络中是否加边可以分为两大类:一类是凝聚算法,另一类是***算法。其中,***方法在实现社区划分过程中主要是按照某种标准来判断是否移除某边,而这个标准主要分为边介数、边聚类系数以及边信息中心度三类。GN算法是典型的***方法,该算法就是按照边介数最大的先移除的办法进行的。随着对社区发现的深入研究,Newman等提出了模块度函数,随后又出现了某些基于模块度极值优化的方法,如CNM算法、BGLL算法。然而,在现实生活中的网络,其节点并不是完全只属于某一个社区,而是可能属于多个社区,也就是说网络中存在着重叠部分。因此,学者们为了能更加真实地刻画网络的结构特征,又提出了许多重叠社区划分方法。如CONGA算法、GCE算法、LFM算法等。
发明内容
为了克服已有的重叠社团检测算法检测结果精确度不高、实时性较差的不足,本发明提出了一种考虑了快速收敛的基于特征向量中心性峰值聚类的重叠社团检测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于特征向量中心性峰值聚类的重叠社团检测方法,包括以下步骤:
步骤一:构建一个网络G(V,E),V代表网络节点,E代表网络中的边,该网络的邻接矩阵为A,其中Aij是邻接矩阵中的元素,当节点vi和节点vj有连边时,Aij=1;当节点vi和节点vj无连边时,Aij=0;λ1是矩阵A的最大的特征根;
步骤二:对于任意节点vi,计算其特征向量中心性遍历网络,求出网络中每个节点的特征向量中心性,作为衡量每个节点在网络中的重要性的指标;
步骤三:对于任意节点vi,比较该节点的特征向量中心性vi与其他网络中节点的特征向量中心性,得到特征向量中心性比自己高的节点的集合θi,计算vi与该集合θi中每个点的距离,其中的最小值被定义为节点vi的最小距离δi,节点vi的决策积定义为遍历网络,求出网络中每个节点的最小距离和决策积,按照决策积的数值对所有的节点从高到低降序排列;
步骤四:把所有的节点标注在以特征向量中心性和最小距离值为横和纵坐标的二维坐标系上,得到决策图,选择决策图右上角决策积的前β个节点作为网络的β个社团中心;
步骤五:定义任意节点vi属于不同类社团的概率向量为Pi={pi1,pi2,…,pij,…,piβ},其中pij表示节点vi属于社团j的概率;因此第α个社团中心的概率向量为Pα={pα1,pα2,…,pαj,…,pαβ},其中1≤α≤β;当j=α时,pαj=1;当j≠α时,pαj=0;
步骤六:对于其他未归属社团的非社团中心节点,从决策积最大的vi节点开始计算其概率向量,获取比节点vi的决策积大的节点个数为Ni个,并按和该节点的距离从小到大排序,对该Ni个节点编号为i1,i2,...,Nb为决策积大于而且与节点vi距离最近的节点个数,n0=min{Nb,Ni},j表示n0中的第j个节点,dij表示节点vi与vj之间的距离,则节点vi的概率向量为
步骤七:对于节点vi,r=argmax{pi1,pi2,…,pir,…,piβ},则节点vi属于r社团,其中argmax表示取出概率向量中数值最大的分量的第二个下标;
步骤八:对于节点vi,其概率向量为Pi={pi1,…,pik,…,pij,…,piβ},如果vi已经被划分到社区k中,则pik为概率向量中数值最大的分量,如果pij为概率向量中第二大的分量,而且pik-pij<ε,ε为一个数值很小的正数,那么vi为社团k和社团j的重叠节点,即vi既属于社区k也属于社区j;
步骤九:重复步骤六~步骤八,直到得到网络中所有节点找到其归属的社团。
本发明的有益效果为:将复杂网络中的特征向量中心性与聚类算法中的密度峰值聚类算法相结合,有效地提高了重叠社团的检测效果。
附图说明
图1为一个网络模型的示意图。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1,一种基于特征向量中心性峰值聚类的重叠社团检测方法,包括以下步骤:
步骤一:构建一个网络G(V,E),V代表网络节点,E代表网络中的边,如图1所示,该网络的邻接矩阵为A,其中Aij是邻接矩阵中的元素,当节点vi和节点vj有连边时,Aij=1;当节点vi和节点vj无连边时,Aij=0;λ1是矩阵A的最大的特征根;
步骤二:对于任意节点vi,计算其特征向量中心性如图1中的节点①,运用公式计算图1的特征向量中心性;
步骤三:对于任意节点vi,如图1中的节点①,比较该节点的特征向量中心性x1与其他网络中节点的特征向量中心性,得到特征向量中心性比自己高的节点的集合θ1,计算v1与该集合θ1中每个点的距离,其中的最小值被定义为节点v1的最小距离δi,节点vi的决策积定义为则可以求出节点v1的遍历网络,求出网络中每个节点的最小距离和决策积,按照决策积的数值对所有的节点从高到低降序排列;
步骤四:把所有的节点标注在以特征向量中心性和最小距离值为横和纵坐标的二维坐标系上,得到决策图,选择决策图右上角决策积的前β个节点作为网络的β个社团中心,如图1所示,β=2,节点1和2为社团中心;
步骤五:定义任意节点vi属于不同社团的概率向量为Pi={pi1,pi2,…,pij,…,piβ},其中pij表示节点vi属于社团的概率;因此第α个社团中心的概率向量为Pα={pα1,pα2,…,pαj,…,pαβ},其中1≤α≤β;当j=α时,pαj=1;当j≠α时,pαj=0,如图1中节点①为社团中心,则P1={1,0};
步骤六:对于其他未归属社团的非社团中心节点,从决策积最大的vi节点开始计算其概率向量,获取比节点vi的决策积大的节点个数为Ni个,并按和该节点的距离从小到大排序,对该Ni个节点编号为i1,i2,...,Nb为决策积大于而且与节点vi距离最近的节点个数,n0=min{Nb,Ni},j表示n0中的第j个节点,dij表示节点vi与vj之间的距离,则节点vi的概率向量为
步骤七:对于节点vi,r=argmax{pi1,pi2,…,pir,…,piβ},则节点vi属于r社团,其中argmax表示取出概率向量中数值最大的分量的第二个下标;
步骤八:对于节点vi,其概率向量为Pi={pi1,…,pik,…,pij,…,piβ},如果vi已经被划分到社区k中,则pik为概率向量中数值最大的分量,如果pij为概率向量中第二大的分量,而且pik-pij<ε,ε为一个数值很小的正数,那么vi为社团k和社团j的重叠节点,即vi既属于社区k也属于社区j,如图中的节点3,p31-p312<0.01,则节点3为重叠节点;
步骤九:重复步骤六~步骤八,直到得到网络中所有节点找到其归属的社团。
Claims (1)
1.一种基于特征向量中心性峰值聚类的重叠社团检测方法,其特征在于:包括以下步骤:
步骤一:构建一个网络G(V,E),V代表网络节点,E代表网络中的边,该网络的邻接矩阵为A,其中Aij是邻接矩阵中的元素,当节点vi和节点vj有连边时,Aij=1;当节点vi和节点vj无连边时,Aij=0;λ1是矩阵A的最大的特征根;
步骤二:对于任意节点vi,计算其特征向量中心性遍历网络,求出网络中每个节点的特征向量中心性,作为衡量每个节点在网络中的重要性的指标;
步骤三:对于任意节点vi,比较该节点的特征向量中心性vi与其他网络中节点的特征向量中心性,得到特征向量中心性比自己高的节点的集合θi,计算vi与该集合θi中每个点的距离,其中的最小值被定义为节点vi的最小距离δi,节点vi的决策积定义为遍历网络,求出网络中每个节点的最小距离和决策积,按照决策积的数值对所有的节点从高到低降序排列;
步骤四:把所有的节点标注在以特征向量中心性和最小距离值为横和纵坐标的二维坐标系上,得到决策图,选择决策图右上角决策积的前β个节点作为网络的β个社团中心;
步骤五:定义任意节点vi属于不同类社团的概率向量为Pi={pi1,pi2,…,pij,…,piβ},其中pij表示节点vi属于社团j的概率;因此第α个社团中心的概率向量为Pα={pα1,pα2,…,pαj,…,pαβ},其中1≤α≤β;当j=α时,pαj=1;当j≠α时,pαj=0;
步骤六:对于其他未归属社团的非社团中心节点,从决策积最大的vi节点开始计算其概率向量,获取比节点vi的决策积大的节点个数为Ni个,并按和该节点的距离从小到大排序,对该Ni个节点编号为Nb为决策积大于而且与节点vi距离最近的节点个数,n0=min{Nb,Ni},j表示n0中的第j个节点,dij表示节点vi与vj之间的距离,则节点vi的概率向量为
步骤七:对于节点vi,r=argmax{pi1,pi2,…,pir,…,piβ},则节点vi属于r社团,其中argmax表示取出概率向量中数值最大的分量的第二个下标;
步骤八:对于节点vi,其概率向量为Pi={pi1,…,pik,…,pij,…,piβ},如果vi已经被划分到社区k中,则pik为概率向量中数值最大的分量,如果pij为概率向量中第二大的分量,而且pik-pij<ε,ε为一个数值很小的正数,那么vi为社团k和社团j的重叠节点,即vi既属于社区k也属于社区j;
步骤九:重复步骤六~步骤八,直到得到网络中所有节点找到其归属的社团。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711415866.9A CN108229546A (zh) | 2017-12-25 | 2017-12-25 | 一种基于特征向量中心性峰值聚类的重叠社团检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711415866.9A CN108229546A (zh) | 2017-12-25 | 2017-12-25 | 一种基于特征向量中心性峰值聚类的重叠社团检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108229546A true CN108229546A (zh) | 2018-06-29 |
Family
ID=62648673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711415866.9A Pending CN108229546A (zh) | 2017-12-25 | 2017-12-25 | 一种基于特征向量中心性峰值聚类的重叠社团检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108229546A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255433A (zh) * | 2018-08-28 | 2019-01-22 | 浙江工业大学 | 一种基于相似性的社区检测的方法 |
-
2017
- 2017-12-25 CN CN201711415866.9A patent/CN108229546A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255433A (zh) * | 2018-08-28 | 2019-01-22 | 浙江工业大学 | 一种基于相似性的社区检测的方法 |
CN109255433B (zh) * | 2018-08-28 | 2021-10-29 | 浙江工业大学 | 一种基于相似性的社区检测的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462163B (zh) | 一种三维模型表征方法、检索方法及检索*** | |
CN104346481B (zh) | 一种基于动态同步模型的社区检测方法 | |
CN106093849B (zh) | 一种基于测距和神经网络算法的水下定位方法 | |
CN103954940B (zh) | 雷达网基于交叉定位点聚类的集中式与分布式压制干扰鉴别方法 | |
CN102456062B (zh) | 社区相似度计算方法与社会网络合作模式发现方法 | |
CN107703480A (zh) | 基于机器学习的混合核函数室内定位方法 | |
Hu et al. | Measuring the significance of community structure in complex networks | |
CN103888541A (zh) | 一种融合拓扑势和谱聚类的社区发现方法及*** | |
CN108650706A (zh) | 基于二阶泰勒近似的传感器节点定位方法 | |
CN109614520B (zh) | 一种面向多模式图匹配的并行加速方法 | |
CN103500168A (zh) | 一种基于拓扑势的重叠复杂网络社区发现方法及*** | |
CN102819611B (zh) | 一种复杂网络局部社区挖掘方法 | |
CN110442800A (zh) | 一种融合节点属性和图结构的半监督社区发现方法 | |
CN108229546A (zh) | 一种基于特征向量中心性峰值聚类的重叠社团检测方法 | |
Zhang et al. | Common community structure in time-varying networks | |
Ma et al. | Local expansion and optimization for higher-order graph clustering | |
Ye et al. | Identifying vital nodes on temporal networks: an edge-based k-shell decomposition | |
Huang et al. | Pp-dblp: Modeling and generating attributed public-private networks with dblp | |
CN109561498A (zh) | 基于改进牛顿法的传感器节点分布式定位方法 | |
Bíró et al. | Political parties on facebook | |
CN105828434B (zh) | 一种子网划分式DV-hop无线传感器网络定位方法 | |
CN112437397B (zh) | 基于交替修正牛顿法的分布式传感器节点定位方法 | |
CN105337759B (zh) | 一种基于社区结构的内外比度量方法及社区发现方法 | |
Qiu et al. | Grey Kmeans algorithm and its application to the analysis of regional competitive ability | |
Jianmin et al. | A K-shell improved method for the importance of complex network nodes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180629 |
|
RJ01 | Rejection of invention patent application after publication |