CN103888541A - 一种融合拓扑势和谱聚类的社区发现方法及*** - Google Patents

一种融合拓扑势和谱聚类的社区发现方法及*** Download PDF

Info

Publication number
CN103888541A
CN103888541A CN201410129865.8A CN201410129865A CN103888541A CN 103888541 A CN103888541 A CN 103888541A CN 201410129865 A CN201410129865 A CN 201410129865A CN 103888541 A CN103888541 A CN 103888541A
Authority
CN
China
Prior art keywords
node
value
topology potential
general trend
events
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410129865.8A
Other languages
English (en)
Other versions
CN103888541B (zh
Inventor
王志晓
陈昭彤
赵亚
陈少达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN201410129865.8A priority Critical patent/CN103888541B/zh
Publication of CN103888541A publication Critical patent/CN103888541A/zh
Application granted granted Critical
Publication of CN103888541B publication Critical patent/CN103888541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种融合拓扑势和谱聚类的社区发现方法及***,该方法包括:计算给定的复杂网络中n个节点的拓扑势值,根据n个节点的拓扑势值构造复杂网络的节点的标准矩阵;搜索所有局部极大势值节点,获得包含t个局部极大势值节点的局部极大势值节点集合;计算节点的标准矩阵的所有特征值,选取前t-1个非平凡特征值,以t-1个非平凡特征值对应的t-1个特征向量构成t-1维空间;将复杂网络的n个节点映射到t-1维空间中;将t个局部极大势值节点作为初始聚类中心,采用K-means算法将t-1维空间中的n个节点划分为t个社区。本发明利用节点拓扑势值构造谱聚类中的标准矩阵,能从全局角度反映节点间的紧密关系,有助于提高社区划分结果的准确性;具有很强的适应性。

Description

一种融合拓扑势和谱聚类的社区发现方法及***
技术领域
本发明属于网络识别技术领域,涉及一种网络社区发现方法,特别是涉及一种融合拓扑势和谱聚类的社区发现方法及***。
背景技术
复杂网络呈现社区结构,同一社区内的节点连接紧密,不同社区内的节点连接稀疏。社区发现是复杂网络的一项重要研究内容,对于分析复杂网络的拓扑结构,理解复杂***的功能,发现复杂网络中的隐藏规律、演化趋势以及预测复杂网络的行为都具有重要的意义。复杂网络的社区特性能够应用到实际生活的很多方面;例如,万维网中,用于搜索引擎的优化改进;社交网站中,用于用户之间的联络预测;商务网站中,用于对会员以及***感兴趣的广告投放;生物工程上,用于对机体蛋白质群的功能性质划分等等。
目前已存在多种复杂网络社区发现方法,这些方法或采用***思想,或采用凝聚思想进行社区划分。谱聚类是这些方法中的一个重要分支,其通过分析一个与复杂网络节点相关的矩阵的特征向量和特征值来得到社区划分结果。谱聚类方法具有很多优点,如,仅与数据点的数目有关,而与数据对象的维数无关,可以避免由于特征向量的过高维数所造成的奇异性问题。另外,谱聚类不对数据的全局结构作假设,可以避免“局部最优”的问题。
谱聚类采用的节点矩阵主要有两大类,分别是Laplace矩阵和Normal矩阵。Laplace矩阵的表达式为L=K-A,Normal矩阵是Laplace矩阵的变体,其表达式为L=K-1A,K为对角矩阵,对角线上的元素为对应的各个节点的度,A为复杂网络的邻接矩阵。上述节点矩阵都是基于节点度和节点邻接关系构造,只能从局部反映节点与直接相连的邻居节点间的紧密关系,无法包含复杂网络节点间更多的结构信息,这在一定程度上会影响到最终社区划分结果的准确性。尽管有研究者提出了SNN(Shared Nearest Neighbor Clustering,共享最近邻)相似度矩阵或其它Laplace变体矩阵,但仍然无法从本质上脱离节点度(节点度是指和该节点相关联的边的条数)等信息,收到的效果有限。
另外,在基于Laplace矩阵进行社区发现时,无法知道目标复杂网络能够划分为多少个社区,需要事先人为设置划分数目。Normal矩阵在一定程度上解决了该问题:Normal矩阵是半正定矩阵,存在t-1个与其最大特征值1相近的非平凡特征值(非平凡特征值是值不为1的特征值),且这t-1个特征值所对应的特征向量的元素呈现阶梯分布,为社区划分提供了数目依据,阶梯数即为社区数目t。但是,当网络的社区结构不明显时,Normal矩阵的这t-1个特征向量就不会呈现十分明显的阶梯状,而是接近一条连续曲线,此时无法通过阶梯数目判断该复杂网络应划分的社区数目。
综上所述,现有基于谱聚类的复杂网络社区发现方法存在以下不足:(1)当前谱聚类中使用的节点矩阵多是基于节点度构造,无法包含复杂网络节点间更多的结构信息,在一定程度上会影响到最终社区划分结果的准确性;(2)当网络的社区结构不明显时,无法通过Normal矩阵特征向量的阶梯数目判断该复杂网络应划分的社区数目。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种融合拓扑势和谱聚类的社区发现方法及***,用于解决现有基于谱聚类的社区划分方法中节点矩阵无法包含复杂网络节点间更多的结构信息从而影响划分结果准确性,以及在社区结构不明显时无法判断划分社区的数目的问题。
为实现上述目的及其他相关目的,本发明提供一种融合拓扑势和谱聚类的社区发现方法,所述融合拓扑势和谱聚类的社区发现方法包括:计算给定的复杂网络中n个节点的拓扑势值,根据所述n个节点的拓扑势值构造复杂网络节点的标准矩阵;n为所述复杂网络中全部节点的总数;在所述n个节点的拓扑势值中搜索所有局部极大势值,获得包含t个局部极大势值节点的局部极大势值节点集合;其中,1≤t≤n;计算所述节点的标准矩阵的所有特征值,选取前t-1个非平凡特征值,以所述t-1个非平凡特征值对应的特征向量构建t-1维空间;将所述复杂网络的n个节点映射到所述t-1维空间中;将所述t个局部极大势值节点作为初始聚类中心,采用K-means算法将所述将t-1维空间中的n个节点划分为t个社区。
优选地,所述复杂网络中n个节点的拓扑势值的计算方法包括:其中,
Figure BDA0000485668670000022
为节点υi的拓扑势值;k为第i个节点υi影响范围内的节点数,1≤i≤n,1≤k≤n-1;节点υl为节点υi影响范围内的节点,1≤l≤k;节点υi的最大影响范围为
Figure BDA0000485668670000023
σ为影响因子,σ∈(0,+∞),用于控制节点的影响范围;m(υl)为节点υl的质量,dil为节点υi与节点υl间的距离,dil用节点间的跳数进行度量;影响因子σ的选取过程为:
Figure BDA0000485668670000024
为标准化因子。
优选地,根据所述n个节点的拓扑势值构造复杂网络节点的标准矩阵N(G)的方法包括:N(G)=D-1T,其中,D是n维对角矩阵,D的对角元素
Figure BDA0000485668670000031
T是n×n维矩阵,T的矩阵元素ti,j是节点υj在节点υi处产生的拓扑势值,即,
Figure BDA0000485668670000032
1≤i,j≤n,i≠j;若i=j,则ti,j=0;若节点υi超出节点υj的影响范围
Figure BDA0000485668670000033
则ti,j=0。
优选地,所述局部极大势值节点集合的获得方法包括:比较所述复杂网络中每个节点与自身所有邻居节点的拓扑势值的大小;若当前节点的拓扑势值大于自身所有邻居节点的拓扑势值,则当前节点是所述复杂网络的局部极大势值节点,将当前节点放入一局部极大势值节点初选集合;若所述局部极大势值节点初选集合中两个局部极大势值节点的距离,即跳数,小于
Figure BDA0000485668670000034
则在所述两个局部极大势值节点中选择拓扑势值较小的节点从所述局部极大势值节点初选集合中删除;最终得到的包含有t个局部极大势值节点的局部极大势值节点初选集合为所述局部极大势值节点集合。
本发明还提供一种融合拓扑势和谱聚类的社区发现***,所述融合拓扑势和谱聚类的社区发现***包括:拓扑势值获取模块,计算给定的复杂网络中n个节点的拓扑势值;节点标准矩阵生成模块,与所述拓扑势值获取模块相连,根据所述n个节点的拓扑势值构造复杂网络节点的标准矩阵;n为所述复杂网络中全部节点的总数;搜索模块,与所述拓扑势值获取模块相连,在所述n个节点的拓扑势值中搜索所有局部极大势值,获得包含t个局部极大势值节点的局部极大势值节点集合;其中,1≤t≤n;特征值获取模块,与所述节点标准矩阵生成模块相连,计算所述标准矩阵的所有特征值;谱映射模块,与所述特征值获取模块相连,从选取所述标准矩阵的所有特征值中选取前t-1个非平凡特征值,以所述t-1个非平凡特征值对应的特征向量构建t-1维空间,将所述复杂网络的n个节点映射到所述t-1维空间中;社区划分模块,与所述搜索模块和所述谱映射模块分别相连,将所述t个局部极大势值节点作为初始聚类中心,采用K-means算法将映射后的t-1维空间中的n个节点划分为t个社区。
优选地,所述拓扑势值获取模块的模型函数为:
Figure BDA0000485668670000035
其中,
Figure BDA0000485668670000036
为节点υi的拓扑势值;k为第i个节点υi影响范围内的节点数,1≤i≤n,1≤k≤n-1;节点υl为节点υi影响范围内的节点,1≤l≤k;节点υi的最大影响范围为
Figure BDA0000485668670000037
σ为影响因子,σ∈(0,+∞),用于控制节点的影响范围;m(υl)为节点υl的质量,dil为节点υi与节点υl间的距离,dil用节点间的跳数进行度量;影响因子σ的选取过程为:
Figure BDA0000485668670000038
为标准化因子。
优选地,所述节点标准矩阵生成模块的模型函数为:N(G)=D-1T,其中,D是n维对角矩阵,D的对角元素
Figure BDA0000485668670000041
T是n×n维矩阵,T的矩阵元素ti,j是节点υj在节点υi处产生的拓扑势值,即,1≤i,j≤n,i≠j;若i=j,则ti,j=0;若节点υi超出节点υj的影响范围
Figure BDA0000485668670000043
则ti,j=0。
优选地,所述搜索模块包括:比较单元,与所述拓扑势值获取模块相连,比较所述复杂网络中每个节点与自身所有邻居节点的拓扑势值的大小;若当前节点的拓扑势值大于自身所有邻居节点的拓扑势值,则当前节点是所述复杂网络的局部极大势值节点;第一筛选单元,与所述比较单元相连,将当前节点放入一局部极大势值节点初选集合;第二筛选单元,与所述第一筛选单元相连,若所述局部极大势值节点初选集合中两个局部极大势值节点的距离,即跳数,小于则在所述两个局部极大势值节点中选择拓扑势值较小的节点从所述局部极大势值节点初选集合中删除;局部极大势值节点集合确定单元,与所述第二筛选单元相连,将最终得到的包含有t个局部极大势值节点的局部极大势值节点初选集合确定为所述局部极大势值节点集合。
如上所述,本发明所述的融合拓扑势和谱聚类的社区发现方法及***,具有以下有益效果:
本发明将拓扑势和谱聚类融合,利用节点拓扑势值构造谱聚类中的节点标准矩阵,节点拓扑势是周围节点在本节点处产生势值的叠加和,能从全局角度反映节点间的紧密关系,使节点标准矩阵包含更多节点间的结构信息,有助于提高社区划分结果的准确性;无论复杂网络的社区结构是否明显,本发明都能够从局部极大势值节点的数量判断出复杂网络社区的数量,具有很强的适应性。
附图说明
图1为本发明所述的融合拓扑势和谱聚类的社区发现方法的流程示意图。
图2为本发明所述的局部极大势值节点集合获得方法的一种实现流程示意图。
图3为本发明所述的融合拓扑势和谱聚类的社区发现***的结构示意图。
图4为海豚社会网络的拓扑结构示意图。
图5为本发明所述方法对海豚社会网络社区发现的结果示意图。
图6为本发明所述方法对美国大学生足球比赛网络(American College football)社区发现的结果示意图。
图7为传统基于Normal矩阵的谱聚类方法对美国大学生足球比赛网络(American Collegefootball)社区发现的结果示意图。
元件标号说明
300    社区发现***
310    拓扑势值获取模块
320    节点标准矩阵生成模块
330    搜索模块
331    比较单元
332    第一筛选单元
333    第二筛选单元
334    局部极大势值节点集合确定单元
340    特征值获取模块
350    谱映射模块
360    社区划分模块
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
请参阅附图。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
下面结合附图对本发明进行详细说明。
本发明提供一种融合拓扑势和谱聚类的社区发现方法,如图1所示,所述融合拓扑势和谱聚类的社区发现方法包括:
S1,计算给定的复杂网络G中n个节点的拓扑势值,根据所述n个节点的拓扑势值构造复杂网络G的节点的标准矩阵N(G);n为所述复杂网络G中全部节点的总数。
进一步,所述复杂网络中n个节点的拓扑势值的计算方法包括:
Figure BDA0000485668670000061
其中,
Figure BDA0000485668670000062
为节点υi的拓扑势值;k为第i个节点υi影响范围内的节点数,1≤i≤n,1≤k≤n-1;节点υl为节点υi影响范围内的节点,1≤l≤k;节点υi的最大影响范围为
Figure BDA0000485668670000063
σ为影响因子,σ∈(0,+∞),用于控制节点的影响范围;m(υl)为节点υl的质量,本发明中,所有节点质量均设置为1;dil为节点υi与节点υl间的距离,dil用节点间的跳数进行度量;影响因子σ的选取过程为:
Figure BDA0000485668670000064
为标准化因子。
进一步,根据所述n个节点的拓扑势值构造复杂网络的节点的标准矩阵N(G)的方法包括:
N(G)=D-1T
其中,D是n维对角矩阵,D的对角元素
Figure BDA0000485668670000065
T是n×n维矩阵,T的矩阵元素ti,j是节点υj在节点υi处产生的拓扑势值,即,
Figure BDA0000485668670000066
1≤i,j≤n,i≠j;若i=j,则ti,j=0;若节点υi超出节点υj的影响范围
Figure BDA0000485668670000067
则ti,j=0。
S2,在所述n个节点的拓扑势值中搜索所有局部极大势值,获得包含t个局部极大势值节点的局部极大势值节点集合LocalCenter(G);其中,1≤t≤n。
进一步,如图2所示,所述局部极大势值节点集合的获得方法包括:比较所述复杂网络中每个节点与自身所有邻居节点的拓扑势值的大小;若当前节点的拓扑势值大于自身所有邻居节点的拓扑势值,则当前节点是所述复杂网络的局部极大势值节点,将当前节点放入一局部极大势值节点初选集合;若所述局部极大势值节点集合中两个局部极大势值节点的距离,即跳数,小于
Figure BDA0000485668670000068
则在所述两个局部极大势值节点中选择拓扑势值较小的节点从所述局部极大势值节点初选集合中删除;最终得到的包含有t个局部极大势值节点的局部极大势值节点初选集合才为所述局部极大势值节点集合LocalCenter(G)。
S3,计算所述节点的标准矩阵N(G)的所有特征值,选取前t-1个非平凡特征值,以所述t-1个非平凡特征值对应的t-1个特征向量构建t-1维空间;将所述复杂网络的n个节点映射到所述t-1维空间中;n个节点映射到所述t-1维空间,一方面可以降低聚类分析的维数,另一方面在t-1维子空间中n个节点的社区结构将更加清晰,有利于进行社区发现。
S5,将所述局部极大势值节点集合LocalCenter(G)中的t个局部极大势值节点作为初始聚类中心,采用K-means算法将t-1维空间中的n个节点划分为t个社区。进一步,K-means算法是一种最广发使用的聚类算法,通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,使生成的每个聚类类内紧凑,类间独立,具有较好的聚类效果。本发明的保护范围不限于所述融合拓扑势和谱聚类的社区发现方法的步骤执行顺序,凡是根据本发明的原理做出任何形式变形后的社区发现方法都包括在本发明的保护范围内。
本发明还提供一种融合拓扑势和谱聚类的社区发现***,该***可以实现本发明所述的融合拓扑势和谱聚类的社区发现方法,但本发明所述的融合拓扑势和谱聚类的社区发现方法的实现装置包括但不限于本发明所述的融合拓扑势和谱聚类的社区发现***。
如图3所示,所述融合拓扑势和谱聚类的社区发现***300包括:拓扑势值获取模块310,节点标准矩阵生成模块320,搜索模块330,特征值获取模块340,谱映射模块350,社区划分模块360。
所述拓扑势值获取模块310计算给定的复杂网络中n个节点的拓扑势值。进一步,所述拓扑势值获取模块310的模型函数为:
其中,
Figure BDA0000485668670000072
为节点υi的拓扑势值;k为第i个节点υi影响范围内的节点数,1≤i≤n,1≤k≤n-1;节点υl为节点υi影响范围内的节点,1≤l≤k;节点υi的最大影响距离为
Figure BDA0000485668670000073
σ为影响因子,σ∈(0,+∞),用于控制节点的影响范围;m(υl)为节点υl的质量,dil为节点υi与节点υl间的距离,dil用节点间的跳数进行度量;影响因子σ的选取过程为:
Figure BDA0000485668670000074
为标准化因子。
所述节点标准矩阵生成模块320与所述拓扑势值获取模块310相连,根据所述n个节点的拓扑势值构造复杂网络节点的标准矩阵;n为所述复杂网络中全部节点的总数。进一步,所述节点标准矩阵生成模块320的模型函数为:
N(G)=D-1T
其中,D是n维对角矩阵,D的对角元素
Figure BDA0000485668670000075
T是n×n维矩阵,T的矩阵元素ti,j是节点υj在节点υi处产生的拓扑势值,即,1≤i,j≤n,i≠j;若i=j,则ti,j=0;若节点υi超出节点υj的影响范围
Figure BDA0000485668670000081
则ti,j=0。
所述搜索模块330与所述拓扑势值获取模块310相连,在所述n个节点的拓扑势值中搜索所有局部极大势值,获得包含t个局部极大势值节点的局部极大势值节点集合;其中,1≤t≤n。进一步,所述搜索模块330包括:比较单元331,第一筛选单元332,第二筛选单元333,局部极大势值节点集合确定单元334。所述比较单元331与所述拓扑势值获取模块310相连,比较所述复杂网络中每个节点与自身所有邻居节点的拓扑势值的大小,若当前节点的拓扑势值大于自身所有邻居节点的拓扑势值,则当前节点是所述复杂网络的局部极大势值节点。所述第一筛选单元332与所述比较单元331相连,将当前节点放入一局部极大势值节点初选集合;所述第二筛选单元333与所述第一筛选单元332相连,若所述局部极大势值节点初选集合中两个局部极大势值节点的距离,即跳数,小于则在所述两个局部极大势值节点中选择拓扑势值较小的节点从所述局部极大势值节点初选集合中删除;所述局部极大势值节点集合确定单元334与所述第二筛选单元333相连,将最终得到的包含有t个局部极大势值节点的局部极大势值节点初选集合确定为所述局部极大势值节点集合。
所述特征值获取模块340与所述节点标准矩阵生成模块320相连,计算所述标准矩阵的所有特征值。
所述谱映射模块350与所述特征值获取模块340相连,从所述标准矩阵的所有特征值中选取前t-1个非平凡特征值,以所述t-1个非平凡特征值对应的t-1个特征向量构建t-1维空间,将所述复杂网络的n个节点映射到所述t-1维空间中。
所示社区划分模块360与所述搜索模块330和所述谱映射模块350分别相连,将所述t个局部极大势值节点作为初始聚类中心,采用K-means算法将映射后的t-1维空间中的n个节点划分为t个社区。
本发明鉴于现有网络社区发现技术的缺点,提供了一种融合拓扑势和谱聚类的社区发现方法及***,解决了现有基于谱聚类的网络社区发现方法在矩阵构造以及社区数目判断方面的问题。本发明将拓扑势和谱聚类融合,利用节点拓扑势值构造谱聚类中的节点标准矩阵,其中节点拓扑势是周围节点在本节点处产生势值的叠加和,能从全局角度反映节点间的紧密关系,本发明使得节点标准矩阵包含更多节点间的结构信息,有助于提高社区划分结果的准确性;无论复杂网络的社区结构是否明显,本发明都能够从局部极大势值节点的数量判断出复杂网络社区的数量,具有很强的适应性。
下面结合实施例和附图对本发明进行更进一步的详细说明。
实施例一
本实施例以经典的海豚社会网络为例,将融合拓扑势和谱聚类的社区发现方法用于识别海豚社会网络的社区结构。海豚社会网络的拓扑结构如图4所示,由2大家族组成,共有62只海豚。这也是一个比较具有代表性的社会网络,大部分社区发现方法都会用这个数据集进行测试。本实施例利用所述融合拓扑势和谱聚类的社区发现方法对图4所示的海豚社会网络进行社区划分,具体包括以下步骤:
1)根据给定的海豚社会网络,计算62个节点的拓扑势值,根据62个节点的拓扑势值构造海豚社会网络的标准矩阵N(G)。按照本发明所述的方法计算出62个节点的拓扑势值如表1所示,其中调节因子σ的取值为1.3。
表1:海豚社会网络中62个节点的拓扑势值
节点 势值 节点 势值 节点 势值 节点 势值
1 6.289 17 6.195 33 3.223 49 2.304
2 7.021 18 7.105 34 8.409 50 2.576
3 4.151 19 6.936 35 5.455 51 7.406
4 4.160 20 4.338 36 2.303 52 7.847
5 2.397 21 8.230 37 7.499 53 5.183
6 3.870 22 6.383 38 9.243 54 2.763
7 5.445 23 2.303 39 7.115 55 6.093
8 5.454 24 4.160 40 3.420 56 3.232
9 6.289 25 6.289 41 7.959 57 2.575
10 5.81 26 3.410 42 4.892 58 6.918
11 5.361 27 3.316 43 5.633 59 2.209
12 2.397 28 4.986 44 6.937 60 5.267
13 2.397 29 5.642 45 4.807 61 1.740
14 6.458 30 7.855 46 8.869 62 3.879
15 9.609 31 4.704 47 2.763
16 6.467 32 2.303 48 5.727
2)搜索海豚社会网络的所有局部极大势值节点,得到局部极大势值节点集合LocalCenter(G)。按照本发明所述的方法搜索出的表1中局部极大势值节点有3个,分别是节点15、节点18和节点21,其中节点15和21在相互影响范围内,将拓扑势值较小的节点21从局部极大势值节点初选集合中剔除,最终得到LocalCenter(G)集合中包含2个元素,分别为节点15和节点18,即LocalCenter(G)={15,18}。
3)计算海豚社会网络标准矩阵N(G)的所有特征值,选取第1个(因t=2,则t-1=1)最接近1的非平凡特征值0.9409,这个特征值对应的特征向量为{0.067,-0.108,0.077,0.074,0.093,-0.227,-0.208,-0.067,0.064,-0.220,0.073,0.093,0.088,-0.212,0.080,0.075,0.079,-0.19,0.082,-0.095,0.062,0.085,-0.210,0.062,0.086,-0.181,-0.143,-0.145,0.005,0.087,-0.007,-0.210,-0.247,0.082,0.085,0.094,0.013,0.072,0.083,-0.106,0.048,-0.180,0.058,0.088,0.079,0.080,0.098,0.045,-0.214,0.098,0.078,0.086,0.07,0.093,-0.158,0.086,-0.234,-0.198,0.090,0.061,-0.277,0.083}。
4)将局部极大势值节点集合LocalCenter(G)中的节点15和节点18作为初始聚类中心,应用K-means方法将海豚社会网络划分为2个社区,划分结果如图5所示。
可以发现,通过本发明所述的社区发现方法所得到的社区划分结果与海豚社会网络的真实社区情况完全一致,由此证明了本发明的有效性。
实施例二
本实施例以美国大学足球比赛网络(American College football)为例,将本发明所述的融合拓扑势和谱聚类的社区发现方法用于识别美国大学足球比赛网络的社区结构,并与其他典型基于经典谱聚类或改进谱聚类的社区发现方法进行性能比较。美国大学足球比赛网络总共有12个联盟,分别是Atlantic Coast、Big East、Big Ten、Big Twelve、Conference USA、IAIndependents、Mid American、Mountain West、Pacific Ten、Southeastern、Sun Belt和WesternAthletic。
表2:本发明对美国大学足球比赛网络进行社区划分的结果示意表
Figure BDA0000485668670000101
按照本发明所述的融合拓扑势和谱聚类的社区发现方法,对美国大学足球比赛网络进行社区发现的结果如图6所示,节点的详细划分情况见表2,表2中每一行表示该实际社区所包含的真实节点数,以及这些节点在本发明所述方法最终划分出的社区中的分布情况,每一列表示利用本发明所述方法划分出的某一社区的节点数,以及这些节点在真实社区中的分布情况。比如,第5行表示真实社区Conference USA,所述社区共有10个节点,所述10个节点中,有9个节点被本发明所述方法划分到了编号为f的社区中,有1个节点被本发明所述方法划分到了编号为c的社区中。第4列表示本发明所述方法划分出的一个编号为c的社区,所述社区共有9个元素,所述9个元素有1个元素来自真实社区Conference USA,另8个元素来自真实社区Western Atlantic。真实网络为12社区,本发明所述方法将其划分为11个社区,其中IA Independents社区只有5个节点,这5个节点与邻近其他社区的联系非常紧密,没有搜索到该社区对应的局部极大势值节点,因此,本发明所述方法最终将这5个节点划分给邻近的其他4个社区。从社区划分结果看,刨除IA Independents这一特殊社区的5个元素,本发明所述方法对社区Atlantic Coast、Big Ten、Big Twelve、Big East、Mountain West、MidAmerican和Pac Ten的划分与真实社区完全相同。对社区Conference USA、Sun Belt、WesternAtlantic和Southeastern的划分与真实社区大致相同,只有极个别节点出现错误。
为了进一步说明本发明方法的性能,利用基于Normal矩阵的传统谱聚类方法对美国大学足球比赛网络进行社区划分。图7显示了基于Normal矩阵的传统谱聚类方法将特征值按由大到小排序后,第2、3、4特征向量的分布情况。从图7可以看出,3个特征向量的分布比较杂乱,第2个特征有3个模糊的阶梯,该阶梯数与美国大学足球比赛网络12个社区的数量差距较大,由此可见,基于Normal矩阵的传统谱聚类方法在确定社区数目上存在很大缺陷,其性能与本发明所述方法相差甚远。
为了更进一步说明本发明方法的性能,利用融合模块度和谱聚类的社区划分方法(下文称为方法A)对美国大学足球比赛网络进行社区划分,与本发明所述方法的社区划分结果进行对比。方法A对美国大学足球比赛网络进行社区划分的结果如表3所示。真实网络为12社区,方法A将其划分为10个社区。可见,本发明所述方法发现的总社区数更接近真实社区数12。同时,从表3可以看出,在方法A中,IA Independents社区同样没有被正确划分,5个节点被划分到了相邻的其他3个社区中。刨除IA Independents这一特殊社区,方法A完全正确划分的社区为Atlantic Coast、Big Ten、Big Twelve、Big East、Mid American和Pac Ten,共计6个,比本发明所述方法完全正确划分的社区数少1个,即Mountain West。表4显示了本发明所述方法与方法A划分结果的社区数量、Q值和NMI值。Q值用来评判社区结构的合理性和有效性,其中,t为划分出的社区的数量,e是一个t阶对称矩阵,其元素eij表示第i个社区与第j个社区之间的连边数占网络总数的比例,NMI称为标准互信息,用来衡量社区划分结果与真实社区的相似度。
Figure BDA0000485668670000123
其中,N为混合矩阵,行对应实际的社区,列对应划分出来的社区,Nij表示实际社区i中的节点在划分出的社区j中出现的个数。Ca表示实际社区的个数,Cb表示划分出的社区个数,Ni表示矩阵N第i行的和,Nj表示矩阵N第j列的和,n表示节点总数。NMI值越接近1,划分出的社区结果与真实社区越接近。可以看出,本发明所述方法的社区数量更接近真实数量12,两种方法的Q值基本接近,但是本发明所述的NMI值要明显高于方法A,说明本发明所述方法的划分结果的准确度更高,更接近真实情况。
表3:方法A对美国大学足球比赛网络进行社区划分的结果示意表
表4:社区划分结果比对表
社区数目 Q值 NMI值
真实网络 12 0.5540 1.0000
本发明方法 11 0.6030 0.9042
融合模块度和谱聚类的方法 10 0.6050 0.8800
结合本发明的具体内容及实施例一和实施例二可见,本发明计算给定的复杂网络中n个节点的拓扑势值,根据n个节点的拓扑势值构造复杂网络节点的标准矩阵;搜索所有局部极大势值节点,获得包含t个局部极大势值节点的局部极大势值节点集合;计算节点标准矩阵的所有特征值,选取前t-1个非平凡特征值,以所述t-1个特征值对应的特征向量构成t-1维空间;将复杂网络的n个节点映射到t-1维空间中;将t个局部极大势值节点作为初始聚类中心,采用K-means算法将t-1维空间中的n个节点划分为t个社区。
本发明将拓扑势和谱聚类融合,利用节点拓扑势值构造谱聚类中的节点标准矩阵,其中节点拓扑势是周围节点在本节点处产生势值的叠加和,能从全局角度反映节点间的紧密关系,本发明使得节点标准矩阵包含更多节点间的结构信息,有助于提高社区划分结果的准确性;无论复杂网络的社区结构是否明显,本发明都能够从局部极大势值节点的数量判断出复杂网络社区的数量,具有很强的适应性。
综上所述,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (8)

1.一种融合拓扑势和谱聚类的社区发现方法,其特征在于,所述融合拓扑势和谱聚类的社区发现方法包括:
计算给定的复杂网络中n个节点的拓扑势值,根据所述n个节点的拓扑势值构造复杂网络节点的标准矩阵;n为所述复杂网络中全部节点的总数;
在所述n个节点的拓扑势值中搜索所有局部极大势值,获得包含t个局部极大势值节点的局部极大势值节点集合;其中,1≤t≤n;
计算所述节点的标准矩阵的所有特征值,选取前t-1个非平凡特征值,以所述t-1个非平凡特征值对应的特征向量构建t-1维空间;将所述复杂网络的n个节点映射到所述t-1维空间中;
将所述t个局部极大势值节点作为初始聚类中心,采用K-means算法将t-1维空间中的n个节点划分为t个社区。
2.根据权利要求1所述的融合拓扑势和谱聚类的社区发现方法,其特征在于,所述复杂网络中n个节点的拓扑势值的计算方法包括:
Figure FDA0000485668660000011
其中,
Figure FDA0000485668660000012
为节点υi的拓扑势值;k为第i个节点υi影响范围内的节点数,1≤i≤n,1≤k≤n-1;节点υl为节点υi影响范围内的节点,1≤l≤k;节点υi的最大影响范围为
Figure FDA0000485668660000013
σ为影响因子,σ∈(0,+∞),用于控制节点的影响范围;m(υl)为节点υl的质量,dil为节点υi与节点υl间的距离,dil用节点间的跳数进行度量;影响因子σ的选取过程为:
Figure FDA0000485668660000014
为标准化因子。
3.根据权利要求2所述的融合拓扑势和谱聚类的社区发现方法,其特征在于,根据所述n个节点的拓扑势值构造复杂网络节点的标准矩阵N(G)的方法包括:
N(G)=D-1T
其中,D是n维对角矩阵,D的对角元素
Figure FDA0000485668660000015
T是n×n维矩阵,T的矩阵元素ti,j是节点υj在节点υi处产生的拓扑势值,即,
Figure FDA0000485668660000016
1≤i,j≤n,i≠j;若i=j,则ti,j=0;若节点υi超出节点υj的影响范围则ti,j=0。
4.根据权利要求2所述的融合拓扑势和谱聚类的社区发现方法,其特征在于,所述局部极大势值节点集合的获得方法包括:
比较所述复杂网络中每个节点与自身所有邻居节点的拓扑势值的大小;
若当前节点的拓扑势值大于自身所有邻居节点的拓扑势值,则当前节点是所述复杂网络的局部极大势值节点,将当前节点放入一局部极大势值节点初选集合;
若所述局部极大势值节点初选集合中两个局部极大势值节点的距离,即跳数,小于则在所述两个局部极大势值节点中选择拓扑势值较小的节点从所述局部极大势值节点初选集合中删除;
最终得到的包含有t个局部极大势值节点的局部极大势值节点初选集合为所述局部极大势值节点集合。
5.一种融合拓扑势和谱聚类的社区发现***,其特征在于,所述融合拓扑势和谱聚类的社区发现***包括:
拓扑势值获取模块,计算给定的复杂网络中n个节点的拓扑势值;
节点标准矩阵生成模块,与所述拓扑势值获取模块相连,根据所述n个节点的拓扑势值构造复杂网络节点的标准矩阵;n为所述复杂网络中全部节点的总数;
搜索模块,与所述拓扑势值获取模块相连,在所述n个节点的拓扑势值中搜索所有局部极大势值,获得包含t个局部极大势值节点的局部极大势值节点集合;其中,1≤t≤n;
特征值获取模块,与所述节点标准矩阵生成模块相连,计算所述标准矩阵的所有特征值;
谱映射模块,与所述特征值获取模块相连,从所述标准矩阵的所有特征值中选取前t-1个非平凡特征值,以所述t-1个非平凡特征值对应的特征向量构建t-1维空间,将所述复杂网络的n个节点映射到所述t-1维空间中;
社区划分模块,与所述搜索模块和所述谱映射模块分别相连,将所述t个局部极大势值节点作为初始聚类中心,采用K-means算法将映射后的t-1维空间中的n个节点划分为t个社区。
6.根据权利要求5所述的融合拓扑势和谱聚类的社区发现***,其特征在于,所述拓扑势值获取模块的模型函数为:
Figure FDA0000485668660000031
其中,
Figure FDA0000485668660000032
为节点υi的拓扑势值;k为第i个节点υi影响范围内的节点数,1≤i≤n,1≤k≤n-1;节点υl为节点υi影响范围内的节点,1≤l≤k;节点υi的最大影响范围为
Figure FDA0000485668660000033
σ为影响因子,σ∈(0,+∞),用于控制节点的影响范围;m(υl)为节点υl的质量,dil为节点υi与节点υl间的距离,dil用节点间的跳数进行度量;影响因子σ的选取过程为:
Figure FDA0000485668660000034
为标准化因子。
7.根据权利要求6所述的融合拓扑势和谱聚类的社区发现***,其特征在于,所述节点标准矩阵生成模块的模型函数为:
N(G)=D-1T
其中,D是n维对角矩阵,D的对角元素
Figure FDA0000485668660000035
T是n×n维矩阵,T的矩阵元素ti,j是节点υj在节点υi处产生的拓扑势值,即,
Figure FDA0000485668660000036
1≤i,j≤n,i≠j;若i=j,则ti,j=0;若节点υi超出节点υj的影响范围则ti,j=0。
8.根据权利要求6所述的融合拓扑势和谱聚类的社区发现***,其特征在于,所述搜索模块包括:
比较单元,与所述拓扑势值获取模块相连,比较所述复杂网络中每个节点与自身所有邻居节点的拓扑势值的大小;若当前节点的拓扑势值大于自身所有邻居节点的拓扑势值,则当前节点是所述复杂网络的局部极大势值节点;
第一筛选单元,与所述比较单元相连,将当前节点放入一局部极大势值节点初选集合;
第二筛选单元,与所述第一筛选单元相连,若所述局部极大势值节点初选集合中两个局部极大势值节点的距离,即跳数,小于
Figure FDA0000485668660000038
则在所述两个局部极大势值节点中选择拓扑势值较小的节点从所述局部极大势值节点初选集合中删除;
局部极大势值节点集合确定单元,与所述第二筛选单元相连,将最终得到的包含有t个局部极大势值节点的局部极大势值节点初选集合确定为所述局部极大势值节点集合。
CN201410129865.8A 2014-04-01 2014-04-01 一种融合拓扑势和谱聚类的社区发现方法及*** Active CN103888541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410129865.8A CN103888541B (zh) 2014-04-01 2014-04-01 一种融合拓扑势和谱聚类的社区发现方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410129865.8A CN103888541B (zh) 2014-04-01 2014-04-01 一种融合拓扑势和谱聚类的社区发现方法及***

Publications (2)

Publication Number Publication Date
CN103888541A true CN103888541A (zh) 2014-06-25
CN103888541B CN103888541B (zh) 2017-02-08

Family

ID=50957257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410129865.8A Active CN103888541B (zh) 2014-04-01 2014-04-01 一种融合拓扑势和谱聚类的社区发现方法及***

Country Status (1)

Country Link
CN (1) CN103888541B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105282011A (zh) * 2015-09-30 2016-01-27 广东工业大学 基于聚类融合算法的社交团体发现方法
CN105786622A (zh) * 2016-03-01 2016-07-20 国网安徽省电力公司 一种云环境下用于实时协同计算的节点选择方法
CN106530191A (zh) * 2016-11-07 2017-03-22 中国联合网络通信集团有限公司 一种小区信息处理方法及装置
CN108280574A (zh) * 2018-01-19 2018-07-13 国家电网公司 一种配电网结构成熟度的评价方法及装置
CN108833158A (zh) * 2018-06-08 2018-11-16 成都理工大学 一种基于k-means的相似性社区发现方法
CN109039745A (zh) * 2018-08-07 2018-12-18 东北大学 基于社区划分的复杂网络聚类同步的牵制节点选择方法
CN110110220A (zh) * 2018-06-21 2019-08-09 北京交通大学 融合社交网络和用户评价的推荐模型
CN110719224A (zh) * 2019-09-26 2020-01-21 西安理工大学 一种基于标签传播的拓扑势社区检测方法
CN110798802A (zh) * 2019-11-04 2020-02-14 北京理工大学 一种共享自行车骨架网络提取方法
CN112989189A (zh) * 2021-03-08 2021-06-18 武汉大学 一种基于双曲几何空间的结构洞节点搜索方法
CN113114677A (zh) * 2021-04-13 2021-07-13 中国互联网络信息中心 一种僵尸网络检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101383748A (zh) * 2008-10-24 2009-03-11 北京航空航天大学 一种复杂网络中的社区划分方法
WO2011068804A1 (en) * 2009-12-01 2011-06-09 Spidercloud Wireless, Inc. Method, system and device for configuring topology of a wireless network
CN102929942A (zh) * 2012-09-27 2013-02-13 福建师范大学 一种基于集成学习的社会网络重叠社区发现方法
CN103500168A (zh) * 2013-09-02 2014-01-08 中国矿业大学 一种基于拓扑势的重叠复杂网络社区发现方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101383748A (zh) * 2008-10-24 2009-03-11 北京航空航天大学 一种复杂网络中的社区划分方法
WO2011068804A1 (en) * 2009-12-01 2011-06-09 Spidercloud Wireless, Inc. Method, system and device for configuring topology of a wireless network
CN102929942A (zh) * 2012-09-27 2013-02-13 福建师范大学 一种基于集成学习的社会网络重叠社区发现方法
CN103500168A (zh) * 2013-09-02 2014-01-08 中国矿业大学 一种基于拓扑势的重叠复杂网络社区发现方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
淦文燕等: "一种基于拓扑势的网络社区发现方法", 《软件学报》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105282011A (zh) * 2015-09-30 2016-01-27 广东工业大学 基于聚类融合算法的社交团体发现方法
CN105786622A (zh) * 2016-03-01 2016-07-20 国网安徽省电力公司 一种云环境下用于实时协同计算的节点选择方法
CN105786622B (zh) * 2016-03-01 2018-12-28 国网安徽省电力公司 一种云环境下用于实时协同计算的节点选择方法
CN106530191A (zh) * 2016-11-07 2017-03-22 中国联合网络通信集团有限公司 一种小区信息处理方法及装置
CN108280574A (zh) * 2018-01-19 2018-07-13 国家电网公司 一种配电网结构成熟度的评价方法及装置
CN108280574B (zh) * 2018-01-19 2024-04-16 国家电网公司 一种配电网结构成熟度的评价方法及装置
CN108833158A (zh) * 2018-06-08 2018-11-16 成都理工大学 一种基于k-means的相似性社区发现方法
CN110110220B (zh) * 2018-06-21 2021-06-01 北京交通大学 融合社交网络和用户评价的推荐模型
CN110110220A (zh) * 2018-06-21 2019-08-09 北京交通大学 融合社交网络和用户评价的推荐模型
CN109039745A (zh) * 2018-08-07 2018-12-18 东北大学 基于社区划分的复杂网络聚类同步的牵制节点选择方法
CN110719224A (zh) * 2019-09-26 2020-01-21 西安理工大学 一种基于标签传播的拓扑势社区检测方法
CN110719224B (zh) * 2019-09-26 2021-08-06 西安理工大学 一种基于标签传播的拓扑势社区检测方法
CN110798802B (zh) * 2019-11-04 2020-10-02 北京理工大学 一种共享自行车骨架网络提取方法
CN110798802A (zh) * 2019-11-04 2020-02-14 北京理工大学 一种共享自行车骨架网络提取方法
CN112989189A (zh) * 2021-03-08 2021-06-18 武汉大学 一种基于双曲几何空间的结构洞节点搜索方法
CN113114677A (zh) * 2021-04-13 2021-07-13 中国互联网络信息中心 一种僵尸网络检测方法及装置
CN113114677B (zh) * 2021-04-13 2022-09-27 中国互联网络信息中心 一种僵尸网络检测方法及装置

Also Published As

Publication number Publication date
CN103888541B (zh) 2017-02-08

Similar Documents

Publication Publication Date Title
CN103888541A (zh) 一种融合拓扑势和谱聚类的社区发现方法及***
CN110532436B (zh) 基于社区结构的跨社交网络用户身份识别方法
Li et al. A comparative analysis of evolutionary and memetic algorithms for community detection from signed social networks
CN105740651B (zh) 一种特定癌症差异表达基因调控网络的构建方法
CN107247938A (zh) 一种高分辨率遥感影像城市建筑物功能分类的方法
CN107391670A (zh) 一种融合协同过滤和用户属性过滤的混合推荐方法
CN108009575A (zh) 一种用于复杂网络的社区发现方法
Cruz et al. Community detection and visualization in social networks: Integrating structural and semantic information
CN103020163A (zh) 一种网络中基于节点相似度的网络社区划分方法
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
CN102970692A (zh) 一种无线传感器网络事件边界节点检测方法
CN110298687B (zh) 一种区域吸引力评估方法及设备
CN109271427A (zh) 一种基于近邻密度和流形距离的聚类方法
CN113255895A (zh) 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法
CN103500168A (zh) 一种基于拓扑势的重叠复杂网络社区发现方法及***
CN108959652A (zh) 基于密度峰值与社区归属度的重叠社区发现方法
CN108510010A (zh) 一种基于预筛选的密度峰值聚类方法及***
CN109815986A (zh) 融合局部与全局特征的半监督分类方法
CN114430530B (zh) 空间划分方法、装置、设备、介质和程序产品
CN109558464A (zh) 网络性能分级表示方法
CN103051476A (zh) 基于拓扑分析的网络社区发现方法
CN106550387A (zh) 一种无线传感器网络路由层服务质量评价方法
CN105335761A (zh) 一种基于最近邻的遥感影像单类信息提取方法
Wang An improved complex network community detection algorithm based on k-means
Zehnalova et al. Local representativeness in vector data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant