CN109067588A - 一种基于局部标签信息的半监督非重叠社区发现方法 - Google Patents

一种基于局部标签信息的半监督非重叠社区发现方法 Download PDF

Info

Publication number
CN109067588A
CN109067588A CN201810954439.6A CN201810954439A CN109067588A CN 109067588 A CN109067588 A CN 109067588A CN 201810954439 A CN201810954439 A CN 201810954439A CN 109067588 A CN109067588 A CN 109067588A
Authority
CN
China
Prior art keywords
node
label
community
network
neighbor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810954439.6A
Other languages
English (en)
Inventor
李建平
顾小丰
胡健
张马路
杨久东
薛庆弢
周望
娄泽宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201810954439.6A priority Critical patent/CN109067588A/zh
Publication of CN109067588A publication Critical patent/CN109067588A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于局部标签信息的半监督非重叠社区发现方法。本发明与传统LPA算法相比在准确度方面有所提高,而且,加入局部标签先验信息的算法与未加入先验信息的算法相比,社区发现准确度明显要提高很多。特别是当网络中社区结构不明显的情况下,本发明所提出的算法依然可以达到较高的社区发现准确度。本发明的时间复杂度为O(m),故本发明虽然提高了社区发现准确度但时间复杂度并没有增加。

Description

一种基于局部标签信息的半监督非重叠社区发现方法
技术领域
本发明涉及社区发现方法技术领域,具体涉及一种基于局部标签信息的半监督非重叠社区发现方法。
背景技术
现实世界里,许多复杂***都可以被描述成复杂网络的形式。社区结构作为复杂网络的重要特性之一,在人们的生活中扮演着重要的角色。及时、准确的发现网络中所隐藏的社区结构,进而分析复杂***的内部特征,不仅可以指导人们的生产活动,而且对于理解并控制复杂***也有很大的帮助。
传统的社区发现算法由于时间复杂高、划分结果准确率低、需要事先指定社区规模等原因而不能得到广泛的应用。
传统社区发现方法有LPA算法,LPA算法的时间复杂度为O(m)。与以往的社区发现算法相比,LPA算法大大减少了运算的时间,其线性的时间复杂度使得大规模网络中的社区发现成为可能。虽然LPA算法的时间复杂度很低,但其在标签传播过程中,仅仅考虑了网络中邻居节点的标签信息,这就使得当邻居节点中出现频率最大的标签不止一个时,其会从出现频率最大的标签集中随机选取一个标签来作为当前节点的标签。尤其是在处于社区边缘的节点较多的网络,由于节点处于两个不同的社区之间,其随机选择性概率更大,更容易造成社区划分的准确率不高。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于局部标签信息的半监督非重叠社区发现方法解决了传统的社区发现算法由于时间复杂高、划分结果准确率低、需要事先指定社区规模的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于局部标签信息的半监督非重叠社区发现方法,包括以下步骤:
S1、结合网络中的must-in、cannot-in标签先验信息,将网络G(V,E)中的节点对加入到含有must-link和cannot-link先验信息的节点对集合DT和DN,并构造网络的社区相同矩阵M;
S2、从网络G(V,E)中任意选择一个节点vi
S3、找到节点vi的邻居节点集neighbor(vi),当存在vj∈neighbor(vi),使得(vi,vj)∈DT时,则l(vi)←l(vj),l()为节点标签集;
S4、当节点vi不存在带有正标签的邻居节点,存在vk∈neighbor(vi),且(vi,vk)∈DN,则将l(vk)从其邻居节点标签集上删去,从余下的标签集中选择出现频率最大的标签作为节点vi的社区归属;
S5、当网络G(V,E)中的任意一个节点的标签是其邻居节点中出现频率最大的标签时,结束该方法,否则返回步骤S2。
进一步地:所述步骤S5中的标签包括正标签和负标签,所述正标签包括must-in和must-link标签,所述负标签包括cannot-in和cannot-link标签。
进一步地:所述网络G(V,E)的节点对为D,D=DT∪DN∪DU,DU为网络中不确定具体关系的节点对。
进一步地:所述网络的社区相同矩阵M的取值为:Mij=1表示节点vi和节点vj在同一个社区内,Mij=-1表示节点vi和节点vj不在同一个社区内,Mij=0表示节点vi和节点vj的社区归属不清楚。
本发明的有益效果为:本发明与传统LPA算法相比在准确度方面有所提高,而且,加入局部标签先验信息的算法与未加入先验信息的算法相比,社区发现准确度明显要提高很多。特别是当网络中社区结构不明显的情况下,本发明所提出的算法依然可以达到较高的社区发现准确度。本发明的时间复杂度为O(m),故本发明虽然提高了社区发现准确度但时间复杂度并没有增加。
附图说明
图1为本发明流程图;
图2为本发明实施例中含有正负标签先验知识的网络;
图3为本发明实施例中Q值随标签个数增加而变化的量;
图4为本发明实施例中LFR benchmark网络中NMI值随标签个数增加的变化量。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于局部标签信息的半监督非重叠社区发现方法,包括以下步骤:
S1、结合网络中的must-in(必须包含)、cannot-in(不能包含)标签先验信息,将网络G(V,E)中的节点对加入到含有must-link(必须相关)和cannot-link(不能相关)先验信息的节点对集合DT和DN,并构造网络的社区相同矩阵M;在社交网络中,事先知道甲和乙在同一个社区内,则甲和乙之间存在must-link信息,在社区划分之前已经知道甲属于某一个社区,则网络中存在must-in信息,通过cannot-link信息和cannot-in不仅可以知道甲属于某个社区,也可以知道乙不属于某个社区;网络G中V为节点的集合,E为边的集合。
S2、从网络G(V,E)中任意选择一个节点vi
S3、找到节点vi的邻居节点集neighbor(vi),当存在vj∈neighbor(vi),使得(vi,vj)∈DT时,则l(vi)←l(vj),l()为节点标签集。
S4、当节点vi不存在带有正标签的邻居节点,存在vk∈neighbor(vi),且(vi,vk)∈DN,则将l(vk)从其邻居节点标签集上删去,从余下的标签集中选择出现频率最大的标签作为节点vi的社区归属。
S5、当网络G(V,E)中的任意一个节点的标签是其邻居节点中出现频率最大的标签时,结束该方法,否则返回步骤S2。
在本发明实施例中,步骤S5中的标签包括正标签和负标签,正标签包括must-in和must-link标签,所述负标签包括cannot-in和cannot-link标签。
在本发明实施例中,所述网络G(V,E)的节点对为D,D=DT∪DN∪DU,DU为网络中不确定具体关系的节点对。
在本发明实施例中,所述网络的社区相同矩阵M的取值为:Mij=1表示节点vi和节点vj在同一个社区内,Mij=-1表示节点vi和节点vj不在同一个社区内,Mij=0表示节点vi和节点vj的社区归属不清楚。
如图2所示,在网络结构中,虽然不知道节点3的社区划分,但知道其一定不属于社区1和社区2内。虽然不知道节点1和节点2的社区划分,但事先知道两者不在同一个社区内,利用这些负标签信息并结合网络中的正标签信息共同实现社区发现。对于网络中的节点集N可以分为3类,包括网络中含有must-in先验信息的节点集NT、网络中含有cannot-in信息的节点集NN以及未知其社区归属的节点集NU,故N=NT∪NN∪NU。对于明确其社区归属的节点集NT,建立其正标签隶属矩阵L,对于明确其社区不归属的节点集NN,建立其负标签隶属矩阵对于中的任意节点vi和vj,有以下结论:
如果vi∈Ck,vj∈Ck,则(vi,vj)∈DT,Ck为第k个社区;
如果vi∈Ck,vj∈Cq,且k≠q,则(vi,vj)∈DN,Cq为第q个社区;
如果vi∈Ck则(vi,vj)∈DN
对于DT∪DN中的节点对,
如果(vi,vj)∈DT,(vj,vk)∈DT,则(vi,vk)∈DT
如果(vi,vj)∈DT,(vj,vk)∈DN,则(vi,vk)∈DN
考虑到先验信息对真实网络中的社区发现具有推动作用,故本发明分别在以上具有较大提升空间的karate数据集和polbooks数据集上逐步增大算法中正负标签的个数,并以模块度函数Q作为社区发现准确率的衡量标准,其实验结果如图3所示,无论是karate数据集还是polbooks数据集,随着含有先验信息的标签个数的增多,本发明的社区发现准确度得到了显著的增加。故适当增加网络中含有先验信息的标签个数,可以显著提高社区发现的准确率。
为研究标签信息对社区发现的作用,本发明在社区结构不明显的u=0.9的LFRbenchmark网络中逐步增大算法中的正负标签的比例,以此来提高社区发现的准确率。具体实验结果如图4所示,即便是在u=0.9(μ为混合系数,μ值越大,则社区间的边数越多,社区结构越不明显)这种社区结构十分不明显的网络中,随着网络中先验信息的增加,社区发现的NMI值也随之提高。所以,有效利用网络中所存在的少量先验信息对于指导社区发现并提高算法本身的准确率方面具有重要的作用。

Claims (4)

1.一种基于局部标签信息的半监督非重叠社区发现方法,其特征在于,包括以下步骤:
S1、结合网络中的must-in、cannot-in标签先验信息,将网络G(V,E)中的节点对加入到含有must-link和cannot-link先验信息的节点对集合DT和DN,并构造网络的社区相同矩阵M;
S2、从网络G(V,E)中任意选择一个节点vi
S3、找到节点vi的邻居节点集neighbor(vi),当存在vj∈neighbor(vi),使得(vi,vj)∈DT时,则l(vi)←l(vj),l()为节点标签集;
S4、当节点vi不存在带有正标签的邻居节点,存在vk∈neighbor(vi),且(vi,vk)∈DN,则将l(vk)从其邻居节点标签集上删去,从余下的标签集中选择出现频率最大的标签作为节点vi的社区归属;
S5、当网络G(V,E)中的任意一个节点的标签是其邻居节点中出现频率最大的标签时,结束该方法,否则返回步骤S2。
2.根据权利要求1所述的基于局部标签信息的半监督非重叠社区发现方法,其特征在于,所述步骤S5中的标签包括正标签和负标签,所述正标签包括must-in和must-link标签,所述负标签包括cannot-in和cannot-link标签。
3.根据权利要求1所述的基于局部标签信息的半监督非重叠社区发现方法,其特征在于,所述网络G(V,E)的节点对为D,D=DT∪DN∪DU,DU为网络中不确定具体关系的节点对。
4.根据权利要求1所述的基于局部标签信息的半监督非重叠社区发现方法,其特征在于,所述网络的社区相同矩阵M的取值为:Mij=1表示节点vi和节点vj在同一个社区内,Mij=-1表示节点vi和节点vj不在同一个社区内,Mij=0表示节点vi和节点vj的社区归属不清楚。
CN201810954439.6A 2018-08-21 2018-08-21 一种基于局部标签信息的半监督非重叠社区发现方法 Pending CN109067588A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810954439.6A CN109067588A (zh) 2018-08-21 2018-08-21 一种基于局部标签信息的半监督非重叠社区发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810954439.6A CN109067588A (zh) 2018-08-21 2018-08-21 一种基于局部标签信息的半监督非重叠社区发现方法

Publications (1)

Publication Number Publication Date
CN109067588A true CN109067588A (zh) 2018-12-21

Family

ID=64687666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810954439.6A Pending CN109067588A (zh) 2018-08-21 2018-08-21 一种基于局部标签信息的半监督非重叠社区发现方法

Country Status (1)

Country Link
CN (1) CN109067588A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434815A (zh) * 2021-07-02 2021-09-24 中国计量大学 基于相似与相异约束半监督非负矩阵分解的社区检测方法
CN114513426A (zh) * 2022-03-02 2022-05-17 郑州轻工业大学 基于节点相似度和影响力的ccn社区划分方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101278257A (zh) * 2005-05-10 2008-10-01 奈特希尔公司 用于分布式社区发现的方法和装置
CN103327092A (zh) * 2012-11-02 2013-09-25 中国人民解放军国防科学技术大学 一种信息网络上的社区发现方法和***
CN108062360A (zh) * 2017-11-29 2018-05-22 广东技术师范学院 一种大规模复杂网络社区结构检测的方法、***及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101278257A (zh) * 2005-05-10 2008-10-01 奈特希尔公司 用于分布式社区发现的方法和装置
CN103327092A (zh) * 2012-11-02 2013-09-25 中国人民解放军国防科学技术大学 一种信息网络上的社区发现方法和***
CN108062360A (zh) * 2017-11-29 2018-05-22 广东技术师范学院 一种大规模复杂网络社区结构检测的方法、***及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
睢世凯: "基于局部标签信息的半监督社区发现算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434815A (zh) * 2021-07-02 2021-09-24 中国计量大学 基于相似与相异约束半监督非负矩阵分解的社区检测方法
CN114513426A (zh) * 2022-03-02 2022-05-17 郑州轻工业大学 基于节点相似度和影响力的ccn社区划分方法
CN114513426B (zh) * 2022-03-02 2023-09-15 郑州轻工业大学 基于节点相似度和影响力的ccn社区划分方法

Similar Documents

Publication Publication Date Title
CN105718960B (zh) 基于卷积神经网络和空间金字塔匹配的图像排序模型
CN103703467B (zh) 存储数据的方法和装置
CN112084422B (zh) 一种账号数据智能处理方法和装置
Shah et al. Random intersection trees
Kanehira et al. Aware video summarization
CN111046886B (zh) 号码牌自动识别方法、装置、设备及计算机可读存储介质
CN107103326A (zh) 基于超像素聚类的协同显著性检测方法
TW201835789A (zh) 評分模型的建立、用戶信用的評估方法及裝置
CN109685092B (zh) 基于大数据的聚类方法、设备、存储介质及装置
CN109242013A (zh) 一种数据标注方法、装置、电子设备及存储介质
CN109858476B (zh) 标签的扩充方法和电子设备
CN109067588A (zh) 一种基于局部标签信息的半监督非重叠社区发现方法
JP2015523628A (ja) ソーシャルネットワークのノードをグループ化する方法、装置、およびコンピュータ記憶媒体
CN106789338B (zh) 一种在动态大规模社交网络中发现关键人物的方法
CN105095867A (zh) 基于深度学习的快速动态人脸提取、识别方法
Balakrishnan et al. Diverse client selection for federated learning: Submodularity and convergence analysis
CN108876818A (zh) 一种基于似物性和相关滤波的目标跟踪方法
CN109325510A (zh) 一种基于网格统计的图像特征点匹配方法
CN105320963B (zh) 面向高分遥感图像的大尺度半监督特征选择方法
CN103905482A (zh) 推送信息的方法、推送服务器和***
Martin-Gutierrez et al. Multipolar social systems: Measuring polarization beyond dichotomous contexts
CN113283351B (zh) 一种使用cnn优化相似度矩阵的视频抄袭检测方法
El Omari et al. Non parametric estimation for fractional diffusion processes with random effects
Yan et al. Some path properties of weighted-fractional Brownian motion
JP2016181181A (ja) 画像処理装置、画像処理方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181221