CN112925989A - 一种属性网络的群体发现方法及*** - Google Patents

一种属性网络的群体发现方法及*** Download PDF

Info

Publication number
CN112925989A
CN112925989A CN202110127755.8A CN202110127755A CN112925989A CN 112925989 A CN112925989 A CN 112925989A CN 202110127755 A CN202110127755 A CN 202110127755A CN 112925989 A CN112925989 A CN 112925989A
Authority
CN
China
Prior art keywords
network
attribute
node
nodes
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110127755.8A
Other languages
English (en)
Other versions
CN112925989B (zh
Inventor
汪晓锋
王栽胜
刘伟
赵本香
刘睿敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Jiliang University
Original Assignee
China Jiliang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Jiliang University filed Critical China Jiliang University
Priority to CN202210313002.0A priority Critical patent/CN115438272A/zh
Priority to CN202110127755.8A priority patent/CN112925989B/zh
Publication of CN112925989A publication Critical patent/CN112925989A/zh
Application granted granted Critical
Publication of CN112925989B publication Critical patent/CN112925989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明属于网络数据挖掘领域,公开了一种属性网络的群体发现方法及***,用于准确地识别属性网络中潜在的群体结构,包括:获取属性网络用户交互行为数据;通过对属性网络数据进行预处理以建模属性网络拓扑和节点属性集合;基于节点度中心性度量和节点间相对距离定位潜在的聚类中心节点;根据拓扑结构信息将网络邻接矩阵转换为相似矩阵,同时合成节点属性矩阵;运用多层图卷积模型同时对结构信息和节点属性进行深度融合并自动识别完整的群体结构;最后对群体发现结果进行评价。本发明可面向大规模属性网络数据,在较低时间复杂度下揭示群体结构,对复杂网络普适性强,具有较高的应用价值。

Description

一种属性网络的群体发现方法及***
技术领域
本发明属于图数据挖掘领域。具体地,涉及一种属性网络的群体发现方法及***。
背景技术
随着信息技术和互联网技术的不断发展,人与人及人与环境之间的联系与交互变得普遍而又复杂,从而形成了各种各样的复杂***。这些复杂***通常可以用复杂网络来进行抽象描述,如在线社交网络、移动通信网络等。复杂网络涉及物理、生物、社会科学、***科学、网络科学等交叉领域,逐渐成为解决复杂问题的一个强有力的工具,在如社交网络分析、生物工程、电力与交通、人类行为分析、大数据分析等众多领域有着广泛的应用。这些复杂网络***中相互关联的个体形成的网络拓扑结构具有随机性和自组织性,并且表现出明显的群体聚集特征。近年来研究表明群体结构是复杂网络中普遍存在的一种重要中观结构特征,通常与网络中相应的功能模块及群体属性有着紧密联系。群体发现从中观视角揭示复杂网络的群体聚集特征和功能结构特性,对于分析复杂网络的节点特征、结构属性、群体交互模式等问题起着关键作用,并为研究复杂网络结构演化机制、信息传播规律、群体行为等提供重要支撑。
群体结构在复杂网络***中对应不同的功能模块和结构单元,其内部节点相对于群体之间有着更紧密的连接。例如,在社交网络中,由于社会交互不断增强,基于不同兴趣、主题、职业、地域等特征形成的大量紧密群体,社区结构特征尤为明显;通信网络中的群体代表了通信群或个人关系网络。因此,挖掘网络中紧密联系的群体结构对理解和分析网络结构属性、信息传播规律、人类社会组织结构等有重要的应用价值。构建复杂关系网络的拓扑结构并将其划分为不同的紧密连接的群体或模块,是目前常用的方法。典型方法如通过模块度最大化将复杂网络尽可能地划分为不同的群体结构。然而,复杂网络结构在整体上呈现稀疏性,使得这类方法对于解决该优化问题存在一定的挑战。实验表明,这类方法在较小规模的关系网络上表现较好,但在大规模的复杂网络无法获得最优的群体发现结果。同时,随着大数据技术的发展,除了拓扑结构外,复杂网络中积累了大量多源属性信息,并且对群体结构的形成与演变产生重要影响,如金融交易网络中,可基于用户间的交互信息和属性特征挖掘出潜在的诈骗、洗钱等异常行为。而上述方法通常无法利用这些信息,导致了较低的群体发现精度和准确度。因此,属性网络中的群体发现是亟待解决且具有重要应用价值的问题。
发明内容
鉴于上述,有必要提供一种针对属性网络的群体发现方法,有效利用网络或节点的属性特征来弥补网络拓扑结构带来的稀疏性问题,并以无监督学习的方式在群体发现过程中对这两部分信息充分融合,从而在降低计算复杂度的同时,提高群体发现的准确性。
为了克服现有技术的缺陷,本发明提供一种属性网络的群体发现方法。在该方法中,基于所获取的属性网络数据来确定所有节点用户间的连接关系以及用户属性特征,构建反映用户关系的复杂网络及用户属性集合,通过节点度中心性和节点间的距离来定位聚类中心节点并分配标签,再针对该属性网络构建多层图卷积模型,实现用户节点结构与节点属性信息的深度融合同时进行群体发现。本发明在大规模属性网络中可获得较好的群体发现效果。
为达到上述目的,本发明采用以下的技术方案予以实现;
本发明第一方面,提供了一种面向属性网络的群体发现方法,包括以下步骤:
S1:获取属性网络中所有用户间的交互行为数据;
S2:对所获取数据进行预处理,根据用户间的交互关系建模复杂网络结构,并提取各节点的属性信息;
S3:根据网络节点的度中心性度量和相对距离定位拓扑网络中的结构中心节点,并分配群体标签;
S4:基于网络拓扑结构和属性信息,将网络邻接矩阵转换成相似矩阵,并将节点属性合成属性矩阵;
S5:基于相似矩阵、节点属性矩阵及初始群体标签,构建多层图卷积模型进行群体发现,获得属性网络的群体发现结果;
S6;利用聚类精确度和标准互信息度量对得到群体发现结果进行评价。
在一种可能的实施方式中,所述步骤S3定位网络拓扑中的聚类中心节点,进一步包括:
S31:基于构建的属性网络,计算各节点的度中心性D:
D(i)=Degree(vi),i∈[1,N]
其中vi表示网络中的第i个节点;Degree(vi)表示节点vi的度中心性,即节点vi的邻居节点个数;N为网络总节点数量;
S32;计算属性网络中每个节点的平均度中心性,将度中心性大于平均度中心性的节点作为候选聚类中心节点加入队列C;
S33:对C中的候选中心节点按度中心性值大小降序排列;
S34:选取第一个候选节点作为第一个聚类中心节点;
S35:设置截断距离参数dc,计算当前候选队列队C中所有候选节点与第一个结构中心节点间的距离(最短路径长度)dsp,如果一个候选节中心点满足dsp≤dc则将该中心节点从候选队列中删除,否则作为第二个候选聚类中心节点继续保留在候选队列中;
S36:反复执行步骤S35,直到识别出所有的结构中心节点,并分配群体标签。在一种可能的实施方式中,所述相似矩阵转换和属性矩阵合成,具体包括:
在一种可能的实施方式中,所述步骤S4根据节点局部相似度转换相似矩阵以及属性矩阵合成,该步骤进一步包括:
S41;基于网络拓扑结构,计算网络用户节点间的局部相似度。节点间的局部相似度s通过如下公式计算:
Figure BDA0002924062320000031
其中,N(vi)表示与节点vi相连的邻居节点集合,||·||表示一种范数,在这里计算集合中元素的个数,同时定义:如果i=j,则sij=1;
S42:将网络拓扑结构用相似矩阵形式S={sij}表示,全部节点属性合成矩阵X={xi}表示,其中xi为节点vi对应的属性向量;
在一种可能的实施方式中,所述步S5根据相似矩阵、属性矩阵及初始标签等输入构建多层图卷积模型进行群体发现,该步骤进一步包括:
S51;构建三层图卷积网络模型,其输出Z可表示为:
Z=softmax(S ReLU(S ReLU(SXW(0))W(1))W(2))
其中,ReLU和softmax表示两个激活函数。具体地,激活函数ReLU定义为ReLU(zi)=max(0,zi),用来提取节点vi对应的输出zi的非线性特征;激活函数softmax定义为
Figure BDA0002924062320000042
(|C|表示聚类中心节点队列的长度,即群体结构的数量);W(0)、W(1)及W(2)分别表示该模型每一层的权重矩阵,在随机初始化后通过训练过程获得自动更新;
S52;基于S3所得到的聚类中心节点的标签集合,将该初始标签集合和属性矩阵同时输入上述模型进行训练;
S53;在模型参数不再更新后结束训练,根据softmax的输出将相同标签的节点划分为同一群体,最终得到属性网络的群体发现结果。
在一种可能的实施方式中,所述属性网络类型包括以下中的至少一种:移动通信***中的用户关系网络;社交媒体领域中的社交网络;金融风控领域的交易网络。
在一种可能的实施方式中,所述群体类型包括以下中的至少一种:移动通信网络中的用户群体;社交网络中的兴趣群体;风控领域的欺诈群体。
本发明第二方面,一种属性网络的群体发现***,包括以下模块:
属性网络数据获取模块,用于获取属性网络中不同用户间的交互行为数据;
网络建模和属性特征提取模块,基于所述属性网络数据,确定所有用户节点及节点间的关系连接以获得网络拓扑结构,选择用户属性特征获得节点属性集合;
聚类中心定位模块,根据节点的度中心性度量和节点间的相对距离,确定网络中的聚类中心并分配群体标签;
网络矩阵转换模块,基于网络拓扑信息,将邻接矩阵转换为相似矩阵,基于节点属性集合构建属性矩阵;
图卷积模型创建模块,基于网络拓扑结构和节点属性,构建多层图卷积模型;
群体发现模块,基于所构建多层图卷积模型进行训练以实现群体发现;
评价分析模块,用于评价所获得的群体发现结果。
与现有技术相比,本发明具有如下的有益效果:
高效性:本发明所提供的群体发现方法采用深度学习的图卷积网络对网络拓扑和属性信息进行深度融合并训练,建立了高效的分类模型。一方面,属性网络的拓扑结构总体上呈现大规模且稀疏的特点,而属性信息的加入可有效缓解网络稀疏带来的时间复杂度问题,提高了群体发现的效率。另一方面,拓扑信息和节点属性通过多层图卷积模型进行有效融合,同时基于少量的节点标签信息可以发现潜在更有意义的群体结构,提高了群体发现的性能。
准确性:本发明对属性网络的固有信息进行建模,无需任何先验知识,仅通过网络拓扑和节点属性以无监督的方式对群体结构进行挖掘,建立了精确的群体发现模型,可用来处理大规模属性网络,对于真实的复杂网络实用性强。相比于当前主流的方法如DeepWalk、MGAE、GCN等在准确性上有了很大提升。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例的属性网络的群体发现方法流程图;
图2为本发明分析一个真实网络的示意图;
图3为本发明实施例的聚类中心节点定位示意图;
图4为本发明实施例的群体发现结果示意图;
图5为本发明提供的一种属性网络的群体发现***结构框图;
如下具体实施例将结合上述附图进一步说明本发明。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
下面结合附图对本发明做进一步详细描述:
参见附图1,本发明实施例中提供了一种属性网络的群体发现方法。该方法有效结合了网络拓扑结构信息和节点属性信息以揭示属性网络中潜在的群体结构。基于获取的属性网络数据构建用户之间的交互关系网络以及节点属性集合,并通过局部的度中心性度量和相对距离定位网络中的潜在聚类中心节点,该方法在此基础上转换网络相似矩阵并合成节点属性矩阵,利用多层图卷积模型进行高效的群体发现。本方法针对以往方法因网络稀疏性导致的较大开销和未充分考虑属性信息的不足,提出了利用基于深度学习的非线性模型融合网络拓扑和节点属性两方面信息并挖掘出更加合理的群体结构,能够在大规模属性网络中获得较好效果,普适性强,具有较高的应用价值。
根据本发明提供的属性网络的群体发现方法,包括以下步骤:
S1:获取属性网络中所有用户间的交互行为数据。具体地,从属性网络中提取所有用户信息,对用户行为数据进行统计分析以获得用户间的交互关系。
S2:对所获取数据进行预处理,根据用户间的交互关系建模复杂网络结构,并提取各节点的属性信息。具体地,将属性网络中的各个用户(ID)抽象为不同的节点,将用户之间的交互联系抽象为连边,从而构建一个复杂的属性网络G=(V,E,X),其中,V代表所有用户节点的集合,E代表用户节点间的连边集合,X代表每个节点的属性构成的集合。同时,需对节点的属性进行去重、特征选择、数值编码、归一化等操作,以获得结构化的节点属性集合。
S3:根据网络节点的度中心性度量和相对距离定位拓扑网络中的结构中心节点,并分配群体标签。本发明中,具体采用以下方式;
S301:基于构建的网络拓扑结构G=(V,E,X)中,基于用户节点间的连接关系,计算各节点的度中心性D(i)。具体计算公式为D(i)=Degree(vi),i∈[1,N],其中,vi表示网络中的第i个节点;Degree(vi)表示节点vi的度,即节点vi的邻居个数;N为网络节点数;
S302;根据节点的度中心性分布,统计节点的平均度中心性
Figure BDA0002924062320000061
比较各节点的度中心性,如果
Figure BDA0002924062320000062
则将节点vi作为候选聚类中心节点并加入队列C中;
S303:对C中的候选中心节点按度中心性值大小降序排列;
S304:选取第一个候选聚类中心节点作为第一个聚类中心节点;
S305:设置截断距离参数dc,计算当前候选队列队C中所有候选节点与第一个聚类中心节点间的相对距离,即最短路径长度dsp。如果一个候选节中心点满足dsp≤dc,则将该中心节点从候选队列中删除,否则作为第二个候选聚类中心节点继续保留在候选队列中。其中,关于距离参数dc的具体大小,通常根据经验来进行确定。在本实施例中,设置dc=1,实验表明该设置不会对最终的群体发现结果产生影响;
S306:反复执行步骤S305,直到识别出所有的聚类中心节点,并分配社区标签。具体地,对每一个聚类中心节点赋予一个单独标签,这些标签决定了后续的群体结构类别。
S4:基于网络拓扑结构和属性信息,将网络邻接矩阵转换成相似矩阵,并将节点属性合成属性矩阵。具体地,本实施例采用以下方式来实现;
S401;根据网络拓扑结构信息,计算网络用户节点间的局部相似度,通过以下公式计算得到:
Figure BDA0002924062320000063
其中,N(vi)表示与节点vi相连的邻居节点集合,||·||表示一种范数,在这里计算集合中元素的个数,同时定义:如果i=j,则sij=1;
S402:将网络拓扑结构用相似矩阵形式S={sij}抽象表示;同时将各节点的属性特征用长度相同的特征向量表示并合成节点属性矩阵X={xi},其中xi为节点vi对应的属性向量;
本实施例中,通过步骤S402构建的相似矩阵反映了比简单的邻接矩阵更丰富的网络连接关系。邻接矩阵仅刻画了相邻节点间的连接,如果两节点之间存在连边,则在邻接矩阵中的值为1,否则为0,整体上较为稀疏。相似矩阵不仅刻画了相邻节点的模糊关系,同时还进一步反映了非相邻节点间的交互关系,矩阵元素取值范围为0到1,为后续揭示高质量的群体发现结果提供了有效保障。
S5:基于相似矩阵、节点属性矩阵及初始群体标签,构建多层图卷积模型进行群体发现,获得属性网络的群体发现结果。
具体地,本发明所提供的群体发现方法采用了一种深度学习技术,即图卷积网络模型。该模型通过对节点拓扑结构和节点属性进行联合学习,并基于初始的聚类标签信息对未标记节点的群体标签进行推断。该方法实现了网络拓扑和属性特征的有效融合,有利于揭示自然意义下的群体结构。
具体地,用于群体发现的图卷积模型的构建与标签学习步骤包括以下步骤:
S501;构建三层图卷积网络模型,其输出Z可表示为:
Z=softmax(S ReLU(S ReLU(SXW(0))W(1))W(2))
其中,ReLU和softmax表示两个激活函数。具体地,激活函数ReLU定义为ReLU(zi)=max(0,zi),用来提取节点vi对应的输出zi的非线性特征;激活函数softmax定义为
Figure BDA0002924062320000071
(|C|表示聚类中心节点队列的长度,即群体结构的数量);W(0)、W(1)及W(2)分别表示该模型每一层的权重矩阵,在随机初始化后通过训练过程获得自动更新;
S502;基于步骤S3所得到的结构中心节点及其标签集合,对上述模型进行训练同时输入所有节点的标签信息。具体地,该模型的训练过程是通过在每一次迭代过程中,基于节点间的相似度和节点属性向量,对各节点的属性信息进行更新,同时将属性相近的节点赋予相同的标签;再计算预测的标签与节点真实标签的误差更新模型参数,直到节点标签不再改变或完成了规定的迭代次数。在本实施例中,该模型的迭代次数为200。另外,节点间的相似度实际上起着调节边权重的作用;
S503;在训练结束后,根据softmax的输出将相同标签的节点划分为同一群体,最终得到属性网络的群体发现结果。该模型最终的预测结果中对每一个为分类的节点都赋予了一个标签,该标签与上述的聚类中心的节点相对应,然后把具有相同标签的节点归为同一个群体,最终得到整个属性网络对应的群体划分;
S6;利用聚类精确度和标准互信息度量对得到群体发现结果进行评价。其中,聚类精确度衡量群发现结果中标签正确的数量占整个节点标签的比例。而标准互信息从信息熵的角度度量预测结果与真实标签之间的相近程度,其值越大表示越接近真实的群体结构划分。本实施例中,通过大量是实验对比发现,本发明所提供的群体发现方法表现出了较大优势,算法性能提升明显。
本发明所述属性网络类型包括但不限于移动通信***中的用户关系网络、社交媒体领域中的社交网络和金融风控领域的交易网络。所述群体类型包括但不限于移动通信网络中的用户群体、社交网络中的兴趣群体、风控领域的欺诈群体。
本发明还公开了一种属性网络的群体发现***,参见图5,所示为***结构框图,具体包括以下模块:
属性网络数据获取模块,用于获取属性网络中不同用户间的交互行为数据;
网络建模和属性特征提取模块,基于所述属性网络数据,确定所有用户节点及节点间的关系连接以获得网络拓扑结构,选择用户属性特征获得节点属性集合;
聚类中心定位模块,根据节点的度中心性度量和节点间的相对距离,确定网络中的聚类中心并分配群体标签;
网络矩阵转换模块,基于网络拓扑信息,将邻接矩阵转换为相似矩阵,基于节点属性集合构建属性矩阵;
图卷积模型创建模块,基于网络拓扑结构和节点属性,构建多层图卷积模型;
群体发现模块,基于所构建多层图卷积模型进行训练以实现群体发现;
评价分析模块,用于评价所获得的群体发现结果。
作为进一步的改进方案,属性网络数据获取模块还包括,从属性网络中提取所有用户的相关信息,包括反映用户间的交互行为的数据和用户本身的属性数据;
作为进一步的改进方案,网络建模和属性特征提取模块具体包括网络拓扑结构建模和节点属性特征提取两个子模块。其中,网络拓扑结构建模模块通过将属性网络中各用户识别为节点并根据用户间的交互关系建立链接,最后获得整个属性网络的拓扑结构;节点属性特征提取模块通过数据整合、清洗、特征选择、数值编码、归一化等过程,以获取所有用户节点的属性集合;
作为进一步的改进方案,聚类中心定位模块具体实现了本发明所提供方法中的聚类中心节点定位步骤,其根据属性网络的拓扑结构关系计算节点的度中心性(D(i)=Degree(vi),其中vi代表网络中第i个节点)来选取候选聚类中心节点,然后比较各候选聚类中心间的相对距离以确定最终的聚类中心节点并分配群体标签;
作为进一步的改进方案,网络矩阵转换模块具体实现了本发明所提供方法中所述步骤S4,包括相似矩阵转换和属性矩阵合成两部分。其中,相似矩阵转换通过计算节点间的局部相似性sij=||N(vi)∩N(vj)||/||N(vi)∩N(vj)||(其中,N(vi)代表节点i的邻居节点集合)将邻接矩阵转换为相似矩阵S;属性矩阵合成基于各节点是属性特征集合构建对应整个属性网络的属性矩阵X;
作为进一步的改进方案,图卷积模型创建模块根据相似矩阵、属性矩阵及聚类中心节点构建了一个多层图卷积模型。其中,相似矩阵和属性矩阵的维度决定了该模型的输入层神经元数量,聚类中心节点数量决定了该模型输出。该模型利用深度神经网络对节点拓扑结构和节点属性进行联合学习,同时对节点特征进行局部聚合;
作为进一步的改进方案,群体发现模块具体实现了本发明所提供方法中所述步骤S5。基于所构建多层图卷积模型,该模块将聚类中心节点的标签信息作为输入,利用图卷积操作和神经网络的反向传播算法对图卷积模型进行训练,将聚类中心节点的标签信息向全局网络进行传播,同时对未标记节点的标签进行推断,通过训练好的Softmax分类器输出未标记节点的群体标签,从而实现群体发现。该模块输出具体表示为Z=softmax(S ReLU(SReLU(SXW(0))W(1))W(2)),其中ReLU为本发明书提及的另一种非线性激活函数,W为卷积层的权重矩阵,在训练过程中自动更新;
作为进一步的改进方案,评价分析模块具体实现了本发明所提供方法中所述步骤S6。该模块还包括用于评价群体发现结果的评价指标—聚类准确度。该准确度度量了群体发现结果中被正确划分的用户节点数量占整个节点规模的比例,直接反映了所提供方法的有效性,并对群体发现模块提供反馈以进一步改进***性能。
为进一步说明所供方法的有效性和可扩展性,本发明通过实验进行了下面的实施例。
本发明的一个实施例选用了一个小规模的真实网络来进行实验,并通过可视化的方式进一步描述了所提供方法的过程和效果。实验在CPU Intel Pentium Dual-Core2.0GHz,RAM 8.00GB的windows 7操作***环境下,采用了Tensorflow深度学习框架并用Python软件编程实现。为了提高计算效率和准确性,实验采用了科学计算包Numpy和Scipy。
实验所用真实网络为Zachary空手道俱乐部社交网络。该网络是基于W.W.Zachery对一个空手道俱乐部成员间的交互关系进行长期的调查和观察,并构建了一个有34个成员和78条边的交互网络,如图1所示。在观察过程中,该网络最终因俱乐部管理者和教练间的分歧而***成两个较小的社区结构。该网络广泛用于测试群体发现方法的有效性和可靠性。
根据本发明所提供的群体发现方法,在所构建的网络拓扑结构和成员属性信息基础上,首先根据节点的度中心性和相对距离来定位网络中的聚类中心节点(如图3中箭头所指向的虚线圈中两个节点准确对应该网络中的管理者和教练),并分配标签;接着计算成员节点之间相似度以获得相似矩阵并合成属性矩阵;然后构建多层图卷积模型并进行训练;最后获得群体发现结果,如图4所示。
在实验中,本发明所提方法能有效识别网络中真实的***现象,即两个带有明显群体结构的群组被发现。如图4所示,其中用圆形和正方形分别表示两个群体结构。通过与成员节点的真实标签对比发现,该结果与真实群体划分完全一致。
为了进一步验证本发明的技术效果,本实施例在真实数据集上进行了对比实验:
表1本发明方法与3个代表性算法的群体发现准确度比较
Figure BDA0002924062320000101
本方法从实际属性网络中收集了大量的用户交互数据。为了与其他算法进行对比,实验选用了其中5个数据集,将每个数据集中的30%作为训练集,70%作为测试集,而本方法所需训练集由聚类中心节点及其邻近节点数决定,数量上实际要远低于参考训练集的比例。本发明分别与3个代表性方法进行了对比,具体包括:一种传统群体发现方法Infomap,其仅利用网络拓扑信息来识别群体结构,在同类算法中能获得较好效果;一种图嵌入方法MGAE,其通过自编码器来学习节点结构和属性特征表示,并用传统聚类方法实现群体识别,在小数据集上表现较好;一种半监督式的图神经网络方法GCN,其同时考虑了网络拓扑和节点属性信息,通过卷积操作聚合节点特征并推断节点标签,在训练标签足够的情况下表现较好。参见表1所示,为本发明与上述方法在群体发现准确度上的实验数据对比。
上表1给出了本发明方法与三种代表性方法在群体发现任务中的准确度对比。通过对比发现,本发明所提供方法与Infomap、MGAE及GCN相比,在识别准确率上相应地平均提高了22.9%、9.58%和7.68%。本发明方法能够获得较好性能,其原因在于:一方面,本方法在群体发现过程中充分考虑了网络拓扑和节点属性信息,有效保证了群体发现的准确性。属性信息的加入带来性能上的提升,可以从MGAE和GCN实验结果中得到体现;另一方面,本方法采用了聚类中心节点定位的策略,使得图卷积模型在训练过程中能更快收敛,并得到更优的结果。GCN同样基于图卷积操作来识别节点的群体标签,但实际上需要大量的先验标签来进行训练,并且很难保证这些标签在网络中均匀分布而有效地向全局网络传递标签信息,
下述为本发明的***实施例,可以用于执行本发明方法实施例。对于***实施例中未说明的细节,请参照本发明方法实施例。
本发明再一个实施例中,提供了一种属性网络的群体发现***。该属性网络的群体发现***用于实现上述属性网络的群体发现方法,具体地,该属性网络的群体发现***,包括属性网络数据获取模块、网络结构建模模块、聚类中心定位模块、矩阵转换模块、图卷积模型创建模块、群体发现模块和评价分析模块。
其中,聚类中心定位模块根据节点的度中心性度量和节点间的相对距离,确定网络中的聚类中心并分配群体标签;网络矩阵转换模块基于网络拓扑信息将邻接矩阵转换为相似矩阵,基于节点属性集合构建属性矩阵;图卷积模型创建模块基于网络拓扑结构和节点属性构建多层图卷积模型;群体发现模块基于所构建的图卷积模型进行训练以实现群体发现;评价分析模块,用于评价所获得的群体发现结果。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (4)

1.一种属性网络的群体发现方法,其特征在于,包括以下步骤:
S1:获取属性网络中所有用户间的交互行为数据;
S2:对所获取数据进行预处理,根据用户间的交互关系建模复杂网络结构,并提取各节点的属性信息;
S3:根据网络节点的度中心性度量和相对距离定位拓扑网络中的聚类中心节点,并分配群体标签;
S4:基于网络拓扑结构和属性信息,将网络邻接矩阵转换成相似矩阵,并将节点属性合成属性矩阵;
S5:基于相似矩阵、节点属性矩阵及初始群体标签,构建多层图卷积模型进行群体发现,获得属性网络的群体发现结果;
S6;利用聚类精确度和标准互信息度量对得到群体发现结果进行评价;
其中,所述步骤S3进一步包括:
S31:基于构建的属性网络,计算各节点的度中心性D:
D(i)=Degree(vi),i∈[1,N]
其中vi表示网络中的第i个节点;Degree(vi)表示节点vi的度中心性,即节点vi的邻居节点个数;N为网络总节点数量;
S32;计算属性网络中每个节点的平均度中心性,将度中心性大于平均度中心性的节点作为候选聚类中心节点加入队列C;
S33:对C中的候选中心节点按度中心性值大小降序排列;
S34:选取第一个候选节点作为第一个聚类中心节点;
S35:设置截断距离参数dc,计算当前候选队列队C中所有候选节点与第一个结构中心节点间的距离最短路径长度dsp,如果一个候选节中心点满足dsp≤dc则将该中心节点从候选队列中删除,否则作为第二个候选聚类中心节点继续保留在候选队列中;
S36:反复执行步骤S35,直到识别出所有的结构中心节点,并分配群体标签;
其中,所述步骤S4进一步包括:
S41;基于网络拓扑结构,计算网络用户节点间的局部相似度;节点间的局部相似度s通过如下公式计算:
Figure FDA0002924062310000021
其中,N(vi)表示与节点vi相连的邻居节点集合,||·||表示一种范数,在这里计算集合中元素的个数,同时定义:如果i=j,则sij=1;
S42:将网络拓扑结构用相似矩阵形式S={sij}表示,全部节点属性合成矩阵X={xi}表示,其中xi为节点vi对应的属性向量;
其中,所述步骤S5进一步包括:
S51;构建三层图卷积网络模型,其输出Z可表示为:
Z=softmax(SReLU(SReLU(SXW(0))W(1))W(2))
其中,ReLU和softmax表示两个激活函数;具体地,激活函数ReLU定义为ReLU(zi)=max(0,zi),用来提取节点vi对应的输出zi的非线性特征;激活函数softmax定义为
Figure FDA0002924062310000022
|C|表示聚类中心节点队列的长度,即群体结构的数量;W(0)、W(1)及W(2)分别表示该模型每一层的权重矩阵,在随机初始化后通过训练过程获得自动更新;
S52;基于S3所得到的聚类中心节点的标签集合,将该初始标签集合和属性矩阵同时输入上述模型进行训练;
S53;在模型参数不再更新后结束训练,根据softmax的输出将相同标签的节点划分为同一群体,最终得到属性网络的群体发现结果。
2.根据权利要求1所述属性网络的群体发现方法,其中,所述属性网络类型包括以下中的至少一种:
移动通信***中的用户关系网络;
社交媒体领域中的社交网络;
金融风控领域的交易网络。
3.根据权利要求1所述属性网络的群体发现方法,其中,所述群体类型包括以下中的至少一种:
移动通信网络中的消费群体;
社交网络中的兴趣群体;
风控领域的欺诈群体。
4.一种属性网络的群体发现***,其特征在于,包括:
属性网络数据获取模块,用于获取属性网络中不同用户间的交互行为数据;
网络建模模块,基于所述属性网络数据,确定所有用户节点及节点间的关系连接,以获得网络拓扑结构和用户节点属性集合;
聚类中心定位模块,根据节点的度中心性度量和节点间的相对距离,确定网络中的聚类中心并分配群体标签;
网络矩阵转换模块,基于网络拓扑信息,将邻接矩阵转换为相似矩阵,基于节点属性集合构建属性矩阵;
图卷积模型创建模块,基于网络拓扑结构和节点属性,构建多层图卷积模型;
群体发现模块,基于所构建多层图卷积模型进行训练以实现群体发现;
评价分析模块,用于评价所获得的群体发现结果。
CN202110127755.8A 2021-01-29 2021-01-29 一种属性网络的群体发现方法及*** Active CN112925989B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210313002.0A CN115438272A (zh) 2021-01-29 2021-01-29 一种属性网络的群体发现***
CN202110127755.8A CN112925989B (zh) 2021-01-29 2021-01-29 一种属性网络的群体发现方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110127755.8A CN112925989B (zh) 2021-01-29 2021-01-29 一种属性网络的群体发现方法及***

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202210313002.0A Division CN115438272A (zh) 2021-01-29 2021-01-29 一种属性网络的群体发现***

Publications (2)

Publication Number Publication Date
CN112925989A true CN112925989A (zh) 2021-06-08
CN112925989B CN112925989B (zh) 2022-04-26

Family

ID=76168680

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210313002.0A Pending CN115438272A (zh) 2021-01-29 2021-01-29 一种属性网络的群体发现***
CN202110127755.8A Active CN112925989B (zh) 2021-01-29 2021-01-29 一种属性网络的群体发现方法及***

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202210313002.0A Pending CN115438272A (zh) 2021-01-29 2021-01-29 一种属性网络的群体发现***

Country Status (1)

Country Link
CN (2) CN115438272A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344638A (zh) * 2021-06-29 2021-09-03 云南电网有限责任公司信息中心 一种基于超图的电网用户族群画像构建方法及装置
CN113362071A (zh) * 2021-06-21 2021-09-07 浙江工业大学 一种针对以太坊平台的庞氏骗局识别方法及***
CN113420161A (zh) * 2021-06-24 2021-09-21 平安科技(深圳)有限公司 一种节点文本融合方法、装置、计算机设备及存储介质
CN113992718A (zh) * 2021-10-28 2022-01-28 安徽农业大学 一种基于动态宽度图神经网络的群体传感器异常数据检测方法和***
CN114050975A (zh) * 2022-01-10 2022-02-15 苏州浪潮智能科技有限公司 一种异构多节点互联拓扑生成方法和存储介质
CN114095503A (zh) * 2021-10-19 2022-02-25 广西综合交通大数据研究院 一种基于区块链的联邦学习参与节点选择方法
CN114510650A (zh) * 2022-04-19 2022-05-17 湖南三湘银行股份有限公司 一种异构社交网络风控处理方法及***
CN114741433A (zh) * 2022-06-09 2022-07-12 北京芯盾时代科技有限公司 一种社群挖掘方法、装置、设备及存储介质
CN114997897A (zh) * 2022-04-07 2022-09-02 重庆邮电大学 一种基于移动数据的易受诈人群画像构建方法
CN115086179A (zh) * 2022-08-19 2022-09-20 北京科技大学 一种社交网络中社区结构的检测方法
CN117252488A (zh) * 2023-11-16 2023-12-19 国网吉林省电力有限公司经济技术研究院 基于大数据的产业集群能效优化方法及***
CN117272345A (zh) * 2023-10-09 2023-12-22 上海花小桔科技有限公司 一种基于云服务的电子合同加密方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103325061A (zh) * 2012-11-02 2013-09-25 中国人民解放军国防科学技术大学 一种社区发现方法和***
CN103942308A (zh) * 2014-04-18 2014-07-23 中国科学院信息工程研究所 大规模社交网络社区的检测方法及装置
CN106411572A (zh) * 2016-09-06 2017-02-15 山东大学 一种结合节点信息和网络结构的社区发现方法
CN108596264A (zh) * 2018-04-26 2018-09-28 南京大学 一种基于深度学习的社区发现方法
US20180341696A1 (en) * 2017-05-27 2018-11-29 Hefei University Of Technology Method and system for detecting overlapping communities based on similarity between nodes in social network
CN110990718A (zh) * 2019-11-27 2020-04-10 国网能源研究院有限公司 一种公司形象提升***的社会网络模型构建模块
US20200160177A1 (en) * 2018-11-16 2020-05-21 Royal Bank Of Canada System and method for a convolutional neural network for multi-label classification with partial annotations
US20200210864A1 (en) * 2018-01-15 2020-07-02 Dalian Minzu University Method for detecting community structure of complicated network

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103325061A (zh) * 2012-11-02 2013-09-25 中国人民解放军国防科学技术大学 一种社区发现方法和***
CN103942308A (zh) * 2014-04-18 2014-07-23 中国科学院信息工程研究所 大规模社交网络社区的检测方法及装置
CN106411572A (zh) * 2016-09-06 2017-02-15 山东大学 一种结合节点信息和网络结构的社区发现方法
US20180341696A1 (en) * 2017-05-27 2018-11-29 Hefei University Of Technology Method and system for detecting overlapping communities based on similarity between nodes in social network
US20200210864A1 (en) * 2018-01-15 2020-07-02 Dalian Minzu University Method for detecting community structure of complicated network
CN108596264A (zh) * 2018-04-26 2018-09-28 南京大学 一种基于深度学习的社区发现方法
US20200160177A1 (en) * 2018-11-16 2020-05-21 Royal Bank Of Canada System and method for a convolutional neural network for multi-label classification with partial annotations
CN110990718A (zh) * 2019-11-27 2020-04-10 国网能源研究院有限公司 一种公司形象提升***的社会网络模型构建模块

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张海涛等: ""在线社交网络的社区发现研究进展"", 《图书情报工作》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362071A (zh) * 2021-06-21 2021-09-07 浙江工业大学 一种针对以太坊平台的庞氏骗局识别方法及***
CN113420161A (zh) * 2021-06-24 2021-09-21 平安科技(深圳)有限公司 一种节点文本融合方法、装置、计算机设备及存储介质
CN113344638B (zh) * 2021-06-29 2022-05-24 云南电网有限责任公司信息中心 一种基于超图的电网用户族群画像构建方法及装置
CN113344638A (zh) * 2021-06-29 2021-09-03 云南电网有限责任公司信息中心 一种基于超图的电网用户族群画像构建方法及装置
CN114095503A (zh) * 2021-10-19 2022-02-25 广西综合交通大数据研究院 一种基于区块链的联邦学习参与节点选择方法
CN113992718A (zh) * 2021-10-28 2022-01-28 安徽农业大学 一种基于动态宽度图神经网络的群体传感器异常数据检测方法和***
CN113992718B (zh) * 2021-10-28 2022-10-04 安徽农业大学 一种基于动态宽度图神经网络的群体传感器异常数据检测方法和***
WO2023130656A1 (zh) * 2022-01-10 2023-07-13 苏州浪潮智能科技有限公司 一种异构多节点互联拓扑生成方法和存储介质
CN114050975B (zh) * 2022-01-10 2022-04-19 苏州浪潮智能科技有限公司 一种异构多节点互联拓扑生成方法和存储介质
CN114050975A (zh) * 2022-01-10 2022-02-15 苏州浪潮智能科技有限公司 一种异构多节点互联拓扑生成方法和存储介质
CN114997897A (zh) * 2022-04-07 2022-09-02 重庆邮电大学 一种基于移动数据的易受诈人群画像构建方法
CN114510650A (zh) * 2022-04-19 2022-05-17 湖南三湘银行股份有限公司 一种异构社交网络风控处理方法及***
CN114510650B (zh) * 2022-04-19 2022-07-12 湖南三湘银行股份有限公司 一种异构社交网络风控处理方法及***
CN114741433A (zh) * 2022-06-09 2022-07-12 北京芯盾时代科技有限公司 一种社群挖掘方法、装置、设备及存储介质
CN115086179A (zh) * 2022-08-19 2022-09-20 北京科技大学 一种社交网络中社区结构的检测方法
CN115086179B (zh) * 2022-08-19 2022-12-09 北京科技大学 一种社交网络中社区结构的检测方法
CN117272345A (zh) * 2023-10-09 2023-12-22 上海花小桔科技有限公司 一种基于云服务的电子合同加密方法及***
CN117272345B (zh) * 2023-10-09 2024-03-01 上海花小桔科技有限公司 一种基于云服务的电子合同加密方法及***
CN117252488A (zh) * 2023-11-16 2023-12-19 国网吉林省电力有限公司经济技术研究院 基于大数据的产业集群能效优化方法及***
CN117252488B (zh) * 2023-11-16 2024-02-09 国网吉林省电力有限公司经济技术研究院 基于大数据的产业集群能效优化方法及***

Also Published As

Publication number Publication date
CN115438272A (zh) 2022-12-06
CN112925989B (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
CN112925989B (zh) 一种属性网络的群体发现方法及***
Xinyi et al. Capsule graph neural network
CN109977232B (zh) 一种基于力导图的图神经网络可视分析方法
Liu et al. A two-stage hybrid credit risk prediction model based on XGBoost and graph-based deep neural network
CN113672811B (zh) 一种基于拓扑信息嵌入的超图卷积协同过滤推荐方法、***及计算机可读存储介质
CN111476261A (zh) 一种社区增强的图卷积神经网络方法
CN113255895A (zh) 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法
CN112580902B (zh) 对象数据处理方法、装置、计算机设备和存储介质
Li et al. Explain graph neural networks to understand weighted graph features in node classification
CN112765415A (zh) 基于关系内容联合嵌入卷积神经网络的链路预测方法
CN113407864A (zh) 一种基于混合注意力网络的群组推荐方法
CN115310589A (zh) 一种基于深度图自监督学习的群体识别方法及***
He et al. CECAV-DNN: Collective ensemble comparison and visualization using deep neural networks
CN113989544A (zh) 一种基于深度图卷积网络的群体发现方法
Wu et al. Prediction on recommender system based on bi-clustering and moth flame optimization
Fang et al. Learning decomposed spatial relations for multi-variate time-series modeling
Cai et al. Training deep convolution network with synthetic data for architectural morphological prototype classification
Abreu et al. Currency exchange prediction using machine learning, genetic algorithms and technical analysis
Zhang et al. End‐to‐end generation of structural topology for complex architectural layouts with graph neural networks
Gautam et al. Evolving clustering based data imputation
Zuo et al. Domain selection of transfer learning in fuzzy prediction models
Zhou et al. Online recommendation based on incremental-input self-organizing map
CN114265954B (zh) 基于位置与结构信息的图表示学习方法
Lai et al. Learning graph convolution filters from data manifold
Lennox et al. Deep metric learning for proteomics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant