CN115310589A - 一种基于深度图自监督学习的群体识别方法及*** - Google Patents

一种基于深度图自监督学习的群体识别方法及*** Download PDF

Info

Publication number
CN115310589A
CN115310589A CN202210813089.8A CN202210813089A CN115310589A CN 115310589 A CN115310589 A CN 115310589A CN 202210813089 A CN202210813089 A CN 202210813089A CN 115310589 A CN115310589 A CN 115310589A
Authority
CN
China
Prior art keywords
network
nodes
attribute
layer
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210813089.8A
Other languages
English (en)
Inventor
汪晓锋
王栽胜
沈国栋
张增杰
全大英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Jiliang University
Original Assignee
China Jiliang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Jiliang University filed Critical China Jiliang University
Priority to CN202210813089.8A priority Critical patent/CN115310589A/zh
Publication of CN115310589A publication Critical patent/CN115310589A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度图自监督学***滑影响;最后利用深度图自监督模型充分学习属性网络结构来提高群体识别准确率。采用本发明的技术方案,有利于降低网络群体发现所需要的人工标签成本,同时有效提高群体识别的准确性。

Description

一种基于深度图自监督学习的群体识别方法及***
技术领域
本发明属于网络数据挖掘领域,具体地,涉及一种基于深度图自监督学习的群体识别方法及***。
背景技术
近年来,复杂网络已成为描述和建模各种复杂***的通用语言,它将复杂***中的个体和个体之间的关系抽象为由节点和连边构成的图结构。群体结构是复杂网络中一个重要的中观结构特征,其通常与底层***的功能和组织模块密切相关,群体结构识别在知识发现、智能推荐、网络安全管理等领域具有重要的研究意义。群体识别旨在从未标记的网络中识别具有潜在相似属性或功能的节点集合。然而,随着信息技术和大数据的发展,网络变得越来越复杂,这给给群体识别任务带来了极大的挑战。早期研究主要关注网络拓扑特征,通常根据某种相似性或划分标准将网络划分为不同的群体结构,典型的方法包括基于图的划分、节点/边聚类、模块度优化和谱聚类等。然而,传统方法不太适用于真实世界的网络。这是因为除了结构特征之外,复杂网络中还有丰富的高维内容信息可用。尽管一些方法如启发式优化、矩阵分解和贝叶斯模型利用节点语义来提高群体识别的质量并为其提供解释,但由于网络的稀疏性导致计算复杂度高。此外,对于属性网络,一个关键问题是如何在群体识别中同时捕获结构关系和节点内容信息。
为了解决这个问题,最近的研究借助于深度学***滑问题,导致性能下降,所以目前的结构模型大多是浅层结构。因此,有必要设计一种仅需少量先验标签还能保证较好性能的深度模型以解决现有技术存在的问题。
发明内容
鉴于上述,本发明提供一种基于深度图自监督学***滑问题,为了降低深度模型带来的大量训练参数问题,对权重矩阵引入单位映射,如此不仅确保了深层模型达到与浅层模型具有相同的性能,而且也提高群体识别的准确性。
为达到上述目的,本发明采用以下的技术方案予以实现;
本发明第一方面,提供了一种基于深度图卷积网络的群体发现自监督学习方法,包括以下步骤:
S1:获取大规模属性网络数据集,并进行预处理;
S2:根据用户节点间复杂交互关系建模复杂网络,并提取各节点的属性信息;
S3:基于网络拓扑结构和属性信息,获得属性网络的邻接矩阵和属性网络的单位矩阵,分别以邻接矩阵和带少量标签的节点属性矩阵作为两个输入;
S4:利用初始残差和恒等映射两种策略,在图卷积网络基础上构建一种改进的图卷积网络模型;
S5:在每个卷积层输出后进行语义对齐,构建基于语义对齐机制的自监督学习模块,以此来提高伪标签的可信度;
S6:重复S4和S5堆叠多层卷积层和自监督模块,构建基于深度图自监督学习的群体识别模型;
S7:利用少量带有先验标签的节点来训练该图卷积网络模型,并预测未标记节点的群体标签,从而揭示属性网络中潜在的群体结构;
S8;利用聚类精确度和标准互信息度量对得到群体发现结果进行评价。
在一种可能的实施方式中,所述步骤S3权重矩阵转换和节点属性矩阵合成,进一步包括:
S301:对于属性网络G=(V,E,X)(其中V表示所有节点的集合,E为节点间连边的集合,X代表网络属性集合),得到两个输入经过一个全连接层得到H(0)=(X,A)和F(0)=(X,I)。
在一种可能的实施方式中,所述步骤S4利用初始残差和单位映射来加深模型训练,进一步包括:
S401:基于网络邻接矩阵A和特征向量矩阵X,构建一种改进的图卷积网络模型,其中第l层第一个卷积操作定义为:
H(l+1)=σ(((1-αl)PH(l)lH(0))((1-βl)InlW(l)))
其中
Figure BDA0003741236730000031
为调节权重的超参数,σ(·)代表激活函数ReLU(·)(满足ReLU(x)=max(0,x),
Figure BDA0003741236730000032
为增加了自环后的形式
Figure BDA0003741236730000033
Figure BDA0003741236730000034
Figure BDA0003741236730000035
对应的度对角矩阵(满足
Figure BDA0003741236730000036
)。H(0)表示图卷积网络输入层的属性特征矩阵(在此有H(0)=X),H(l)表示第l层各节点的嵌入向量,W(l)为该层可训练的权重矩阵,H(l+1)为该层以H(l)为输入经过卷积操作后的输出;
S402:基于网络单位矩阵I和特征向量矩阵X,构建一种改进的图卷积网络模型,其中第l层第二个卷积操作定义为:
Figure BDA0003741236730000037
其中
Figure BDA0003741236730000038
为调节权重的超参数,σ(·)代表激活函数ReLU(·)(满足ReLU(x)=max(0,x),I为单位矩阵。F(0)表示图卷积网络输入层的属性特征单位矩阵,F(l)表示第l层各节点的嵌入向量,W(l)为该层可训练的权重矩阵,F(l+1)为该层以F(l)为输入经过卷积操作后的输出;
S403:基于图卷积网络的输出经过一个全连接层后,采用softmax分类器将学习到的节点向量表示映射为节点对应的标签,该过程可以形式化为:
Z=softmax(H(l))
其中,H(l)表示通过图卷积网络学习到的节点表示矩阵,softmax函数定义为
Figure BDA0003741236730000039
(其中Z=∑i exp(xi)),各层的权重矩阵Θ在随机初始化后在训练过程获得自动更新;
在一种可能的实施方式中,所述步骤S5利用已知节点语义信息对未知节点就行语义对齐,进一步包括:
S501;在S4构造的深度图卷积网络模型中,每一层图卷积层的输出进行一次语义对齐。简而言之,就是将已知的标注节点作为类信息学习,给未知节点分配伪标签,
实现语义对齐;
S502;同时利用标记节点和未标记节点的中心相似度可以提供额外的监督信息,进一步提高未标记节点的分类精度,该过程可以形式化为:
Figure BDA0003741236730000041
其中Cj(·)表示属于第j类的特征的质心,D是平方欧几里得距离函数,L代表一组已知标签节点。
S503;同时由于伪标签构建的质心可能缺乏稳定性,我们在每次迭代中首先计算质心,该过程可以形式化为:
Figure BDA0003741236730000042
Figure BDA0003741236730000043
其中α∈[0,1)是平衡权重的超参数。
在一种可能的实施方式中,所述步骤S7利用少量先验标签对所构建模型进行训练及预测过程,进一步包括:
S701;提供少量已知标签,在S4构造的深度图卷积网络模型中进行训练;
S702;在模型参数不再更新后结束训练,经过一层全连接层后根据模型softmax层的输出将未标记节点划分为不同群体,最终得到属性网络的群体识别结果。
本发明所述所述群体类型包括但不限于通信网络中的用户群体、社交网络中的兴趣群体、风控领域的欺诈群体及引文网络中的学者群体。
本发明还公开了一种基于深度图自监督学习的群体识别***,该***具体包括以下模块:
数据获取模块,用于获取属性网络中不同用户间的交互行为数据;
预处理模块,基于属性网络数据,通过用户节点及节点间的关系连接构建网络拓扑和节点属性矩阵,并确定已知的节点标签、网络邻接矩阵和单位矩阵,最后通过全连接层后对两个输入矩阵进行降维;
图卷积网络模块,基于网络拓扑结构和节点属性矩阵,利用初始残差和恒等映射构建深度图卷积网络模型,并基于输入数据完成训练过程;
自监督模块,基于少量带有先验标签节点的语义信息,利用标记节点和未标记节点的中心相似度提供额外的监督信息,进一步提高未标记节点的分类精度;
群体识别与评价模块,基于深度自监督模型的特征向量输出,通过分类器推断节点的标签信息以实现群体识别,并对所获得的群体发现结果进行评价。
与现有技术相比,本发明具有如下的有益效果:
高效性:本发明所提供的方法通过构建深度图卷积网络对网络拓扑和属性信息进行深度融合,从而构建了高效的群体识别模型。一方面,在少量已知标签条件下,利用基于语义对齐的自监督模块有效扩展了节点标签,缓解了模型训练过程中缺少标签的问题,提高了群体识别中标签传播效率。另一方面,为了获得更好的利用自监督模块,进一步加深了模型深度,同时利用初始残差和单位映射缓解了深度模型带来的过平滑问题,使得在图卷积操作过程中可有效利用网络全局信息从而提高了群体发现的性能。
准确性:本发明基于属性网络的固有信息进行建模,在少量先验标签条件下,通过网络拓扑和节点属性以自监督的方式对群体结构进行挖掘,建立了端对端的群体发现模型,可用来处理大规模属性网络,对于真实的复杂网络实用性强。相比于当前代表性方法如GCN、DAGNN、Shoestring等在准确性上有了很大提升。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例的基于深度图自监督学习的群体识别方法流程图;
图2为本发明实施例的基于语义对齐的自监督模块;
图3为本发明提供一种基于深度图自监督学习的群体识别方法的示意图;
图4为本发明提供的一种基于深度图自监督学习的群体识别***结构图;
如下具体实施例将结合上述附图进一步说明本发明。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
下面结合附图对本发明做进一步详细描述:
参见附图1-4,本发明实施例中提供了一种基于深度图自监督学***滑问题网络结构无法加深的问题,提出了结合自监督学***滑问题,同时利用语义信息提供额外的监督信息,从而实现高效的群体结构识别。该方法利用基于深度学习的非线性模型融合网络拓扑和节点属性两方面信息并挖掘出更加合理的群体结构,能够在大规模属性网络中获得较好效果。
图1所示为本发明提供的一种基于深度图自监督学习的群体识别方法的详细流程图,其包括以下步骤:
S1:获取大规模属性网络数据集,并进行预处理。具体地,从属性网络中提取所有用户信息及其交互关系,同时对用户行为数据进行统计分析。
S2:根据用户节点间的复杂交互关系构建复杂网络,并提取各节点的属性信息。具体地,将属性网络中的各用户抽象为不同的节点,将用户之间的交互联系抽象为连边,从而构建一个复杂的属性网络G=(V,E,X),其中,V代表所有用户节点的集合,E代表用户节点间的连边集合,X代表每个节点的属性构成的集合。同时需对节点的属性进行去重、特征选择、数值编码、归一化等操作,以获得结构化的节点属性集合。
S3:基于网络拓扑结构和属性信息,获得属性网络的邻接矩阵和属性网络的单位矩阵,并将邻接矩阵和单位矩阵分别和节点属性融合经过一个全连接层后获得两个输入矩阵。本发明中,具体采用以下方式来实现;
S301:对于属性网络G=(V,E,X)(其中V表示所有节点的集合,E为节点间连边的集合,X代表网络属性集合),得到两个输入经过一个全连接层得到H(0)=(X,A)和F(0)=(X,I)。
S302:将全部节点属性合成矩阵形式X={xi},其中xi为节点vi对应的属性向量;
S4:基于初始残差和单位映射两个方法,在图卷积网络基础上构建一种改进的多层图卷积网络模型。具体地,本实例采用以下方式来实现;
S401:基于网络邻接矩阵A和特征向量矩阵X,构建一个多层图卷积网络模型,其中第l层第一个卷积操作定义为:
H(l+1)=σ(((1-αl)PH(l)lH(0))((1-βl)InlW(l)))
其中
Figure BDA0003741236730000061
为调节权重的超参数,σ(·)代表激活函数ReLU(·)(满足ReLU(x)=max(0,x),
Figure BDA0003741236730000062
为增加了自环后的形式
Figure BDA0003741236730000063
Figure BDA0003741236730000064
Figure BDA0003741236730000065
对应的度对角矩阵(满足
Figure BDA0003741236730000066
)。H(0)表示图卷积网络输入层的属性特征矩阵(在此有H(0)=X),H(l)表示第l层各节点的嵌入向量,W(l)为该层可训练的权重矩阵,H(l+1)为该层以H(l)为输入经过卷积操作后的输出;
S402:基于网络单位矩阵I和特征向量矩阵X,构建一个多层图卷积网络模型,其中第l层第二个卷积操作定义为:
Figure BDA0003741236730000071
其中
Figure BDA0003741236730000072
为调节权重的超参数,σ(·)代表激活函数ReLU(·)(满足ReLU(x)=max(0,x),I为单位矩阵。F(0)表示图卷积网络输入层的属性特征单位矩阵,F(l)表示第l层各节点的嵌入向量,W(l)为该层可训练的权重矩阵,F(l+1)为该层以F(l)为输入经过卷积操作后的输出;
S403:基于图卷积网络的输出经过一个全连接层后,采用softmax分类器将学习到的节点向量表示映射为节点对应的标签,该过程可以形式化为:
Z=softmax(H(l))
其中,H(l)表示通过图卷积网络学习到的节点表示矩阵,softmax函数定义为
Figure BDA0003741236730000073
(其中Z=∑i exp(xi)),各层的权重矩阵Θ在随机初始化后在训练过程获得自动更新;
S5:基于获得的语义信息,在每层卷积层输出进行语义对齐,以此来提高伪标签的可信度。
图2所示为本发明提供的自监督学习模块方法所示的示意图,其进一步包括如下步骤:
S501;在S4构造的深度图卷积网络模型中,每一层图卷积层的输出进行一次语义对齐。简而言之,就是将已知的标注节点作为类信息学习,给未知节点分配伪标签,
实现语义对齐;
S502;同时利用标记节点和未标记节点的中心相似度可以提供额外的监督信息,进一步提高未标记节点的分类精度,该过程可以形式化为:
Figure BDA0003741236730000074
其中Cj(·)表示属于第j类的特征的质心,D是平方欧几里得距离函数,L代表一组已知标签节点。
S503;同时由于伪标签构建的质心可能缺乏稳定性,我们在每次迭代中首先计算质心,该过程可以形式化为:
Figure BDA0003741236730000081
Figure BDA0003741236730000082
其中α∈[0,1)是平衡权重的超参数。
S6:重复S4和S5堆叠多层卷积层和自监督模块,构建基于深度图自监督学习的群体识别模型;;
S7:利用已知的少量标签和节点来训练该图卷积网络模型以预测未标记节点的群体标签,从而揭示属性网络中潜在的群体结构。具体地,其进一步包括以下步骤;
S701;提供少量已知标签,在S4构造的深度图卷积网络模型中进行训练;
S702;在模型参数不再更新后结束训练,经过一层全连接层后根据模型softmax层的输出将未标记节点划分为不同群体,最终得到属性网络的群体识别结果。
S8;利用聚类精确度和标准互信息度量对得到群体发现结果进行评价。其中,聚类精确度衡量群体发现结果中标签正确的数量占整个节点标签的比例,而标准互信息从信息熵的角度度量预测结果与真实标签之间的相近程度;
本发明所述属性网络类型包括但不限于社交媒体领域中的社交网络、金融风控领域的交易网络、通信***中的用户关系网络及科学研究领域的引文网络。所述群体类型包括但不限于通信网络中的用户群体、社交网络中的兴趣群体、风控领域的欺诈群体及引文网络中的学者群体。
本发明还公开了一种基于深度图自监督学习的群体识别***。参加图4,所示为该***的结构框图,具体包括以下模块:
数据获取模块,用于获取属性网络中不同用户间的交互行为数据;
预处理模块,基于属性网络数据,通过用户节点及节点间的关系连接构建网络拓扑和节点属性矩阵,并确定已知的节点标签、网络邻接矩阵和单位矩阵,最后通过全连接层后对两个输入矩阵进行降维;
图卷积网络模块,基于网络拓扑结构和节点属性矩阵,利用初始残差和恒等映射构建深度图卷积网络模型,并基于输入数据完成训练过程;
自监督模块,基于少量带有先验标签节点的语义信息,利用标记节点和未标记节点的中心相似度提供额外的监督信息,进一步提高未标记节点的分类精度;
群体识别与评价模块,基于深度自监督模型的特征向量输出,通过分类器推断节点的标签信息以实现群体识别,并对所获得的群体发现结果进行评价。
作为进一步的改进方案,数据获取模块还包括,从属性网络中提取所有用户的相关信息,包括反映用户间的交互行为的数据和用户本身的属性数据;
作为进一步的改进方案,数据预处理模块具体包括网络拓扑结构建模和节点属性特征提取两个子模块。其中,网络拓扑结构建模模块通过将属性网络中各用户识别为节点并根据用户间的交互关系建立链接,最后获得整个属性网络的拓扑结构;节点属性特征提取模块通过数据整合、清洗、特征选择、数值编码、归一化等过程,以获取所有用户节点的属性集合;对获得的两个初始输入经过全连接层就行降维;
作为进一步的改进方案,图卷积模型创建模块根据邻接矩阵、属性矩阵构建了一个多层图卷积模型。同时利用初始残差和单位映射来缓解过平滑问题和深度模型训练参数过多问题;
作为进一步的改进方案,自监督模块中由于伪标签构建的质心可能缺乏稳定性,因此在每次迭代过程中可首先计算质心,利用标记节点和未标记节点的中心相似度可以提供额外的监督信息;
作为进一步的改进方案,群体识别与评价模块具体实现了本发明所提供方法中所述步骤S7和S8的两个子模块。群体识别模块利用图卷积操作和神经网络的反向传播算法对图卷积模型进行训练,获得各节点的特征向量表示,然后通过softmax分类器来推断未标记节点的群体标签;评价模块采用聚类准确度和标注互信息两种指标来评价群体发现结果,直接反映了所提供方法的有效性,并对群体发现模块提供反馈以进一步改进***性能。
为验证本发明的技术效果,将通过算法对比实验验证本发明的有效性:
本发明中实施例中所用属性网络数据集为从真实世界中收集的网络数据,实验采用了3种规模不同的属性网络数据集。这些数据集被随机划分为训练集和测试集,其中训练集中每一类只提供1个或2个节点,使用30%的网络节点作为验证集,剩余数据作为测试集。本发明中实施例中所构建深度图卷积网络模型的深度为64层,即包括64个卷积层。实验运行在CPU Intel-7700HQ 3.4GHz,RAM 16.00GB的windows 10操作***环境下,采用了pytorch深度学习框架并用Python软件编程实现。为了提高计算效率和准确性,实验采用了科学计算包Numpy和Scipy。
本发明所提供方法分别与***性方法进行了对比,具体包括:一种半监督式的图神经网络方法GCN,其同时考虑了网络拓扑和节点属性信息,通过卷积操作聚合节点特征并推断节点标签,在训练标签足够的情况下表现较好;一种深度半监督方法DAGNN,在提供足够已知节点情况下,堆叠多层卷积层依然有良好的性能;一种自监督方法Shoestring,在少量已知标签情况下表现依然较好。表1所示为在每类提供1个已知节点情况下本发明所提供方法与三种代表性方法在群体发现准确度上的实验数据对比。表2所示为在每类提供2个已知节点情况下本发明所提供方法与三种代表性方法在群体发现准确度上的实验数据对比。
表1 本发明方法与3个代表性算法的群体发现准确度比较(每类提供1个已知节点)
Figure BDA0003741236730000101
表2 本发明方法与3个代表性算法的群体发现准确度比较(每类提供2个已知节点)
Figure BDA0003741236730000102
通过对比发现,本发明所提供方法与GCN、DAGNN及Shoestring相比,在每类提供1个已知节点情况下识别准确率上相应地平均提高了20.7%、9.5%和5.4%;在每类提供2个已知节点情况下识别准确率上相应地平均提高了20.5%、8.5%和5.5%。本发明方法能够获得较好性能,其原因在于:一方面,我们加入了自监督模块,利用节点的语义信息,更好的利用伪标签。自监督模块的加入带来性能上的提升,可以从GCN和DAGNN实验结果中得到体现;另一方面,本方法采用了深度模型,可以从Shoestring实验结果中得到体现。GCN同样基于图卷积操作来识别节点的群体标签,但实际上需要大量的先验标签来进行训练,并且很难保证这些标签在网络中均匀分布而有效地向全局网络传递标签信息。
下述为本发明的***实施例,可以用于执行本发明方法实施例。对于***实施例中未说明的细节,请参照本发明方法实施例。
本发明再一个实施例中,提供了一种基于深度图自监督学习的群体识别***。该群体发现***用于实现上述基于深度图自监督学习的群体识别方法。具体地,该***包括属性数据获取模块、预处理模块、图卷积网络模块、自监督模块、群体识别与评价模块。
其中,数据预处理模块包括网络拓扑结构建模和节点属性特征提取两个部分。其中,网络拓扑结构建模通过将属性网络中各用户识别为节点并根据用户间的交互关系建立链接,最后获得整个属性网络的拓扑结构;节点属性特征提取通过数据整合、清洗、特征选择、数值编码、归一化等过程获取所有用户节点的属性集合和少量先验节点标签;图卷积网络模块基于网络拓扑结构和节点属性构建多层图卷积模型;自监督模块利用标记节点和未标记节点的中心相似性提供额外的监督信息;群体发现于评价模块基于图卷积模型的输出用softmax分类器实现群体发现,同时评价所获得的群体识别结果并反馈以提升模型性能。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (7)

1.一种基于深度图自监督学习的群体识别方法,其特征在于,包括以下步骤:
S1:获取大规模属性网络数据集,并进行预处理;
S2:根据用户节点间复杂交互关系建模复杂网络,并提取各节点的属性信息;
S3:基于网络拓扑结构和属性信息,获得属性网络的邻接矩阵和属性网络的单位矩阵,分别以邻接矩阵和带少量标签的节点属性矩阵作为两个输入;
S4:利用初始残差和恒等映射两种策略,在图卷积网络基础上构建一种改进的图卷积网络模型;
S5:在每个卷积层输出后进行语义对齐,构建基于语义对齐机制的自监督学习模块,以此来提高伪标签的可信度;
S6:重复S4和S5堆叠多层卷积层和自监督模块,构建基于深度图自监督学习的群体识别模型;
S7:利用少量带有先验标签的节点来训练该深度图卷积网络模型,并预测未标记节点的群体标签,从而揭示属性网络中潜在的群体结构;
S8;利用聚类精确度和标准互信息度量对得到群体发现结果进行评价。
2.根据权利要求1所述的基于深度图自监督学习的群体识别方法,其特征在于,步骤S3进一步包括以下步骤:
S301:对于属性网络G=(V,E,X),其中,V表示所有节点的集合,E为节点间连边的集合,X代表网络属性集合,得到两个输入经过一个全连接层得到H(0)=(X,A)和F(0)=(X,I)。
3.根据权利要求1所述的基于深度图自监督学习的群体识别方法,其特征在于,步骤S4进一步包括以下步骤:
S401:基于网络邻接矩阵A和特征向量矩阵X,构建一种改进的图卷积网络模型,其中第l层第一个卷积操作定义为:
H(l+1)=σ(((1-αl)PH(l)lH(0))((1-βl)InlW(l)))
其中
Figure FDA0003741236720000011
为调节权重的超参数,σ(·)代表激活函数ReLU(·)(满足ReLU(x)=max(0,x),
Figure FDA0003741236720000012
为增加了自环后的形式
Figure FDA0003741236720000013
Figure FDA0003741236720000014
Figure FDA0003741236720000015
对应的度对角矩阵(满足
Figure FDA0003741236720000016
);H(0)表示图卷积网络输入层的属性特征矩阵,H(l)表示第l层各节点的嵌入向量,W(l)为该层可训练的权重矩阵,H(l+1)为该层以H(l)为输入经过卷积操作后的输出;
S402:基于网络单位矩阵I和特征向量矩阵X,构建一种改进的图卷积网络模型,其中第l层第二个卷积操作定义为:
Figure FDA0003741236720000021
其中
Figure FDA0003741236720000022
为调节权重的超参数,σ(·)代表激活函数ReLU(·)(满足ReLU(x)=max(0,x),I为单位矩阵;F(0)表示图卷积网络输入层的属性特征单位矩阵,F(l)表示第l层各节点的嵌入向量,W(l)为该层可训练的权重矩阵,F(l+1)为该层以F(l)为输入经过卷积操作后的输出;
S403:基于图卷积网络的输出经过一个全连接层后,采用softmax分类器将学习到的节点向量表示映射为节点对应的标签,该过程可以形式化为:
Z=softmax(H(l))
其中,H(l)表示通过图卷积网络学习到的节点表示矩阵,softmax函数定义为
Figure FDA0003741236720000023
其中Z=∑iexp(xi),各层的权重矩阵Θ在随机初始化后在训练过程获得自动更新。
4.根据权利要求1所述的基于深度图自监督学习的群体识别方法,其特征在于,步骤S5进一步包括以下步骤:
S501;在S4构造的深度图卷积网络模型中,每一个图卷积层后增加语义对齐操作;即将已标注节点作为类信息学习,给未知节点分配伪标签,实现语义对齐;
S502;同时利用标记节点和未标记节点的中心相似度可以提供额外的监督信息,进一步提高未标记节点的分类精度,该过程可以形式化为:
Figure FDA0003741236720000024
其中Cj(·)表示属于第j类的特征的质心,D是平方欧几里得距离函数,L代表一组已知标签节点;
S503;在每次迭代中计算并更新质心,该过程可以形式化为:
Figure FDA0003741236720000025
Figure FDA0003741236720000026
其中α∈[0,1)是平衡权重的超参数。
5.根据权利要求1所述的基于深度图自监督学习的群体识别方法,其特征在于,所述步骤S7进一步包括以下步骤:
S701;提供少量已知标签,在S4构造的深度图卷积网络模型中进行训练;
S702;在模型参数不再更新后结束训练,经过全连接层后根据模型softmax层的输出将未标记节点划分为不同群体,最终得到属性网络的群体识别结果。
6.根据权利要求1所述基于深度图自监督学习的群体识别方法,其中,群体类型包括以下中的至少一种:
社交网络中不同兴趣倾向的用户群体;
风控领域中不同特点的欺诈群体;
通信网络中的不同层次的消费群体;
引文网络中不同研究方向的学者群体。
7.一种基于深度图自监督学习的群体识别***,其特征在于,包括:
数据获取模块,用于获取属性网络中不同用户间的交互行为数据;
预处理模块,基于属性网络数据,通过用户节点及节点间的关系连接构建网络拓扑和节点属性矩阵,并确定已知的节点标签、网络邻接矩阵和单位矩阵,最后通过全连接层后对两个输入矩阵进行降维;
图卷积网络模块,基于网络拓扑结构和节点属性矩阵,利用初始残差和恒等映射构建深度图卷积网络模型,并基于输入数据完成训练过程;
自监督模块,基于少量带有先验标签节点的语义信息,利用标记节点和未标记节点的中心相似度提供额外的监督信息,进一步提高未标记节点的分类精度;
群体识别与评价模块,基于深度自监督模型的特征向量输出,通过分类器推断节点的标签信息以实现群体识别,并对所获得的群体发现结果进行评价。
CN202210813089.8A 2022-07-12 2022-07-12 一种基于深度图自监督学习的群体识别方法及*** Pending CN115310589A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210813089.8A CN115310589A (zh) 2022-07-12 2022-07-12 一种基于深度图自监督学习的群体识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210813089.8A CN115310589A (zh) 2022-07-12 2022-07-12 一种基于深度图自监督学习的群体识别方法及***

Publications (1)

Publication Number Publication Date
CN115310589A true CN115310589A (zh) 2022-11-08

Family

ID=83857688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210813089.8A Pending CN115310589A (zh) 2022-07-12 2022-07-12 一种基于深度图自监督学习的群体识别方法及***

Country Status (1)

Country Link
CN (1) CN115310589A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982654A (zh) * 2023-03-21 2023-04-18 北京芯盾时代科技有限公司 一种基于自监督图神经网络的节点分类方法及装置
CN117746260A (zh) * 2024-02-20 2024-03-22 山东省国土测绘院 遥感数据智能解析方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982654A (zh) * 2023-03-21 2023-04-18 北京芯盾时代科技有限公司 一种基于自监督图神经网络的节点分类方法及装置
CN115982654B (zh) * 2023-03-21 2023-08-04 北京芯盾时代科技有限公司 一种基于自监督图神经网络的节点分类方法及装置
CN117746260A (zh) * 2024-02-20 2024-03-22 山东省国土测绘院 遥感数据智能解析方法及***
CN117746260B (zh) * 2024-02-20 2024-05-31 山东省国土测绘院 遥感数据智能解析方法及***

Similar Documents

Publication Publication Date Title
WO2023065545A1 (zh) 风险预测方法、装置、设备及存储介质
CN112925989B (zh) 一种属性网络的群体发现方法及***
CN112906770A (zh) 一种基于跨模态融合的深度聚类方法及***
Hu et al. FCAN-MOPSO: an improved fuzzy-based graph clustering algorithm for complex networks with multiobjective particle swarm optimization
Shi et al. Effective decoding in graph auto-encoder using triadic closure
CN102324038B (zh) 一种基于数字图像的植物种类识别方法
CN115310589A (zh) 一种基于深度图自监督学习的群体识别方法及***
CN104601565A (zh) 一种智能优化规则的网络入侵检测分类方法
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN112580902B (zh) 对象数据处理方法、装置、计算机设备和存储介质
US20230117980A1 (en) Systems and methods for graph prototypical networks for few-shot learning on attributed networks
Huang et al. Federated Graph Semantic and Structural Learning.
CN111861756A (zh) 一种基于金融交易网络的团伙检测方法及其实现装置
Du et al. Detection of key figures in social networks by combining harmonic modularity with community structure-regulated network embedding
CN113762703A (zh) 确定企业画像的方法和装置、计算设备和存储介质
Zhang et al. Consumer credit risk assessment: A review from the state-of-the-art classification algorithms, data traits, and learning methods
Li et al. Efficient community detection in heterogeneous social networks
CN113989544A (zh) 一种基于深度图卷积网络的群体发现方法
CN116541792A (zh) 一种基于图神经网络节点分类进行团伙识别的方法
CN114265954B (zh) 基于位置与结构信息的图表示学习方法
CN114298854A (zh) 一种联合学习表示和对齐的弱监督用户身份链接方法
Gao et al. Statistics and Analysis of Targeted Poverty Alleviation Information Integrated with Big Data Mining Algorithm
Cheng et al. Community detection based on directed weighted signed graph convolutional networks
Berahmand et al. SDAC-DA: Semi-Supervised Deep Attributed Clustering Using Dual Autoencoder
Li et al. Context-aware Multi-level Question Embedding Fusion for visual question answering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination