CN115310589A

CN115310589A - 一种基于深度图自监督学习的群体识别方法及***

Info

Publication number: CN115310589A
Application number: CN202210813089.8A
Authority: CN
Inventors: 汪晓锋; 王栽胜; 沈国栋; 张增杰; 全大英
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-11-08

Abstract

本发明公开了一种基于深度图自监督学***滑影响；最后利用深度图自监督模型充分学习属性网络结构来提高群体识别准确率。采用本发明的技术方案，有利于降低网络群体发现所需要的人工标签成本，同时有效提高群体识别的准确性。

Description

一种基于深度图自监督学习的群体识别方法及***

技术领域

本发明属于网络数据挖掘领域，具体地，涉及一种基于深度图自监督学习的群体识别方法及***。

背景技术

近年来，复杂网络已成为描述和建模各种复杂***的通用语言，它将复杂***中的个体和个体之间的关系抽象为由节点和连边构成的图结构。群体结构是复杂网络中一个重要的中观结构特征，其通常与底层***的功能和组织模块密切相关，群体结构识别在知识发现、智能推荐、网络安全管理等领域具有重要的研究意义。群体识别旨在从未标记的网络中识别具有潜在相似属性或功能的节点集合。然而，随着信息技术和大数据的发展，网络变得越来越复杂，这给给群体识别任务带来了极大的挑战。早期研究主要关注网络拓扑特征，通常根据某种相似性或划分标准将网络划分为不同的群体结构，典型的方法包括基于图的划分、节点/边聚类、模块度优化和谱聚类等。然而，传统方法不太适用于真实世界的网络。这是因为除了结构特征之外，复杂网络中还有丰富的高维内容信息可用。尽管一些方法如启发式优化、矩阵分解和贝叶斯模型利用节点语义来提高群体识别的质量并为其提供解释，但由于网络的稀疏性导致计算复杂度高。此外，对于属性网络，一个关键问题是如何在群体识别中同时捕获结构关系和节点内容信息。

为了解决这个问题，最近的研究借助于深度学***滑问题，导致性能下降，所以目前的结构模型大多是浅层结构。因此，有必要设计一种仅需少量先验标签还能保证较好性能的深度模型以解决现有技术存在的问题。

发明内容

鉴于上述，本发明提供一种基于深度图自监督学***滑问题，为了降低深度模型带来的大量训练参数问题，对权重矩阵引入单位映射，如此不仅确保了深层模型达到与浅层模型具有相同的性能，而且也提高群体识别的准确性。

为达到上述目的，本发明采用以下的技术方案予以实现；

本发明第一方面，提供了一种基于深度图卷积网络的群体发现自监督学习方法，包括以下步骤：

S1：获取大规模属性网络数据集，并进行预处理；

S2：根据用户节点间复杂交互关系建模复杂网络，并提取各节点的属性信息；

S3：基于网络拓扑结构和属性信息，获得属性网络的邻接矩阵和属性网络的单位矩阵，分别以邻接矩阵和带少量标签的节点属性矩阵作为两个输入；

S4：利用初始残差和恒等映射两种策略，在图卷积网络基础上构建一种改进的图卷积网络模型；

S5：在每个卷积层输出后进行语义对齐，构建基于语义对齐机制的自监督学习模块，以此来提高伪标签的可信度；

S6：重复S4和S5堆叠多层卷积层和自监督模块，构建基于深度图自监督学习的群体识别模型；

S7：利用少量带有先验标签的节点来训练该图卷积网络模型，并预测未标记节点的群体标签，从而揭示属性网络中潜在的群体结构；

S8；利用聚类精确度和标准互信息度量对得到群体发现结果进行评价。

在一种可能的实施方式中，所述步骤S3权重矩阵转换和节点属性矩阵合成，进一步包括：

S301:对于属性网络G＝(V,E,X)(其中V表示所有节点的集合，E为节点间连边的集合，X代表网络属性集合)，得到两个输入经过一个全连接层得到H⁽⁰⁾＝(X,A)和F⁽⁰⁾＝(X,I)。

在一种可能的实施方式中，所述步骤S4利用初始残差和单位映射来加深模型训练，进一步包括：

S401：基于网络邻接矩阵A和特征向量矩阵X，构建一种改进的图卷积网络模型，其中第l层第一个卷积操作定义为：

H^(l+1)＝σ(((1-α_l)PH^(l)+α_lH⁽⁰⁾)((1-β_l)I_n+β_lW^(l)))

其中

为调节权重的超参数，σ(·)代表激活函数ReLU(·)(满足ReLU(x)＝max(0,x)，

为增加了自环后的形式

为

对应的度对角矩阵(满足

)。H⁽⁰⁾表示图卷积网络输入层的属性特征矩阵(在此有H⁽⁰⁾＝X)，H^(l)表示第l层各节点的嵌入向量，W^(l)为该层可训练的权重矩阵，H^(l+1)为该层以H^(l)为输入经过卷积操作后的输出；

S402：基于网络单位矩阵I和特征向量矩阵X，构建一种改进的图卷积网络模型，其中第l层第二个卷积操作定义为：

其中

为调节权重的超参数，σ(·)代表激活函数ReLU(·)(满足ReLU(x)＝max(0,x)，I为单位矩阵。F⁽⁰⁾表示图卷积网络输入层的属性特征单位矩阵，F^(l)表示第l层各节点的嵌入向量，W^(l)为该层可训练的权重矩阵，F^(l+1)为该层以F^(l)为输入经过卷积操作后的输出；

S403：基于图卷积网络的输出经过一个全连接层后，采用softmax分类器将学习到的节点向量表示映射为节点对应的标签，该过程可以形式化为：

Z＝softmax(H^(l))

其中，H^(l)表示通过图卷积网络学习到的节点表示矩阵，softmax函数定义为

(其中Z＝∑_i exp(x_i))，各层的权重矩阵Θ在随机初始化后在训练过程获得自动更新；

在一种可能的实施方式中，所述步骤S5利用已知节点语义信息对未知节点就行语义对齐，进一步包括：

S501；在S4构造的深度图卷积网络模型中，每一层图卷积层的输出进行一次语义对齐。简而言之，就是将已知的标注节点作为类信息学习，给未知节点分配伪标签，

实现语义对齐；

S502；同时利用标记节点和未标记节点的中心相似度可以提供额外的监督信息，进一步提高未标记节点的分类精度，该过程可以形式化为：

其中C_j(·)表示属于第j类的特征的质心，D是平方欧几里得距离函数，L代表一组已知标签节点。

S503；同时由于伪标签构建的质心可能缺乏稳定性，我们在每次迭代中首先计算质心，该过程可以形式化为：

其中α∈[0,1)是平衡权重的超参数。

在一种可能的实施方式中，所述步骤S7利用少量先验标签对所构建模型进行训练及预测过程，进一步包括：

S701；提供少量已知标签，在S4构造的深度图卷积网络模型中进行训练；

S702；在模型参数不再更新后结束训练，经过一层全连接层后根据模型softmax层的输出将未标记节点划分为不同群体，最终得到属性网络的群体识别结果。

本发明所述所述群体类型包括但不限于通信网络中的用户群体、社交网络中的兴趣群体、风控领域的欺诈群体及引文网络中的学者群体。

本发明还公开了一种基于深度图自监督学习的群体识别***，该***具体包括以下模块：

数据获取模块，用于获取属性网络中不同用户间的交互行为数据；

预处理模块，基于属性网络数据，通过用户节点及节点间的关系连接构建网络拓扑和节点属性矩阵，并确定已知的节点标签、网络邻接矩阵和单位矩阵，最后通过全连接层后对两个输入矩阵进行降维；

图卷积网络模块，基于网络拓扑结构和节点属性矩阵，利用初始残差和恒等映射构建深度图卷积网络模型，并基于输入数据完成训练过程；

自监督模块，基于少量带有先验标签节点的语义信息，利用标记节点和未标记节点的中心相似度提供额外的监督信息，进一步提高未标记节点的分类精度；

群体识别与评价模块，基于深度自监督模型的特征向量输出，通过分类器推断节点的标签信息以实现群体识别，并对所获得的群体发现结果进行评价。

与现有技术相比，本发明具有如下的有益效果：

高效性：本发明所提供的方法通过构建深度图卷积网络对网络拓扑和属性信息进行深度融合，从而构建了高效的群体识别模型。一方面，在少量已知标签条件下，利用基于语义对齐的自监督模块有效扩展了节点标签，缓解了模型训练过程中缺少标签的问题，提高了群体识别中标签传播效率。另一方面，为了获得更好的利用自监督模块，进一步加深了模型深度，同时利用初始残差和单位映射缓解了深度模型带来的过平滑问题，使得在图卷积操作过程中可有效利用网络全局信息从而提高了群体发现的性能。

准确性：本发明基于属性网络的固有信息进行建模，在少量先验标签条件下，通过网络拓扑和节点属性以自监督的方式对群体结构进行挖掘，建立了端对端的群体发现模型，可用来处理大规模属性网络，对于真实的复杂网络实用性强。相比于当前代表性方法如GCN、DAGNN、Shoestring等在准确性上有了很大提升。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例的基于深度图自监督学习的群体识别方法流程图；

图2为本发明实施例的基于语义对齐的自监督模块；

图3为本发明提供一种基于深度图自监督学习的群体识别方法的示意图；

图4为本发明提供的一种基于深度图自监督学习的群体识别***结构图；

如下具体实施例将结合上述附图进一步说明本发明。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

下面结合附图对本发明做进一步详细描述：

参见附图1-4，本发明实施例中提供了一种基于深度图自监督学***滑问题网络结构无法加深的问题，提出了结合自监督学***滑问题，同时利用语义信息提供额外的监督信息，从而实现高效的群体结构识别。该方法利用基于深度学习的非线性模型融合网络拓扑和节点属性两方面信息并挖掘出更加合理的群体结构，能够在大规模属性网络中获得较好效果。

图1所示为本发明提供的一种基于深度图自监督学习的群体识别方法的详细流程图，其包括以下步骤：

S1：获取大规模属性网络数据集，并进行预处理。具体地，从属性网络中提取所有用户信息及其交互关系，同时对用户行为数据进行统计分析。

S2：根据用户节点间的复杂交互关系构建复杂网络，并提取各节点的属性信息。具体地，将属性网络中的各用户抽象为不同的节点，将用户之间的交互联系抽象为连边，从而构建一个复杂的属性网络G＝(V,E,X)，其中，V代表所有用户节点的集合，E代表用户节点间的连边集合，X代表每个节点的属性构成的集合。同时需对节点的属性进行去重、特征选择、数值编码、归一化等操作，以获得结构化的节点属性集合。

S3：基于网络拓扑结构和属性信息，获得属性网络的邻接矩阵和属性网络的单位矩阵，并将邻接矩阵和单位矩阵分别和节点属性融合经过一个全连接层后获得两个输入矩阵。本发明中，具体采用以下方式来实现；

S302：将全部节点属性合成矩阵形式X＝{x_i}，其中x_i为节点v_i对应的属性向量；

S4：基于初始残差和单位映射两个方法，在图卷积网络基础上构建一种改进的多层图卷积网络模型。具体地，本实例采用以下方式来实现；

S401：基于网络邻接矩阵A和特征向量矩阵X，构建一个多层图卷积网络模型，其中第l层第一个卷积操作定义为：

H^(l+1)＝σ(((1-α_l)PH^(l)+α_lH⁽⁰⁾)((1-β_l)I_n+β_lW^(l)))

其中

为增加了自环后的形式

为

对应的度对角矩阵(满足

S402：基于网络单位矩阵I和特征向量矩阵X，构建一个多层图卷积网络模型，其中第l层第二个卷积操作定义为：

其中

Z＝softmax(H^(l))

S5：基于获得的语义信息，在每层卷积层输出进行语义对齐，以此来提高伪标签的可信度。

图2所示为本发明提供的自监督学习模块方法所示的示意图，其进一步包括如下步骤：

实现语义对齐；

其中α∈[0,1)是平衡权重的超参数。

S6：重复S4和S5堆叠多层卷积层和自监督模块，构建基于深度图自监督学习的群体识别模型；；

S7：利用已知的少量标签和节点来训练该图卷积网络模型以预测未标记节点的群体标签，从而揭示属性网络中潜在的群体结构。具体地，其进一步包括以下步骤；

S8；利用聚类精确度和标准互信息度量对得到群体发现结果进行评价。其中，聚类精确度衡量群体发现结果中标签正确的数量占整个节点标签的比例，而标准互信息从信息熵的角度度量预测结果与真实标签之间的相近程度；

本发明所述属性网络类型包括但不限于社交媒体领域中的社交网络、金融风控领域的交易网络、通信***中的用户关系网络及科学研究领域的引文网络。所述群体类型包括但不限于通信网络中的用户群体、社交网络中的兴趣群体、风控领域的欺诈群体及引文网络中的学者群体。

本发明还公开了一种基于深度图自监督学习的群体识别***。参加图4，所示为该***的结构框图，具体包括以下模块：

作为进一步的改进方案，数据获取模块还包括，从属性网络中提取所有用户的相关信息，包括反映用户间的交互行为的数据和用户本身的属性数据；

作为进一步的改进方案，数据预处理模块具体包括网络拓扑结构建模和节点属性特征提取两个子模块。其中，网络拓扑结构建模模块通过将属性网络中各用户识别为节点并根据用户间的交互关系建立链接，最后获得整个属性网络的拓扑结构；节点属性特征提取模块通过数据整合、清洗、特征选择、数值编码、归一化等过程，以获取所有用户节点的属性集合；对获得的两个初始输入经过全连接层就行降维；

作为进一步的改进方案，图卷积模型创建模块根据邻接矩阵、属性矩阵构建了一个多层图卷积模型。同时利用初始残差和单位映射来缓解过平滑问题和深度模型训练参数过多问题；

作为进一步的改进方案，自监督模块中由于伪标签构建的质心可能缺乏稳定性，因此在每次迭代过程中可首先计算质心，利用标记节点和未标记节点的中心相似度可以提供额外的监督信息；

作为进一步的改进方案，群体识别与评价模块具体实现了本发明所提供方法中所述步骤S7和S8的两个子模块。群体识别模块利用图卷积操作和神经网络的反向传播算法对图卷积模型进行训练，获得各节点的特征向量表示，然后通过softmax分类器来推断未标记节点的群体标签；评价模块采用聚类准确度和标注互信息两种指标来评价群体发现结果，直接反映了所提供方法的有效性，并对群体发现模块提供反馈以进一步改进***性能。

为验证本发明的技术效果，将通过算法对比实验验证本发明的有效性：

本发明中实施例中所用属性网络数据集为从真实世界中收集的网络数据，实验采用了3种规模不同的属性网络数据集。这些数据集被随机划分为训练集和测试集，其中训练集中每一类只提供1个或2个节点，使用30％的网络节点作为验证集，剩余数据作为测试集。本发明中实施例中所构建深度图卷积网络模型的深度为64层，即包括64个卷积层。实验运行在CPU Intel-7700HQ 3.4GHz，RAM 16.00GB的windows 10操作***环境下，采用了pytorch深度学习框架并用Python软件编程实现。为了提高计算效率和准确性，实验采用了科学计算包Numpy和Scipy。

本发明所提供方法分别与***性方法进行了对比，具体包括：一种半监督式的图神经网络方法GCN,其同时考虑了网络拓扑和节点属性信息，通过卷积操作聚合节点特征并推断节点标签，在训练标签足够的情况下表现较好；一种深度半监督方法DAGNN，在提供足够已知节点情况下，堆叠多层卷积层依然有良好的性能；一种自监督方法Shoestring，在少量已知标签情况下表现依然较好。表1所示为在每类提供1个已知节点情况下本发明所提供方法与三种代表性方法在群体发现准确度上的实验数据对比。表2所示为在每类提供2个已知节点情况下本发明所提供方法与三种代表性方法在群体发现准确度上的实验数据对比。

表1 本发明方法与3个代表性算法的群体发现准确度比较(每类提供1个已知节点)

表2 本发明方法与3个代表性算法的群体发现准确度比较(每类提供2个已知节点)

通过对比发现，本发明所提供方法与GCN、DAGNN及Shoestring相比，在每类提供1个已知节点情况下识别准确率上相应地平均提高了20.7％、9.5％和5.4％；在每类提供2个已知节点情况下识别准确率上相应地平均提高了20.5％、8.5％和5.5％。本发明方法能够获得较好性能，其原因在于：一方面，我们加入了自监督模块，利用节点的语义信息，更好的利用伪标签。自监督模块的加入带来性能上的提升，可以从GCN和DAGNN实验结果中得到体现；另一方面，本方法采用了深度模型，可以从Shoestring实验结果中得到体现。GCN同样基于图卷积操作来识别节点的群体标签，但实际上需要大量的先验标签来进行训练，并且很难保证这些标签在网络中均匀分布而有效地向全局网络传递标签信息。

下述为本发明的***实施例，可以用于执行本发明方法实施例。对于***实施例中未说明的细节，请参照本发明方法实施例。

本发明再一个实施例中，提供了一种基于深度图自监督学习的群体识别***。该群体发现***用于实现上述基于深度图自监督学习的群体识别方法。具体地，该***包括属性数据获取模块、预处理模块、图卷积网络模块、自监督模块、群体识别与评价模块。

其中，数据预处理模块包括网络拓扑结构建模和节点属性特征提取两个部分。其中，网络拓扑结构建模通过将属性网络中各用户识别为节点并根据用户间的交互关系建立链接，最后获得整个属性网络的拓扑结构；节点属性特征提取通过数据整合、清洗、特征选择、数值编码、归一化等过程获取所有用户节点的属性集合和少量先验节点标签；图卷积网络模块基于网络拓扑结构和节点属性构建多层图卷积模型；自监督模块利用标记节点和未标记节点的中心相似性提供额外的监督信息；群体发现于评价模块基于图卷积模型的输出用softmax分类器实现群体发现，同时评价所获得的群体识别结果并反馈以提升模型性能。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。