CN117648623B

CN117648623B - 一种基于图池化对比学习的网络分类算法

Info

Publication number: CN117648623B
Application number: CN202311595271.1A
Authority: CN
Inventors: 胡能兵; 蔡彪; 唐小川
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Filing date: 2023-11-24
Publication date: 2024-06-28
Anticipated expiration: 2043-11-24

Abstract

本发明公开了一种基于图池化对比学习的网络分类算法，涉及数据挖掘技术领域，先利用图注意力机制学习到每个节点相应的注意力分数，根据注意力分数对节点进行重要性排序并对分数较低的节点进行抛弃。将本图所保留的节点作为正样本，将其他图被丢弃的部分节点作为负样本，网络的嵌入表达作为目标节点，然后两两计算相似性分数，进行对比学习。负样本选择选择方法在对比学习中能够保留一定的图间信息，通过将本图的目标节点与正样本和负样本进行对比学习，能够更好地利用图内信息，在网络分类任务中克服了传统节点丢弃池化方法未能充分利用图内和图间信息的缺陷，在相同数据集下的模型训练结果，在各项性能指标上均超过现有技术。

Description

一种基于图池化对比学习的网络分类算法

技术领域

本发明涉及数据挖掘技术领域，可应用于网络分类等应用场景，具体而言，涉及一种用于网络分类任务的基于图池化对比学习的算法。

背景技术

现实世界拥有大量的网络结构，例如，社交网络和分子结构等都可以抽象为节点和边组成的图结构，因此，对这些图的结构或者性能分析具有重要现实意义核应用价值。在图分析中，对不同图进行分类的是一个重要研究方向。例如，通过探索蛋白质网络的属性可以预测蛋白质是酶或非酶等。

图核方法是传统网络分类的一种主流方法。图核方法思想是通过图核(定义在图空间上的对称正定函数)来计算图的相似度，基于图核的分类方法一般可包括：基于子树的图核方法、基于路径的图核方法、基于子图的图核方法等。它们共同的思想是将图分解为子结构,通过对不同图的子图结构来计算图的相似度进而进行网络分类。然而这种方法由于依赖于固定特征，很难完整捕捉到图的结构和节点特征信息特征，因此，这类方法的在网络分类任务上的性能比较受限。

基于深度神经网络的图表达学习方法因为能够方便地获取到图的结构和节点特征信息特征，使得基于深度学习的图数据建模方法开始被应用于网络分类问题研究。在这类方法中，图池化是一个重要的信息约简机制。图池化中的一种主要方法就是进行节点丢弃，该方法首先对每个节点进行打分，然后在每个池化步骤中丢弃分数较低的节点。这种方法的操作简单，同时可以减少噪声节点的影响。

然而，上述基于深度学***均或取每个维度最大值，但是由于这种方法只是简单用节点的嵌入来表示网络的嵌入，没有对网络级的嵌入进行学习，导致了网络级嵌入表示准确性及区分度较低，甚至可能导致不同的网络拥有相同的嵌入表示。上述两个缺点限制了基于深度神经网络分类的性能。

发明内容

本发明在于提供一种基于图池化对比学习的网络分类算法，其能够解决上述问题。

为了解决上述的问题，本发明采取的技术方案如下：

本发明提供了一种基于图池化对比学习的网络分类算法，包括以下步骤：

S1、确定目标图数据集Ω，包含网络是网络G的子网络，其中i∈(1,n)，n为数据集中子网络的数量，网络分类的目的即为对进行分类，初始化目标图数据集Ω的节点特征向量，通过图神经网络传播聚合后获得所有节点及物品的嵌入表示，节点的低维嵌入表示为e；

S2、通过节点的低维嵌入表示e计算目标图数据集Ω的注意力分数Z，根据注意力分数Z和池化率K，从网络G中按照注意力分数高低的方式选取出保留的节点集V_G和丢弃的节点集R_G，保留节点的个数为网络G中所有节点个数乘以池化率K，中被保留的节点嵌入记为中被丢弃的节点嵌入记为

S3、通过取中节点的低维嵌入表示e每个维度最大值，得到网络级目标嵌入表示通过取中节点的低维嵌入表示e每个维度平均值，得到网络级目标嵌入表示

S4、取被保留的节点嵌入中所有节点嵌入表示作为正样本

S5、在网络G中选取随机选取中被丢弃的节点嵌入中的节点嵌入表示，作为负样本负样本数量为正样本数量的两倍；

S6、利用网络级目标嵌入表示和正样本计算余弦相似度，得到第一组网络级目标嵌入的评分利用网络级目标嵌入表示和负样本计算余弦相似度，得到第二组网络级目标嵌入的评分

S7、根据两组网络级目标嵌入的评分和对模型的Loss训练函数进行更新；

S8、判断基于图池化对比学习的网络分类模型是否完成目标轮次的迭代训练，若是，则执行步骤S9，否则跳转至步骤S1；

S9、保存训练完成的基于图池化对比学习的网络分类模型，用于图数据的分类。

在本发明的一较佳实施方式中，步骤S1中，图神经网络传播聚合使用三层的GCN。

在本发明的一较佳实施方式中，步骤S2中，池化率K∈(0,1)，根据池化率和注意力分数丢弃网络G中重要性较低的节点。

在本发明的一较佳实施方式中，步骤S3中，

在本发明的一较佳实施方式中，步骤S6中，网络级目标嵌入的评分计算公式为

在本发明的一较佳实施方式中，步骤S7中，训练Loss函数的更新公式为

N为和中正负样本的总共数量；

其中，σ(·)为Sigmoid函数，为的正样本集合，为的负样本集合。

与现有技术相比，本发明的有益效果是：

为一种新的基于图池化对比学习的网络分类算法(Graph ClassificationMethod Based on Graph Pooling Contrast Learning,GC2GCPL)，涉及数据挖掘技术领域，先利用图注意力机制学习到每个节点相应的注意力分数，根据注意力分数对节点进行重要性排序并对分数较低的节点进行抛弃。将本图所保留的节点作为正样本，将其他图被丢弃的部分节点作为负样本，网络的嵌入表达作为目标节点，然后两两计算相似性分数，进行对比学习。负样本选择选择方法在对比学习中能够保留一定的图间信息，通过将本图的目标节点与正样本和负样本进行对比学习，能够更好地利用图内信息，在网络分类任务中克服了传统节点丢弃池化方法未能充分利用图内和图间信息的缺陷，在大部分数据集上模型性能指标均有提高。

本发明选择5个经典网络分类数据集，生物化学网络：D&D包含蛋白质结构的图。节点代表氨基酸，标签表示蛋白质是酶还是非酶。PROTEINS也是一组蛋白质数据，图的标签表示该蛋白质数据是否为酶。MUTAG是关于化学硝基化合物的数据集标签表示该物质芳香族还是杂芳族。社交网络：IMDB数据集每个节点代表一个演员，每条边代表两个演员是否出现在同一个电影里。IMDB-BINAR类别有两个：爱情片和动作片，如果同时是爱情片和动作片，就会归类为动作片。IMDB-MULTI则在爱情片和动作片的基础上，加了一个科幻片类别。

选择8种使用了图池化技术的方法作为性能对比模型，将数据集划分为三份，其中80％的数据集用于训练。10％的数据集用于训练中的验证，对每个模型都采取同样的初始节点特征。使用Adam优化器学习率设置为1e^-4，节点保留率设置为0.5，使用不同的随机种子重复实验10次，每个随机种子取10次结果，一共100次测试结果报告准确率结果。在表1中报告了本发明算法在5个真实图数据集上与基线算法在网络分类任务上进行对比，以标准差来表示波动数值，其中加黑的结果为最好结果。

表1总体性能比较

为使本发明的上述目的、特征和优点能更明显易懂，下文特举本发明实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明训练过程图；

图2是本发明的算法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

请参照图1和图2，本发明公开了一种基于图池化对比学习的网络分类算法，具体步骤如下：

S1、选定现实世界的真实图数据集Ω，其中包含网络是网络G的子网络，其中i∈(1,n)，n为数据集中子网络的数量，和节点集V＝{v}，以及节点的特征集X＝{x}，用数据集中节点的特征集X＝{x}初始化目标数据集Ω的节点特征向量，获得通过图神经网络传播聚合后所有节点及物品的嵌入表示，节点的低维嵌入表示为e。

基于的神经网络模型随着嵌入传播层数的加深一般会带来一定程度上的性能提升，但这种收益也会随着层数的加深而减少，节点以及图的嵌入表示也会随着层数的加深逐渐变得过于平滑，产生过平滑的层数也会因不同数据集的结构特性产生差异。即层数过深不仅会大大增加模型计算复杂度，超过4层同时容易使模型产生过拟合造成性能降低，因此我们固定模型聚合层数为3层，即设置图神经网络的传播层数为3层，获得传播聚合后节点的的3层嵌入表示

S2、通过节点的低维嵌入表示e计算目标图数据集Ω的注意力分数Z＝{z}，利用一个可学习的参数矩阵W，得到注意力分数Z＝H×W，根据注意力分数Z和池化率K，保留下[N×K]个节点，从网络中选取出保留的节点集以及丢弃的节点集中被保留的节点嵌入记为中被丢弃的节点嵌入记为

在本发明中，池化率K∈(0,1)。

S3、根据节点的低维嵌入表示e计算网络G中的网络级嵌入表示，包括网络级目标嵌入表示和网络级目标嵌入表示

通过取中节点的低维嵌入表示e每个维度最大值，计算网络级目标嵌入表示计算公式为：

通过取中节点的低维嵌入表示e每个维度平均值，计算网络级目标嵌入表示计算公式为：

其中，表示子网络中的所有节点嵌入。

S4、取被保留的节点嵌入中所有节点嵌入表示作为正样本

S5、在网络G中选取随机选取中所有被丢弃的节点嵌入中的节点嵌入表示，作为负样本负样本数量为正样本数量的两倍。

该负样本选取方式，能使得每个不同的网络都能学到更加具有区分度的嵌入表达，且防止出现同类别的图在学习过程中距离过大的缺陷，以及被抛弃节点包含的图级信息较少的缺陷。

S6、利用网络级目标嵌入表示和正样本计算余弦相似度，得到第一组网络级目标嵌入的评分利用网络级目标嵌入表示和负样本计算余弦相似度，得到第二组网络级目标嵌入的评分网络级目标嵌入的评分的计算公式为：

其中CosSim表示计算两个向量之间的余弦相似度，表示网络级嵌入表示，o为样本的嵌入表示。

S7、计算训练Loss，，根据余弦相似度将训练Loss函数进行更新为：

其中，σ(·)为Sigmoid函数，O⁺为目标用户的正样本集合，N为和中的数量,满足公式(3)。

S8、判断判断基于图池化对比学习的网络分类模型是否完成目标轮次(如100轮次)的迭代训练，若是，则执行步骤S9，否则跳转至步骤S1；

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图池化对比学习的网络分类算法，其特征在于，包括以下步骤：

S1、确定目标图数据集Ω，包含网络是网络G的子网络，其中i∈(1,n)，n为数据集中子网络的数量，初始化目标图数据集Ω的节点特征向量，通过图神经网络传播聚合后获得所有节点及物品的嵌入表示，节点的低维嵌入表示为e；

S4、取被保留的节点嵌入中所有节点嵌入表示作为正样本

2.根据权利要求1所述的一种基于图池化对比学习的网络分类算法，其特征在于，步骤S1中，图神经网络传播聚合使用三层的GCN。

3.根据权利要求1所述一种基于图池化对比学习的网络分类算法，其特征在于，步骤S2中，池化率K∈(0,1)，根据池化率和注意力分数丢弃网络G中重要性较低的节点。

4.根据权利要求1所述一种基于图池化对比学习的网络分类算法，其特征在于，步骤S3中，

5.根据权利要求1所述一种基于图池化对比学习的网络分类算法，其特征在于，步骤S7中，训练Loss函数的更新公式为

N为和中的数量；