CN117648623B - 一种基于图池化对比学习的网络分类算法 - Google Patents
一种基于图池化对比学习的网络分类算法 Download PDFInfo
- Publication number
- CN117648623B CN117648623B CN202311595271.1A CN202311595271A CN117648623B CN 117648623 B CN117648623 B CN 117648623B CN 202311595271 A CN202311595271 A CN 202311595271A CN 117648623 B CN117648623 B CN 117648623B
- Authority
- CN
- China
- Prior art keywords
- network
- pooling
- graph
- node
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011176 pooling Methods 0.000 title claims abstract description 38
- 238000007635 classification algorithm Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 238000013145 classification model Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 4
- 230000009191 jumping Effects 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 4
- 238000007418 data mining Methods 0.000 abstract description 3
- 238000010187 selection method Methods 0.000 abstract description 2
- 102000004169 proteins and genes Human genes 0.000 description 7
- 108090000623 proteins and genes Proteins 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 102000004190 Enzymes Human genes 0.000 description 3
- 108090000790 Enzymes Proteins 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000002255 enzymatic effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000372285 Isanda Species 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 125000003118 aryl group Chemical group 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 125000001072 heteroaryl group Chemical group 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 150000002828 nitro derivatives Chemical class 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Abstract
本发明公开了一种基于图池化对比学习的网络分类算法,涉及数据挖掘技术领域,先利用图注意力机制学习到每个节点相应的注意力分数,根据注意力分数对节点进行重要性排序并对分数较低的节点进行抛弃。将本图所保留的节点作为正样本,将其他图被丢弃的部分节点作为负样本,网络的嵌入表达作为目标节点,然后两两计算相似性分数,进行对比学习。负样本选择选择方法在对比学习中能够保留一定的图间信息,通过将本图的目标节点与正样本和负样本进行对比学习,能够更好地利用图内信息,在网络分类任务中克服了传统节点丢弃池化方法未能充分利用图内和图间信息的缺陷,在相同数据集下的模型训练结果,在各项性能指标上均超过现有技术。
Description
技术领域
本发明涉及数据挖掘技术领域,可应用于网络分类等应用场景,具体而言,涉及一种用于网络分类任务的基于图池化对比学习的算法。
背景技术
现实世界拥有大量的网络结构,例如,社交网络和分子结构等都可以抽象为节点和边组成的图结构,因此,对这些图的结构或者性能分析具有重要现实意义核应用价值。在图分析中,对不同图进行分类的是一个重要研究方向。例如,通过探索蛋白质网络的属性可以预测蛋白质是酶或非酶等。
图核方法是传统网络分类的一种主流方法。图核方法思想是通过图核(定义在图空间上的对称正定函数)来计算图的相似度,基于图核的分类方法一般可包括:基于子树的图核方法、基于路径的图核方法、基于子图的图核方法等。它们共同的思想是将图分解为子结构,通过对不同图的子图结构来计算图的相似度进而进行网络分类。然而这种方法由于依赖于固定特征,很难完整捕捉到图的结构和节点特征信息特征,因此,这类方法的在网络分类任务上的性能比较受限。
基于深度神经网络的图表达学习方法因为能够方便地获取到图的结构和节点特征信息特征,使得基于深度学习的图数据建模方法开始被应用于网络分类问题研究。在这类方法中,图池化是一个重要的信息约简机制。图池化中的一种主要方法就是进行节点丢弃,该方法首先对每个节点进行打分,然后在每个池化步骤中丢弃分数较低的节点。这种方法的操作简单,同时可以减少噪声节点的影响。
然而,上述基于深度学***均或取每个维度最大值,但是由于这种方法只是简单用节点的嵌入来表示网络的嵌入,没有对网络级的嵌入进行学习,导致了网络级嵌入表示准确性及区分度较低,甚至可能导致不同的网络拥有相同的嵌入表示。上述两个缺点限制了基于深度神经网络分类的性能。
发明内容
本发明在于提供一种基于图池化对比学习的网络分类算法,其能够解决上述问题。
为了解决上述的问题,本发明采取的技术方案如下:
本发明提供了一种基于图池化对比学习的网络分类算法,包括以下步骤:
S1、确定目标图数据集Ω,包含网络 是网络G的子网络,其中i∈(1,n),n为数据集中子网络的数量,网络分类的目的即为对进行分类,初始化目标图数据集Ω的节点特征向量,通过图神经网络传播聚合后获得所有节点及物品的嵌入表示,节点的低维嵌入表示为e;
S2、通过节点的低维嵌入表示e计算目标图数据集Ω的注意力分数Z,根据注意力分数Z和池化率K,从网络G中按照注意力分数高低的方式选取出保留的节点集VG和丢弃的节点集RG,保留节点的个数为网络G中所有节点个数乘以池化率K,中被保留的节点嵌入记为中被丢弃的节点嵌入记为
S3、通过取中节点的低维嵌入表示e每个维度最大值,得到网络级目标嵌入表示通过取中节点的低维嵌入表示e每个维度平均值,得到网络级目标嵌入表示
S4、取被保留的节点嵌入中所有节点嵌入表示作为正样本
S5、在网络G中选取随机选取中被丢弃的节点嵌入中的节点嵌入表示,作为负样本负样本数量为正样本数量的两倍;
S6、利用网络级目标嵌入表示和正样本计算余弦相似度,得到第一组网络级目标嵌入的评分利用网络级目标嵌入表示和负样本计算余弦相似度,得到第二组网络级目标嵌入的评分
S7、根据两组网络级目标嵌入的评分和对模型的Loss训练函数进行更新;
S8、判断基于图池化对比学习的网络分类模型是否完成目标轮次的迭代训练,若是,则执行步骤S9,否则跳转至步骤S1;
S9、保存训练完成的基于图池化对比学习的网络分类模型,用于图数据的分类。
在本发明的一较佳实施方式中,步骤S1中,图神经网络传播聚合使用三层的GCN。
在本发明的一较佳实施方式中,步骤S2中,池化率K∈(0,1),根据池化率和注意力分数丢弃网络G中重要性较低的节点。
在本发明的一较佳实施方式中,步骤S3中,
在本发明的一较佳实施方式中,步骤S6中,网络级目标嵌入的评分计算公式为
在本发明的一较佳实施方式中,步骤S7中,训练Loss函数的更新公式为
N为和中正负样本的总共数量;
其中,σ(·)为Sigmoid函数,为的正样本集合,为的负样本集合。
与现有技术相比,本发明的有益效果是:
为一种新的基于图池化对比学习的网络分类算法(Graph ClassificationMethod Based on Graph Pooling Contrast Learning,GC2GCPL),涉及数据挖掘技术领域,先利用图注意力机制学习到每个节点相应的注意力分数,根据注意力分数对节点进行重要性排序并对分数较低的节点进行抛弃。将本图所保留的节点作为正样本,将其他图被丢弃的部分节点作为负样本,网络的嵌入表达作为目标节点,然后两两计算相似性分数,进行对比学习。负样本选择选择方法在对比学习中能够保留一定的图间信息,通过将本图的目标节点与正样本和负样本进行对比学习,能够更好地利用图内信息,在网络分类任务中克服了传统节点丢弃池化方法未能充分利用图内和图间信息的缺陷,在大部分数据集上模型性能指标均有提高。
本发明选择5个经典网络分类数据集,生物化学网络:D&D包含蛋白质结构的图。节点代表氨基酸,标签表示蛋白质是酶还是非酶。PROTEINS也是一组蛋白质数据,图的标签表示该蛋白质数据是否为酶。MUTAG是关于化学硝基化合物的数据集标签表示该物质芳香族还是杂芳族。社交网络:IMDB数据集每个节点代表一个演员,每条边代表两个演员是否出现在同一个电影里。IMDB-BINAR类别有两个:爱情片和动作片,如果同时是爱情片和动作片,就会归类为动作片。IMDB-MULTI则在爱情片和动作片的基础上,加了一个科幻片类别。
选择8种使用了图池化技术的方法作为性能对比模型,将数据集划分为三份,其中80%的数据集用于训练。10%的数据集用于训练中的验证,对每个模型都采取同样的初始节点特征。使用Adam优化器学习率设置为1e-4,节点保留率设置为0.5,使用不同的随机种子重复实验10次,每个随机种子取10次结果,一共100次测试结果报告准确率结果。在表1中报告了本发明算法在5个真实图数据集上与基线算法在网络分类任务上进行对比,以标准差来表示波动数值,其中加黑的结果为最好结果。
表1总体性能比较
为使本发明的上述目的、特征和优点能更明显易懂,下文特举本发明实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明训练过程图;
图2是本发明的算法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
请参照图1和图2,本发明公开了一种基于图池化对比学习的网络分类算法,具体步骤如下:
S1、选定现实世界的真实图数据集Ω,其中包含网络 是网络G的子网络,其中i∈(1,n),n为数据集中子网络的数量,和节点集V={v},以及节点的特征集X={x},用数据集中节点的特征集X={x}初始化目标数据集Ω的节点特征向量,获得通过图神经网络传播聚合后所有节点及物品的嵌入表示,节点的低维嵌入表示为e。
基于的神经网络模型随着嵌入传播层数的加深一般会带来一定程度上的性能提升,但这种收益也会随着层数的加深而减少,节点以及图的嵌入表示也会随着层数的加深逐渐变得过于平滑,产生过平滑的层数也会因不同数据集的结构特性产生差异。即层数过深不仅会大大增加模型计算复杂度,超过4层同时容易使模型产生过拟合造成性能降低,因此我们固定模型聚合层数为3层,即设置图神经网络的传播层数为3层,获得传播聚合后节点的的3层嵌入表示
S2、通过节点的低维嵌入表示e计算目标图数据集Ω的注意力分数Z={z},利用一个可学习的参数矩阵W,得到注意力分数Z=H×W,根据注意力分数Z和池化率K,保留下[N×K]个节点,从网络中选取出保留的节点集以及丢弃的节点集 中被保留的节点嵌入记为中被丢弃的节点嵌入记为
在本发明中,池化率K∈(0,1)。
S3、根据节点的低维嵌入表示e计算网络G中的网络级嵌入表示,包括网络级目标嵌入表示和网络级目标嵌入表示
通过取中节点的低维嵌入表示e每个维度最大值,计算网络级目标嵌入表示计算公式为:
通过取中节点的低维嵌入表示e每个维度平均值,计算网络级目标嵌入表示计算公式为:
其中,表示子网络中的所有节点嵌入。
S4、取被保留的节点嵌入中所有节点嵌入表示作为正样本
S5、在网络G中选取随机选取中所有被丢弃的节点嵌入中的节点嵌入表示,作为负样本负样本数量为正样本数量的两倍。
该负样本选取方式,能使得每个不同的网络都能学到更加具有区分度的嵌入表达,且防止出现同类别的图在学习过程中距离过大的缺陷,以及被抛弃节点包含的图级信息较少的缺陷。
S6、利用网络级目标嵌入表示和正样本计算余弦相似度,得到第一组网络级目标嵌入的评分利用网络级目标嵌入表示和负样本计算余弦相似度,得到第二组网络级目标嵌入的评分网络级目标嵌入的评分的计算公式为:
其中CosSim表示计算两个向量之间的余弦相似度,表示网络级嵌入表示,o为样本的嵌入表示。
S7、计算训练Loss,,根据余弦相似度将训练Loss函数进行更新为:
其中,σ(·)为Sigmoid函数,O+为目标用户的正样本集合,N为和中的数量,满足公式(3)。
S8、判断判断基于图池化对比学习的网络分类模型是否完成目标轮次(如100轮次)的迭代训练,若是,则执行步骤S9,否则跳转至步骤S1;
S9、保存训练完成的基于图池化对比学习的网络分类模型,用于图数据的分类。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于图池化对比学习的网络分类算法,其特征在于,包括以下步骤:
S1、确定目标图数据集Ω,包含网络是网络G的子网络,其中i∈(1,n),n为数据集中子网络的数量,初始化目标图数据集Ω的节点特征向量,通过图神经网络传播聚合后获得所有节点及物品的嵌入表示,节点的低维嵌入表示为e;
S2、通过节点的低维嵌入表示e计算目标图数据集Ω的注意力分数Z,根据注意力分数Z和池化率K,从网络G中按照注意力分数高低的方式选取出保留的节点集VG和丢弃的节点集RG,保留节点的个数为网络G中所有节点个数乘以池化率K,中被保留的节点嵌入记为 中被丢弃的节点嵌入记为
S3、通过取中节点的低维嵌入表示e每个维度最大值,得到网络级目标嵌入表示通过取中节点的低维嵌入表示e每个维度平均值,得到网络级目标嵌入表示
S4、取被保留的节点嵌入中所有节点嵌入表示作为正样本
S5、在网络G中选取随机选取中被丢弃的节点嵌入中的节点嵌入表示,作为负样本负样本数量为正样本数量的两倍;
S6、利用网络级目标嵌入表示和正样本计算余弦相似度,得到第一组网络级目标嵌入的评分利用网络级目标嵌入表示和负样本计算余弦相似度,得到第二组网络级目标嵌入的评分
S7、根据两组网络级目标嵌入的评分和对模型的Loss训练函数进行更新;
S8、判断基于图池化对比学习的网络分类模型是否完成目标轮次的迭代训练,若是,则执行步骤S9,否则跳转至步骤S1;
S9、保存训练完成的基于图池化对比学习的网络分类模型,用于图数据的分类。
2.根据权利要求1所述的一种基于图池化对比学习的网络分类算法,其特征在于,步骤S1中,图神经网络传播聚合使用三层的GCN。
3.根据权利要求1所述一种基于图池化对比学习的网络分类算法,其特征在于,步骤S2中,池化率K∈(0,1),根据池化率和注意力分数丢弃网络G中重要性较低的节点。
4.根据权利要求1所述一种基于图池化对比学习的网络分类算法,其特征在于,步骤S3中,
5.根据权利要求1所述一种基于图池化对比学习的网络分类算法,其特征在于,步骤S7中,训练Loss函数的更新公式为
N为和中的数量;
其中,σ(·)为Sigmoid函数,为的正样本集合,为的负样本集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311595271.1A CN117648623B (zh) | 2023-11-24 | 一种基于图池化对比学习的网络分类算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311595271.1A CN117648623B (zh) | 2023-11-24 | 一种基于图池化对比学习的网络分类算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117648623A CN117648623A (zh) | 2024-03-05 |
CN117648623B true CN117648623B (zh) | 2024-06-28 |
Family
ID=
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115481682A (zh) * | 2022-09-11 | 2022-12-16 | 北京工业大学 | 一种基于监督对比学习与结构推断的图分类训练方法 |
CN115994560A (zh) * | 2023-02-20 | 2023-04-21 | 思腾合力(天津)科技有限公司 | 一种基于多尺度图对比学习的图神经网络方法 |
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115481682A (zh) * | 2022-09-11 | 2022-12-16 | 北京工业大学 | 一种基于监督对比学习与结构推断的图分类训练方法 |
CN115994560A (zh) * | 2023-02-20 | 2023-04-21 | 思腾合力(天津)科技有限公司 | 一种基于多尺度图对比学习的图神经网络方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pathak et al. | Feature selection for image steganalysis using levy flight-based grey wolf optimization | |
Varol Altay et al. | Performance analysis of multi-objective artificial intelligence optimization algorithms in numerical association rule mining | |
CN110363282B (zh) | 一种基于图卷积网络的网络节点标签主动学习方法和*** | |
US20210390420A1 (en) | Machine learning optimisation method | |
CN111382283B (zh) | 资源类别标签标注方法、装置、计算机设备和存储介质 | |
CN111079780B (zh) | 空间图卷积网络的训练方法、电子设备及存储介质 | |
CN109933720B (zh) | 一种基于用户兴趣自适应演化的动态推荐方法 | |
CN110879864A (zh) | 一种基于图神经网络和注意力机制的上下文推荐方法 | |
CN109840595B (zh) | 一种基于群体学习行为特征的知识追踪方法 | |
Xu et al. | Constructing balance from imbalance for long-tailed image recognition | |
CN109960755B (zh) | 一种基于动态迭代快速梯度的用户隐私保护方法 | |
CN115270007B (zh) | 一种基于混合图神经网络的poi推荐方法及*** | |
Gao | Stability analysis of rock slope based on an abstraction ant colony clustering algorithm | |
Dekhovich et al. | Continual prune-and-select: class-incremental learning with specialized subnetworks | |
CN117648623B (zh) | 一种基于图池化对比学习的网络分类算法 | |
CN117131395A (zh) | 一种基于高斯混合模型进行数据聚类的方法 | |
Hsu et al. | Class structure visualization with semi-supervised growing self-organizing maps | |
CN116541592A (zh) | 向量生成方法、信息推荐方法、装置、设备及介质 | |
CN113159976B (zh) | 一种微博网络重要用户的识别方法 | |
CN117648623A (zh) | 一种基于图池化对比学习的网络分类算法 | |
CN115344794A (zh) | 一种基于知识图谱语义嵌入的旅游景点推荐方法 | |
CN112738724B (zh) | 一种区域目标人群的精准识别方法、装置、设备和介质 | |
CN114936890A (zh) | 一种基于逆倾向加权方法的反事实公平的推荐方法 | |
CN114611668A (zh) | 一种基于异质信息网络随机游走的向量表示学习方法及*** | |
Leng et al. | Active semisupervised community detection based on asymmetric similarity measure |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |