CN114821119B - 针对图数据不变特征的图神经网络模型的训练方法和装置 - Google Patents
针对图数据不变特征的图神经网络模型的训练方法和装置 Download PDFInfo
- Publication number
- CN114821119B CN114821119B CN202210714507.8A CN202210714507A CN114821119B CN 114821119 B CN114821119 B CN 114821119B CN 202210714507 A CN202210714507 A CN 202210714507A CN 114821119 B CN114821119 B CN 114821119B
- Authority
- CN
- China
- Prior art keywords
- invariant
- vector
- environmental noise
- intrinsic feature
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000003062 neural network model Methods 0.000 title claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 145
- 230000007613 environmental effect Effects 0.000 claims abstract description 86
- 238000013528 artificial neural network Methods 0.000 claims abstract description 57
- 238000005070 sampling Methods 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000005457 optimization Methods 0.000 claims abstract description 10
- 230000014509 gene expression Effects 0.000 claims description 27
- 238000010586 diagram Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 31
- 230000015654 memory Effects 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- XFXPMWWXUTWYJX-UHFFFAOYSA-N Cyanide Chemical compound N#[C-] XFXPMWWXUTWYJX-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 125000004093 cyano group Chemical group *C#N 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 231100000252 nontoxic Toxicity 0.000 description 1
- 230000003000 nontoxic effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种针对图数据不变特征的图神经网络模型的训练方法和装置。该方法包括:利用诠释生成器对原图进行特征提取,得到不变本质特征子图概率分布和环境噪声子图概率分布;根据预设采样比例,得到不变本质特征强化视图和环境噪声强化视图;利用骨干图神经网络编码器处理得到第一不变本质特征图向量、第二不变本质特征图向量以及环境噪声图向量;利用多层感知机投影头得到第一不变本质特征隐空间向量、第二不变本质特征隐空间向量和环境噪声隐空间向量;利用损失值优化所述骨干图神经网络编码器;迭代进行特征提取操作、采样操作、处理操作和优化操作,直到损失值收敛于预设条件,得到训练完成的骨干图神经网络编码器。
Description
技术领域
本发明涉及图像处理和人工智能领域,特别涉及一种针对图数据不变特征的图神经网络模型的训练方法和装置、电子设备以及存储介质。
背景技术
虽然近年来深度学习在多个研究领域取得了巨大进展,但其仍然是一种数据驱动的方法,在实际应用时,往往面临高质量有标注训练样本获取困难且数量有限的挑战。在图神经网络领域中,现有技术中的图数据增强技术和对比学习技术同样面临着训练成本高昂、模型泛化能力较差等问题。
发明内容
鉴于上述问题,本发明提供了一种针对图数据不变特征的图神经网络模型的训练方法和装置、电子设备以及存储介质,以期能够至少解决上述问题之一。
根据本发明的第一个方面,提供了一种针对图数据不变特征的图神经网络模型的训练方法,包括:
利用诠释生成器(Rationale Generator,RG)对原图进行特征提取,得到不变本质特征子图概率分布和环境噪声子图概率分布;
根据预设采样比例,对不变本质特征子图概率分布进行采样,得到第一不变本质特征强化视图和第二不变本质特征强化视图,并根据预设采样比例,对环境噪声子图概率分布进行采样,得到环境噪声强化视图;
利用骨干图神经网络编码器处理第一不变本质特征强化视图、第二不变本质特征强化视图以及环境噪声强化视图,得到第一不变本质特征图向量、第二不变本质特征图向量以及环境噪声图向量;
利用多层感知机(Multi-Layer Perceptron,MLP)投影头(Projection Head,PH)处理第一不变本质特征图向量、第二不变本质特征图向量以及环境噪声图向量,得到第一不变本质特征隐空间向量、第二不变本质特征隐空间向量和环境噪声隐空间向量;
将第一不变本质特征隐空间向量、第二不变本质特征隐空间向量和环境噪声隐空间向量输入到损失函数中,得到损失值,并根据损失值优化骨干图神经网络编码器;
迭代进行特征提取操作、采样操作、处理操作和优化操作,直到损失值收敛于预设条件,得到训练完成的骨干图神经网络编码器。
根据本发明的实施例,上述诠释生成器包括图神经网络编码器和多层感知机。
根据本发明的实施例,上述利用诠释生成器对原图进行特征提取,得到不变本质特征子图概率分布和环境噪声子图概率分布包括:
利用图神经网络编码器处理原图,得到原图的所有节点的向量表达;
利用多层感知机计算原图中每个节点的向量表达,得到原图中每个节点的重要性得分;
对所述原图中每个节点的重要性得分进行归一化处理,得到所述原图中每个节点的采样概率;
根据所述原图中每个节点的采样概率,得到不变本质特征子图概率分布和环境噪声子图概率分布。
根据本发明的实施例,上述不变本质特征子图概率分布由公式(1)确定:
其中,环境噪声子图概率分布由公式(2)确定:
根据本发明的实施例,上述利用骨干图神经网络编码器处理第一不变本质特征强化视图、第二不变本质特征强化视图以及环境噪声强化视图,得到第一不变本质特征图向量、第二不变本质特征图向量以及环境噪声图向量包括:
利用骨干图神经网络编码器分别提取第一不变本质特征强化视图、第二不变本质特征强化视图以及环境噪声强化视图中每个节点的向量表达;
将第一不变本质特征强化视图中每个节点的向量表达与不变本质特征子图概率分布进行点乘,得到第一点乘结果;
将第二不变本质特征强化视图中每个节点的向量表达与不变本质特征子图概率分布进行点乘,得到第二点乘结果;
将环境噪声强化视图中每个节点的向量表达与环境噪声子图概率分布进行点乘,得到环境噪声点乘结果;
分别将第一点乘结果、第二点乘结果以及环境噪声点乘结果进行池化操作,得到第一不变本质特征图向量、第二不变本质特征图向量以及环境噪声图向量。
根据本发明的实施例,上述损失函数包括充分性损失函数和独立性损失函数;
其中,损失函数由公式(3)确定:
其中,是平衡充分性损失函数和独立性损失函数的超参数,表示诠释生成器,
表示骨干图神经网络编码器,表示多层感知机投影头,表示充分性损失函数,表示独
立性损失函数,表示原图,表示原图的集合,表示数学期望。
根据本发明的实施例,上述充分性损失函数由公式(4)确定:
其中,独立性损失函数由公式(5)确定:
其中,表示第一不变本质特征隐空间向量的转置,表示第二不变本质特征
隐空间向量,表示环境噪声隐空间向量,表示温度超参数,表示同一批图训练数据中每
个原始图数据生成的环境噪声子图构成的集合,是同一批图训练数据中除外其他样本
的强化视图经骨干图神经网络编码器和多层感知机投影头得到的隐空间向量所构成集
合。
根据本发明的第二个方面,提供了一种针对图数据不变特征的图神经网络模型的训练装置,包括:
特征提取模块,用于利用诠释生成器对原图进行特征提取,得到不变本质特征子图概率分布和环境噪声子图概率分布;
采样模块,用于根据预设采样比例,对不变本质特征子图概率分布进行采样,得到第一不变本质特征强化视图和第二不变本质特征强化视图,并根据预设采样比例,对环境噪声子图概率分布进行采样,得到环境噪声强化视图;
第一处理模块,用于利用骨干图神经网络编码器处理第一不变本质特征强化视图、第二不变本质特征强化视图以及环境噪声强化视图,得到第一不变本质特征图向量、第二不变本质特征图向量以及环境噪声图向量;
第二处理模块,用于利用多层感知机投影头处理第一不变本质特征图向量、第二不变本质特征图向量以及环境噪声图向量,得到第一不变本质特征隐空间向量、第二不变本质特征隐空间向量和环境噪声隐空间向量;
优化模块,用于将第一不变本质特征隐空间向量、第二不变本质特征隐空间向量和环境噪声隐空间向量输入到损失函数中,得到损失值,并根据损失值优化骨干图神经网络编码器;
迭代训练模块,用于迭代进行特征提取操作、采样操作、处理操作和优化操作,直到损失值收敛于预设条件,得到训练完成的骨干图神经网络编码器。
根据本发明的第三个方面,提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行针对图数据不变特征的图神经网络模型的训练方法。
根据本发明的第四个方面,提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行针对图数据不变特征的图神经网络模型的训练方法。
本发明提供的针对图数据不变特征的图神经网络模型的训练方法和装置,通过利用诠释生成器捕捉图形数据中包含重要语义信息的节点,赋予了图神经网络模型解释输入数据的能力,进而提高了图神经网络模型中骨干图神经网络编码器的性能,从而降低了模型的训练成本、提高了模型的泛化能力,拓展了训练完成的模型的应用场景。
附图说明
图1是根据本发明实施例的针对图数据不变特征的图神经网络模型的训练方法流程图;
图2是根据本发明实施例得到不变本质特征子图概率分布和环境噪声子图概率分布的流程图;
图3是根据本发明实施例得到第一不变本质特征图向量、第二不变本质特征图向量以及环境噪声图向量的流程图;
图4是根据本发明实施例的针对图数据不变特性的对比学习框架图;
图5是根据本发明实施例的针对图数据不变特征的图神经网络模型的训练装置的结构图;
图6是根据本发明实施例的MNIST可视化结果示意图;
图7是根据本发明实施例的MUTAG可视化结果示意图;
图8示意性示出了根据本发明实施例的适于实现针对图数据不变特征的图神经网络模型的训练方法的电子设备的方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
目前,基于自监督对比学习的方法利用了大量无标注数据进行预训练,再利用少量有标注数据进行模型参数微调,显著地提升了模型在下游任务的表现,在图神经网络领域有着广泛的应用。
通常,图对比学习框架可被分为两个部分:一是图数据增强模块,通过各种图数据强化方法创造原图数据的多个强化视图;二是对比学习模块,使得同一样本的多个强化视图表达在超球面上的投影尽量靠近,同时迫使不同样本的强化视图的投影尽量分散。显然,图数据增强模块对于刻画图数据的本质特征起着重要作用。
当前的图数据增强技术可被大致分为两种:一是基于随机机制的方法。图数据往往包含丰富的结构信息,对其节点,边或者它们的属性进行随机采样可能导致图数据语义信息的改变,如丢弃掉氰化物分子的氰基使分子的性质从剧毒变为无毒,进而误导接下来的对比学习模块。二是基于领域知识的方法。通过专家知识的指导标识出图数据最重要的子结构,并且在进行数据强化时尽可能对这些子结构进行保留,从而保持图数据的本质特征和语义信息。但是专家知识往往是昂贵的,甚至在一些场景下难以获得,且利用特定领域专家知识完成预训练的模型难以泛化到新的领域。因此,基于领域知识的方法在应用时仍然非常受限。
本发明的目的之一在于探究图对比学习中数据强化模块对预训练模型性能的影响,设计一种自动化的、不依赖于专家知识的、同时保留原始图数据本质特征和语义信息的图数据强化方法,从而提高现有图对比学习框架的性能。
在可解释领域性研究领域,图数据训练样本的不变本质特性(或不变本质特征)一
般定义为:输入特征中决定其区别于其他样本的部分特征。根据其定义,图数据的不变本
质特性子图(或不变本质特征子图)应当满足两个条件:一是充分性条件,即保留
了图数据中与可能的预测结果相关的语义信息:,表示给定输入
的条件概率密度函数;二是独立性条件,即将不变本质特性子图关于图数据的补集定义为环境噪声,应当与可能的预测结果相独立:,表示概率
独立。充分性和独立性条件保证了捕捉到图数据所有的相比于其余样本具有辨识度
的特征,同时防止其仅捕捉极少量背景特征导致退化。
图1是根据本发明实施例的针对图数据不变特征的图神经网络模型的训练方法流程图。
如图1所示,包括操作S110~操作S160。
在操作S110,利用诠释生成器对原图进行特征提取,得到不变本质特征子图概率分布和环境噪声子图概率分布。
上述诠释生成器(Rationale Generator,RG)实际上是本质特征提取神经网络,旨在提取原图的特征。上述不变本质特征子图概率分布和环境噪声子图概率分布关于原图的互为补集。
在操作S120,根据预设采样比例,对不变本质特征子图概率分布进行采样,得到第一不变本质特征强化视图和第二不变本质特征强化视图,并根据预设采样比例,对环境噪声子图概率分布进行采样,得到环境噪声强化视图。
上述第一不变本质特征强化视图、第二不变本质特征强化视图以及环境噪声强化视图满足充分性和独立性的要求。
在操作S130,利用骨干图神经网络编码器处理第一不变本质特征强化视图、第二不变本质特征强化视图以及环境噪声强化视图,得到第一不变本质特征图向量、第二不变本质特征图向量以及环境噪声图向量。
在操作S140,利用多层感知机(Multi-Layer Perceptron,MLP)投影头(Projection Head,PH)处理第一不变本质特征图向量、第二不变本质特征图向量以及环境噪声图向量,得到第一不变本质特征隐空间向量、第二不变本质特征隐空间向量和环境噪声隐空间向量。
在操作S150,将第一不变本质特征隐空间向量、第二不变本质特征隐空间向量和环境噪声隐空间向量输入到损失函数中,得到损失值,并根据损失值优化骨干图神经网络编码器。
在操作S160,迭代进行特征提取操作、采样操作、处理操作和优化操作,直到损失值收敛于预设条件,得到训练完成的骨干图神经网络编码器。
预设条件包括但不限于:损失值收敛于固定值、损失值在某个区间震荡或损失值的下降幅度达到预期效果。
本发明提供的针对图数据不变特征的图神经网络模型的训练方法和装置,通过利用诠释生成器捕捉图形数据中包含重要语义信息的节点,赋予了图神经网络模型解释输入数据的能力,进而提高了图神经网络模型中骨干图神经网络编码器的性能,从而降低了模型的训练成本、提高了模型的泛化能力,拓展了训练完成的模型的应用场景。
根据本发明的实施例,上述诠释生成器包括图神经网络编码器和多层感知机。
图2是根据本发明实施例得到不变本质特征子图概率分布和环境噪声子图概率分布的流程图。
如图2所示,利用诠释生成器对原图进行特征提取,得到不变本质特征子图概率分布和环境噪声子图概率分布包括操作S210~操作S240。
在操作S210,利用图神经网络编码器处理原图,得到原图的所有节点的向量表达。
在操作S220,利用多层感知机计算原图中每个节点的向量表达,得到原图中每个节点的重要性得分。
在操作S230,对原图中每个节点的重要性得分进行归一化处理,得到原图中每个节点的采样概率。
在操作S240,根据原图中每个节点的采样概率,得到不变本质特征子图概率分布和环境噪声子图概率分布。
根据本发明的实施例,上述不变本质特征子图概率分布由公式(1)确定:
其中,环境噪声子图概率分布由公式(2)确定:
图3是根据本发明实施例得到第一不变本质特征图向量、第二不变本质特征图向量以及环境噪声图向量的流程图。
如图3所示,利用骨干图神经网络编码器处理第一不变本质特征强化视图、第二不变本质特征强化视图以及环境噪声强化视图,得到第一不变本质特征图向量、第二不变本质特征图向量以及环境噪声图向量包括操作S310~操作S350。
在操作S310,利用骨干图神经网络编码器分别提取第一不变本质特征强化视图、第二不变本质特征强化视图以及环境噪声强化视图中每个节点的向量表达。
在操作S320,将第一不变本质特征强化视图中每个节点的向量表达与不变本质特征子图概率分布进行点乘,得到第一点乘结果。
在操作S330,将第二不变本质特征强化视图中每个节点的向量表达与不变本质特征子图概率分布进行点乘,得到第二点乘结果。
在操作S340,将环境噪声强化视图中每个节点的向量表达与环境噪声子图概率分布进行点乘,得到环境噪声点乘结果。
在操作S350,分别将第一点乘结果、第二点乘结果以及环境噪声点乘结果进行池化操作,得到第一不变本质特征图向量、第二不变本质特征图向量以及环境噪声图向量。
根据本发明的实施例,上述损失函数包括充分性损失函数和独立性损失函数;
其中,损失函数由公式(3)确定:
其中,是平衡充分性损失函数和独立性损失函数的超参数,表示诠释生成器,
表示骨干图神经网络编码器,表示多层感知机投影头,表示充分性损失函数,表示独
立性损失函数,表示原图,表示原图的集合,表示数学期望。
上述损失函数兼顾了充分性和独立性,能够更好地反映图数据的重要语义信息。
根据本发明的实施例,上述充分性损失函数由公式(4)确定:
其中,独立性损失函数由公式(5)确定:
其中,表示第一不变本质特征隐空间向量的转置,表示第二不变本质特征隐
空间向量,表示环境噪声隐空间向量,表示温度超参数,表示同一批图训练数据中每个
原始图数据生成的环境噪声子图构成的集合,是同一批图训练数据中除外其他样本的
强化视图经骨干图神经网络编码器和多层感知机投影头得到的隐空间向量所构成集合。
上述充分性损失函数和独立性损失函数是在InfoNCE函数的基础上改进得来;其
中,优化充分性损失函数使得本质特征估计网络得以提炼出原图中的关键信息,捕捉
到表达本质特征的重要节点,保证了充分性条件;优化独立性损失函数使得本质特
征估计网络更加稳定,忽视输入数据中除关键信息外的环境噪声节点的影响,保证了独立
性条件。
图4是根据本发明实施例的针对图数据不变特性的对比学习框架图。
下面结合图4,对本发明提供的上述方法作进一步详细地说明。
如图4所示新的图对比学习框架,使图数据强化部分产生的强化视图满足了充分性和独立性条件。
是一个图神经网络编码器,将原图作为输入,并输出的所有节点表达,是一个简单的多层感知机,基于节点的表达得出其重要性得分,即是的参数
化。基于可以通过概率采样固定比例(比如80%)的节点,并保留下它们之间的相互连
接以获得不变本质特征子图与环境噪声子图。
最后,将隐空间表达输入到损失函数中对模型进行训练,在完成预训练后,仅保留
骨干图神经网络编码器,并将其用作下游任务的特征编码器。应当注意的是,预训练框
架是模型无关的,可以根据任务需要选择合适的骨干图神经网络编码器。
图5是根据本发明实施例的针对图数据不变特征的图神经网络模型的训练装置的结构图。
如图5所示,上述针对图数据不变特征的图神经网络模型的训练装置500包括特征提取模块510,采样模块520,第一处理模块530,第二处理模块540,优化模块550以及迭代训练模块560。
特征提取模块510,用于利用诠释生成器对原图进行特征提取,得到不变本质特征子图概率分布和环境噪声子图概率分布。
采样模块520,用于根据预设采样比例,对不变本质特征子图概率分布进行采样,得到第一不变本质特征强化视图和第二不变本质特征强化视图,并根据预设采样比例,对环境噪声子图概率分布进行采样,得到环境噪声强化视图。
第一处理模块530,用于利用骨干图神经网络编码器处理第一不变本质特征强化视图、第二不变本质特征强化视图以及环境噪声强化视图,得到第一不变本质特征图向量、第二不变本质特征图向量以及环境噪声图向量。
第二处理模块540,用于利用多层感知机投影头处理第一不变本质特征图向量、第二不变本质特征图向量以及环境噪声图向量,得到第一不变本质特征隐空间向量、第二不变本质特征隐空间向量和环境噪声隐空间向量。
优化模块550,用于将第一不变本质特征隐空间向量、第二不变本质特征隐空间向量和环境噪声隐空间向量输入到损失函数中,得到损失值,并根据损失值优化骨干图神经网络编码器。
迭代训练模块560,用于迭代进行特征提取操作、采样操作、处理操作和优化操作,直到损失值收敛于预设条件,得到训练完成的骨干图神经网络编码器。
本发明提供的上述装置,能够提高图神经网络模型的泛化能力,拓展装置的应用场景,并在由于在训练过程中无需专家标注,大大降低了训练成本。
图6是根据本发明实施例的MNIST可视化结果示意图。
图7是根据本发明实施例的MUTAG可视化结果示意图。
为了更好地帮助本领域技术人员理解本发明,在此通过具体实施方式并结合图6~图7以及表1,对本发明提供的上述方法的相较于现有技术的改进和优点作进一步详细地说明。
针对图数据不变特性的图神经网络模型通用预训练框架不变特性图对比学习(Graph Contrastive Learning with Invariant Rationale, GCL-IR)跟现有的图对比学习框架相比有如下优点:1)在缺乏专家知识的情况下,诠释生成器可以准确地捕捉到包含重要语义信息的节点,赋予了模型一定的解释输入数据的能力。2)在GCL-IR框架下预训练的骨干模型在下游任务中性能显著提升。
对于上述优点,在多个领域不同数据集上通过详尽的实验来证明。
表1是实验用到的数据集的数据统计
(1)节点重要性估计。为验证在缺乏专家知识的限制条件下,诠释生成器捕捉包含重要语义信息的节点的能力,在MNIST-Superpixel数据集进行实验,首先使用忽略训练集中所有标签并使用GCL-IR框架进行预训练,后将诠释生成器对部分数据节点重要性的估计可视化如图6所示。从上至下三行分别是原始MNIST图片数据,MNIST超像素图数据和诠释生成器对节点重要性的估计。颜色越深,得分越高,在强化视图中更可能被保留。从实验结果可知,使用GCL-IR预训练的诠释生成器具有准确捕捉包含重要语义信息的节点的能力。
然后,同样在现实世界的生化分子数据集MUTAG上进行验证。首先在含2,000,000个无标签生化分子ZINC-2M数据集上使用GCL-IR框架进行模型预训练,再将MUTAG数据集部分节点重要性的估计结果可视化如图7所示。随机选取的六个分子样本后,两位化学专业人员标记出与化学分子突变性质的基团,结果如第一行黄色标记所示。GCL-IR预训练所得诠释生成器标记出重要性最高的同等数量的节点,结果如第二行绿色标记所示。若将专业人员的标注视为真实值,则GCL-IR诠释生成器准确率达到了83.3%。实验结果验证了GCL-IR预训练的诠释生成器在真实生化分子数据集上准确捕捉重要节点的能力。
(2)骨干网络下游任务性能提升。在GCL-IR框架下,使用ZINC-2M生化分子数据集对骨干图神经网络编码器进行预训练,再将经预训练的骨干网络在8个不同的下游生化分子数据集进行有监督学***比较。实验结果如表2所示。相比于未经预训练的模型,GCL-IR显著地提升了模型在下游分类任务的ROC-AUC指标。相比于其他预训练方法,GCL-IR同样取得了最优的效果。
表2:GCL-IR骨干网络迁移学习ROC-AUC指标
本发明GCL-IR是一种模型无关的针对图数据不变特性的图神经网络模型通用预训练方法,可以应用到各种自监督预训练-微调训练范式下的图神经网络模型上。GCL-IR的诠释生成器具有准确捕捉重要节点的能力,增加了模型的可解释性,同时,GCL-IR中保留了本质特征的强化视图更准确地指导了后续的骨干图神经网络对比学习过程,使其在下游任务中特征表达能力得到了显著提升。
图8示意性示出了根据本发明实施例的适于实现针对图数据不变特征的图神经网络模型的训练方法的电子设备的方框图。
如图8所示,根据本发明实施例的电子设备800包括处理器801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 803中,存储有电子设备800操作所需的各种程序和数据。处理器 801、ROM802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
根据本发明的实施例,电子设备800还可以包括输入/输出(I/O)接口805,输入/输出(I/O)接口805也连接至总线804。电子设备800还可以包括连接至I/O接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的;也可以是单独存在,而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。
以上的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种针对图数据不变特征的图神经网络模型的训练方法,包括:
利用诠释生成器对原图进行特征提取,得到不变本质特征子图概率分布和环境噪声子图概率分布,其中,所述诠释生成器包括图神经网络编码器和多层感知机;
根据预设采样比例,对所述不变本质特征子图概率分布进行采样,得到第一不变本质特征强化视图和第二不变本质特征强化视图,并根据所述预设采样比例,对所述环境噪声子图概率分布进行采样,得到环境噪声强化视图;
利用骨干图神经网络编码器处理所述第一不变本质特征强化视图、所述第二不变本质特征强化视图以及所述环境噪声强化视图,得到第一不变本质特征图向量、第二不变本质特征图向量以及环境噪声图向量;
利用多层感知机投影头处理所述第一不变本质特征图向量、所述第二不变本质特征图向量以及所述环境噪声图向量,得到第一不变本质特征隐空间向量、第二不变本质特征隐空间向量和环境噪声隐空间向量;
将所述第一不变本质特征隐空间向量、所述第二不变本质特征隐空间向量和所述环境噪声隐空间向量输入到损失函数中,得到损失值,并根据所述损失值优化所述骨干图神经网络编码器;
迭代进行特征提取操作、采样操作、处理操作和优化操作,直到所述损失值收敛于预设条件,得到训练完成的骨干图神经网络编码器;
其中,所述利用诠释生成器对原图进行特征提取,得到不变本质特征子图概率分布和环境噪声子图概率分布包括:
利用所述图神经网络编码器处理所述原图,得到所述原图的所有节点的向量表达;
利用所述多层感知机计算所述原图中每个节点的向量表达,得到所述原图中每个节点的重要性得分;
对所述原图中每个节点的重要性得分进行归一化处理,得到所述原图中每个节点的采样概率;
根据所述原图中每个节点的采样概率,得到不变本质特征子图概率分布和环境噪声子图概率分布;
其中,所述利用骨干图神经网络编码器处理所述第一不变本质特征强化视图、所述第二不变本质特征强化视图以及所述环境噪声强化视图,得到第一不变本质特征图向量、第二不变本质特征图向量以及环境噪声图向量包括:
利用所述骨干图神经网络编码器分别提取所述第一不变本质特征强化视图、所述第二不变本质特征强化视图以及所述环境噪声强化视图中每个节点的向量表达;
将所述第一不变本质特征强化视图中每个节点的向量表达与所述不变本质特征子图概率分布进行点乘,得到第一点乘结果;
将所述第二不变本质特征强化视图中每个节点的向量表达与所述不变本质特征子图概率分布进行点乘,得到第二点乘结果;
将所述环境噪声强化视图中每个节点的向量表达与所述环境噪声子图概率分布进行点乘,得到环境噪声点乘结果;
分别将所述第一点乘结果、所述第二点乘结果以及环境噪声点乘结果进行池化操作,得到所述第一不变本质特征图向量、所述第二不变本质特征图向量以及所述环境噪声图向量。
5.一种针对图数据不变特征的图神经网络模型的训练装置,包括:
特征提取模块,用于利用诠释生成器对原图进行特征提取,得到不变本质特征子图概率分布和环境噪声子图概率分布,其中,所述诠释生成器包括图神经网络编码器和多层感知机;
采样模块,用于根据预设采样比例,对所述不变本质特征子图概率分布进行采样,得到第一不变本质特征强化视图和第二不变本质特征强化视图,并根据所述预设采样比例,对所述环境噪声子图概率分布进行采样,得到环境噪声强化视图;
第一处理模块,用于利用骨干图神经网络编码器处理所述第一不变本质特征强化视图、所述第二不变本质特征强化视图以及所述环境噪声强化视图,得到第一不变本质特征图向量、第二不变本质特征图向量以及环境噪声图向量;
第二处理模块,用于利用多层感知机投影头处理所述第一不变本质特征图向量、所述第二不变本质特征图向量以及所述环境噪声图向量,得到第一不变本质特征隐空间向量、第二不变本质特征隐空间向量和环境噪声隐空间向量;
优化模块,用于将所述第一不变本质特征隐空间向量、所述第二不变本质特征隐空间向量和所述环境噪声隐空间向量输入到损失函数中,得到损失值,并根据所述损失值优化所述骨干图神经网络编码器;
迭代训练模块,用于迭代进行特征提取操作、采样操作、处理操作和优化操作,直到所述损失值收敛于预设条件,得到训练完成的骨干图神经网络编码器
其中,所述利用诠释生成器对原图进行特征提取,得到不变本质特征子图概率分布和环境噪声子图概率分布包括:
利用所述图神经网络编码器处理所述原图,得到所述原图的所有节点的向量表达;
利用所述多层感知机计算所述原图中每个节点的向量表达,得到所述原图中每个节点的重要性得分;
对所述原图中每个节点的重要性得分进行归一化处理,得到所述原图中每个节点的采样概率;
根据所述原图中每个节点的采样概率,得到不变本质特征子图概率分布和环境噪声子图概率分布;
其中,所述利用骨干图神经网络编码器处理所述第一不变本质特征强化视图、所述第二不变本质特征强化视图以及所述环境噪声强化视图,得到第一不变本质特征图向量、第二不变本质特征图向量以及环境噪声图向量包括:
利用所述骨干图神经网络编码器分别提取所述第一不变本质特征强化视图、所述第二不变本质特征强化视图以及所述环境噪声强化视图中每个节点的向量表达;
将所述第一不变本质特征强化视图中每个节点的向量表达与所述不变本质特征子图概率分布进行点乘,得到第一点乘结果;
将所述第二不变本质特征强化视图中每个节点的向量表达与所述不变本质特征子图概率分布进行点乘,得到第二点乘结果;
将所述环境噪声强化视图中每个节点的向量表达与所述环境噪声子图概率分布进行点乘,得到环境噪声点乘结果;
分别将所述第一点乘结果、所述第二点乘结果以及环境噪声点乘结果进行池化操作,得到所述第一不变本质特征图向量、所述第二不变本质特征图向量以及所述环境噪声图向量。
6.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~4中任一项所述的方法。
7.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210714507.8A CN114821119B (zh) | 2022-06-22 | 2022-06-22 | 针对图数据不变特征的图神经网络模型的训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210714507.8A CN114821119B (zh) | 2022-06-22 | 2022-06-22 | 针对图数据不变特征的图神经网络模型的训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114821119A CN114821119A (zh) | 2022-07-29 |
CN114821119B true CN114821119B (zh) | 2022-10-28 |
Family
ID=82521832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210714507.8A Active CN114821119B (zh) | 2022-06-22 | 2022-06-22 | 针对图数据不变特征的图神经网络模型的训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114821119B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428874B (zh) * | 2020-02-29 | 2024-07-12 | 平安科技(深圳)有限公司 | 风控方法、电子装置及计算机可读存储介质 |
US11354778B2 (en) * | 2020-04-13 | 2022-06-07 | Google Llc | Systems and methods for contrastive learning of visual representations |
CN111930992B (zh) * | 2020-08-14 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置及电子设备 |
CN112862093B (zh) * | 2021-01-29 | 2024-01-12 | 北京邮电大学 | 一种图神经网络训练方法及装置 |
CN113314188B (zh) * | 2021-06-16 | 2022-07-15 | 中国科学技术大学 | 图结构增强的小样本学习方法、***、设备及存储介质 |
CN114020928A (zh) * | 2021-11-02 | 2022-02-08 | 上海交通大学 | 一种基于异质图对比学习的虚假新闻识别方法 |
-
2022
- 2022-06-22 CN CN202210714507.8A patent/CN114821119B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114821119A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liang et al. | Explaining the black-box model: A survey of local interpretation methods for deep neural networks | |
Eslami et al. | Attend, infer, repeat: Fast scene understanding with generative models | |
Samek et al. | Evaluating the visualization of what a deep neural network has learned | |
Wang et al. | Rethinking the learning paradigm for dynamic facial expression recognition | |
CN107784288A (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN115861462B (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
Lin et al. | Saliency detection via multi-scale global cues | |
US11948078B2 (en) | Joint representation learning from images and text | |
CN115661246A (zh) | 一种基于自监督学习的姿态估计方法 | |
CN113743474A (zh) | 基于协同半监督卷积神经网络的数字图片分类方法与*** | |
CN117253044A (zh) | 一种基于半监督交互学习的农田遥感图像分割方法 | |
CN113807425B (zh) | 基于自适应正则深度聚类的组织病理图像分类方法 | |
CN117690098A (zh) | 一种基于动态图卷积的开放驾驶场景下多标签识别方法 | |
CN114821119B (zh) | 针对图数据不变特征的图神经网络模型的训练方法和装置 | |
CN111950582A (zh) | 为分类模型确定扰动掩模 | |
CN116597275A (zh) | 一种基于数据增强的高速移动目标识别方法 | |
CN115810109A (zh) | 一种舌像特征提取方法、***和存储介质 | |
CN111797732B (zh) | 一种对采样不敏感的视频动作识别对抗攻击方法 | |
CN114170485A (zh) | 深度学习可解释方法及设备、存储介质和程序产品 | |
CN113920291A (zh) | 基于图片识别结果的纠错方法、装置、电子设备及介质 | |
CN112861601A (zh) | 生成对抗样本的方法及相关设备 | |
CN112446345A (zh) | 一种低质量三维人脸识别方法、***、设备和存储介质 | |
Zhang et al. | A modified image processing method for deblurring based on GAN networks | |
CN114998990B (zh) | 一种工地人员安全行为识别方法及装置 | |
Cao et al. | Few-Shot Image Generation by Conditional Relaxing Diffusion Inversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |