CN113591955A - 一种提取图数据的全局信息的方法、***、设备及介质 - Google Patents

一种提取图数据的全局信息的方法、***、设备及介质 Download PDF

Info

Publication number
CN113591955A
CN113591955A CN202110819535.1A CN202110819535A CN113591955A CN 113591955 A CN113591955 A CN 113591955A CN 202110819535 A CN202110819535 A CN 202110819535A CN 113591955 A CN113591955 A CN 113591955A
Authority
CN
China
Prior art keywords
loss function
attention
graph
global information
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110819535.1A
Other languages
English (en)
Other versions
CN113591955B (zh
Inventor
刘杰
金泰松
蔡振辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Capital Normal University
Original Assignee
Xiamen University
Capital Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University, Capital Normal University filed Critical Xiamen University
Priority to CN202110819535.1A priority Critical patent/CN113591955B/zh
Publication of CN113591955A publication Critical patent/CN113591955A/zh
Application granted granted Critical
Publication of CN113591955B publication Critical patent/CN113591955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种提取图数据的全局信息的方法、***、设备及介质,其方法包括:首先,获取样本数据集和待分析图数据;其次,在预先构建的图注意力网络中,引入中心损失函数、一阶边预测损失函数以及重建损失函数,结合交叉熵损失函数构建联合损失函数;接着,基于预先构建的图注意力网络,构建自编码器;再者,依据所述样本数据集、所述联合损失函数以及自编码器对所述图注意力网络进行训练,直至满足预设条件停止训练,输出全局信息网络;最后,将所述待分析图数据输入至所述全局信息网络中,通过所述联合损失函数获得全局信息。本发明可以更多保留数据集的分布信息、结构信息以及特征信息,并依据这三类信息更加全面的描述全局信息。

Description

一种提取图数据的全局信息的方法、***、设备及介质
技术领域
本发明涉及图数据技术领域,尤其涉及一种提取图数据的全局信息 的方法、***、设备及介质。
背景技术
近年来,图神经网络作为一种图数据的分析技术,受到广泛的关注。 在图上的节点分类、边预测、图分类等任务上已取得优异的成果,效果 均达到了一流水平。目前神经网络的研究主要关注网络结构本身,同时 在整个基础上引入一些其他邻域高效的机制,比如注意力机制、门机制 等。
当前图神经网络模型的特征传播阶段,充分利用了图的局部结构和 节点的特征,但缺少了对图全局信息的使用。由于图数据的全局信息过 于抽象,缺乏简单高效的方式可以直接度量图的全局信息。目前大部分 方法在训练时并没有对全局信息作一个约束,如何能够设计出高效的全 局信息度量方式,并在训练过程中成功引入图的全局信息,是现有研究 所亟需的。
发明内容
(一)要解决的技术问题
鉴于现有技术的上述缺点、不足,本发明提供一种提取图数据的全 局信息的方法、***、设备及介质,其解决了现有研究对图的全局信息 缺乏高效且精确度量方式的技术问题。
(二)技术方案
为了达到上述目的,本发明采用的主要技术方案包括:
第一方面,本发明实施例提供一种提取图数据的全局信息的方法, 包括:
获取样本数据集和待分析图数据;
在预先构建的图注意力网络中,引入中心损失函数、一阶边预测损 失函数以及重建损失函数,结合交叉熵损失函数构建联合损失函数;
基于预先构建的图注意力网络,构建自编码器;
依据所述样本数据集、联合损失函数以及自编码器对所述图注意力 网络进行训练,直至满足预设条件停止训练,输出全局信息网络;
将所述待分析图数据输入至所述全局信息网络中,通过所述自编码 器的特征提取和所述联合损失函数的约束下获得全局信息。
可选地,
引入所述中心损失函数,用于最小化输入的图数据特征与对应分类 中心之间的距离;所述中心损失函数为:
Figure BDA0003171535930000021
其中,N表示训练样本的数量,hi是样本i的深度特征,Cyi表示样 本i对应类别的中心特征;
引入所述一阶边预测损失函数,用于保留输入的图数据的边信息; 所述一阶边预测损失函数为:
Figure BDA0003171535930000022
Figure BDA0003171535930000023
其中,P(1)(vi,vj)为边存在概率,vi和vj分别代表节点i和j,hi和hj表示节点i和j映射后的特征向量,T为矩阵的转置操作;
引入所述重建损失函数,用于最小化图数据的输入和所述自编码器 的输出之前的重建损失;所述重建损失函数为:
Figure BDA0003171535930000024
其中,Hinput和Houtput分别标示输入特征与输出特征;
所述交叉熵损失函数为:
Figure BDA0003171535930000031
其中,M表示样本总的类别数,hi表示最后一层注意力层的输出,特 征大小与预测的类别数一致,
Figure BDA0003171535930000033
表示节点i的输出特征在节点i真实标 签对应位置上的值。
可选地,所述联合损失函数为:
Figure BDA0003171535930000032
其中,λ1、λ2、λ3分别是中心损失函数、一阶边预测损失函数、重 建损失函数的平衡参数。
可选地,基于预先构建的图注意力网络,构建自编码器包括;
将预先构建的图注意力网络中原本的第一注意力层和第二注意力层 作为编码模块;
在所述编码模块后添加第三注意力层和第四注意力层作为解码模 块;
基于所述编码模块和所述解码模块,得到自编码器;
其中,所述第一注意力层中注意力头为8个,所述第一注意力层中 每个注意力头输出特征长度均为64;所述第二注意力层中注意力头为1 个,所述第一注意力层中的注意力头输出特征长度为64;所述第三注意 力层中注意力头为1个,所述第三注意力层中的注意力头输出特征长度 为128;所述第四注意力层中注意力头为1个,所述第四注意力层中的注 意力头输出特征长度等于编码模块的输入特征长度。
可选地,将所述待分析图数据输入至所述全局信息网络中,通过所 述自编码器的特征提取和所述联合损失函数的约束下获得全局信息包 括:
通过所述自编码器的编码模块对所述待分析图数据进行编码处理, 得到N个编码向量;
通过所述自编码器的解码模块对N个编码向量进行解码处理,得到 第二图数据;
将所述第二图数据分别在联合函数中的中心损失函数、一阶边预测 损失函数、重建损失函数的约束下,分别得到待分析图数据的分布信息、 结构信息以及特征信息;
依据所述分布信息、结构信息以及特征信息并结合各函数的平衡参 数,得到全局信息。
可选地,对所述图注意力网络采用Adam梯度下降算法的更新各层网 络之间的权重参数和偏置参数。
可选地,所述样本数据集采用Core、Citeseer、Pubmed数据集中的 一种。
第二方面,本发明实施例提供一种提取图结构数据的全局信息的系 统,包括:
数据获取模块,用于获取样本数据集和待分析图数据;
联合损失函数构建模块,用于在预先构建的图注意力网络中,引入 中心损失函数、一阶边预测损失函数以及重建损失函数,结合交叉熵损 失函数构建联合损失函数;
自编码器构建模块,用于基于预先构建的图注意力网络,构建自编 码器;
训练模块,用于依据所述样本数据集、联合损失函数以及自编码器 对所述图注意力网络进行训练,直至满足预设条件停止训练,输出全局 信息网络;
全局信息输出模块,用于将所述待分析图数据输入至所述全局信息 网络中,通过所述自编码器的特征提取和所述联合损失函数的约束下获 得全局信息。
第三方面,本发明实施例提供一种电子设备,其特征在于,包括: 至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中, 所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所 述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的 提取图数据的全局信息的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算 机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实 现如上所述的提取图数据的全局信息的方法。
(三)有益效果
本发明的有益效果是:本发明引入中心损失函数、一阶边预测损失 函数以及重建损失函数,结合交叉熵损失函数构建联合损失函数,训练 本发明选取的图注意力网络。其中,中心损失函数保证训练过程中可以 更多的保留数据集的特征分布信息,训练得到的特征也会更具判别性; 一阶边预测损失函数保证保留图结构输入数据的边信息,使得基于映射 后节点特征重建的边结构和输入数据的边结构信息相似。同时,本发明 借助自编码器的特性,在图注意力网络中构建解码器模块,将原本的注 意力层看作编码器模块,再新增两个注意力层作为解码器,组合成一个 完整的自编码器。在损失函数中引入重建损失,约束模型训练出更能代 表图全局信息的抽象节点特征。经多次实验证明,本发明在Core、Citeseer、 PubMed等数据集上的节点分类结果上具有较大的提升。
附图说明
图1为本发明提供的一种提取图数据的全局信息的方法的流程示意 图;
图2为本发明提供的一种提取图数据的全局信息的方法的步骤S3的 具体流程示意图;
图3为本发明提供的一种提取图数据的全局信息的方法的步骤S5的 具体流程示意图;
图4为本发明提供的一种提取图数据的全局信息的方法的基于中心 损失的全局信息网络的测试结果示意图;
图5为本发明提供的一种提取图数据的全局信息的方法的Dropout 参数实验结果示意图;
图6为本发明提供的一种提取图数据的全局信息的方法的基于边预 测损失的全局信息网络的测试结果示意图;
图7为本发明提供的一种提取图数据的全局信息的方法的自编码器 注意力网络结构示意图;
图8为本发明提供的一种提取图数据的全局信息的方法的自编码器 注意力网络的测试结果示意图;
图9为本发明提供的一种提取图数据的全局信息的***的组成示意 图。
【附图标记说明】
100:提取图结构数据的全局信息的***;101:数据获取模块;102: 联合损失函数构建模块;103:编码器构建模块;104:训练模块;105: 全局信息输出模块。
具体实施方式
为了更好地解释本发明,以便于理解,下面结合附图,通过具体实 施方式,对本发明作详细描述。
图1为本发明提供的一种提取图数据的全局信息的方法的流程示意 图,如图1所示,本发明实施例提出的一种提取图数据的全局信息的方 法,包括:首先,获取样本数据集和待分析图数据;其次,在预先构建 的图注意力网络中,引入中心损失函数、一阶边预测损失函数以及重建 损失函数,结合交叉熵损失函数构建联合损失函数;接着,基于预先构 建的图注意力网络,构建自编码器;再者,依据所述样本数据集、所述 联合损失函数以及自编码器对所述图注意力网络进行训练,直至满足预 设条件停止训练,输出全局信息网络;最后,将所述待分析图数据输入 至所述全局信息网络中,通过所述联合损失函数获得全局信息。
本发明引入中心损失函数、一阶边预测损失函数以及重建损失函数, 结合交叉熵损失函数构建联合损失函数,训练本发明选取的图注意力网 络。其中,中心损失函数保证训练过程中可以更多的保留数据集的全局 特征分布信息,训练得到的特征也会更具判别性;一阶边预测损失函数 保证保留图结构输入数据的边信息,使得基于映射后节点特征重建的边 结构和输入数据的边结构信息相似。同时,本发明借助自编码器的特性, 在图注意力网络中构建解码器模块,将原本的注意力层看作编码器模块, 再新增两个注意力层作为解码器,组合成一个完整的自编码器。在损失 函数中引入重建损失,约束模型训练出更能代表图全局信息的抽象节点 特征。经多次实验证明,本发明在Core、Citeseer、PubMed等数据集上 的节点分类结果上具有较大的提升。
为了更好地理解上述技术方案,下面将参照附图更详细地描述本发 明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应 当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。 相反,提供这些实施例是为了能够更清楚、透彻地理解本发明,并且能 够将本发明的范围完整的传达给本领域的技术人员。
具体地,本发明提供一种提取图数据的全局信息的方法,包括:
S1、获取样本数据集和待分析图数据。
较佳地,样本数据集采用Core、Citeseer、PubMed数据集中的一种。本发明在三大引文网络标准数据集Core、Citeseer、PubMed上进行节点分类实验。数据集详细信息中,节点表示文献,边表示论文之间的引用关系,形式为<被引用论文编号,引用论文编号>。Core数据集包括2708篇科学文献,共有七个类别:基于案例、遗传算法、神经网络、概率方法、强化学习、规则学习、理论。每篇文章的特征表示为大小1433仅包含0或1的向量,1和0表示文章是否包含对应字典位置的词语。数据集有5429组引用关系。Citeseer数据集共有六大类别、3327篇文献,字典大小为3703,有4732组引用关系。PubMed数据共有三大类、19717篇文献,字典大小为500,包含了44338组引用关系。训练时,从数据集中为每个类别取20个节点作为训练集,验证集和测试集统一设置为500和1000。
S2、在预先构建的图注意力网络中,引入中心损失函数、一阶边预 测损失函数以及重建损失函数,结合交叉熵损失函数构建联合损失函数。
进一步地,引入所述中心损失函数,用于最小化输入的图数据特征 与对应分类中心之间的距离;中心损失函数为:
Figure BDA0003171535930000081
其中,N表示训练样本的数量,hi是样本i的深度特征,即最后一层 注意力层的输出,特征大小与预测的类别数一致;
Figure BDA0003171535930000082
表示样本i对应类 别的中心特征。中心损失旨在通过缩小每个样本到其类别中心的距离来 得到更具判别性的样本特征,即同类特征更紧致,不同类间特征更加的 疏远。
引入所述一阶边预测损失函数,用于保留输入的图数据的边信息; 所述一阶边预测损失函数为:
Figure BDA0003171535930000083
其中,P(1)(vi,vj)为边存在概率,vi和vj分别代表节点i和j,hi和hj表示节点i和j映射后的特征向量,T为矩阵的转置操作。引入中心损失 函数,是为了模型训练获取的节点特征尽可能保持与输入样本一致的数 据分布。
引入所述重建损失函数,用于最小化图数据的输入和所述自编码器 的输出之前的重建损失;所述重建损失函数为:
Figure BDA0003171535930000091
其中,Hinput和Houtput分别标示输入特征与输出特征。在重建损失函 数的约束下,在训练过程中的中间特征,也就是用于节点分类任务的特 征,保留数据集的全局综合信息,使得中间特征经过模型的解码器可以 尽可能地还原数据集地原始输入信息。
所述交叉熵损失函数为:
Figure BDA0003171535930000092
其中,M表示样本总的类别数,hi表示最后一层注意力层的输出,特 征大小与预测的类别数一致,
Figure BDA0003171535930000093
表示节点i的输出特征在节点i真实标 签对应位置上的值。
所述联合损失函数为:
Figure BDA0003171535930000094
其中,λ1、λ2、λ3分别是中心损失函数、一阶边预测损失函数、重 建损失函数的平衡参数。
S3、基于预先构建的图注意力网络,构建自编码器。
进一步地,图2为本发明提供的一种提取图数据的全局信息的方法 的步骤S3的具体流程示意图,如图2所示,步骤S3具体包括:
S31、将预先构建的图注意力网络中原本的第一注意力层和第二注意 力层作为编码模块。
S32、在所述编码模块后添加第三注意力层和第四注意力层作为解码 模块。
S33、基于所述编码模块和解码模块,得到自编码器。
其中,所述第一注意力层中注意力头为8个,所述第一注意力层中 每个注意力头输出特征长度均为64;所述第二注意力层中注意力头为1 个,所述第一注意力层中的注意力头输出特征长度为64;所述第三注意 力层中注意力头为1个,所述第三注意力层中的注意力头输出特征长度 为128;所述第四注意力层中注意力头为1个,所述第四注意力层中的注 意力头输出特征长度等于编码模块的输入特征长度。
S4、依据所述样本数据集、所述联合损失函数以及自编码器对所述 图注意力网络进行训练,直至满足预设条件停止训练,输出全局信息网 络。
S5、将所述待分析图数据输入至所述全局信息网络中,通过所述联 合损失函数获得全局信息。
进一步地,图3为本发明提供的一种提取图数据的全局信息的方法 的步骤S5的具体流程示意图,如图3所示,步骤S5包括:
S51、通过所述自编码器的编码模块对所述待分析图数据进行编码处 理,得到N个编码向量。
S52、通过所述自编码器的解码模块对N个编码向量进行解码处理, 得到第二图数据。
S53、将所述第二图数据分别在联合函数中的中心损失函数、一阶边 预测损失函数、重建损失函数的约束下,得到待分析图数据的分布信息、 结构信息以及特征信息。
S54、依据所述分布信息、结构信息以及特征信息,得到全局信息。
在另一实施例中,本发明还可以分别构建基于中心损失的全局信息 网络、基于边预测损失的全局信息网络以及自编码器注意力网络,基于 这三类网络分别获取待分析图数据的第一全局信息、第二全局信息以及 第三全局信息,基于第一全局信息、第二全局信息以及第三全局信息获 得综合全局信息。
(1)在基于中心损失的全局信息网络中,建立第一联合损失函数:
Figure BDA0003171535930000111
基于中心损失的全局信息网络包括两层注意力层和softmax层,其 中,两层注意力层分别包括8、1个注意力头。该网络的输入为整张图数 据包括邻接矩阵、特征矩阵,最终输出为节点的预测类别。在训练基于 中心损失的全局信息网络时可以将整张图一起训练,所以训练时可以直 接精确计算各类别的中心特征(带标签),不需要使用原方法的近似计算方式。所以,更新过程中当前类别的中心特征与上一批次的中心特征 偏差也不需要计算。总体训练过程如表1所示。
表1
Figure BDA0003171535930000112
本发明使用TensorFlow深度学习框架对基于中心损失的全局信息网 络进行了实现,使用了一个NVIDIA GeForce GTX 1080Ti GPU显卡进行 模型训练。实验在Cora、Citeseer、PubMed引文网络数据集上进行,该 网络采用更新模型参数,用Xavier Glorot[64]对网络的参数随机初始化。 设置网络模型参数的基础学习率为0.005,L2正则项系数为0.0005, batchsize大小为1张图。
对于数据集Cora、Citeseer实验,该网络采用两层注意力层,第一层 有8个注意力头,第二层有1个注意力头,最后经过softmax层。
对于PubMed数据集,该网络结构的第二层使用8个注意力头,并使 用平均操作代替拼接(Concate)操作。并调整基础学***均操作公式为:
Figure BDA0003171535930000121
图4为本发明提供的一种提取图数据的全局信息的方法的基于中心 损失的全局信息网络的测试结果示意图,如图4所示,基于中心损失的 全局信息网络在Core、Citeseer、Pubmed数据集上进行重复测试的表现。 其结果如表2所示,本发明引入的中心损失使模型的性能优于基准模型 GAT和其他的参照模型。
表2
Figure BDA0003171535930000122
在上述步骤中,在图注意力模型原来的交叉熵损失基础上引入中心 损失函数。由于图结构数据训练时以整张图为一个批次,在训练过程中 可以精确计算中心损失,替代了原先得近似算法。测试了模型在三个标 准引文网络数据集上的实验效果,体现了中心损失可以表示数据的分布 情况,且对模型的效果有一定的提升。
(2)在基于边预测损失的全局信息网络,建立第二联合损失函数:
Figure BDA0003171535930000131
基于边预测损失的全局信息网络的训练过程采用Adam梯度下降最 小化误差函数的方式,设置网络模型参数的基础学习率为0.005,L2正则 项系数为0.0005,batchsize大小为1张图。
对于数据集Cora、Citeseer实验采用了包括两层注意力层的网络结 构。第一层有8个注意力头,第二层有1个注意力头,最后经过softmax 层;对于PubMed数据集,网络结构的第二层使用8个注意力头,并使用 平均操作代替拼接操作。
同时,为了处理模型复杂度过高而数据集较小带来的过拟合问题, 针对基于边预测损失的全局信息网进行注意力系数和输入特征的 Dropout处理。图5为本发明提供的一种提取图数据的全局信息的方法的 Dropout参数实验结果示意图,如图5所示,本发明简单地多次测试各参 数值下模型的最高性能。根据实验结果,设置注意力系数和输入特征的Dropout比率为0.6。
图6为本发明提供的一种提取图数据的全局信息的方法的基于边预 测损失的全局信息网络的测试结果示意图,如图6所示,该模型在Pubmed 数据集上的测试结果为79.1±0.4%,浮动幅度较大,稳定性下降同时也 能过得更高的准确率。在Cora数据集上的测试结果为83.75±0.85%,和该 模型测试结果83.0%±0.7%相比,测试结果的区间与中位值相近。表3 展示了其他基本方法的性能和中心损失注意力网络的性能提出的方法和 对照方法相比,在准确率上基本优于现有方法或接近现有方法的分类结 果。
表3
Figure BDA0003171535930000141
此外,基于边预测损失的全局信息网络同样也可以采用归纳学习的 方式验证模型的性能,较佳地,采用PPI数据集。
PPI数据集:蛋白质是执行生物体内各种重要生物活动的大分子,认 识其功能对推动生命科学、农业、医疗等多个领域具有重要的意义。随 着高通量生物实验技术与蛋白质相互作用预测方法的发展,产生了海量 的、可用于大规模蛋白质功能注释的PPI数据集。
PPI网络通常表示为无向图G(V,E),其中V为顶点集,E为边集。顶点 vi(i=1,2,...,n)表示蛋白质,边eij∈E表示两端的蛋白质vi和vj存在相互作用。 蛋白质家族、结构域和重要点信息对蛋白质的功能有重要的影响,常作 为蛋白质的属性。使用矩阵P∈Rn×m记录蛋白质的属性,每行表示一个蛋 白质的顶点的属性集,每列代表一个属性,元素Pij(i=1,..,n;j=1,...,m)的定 义如公式所示:
Figure BDA0003171535930000142
令矩阵Y∈Rn×w表示蛋白质功能信息标签,w为功能标签的总数。矩 阵Y中的每一行yi表示蛋白质vi的功能信息。元素Yij(i=1,..,n;j=1,...,w)的定 义公式所示:
Figure BDA0003171535930000151
根据上述定义,以蛋白质属性作为样本特征,功能信息作为样本标 签的蛋白质功能预测问题可以视为多标签的二分类问题。将部分已知功 能的蛋白质样本作为训练集和验证集用于训练预测模型,学习到的映射 函数用于预测未知功能蛋白质的功能标签。
表4为PPI数据集,如表4所示,PPI数据集共有24张图,每张图 对应人体不同的组织。数据集被分为训练集、验证集和测试集,其中训 练集有20张图,验证集和测试集各有2张图。数据集共有56944个节点, 平均每张图有2372个节点。每个节点的特征长度为50,具有多个标签, 数据集标签总量为121。
表4
Figure BDA0003171535930000152
实验设置:实验模型包括三层注意力层,第一层与第二层注意力层 有4个注意力头,每个注意力头输出特征长度为256,每层注意力层特征 大小共计1024,激活函数为ELU。第三层注意力层包含6个注意力头, 每个注意力头输出特征大小为121,对各个注意力头的输出特征采用平均 操作,激活函数为sigmoid。由于PPI数据集相对Cora、Citeseer数据来说足够大,训练时没有设置正则项约束和dropout层,并使用了快速连接 (SkipConnection)。
评测指标:F1-score常用于多分类问题的衡量指标,他是召回率和准 确率的调和平均数,如公式所示:
Figure BDA0003171535930000153
类别i准确率和召回率计算方式如公式所示:
Figure BDA0003171535930000161
Figure BDA0003171535930000162
其中,TP表示类别i的样本预测正确的数量,FP表示错将其他类别 样本预测为类别i的数量,FN表示将类别i的样本预测为其他类别的数 量。
接着,表5展示了基于边预测损失的全局信息网络在PPI数据上的 F1-score的测试结果和参照模型的对比情况,并取得0.974±0.002%的效 果,比基准模型GAT有了性能上的提升,再一次验证了边预测损失约束 保留的图全局结构信息对基准模型性能提升的作用。
表5
Figure BDA0003171535930000163
(3)在自编码器注意力网络中,第三损失函数为:
Figure BDA0003171535930000164
本发明借助自编码器的特性,在图注意力网络中构建解码器模块, 将图卷积网络的卷积层看作编码器模块,组合成一个完整的自编码器。 在损失函数中引入重建损失,约束模型训练出更能代表图全局信息的抽 象节点特征。
自编码器注意力网络的整体结构如图7所示,网络包括4个注意力 层(Attentionlayer)、1个全连接层(FC layer)、和一个Softmax层。 其中,前两个注意力层组成自编码器的编码器模块,可以将输入数据编 码为低维且具有重要性的特征。第三和第四个注意力层组成了解码器模 块,将中间编码解码为和输入数据维度一样的特征,用于计算重构损失。模型的损失函数有两部分,一个是基于softmax层预测概率的交叉熵损 失,第二个部分是基于解码器输出和数据输入的重建损失。
模型的训练过程采用Adam梯度下降的方式。θencoder和θdecoder分别表示 编码器和解码器网络的参数,μ表示学习率,t为迭代次数。具体流程如 表6所示:
Figure BDA0003171535930000171
在参照的对比方法中,GAT的模型综合性能最优。在Core数据集上 的分类准确率为72.5%±0.6%,在Citeseer数据集上的分类准确率达到 83.0%±0.7%。
图8为本发明提供的一种的自编码器注意力网络的测试结果示意图, 如图8所示,自编码器注意力网络在Core数据集上,测试结果中位值 73.0%,上下浮动的幅度为0.8%,与GAT模型相比总体性能提升了0.5%。 在Citeseer数据集上,测试结果中位值为83.6%上下浮动幅度为0.8%, 与GAT相比最大值提升了0.7%,中位值提升了0.6%,总体提升效果显 著。
表7展示了其他基本方法的性能和中心损失注意力网络的性能和自 编码器注意力网络的性能对比。模型性能提升的主要原因在于模型在重 建损失函数的约束下,在训练过程中的中间特征,也就是用于节点分类 任务的特征,保留数据集的全局综合信息,使得中间特征经过模型的解 码器可以尽可能地还原数据集地原始输入信息。这样具有数据集丰富综 合信息地特征,弥补了交叉熵损失单一地针对分类准确率去优化节点特 征的不足,有助于提升模型的性能。
表7
Figure BDA0003171535930000181
在上述步骤中,自编码模型通过欠完备的网络设计、对神经元添加 正则项约束、对输入数据添加微小干扰如噪声等技术实现信息瓶颈特性, 能够约束模型压缩输入数据并提取具有代表性的编码特征。受此启发, 本发明将图注意力网络视为自编码器的编码器模块,新增两层图注意力 网络作为解码器模块,在交叉熵损失函数的基础上引入特征重建损失。 在标准引文网络数据集上进行节点分类实验并和基本方法进行对比,验 证了本发明提出的网络对模型性能有一定的提升。
图9为本发明提供的一种,如图9所示,本发明公开了一种提取图 结构数据的全局信息的***100,包括:
数据获取模块101,用于获取样本数据集和待分析图数据。
联合损失函数构建模块102,用于在预先构建的图注意力网络中,引 入中心损失函数、一阶边预测损失函数以及重建损失函数,结合交叉熵 损失函数构建联合损失函数。
自编码器构建模块103,用于基于预先构建的图注意力网络,构建自 编码器。
训练模块104,用于依据所述样本数据集、所述联合损失函数以及自 编码器对所述图注意力网络进行训练,直至满足预设条件停止训练,输 出全局信息网络。
所述全局信息输出模块105,用于将所述待分析图数据输入至所述全 局信息网络中,通过所述联合损失函数获得全局信息。
由于本发明上述实施例所描述的***/装置,为实施本发明上述实施 例的方法所采用的***/装置,故而基于本发明上述实施例所描述的方法, 本领域所属技术人员能够了解该***/装置的具体结构及变形,因而在此 不再赘述。凡是本发明上述实施例的方法所采用的***/装置都属于本发 明所欲保护的范围。
此外,本发明还公开一种电子设备,其特征在于,包括:至少一个 处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存 储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少 一个处理器执行,以使所述至少一个处理器能够执行如上所述的提取图 数据的全局信息的方法。
以及,本发明还公开一种计算机可读存储介质,所述计算机可读存 储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所 述的提取图数据的全局信息的方法。
综上所述,本发明公开一种提取图数据的全局信息的方法、***、 设备及介质,本发明主要在以下几点做了工作:(1)考虑数据的特征分 布,假设训练数据的特征分布符合相同类别样本簇拥在一起,不同类别 的特征尽量远离的规律。借鉴中心损失函数具有训练判别性特征的能力, 基于图注意力网络(GAT),引入中心损失函数与交叉熵损失函数联合训练模型。(2)考虑输入的图结构数据自带的结构信息,引入网络嵌入 任务中一阶边预测损失。一阶边预测损失函数能够约束模型保持输入数 据的结构信息,提升模型的准确率。(3)受到自编码器具有提取代表性、 重要性特征的能力启发,修改GAT的网络结构,新增两层注意力层视为 自编码器的解码器部分,GAT中原来的网络视为编码器部分。在损失函 数中引入特征重建损失即输入与输出的在特征空间上的距离损失函数。 在标准引文网络数据Core、Citeseer、Pubmed的节点分类实验测试结果, 验证了本发明提出的方法在性能上有较为明显的提升。
本领域内的技术人员应明白,本发明的实施例可提供为方法、*** 或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实 施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在 一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包 括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程 序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)和计算机程 序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实 现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方 框图中的流程和/或方框的结合。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标 记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求 中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多 个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助 于适当编程的计算机来实现。在列举了若干装置的权利要求中,这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第 三等的使用,仅是为了表述方便,而不表示任何顺序。可将这些词语理 解为部件名称的一部分。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、 “一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例” 等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者 特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述 术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的 具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以 合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可 以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征 进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了 基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以, 权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和 修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱 离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发 明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和 变型在内。

Claims (10)

1.一种提取图数据的全局信息的方法,其特征在于,包括:
获取样本数据集和待分析图数据;
在预先构建的图注意力网络中,引入中心损失函数、一阶边预测损失函数以及重建损失函数,结合交叉熵损失函数构建联合损失函数;
基于预先构建的图注意力网络,构建自编码器;
依据所述样本数据集、联合损失函数以及自编码器对所述图注意力网络进行训练,直至满足预设条件停止训练,输出全局信息网络;
将所述待分析图数据输入至所述全局信息网络中,通过所述自编码器的特征提取和所述联合损失函数的约束下获得全局信息。
2.如权利要求1所述的提取图数据的全局信息的方法,其特征在于,
引入所述中心损失函数,用于最小化输入的图数据特征与对应分类中心之间的距离;所述中心损失函数为:
Figure FDA0003171535920000011
其中,N表示训练样本的数量,hi是样本i的深度特征,Cyi表示样本i对应类别的中心特征;
引入所述一阶边预测损失函数,用于保留输入的图数据的边信息;所述一阶边预测损失函数为:
Figure FDA0003171535920000012
Figure FDA0003171535920000013
其中,P(1)(vi,vj)为边存在概率,vi和vj分别代表节点i和j,hi和hj表示节点i和j映射后的特征向量,T为矩阵的转置操作;
引入所述重建损失函数,用于最小化图数据的输入和所述自编码器的输出之前的重建损失;所述重建损失函数为:
Figure FDA0003171535920000014
其中,Hinput和Houtput分别标示输入特征与输出特征;
所述交叉熵损失函数为:
Figure FDA0003171535920000021
其中,M表示样本总的类别数,hi表示最后一层注意力层的输出,特征大小与预测的类别数一致,
Figure FDA0003171535920000022
表示节点i的输出特征在节点i真实标签对应位置上的值。
3.如权利要求2所述提取图数据的全局信息的方法,其特征在于,所述联合损失函数为:
Figure FDA0003171535920000023
其中,λ1、λ2、λ3分别是中心损失函数、一阶边预测损失函数、重建损失函数的平衡参数。
4.如权利要求1所述的提取图数据的全局信息的方法,其特征在于,基于预先构建的图注意力网络,构建自编码器包括;
将预先构建的图注意力网络中原本的第一注意力层和第二注意力层作为编码模块;
在所述编码模块后添加第三注意力层和第四注意力层作为解码模块;
基于所述编码模块和所述解码模块,得到自编码器;
其中,所述第一注意力层中注意力头为8个,所述第一注意力层中每个注意力头输出特征长度均为64;所述第二注意力层中注意力头为1个,所述第一注意力层中的注意力头输出特征长度为64;所述第三注意力层中注意力头为1个,所述第三注意力层中的注意力头输出特征长度为128;所述第四注意力层中注意力头为1个,所述第四注意力层中的注意力头输出特征长度等于编码模块的输入特征长度。
5.如权利要求3所述的提取图数据的全局信息的方法,其特征在于,将所述待分析图数据输入至所述全局信息网络中,通过所述自编码器的特征提取和所述联合损失函数的约束下获得全局信息包括:
通过所述自编码器的编码模块对所述待分析图数据进行编码处理,得到N个编码向量;
通过所述自编码器的解码模块对N个编码向量进行解码处理,得到第二图数据;
将所述第二图数据分别在联合函数中的中心损失函数、一阶边预测损失函数、重建损失函数的约束下,分别得到待分析图数据的分布信息、结构信息以及特征信息;
依据所述分布信息、结构信息以及特征信息并结合各函数的平衡参数,得到全局信息。
6.如权利要求1所述的提取图数据的全局信息的方法,其特征在于,对所述图注意力网络采用Adam梯度下降算法的更新各层网络之间的权重参数和偏置参数。
7.如权利要求1-6任一项所述的提取图数据的全局信息的方法,其特征在于,所述样本数据集采用Core、Citeseer、Pubmed数据集中的一种。
8.一种提取图结构数据的全局信息的***,其特征在于,包括:
数据获取模块,用于获取样本数据集和待分析图数据;
联合损失函数构建模块,用于在预先构建的图注意力网络中,引入中心损失函数、一阶边预测损失函数以及重建损失函数,结合交叉熵损失函数构建联合损失函数;
自编码器构建模块,用于基于预先构建的图注意力网络,构建自编码器;
训练模块,用于依据所述样本数据集、联合损失函数以及自编码器对所述图注意力网络进行训练,直至满足预设条件停止训练,输出全局信息网络;
全局信息输出模块,用于将所述待分析图数据输入至所述全局信息网络中,通过所述自编码器的特征提取和所述联合损失函数的约束下获得全局信息。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7中任一项所述的提取图数据的全局信息的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的提取图数据的全局信息的方法。
CN202110819535.1A 2021-07-20 2021-07-20 一种提取图数据的全局信息的方法、***、设备及介质 Active CN113591955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110819535.1A CN113591955B (zh) 2021-07-20 2021-07-20 一种提取图数据的全局信息的方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110819535.1A CN113591955B (zh) 2021-07-20 2021-07-20 一种提取图数据的全局信息的方法、***、设备及介质

Publications (2)

Publication Number Publication Date
CN113591955A true CN113591955A (zh) 2021-11-02
CN113591955B CN113591955B (zh) 2023-10-13

Family

ID=78248370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110819535.1A Active CN113591955B (zh) 2021-07-20 2021-07-20 一种提取图数据的全局信息的方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN113591955B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114329093A (zh) * 2021-12-30 2022-04-12 马上消费金融股份有限公司 数据的处理方法、装置及设备
CN114707633A (zh) * 2022-03-07 2022-07-05 腾讯科技(深圳)有限公司 特征提取方法、装置、电子设备和存储介质
CN116564534A (zh) * 2023-04-03 2023-08-08 北京林业大学 中医临床数据的多视图聚类方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130212A1 (en) * 2017-10-30 2019-05-02 Nec Laboratories America, Inc. Deep Network Embedding with Adversarial Regularization
CN110929869A (zh) * 2019-12-05 2020-03-27 同盾控股有限公司 注意力模型的训练方法、装置、设备及存储介质
CN112767997A (zh) * 2021-02-04 2021-05-07 齐鲁工业大学 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法
CN112967327A (zh) * 2021-03-04 2021-06-15 国网河北省电力有限公司检修分公司 基于联合自注意力机制的单目深度方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130212A1 (en) * 2017-10-30 2019-05-02 Nec Laboratories America, Inc. Deep Network Embedding with Adversarial Regularization
CN110929869A (zh) * 2019-12-05 2020-03-27 同盾控股有限公司 注意力模型的训练方法、装置、设备及存储介质
CN112767997A (zh) * 2021-02-04 2021-05-07 齐鲁工业大学 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法
CN112967327A (zh) * 2021-03-04 2021-06-15 国网河北省电力有限公司检修分公司 基于联合自注意力机制的单目深度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨云;张海宇;朱宇;张艳宁;: "类别信息生成式对抗网络的单图超分辨重建", 中国图象图形学报, no. 12 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114329093A (zh) * 2021-12-30 2022-04-12 马上消费金融股份有限公司 数据的处理方法、装置及设备
CN114707633A (zh) * 2022-03-07 2022-07-05 腾讯科技(深圳)有限公司 特征提取方法、装置、电子设备和存储介质
CN114707633B (zh) * 2022-03-07 2024-07-09 腾讯科技(深圳)有限公司 特征提取方法、装置、电子设备和存储介质
CN116564534A (zh) * 2023-04-03 2023-08-08 北京林业大学 中医临床数据的多视图聚类方法、装置及电子设备

Also Published As

Publication number Publication date
CN113591955B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN113707235B (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
Lin et al. Critical behavior in physics and probabilistic formal languages
CN113591955B (zh) 一种提取图数据的全局信息的方法、***、设备及介质
JP2021524099A (ja) 異なるデータモダリティの統計モデルを統合するためのシステムおよび方法
CN111782768B (zh) 基于双曲空间表示和标签文本互动的细粒度实体识别方法
CN104794489A (zh) 一种基于深度标签预测的诱导式图像分类方法及***
CN111881671B (zh) 一种属性词提取方法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
Grollmisch et al. Improving semi-supervised learning for audio classification with FixMatch
CN112667782A (zh) 一种文本分类方法、装置、设备及存储介质
CN110188827A (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
Agbo et al. Missing data imputation in the Internet of Things sensor networks
CN108805280B (zh) 一种图像检索的方法和装置
CN113408606B (zh) 基于图协同训练的半监督小样本图像分类方法
Downey et al. alineR: An R package for optimizing feature-weighted alignments and linguistic distances
Wang et al. A robust variable selection method for sparse online regression via the elastic net penalty
US20240087674A1 (en) Function guided in silico protein design
CN113609857A (zh) 基于级联模型和数据增强的法律命名实体识别方法及***
Mantoux et al. Understanding the variability in graph data sets through statistical modeling on the Stiefel manifold
Sarmadi et al. Stochastic neural networks for automatic cell tracking in microscopy image sequences of bacterial colonies
CN116978464A (zh) 数据处理方法、装置、设备以及介质
CN117093849A (zh) 一种基于自动生成模型的数字矩阵特征分析方法
CN116013407A (zh) 一种基于语言模型的性质解耦蛋白质生成方法
CN116432660A (zh) 一种情感分析模型的预训练方法、装置和电子设备
CN113296784B (zh) 一种基于配置代码表征的容器基础镜像推荐方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant