CN113591955A

CN113591955A - 一种提取图数据的全局信息的方法、***、设备及介质

Info

Publication number: CN113591955A
Application number: CN202110819535.1A
Authority: CN
Inventors: 刘杰; 金泰松; 蔡振辉
Original assignee: Xiamen University; Capital Normal University
Current assignee: Xiamen University; Capital Normal University
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-11-02
Anticipated expiration: 2041-07-20
Also published as: CN113591955B

Abstract

本发明涉及一种提取图数据的全局信息的方法、***、设备及介质，其方法包括：首先，获取样本数据集和待分析图数据；其次，在预先构建的图注意力网络中，引入中心损失函数、一阶边预测损失函数以及重建损失函数，结合交叉熵损失函数构建联合损失函数；接着，基于预先构建的图注意力网络，构建自编码器；再者，依据所述样本数据集、所述联合损失函数以及自编码器对所述图注意力网络进行训练，直至满足预设条件停止训练，输出全局信息网络；最后，将所述待分析图数据输入至所述全局信息网络中，通过所述联合损失函数获得全局信息。本发明可以更多保留数据集的分布信息、结构信息以及特征信息，并依据这三类信息更加全面的描述全局信息。

Description

一种提取图数据的全局信息的方法、***、设备及介质

技术领域

本发明涉及图数据技术领域，尤其涉及一种提取图数据的全局信息的方法、***、设备及介质。

背景技术

近年来，图神经网络作为一种图数据的分析技术，受到广泛的关注。在图上的节点分类、边预测、图分类等任务上已取得优异的成果，效果均达到了一流水平。目前神经网络的研究主要关注网络结构本身，同时在整个基础上引入一些其他邻域高效的机制，比如注意力机制、门机制等。

当前图神经网络模型的特征传播阶段，充分利用了图的局部结构和节点的特征，但缺少了对图全局信息的使用。由于图数据的全局信息过于抽象，缺乏简单高效的方式可以直接度量图的全局信息。目前大部分方法在训练时并没有对全局信息作一个约束，如何能够设计出高效的全局信息度量方式，并在训练过程中成功引入图的全局信息，是现有研究所亟需的。

发明内容

(一)要解决的技术问题

鉴于现有技术的上述缺点、不足，本发明提供一种提取图数据的全局信息的方法、***、设备及介质，其解决了现有研究对图的全局信息缺乏高效且精确度量方式的技术问题。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

第一方面，本发明实施例提供一种提取图数据的全局信息的方法，包括：

获取样本数据集和待分析图数据；

在预先构建的图注意力网络中，引入中心损失函数、一阶边预测损失函数以及重建损失函数，结合交叉熵损失函数构建联合损失函数；

基于预先构建的图注意力网络，构建自编码器；

依据所述样本数据集、联合损失函数以及自编码器对所述图注意力网络进行训练，直至满足预设条件停止训练，输出全局信息网络；

将所述待分析图数据输入至所述全局信息网络中，通过所述自编码器的特征提取和所述联合损失函数的约束下获得全局信息。

可选地，

引入所述中心损失函数，用于最小化输入的图数据特征与对应分类中心之间的距离；所述中心损失函数为：

其中，N表示训练样本的数量，h_i是样本i的深度特征，C_yi表示样本i对应类别的中心特征；

引入所述一阶边预测损失函数，用于保留输入的图数据的边信息；所述一阶边预测损失函数为：

其中，P⁽¹⁾(v_i,v_j)为边存在概率，v_i和v_j分别代表节点i和j，h_i和h_j表示节点i和j映射后的特征向量，T为矩阵的转置操作；

引入所述重建损失函数，用于最小化图数据的输入和所述自编码器的输出之前的重建损失；所述重建损失函数为：

其中，H_input和H_output分别标示输入特征与输出特征；

所述交叉熵损失函数为：

其中，M表示样本总的类别数，h_i表示最后一层注意力层的输出，特征大小与预测的类别数一致，

表示节点i的输出特征在节点i真实标签对应位置上的值。

可选地，所述联合损失函数为：

其中，λ₁、λ₂、λ₃分别是中心损失函数、一阶边预测损失函数、重建损失函数的平衡参数。

可选地，基于预先构建的图注意力网络，构建自编码器包括；

将预先构建的图注意力网络中原本的第一注意力层和第二注意力层作为编码模块；

在所述编码模块后添加第三注意力层和第四注意力层作为解码模块；

基于所述编码模块和所述解码模块，得到自编码器；

其中，所述第一注意力层中注意力头为8个，所述第一注意力层中每个注意力头输出特征长度均为64；所述第二注意力层中注意力头为1 个，所述第一注意力层中的注意力头输出特征长度为64；所述第三注意力层中注意力头为1个，所述第三注意力层中的注意力头输出特征长度为128；所述第四注意力层中注意力头为1个，所述第四注意力层中的注意力头输出特征长度等于编码模块的输入特征长度。

可选地，将所述待分析图数据输入至所述全局信息网络中，通过所述自编码器的特征提取和所述联合损失函数的约束下获得全局信息包括：

通过所述自编码器的编码模块对所述待分析图数据进行编码处理，得到N个编码向量；

通过所述自编码器的解码模块对N个编码向量进行解码处理，得到第二图数据；

将所述第二图数据分别在联合函数中的中心损失函数、一阶边预测损失函数、重建损失函数的约束下，分别得到待分析图数据的分布信息、结构信息以及特征信息；

依据所述分布信息、结构信息以及特征信息并结合各函数的平衡参数，得到全局信息。

可选地，对所述图注意力网络采用Adam梯度下降算法的更新各层网络之间的权重参数和偏置参数。

可选地，所述样本数据集采用Core、Citeseer、Pubmed数据集中的一种。

第二方面，本发明实施例提供一种提取图结构数据的全局信息的系统，包括：

数据获取模块，用于获取样本数据集和待分析图数据；

联合损失函数构建模块，用于在预先构建的图注意力网络中，引入中心损失函数、一阶边预测损失函数以及重建损失函数，结合交叉熵损失函数构建联合损失函数；

自编码器构建模块，用于基于预先构建的图注意力网络，构建自编码器；

训练模块，用于依据所述样本数据集、联合损失函数以及自编码器对所述图注意力网络进行训练，直至满足预设条件停止训练，输出全局信息网络；

全局信息输出模块，用于将所述待分析图数据输入至所述全局信息网络中，通过所述自编码器的特征提取和所述联合损失函数的约束下获得全局信息。

第三方面，本发明实施例提供一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的提取图数据的全局信息的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的提取图数据的全局信息的方法。

(三)有益效果

本发明的有益效果是：本发明引入中心损失函数、一阶边预测损失函数以及重建损失函数，结合交叉熵损失函数构建联合损失函数，训练本发明选取的图注意力网络。其中，中心损失函数保证训练过程中可以更多的保留数据集的特征分布信息，训练得到的特征也会更具判别性；一阶边预测损失函数保证保留图结构输入数据的边信息，使得基于映射后节点特征重建的边结构和输入数据的边结构信息相似。同时，本发明借助自编码器的特性，在图注意力网络中构建解码器模块，将原本的注意力层看作编码器模块，再新增两个注意力层作为解码器，组合成一个完整的自编码器。在损失函数中引入重建损失，约束模型训练出更能代表图全局信息的抽象节点特征。经多次实验证明，本发明在Core、Citeseer、 PubMed等数据集上的节点分类结果上具有较大的提升。

附图说明

图1为本发明提供的一种提取图数据的全局信息的方法的流程示意图；

图2为本发明提供的一种提取图数据的全局信息的方法的步骤S3的具体流程示意图；

图3为本发明提供的一种提取图数据的全局信息的方法的步骤S5的具体流程示意图；

图4为本发明提供的一种提取图数据的全局信息的方法的基于中心损失的全局信息网络的测试结果示意图；

图5为本发明提供的一种提取图数据的全局信息的方法的Dropout 参数实验结果示意图；

图6为本发明提供的一种提取图数据的全局信息的方法的基于边预测损失的全局信息网络的测试结果示意图；

图7为本发明提供的一种提取图数据的全局信息的方法的自编码器注意力网络结构示意图；

图8为本发明提供的一种提取图数据的全局信息的方法的自编码器注意力网络的测试结果示意图；

图9为本发明提供的一种提取图数据的全局信息的***的组成示意图。

【附图标记说明】

100：提取图结构数据的全局信息的***；101：数据获取模块；102：联合损失函数构建模块；103：编码器构建模块；104：训练模块；105：全局信息输出模块。

具体实施方式

为了更好地解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

图1为本发明提供的一种提取图数据的全局信息的方法的流程示意图，如图1所示，本发明实施例提出的一种提取图数据的全局信息的方法，包括：首先，获取样本数据集和待分析图数据；其次，在预先构建的图注意力网络中，引入中心损失函数、一阶边预测损失函数以及重建损失函数，结合交叉熵损失函数构建联合损失函数；接着，基于预先构建的图注意力网络，构建自编码器；再者，依据所述样本数据集、所述联合损失函数以及自编码器对所述图注意力网络进行训练，直至满足预设条件停止训练，输出全局信息网络；最后，将所述待分析图数据输入至所述全局信息网络中，通过所述联合损失函数获得全局信息。

本发明引入中心损失函数、一阶边预测损失函数以及重建损失函数，结合交叉熵损失函数构建联合损失函数，训练本发明选取的图注意力网络。其中，中心损失函数保证训练过程中可以更多的保留数据集的全局特征分布信息，训练得到的特征也会更具判别性；一阶边预测损失函数保证保留图结构输入数据的边信息，使得基于映射后节点特征重建的边结构和输入数据的边结构信息相似。同时，本发明借助自编码器的特性，在图注意力网络中构建解码器模块，将原本的注意力层看作编码器模块，再新增两个注意力层作为解码器，组合成一个完整的自编码器。在损失函数中引入重建损失，约束模型训练出更能代表图全局信息的抽象节点特征。经多次实验证明，本发明在Core、Citeseer、PubMed等数据集上的节点分类结果上具有较大的提升。

为了更好地理解上述技术方案，下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更清楚、透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

具体地，本发明提供一种提取图数据的全局信息的方法，包括：

S1、获取样本数据集和待分析图数据。

较佳地，样本数据集采用Core、Citeseer、PubMed数据集中的一种。本发明在三大引文网络标准数据集Core、Citeseer、PubMed上进行节点分类实验。数据集详细信息中，节点表示文献，边表示论文之间的引用关系，形式为<被引用论文编号，引用论文编号>。Core数据集包括2708篇科学文献，共有七个类别：基于案例、遗传算法、神经网络、概率方法、强化学习、规则学习、理论。每篇文章的特征表示为大小1433仅包含0或1的向量，1和0表示文章是否包含对应字典位置的词语。数据集有5429组引用关系。Citeseer数据集共有六大类别、3327篇文献，字典大小为3703，有4732组引用关系。PubMed数据共有三大类、19717篇文献，字典大小为500，包含了44338组引用关系。训练时，从数据集中为每个类别取20个节点作为训练集，验证集和测试集统一设置为500和1000。

S2、在预先构建的图注意力网络中，引入中心损失函数、一阶边预测损失函数以及重建损失函数，结合交叉熵损失函数构建联合损失函数。

进一步地，引入所述中心损失函数，用于最小化输入的图数据特征与对应分类中心之间的距离；中心损失函数为：

其中，N表示训练样本的数量，h_i是样本i的深度特征，即最后一层注意力层的输出，特征大小与预测的类别数一致；

表示样本i对应类别的中心特征。中心损失旨在通过缩小每个样本到其类别中心的距离来得到更具判别性的样本特征，即同类特征更紧致，不同类间特征更加的疏远。

其中，P⁽¹⁾(v_i,v_j)为边存在概率，v_i和v_j分别代表节点i和j，h_i和h_j表示节点i和j映射后的特征向量，T为矩阵的转置操作。引入中心损失函数，是为了模型训练获取的节点特征尽可能保持与输入样本一致的数据分布。

其中，H_input和H_output分别标示输入特征与输出特征。在重建损失函数的约束下，在训练过程中的中间特征，也就是用于节点分类任务的特征，保留数据集的全局综合信息，使得中间特征经过模型的解码器可以尽可能地还原数据集地原始输入信息。

所述交叉熵损失函数为：

表示节点i的输出特征在节点i真实标签对应位置上的值。

所述联合损失函数为：

S3、基于预先构建的图注意力网络，构建自编码器。

进一步地，图2为本发明提供的一种提取图数据的全局信息的方法的步骤S3的具体流程示意图，如图2所示，步骤S3具体包括：

S31、将预先构建的图注意力网络中原本的第一注意力层和第二注意力层作为编码模块。

S32、在所述编码模块后添加第三注意力层和第四注意力层作为解码模块。

S33、基于所述编码模块和解码模块，得到自编码器。

S4、依据所述样本数据集、所述联合损失函数以及自编码器对所述图注意力网络进行训练，直至满足预设条件停止训练，输出全局信息网络。

S5、将所述待分析图数据输入至所述全局信息网络中，通过所述联合损失函数获得全局信息。

进一步地，图3为本发明提供的一种提取图数据的全局信息的方法的步骤S5的具体流程示意图，如图3所示，步骤S5包括：

S51、通过所述自编码器的编码模块对所述待分析图数据进行编码处理，得到N个编码向量。

S52、通过所述自编码器的解码模块对N个编码向量进行解码处理，得到第二图数据。

S53、将所述第二图数据分别在联合函数中的中心损失函数、一阶边预测损失函数、重建损失函数的约束下，得到待分析图数据的分布信息、结构信息以及特征信息。

S54、依据所述分布信息、结构信息以及特征信息，得到全局信息。

在另一实施例中，本发明还可以分别构建基于中心损失的全局信息网络、基于边预测损失的全局信息网络以及自编码器注意力网络，基于这三类网络分别获取待分析图数据的第一全局信息、第二全局信息以及第三全局信息，基于第一全局信息、第二全局信息以及第三全局信息获得综合全局信息。

(1)在基于中心损失的全局信息网络中，建立第一联合损失函数：

基于中心损失的全局信息网络包括两层注意力层和softmax层，其中，两层注意力层分别包括8、1个注意力头。该网络的输入为整张图数据包括邻接矩阵、特征矩阵，最终输出为节点的预测类别。在训练基于中心损失的全局信息网络时可以将整张图一起训练，所以训练时可以直接精确计算各类别的中心特征(带标签)，不需要使用原方法的近似计算方式。所以，更新过程中当前类别的中心特征与上一批次的中心特征偏差也不需要计算。总体训练过程如表1所示。

表1

本发明使用TensorFlow深度学习框架对基于中心损失的全局信息网络进行了实现，使用了一个NVIDIA GeForce GTX 1080Ti GPU显卡进行模型训练。实验在Cora、Citeseer、PubMed引文网络数据集上进行，该网络采用更新模型参数，用Xavier Glorot[64]对网络的参数随机初始化。设置网络模型参数的基础学习率为0.005，L2正则项系数为0.0005， batchsize大小为1张图。

对于数据集Cora、Citeseer实验，该网络采用两层注意力层，第一层有8个注意力头，第二层有1个注意力头，最后经过softmax层。

对于PubMed数据集，该网络结构的第二层使用8个注意力头，并使用平均操作代替拼接(Concate)操作。并调整基础学***均操作公式为：

图4为本发明提供的一种提取图数据的全局信息的方法的基于中心损失的全局信息网络的测试结果示意图，如图4所示，基于中心损失的全局信息网络在Core、Citeseer、Pubmed数据集上进行重复测试的表现。其结果如表2所示，本发明引入的中心损失使模型的性能优于基准模型 GAT和其他的参照模型。

表2

在上述步骤中，在图注意力模型原来的交叉熵损失基础上引入中心损失函数。由于图结构数据训练时以整张图为一个批次，在训练过程中可以精确计算中心损失，替代了原先得近似算法。测试了模型在三个标准引文网络数据集上的实验效果，体现了中心损失可以表示数据的分布情况，且对模型的效果有一定的提升。

(2)在基于边预测损失的全局信息网络，建立第二联合损失函数：

基于边预测损失的全局信息网络的训练过程采用Adam梯度下降最小化误差函数的方式，设置网络模型参数的基础学习率为0.005，L2正则项系数为0.0005，batchsize大小为1张图。

对于数据集Cora、Citeseer实验采用了包括两层注意力层的网络结构。第一层有8个注意力头，第二层有1个注意力头，最后经过softmax 层；对于PubMed数据集，网络结构的第二层使用8个注意力头，并使用平均操作代替拼接操作。

同时，为了处理模型复杂度过高而数据集较小带来的过拟合问题，针对基于边预测损失的全局信息网进行注意力系数和输入特征的 Dropout处理。图5为本发明提供的一种提取图数据的全局信息的方法的 Dropout参数实验结果示意图，如图5所示，本发明简单地多次测试各参数值下模型的最高性能。根据实验结果，设置注意力系数和输入特征的Dropout比率为0.6。

图6为本发明提供的一种提取图数据的全局信息的方法的基于边预测损失的全局信息网络的测试结果示意图，如图6所示，该模型在Pubmed 数据集上的测试结果为79.1±0.4％，浮动幅度较大，稳定性下降同时也能过得更高的准确率。在Cora数据集上的测试结果为83.75±0.85％,和该模型测试结果83.0％±0.7％相比，测试结果的区间与中位值相近。表3 展示了其他基本方法的性能和中心损失注意力网络的性能提出的方法和对照方法相比，在准确率上基本优于现有方法或接近现有方法的分类结果。

表3

此外，基于边预测损失的全局信息网络同样也可以采用归纳学习的方式验证模型的性能，较佳地，采用PPI数据集。

PPI数据集：蛋白质是执行生物体内各种重要生物活动的大分子，认识其功能对推动生命科学、农业、医疗等多个领域具有重要的意义。随着高通量生物实验技术与蛋白质相互作用预测方法的发展，产生了海量的、可用于大规模蛋白质功能注释的PPI数据集。

PPI网络通常表示为无向图G(V,E),其中V为顶点集，E为边集。顶点 v_i(i＝1,2,...,n)表示蛋白质，边e_ij∈E表示两端的蛋白质v_i和v_j存在相互作用。蛋白质家族、结构域和重要点信息对蛋白质的功能有重要的影响，常作为蛋白质的属性。使用矩阵P∈R^n×m记录蛋白质的属性，每行表示一个蛋白质的顶点的属性集，每列代表一个属性，元素P_ij(i＝1,..,n；j＝1,...,m)的定义如公式所示：

令矩阵Y∈R^n×w表示蛋白质功能信息标签，w为功能标签的总数。矩阵Y中的每一行y_i表示蛋白质v_i的功能信息。元素Y_ij(i＝1,..,n；j＝1,...,w)的定义公式所示：

根据上述定义，以蛋白质属性作为样本特征，功能信息作为样本标签的蛋白质功能预测问题可以视为多标签的二分类问题。将部分已知功能的蛋白质样本作为训练集和验证集用于训练预测模型，学习到的映射函数用于预测未知功能蛋白质的功能标签。

表4为PPI数据集，如表4所示，PPI数据集共有24张图，每张图对应人体不同的组织。数据集被分为训练集、验证集和测试集，其中训练集有20张图，验证集和测试集各有2张图。数据集共有56944个节点，平均每张图有2372个节点。每个节点的特征长度为50，具有多个标签，数据集标签总量为121。

表4

实验设置：实验模型包括三层注意力层，第一层与第二层注意力层有4个注意力头，每个注意力头输出特征长度为256，每层注意力层特征大小共计1024，激活函数为ELU。第三层注意力层包含6个注意力头，每个注意力头输出特征大小为121，对各个注意力头的输出特征采用平均操作，激活函数为sigmoid。由于PPI数据集相对Cora、Citeseer数据来说足够大，训练时没有设置正则项约束和dropout层，并使用了快速连接 (SkipConnection)。

评测指标：F1-score常用于多分类问题的衡量指标，他是召回率和准确率的调和平均数,如公式所示：

类别i准确率和召回率计算方式如公式所示：

其中，TP表示类别i的样本预测正确的数量，FP表示错将其他类别样本预测为类别i的数量，FN表示将类别i的样本预测为其他类别的数量。

接着，表5展示了基于边预测损失的全局信息网络在PPI数据上的 F1-score的测试结果和参照模型的对比情况，并取得0.974±0.002％的效果，比基准模型GAT有了性能上的提升，再一次验证了边预测损失约束保留的图全局结构信息对基准模型性能提升的作用。

表5

(3)在自编码器注意力网络中，第三损失函数为：

本发明借助自编码器的特性，在图注意力网络中构建解码器模块，将图卷积网络的卷积层看作编码器模块，组合成一个完整的自编码器。在损失函数中引入重建损失，约束模型训练出更能代表图全局信息的抽象节点特征。

自编码器注意力网络的整体结构如图7所示，网络包括4个注意力层(Attentionlayer)、1个全连接层(FC layer)、和一个Softmax层。其中，前两个注意力层组成自编码器的编码器模块，可以将输入数据编码为低维且具有重要性的特征。第三和第四个注意力层组成了解码器模块，将中间编码解码为和输入数据维度一样的特征，用于计算重构损失。模型的损失函数有两部分，一个是基于softmax层预测概率的交叉熵损失，第二个部分是基于解码器输出和数据输入的重建损失。

模型的训练过程采用Adam梯度下降的方式。θ_encoder和θ_decoder分别表示编码器和解码器网络的参数，μ表示学习率，t为迭代次数。具体流程如表6所示：

在参照的对比方法中，GAT的模型综合性能最优。在Core数据集上的分类准确率为72.5％±0.6％，在Citeseer数据集上的分类准确率达到 83.0％±0.7％。

图8为本发明提供的一种的自编码器注意力网络的测试结果示意图，如图8所示，自编码器注意力网络在Core数据集上，测试结果中位值 73.0％，上下浮动的幅度为0.8％，与GAT模型相比总体性能提升了0.5％。在Citeseer数据集上，测试结果中位值为83.6％上下浮动幅度为0.8％，与GAT相比最大值提升了0.7％，中位值提升了0.6％，总体提升效果显著。

表7展示了其他基本方法的性能和中心损失注意力网络的性能和自编码器注意力网络的性能对比。模型性能提升的主要原因在于模型在重建损失函数的约束下，在训练过程中的中间特征，也就是用于节点分类任务的特征，保留数据集的全局综合信息，使得中间特征经过模型的解码器可以尽可能地还原数据集地原始输入信息。这样具有数据集丰富综合信息地特征，弥补了交叉熵损失单一地针对分类准确率去优化节点特征的不足，有助于提升模型的性能。

表7

在上述步骤中，自编码模型通过欠完备的网络设计、对神经元添加正则项约束、对输入数据添加微小干扰如噪声等技术实现信息瓶颈特性，能够约束模型压缩输入数据并提取具有代表性的编码特征。受此启发，本发明将图注意力网络视为自编码器的编码器模块，新增两层图注意力网络作为解码器模块，在交叉熵损失函数的基础上引入特征重建损失。在标准引文网络数据集上进行节点分类实验并和基本方法进行对比，验证了本发明提出的网络对模型性能有一定的提升。

图9为本发明提供的一种，如图9所示，本发明公开了一种提取图结构数据的全局信息的***100，包括：

数据获取模块101，用于获取样本数据集和待分析图数据。

联合损失函数构建模块102，用于在预先构建的图注意力网络中，引入中心损失函数、一阶边预测损失函数以及重建损失函数，结合交叉熵损失函数构建联合损失函数。

自编码器构建模块103，用于基于预先构建的图注意力网络，构建自编码器。

训练模块104，用于依据所述样本数据集、所述联合损失函数以及自编码器对所述图注意力网络进行训练，直至满足预设条件停止训练，输出全局信息网络。

所述全局信息输出模块105，用于将所述待分析图数据输入至所述全局信息网络中，通过所述联合损失函数获得全局信息。

由于本发明上述实施例所描述的***/装置，为实施本发明上述实施例的方法所采用的***/装置，故而基于本发明上述实施例所描述的方法，本领域所属技术人员能够了解该***/装置的具体结构及变形，因而在此不再赘述。凡是本发明上述实施例的方法所采用的***/装置都属于本发明所欲保护的范围。

此外，本发明还公开一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的提取图数据的全局信息的方法。

以及，本发明还公开一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的提取图数据的全局信息的方法。

综上所述，本发明公开一种提取图数据的全局信息的方法、***、设备及介质，本发明主要在以下几点做了工作：(1)考虑数据的特征分布，假设训练数据的特征分布符合相同类别样本簇拥在一起，不同类别的特征尽量远离的规律。借鉴中心损失函数具有训练判别性特征的能力，基于图注意力网络(GAT)，引入中心损失函数与交叉熵损失函数联合训练模型。(2)考虑输入的图结构数据自带的结构信息，引入网络嵌入任务中一阶边预测损失。一阶边预测损失函数能够约束模型保持输入数据的结构信息，提升模型的准确率。(3)受到自编码器具有提取代表性、重要性特征的能力启发，修改GAT的网络结构，新增两层注意力层视为自编码器的解码器部分，GAT中原来的网络视为编码器部分。在损失函数中引入特征重建损失即输入与输出的在特征空间上的距离损失函数。在标准引文网络数据Core、Citeseer、Pubmed的节点分类实验测试结果，验证了本发明提出的方法在性能上有较为明显的提升。

本领域内的技术人员应明白，本发明的实施例可提供为方法、*** 或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。

应当注意的是，在权利要求中，不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中，这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用，仅是为了表述方便，而不表示任何顺序。可将这些词语理解为部件名称的一部分。

此外，需要说明的是，在本说明书的描述中，术语“一个实施例”、 “一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例” 等的描述，是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管已描述了本发明的优选实施例，但本领域的技术人员在得知了基本创造性概念后，则可对这些实施例作出另外的变更和修改。所以，权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也应该包含这些修改和变型在内。

Claims

1.一种提取图数据的全局信息的方法，其特征在于，包括：

获取样本数据集和待分析图数据；

基于预先构建的图注意力网络，构建自编码器；

2.如权利要求1所述的提取图数据的全局信息的方法，其特征在于，

其中，H_input和H_output分别标示输入特征与输出特征；

所述交叉熵损失函数为：

表示节点i的输出特征在节点i真实标签对应位置上的值。

3.如权利要求2所述提取图数据的全局信息的方法，其特征在于，所述联合损失函数为：

4.如权利要求1所述的提取图数据的全局信息的方法，其特征在于，基于预先构建的图注意力网络，构建自编码器包括；

基于所述编码模块和所述解码模块，得到自编码器；

其中，所述第一注意力层中注意力头为8个，所述第一注意力层中每个注意力头输出特征长度均为64；所述第二注意力层中注意力头为1个，所述第一注意力层中的注意力头输出特征长度为64；所述第三注意力层中注意力头为1个，所述第三注意力层中的注意力头输出特征长度为128；所述第四注意力层中注意力头为1个，所述第四注意力层中的注意力头输出特征长度等于编码模块的输入特征长度。

5.如权利要求3所述的提取图数据的全局信息的方法，其特征在于，将所述待分析图数据输入至所述全局信息网络中，通过所述自编码器的特征提取和所述联合损失函数的约束下获得全局信息包括：

6.如权利要求1所述的提取图数据的全局信息的方法，其特征在于，对所述图注意力网络采用Adam梯度下降算法的更新各层网络之间的权重参数和偏置参数。

7.如权利要求1-6任一项所述的提取图数据的全局信息的方法，其特征在于，所述样本数据集采用Core、Citeseer、Pubmed数据集中的一种。

8.一种提取图结构数据的全局信息的***，其特征在于，包括：

数据获取模块，用于获取样本数据集和待分析图数据；

9.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-7中任一项所述的提取图数据的全局信息的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的提取图数据的全局信息的方法。