CN112749757B

CN112749757B - 基于门控图注意力网络的论文分类模型构建方法及***

Info

Publication number: CN112749757B
Application number: CN202110080195.5A
Authority: CN
Inventors: 王美红; 邱淋灵; 李涵; 王晓黎; 陈岐望
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2023-09-12
Anticipated expiration: 2041-01-21
Also published as: CN112749757A

Abstract

本发明公开了一种基于门控图注意力网络的论文分类模型构建方法及***。该方法包括：构建基于门控图神经网络的分类模型，分类模型包括依次连接的若干层，其中，各层均包括一图神经网络结构以及一分类器，第一层中图神经网络结构和分类器直接连接，第t层中图神经网络结构和分类器之间通过门控结构连接，t为大于1的整数；确定样本数据集中各论文样本i的特征矩阵将各论文样本的特征矩阵输入分类模型，并以各论文样本的类型为标签对分类模型进行训练；训练过程中，融合了样本论文的属性，且通过门控机制，聚合远距离节点信息，在获得更多语义信息的同时，解决了梯度消失问题，提升了分类的准确度。

Description

基于门控图注意力网络的论文分类模型构建方法及***

技术领域

本发明涉及节点分类领域，特别是涉及一种基于门控图注意力网络的论文分类模型构建方法及***。

背景技术

大数据时代，对于引文网络中论文的分类，传统的分类方法有决策树、逻辑回归、支持向量机、随机森林等，但是和后面陆续提出的深度学习方法相比，准确度普遍不高。基于论文图谱数据中节点顺序的无规律性，传统深度学习方法在处理图谱数据时存在一定困难。但是图神经网络的提出和快速发展，为图谱数据研究打开了一扇大门，其中GNN、GraphSage、GCN、GAT、R-GCN等方法相继被提出并使分类准确度进一步提升，它们在节点分类相关问题上的表现足以说明图神经网络在解决节点分类问题方面的有效性。但是目前此类方法还存在以下问题：(1)精度受限；(2)发生过拟合风险高，为了防止过拟合往往只能依赖有限甚至单跳邻居信息。

发明内容

本发明的目的是提供一种基于门控图注意力网络的论文分类模型构建方法及***。

为实现上述目的，本发明提供了如下方案：

一种基于门控图注意力网络的论文分类模型构建方法，包括：

构建基于门控图神经网络的分类模型，所述分类模型包括依次连接的若干层，层数大于等于2，其中，各层均包括一图神经网络结构以及一分类器，第一层中图神经网络结构和分类器直接连接，第t层中图神经网络结构和分类器之间通过门控结构连接，t为大于1的整数；

根据计算样本数据集中论文样本i与其邻居论文样本j各属性之间总的相关性β_ij，其中，V_k表示第k个属性A_k的权重，B(A_ki,A_kj)表示论文样本i的第k个属性与论文样本j的第k个属性的相关程度，B(,)为利用词袋模型计算词语之间的语义相关性程度的函数，K为属性的数量，N_i是论文样本i的邻居集合，所述属性包括出版社、作者、摘要中的一种或几种；

确定样本数据集中各论文样本i的特征矩阵其中，特征矩阵为基于单词数据集确定的论文样本i的0-1矩阵；

将各论文样本的特征矩阵输入所述分类模型，并以各论文样本的类型为标签对所述分类模型进行训练；其中，

第一层图神经网络结构根据或/>对论文样本i进行嵌入表示，其中，/>为第一层的嵌入式表示结果，e_ij表示论文样本i与论文样本j之间的重要性程度，W₁、W₂、W₃、U分别表示用于训练的权重矩阵，a表示一个由权重向量参数化的单层前馈神经网络，γ_ij表示e_ij进行的归一化处理后的结果，论文样本p为论文样本i的邻居论文样本，σ表示任意一将/>变换为/>的非线性函数，K表示在引入多头注意力时多头注意力的数量，k表示第k头注意力；

第t层图神经网络结构根据对论文样本i进行嵌入表示，其中，/>为第t层的嵌入式表示结果，/> 其中，W'、U'、W^r、U^r、W^z、U^z分别表示用于训练的权重矩阵。

可选的，所述论文样本的类型包括基于案例类型、遗传算法类型、神经网络类型、概率方法类型、强化学习类型、规则学习类型以及理论类型。

可选的，所述层数为3。

可选的，所述分类器用于计算样本论文在每个类别维度上的权重。

本发明还提供了一种基于门控图注意力网络的论文分类模型构建***，包括：

分类模型构建模块，用于构建基于门控图神经网络的分类模型，所述分类模型包括依次连接的若干层，层数大于等于2，其中，各层均包括一图神经网络结构以及一分类器，第一层中图神经网络结构和分类器直接连接，第t层中图神经网络结构和分类器之间通过门控结构连接，t为大于1的整数；

外部知识确定模块，用于根据计算样本数据集中论文样本i与其邻居论文样本j各属性之间总的相关性β_ij，其中，V_k表示第k个属性A_k的权重，B(A_ki,A_kj)表示论文样本i的第k个属性与论文样本j的第k个属性的相关程度，B(,)为利用词袋模型计算词语之间的语义相关性程度的函数，K为属性的数量，N_i是论文样本i的邻居集合，所述属性包括出版社、作者、摘要中的一种或几种；

特征矩阵确定模块，用于确定样本数据集中各论文样本i的特征矩阵其中，特征矩阵为基于单词数据集确定的论文样本i的0-1矩阵；

训练模块，用于将各论文样本的特征矩阵输入所述分类模型，并以各论文样本的类型为标签对所述分类模型进行训练；其中，第一层图神经网络结构根据或/>对论文样本i进行嵌入表示，其中，/>为第一层的嵌入式表示结果，/> e_ij表示论文样本i与论文样本j之间的重要性程度，W₁、W₂、W₃、U分别表示用于训练的权重矩阵，a表示一个由权重向量参数化的单层前馈神经网络，γ_ij表示e_ij进行的归一化处理后的结果，论文样本p为论文样本i的邻居论文样本，σ表示任意一将/>变换为/>的非线性函数，K表示在引入多头注意力时多头注意力的数量，k表示第k头注意力；第t层图神经网络结构根据/>对论文样本i进行嵌入表示，其中，/>为第t层的嵌入式表示结果，/> 其中，W'、U'、W^r、U^r、W^z、U^z分别表示用于训练的权重矩阵。

可选的，所述层数为3。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供的基于门控图注意力网络的论文分类模型构建方法及***，融合了论文自身特征和其属性特征，提升了分类的准确度；突破了主流图神经网络只能依赖短程信息的限制，通过门控机制，聚合远距离节点信息，在获得更多语义信息的同时，解决了梯度消失问题，进一步提升了分类的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的基于门控图注意力网络的论文分类模型构建方法的流程示意图；

图2为本发明实施例1中引文网络示意图；

图3为本发明实施例1中的分类模型一次训练迭代更新过程图；

图4为本发明实施例1中分类模型训练全流程图；

图5为本发明实施例2提供的基于门控图注意力网络的论文分类模型构建***的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

本发明提供的论文分类模型通过引入门控机制GRU聚合了图中远距离节点的特征。在充分分析GAT的基础上，引入了新的Attention机制：在节点更新的过程中引入门控机制GRU，它可对长远记忆进行选择和遗忘，我们称之为“层间注意力”，而类似于GAT的Attention机制称为“层内注意力”。引入GRU使得图结构语义信息得到充分地挖掘和利用。而且GRU能够很好地解决梯度消失问题，使分类结果更加准确和高效。另外，本发明提供的论文分类模型融合额外知识，在Attention机制的基础上融合了知识图谱额外知识：论文属性。将外部知识称为“知识注意力”，通过融合自身特征以及额外知识，可以聚合更多更有效的语义信息。

参见图1，本实施例提供的基于门控图注意力网络的论文分类模型构建方法包括以下步骤：

步骤101：构建基于门控图神经网络的分类模型，分类模型包括依次连接的若干层，层数大于等于2，优选为3层，其中，各层均包括一图神经网络结构以及一分类器，第一层中图神经网络结构和分类器直接连接，第t层中图神经网络结构和分类器之间通过门控结构连接，t为大于1的整数；

步骤102：根据计算样本数据集中论文样本i与其邻居论文样本j各属性之间总的相关性β_ij，其中，V_k表示第k个属性A_k的权重，B(A_ki,A_kj)表示论文样本i的第k个属性与论文样本j的第k个属性的相关程度，B(,)为利用词袋模型计算词语之间的语义相关性程度的函数，K为属性的数量，N_i是论文样本i的邻居集合，属性包括出版社、作者、摘要中的一种或几种；

步骤103：确定样本数据集中各论文样本i的特征矩阵其中，特征矩阵为基于单词数据集确定的论文样本i的0-1矩阵；

步骤104：将各论文样本的特征矩阵输入分类模型，并以各论文样本的类型为标签对分类模型进行训练；其中，第一层图神经网络结构根据或/>对论文样本i进行嵌入表示，其中，/>为第一层的嵌入式表示结果，/> e_ij表示论文样本i与论文样本j之间的重要性程度，W₁、W₂、W₃、U分别表示用于训练的权重矩阵，a表示一个由权重向量参数化的单层前馈神经网络，γ_ij表示e_ij进行的归一化处理后的结果，论文样本p为论文样本i的邻居论文样本，σ表示任意一将/>变换为的非线性函数，K表示在引入多头注意力时多头注意力的数量，k表示第k头注意力；第t层图神经网络结构根据/>对论文样本i进行嵌入表示，其中，/>为第t层的嵌入式表示结果，/> 其中，W'、U'、W^r、U^r、W^z、U^z分别表示用于训练的权重矩阵。

本实施例在构建论文分类模型前，首先基于样本数据集中的论文样本构建图网络，如图2，图中节点(圆点)为某篇论文，图中节点之间的关系(连线)为论文间的引用关系，每个节点即每篇论文(矩形框)都有其属性，包括出版社、摘要、作者等K个属性。该数据集将论文分成了七类：基于案例类型、遗传算法类型、神经网络类型、概率方法类型、强化学习类型、规则学习类型、理论类型。

步骤102提供的论文样本i及其所有邻居论文样本j的K个属性之间总的相关性计算公式即为“知识注意力”，其中，论文样本i是中心节点，论文样本j是论文样本i的某个邻居节点，N_i是论文样本i的邻居集合，即论文样本j的集合；K是属性的个数；A表示某个属性(比如“出版社”、“作者”、“摘要”)，A_ki表示论文样本i的第k个属性，V_k表示第k个属性A_k的权重，这是根据先验知识事先设置的：比如，假设只存在“出版社”、“作者”、“摘要”三个属性，则K＝3，在该论文分类任务下，我们认为“摘要”比“出版社”、“作者”更重要，那么我们设置A₀＝0.6,A₁＝0.2,A₂＝0.2，其中A₀表示“摘要”的权重，A₁表示“出版社”的权重，A₂表示“作者”的权重；B(,)函数是利用词袋模型(BOW,bagofwords)计算两两词语之间的语义相关性程度的模型，B(A_ki,A_kj)即计算中心节点i的属性A_k和邻居节点j的同个属性A_k之间的相关性，该值越大则说明该属性越重要，亦即两个节点越相似。

步骤103中的特征矩阵是样本论文i的表示，/>N是样本数量。特征矩阵e可视化为：

即该矩阵有N行D列，其中N为样本数量，即每一行表示一个节点(即一篇论文)；D为特征个数，该数据集有1433个特征，每个特征表示一个单词；矩阵中的0,1值表示：如果谋篇论文包含该单词则为1，否则为0。

步骤104将所有节点的初始表示e输入到模型中进行训练，第一层的节点表示如下：

将节点的初始表示e输入到分类模型的第一层，该层只计算“层内注意”。“层内注意”通过计算中心节点的所有一阶领域节点(包括节点自身特征γ_ij以及额外知识β_ij)的重要性的加权和，来聚合一阶领域信息，该层将会得到中心节点的所有一阶领域节点的重要性总和α_ij以及该中心节点的嵌入表示

α_ij＝U(γ_ij+β_ij) (3)

公式(1)只计算了中心节点的一阶领域信息，其中e_ij表示两个节点之间的重要性程度，是节点i和j的表示，W₁、W₂、W₃、U分别表示用于训练的权重矩阵，用于训练，a是一个由权重向量参数化的单层前馈神经网络。公式(2)中的γ_ij是对e_ij进行的归一化处理。公式(3)是对节点自身特征γ_ij和属性等额外知识β_ij进行了融合，即“知识注意力”。如果不加入多头注意力机制，该层的输出如公式(4)所示，σ是任意非线性函数，它将节点表示/>变成了/>公式(5)在公式(4)的基础上引入了多头注意力时的输出；公式(6)是公式(5)的变换，作为层最终输出表示，公式(5)和公式(6)中的K表示有K个头，即我们对该计算进行了K次，最终取平均，这就是多头注意力机制。

将第一层的输出输入到log_softmax分类器进行分类，将会得到第一层的分类结果h₁。log_softmax是通过计算每个维度的相对比重来进行分类的，该分类器把节点表示向量中各维度(论文类型)的值进行总体考虑，并输出一个维度数相同的向量(分类向量)，其各维度的值之和为1。分类向量中各维度的相对大小是和表示向量中的各维度的相对大小一致的，即表示向量中某一维度的值相对较大，则其分类向量中对应维度的值亦相对较大。

将第一层中产生的节点间的关系和第一层的分类结果输h₁入到第二层，该层同时计算“层间注意”和“层内注意”。“层内注意”如同第一层中的计算方式，得到初步节点表示，即公式(6)中的/>“层间注意”的计算由于引入了GRU门控机制(用于过滤信息)而不同。GRU会对过去的信息有选择性地进行遗忘，即使用门控机制控制输入、过去记忆等信息而在当前时间步做出预测(“层间注意”)，协同一阶领域信息(“层内注意”)一起传播。GRU定义了两个门：重置门(reset gate)和更新门(update gate)，从直观上来说，重置门决定了如何将新的输入信息与前面的记忆相结合，更新门定义了前面记忆保存到当前时间步的量(选择性遗忘)。计算过程如(7)-(12)，其中t为2：

其中公式(7)是初始化步骤，即第一层的表示，初始化为节点的初始状态e，即特征矩阵。公式(8)即第一层中“层内注意”的计算值的变换，得到第二层的/>(/>中的即第一层传递过来的/>)，表示节点和相邻节点通过关系相互作用的结果，用于GRU的计算。公式(9)中的/>是第二层的更新门，控制信息的遗忘；公式(10)中的/>是第二层的重置门，控制新信息的更新。公式(11)是当前层新产生的信息，/>即上一层输出的分类结果(即第一层传递过来的h₁)。W'、U'、W^z、W^r、U^z、U^r表示权重矩阵，用于训练，初始化时可相同可不同，训练过程自行优化。公式(12)中的/>选择遗忘哪些信息，/>选择记住哪些信息，/>即当前层输出(第二层)，即第二层输出的节点表示。

将第二层中的输入到log_softmax分类器进行分类，将会得到第二层的分类结果h₂。

第三层的计算原理与第二层一样。将第二层产生的和第二层的分类结果h₂输入到第三层，同样计算公式(6)-(11)，其中t为3，得到第三层的/>和输出(节点表示)/>将/>输入到log_softmax分类器进行分类，将会得到第二层的分类结果h₃。

本实施例中分类模型具有三层(当然在其他的实施例中，也可以为2层或大于3层)，第三层的分类结果h₃作为最终分类结果。分类器输出的分类向量的维度与分类类别数k相等，因此每一维度均对应节点的一种可能的分类；此外由于分类向量各维度的值之和为1，因此每一维度的值可对应于节点属于该分类的概率。假设log_softmax计算某个样本属于第一类的概率为属于第二类的概率为/>以此类推，第k类的概率为/>最后比较这些概率值，取概率值最大的维度所对应的类别作为该样本分类结果。log_softmax计算公式如下：

需要注意的是，以上所述的步骤104中的内容属于训练的一个迭代，取该迭代的最终分类结果h₃，将每一节点的分类结果与该节点的真实分类输入nll_loss损失函数，计算该节点的“分类损失”(即该节点的分类结果与其真实分类的相异程度)。从上述论述可知，事实上，计算出的“分类损失”会随模型中任意一个参数的变化而变化，因此该“分类损失”是模型中所有参数的函数。只需计算出“分类损失”对模型中所有参数的梯度，并循梯度下降规则(即朝着让分类损失降低的方向)更新模型中的所有参数，即完成了模型的一次“训练迭代”。一次迭代的过程如图3所示，每一次训练迭代，都将所有节点的“特征向量”输入网络，计算最后的分类损失并据此分类损失来更新所有参数，使模型的分类损失尽可能降低。进行多次训练迭代并持续地更新参数，称为“模型训练”。不停地进行模型训练、直到规定的训练迭代次数后，模型训练便会终止，全流程如图4所示。当模型训练终止后，可以将测试数据(即未被模型训练时用作参考的数据)输入模型，考察模型在测试数据上的分类性能，评估该模型的效果。

实施例2

参见图5，本实施例提供了一种基于门控图注意力网络的论文分类模型构建***，该***包括：

分类模型构建模块501，用于构建基于门控图神经网络的分类模型，分类模型包括依次连接的若干层，层数大于等于2，优选为3层，其中，各层均包括一图神经网络结构以及一分类器，第一层中图神经网络结构和分类器直接连接，第t层中图神经网络结构和分类器之间通过门控结构连接，t为大于1的整数；

外部知识确定模块502，用于根据计算样本数据集中论文样本i与其邻居论文样本j各属性之间总的相关性β_ij，其中，V_k表示第k个属性A_k的权重，B(A_ki,A_kj)表示论文样本i的第k个属性与论文样本j的第k个属性的相关程度，B(,)为利用词袋模型计算词语之间的语义相关性程度的函数，K为属性的数量，N_i是论文样本i的邻居集合，属性包括出版社、作者、摘要中的一种或几种；

特征矩阵确定模块503，用于确定样本数据集中各论文样本i的特征矩阵其中，特征矩阵为基于单词数据集确定的论文样本i的0-1矩阵；

训练模块504，用于将各论文样本的特征矩阵输入分类模型，并以各论文样本的类型为标签对分类模型进行训练；其中，第一层图神经网络结构根据或/>对论文样本i进行嵌入表示，其中，/>为第一层的嵌入式表示结果，/> e_ij表示论文样本i与论文样本j之间的重要性程度，W₁、W₂、W₃、U分别表示用于训练的权重矩阵，a表示一个由权重向量参数化的单层前馈神经网络，γ_ij表示e_ij进行的归一化处理后的结果，论文样本p为论文样本i的邻居论文样本，σ表示任意一将/>变换为/>的非线性函数，K表示在引入多头注意力时多头注意力的数量，k表示第k头注意力；第t层图神经网络结构根据/>对论文样本i进行嵌入表示，其中，/>为第t层的嵌入式表示结果，/> 其中，W'、U'、W^r、U^r、W^z、U^z分别表示用于训练的权重矩阵。

其中，论文样本的类型可以包括基于案例类型、遗传算法类型、神经网络类型、概率方法类型、强化学习类型、规则学习类型以及理论类型。分类器用于计算样本论文在每个类别维度上的权重。

本发明提供的基于门控图注意力网络的论文分类模型构建方法及***具有以下优势：

(1)通过引入门控机制GRU，能够严格地筛选并聚合远程节点的信息，增强图结构的语义信息，提升了分类模型的准确性；

(2)引入门控机制GRU，能够解决其他普通机器学习网络有可能发生的“梯度消失”问题，能够避免类似一些普通神经网络在特定数据集上学习过早收敛，导致最后学习效果不佳的问题；

(3)考虑了节点属性等额外知识，增强了节点之间的差异性，信息挖掘更加充分，提升了分类模型的准确性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于门控图注意力网络的论文分类模型构建方法，其特征在于，包括：

2.根据权利要求1所述的基于门控图注意力网络的论文分类模型构建方法，其特征在于，所述论文样本的类型包括基于案例类型、遗传算法类型、神经网络类型、概率方法类型、强化学习类型、规则学习类型以及理论类型。

3.根据权利要求1所述的基于门控图注意力网络的论文分类模型构建方法，其特征在于，所述层数为3。

4.根据权利要求1所述的基于门控图注意力网络的论文分类模型构建方法，其特征在于，所述分类器用于计算样本论文在每个类别维度上的权重。

5.一种基于门控图注意力网络的论文分类模型构建***，其特征在于，包括：

训练模块，用于将各论文样本的特征矩阵输入所述分类模型，并以各论文样本的类型为标签对所述分类模型进行训练；其中，第一层图神经网络结构根据或/>对论文样本i进行嵌入表示，其中，/>为第一层的嵌入式表示结果，/> e_ij表示论文样本i与论文样本j之间的重要性程度，W₁、W₂、W₃、U分别表示用于训练的权重矩阵，a表示一个由权重向量参数化的单层前馈神经网络，γ_ij表示e_ij进行的归一化处理后的结果，论文样本p为论文样本i的邻居论文样本，σ表示任意一将/>变换为/>的非线性函数，K表示在引入多头注意力时多头注意力的数量，k表示第k头注意力；第t层图神经网络结构根据/>对论文样本i进行嵌入表示，其中，/>为第t层的嵌入式表示结果，其中，W'、U'、W^r、U^r、W^z、U^z分别表示用于训练的权重矩阵。

6.根据权利要求5所述的基于门控图注意力网络的论文分类模型构建***，其特征在于，所述论文样本的类型包括基于案例类型、遗传算法类型、神经网络类型、概率方法类型、强化学习类型、规则学习类型以及理论类型。

7.根据权利要求5所述的基于门控图注意力网络的论文分类模型构建***，其特征在于，所述层数为3。

8.根据权利要求5所述的基于门控图注意力网络的论文分类模型构建***，其特征在于，所述分类器用于计算样本论文在每个类别维度上的权重。