CN112749757B - 基于门控图注意力网络的论文分类模型构建方法及*** - Google Patents
基于门控图注意力网络的论文分类模型构建方法及*** Download PDFInfo
- Publication number
- CN112749757B CN112749757B CN202110080195.5A CN202110080195A CN112749757B CN 112749757 B CN112749757 B CN 112749757B CN 202110080195 A CN202110080195 A CN 202110080195A CN 112749757 B CN112749757 B CN 112749757B
- Authority
- CN
- China
- Prior art keywords
- paper
- paper sample
- layer
- sample
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 55
- 238000010276 construction Methods 0.000 title claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 57
- 239000011159 matrix material Substances 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 28
- 239000010410 layer Substances 0.000 claims description 97
- 239000013598 vector Substances 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 239000002356 single layer Substances 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 6
- 230000002068 genetic effect Effects 0.000 claims description 6
- 230000002787 reinforcement Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 abstract description 13
- 230000008569 process Effects 0.000 abstract description 6
- 230000008034 disappearance Effects 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 description 6
- 239000011229 interlayer Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于门控图注意力网络的论文分类模型构建方法及***。该方法包括:构建基于门控图神经网络的分类模型,分类模型包括依次连接的若干层,其中,各层均包括一图神经网络结构以及一分类器,第一层中图神经网络结构和分类器直接连接,第t层中图神经网络结构和分类器之间通过门控结构连接,t为大于1的整数;确定样本数据集中各论文样本i的特征矩阵将各论文样本的特征矩阵输入分类模型,并以各论文样本的类型为标签对分类模型进行训练;训练过程中,融合了样本论文的属性,且通过门控机制,聚合远距离节点信息,在获得更多语义信息的同时,解决了梯度消失问题,提升了分类的准确度。
Description
技术领域
本发明涉及节点分类领域,特别是涉及一种基于门控图注意力网络的论文分类模型构建方法及***。
背景技术
大数据时代,对于引文网络中论文的分类,传统的分类方法有决策树、逻辑回归、支持向量机、随机森林等,但是和后面陆续提出的深度学习方法相比,准确度普遍不高。基于论文图谱数据中节点顺序的无规律性,传统深度学习方法在处理图谱数据时存在一定困难。但是图神经网络的提出和快速发展,为图谱数据研究打开了一扇大门,其中GNN、GraphSage、GCN、GAT、R-GCN等方法相继被提出并使分类准确度进一步提升,它们在节点分类相关问题上的表现足以说明图神经网络在解决节点分类问题方面的有效性。但是目前此类方法还存在以下问题:(1)精度受限;(2)发生过拟合风险高,为了防止过拟合往往只能依赖有限甚至单跳邻居信息。
发明内容
本发明的目的是提供一种基于门控图注意力网络的论文分类模型构建方法及***。
为实现上述目的,本发明提供了如下方案:
一种基于门控图注意力网络的论文分类模型构建方法,包括:
构建基于门控图神经网络的分类模型,所述分类模型包括依次连接的若干层,层数大于等于2,其中,各层均包括一图神经网络结构以及一分类器,第一层中图神经网络结构和分类器直接连接,第t层中图神经网络结构和分类器之间通过门控结构连接,t为大于1的整数;
根据计算样本数据集中论文样本i与其邻居论文样本j各属性之间总的相关性βij,其中,Vk表示第k个属性Ak的权重,B(Aki,Akj)表示论文样本i的第k个属性与论文样本j的第k个属性的相关程度,B(,)为利用词袋模型计算词语之间的语义相关性程度的函数,K为属性的数量,Ni是论文样本i的邻居集合,所述属性包括出版社、作者、摘要中的一种或几种;
确定样本数据集中各论文样本i的特征矩阵其中,特征矩阵为基于单词数据集确定的论文样本i的0-1矩阵;
将各论文样本的特征矩阵输入所述分类模型,并以各论文样本的类型为标签对所述分类模型进行训练;其中,
第一层图神经网络结构根据或/>对论文样本i进行嵌入表示,其中,/>为第一层的嵌入式表示结果,eij表示论文样本i与论文样本j之间的重要性程度,W1、W2、W3、U分别表示用于训练的权重矩阵,a表示一个由权重向量参数化的单层前馈神经网络,γij表示eij进行的归一化处理后的结果,论文样本p为论文样本i的邻居论文样本,σ表示任意一将/>变换为/>的非线性函数,K表示在引入多头注意力时多头注意力的数量,k表示第k头注意力;
第t层图神经网络结构根据对论文样本i进行嵌入表示,其中,/>为第t层的嵌入式表示结果,/> 其中,W'、U'、Wr、Ur、Wz、Uz分别表示用于训练的权重矩阵。
可选的,所述论文样本的类型包括基于案例类型、遗传算法类型、神经网络类型、概率方法类型、强化学习类型、规则学习类型以及理论类型。
可选的,所述层数为3。
可选的,所述分类器用于计算样本论文在每个类别维度上的权重。
本发明还提供了一种基于门控图注意力网络的论文分类模型构建***,包括:
分类模型构建模块,用于构建基于门控图神经网络的分类模型,所述分类模型包括依次连接的若干层,层数大于等于2,其中,各层均包括一图神经网络结构以及一分类器,第一层中图神经网络结构和分类器直接连接,第t层中图神经网络结构和分类器之间通过门控结构连接,t为大于1的整数;
外部知识确定模块,用于根据计算样本数据集中论文样本i与其邻居论文样本j各属性之间总的相关性βij,其中,Vk表示第k个属性Ak的权重,B(Aki,Akj)表示论文样本i的第k个属性与论文样本j的第k个属性的相关程度,B(,)为利用词袋模型计算词语之间的语义相关性程度的函数,K为属性的数量,Ni是论文样本i的邻居集合,所述属性包括出版社、作者、摘要中的一种或几种;
特征矩阵确定模块,用于确定样本数据集中各论文样本i的特征矩阵其中,特征矩阵为基于单词数据集确定的论文样本i的0-1矩阵;
训练模块,用于将各论文样本的特征矩阵输入所述分类模型,并以各论文样本的类型为标签对所述分类模型进行训练;其中,第一层图神经网络结构根据或/>对论文样本i进行嵌入表示,其中,/>为第一层的嵌入式表示结果,/> eij表示论文样本i与论文样本j之间的重要性程度,W1、W2、W3、U分别表示用于训练的权重矩阵,a表示一个由权重向量参数化的单层前馈神经网络,γij表示eij进行的归一化处理后的结果,论文样本p为论文样本i的邻居论文样本,σ表示任意一将/>变换为/>的非线性函数,K表示在引入多头注意力时多头注意力的数量,k表示第k头注意力;第t层图神经网络结构根据/>对论文样本i进行嵌入表示,其中,/>为第t层的嵌入式表示结果,/> 其中,W'、U'、Wr、Ur、Wz、Uz分别表示用于训练的权重矩阵。
可选的,所述论文样本的类型包括基于案例类型、遗传算法类型、神经网络类型、概率方法类型、强化学习类型、规则学习类型以及理论类型。
可选的,所述层数为3。
可选的,所述分类器用于计算样本论文在每个类别维度上的权重。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的基于门控图注意力网络的论文分类模型构建方法及***,融合了论文自身特征和其属性特征,提升了分类的准确度;突破了主流图神经网络只能依赖短程信息的限制,通过门控机制,聚合远距离节点信息,在获得更多语义信息的同时,解决了梯度消失问题,进一步提升了分类的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的基于门控图注意力网络的论文分类模型构建方法的流程示意图;
图2为本发明实施例1中引文网络示意图;
图3为本发明实施例1中的分类模型一次训练迭代更新过程图;
图4为本发明实施例1中分类模型训练全流程图;
图5为本发明实施例2提供的基于门控图注意力网络的论文分类模型构建***的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
本发明提供的论文分类模型通过引入门控机制GRU聚合了图中远距离节点的特征。在充分分析GAT的基础上,引入了新的Attention机制:在节点更新的过程中引入门控机制GRU,它可对长远记忆进行选择和遗忘,我们称之为“层间注意力”,而类似于GAT的Attention机制称为“层内注意力”。引入GRU使得图结构语义信息得到充分地挖掘和利用。而且GRU能够很好地解决梯度消失问题,使分类结果更加准确和高效。另外,本发明提供的论文分类模型融合额外知识,在Attention机制的基础上融合了知识图谱额外知识:论文属性。将外部知识称为“知识注意力”,通过融合自身特征以及额外知识,可以聚合更多更有效的语义信息。
参见图1,本实施例提供的基于门控图注意力网络的论文分类模型构建方法包括以下步骤:
步骤101:构建基于门控图神经网络的分类模型,分类模型包括依次连接的若干层,层数大于等于2,优选为3层,其中,各层均包括一图神经网络结构以及一分类器,第一层中图神经网络结构和分类器直接连接,第t层中图神经网络结构和分类器之间通过门控结构连接,t为大于1的整数;
步骤102:根据计算样本数据集中论文样本i与其邻居论文样本j各属性之间总的相关性βij,其中,Vk表示第k个属性Ak的权重,B(Aki,Akj)表示论文样本i的第k个属性与论文样本j的第k个属性的相关程度,B(,)为利用词袋模型计算词语之间的语义相关性程度的函数,K为属性的数量,Ni是论文样本i的邻居集合,属性包括出版社、作者、摘要中的一种或几种;
步骤103:确定样本数据集中各论文样本i的特征矩阵其中,特征矩阵为基于单词数据集确定的论文样本i的0-1矩阵;
步骤104:将各论文样本的特征矩阵输入分类模型,并以各论文样本的类型为标签对分类模型进行训练;其中,第一层图神经网络结构根据或/>对论文样本i进行嵌入表示,其中,/>为第一层的嵌入式表示结果,/> eij表示论文样本i与论文样本j之间的重要性程度,W1、W2、W3、U分别表示用于训练的权重矩阵,a表示一个由权重向量参数化的单层前馈神经网络,γij表示eij进行的归一化处理后的结果,论文样本p为论文样本i的邻居论文样本,σ表示任意一将/>变换为的非线性函数,K表示在引入多头注意力时多头注意力的数量,k表示第k头注意力;第t层图神经网络结构根据/>对论文样本i进行嵌入表示,其中,/>为第t层的嵌入式表示结果,/> 其中,W'、U'、Wr、Ur、Wz、Uz分别表示用于训练的权重矩阵。
本实施例在构建论文分类模型前,首先基于样本数据集中的论文样本构建图网络,如图2,图中节点(圆点)为某篇论文,图中节点之间的关系(连线)为论文间的引用关系,每个节点即每篇论文(矩形框)都有其属性,包括出版社、摘要、作者等K个属性。该数据集将论文分成了七类:基于案例类型、遗传算法类型、神经网络类型、概率方法类型、强化学习类型、规则学习类型、理论类型。
步骤102提供的论文样本i及其所有邻居论文样本j的K个属性之间总的相关性计算公式即为“知识注意力”,其中,论文样本i是中心节点,论文样本j是论文样本i的某个邻居节点,Ni是论文样本i的邻居集合,即论文样本j的集合;K是属性的个数;A表示某个属性(比如“出版社”、“作者”、“摘要”),Aki表示论文样本i的第k个属性,Vk表示第k个属性Ak的权重,这是根据先验知识事先设置的:比如,假设只存在“出版社”、“作者”、“摘要”三个属性,则K=3,在该论文分类任务下,我们认为“摘要”比“出版社”、“作者”更重要,那么我们设置A0=0.6,A1=0.2,A2=0.2,其中A0表示“摘要”的权重,A1表示“出版社”的权重,A2表示“作者”的权重;B(,)函数是利用词袋模型(BOW,bagofwords)计算两两词语之间的语义相关性程度的模型,B(Aki,Akj)即计算中心节点i的属性Ak和邻居节点j的同个属性Ak之间的相关性,该值越大则说明该属性越重要,亦即两个节点越相似。
步骤103中的特征矩阵 是样本论文i的表示,/>N是样本数量。特征矩阵e可视化为:
即该矩阵有N行D列,其中N为样本数量,即每一行表示一个节点(即一篇论文);D为特征个数,该数据集有1433个特征,每个特征表示一个单词;矩阵中的0,1值表示:如果谋篇论文包含该单词则为1,否则为0。
步骤104将所有节点的初始表示e输入到模型中进行训练,第一层的节点表示如下:
将节点的初始表示e输入到分类模型的第一层,该层只计算“层内注意”。“层内注意”通过计算中心节点的所有一阶领域节点(包括节点自身特征γij以及额外知识βij)的重要性的加权和,来聚合一阶领域信息,该层将会得到中心节点的所有一阶领域节点的重要性总和αij以及该中心节点的嵌入表示
αij=U(γij+βij) (3)
公式(1)只计算了中心节点的一阶领域信息,其中eij表示两个节点之间的重要性程度,是节点i和j的表示,W1、W2、W3、U分别表示用于训练的权重矩阵,用于训练,a是一个由权重向量参数化的单层前馈神经网络。公式(2)中的γij是对eij进行的归一化处理。公式(3)是对节点自身特征γij和属性等额外知识βij进行了融合,即“知识注意力”。如果不加入多头注意力机制,该层的输出如公式(4)所示,σ是任意非线性函数,它将节点表示/>变成了/>公式(5)在公式(4)的基础上引入了多头注意力时的输出;公式(6)是公式(5)的变换,作为层最终输出表示,公式(5)和公式(6)中的K表示有K个头,即我们对该计算进行了K次,最终取平均,这就是多头注意力机制。
将第一层的输出输入到log_softmax分类器进行分类,将会得到第一层的分类结果h1。log_softmax是通过计算每个维度的相对比重来进行分类的,该分类器把节点表示向量中各维度(论文类型)的值进行总体考虑,并输出一个维度数相同的向量(分类向量),其各维度的值之和为1。分类向量中各维度的相对大小是和表示向量中的各维度的相对大小一致的,即表示向量中某一维度的值相对较大,则其分类向量中对应维度的值亦相对较大。
将第一层中产生的节点间的关系和第一层的分类结果输h1入到第二层,该层同时计算“层间注意”和“层内注意”。“层内注意”如同第一层中的计算方式,得到初步节点表示,即公式(6)中的/>“层间注意”的计算由于引入了GRU门控机制(用于过滤信息)而不同。GRU会对过去的信息有选择性地进行遗忘,即使用门控机制控制输入、过去记忆等信息而在当前时间步做出预测(“层间注意”),协同一阶领域信息(“层内注意”)一起传播。GRU定义了两个门:重置门(reset gate)和更新门(update gate),从直观上来说,重置门决定了如何将新的输入信息与前面的记忆相结合,更新门定义了前面记忆保存到当前时间步的量(选择性遗忘)。计算过程如(7)-(12),其中t为2:
其中公式(7)是初始化步骤,即第一层的表示,初始化为节点的初始状态e,即特征矩阵。公式(8)即第一层中“层内注意”的计算值的变换,得到第二层的/>(/>中的即第一层传递过来的/>),表示节点和相邻节点通过关系相互作用的结果,用于GRU的计算。公式(9)中的/>是第二层的更新门,控制信息的遗忘;公式(10)中的/>是第二层的重置门,控制新信息的更新。公式(11)是当前层新产生的信息,/>即上一层输出的分类结果(即第一层传递过来的h1)。W'、U'、Wz、Wr、Uz、Ur表示权重矩阵,用于训练,初始化时可相同可不同,训练过程自行优化。公式(12)中的/>选择遗忘哪些信息,/>选择记住哪些信息,/>即当前层输出(第二层),即第二层输出的节点表示。
将第二层中的输入到log_softmax分类器进行分类,将会得到第二层的分类结果h2。
第三层的计算原理与第二层一样。将第二层产生的和第二层的分类结果h2输入到第三层,同样计算公式(6)-(11),其中t为3,得到第三层的/>和输出(节点表示)/>将/>输入到log_softmax分类器进行分类,将会得到第二层的分类结果h3。
本实施例中分类模型具有三层(当然在其他的实施例中,也可以为2层或大于3层),第三层的分类结果h3作为最终分类结果。分类器输出的分类向量的维度与分类类别数k相等,因此每一维度均对应节点的一种可能的分类;此外由于分类向量各维度的值之和为1,因此每一维度的值可对应于节点属于该分类的概率。假设log_softmax计算某个样本属于第一类的概率为属于第二类的概率为/>以此类推,第k类的概率为/>最后比较这些概率值,取概率值最大的维度所对应的类别作为该样本分类结果。log_softmax计算公式如下:
需要注意的是,以上所述的步骤104中的内容属于训练的一个迭代,取该迭代的最终分类结果h3,将每一节点的分类结果与该节点的真实分类输入nll_loss损失函数,计算该节点的“分类损失”(即该节点的分类结果与其真实分类的相异程度)。从上述论述可知,事实上,计算出的“分类损失”会随模型中任意一个参数的变化而变化,因此该“分类损失”是模型中所有参数的函数。只需计算出“分类损失”对模型中所有参数的梯度,并循梯度下降规则(即朝着让分类损失降低的方向)更新模型中的所有参数,即完成了模型的一次“训练迭代”。一次迭代的过程如图3所示,每一次训练迭代,都将所有节点的“特征向量”输入网络,计算最后的分类损失并据此分类损失来更新所有参数,使模型的分类损失尽可能降低。进行多次训练迭代并持续地更新参数,称为“模型训练”。不停地进行模型训练、直到规定的训练迭代次数后,模型训练便会终止,全流程如图4所示。当模型训练终止后,可以将测试数据(即未被模型训练时用作参考的数据)输入模型,考察模型在测试数据上的分类性能,评估该模型的效果。
实施例2
参见图5,本实施例提供了一种基于门控图注意力网络的论文分类模型构建***,该***包括:
分类模型构建模块501,用于构建基于门控图神经网络的分类模型,分类模型包括依次连接的若干层,层数大于等于2,优选为3层,其中,各层均包括一图神经网络结构以及一分类器,第一层中图神经网络结构和分类器直接连接,第t层中图神经网络结构和分类器之间通过门控结构连接,t为大于1的整数;
外部知识确定模块502,用于根据计算样本数据集中论文样本i与其邻居论文样本j各属性之间总的相关性βij,其中,Vk表示第k个属性Ak的权重,B(Aki,Akj)表示论文样本i的第k个属性与论文样本j的第k个属性的相关程度,B(,)为利用词袋模型计算词语之间的语义相关性程度的函数,K为属性的数量,Ni是论文样本i的邻居集合,属性包括出版社、作者、摘要中的一种或几种;
特征矩阵确定模块503,用于确定样本数据集中各论文样本i的特征矩阵其中,特征矩阵为基于单词数据集确定的论文样本i的0-1矩阵;
训练模块504,用于将各论文样本的特征矩阵输入分类模型,并以各论文样本的类型为标签对分类模型进行训练;其中,第一层图神经网络结构根据或/>对论文样本i进行嵌入表示,其中,/>为第一层的嵌入式表示结果,/> eij表示论文样本i与论文样本j之间的重要性程度,W1、W2、W3、U分别表示用于训练的权重矩阵,a表示一个由权重向量参数化的单层前馈神经网络,γij表示eij进行的归一化处理后的结果,论文样本p为论文样本i的邻居论文样本,σ表示任意一将/>变换为/>的非线性函数,K表示在引入多头注意力时多头注意力的数量,k表示第k头注意力;第t层图神经网络结构根据/>对论文样本i进行嵌入表示,其中,/>为第t层的嵌入式表示结果,/> 其中,W'、U'、Wr、Ur、Wz、Uz分别表示用于训练的权重矩阵。
其中,论文样本的类型可以包括基于案例类型、遗传算法类型、神经网络类型、概率方法类型、强化学习类型、规则学习类型以及理论类型。分类器用于计算样本论文在每个类别维度上的权重。
本发明提供的基于门控图注意力网络的论文分类模型构建方法及***具有以下优势:
(1)通过引入门控机制GRU,能够严格地筛选并聚合远程节点的信息,增强图结构的语义信息,提升了分类模型的准确性;
(2)引入门控机制GRU,能够解决其他普通机器学习网络有可能发生的“梯度消失”问题,能够避免类似一些普通神经网络在特定数据集上学习过早收敛,导致最后学习效果不佳的问题;
(3)考虑了节点属性等额外知识,增强了节点之间的差异性,信息挖掘更加充分,提升了分类模型的准确性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种基于门控图注意力网络的论文分类模型构建方法,其特征在于,包括:
构建基于门控图神经网络的分类模型,所述分类模型包括依次连接的若干层,层数大于等于2,其中,各层均包括一图神经网络结构以及一分类器,第一层中图神经网络结构和分类器直接连接,第t层中图神经网络结构和分类器之间通过门控结构连接,t为大于1的整数;
根据计算样本数据集中论文样本i与其邻居论文样本j各属性之间总的相关性βij,其中,Vk表示第k个属性Ak的权重,B(Aki,Akj)表示论文样本i的第k个属性与论文样本j的第k个属性的相关程度,B(,)为利用词袋模型计算词语之间的语义相关性程度的函数,K为属性的数量,Ni是论文样本i的邻居集合,所述属性包括出版社、作者、摘要中的一种或几种;
确定样本数据集中各论文样本i的特征矩阵其中,特征矩阵为基于单词数据集确定的论文样本i的0-1矩阵;
将各论文样本的特征矩阵输入所述分类模型,并以各论文样本的类型为标签对所述分类模型进行训练;其中,
第一层图神经网络结构根据或/>对论文样本i进行嵌入表示,其中,/>为第一层的嵌入式表示结果,eij表示论文样本i与论文样本j之间的重要性程度,W1、W2、W3、U分别表示用于训练的权重矩阵,a表示一个由权重向量参数化的单层前馈神经网络,γij表示eij进行的归一化处理后的结果,论文样本p为论文样本i的邻居论文样本,σ表示任意一将/>变换为/>的非线性函数,K表示在引入多头注意力时多头注意力的数量,k表示第k头注意力;
第t层图神经网络结构根据对论文样本i进行嵌入表示,其中,/>为第t层的嵌入式表示结果,/> 其中,W'、U'、Wr、Ur、Wz、Uz分别表示用于训练的权重矩阵。
2.根据权利要求1所述的基于门控图注意力网络的论文分类模型构建方法,其特征在于,所述论文样本的类型包括基于案例类型、遗传算法类型、神经网络类型、概率方法类型、强化学习类型、规则学习类型以及理论类型。
3.根据权利要求1所述的基于门控图注意力网络的论文分类模型构建方法,其特征在于,所述层数为3。
4.根据权利要求1所述的基于门控图注意力网络的论文分类模型构建方法,其特征在于,所述分类器用于计算样本论文在每个类别维度上的权重。
5.一种基于门控图注意力网络的论文分类模型构建***,其特征在于,包括:
分类模型构建模块,用于构建基于门控图神经网络的分类模型,所述分类模型包括依次连接的若干层,层数大于等于2,其中,各层均包括一图神经网络结构以及一分类器,第一层中图神经网络结构和分类器直接连接,第t层中图神经网络结构和分类器之间通过门控结构连接,t为大于1的整数;
外部知识确定模块,用于根据计算样本数据集中论文样本i与其邻居论文样本j各属性之间总的相关性βij,其中,Vk表示第k个属性Ak的权重,B(Aki,Akj)表示论文样本i的第k个属性与论文样本j的第k个属性的相关程度,B(,)为利用词袋模型计算词语之间的语义相关性程度的函数,K为属性的数量,Ni是论文样本i的邻居集合,所述属性包括出版社、作者、摘要中的一种或几种;
特征矩阵确定模块,用于确定样本数据集中各论文样本i的特征矩阵其中,特征矩阵为基于单词数据集确定的论文样本i的0-1矩阵;
训练模块,用于将各论文样本的特征矩阵输入所述分类模型,并以各论文样本的类型为标签对所述分类模型进行训练;其中,第一层图神经网络结构根据或/>对论文样本i进行嵌入表示,其中,/>为第一层的嵌入式表示结果,/> eij表示论文样本i与论文样本j之间的重要性程度,W1、W2、W3、U分别表示用于训练的权重矩阵,a表示一个由权重向量参数化的单层前馈神经网络,γij表示eij进行的归一化处理后的结果,论文样本p为论文样本i的邻居论文样本,σ表示任意一将/>变换为/>的非线性函数,K表示在引入多头注意力时多头注意力的数量,k表示第k头注意力;第t层图神经网络结构根据/>对论文样本i进行嵌入表示,其中,/>为第t层的嵌入式表示结果, 其中,W'、U'、Wr、Ur、Wz、Uz分别表示用于训练的权重矩阵。
6.根据权利要求5所述的基于门控图注意力网络的论文分类模型构建***,其特征在于,所述论文样本的类型包括基于案例类型、遗传算法类型、神经网络类型、概率方法类型、强化学习类型、规则学习类型以及理论类型。
7.根据权利要求5所述的基于门控图注意力网络的论文分类模型构建***,其特征在于,所述层数为3。
8.根据权利要求5所述的基于门控图注意力网络的论文分类模型构建***,其特征在于,所述分类器用于计算样本论文在每个类别维度上的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110080195.5A CN112749757B (zh) | 2021-01-21 | 2021-01-21 | 基于门控图注意力网络的论文分类模型构建方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110080195.5A CN112749757B (zh) | 2021-01-21 | 2021-01-21 | 基于门控图注意力网络的论文分类模型构建方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749757A CN112749757A (zh) | 2021-05-04 |
CN112749757B true CN112749757B (zh) | 2023-09-12 |
Family
ID=75652783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110080195.5A Active CN112749757B (zh) | 2021-01-21 | 2021-01-21 | 基于门控图注意力网络的论文分类模型构建方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749757B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139128B (zh) * | 2021-05-07 | 2024-03-01 | 厦门大学 | 一种基于图卷积神经网络的博文推荐方法及*** |
CN113377422B (zh) * | 2021-06-09 | 2024-04-05 | 大连海事大学 | 一种基于深度学习识别自我承认技术债务方法 |
CN113449204B (zh) * | 2021-07-13 | 2022-09-09 | 中国人民解放军国防科技大学 | 基于局部聚合图注意力网络的社会事件分类方法、装置 |
CN114741519A (zh) * | 2022-02-18 | 2022-07-12 | 北京邮电大学 | 一种基于图卷积神经网络和知识库的论文相关性分析方法 |
CN115545098B (zh) * | 2022-09-23 | 2023-09-08 | 青海师范大学 | 一种基于注意力机制的三通道图神经网络的节点分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413791A (zh) * | 2019-08-05 | 2019-11-05 | 哈尔滨工业大学 | 基于cnn-svm-knn组合模型的文本分类方法 |
CN111737535A (zh) * | 2020-06-22 | 2020-10-02 | 复旦大学 | 一种基于元结构和图神经网络的网络表征学习方法 |
CN111985245A (zh) * | 2020-08-21 | 2020-11-24 | 江南大学 | 基于注意力循环门控图卷积网络的关系提取方法及*** |
CN112148876A (zh) * | 2020-09-23 | 2020-12-29 | 南京大学 | 一种论文分类和推荐方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8126826B2 (en) * | 2007-09-21 | 2012-02-28 | Noblis, Inc. | Method and system for active learning screening process with dynamic information modeling |
US11676043B2 (en) * | 2019-03-04 | 2023-06-13 | International Business Machines Corporation | Optimizing hierarchical classification with adaptive node collapses |
-
2021
- 2021-01-21 CN CN202110080195.5A patent/CN112749757B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413791A (zh) * | 2019-08-05 | 2019-11-05 | 哈尔滨工业大学 | 基于cnn-svm-knn组合模型的文本分类方法 |
CN111737535A (zh) * | 2020-06-22 | 2020-10-02 | 复旦大学 | 一种基于元结构和图神经网络的网络表征学习方法 |
CN111985245A (zh) * | 2020-08-21 | 2020-11-24 | 江南大学 | 基于注意力循环门控图卷积网络的关系提取方法及*** |
CN112148876A (zh) * | 2020-09-23 | 2020-12-29 | 南京大学 | 一种论文分类和推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112749757A (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112749757B (zh) | 基于门控图注意力网络的论文分类模型构建方法及*** | |
CN111784081B (zh) | 一种采用知识图谱嵌入和时间卷积网络的社交网络链路预测方法 | |
CN113053115B (zh) | 一种基于多尺度图卷积网络模型的交通预测方法 | |
CN112507699B (zh) | 一种基于图卷积网络的远程监督关系抽取方法 | |
CN107578061A (zh) | 基于最小化损失学***衡样本分类方法 | |
CN112100485B (zh) | 一种基于评论的评分预测物品推荐方法及*** | |
CN113344615B (zh) | 一种基于gbdt和dl融合模型的营销活动预测方法 | |
CN111340493A (zh) | 一种多维度分布式异常交易行为检测方法 | |
CN113255844B (zh) | 基于图卷积神经网络交互的推荐方法及*** | |
CN109886389B (zh) | 一种基于Highway和DC的新型双向LSTM神经网络构建方法 | |
CN110990718A (zh) | 一种公司形象提升***的社会网络模型构建模块 | |
CN109583659A (zh) | 基于深度学习的用户操作行为预测方法和*** | |
CN114925205B (zh) | 基于对比学习的gcn-gru文本分类方法 | |
CN110580213A (zh) | 一种基于循环标记时间点过程的数据库异常检测方法 | |
CN110309907A (zh) | 一种基于去跟踪自编码器的动态缺失值填补方法 | |
CN113361279A (zh) | 一种基于双邻域图神经网络的医疗实体对齐方法及*** | |
CN110830291B (zh) | 一种基于元路径的异质信息网络的节点分类方法 | |
CN110289987B (zh) | 基于表征学习的多智能体***网络抗攻击能力评估方法 | |
CN114818682A (zh) | 基于自适应实体路径感知的文档级实体关系抽取方法 | |
CN115545210A (zh) | 量子计算的方法和相关装置 | |
CN113128667A (zh) | 一种跨域自适应的图卷积平衡迁移学习方法与*** | |
Gao et al. | Controlling the trapping efficiency in a family of scale-free tree networks | |
CN115734274A (zh) | 一种基于深度学习和知识图谱的蜂窝网络故障诊断方法 | |
CN113988083B (zh) | 一种用于航运新闻摘要生成的事实性信息编码与评估方法 | |
CN114861450A (zh) | 基于潜在表示和图正则非负矩阵分解的属性社区检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |