WO2023155508A1

WO2023155508A1 - 一种基于图卷积神经网络和知识库的论文相关性分析方法

Info

Publication number: WO2023155508A1
Application number: PCT/CN2022/131993
Authority: WO
Inventors: 吴岳辛; 范春晓; 邹俊伟; 王艺潼; 刘峻辰
Original assignee: 北京邮电大学
Priority date: 2022-02-18
Filing date: 2022-11-15
Publication date: 2023-08-24
Also published as: CN114741519A

Abstract

一种新的论文相关性分析方法：在论文集中提取关键信息，构建论文集知识库，结合图卷积神经网络，提出改进的Inception-GCN模型完成论文类别划分，使用NOCO模型完成论文社区发现，进而完成论文集知识库中论文的相关性分析。以及一个新的图节点分类模型：Inception-GCN模型。将原本用于CNN模型的Inception方法与GCN模型结合，能够使新模型在增强特征学***滑问题。通过实验表明，将该模型用于论文节点分类，可以达到比现有技术更好的效果。

Description

一种基于图卷积神经网络和知识库的论文相关性分析方法

技术领域

本申请涉及计算机技术处理领域，尤其涉及一种基于图卷积神经网络和知识库的论文相关性分析方法。

背景技术

21世纪，学术研究成果的不断涌现体现了时代的进步和科技的发展，但同时对大量成果的存储、分析、管理工作也是十分费力的。近年来，各领域内论文数量剧增，创新点多样；而人们针对特定领域、任务相关的论文查阅、统计需求却愈发强烈，这给论文分析技术带来了不小的挑战。

在对论文进行相关性分析时，最重要的两个子任务是论文的类别划分和论文社区发现。论文类别划分是将文献按照研究领域和研究任务进行划分，给论文集知识库中的论文实体添加类别标签。这种划分有着预先确定好的类别，类别之间不存在交集。而论文社区发现是指将文献划分到一个个“社区”中，给论文集知识库的论文实体添加社区标签。所谓“社区”就是带有标签的论文集合，集合内部联系较为紧密，同集合外部联系较为稀疏。不同于论文类别划分，社区发现没有预先确定好的标签，“社区”之间可能有重叠。

本发明以上述两个子任务为落脚点，提出了一种新的论文相关性分析方法：在论文集中提取关键信息，构建知识库，结合图卷积神经网络，提出改进的Inception-GCN模型完成论文类别划分，使用NOCO模型完成论文社区发现，进而完成论文集中论文的相关性分析。

相关关键技术

知识库：

知识库是用于描述物理世界中概念及其相互关系的，在计算机中存储、组织、管理和使用的知识集合。知识以“实体-关系-实体”或者“实体-属性-属性值”的形式表达，知识库便是这样三元组的

集合。由于实体间通过关系相互连接，所以知识库是一个复杂的网状知识结构，能够更加贴切的描述、存储、管理错综复杂的知识体系，满足后续的分析需求。

图卷积神经网络：

图卷积神经网络(Graph Convolution Network)是一种基于卷积神经网络变量的图数据半监督学习的可扩展方法，是一种无随机游走的深度学习图嵌入方法。图数据不同于传统的序列、图像，是无限维的非欧氏空间数据。图上有大小可变的无序节点，每个节点都有不同数量的相邻节点。图数据的复杂性使得现有的深度学习方法在处理时面临着巨大的挑战。图卷积神经网络将卷积运算从传统数据推广到图数据上，本质上同卷积神经网络一样，是一个特征提取器。它是很多复杂图神经网络模型的基础，我们可以利用GCN提取出的特征对图数据进行节点分类(node classification)、图分类(graph classification)、边预测(link prediction)等下游工作。

与本发明技术方案相关的现有技术一

与本发明技术方案相关的现有技术其中之一，如附图1所示出的，是基于论文间引用关系的学术大数据分析方法[谈兆炜,刘长风,周劲光,等.基于论文间引用关系的学术大数据分析方法:,CN105808729B[P].2019.]。该发明提供了一种基于论文间引用关系的学术大数据分析方法，实现过程包括以下三个步骤：(1)对本地的论文数据集进行相关性分析和处理后在数据库中构建论文引用网络；(2)根据论文引用网络中的引用关系构建分析算法，通过该分析算法获得所述论文引用网络中节点的重要性及相互关系并获得论文相对于中心论文的重要度；(3)将论文一对一的引用关系转化为引用方向的映射集和被引用方向的映射集，在所述论文引用网络中通过提取算法获得指定论文间的发展路径，并按照(2)中获得的论文重要度来计算路径的重要度。

现有技术一的缺点

论文之间的引用关系的确对论文的相关性分析起着至关重要的作用，但是仅考虑到论文之间的引用关系是远远不够的。论文集的规模是非常庞大的，有很多研究领域或研究任务非常相似的论文之间并不存在直接或者间接的引用关系。仅考虑引用关系会丢失相关性信息。本发明技术方案不仅考虑到了引用关系，还考虑到了论文间的作者关系、共同存在的专业术语关系、论文类别属性、论文社区属性等。能够从多个维度保留论文信息，分析相关性。

与本发明相关的现有技术二

现有技术二的技术方案

另一个与本发明技术方案相关的现有技术，如附图2所示出的，是一种基于门控图注意力网络的论文分类模型构建方法[王美红,邱淋灵,李涵,等.基于门控图注意力网络的论文分类模型构建方法及***:.]。该发明技术提出的论文分类模型包括依次连接的若干层。其中，各层均包括一图神经网络结构以及一分类器，第一层中图神经网络结构和分类器直接连接，第t层中图神经网络结构和分类器之间通过门控结构连接，t为大于1的整数；确定样本数据集中各论文样本i的特征矩阵将各论文样本的特征矩阵输入分类模型，并以各论文样本的类型为标签对分类模型进行训练。

现有技术二的缺点

该发明技术方案提出的论文分类模型在图注意力网络的基础上引入了门控机制，聚合远距离节点信息，能够在一定程度上提升分类的准确度。但由于模型参与训练的参数量非常庞大，对数据集有很高的要求，训练困难且易出现过拟合问题。

发明内容

本发明的发明目的是提供一种新的基于图卷积神经网络和知识库的论文相关性分析方法。首先，在论文集中提取关键性息，构建论文知识库；然后将论文集的类别划分问题转化成知识库中的节点分类问题，结合图卷积神经网络提出改进的Inception-GCN模型在构建好的知识库上完成论文类别划分工作，将得到的类别属性添加到知识库的论文实体中；最终使用基于图卷积神经网络的NOCO模型完成论文集的社区发现，将得到的社区属性添加到知识库的论文实体中。

为实现本发明的发明目的，本发明提供的技术方案是：

一种基于图卷积神经网络和知识库的论文相关性分析方法，包括以下步骤：

步骤一)，在论文集中提取关键性息，构建论文集知识库；

步骤二)，论文类别划分，将论文集的文献按照内容和涉及的方向进行划分，结合图卷积神经网络提出改进的Inception-GCN模型在构建好的论文集知识库上完成论文类别划分工作，将得到的类别属性添加到论文集知识库的论文实体中，具体包括；

步骤2.1)，利用外部知识对论文集进行部分类别标注；

步骤2.2)，结合图卷积神经网络提出改进的Inception-GCN模型半监督分类算法对未标注论文进行分类；

步骤2.3)，在构建好的论文集知识库上完成论文类别划分工作，将得到的类别属性添加到论文集知识库的论文实体中；

步骤三)，使用基于图卷积神经网络的NOCO模型完成论文集的社区发现，将得到的社区属性添加到论文集知识库的论文实体中。

优选地，所述的步骤一)中，所述的论文集知识库中包含论文间的引用关系、论文与作者的著作关系、论文与专业术语的包含关系三种非线性关系。

优选地，所述的专业术语为通过部分人工标注结合命名实体识别方法得到的。

优选地，所述的命名实体识别方法为SpaCy命名实体识别方法、NLTK命名实体识别方法或Stanford NER命名实体识别方法中的一种。

优选地，所述的改进的Inception-GCN模型半监督分类算法吸纳执行多个具有不同感知域的卷积，并将不同滤波器的深度切片拼接到同一层中，从而将结果合并，具体步骤为：

记感知域为R的简单串联而成的图卷积网络为h _R(X，A)

其中，第一层的激活函数为ReLU，第二层的激活函数为softmax，X为初始的图上节点的特征矩阵，A为邻接矩阵，W(l)是每层独有的权重矩阵，即要训练的矩阵，(l)表示这是第几层的矩阵；

合并后Inception-GCN：

其中∪ _{R＝1，2，3}h _R(...，A)表示接收相同输入的R个并行额分支，各分支输出的拼接作为总体输出。

优选地，所述的步骤三)中还包括：将论文集中的论文分区任务转化成图知识库上的社区发现任务，其具体步骤为：

步骤3.1)，利用伯努利-泊松模型对图结构进行建模，利用各节点的社区归属向量作为参数生成概率分布，作为节点邻接矩阵上的值；

步骤3.2)，利用图卷积神经网络模型对表示节点的社区归属向量和图上节点的邻接矩阵以及属性向量进行建模，生成社区从属矩阵；

步骤3.3)，根据社区从属矩阵，为每个节点输出从属关系向量，将社区属性添加到论文实体。

优选地，所述的步骤3.1)中，所述的参数生成概率分布的生成方式为，

当给出从属关系

时，邻接矩阵各项A _uv为按这个式子的独立同分布采样：Auv～Bernoulli(1-exp(-F _uF _v ^T))，这个分布上参数F的对数似然函数为：

经过平衡参数权重，即按照图上节点间是否相关，进行加权处理，得所用的损失函数为；

其中，F _(l)为表示了节点l的社区从属关系的行向量，即的矩阵F的第l行。

优选地，所述的步骤3.2)中，

所述的图卷积神经网络模型采用两层图卷积神经网络，公式为：

其中每一层都是用ReLU作为激活函数，减少运算量，X表述输入，

表示图带有自边的临界矩阵，W(l)是每层独有的权重矩阵，这也就是要训练的矩阵，(l)表示这是第几层的矩阵；

通过寻找合适的神经网络参数θ，得到最终的从属矩阵F：

本发明的有益效果是：

本发明有效解决现有技术存在的如下技术问题：

(1)论文之间的非线性关系提取单一。

现有技术普遍仅的采用了论文之间的引用关系或作者关系，很多研究领域相同、研究问题相似的论文之间并不直接或间接存在上述两种关系，因此现有技术普遍丢失了很多论文间相关性信息。本发明技术方案在构建论文知识库的时候，不仅采用了上述论文之间的引用和作者关系，还增加“专业术语”实体，并将“论文”实体和“专业术语”实体之间的非线性关系添加到知识库中。专业术语是通过部分人工标注结合命名实体识别方法得到的，能够极大程度上提取论文中的领域、技术相关的关键内容。这都是在引用关系和作者关系中无法得到的。

(2)现有的技术普遍仅通过实现论文分类任务对论文集进行相关性分析。论文分类按照预先设定好的类别进行划分，能够给论文添加的类别属性信息有限。本发明在实现论文类别划分的同时，还实现了论文社区发现任务。论文社区发现可以无监督对论文集进行分析，得到的社区属性相比于类别属性涉及范围更广，内容更丰富。两个任务相辅相成，能够得到论文集更全面的相关性分析结果。

(3)本发明提出一个新的图节点分类模型：Inception-GCN模型。将原本用于CNN模型的Inception方法与GCN模型结合，能够使新模型在增强特征学***滑问题。通过实验表明，将该模型用于论文节点分类，可以达到比现有技术更好的效果。

附图说明

图1为现有技术方案一的整体框架示意图；

图2为现有技术方案二的整体框架示意图；

图3为Inception网络结构示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明一种新的基于图卷积神经网络和知识库的论文相关性分析方法，包括以下步骤：

步骤一)，在论文集中提取关键性息，构建论文集知识库；

通过对论文之间的关系进行分析，本发明选择以下三种非线性关系构建论文集知识库：论文间的引用关系、论文与作者的著作关系、论文与专业术语的包含关系。其中专业术语在论文数据集中并不包含，是通过部分人工标注结合命名实体识别方法得到的。在对比了SpaCy、NLTK、Stanford NER等常用命名实体识别方法后，本实施例优先选择SpaCy作为专业术语命名实体识别方法。

最后构建得到的论文集知识库实体与实体属性如表1所示，实体之间的关系如表2所示。

表1 实体与属性

论文	作者	专有术语
引用/被引关系	著作关系	包含关系

表2 实体间关系

步骤二)，论文集类别划分，将论文集的文献按照内容和涉及的方向进行划分。这种划分有预先确定的类别，并且类别间不存在交集。核心思想是将论文集的类别划分问题转化成知识库中的节点分类问题，细致步骤如下：

步骤2.1)，利用外部知识对论文集进行部分类别标注；

来自Aminer的SciKG大型知识图谱包含了很多计算机领域的内容概念际关系，从中搜索与论文集交叉的文献进行类别标注。

步骤2.2)，结合图卷积神经网络提出改进的Inception-GCN模型半监督分类算法对未标注论文分类；

传统的图卷积神经网络(GCN)公式：

存在的问题：如果要增强GCN的学习能力，可以采用层数加深和每层的特征增加两种方法，这两种方法都可以加大GCN的感知域。但与此同时，会加大训练困难和过拟合风险。

本发明将Inception网络结构引入GCN中以解决上述问题。Inception网络结构模块如图3所示，并行执行多个具有不同感知域的卷积，并将不同滤波器的深度切片拼接到同一层中，从而将结果合并。

记感知域为R的简单串联而成的图卷积网络为h _R(X，A)

其中，第一层的激活函数为ReLU，第二层的激活函数为softmax，X为初始的图上节点的特征矩阵，A为邻接矩阵，W(l)是每层独有的权重矩阵，这也就是要训练的矩阵，(l)表示这是第几层的矩阵。

合并后Inception-GCN：

步骤2.3)，在构建好的论文集知识库上完成论文类别划分工作，将得到的类别属性添加到知识库的论文实体中。

步骤三)，使用基于图卷积神经网络的NOCO模型完成论文集的社区发现，将得到的社区属性添加到知识库的论文实体中。

本发明选择Shchur等提出的NOCO模型[Shchur,Oleksandr,Günnemann,Stephan.Overlapping Community Detection with Graph Neural Networks[C].The First International Workshop on Deep Learning on Graphs:Methods and Applications(DLG’19)2019.]，在本文创建的知识库中完成论文社区发现任务。该模型已经在一些有着正确社区标注的数据集上证明了其在无监督情形下能够很好的恢复原有的社区。

NOCO模型由两部分结构组成：伯努利-泊松模型和图卷积神经网络模型。伯努利-泊松模型用于对图结构进行建模，将节点邻接矩阵上的值设定为一个概率分布的结果，以各节点的社区归属向量作为这个概率分布的参数。图卷积神经网络模型对表示节点社区从属的向量和图上节点的邻接矩阵以及属性向量进行建模，得到节点社区从属向量。

NOCO模型完成社区发现并将社区属性添加到论文实体的具体步骤如下：

步骤3.1)，利用伯努利-泊松模型对图结构进行建模，利用各节点的社区归属向量作为参数生成概率分布，作为节点邻接矩阵上的值。

生成方式为，当给出从属关系

时，邻接矩阵各项A _uv为按这个式子的独立同分布采样：Auv～Bernoulli(1-exp(-F _uF _v ^T))，这个分布上参数F的对数似然函数为

经过平衡参数权重，即分别按图上空边的数目和图上边的数目进行加权处理，得所用的损失函数。

步骤3.2)，利用图卷积神经网络模型对表示节点社区从属的向量和图上节点的邻接矩阵以及属性向量进行建模，生成社区从属矩阵。

模型采用两层图卷积神经网络，公式为：

其中每一层都是用ReLU作为激活函数，减少运算量。X表述输入，

表示图带有自边的临界矩阵，W(l)是每层独有的权重矩阵，这也就是要训练的矩阵，(l)表示这是第几层的矩阵。

通过寻找合适的神经网络参数θ，得到最终的从属矩阵F：

步骤3.3)，模型为每个节点输出从属关系向量，将社区属性添加到论文实体。

通过以上实施例的说明，本发明主要技术关键贡献在于：

(1)新的论文集知识库构建方法：考虑了多种非线性关系，包含了“专业术语”等丰富的实体，添加了论文类别和社区等属性。

(2)对图卷积神经网络进行改进，提出了Inception-GCN模型用于论文类别划分任务。

(3)将论文相关性分析，落实在论文类别划分和论文社区发现两个子任务上，优化分析效果。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

一种基于图卷积神经网络和知识库的论文相关性分析方法，其特征在于，包括以下步骤：

步骤一)，在论文集中提取关键性息，构建论文集知识库；

步骤二)，论文类别划分，将论文集的文献按照内容和涉及的方向进行划分，结合图卷积神经网络提出改进的Inception-GCN模型在构建好的论文集知识库上完成论文类别划分工作，将得到的类别属性添加到论文集知识库的论文实体中，具体包括；

步骤2.1)，利用外部知识对论文集进行部分类别标注；

步骤2.2)，结合图卷积神经网络提出改进的Inception-GCN模型半监督分类算法对未标注论文进行分类；

步骤2.3)，在构建好的论文集知识库上完成论文类别划分工作，将得到的类别属性添加到论文集知识库的论文实体中；

步骤三)，使用基于图卷积神经网络的NOCO模型完成论文集的社区发现，将得到的社区属性添加到论文集知识库的论文实体中。
根据权利要求1所述的基于图卷积神经网络和知识库的论文相关性分析方法，其特征在于，所述的步骤一)中，所述的论文集知识库中包含论文间的引用关系、论文与作者的著作关系、论文与专业术语的包含关系三种非线性关系。
根据权利要求2所述的基于图卷积神经网络和知识库的论文相关性分析方法，其特征在于，所述的专业术语为通过部分人工标注结合命名实体识别方法得到的。
根据权利要求3所述的一种基于图卷积神经网络和知识库的论文相关性分析方法，其特征在于，所述的命名实体识别方法为SpaCy命名实体识别方法、NLTK命名实体识别方法或Stanford NER命名实体识别方法中的一种。
根据权利要求1所述的基于图卷积神经网络和知识库的论文相关性分析方法，其特征在于，所述的步骤2.2)中，所述的改进的Inception-GCN模型半监督分类算法吸纳执行多个具有不同感知域的卷积，并将不同滤波器的深度切片拼接到同一层中，从而将结果合并，具体步骤为：

记感知域为R的简单串联而成的图卷积网络为h _R(X，A)

其中，第一层的激活函数为ReLU，第二层的激活函数为softmax，X为初始的图上节点的特征矩阵，A为邻接矩阵，W(l)是每层独有的权重矩阵，即要训练的矩阵，(l)表示这是第几层的矩阵；

合并后Inception-GCN：

其中U _{R＝1，2，3}h _R(...，A)表示接收相同输入的R个并行额分支，各分支输出的拼接作为总体输出。
根据权利要求1所述的基于图卷积神经网络和知识库的论文相关性分析方法，其特征在于，所述的步骤三)中还包括：将论文集中的论文分区任务转化成图知识库上的社区发现任务，其具体步骤为：

步骤3.1)，利用伯努利-泊松模型对图结构进行建模，利用各节点的社区归属向量作为参数生成概率分布，作为节点邻接矩阵上的值；

步骤3.2)，利用图卷积神经网络模型对表示节点的社区归属向量和图上节点的邻接矩阵以及属性向量进行建模，生成社区从属矩阵；

步骤3.3)，根据社区从属矩阵，为每个节点输出从属关系向量，将社区属性添加到论文实体。
根据权利要求6所述的基于图卷积神经网络和知识库的论文相关性分析方法，其特征在于，所述的步骤3.1)中，所述的参数生成概率分布的生成方式为，

当给出从属关系
时，邻接矩阵各项A _uv为按这个式子的独立同分布采样：Auv～Bernoulli(1-exp(-F _uF _v ^T))，这个分布上参数F的对数似然函数为：

经过平衡参数权重，即按照图上节点间是否相关，进行加权处理，得所用的损失函数为；

其中，F _(l)为表示了节点l的社区从属关系的行向量，即的矩阵F的第l行。
根据权利要求6所述的基于图卷积神经网络和知识库的论文相关性分析方法，其特征在于，所述的步骤3.2)中，

所述的图卷积神经网络模型采用两层图卷积神经网络，公式为：

其中每一层都是用ReLU作为激活函数，减少运算量，X表述输入，
表示图带有自边的临界矩阵，W(l)是每层独有的权重矩阵，这也就是要训练的矩阵，(l)表示这是第几层的矩阵；

通过寻找合适的神经网络参数θ，得到最终的从属矩阵F：