CN109558494A

CN109558494A - 一种基于异质网络嵌入的学者名字消歧方法

Info

Publication number: CN109558494A
Application number: CN201811267181.9A
Authority: CN
Inventors: 杜; 杜一; 乔子越; 周园春
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2019-04-02

Abstract

本发明公开了一种基于异质网络嵌入的学者名字消歧方法，其步骤为：1)设定多个需要消歧的作者，收集所有与设定需要消歧的作者相关的论文，然后利用所收集论文的作者和论文的语义信息生成论文关系异质网络；2)根据论文关系异质网络，通过基于元路径随机游走策略生成包含论文节点邻居节点文本信息的路径，并将这些路径保存为训练语料库；3)利用Skip‑gram模型对训练语料库进行训练，生成每一论文对应的论文表征向量；4)对于步骤1)中一设定需要消歧的作者，从得到的论文表征向量中获取该作者的论文对应的论文表征向量；5)对步骤4)得到的论文表征向量进行聚类，得到若干簇，实现对该作者名字的消歧。

Description

一种基于异质网络嵌入的学者名字消歧方法

技术领域

本发明涉及大数据，知识图谱，实体消歧，异质网络嵌入技术领域，具体是一种非监督的基于元路径随机游走异质网络节点表征向量学习的方法进行学者名字消歧的技术。

背景技术

在构建科技文献知识库中，经常会遇到作者名字消歧的问题。例如在知识库海量的文档中，会有大量的同名作者存在，这会降低人名检索、人物关系挖掘、人物相似性关联的准确性。例如在检索一个作者名字时，会出现所有该同名作者所写的论文，为解决这一问题，通常采用聚类的方法将这些检索出来的论文划分给不同的作者实体，而聚类可以使用论文的合著者关系，论文出版的期刊名，论文标题相似性等信息来作为论文的特征，这样通过对论文的划分即可以将同名的不同作者给划分出来。问题就在于如何利用好上述这些论文的特征信息。

已经有许多的研究者针对这一名字消歧问题的提出了自己的解决方法，最常见的思路就是根据论文的特征信息，对每一篇论文构建出其表征向量，通过向量的分布特征，来对论文进行区分；进一步的，可以通过构建论文网络，借助网络的结构信息将论文的特征向量投影到表征能力更强的隐空间中，使得在新的论文向量空间中，相似性更高的论文在空间上的分布更加接近，同时相似度不高或者不相关的论文之间分布的更远。

发明内容

根据现有科技文献知识库中作者名消歧方法的不足之处，本发明提供了一种基于在异质论文网络上通过元路径随机游走的网络嵌入学习的作者姓名命名实体消歧方法，该方法利用论文的作者、发行期刊以及标题、关键词、摘要等文本信息，通过构建异质网络来建立论文之间的结构关系，通过对异质网络的网络嵌入学习得到论文的表征向量，并根据这些向量对论文聚类来达到对学术作者名字消歧的目的。

本发明具体包括以下步骤：

步骤一：收集论文库中所有与需要消歧的作者相关的论文，通过这些论文的作者，所发行的期刊名，论文的语义信息(包括标题、关键词和摘要等信息)构建论文关系异质网络。

步骤二：根据步骤一所述生成的论文关系异质网络，通过基于元路径随机游走策略生成包含论文节点邻居节点文本信息的路径，并将这些路径保存为下一步中skip-gram模型的训练语料库。

步骤三：根据所述步骤二生成随机游走的路径组成的语料库，基于Skip-gram模型学习论文表征向量。

步骤四：对于步骤一中一需要消歧的作者名称，收集其论文对应的表征向量，给定聚团数K，使用凝聚层次聚类方法，对上述表征向量进行聚类。聚类后的不同簇，代表同名但不同作者所写的论文集合，从而实现了对该作者名字的消歧。

相对于以往的相关方法，本发明的基于异质网络嵌入的学者名字消歧方法，其优点和贡献主要在于：

1.提出一个基于异质网络表征学习的方法，通过构建论文关系异质网络，基于元路径随机游走策略生成包含论文节点邻居节点文本信息的路径，并根据这些元路径组成的训练语料库，使用Skip-gram模型为每个论文节点高效的学习到一个低维的隐空间的向量表示，使得共同作者更多的、同一个期刊的、标题相似性更高的论文在空间上的分布更加接近，同时不满足这些条件的论文分布的更远。

2.通过构建论文的异质关系网络，基于元路径的随机游走以及skip-gram模型，保留了论文网络的结构信息和论文的属性的语义信息(论文的标题、摘要、关键词等)，相比于以往的算法，增加使用了论文标题、摘要、关键词等文本信息之间的相似性，提高了论文表征向量的代表性。

3.通过在基准数据集上实验表明，这个方法在保持较高的运算速度的同时，相对于大部分的方法聚类的效果提高了20％到40％。

附图说明

图1为本发明方法流程示意图；

图2为异质网络示意图；

图3为元路径示意图；

图4为路径生成示意图。

具体实施方式

下面将结合附图以及实施例对本发明做进一步的阐述说明。

本发明采取一种非监督的基于元路径随机游走异质网络节点表征向量学习的方法进行学者名字消歧。以下实施例中，选取名字消歧论文基准数据库作为论文库，并结合附图，对本发明进一步的阐述。

步骤一：收集论文库中所有与需要消歧的作者相关的论文，通过这些论文的作者，所发行的期刊名，标题、关键词和摘要等信息构建论文关系异质网络。

把每一篇论文作为异质网络中的节点，如果它们之间有共同作者，那么就在它们之间构建一条关系名为CoAuthor的边，同时这条边具有共同作者数目的属性，如果有1个共同作者，这个关系的属性就为1，如果有2个共同作者，那么属性就为2，以此类推。

如果两篇论文来自同一个期刊，那么就在这两个论文之间建立一条关系名为CoVenue的边，由于往往一个论文只能属于一个期刊，所以这个关系的属性值都为1。

如果两篇论文的标题、关键词和摘要中，有相同出现的词，且这个词不是停用词，那么就在它们之间构建一条CoWord的边，这边相应的也有数目的属性，如果有一个共现词，那么属性值为1，如果有两个共现词，那么属性为2，以此类推。

这样就构建出了一个有一种节点类型、三种关系类型且其中两种关系有属性的论文异质网络。网络的示意图如图2所示。

在该步骤中，构建的关系除CoAuthor(共同作者)、CoWord(同关键词)、CoVenue(共同期刊/会议)外，还可根据其它成果信息进行构建，如论文之间的引用关系、共同作者国家、针对全文进行主题分类后的相同主题词等，即首先设置若干关系以及对应的关系属性；如果两论文之间存在某一设置的关系，则在两论文对应的节点之间构建一条边，并根据关系设置该边的名称，以及根据该关系的关系属性设置该边的属性值。

根据步骤一生成的论文异质网络，在该论文异质网络中任意选一节点，以该节点为初始节点，以边为路径进行随机游走。

规定在元路径指导下的随机游走的过程中，元路径中包括多个不同关系名的边并设置这些边的出现顺序，比如按照p1-CoAuthor-p2-CoWord-p3-CoVunue-p4这样的元路径顺序进行随机游走(即随机游走中的随机指的是在走到某个关系的时候，随机选取与当前节点通过该关系相连的节点)，每一次游走过程中，按照当前元路径规定的边的类型通过一种随机选取规则，随机选取一个通过该类型边与当前节点相连的节点作为下一个节点，即首先随机选择一个论文节点作为起始路径点，然后通过上述随机选取规则选择与该节点边的类型为CoAuthor的节点作为下一个路径点，再通过上述随机选取规则选择与该路径节点边的类型为CoWord的节点作为下一个路径点，最后通过上述随机选取规则选择与该路径节点边的类型为CoVunue的节点作为下一个路径点，这样就组成了一个元路径的游走序列。再将上述元路径的最后一个节点作为起始节点按照上述步骤生成一个新的元路径，经过N次这样迭代之后，变生成了一条长路径，其中每个路径节点存储的是论文的标识id。然后迭代M次生成这样的长路径，每次生成长路径时，按顺序选择网络中的节点作为长路径的起始节点，并将每个长路径按行存储，每个路径节点id用分隔符(比如空格或者制表符)隔开，生成训练语料库。

元路径示意图如图3所示。

同时，在元路径指导下的随机游走过程中，游走到当前某个节点并朝着元路径规定的某类边随机游走的过程中，会考虑到该关系的属性信息，这个属性相当于边的权值，权值越大，说明两个节点的关系越密切，因此这个边的属性值越大，那么节点沿着这条边跳转的概率就越大，例如，图2中，若p1为当前节点，下一跳的关系是CoAuthor，那么与p1有该关系的两个节点分别是p4和p2，根据它们之间关系的属性值，那么从p1游走到p4的概率是1/3，游走到p2的概率是2/3。

在某些情况下，有些关系对于一些论文来说是缺失的，例如某个论文的标题中所有的词并没有出现在其他任意一个论文的标题中，那么对它来说CoWord这个关系是缺少的，当出现这种情况时，就采用更灵活的策略，即根据元路径中当前缺失关系的下一个关系游走，对于上面说的那篇论文来说，就转而根据它的CoVunue关系进行游走。

生成路径的示意图如图4所示。

同时这样的游走策略并不是固定的，可以通过对元路径重新设计，而设计出新的游走策略，例如对于上述类型的异质网络中，将元路径设计为p1-CoAuthor-p2-CoVunue-p3-CoWord -p4，通过这样的设计可以生成新的随机游走路径，继而形成新的语料库。

这样的异质网络设计也是有多种多样的，例如当论文库中的信息包括有引用信息时，可以在上述的异质网络中构建出一种新的类型的边，这样就构建出一个有一种节点类型，四种关系类型的异质网络，通过设计新的元路径，可以生成该网络的随机游走路径语料库。同理当论文库中的论文缺少某项特征信息时，可以不使用该特征构建关系。

步骤三：根据所述步骤二生成随机游走的路径组成的语料库，基于Skip-gram模型实现论文向量的学习。

根据所述步骤二生成随机游走的路径组成的语料库，使用skip-gram模型进行训练，具体使用python中gensim库的word2vec方法或者Google开源的基于C语言word2vec工具。

skip-gram模型方法将节点的id看作为词，将路径中的节点连接序列看作是词的上下文信息，经过训练最终生成每个节点id对应的向量，相应的，这样就生成了论文的表征向量。

步骤四：对于一个需要消歧的作者名称，收集其在已有数据库中的所有论文由步骤一、二、三学习到的表征向量，给定聚团数K，使用凝聚层次聚类方法，对上述表征向量进行聚类。聚类后的不同聚团，代表不同作者所写的论文集合，从而实现了对该作者名字的消歧。

实验采用论文(Jie Tang,A.C.M.Fong,Bo Wang,and Jing Zhang.A UnifiedProbabilistic Framework for Name Disambiguation in Digital Library.IEEETransaction on Knowledge and Data Engineering,Volume 24,Issue 6,2012,Pages975-987.以及Xuezhi Wang,Jie Tang,Hong Cheng,and Philip S.Yu.ADANA:Active NameDisambiguation.In Proceedings of 2011IEEE International Conference on DataMining.pp.794-803.)中的论文数据集，该数据中有100个需要消歧的作者名，共计7447篇论文，论文名和作者信息是完备的，4％的论文缺少期刊名。

首先将数据集中的所有论文一起构建出一个异构网络，然后使用上述方法对每篇论文学习出了一个嵌入向量，然后对于每个需要消歧的作者，将该作者对应的论文放在一起聚类，并且假设已知类别数K。

使用HAC(凝聚层次聚类)的方法或K-Means聚类方法进行聚类。对聚类结果采用Pairwise Precise、Pairwise Recall、Pairwise F1的评估指标进行评估，并求均值。也可以不预先指定聚团数K，在聚类时，使用如DBSCAN等聚类算法。

目前使用的baseline方法有LINE，DNGR，metapath2vec。以上三种方法都是网络嵌入方法，通过构建论文网络，根据相应的网络嵌入方法，学习到论文的表征向量。其中LINEwith title similarity是指在构建论文同质网络中，如果论文之间的标题有一定的相似性，则增加相应论文连接边的权值，并最终使用LINE的方法来进行网络嵌入学习。下表为不同方法的消歧效果。

方法	Prec	Rec	F1
				our approach	79.68	80.14	78.85
LINE	61.22	49.96	53.02
				LINE with title similarity	79.29	58.69	64.98
metapath2vec	64.44	67.75	64.40
				DNGR	44.62	70.21	51.65

由此可见，本发明的方法明显优于其他的方法。由于使用了异构网络嵌入的学习方法，尽可能的保留了论文本身的关系信息，使得学习到的论文向量具有的表征能力更强，因此提高了消歧的效果。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于异质网络嵌入的学者名字消歧方法，其步骤为：

1)设定多个需要消歧的作者，收集所有与设定需要消歧的作者相关的论文，然后利用所收集论文的作者和语义信息生成论文关系异质网络；

2)根据所述论文关系异质网络，通过基于元路径随机游走策略生成包含论文节点邻居节点文本信息的路径，并将这些路径保存为skip-gram模型的训练语料库；

3)利用Skip-gram模型对所述训练语料库进行训练，生成每一论文对应的论文表征向量；

4)对于步骤1)中一设定需要消歧的作者，从步骤3)得到的论文表征向量中获取该作者的论文对应的论文表征向量；

5)对步骤4)得到的论文表征向量进行聚类，得到若干簇；将不同簇作为与该作者同名但不是同一人所写的论文集合，实现对该作者名字的消歧。

2.如权利要求1所述的方法，其特征在于，生成所述论文关系异质网络的方法为：将每一篇论文作为异质网络中的节点，并设置若干关系以及对应的关系属性；如果两论文之间存在某一设置的关系，则在两论文对应的节点之间构建一条边，并根据关系设置该边的名称，以及根据该关系的关系属性设置该边的属性值。

3.如权利要求2所述的方法，其特征在于，所述关系包括但不限于以下一种或几种关系：含有共同作者、包含相同关键词、属于共同期刊或会议、存在引用关系、共同作者国家。

4.如权利要求1或2所述的方法，其特征在于,生成所述训练语料库的方法为：在该论文关系异质网络中任意选一节点，以该节点为初始节点，在元路径指导下进行游走，生成一长路径；更改初始节点继续生成所述长路径，并将各所述长路径按行存储，每个路径节点id用分隔符隔开，生成训练语料库。

5.如权利要求4所述的方法，其特征在于，在元路径指导下进行游走的方法为：

51)按照元路径规定的边出现顺序进行路径上边的选择，如果当前节点到下一节点有多个符合条件的边，则选取一个符合条件的边确定出当前节点相连的下一个节点；所述元路径中包括多个不同关系名的边并设置这些边的出现顺序；

52)重复步骤51)设定的N次后，得到一所述长路径。

6.如权利要求5所述的方法，其特征在于，所述步骤51)中，根据边的权重选取一个符合条件的边确定出当前节点相连的下一个节点；其中，权重越大的边被选择的概率也越大。

7.如权利要求1所述的方法，其特征在于，所述skip-gram模型将路径中的路径节点的id看作为词，将路径中的节点连接序列看作是词的上下文信息，经过训练最终生成每个节点id对应的向量，即该节点id对应论文的论文表征向量。

8.如权利要求1或7所述的方法，其特征在于，所述skip-gram模型为python中gensim库的word2vec方法或者Google开源的基于C语言word2vec工具。

9.如权利要求1所述的方法，其特征在于，利用所收集论文的作者、期刊名和语义信息生成论文关系异质网络；所述语义信息包括但不限于以下一种或几种信息：作者、标题、关键词和摘要信息。

10.如权利要求1所述的方法，其特征在于，给定聚团数K，使用凝聚层次聚类方法，对步骤4)得到的论文表征向量进行聚类。