CN111008285A

CN111008285A - 一种基于论文关键属性网络的作者消歧方法

Info

Publication number: CN111008285A
Application number: CN201911207075.6A
Authority: CN
Inventors: 冯凯; 康锐文; 王元卓; 刘冰冰; 彭亮; 贾士杨
Original assignee: Big Data Research Institute Institute Of Computing Technology Chinese Academy Of Sciences
Current assignee: China Science And Technology Big Data Research Institute
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-04-14
Anticipated expiration: 2039-11-29
Also published as: CN111008285B

Abstract

本发明公开了一种基于论文关键属性网络的作者消歧方法，关键属性关系网是通过收集论文中的关键属性并通过他们的相关关系形成的关系网络，分别形成了论文合著者之间的关系网，同一机构的关系网，同一领域的关系网，最终形成论文关键属性的关系网。本发明的方法通过提取论文中论文名称、作者机构、作者领域并围绕作者名称建立关系网络，当对论文作者进行消歧的时候，通过对论文作者的名称的匹配，并结关系网络中的作者机构、作者领域能够有效的解决论文中相同人名但对应不同实际作者的情况。另外通过结合论文名称匹配当前待消歧作者合著者并再次匹配的合著者，能够有效的解决同一实际作者有不同人名写法的这种情况。

Description

一种基于论文关键属性网络的作者消歧方法

技术领域

本发明属于对论文同名作者和不同作者消歧技术领域，具体涉及一种基于论文关键属性网络的作者消歧方法。

背景技术：

近年来，随着互联网的发展，人们生活的方方面面都已经和互联网息息相关，学术活动也是如此。现今学术成果绝大部分都可以通过互联网进行查询。但在海量数据面前，如何能够准确的查询到我们需要的数据就显的尤为重要。目前大部分论文平台都能够通过作者进行检索，检索出查询的作者所发表的论文信息。在这种情况下，作者姓名的准确性就显的尤为重要。但是在现实情况中通常会出现以下两种情况。

其一是同一作者所发表的论文作者姓名可能会以不同的方式进行呈现，如作者真实姓名叫做“张三”，可能在某些外文文献中是“San Zhang”，同时也可能会以缩写的方式进行呈现如“Zhang S.”。

第二是不同的作者重名的情况，如不同机构的两位作者同叫“李四”，或者一位叫做“王五”，另一位叫做“王吴”，在一些外文文献中写的通讯作者的名称结果全为“WuWang”。

以上两种情况都对论文检索造成了很大的困难，在现有***中很多论文搜索引擎都是直接针对字符串匹配进行检索查询的，随着数据量的增大，检索出来的结果很大程度上不能保证其准确性，大多数情况下都需要人工对结果进行甄别。随着对论文作者准确性要求的提高，也出现了很多对论文作者消歧的办法，但是这些传统的办法只是单纯性的从机构、关键词、出版信息等维度进行简单的匹配，随着数据量的增长，这些传统的方法导致筛选出的论文越发的杂乱无章，后期需要研究人员进行长时间的甄别。严重的影响了研究效率。

发明内容

本发明主要基于当前对论文作者消歧的必要性，以及在大数据量情况下传统消歧方法的有效性上提出了一种建立基于论文关键属性网络的作者消歧方法，对同一实际作者有不同人名写法的数据进行合并；对相同人名但对应不同实际作者的数据进行区分。

实现上述目的所采用的技术方案：一种基于论文关键属性网络的作者消歧方法，建立关键属性关系网，是通过收集论文中的关键属性并通过他们的相关关系形成的关系网络，其中关系网络中的实体节点主要有：作者名称、作者机构、作者领域和论文名称；作者之间通过论文名称、机构和领域三个维度进行聚类，分别形成了论文合著者之间的关系网，同一机构的关系网，同一领域的关系网，最终形成论文关键属性的关系网；对基于关键属性关系网的作者消歧方法的实现逻辑包括如下步骤1-步骤7。

步骤1：向关系网中输入单元A1。

步骤2：将单元A1中的领域、机构和论文名称***关系网中，做Merge操作。

步骤3：查询A1中的N1与关系网中的所有N节点是否有相同节点。

步骤4：如果有相同节点则进入流程FLOW1，开始进行判断，主要判断是否是相同人名但对应不同实际作者的这种情况。

进行FLOW1流程，包括如下步骤(1)-(7)。

(1)拿出与N1节点相同的N节点关联的领域(F)与机构(O)的列表，分别记为F-List与O-List。

(2)将与N1相关的F与F-List匹配后计算权重，每匹配成功一次权重为1，计算领域权重和，记为：SumWeightField。

(3)将与N1相关的O与O-List匹配后计算权重，每匹配成功一次权重为2，计算机构权重和，记为：SumWeightOrg。

(4)计算权重和，记为：SumWeight＝Weight(F)+Weight(O)。

(5)若SumWeight＞2则标记为N1与匹配成功的N节点为同一人。

(6)若SumWeight≤2则标记为N1与匹配成功的N节点为两个人。

(7)输出结果。

步骤5：如果不同则进入流程FLOW2，开始进行判断，主要判断是否存在对同一实际作者有不同人名写法的这种情况。

进行FLOW2流程，包括如下步骤(1)-(8)。

(1)在关系网中分别拿出与A1的论文名称(T)相同的论文名称节点列表Title-List，与 A1的领域(F)相同的领域节点列表Field-List，与A1的机构(O)相同的机构节点列表Org-List。

(2)通过Title-List关联的作者名称节点即N节点，我们将论文作者与其合著者的关系关联起，通过查询N1的合著者，反向再次查询匹配即对可能匹配上的作者进行筛选，这部分N-List即为与A1中的N1合作过的作者再次关联出的合作者，这部分基于一个现实情况是，与N1合作过的作者可能不止一次与N1进行合作，主要步骤如下：

a)通过Title-List查询出与其相关联的作者名称N-List。

b)通过N-List查询N-List所关联的论文名称T-List，即关联论文名称。

c)通过T-List查询其所关联的作者名称，输出为N-Title-List。

(3)查询与Field-List关联的作者名称节点，输出为N-Field-List。

(4)查询与Org-List关联的作者名称几点，输出为N-Org-List。

(5)将N1分别与N-Title-List、N-Field-List、N-Org-List进行相关度匹配，分别记为 Ret-Title-List、Ret-Field-List、Ret-Org-List，其中权重分别为3、2、1。

(6)将Ret-Title-List、Ret-Field-List、Ret-Org-List按值进行聚合，求交集，并分别计算聚合后不同结果集的权重和SumWeight，输出结果集为Ret-List。

(₇)取Ret-List中权重和SumWeight最高的一条，若SumWeight＞4则为同一作者，如果SumWeight≤4则为不同作者。

(8)如果权重和最高的且大于4的有多条，则再次进行作者名称的相关度匹配，取相关度匹配最高的那一条。

步骤6：将步骤4或步骤5的结果输入到关系网中，如果是新的作者名称节点，则***关系网中，否则更新关系网中作者名称节点，为作者名称节点增加新的别名。

步骤7：依此循环以上6步，在建立关系网的同时达到消歧的目的。

上述的单元：把信息的一次输入称为一个单元，其中一个单元为一篇论文中提取的作者信息列表中的一条，包括：作者名称(N)、领域(F)、机构(O)、论文名称(T)。所述的A1代表一个单元一个具体实例；后边文档说明同此，为方便起见不再赘述。

上述所述步骤1主要是向关系网中输入单元数据，包括如下步骤(1)-(2)。

(1)将作者名称、论文名称、领域、机构字符全部数据转为小写。

(2)去除数据中的特数字符，如“-”，“.”等。

上述步骤2的包括如下步骤(1)-(5).

(1)提取A1中的领域节点，依次***关系网络中，F1为A1中的一个领域节点。

(2)判断关系网中是否存在与F1相同的节点。

(3)如果存在则忽略。

(4)如果不存在则向关系网中***。

(5)其余机构与论文标题同上边1到4步。

本发明的有益效果：本发明的方法通过提取论文中论文名称、作者机构、作者领域并围绕作者名称建立关系网络，当对论文作者进行消歧的时候，通过对论文作者的名称的匹配，并结关系网络中的作者机构、作者领域能够有效的解决论文中相同人名但对应不同实际作者的情况。另外通过结合论文名称匹配当前待消歧作者合著者(Coop Author List)并再次匹配 Coop Author List的合著者，能够有效的解决同一实际作者有不同人名写法的这种情况。

附图说明

图1为关键属性关系网的一个示例图。

图2为消歧方法的总体流程图。

图3为FLOW1的流程图。

图4为FLOW2的流程图。

具体实施方式

本发明主要基于当前对论文作者消歧的必要性，以及在大数据量情况下传统消歧方法的有效性上提出了一种建立基于论文关键属性网络的作者消歧方法。该方法通过提取论文中论文名称、作者机构、作者领域并围绕作者名称建立关系网络，当对论文作者进行消歧的时候，通过对论文作者的名称的匹配，并结关系网络中的作者机构、作者领域能够有效的解决论文中相同人名但对应不同实际作者的情况。另外通过结合论文名称匹配当前待消歧作者合著者并再次匹配的合著者，能够有效的解决同一实际作者有不同人名写法的这种情况。下边先对关系网进行一个概要说明，然后会对方法的实现逻辑进行阐述。

关键属性关系网主要是通过收集论文中的关键属性并通过他们的相关关系形成的关系网络，其中关系网络中的实体节点主要有：作者名称、作者机构、作者领域、论文名称。作者之间通过论文名称、机构、领域三个维度进行聚类，分别形成了论文合著者之间的关系网，同一机构的关系网，同一领域的关系网，最终形成论文关键属性的关系网。

以下先对关系网进行一个概要说明，然后会对方法的实现逻辑进行阐述。

图1为关键属性关系网的一个示例图，其中N代表作者名称、F代表领域、O代表机构、 T代表论文名称，通过节点之间的关系形成关键属性关系网。单元：为了方便表述，这里把信息的一次输入称为一个单元，其中一个单元为一篇论文中提取的作者信息列表中的一条，包括：作者名称(N)、领域(F)、机构(O)、论文名称(T)。A1代表一个单元一个具体实例；后边文档说明同此，为方便起见不再赘述。

下边对基于关键属性关系网的作者消歧方法的实现逻辑进行详细的说明，图2为消歧方法的总体流程图。

对图2中流程说明。

(1)向关系网中输入单元A1；

(2)将单元A1中的领域、机构、论文名称***关系网中，做Merge操作。

(3)查询A1中的N1与关系网中的所有N节点是否有相同节点。

(4)如果有相同节点则进入流程FLOW1，开始进行判断，主要判断是否是相同人名但对应不同实际作者的这种情况。

(5)如果不同则进入流程FLOW2，开始进行判断，主要判断是否存在对同一实际作者有不同人名写法的这种情况。

(6)(4)或(5)步的结果输入到关系网中，如果是新的作者名称节点，则***关系网中，否则更新关系网中作者名称节点，为作者名称节点增加新的别名。

(7)依此循环以上(6)步，在建立关系网的同时达到消歧的目的。

其中所述步骤(1)主要是向关系网中输入单元数据，步骤(1)其主要步骤为：

1.将作者名称、论文名称、领域、机构字符全部数据转为小写；

2.去除数据中的特数字符，如“-”，“.”等。

所述步骤(2)的主要步骤为：

1.提取A1中的领域节点，依次***关系网络中，F1为A1中的一个领域节点。

2.判断关系网中是否存在与F1相同的节点。

3.如果存在则忽略。

4.如果不存在则向关系网中***。

5.其余机构与论文标题同上边1到4步。

所述步骤(4)在判断N1与关系网中N有相同的节点的时候，进行FLOW1流程，图3为FLOW1的流程图，详细说明如下。

1.拿出与N1节点相同的N节点关联的领域(F)与机构(O)的列表，分别记为F-List与O-List；

2.将与N1相关的F与F-List匹配后计算权重，每匹配成功一次权重为1，计算领域权重和，记为：SumWeightFieid；

3.将与N1相关的O与O-List匹配后计算权重，每匹配成功一次权重为2，计算机构权重和，记为：SumWeightOrg；

4.计算权重和，记为：SumWeight＝Weight(F)+Weight(O)；

5.若SumWeight＞2则标记为N1与匹配成功的N节点为同一人；

6.若SumWeight≤2则标记为N1与匹配成功的N节点为两个人；

7.输出结果。

所述步骤(5)在判断N1与关系网中N没有相同的节点的时候，进行FLOW2流程，图4为FLOW2的流程图，详细说明如下。

1.在关系网中分别拿出与A1的论文名称(T)相同的论文名称节点列表Title-List，与A1 的领域(F)相同的领域节点列表Field-List，与A1的机构(O)相同的机构节点列表Org-List；

2.通过Title-List关联的作者名称节点即N节点，我们将论文作者与其合著者的关系关联起，通过查询N1的合著者，反向再次查询匹配即对可能匹配上的作者进行筛选，这部分N-List 即为与A1中的N1合作过的作者再次关联出的合作者，这部分基于一个现实情况是，与N1 合作过的作者可能不止一次与N1进行合作，主要步骤如下：

d)通过Title-List查询出与其相关联的作者名称N-List；

e)通过N-List查询N-List所关联的论文名称T-List，即关联论文名称；

f)通过T-List查询其所关联的作者名称，输出为N-Title-List。

3.查询与Field-List关联的作者名称节点，输出为N-Field-List。

4.查询与Org-List关联的作者名称几点，输出为N-Org-List。

5.将N1分别与N-Title-List、N-Field-List、N-Org-List进行相关度匹配，分别记为Ret-Title-List、 Ret-Field-List、Ret-Org-List，其中权重分别为3、2、1。

6.将Ret-Title-List、Ret-Field-List、Ret-Org-List按值进行聚合，求交集，并分别计算聚合后不同结果集的权重和SumWeigt，输出结果集为Ret-List。

7.取Ret-List中权重和SumWeigt最高的一条，若SumWeigt＞4则为同一作者，如果SumWeigt≤4则为不同作者。

8.如果权重和最高的且大于4的有多条，则再次进行作者名称的相关度匹配，取相关度匹配最高的那一条。

Claims

1.一种基于论文关键属性网络的作者消歧方法，其特征在于，建立关键属性关系网，是通过收集论文中的关键属性并通过他们的相关关系形成的关系网络，其中关系网络中的实体节点主要有：作者名称、作者机构、作者领域和论文名称；作者之间通过论文名称、机构和领域三个维度进行聚类，分别形成了论文合著者之间的关系网，同一机构的关系网，同一领域的关系网，最终形成论文关键属性的关系网；对基于关键属性关系网的作者消歧方法的实现逻辑包括如下步骤：

步骤1：向关系网中输入单元A1；

步骤2：将单元A1中的领域、机构和论文名称***关系网中，做Merge操作；

步骤3：查询A1中的N1与关系网中的所有N节点是否有相同节点；

步骤4：如果有相同节点则进入流程FLOW1，开始进行判断，主要判断是否是相同人名但对应不同实际作者的这种情况；进行FLOW1流程，包括如下步骤(1)-(7)：

(1)拿出与N1节点相同的N节点关联的领域(F)与机构(O)的列表，分别记为F-List与O-List；

(2)将与N1相关的F与F-List匹配后计算权重，每匹配成功一次权重为1，计算领域权重和，记为：SumWeightField；；

(3)将与N1相关的O与O-List匹配后计算权重，每匹配成功一次权重为2，计算机构权重和，记为：SumWeightOrg；

(4)计算权重和，记为：SumWeight＝Weight(F)+Weight(O)；

(5)若SumWeight＞2则标记为N1与匹配成功的N节点为同一人；

(6)若SumWeight≤2则标记为N1与匹配成功的N节点为两个人；

(7)输出结果；

步骤5：如果不同则进入流程FLOW2，开始进行判断，主要判断是否存在对同一实际作者有不同人名写法的这种情况；进行FLOW2流程，包括如下步骤(1)-(8)：

(1)在关系网中分别拿出与A1的论文名称(T)相同的论文名称节点列表Title-List，与A1的领域(F)相同的领域节点列表Field-List，与A1的机构(O)相同的机构节点列表Org-List；

a)通过Title-List查询出与其相关联的作者名称N-List；

b)通过N-List查询N-List所关联的论文名称T-List，即关联论文名称；

c)通过T-List查询其所关联的作者名称，输出为N-Title-List；

(3)查询与Field-List关联的作者名称节点，输出为N-Field-List；

(4)查询与Org-List关联的作者名称几点，输出为N-Org-List；

(5)将N1分别与N-Title-List、N-Field-List、N-Org-List进行相关度匹配，分别记为Ret-Title-List、Ret-Field-List、Ret-Org-List，其中权重分别为3、2、1；

(6)将Ret-Title-List、Ret-Field-List、Ret-Org-List按值进行聚合，求交集，并分别计算聚合后不同结果集的权重和SumWeight，输出结果集为Ret-List；

(7)取Ret-List中权重和SumWeight最高的一条，若SumWeight＞4则为同一作者，如果SumWeight≤4则为不同作者；

(8)如果权重和最高的且大于4的有多条，则再次进行作者名称的相关度匹配，取相关度匹配最高的那一条；

步骤6：将步骤4或步骤5的结果输入到关系网中，如果是新的作者名称节点，则***关系网中，否则更新关系网中作者名称节点，为作者名称节点增加新的别名；

步骤7：依此循环以上6步，在建立关系网的同时达到消歧的目的；

所述的单元：把信息的一次输入称为一个单元，其中一个单元为一篇论文中提取的作者信息列表中的一条，包括：作者名称(N)、领域(F)、机构(O)、论文名称(T)；所述的A1代表一个单元一个具体实例。

2.根据权利要求1所述的基于论文关键属性网络的作者消歧方法，其特征在于，所述步骤1主要是向关系网中输入单元数据，包括如下步骤：

(1)将作者名称、论文名称、领域、机构字符全部数据转为小写；

(2)去除数据中的特数字符，如“-”，“.”等。

3.根据权利要求1所述的基于论文关键属性网络的作者消歧方法，其特征在于，步骤2的包括如下步骤：

(1)提取A1中的领域节点，依次***关系网络中，F1为A1中的一个领域节点；

(2)判断关系网中是否存在与F1相同的节点；

(3)如果存在则忽略；

(4)如果不存在则向关系网中***；

(5)其余机构与论文标题同上边1到4步。