CN106021424B

CN106021424B - 一种文献作者重名检测方法

Info

Publication number: CN106021424B
Application number: CN201610320129.XA
Authority: CN
Inventors: 徐小龙; 李永萍; 孙雁飞; 杨维荣; 王勇
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2016-05-13
Filing date: 2016-05-13
Publication date: 2019-05-28
Anticipated expiration: 2036-05-13
Also published as: CN106021424A

Abstract

本发明公开了一种文献作者重名检测方法，属于数据挖掘技术领域。本发明方法充分利用了科技文献中单特征相似度以及单特征融合在对重名作者进行消歧的特点，首先对要使用到的文献对象进行建模，其次利用一种单特征相似度检测方法计算两两单特征的相似度，然后利用基于单特征相似度的消歧方法计算每一个单特征的鉴别力，在此基础上设计多特征融合的消歧规则，并提出一种文献作者重名检测方法。由于本检测方法融合了单特征各自在进行作者实体消歧时的优点，使得方法在识别过程中具有较好的精确度和召回率。

Description

一种文献作者重名检测方法

技术领域

本发明涉及一种文献作者重名检测方法，属于数据检索技术领域。

背景技术

随着每年科技文献数量的剧增，大量的作者重名现象降低了知识检索与调研工作的准确性，影响后续的科研工作，延长了整个科研工作的周期。然而，当前的网络文献知识库***还不具备对重名作者进行辨识的能力，以国内的中国知识资源总库(ChinaNational Knowledge Infrastructure，CNKI)为例，当检索条件限定在“作者”时，输入一个作者名后往往出现许多不相干的同名作者，后续的分类工作只能由用户自己去人工识别，这样既花费精力又浪费时间。因此，在许多知识管理领域，例如网络文献知识库检索***、数字图书馆和动态Web检索领域，作者重名鉴别变成一个非常严峻的问题，如何准确地检索到想要的文献资料是目前知识管理领域亟待解决的问题。

目前，针对重名作者的鉴别问题已有很多国内外学者进行了研究与探讨，并提出了一系列的鉴别方法，比如人工鉴别方法、基于用户反馈的半自动化鉴别方法和基于机器学习的鉴别方法。人工鉴别方法依靠用户自己对检索到的文献进行主题识别，加重了用户的工作量，使得用户体验非常不理想；基于用户反馈的半自动化鉴别方法，要求作者自己提供详细的个人信息，包括E-mail，家庭住址，对用户的隐私造成了破坏，而且一旦论文作者出现搬家等问题，还要及时更改***中的个人信息，使得用户体验也不是很理想；目前研究最多的领域是基于机器学习的鉴别的方法，该方法又可以分为监督式的机器学习、无监督式的机器学习和半监督式的机器学习。但是这些方法都或多或少的存在一些问题，比如每一种方法都有自己适合的领域，并不能直接应用到文献重名作者的识别问题中，而且大部分消岐方法主要针对英文作者的重名问题，又比如在设置消歧的判断因子时考虑地不够充分，仅利用文献的单特征鉴别，影响了鉴别的准确性，有些作者使用二元分类法进行重名作者的鉴别，但是没有考虑到作者文献的全局分类特征，导致分类的精度不够高。

名称为"一种学者重名的消歧方法及其***"(公开号CN104111973A)的专利公开了一种学者重名的消歧方法，其基于异质学术网络数据通过标注获取标注数据集，并基于标注数据集，构建文档对二元分类的训练数据集，并基于训练数据集采用分类算法进行二元分类模型训练，采用迭代分类算法对需要消歧的数据集合进行迭代判别，得到最终对应真实学者的聚团，实现学者重名的消歧处理。但该消歧方法采用了人工标注的方式和二元分类模型，代价较大，且消歧效率比较低。

名称为"Author Disambiguation"(App.NO.US9305083)的美国专利的核心思想同样是期望利用机器学习和人工判断相结合的方式来实现高重名识别率，仍然带来较大的开销。

综上所述，客观上需要一种简单、有效的方法对科技文献中出现的重名现象进行检测。

发明内容

本发明所要解决的技术问题在于克服当前的网络文献知识库***在重名辨识能力方面存在的鉴别精度低、成本高的不足。

为此本发明提出一种文献作者重名检测方法，具有更强的鉴别精度和更稳定的召回率。技术方案如下：

一种文献作者重名检测方法，包括如下步骤：

步骤1：判断初始训练集是否为空，如果为空，进入步骤7，否则，则进入步骤2；

步骤2：从初始训练集中提取一个文献聚类，判断终止训练集是否为空，若不为空，则进入步骤4，若为空，进入步骤3；

步骤3：将从初始训练集中提取的文献聚类添加到终止训练集，进入步骤2；

步骤4：从终止训练集中提取文献聚类，进入步骤5；

步骤5：判断从初始训练集中提取的文献聚类与从终止训练集中提取的文献聚类是否满足消歧规则，若满足条件，则合并两个文献聚类，进入步骤6，若不满足，进入步骤3；

步骤6：将已经提取的文献聚类从初始训练集中移除，进入步骤1；

步骤7：进行二次聚类，将终止训练集赋值给二次聚类的初始聚类，进入步骤8；

步骤8：判断二次聚类的初始训练集是否为空，若为空，算法结束，否则进入步骤9；

步骤9：从二次聚类的初始训练集中提取一个文献聚类，判断二次聚类的终止训练集是否为空，若不为空，则进入步骤11，若为空，进入步骤10；

步骤10：将提取的文献聚类添加到二次聚类的终止训练集中，进入步骤9；

步骤11：逐次从终止训练集中提取文献聚类，进入步骤12；

步骤12：对二次聚类初始训练集提取的文献聚类与终止训练集的文献聚类进行合作者相似度判断，若结果满足相似度阈值，则合并两个文献聚类，进入步骤13，若不满足，进入步骤10；

步骤13：将已提取的文献聚类从二次聚类初始训练集中移除，进入步骤8。

特别地，步骤12中所述的相似度判断采用单特征相似度检测方法计算每个单特征相似度的阈值，包括如下步骤：

步骤1：从初始训练集中提取出两个单特征；

步骤2：计算已提取的两个单特征之间的相似程度；

步骤3：判断初始训练集是否为空，如果否，转步骤1，否则顺序执行；

步骤4：结束。

进一步，上述单特征相似度检测方法可以计算出每个单特征相似度的阈值。

进一步，步骤12中所述消歧规则的判断采用单特征消歧方法，该方法包括如下步骤：

步骤1：判断初始训练集是否为空，如果初始训练集为空，则算法结束；若初始训练集不为空，则进入步骤2；

步骤2：从初始训练集中提取一个文献实体，判断终止训练集是否为空，如果为空，进入步骤3，如果不为空，进入步骤4；

步骤3：将从初始训练集中提取的文献实体作为一个文献聚类加入终止训练集，进入步骤2；

步骤4：将初始训练集的文献实体逐次与终止训练集中的文献聚类的文献实体进行相似度对比，若满足条件，则将从初始训练集中提取的文献实体合并到终止训练集的文献聚类，进入步骤5，若不满足，进入步骤3；

步骤5：将提取的文献实体从初始训练集中移除，进入步骤1。

进一步，前述单特征消歧方法可以判断出每个单特征属性单独消歧时鉴别力的强弱和科学聚类次数，避免过度识别的问题。

进一步，步骤12中所述的消歧规则为多特征融合，包含以下步骤：

步骤1：用β代表单特征属性，用W_β表示每个单特征在单独消歧方面的能力，即单特征的消歧权重，使用F值作为单特征消歧能力强弱的指标，则单特征的权重计算公式如下：

步骤2：用V_β表示每个单特征相似度的阈值，为每一个单特征定义一个布尔变量B，则有B_β，定义：

步骤3：用Sim(a₁，a₂)表示两个作者实体的相似度，则定义作者重名消歧规则公式：

前述消歧规则融合了每一个单特征的消歧能力，当消歧力强的单特征不满足要求时，规则会顺次考虑其他的单特征。

本发明方法具有以下有益效果：

(1)在进行单特征的相似度匹配时，通过字符串的模糊匹配公式对文献单特征属性进行适当的模糊匹配，避免了过度精确匹配反而达不到理想效果的情况。

(2)通过单特征消歧方法判断出每个单特征属性单独消歧时鉴别力的强弱和科学聚类次数，避免过度识别的问题，对于后续制定消歧规则很有意义。

(3)由于每个单特征在进行重名作者的消歧鉴别时发挥的影响力是不一样的，有的单特征消歧力强，有的单特征消歧力弱，制定的消歧规则融合了每一个单特征属性的消歧能力，避免了单一单特征在消歧过程中带来的误差，在初次聚类的基础上再对合作者特征进行二次聚类，避免聚类不全问题。

附图说明

图1是单特征相似度检测方法的流程图。

图2是单特征消歧方法的流程图。

图3是文献作者重名检测方法的流程图。

具体实施方式

现结合附图对本发明的具体实施做进一步详细的说明。

为便于公众理解本发明的技术方案，下面先对本发明所涉及的概念及模型进行简要介绍。

一、单特征相似度

用L表示一篇文献，A_L表示文献的作者集，U_L表示作者的单位，K_L表示关键词，P_L表示除去同名作者以外的合作者集，J_L表示期刊，T_L表示标题。下面先分析一下五个单特征在消歧方面的作用：

作者单位(Unit)：作者单位具有很强的消歧能力。任意一篇文献都可以找到作者的单位信息，如果两篇文章有相同的作者名，并且又具有相同的作者单位，那么就可以粗略的假设这两个同名作者应该为同一个作者实体，本发明设定，两篇具有同名作者的文献L₁和L₂的作者单位的相似度表示为：

关键词(Keyword)：本发明用关键词来表示作者的研究方向，同一个作者实体的研究方向总是保持着某种连贯性，任意一篇文献都可以找到关键词，如果两篇文章有相同的作者名，并且又具有相似的关键词，那么就可以粗略的假设这两个同名作者应该为同一个作者实体，当然不排除两个同名作者研究方向也相同的情况，但如果考虑的过于仔细，反倒使鉴别能力下降，因此本发明设定，两篇具有同名作者的文献L₁和L₂研究方向的相似度表示为：

合作者(Partner)：如果两篇文章有相同的作者名，并且又具有相同的一到两个合作者，那么就可以假设这两个同名作者应该为同一个作者实体，当然不排除两个同名作者的合作者也出现同名的情况，但如果考虑的过于仔细，反倒使鉴别能力下降，因此本发明设定，两篇具有同名作者的文献L₁和L₂合作者的相似度表示为：

期刊(Journal)：一般情况下，每个作者都有偏好的一到多个期刊，因此期刊也有一定的连贯性，如果两篇文章有相同的作者名，并且又发表在同一个期刊上，那么就可以假设这两个同名作者应该为同一个作者实体，当然不排除同一个期刊上刊载两个同名作者的情况，但在考虑单特征的消歧能力时，不用考虑的过于仔细，因此本发明设定，两篇具有同名作者的文献L₁和L₂期刊的相似度表示为：

标题(Title)：一般情况下，如果两篇文章有相同的作者名，并且文献标题也相似，那么就可以粗略的假设这两个同名作者应该为同一个作者实体，因此本发明发明设定，两篇具有同名作者的文献L₁和L₂标题的相似度表示为：

二、单特征的选择与分析

面向科技文献的作者重名识别问题的关键在于合理单独利用和组合利用每个单特征，因此，提前判断出每个单特征属性鉴别力的强弱对于后续的消歧工作很有意义。有些单特征属性，比如作者单位、合作者具有很强的鉴别力，在制定消歧规则时可以将其作为消歧强因子重点考虑，另外一些单特征属性的消歧能力不强，在制定消歧规则时可以作为弱因子。因此，有必要检验一下各单特征在消歧过程中起的作用，即对不同的特征信息在构建的测试集上进行测试。

技术方案具体步骤为：

步骤1：作者对象建模。在面向科技文献的重名消歧过程中，每一个作者对象都可以用科技文献的其他单特征来表示，因此在本发明中，我们对作者对象进行建模，每个对象实例包含六个属性，用一个六元组来表示，则有：

A＝(N,U,K,P,J,T) (4)

式(1)中，N代表序号，U代表作者单位，K代表关键词，P代表合作者，J代表期刊，T代表标题。所有的作者对象将以六元组的形式写入文件，每一行表示一篇文献即一个作者实体

步骤2：单特征的模糊匹配。面向科技文献的作者重名消歧工作重点是充分、合理利用文献中的单特征属性进行辨识，因此需要对每一个单特征进行匹配。但是，如果每个单特征属性都进行过度的精确匹配，反而会收不到理想的鉴别效果，因为科技文献自身，其单特征属性就带有一定的模糊性，比如作者单位中的“大学”与“学院”、关键词中的“多移动Agent”与“多Agent”，因此，通过适当的模糊匹配反而会达到较好的匹配效果。本发明采用模糊匹配公式作为单特征相似度检测方法的数学基础，并通过实验验证每个单特征的模糊匹配阈值，以期当达到该阈值时，单特征会有比较好的匹配效果。

假设Si是一个单特征字符串，s_ij是其中的字符，则：

S_i＝{s_i1,s_i2,…s_ij,…s_in},i∈[1,m],j∈[1,n] (5)

两个字符串的相似度可以记作Sim(S_a，S_b)，则：

步骤3：单特征相似度检测方法。用β代表单特征属性，即β可表示六元组中的任意一个单特征，单特征相似度检测方法的处理过程如下：首先，从初始训练集中提取每篇文章的β；其次，将全部β属性进行两两比较，计算其相似度；最后，将相似度输出在本地文件。

步骤4：单特征消歧方法，方法以层次聚类作为聚类思想，用文献聚类表示具有同名作者的文献集合，初始训练集的每一个文献实体都是一个文献聚类。算法首先遍历并提取初始训练集中的每一个文献实体，将提取出来的文献实体与终止训练集中的文献聚类中的文献实体进行单特征相似度对比，计算相似度均值，若均值满足已有的阈值时，就可以判定两篇文献的作者为同一个作者，即合并两个文献实体为同一个文献聚类，若相似度条件不满足，则逐次与终止训练集的其他文献聚类进行比较，若都不满足条件，将该文献实体认为是一个新的文献聚类加入终止训练集中，同时从初始训练集中移除该文献实体，重复上述操作，直到初始训练集为空，算法结束。

步骤5：制定消歧规则。

①单特征的权重。每个单特征在进行重名作者的消歧鉴别时发挥的影响力是不一样的，有的单特征消歧力强，有的单特征消歧力弱，设计合理的消歧规则，有必要掌握每个单特征在消歧方面的影响因子，这个影响因子就是单特征的消歧权重，本发明用W_β表示。在介绍单特征相似度检测方法时，提到使用F值作为单特征消歧能力强弱的指标，因此，本发明提出五个单特征的权重计算公式如下：

②基于多特征融合的作者重名消歧规则。由单特征相似度检测方法可以计算出每个单特征相似度的阈值，则有V_β。为每一个单特征定义一个布尔变量B，则有B_β，定义：

用Sim(a₁，a₂)表示两个作者实体的相似度，则定义的基于多特征融合的作者重名消歧规则公式：

由以上方法制定的消歧规则融合了每一个单特征的消歧权重，当权重优先的单特征不满足时，规则会顺次考虑其他的单特征，这样就结合了精确匹配和模糊匹配的优点。

步骤6：文献作者重名检测方法基于多特征融合进行作者重名消歧工作，本方法在单特征相似度检测方法、单特征消歧方法的基础上，结合消歧规则，避免了单一单特征在消歧过程中带来的误差，在初次聚类的基础上再对合作者特征进行二次聚类，避免聚类不全问题。本方法以层次聚类作为聚类思想，时间复杂度为O(k*t*m*n)，k为初始训练集的大小，t为终止训练集的大小，m为初始训练集中每个文献聚类的大小，n为终止训练集中每个文献聚类的大小。开始时，初始训练集中每一个文献实体都是一个文献聚类，方法首先遍历并提取初始训练集中的每一个文献聚类即每一个文献实体，提取出来的文献聚类与终止训练集中的文献聚类中的文献实体进行对比，当满足消歧规则时，就可以判定两篇文献的作者为同一个作者，即合并两个文献聚类为一个文献聚类，若消歧规则不满足，则逐次与终止训练集中的其他文献聚类进行比较，若都不满足消歧规则，则将该文献聚类认为是一个新的文献聚类加入终止训练集中，同时从初始训练集中移除该文献聚类，重复上述操作，直到初始训练集为空，此时，初次聚类结束；将初次聚类的终止训练集作为二次聚类的初始训练集，重复上述操作，将消歧规则指定为判断两个训练集的合作者特征的相似度，避免初次聚类中对于合作者之间的关系考虑不全的情况，当二次聚类的初始训练集为空时，方法结束。

本发明方法的思路是首先提出单特征相似度检测方法，对文献间的单特征相似度进行检测并计算其阈值，具体流程如图1所示；其次提出单特征消岐方法，基于文献的单特征进行作者重名的消歧工作，引入权重评估每个单特征的消歧力，具体流程如图2所示；最后，基于以上工作，制定多特征融合的作者重名消歧规则，提出一种文献作者重名检测方法，进行重名消歧工作，具体流程如图3所示。

具体而言，本发明采用以下技术方案解决上述技术问题。

步骤1：对作者对象建模。在面向科技文献的重名消歧过程中，每一个作者对象都可以用科技文献的其他单特征来表示，因此，对作者对象进行建模，为后续重名检测方法奠定基础。

步骤2：定义单特征的模糊匹配公式。面向科技文献的作者重名消歧工作重点是充分、合理利用文献中的单特征属性进行辨识，因此需要对每一个单特征进行匹配。假设S_i是一个单特征字符串，s_ij是其中的字符，则：

S_i＝{s_i1,s_i2,…s_ij,…s_in},i∈[1,m],j∈[1,n] (10)

两个字符串的相似度可以记作Sim(Sa，Sb)，则：

步骤3：通过单特征相似度检测方法对两两单特征的相似度进行计算。

步骤4：每个单特征在进行重名作者的消歧鉴别时发挥的影响力是不一样的，有的单特征消歧力强，有的单特征消歧力弱，通过单特征消岐方法分别对每个单特征的消歧能力进行评估。

步骤5：制定消歧规则。基于步骤3和步骤4制定多特征融合的消歧规则，吸取了单特征在单独进行消歧时的优点，做为文献作者重名检测方法的数学基础。

步骤6：文献作者重名检测方法在单特征相似度检测方法、单特征消歧方法的基础上，结合消歧规则，避免了单一单特征在消歧过程中带来的误差，在初次聚类的基础上再对合作者特征P进行二次聚类，避免聚类不全问题。

本发明以科技文献中作者重名问题为切入点，选取与作者紧密联系的五个单特征，首先分析单特征相似度阈值选取问题，然后分析单特征消歧问题，制定消歧规则，最后提出一种文献作者重名检测方法，完成作者重名的消歧工作。

本发明所要解决的技术问题在于克服当前的网络文献知识库***在重名辨识能力的不足，提供一种文献作者重名检测方法，具有更强的鉴别精度和更稳定的召回率。同名作者的辨识是一个非常重要和复杂的研究课题。在科技文献的检索与调研工作中，大量的作者重名现象降低了工作的准确性，降低搜索质量，导致科研周期的不必要延长。通过合理的方法对重名作者进行鉴别，可以有效改善检索质量，节约科研工作的时间成本。本发明提出一种文献作者重名检测方法，通过制定多特征融合的消歧规则对科技文献中的重名现象进行聚类分析。本发明不仅充分利用字符串的模糊匹配公式对文献单特征属性进行适当的模糊匹配，避免了过度精确匹配反而达不到理想效果的情况，而且判断出每个单特征属性单独消歧时鉴别力的强弱和科学聚类次数，避免过度识别的问题，同时融合了每一个单特征属性的消歧能力，避免了单一单特征在消歧过程中带来的误差，提高了检测精度。

本发明方法基于多特征融合进行作者重名消歧工作，以层次聚类作为聚类思想，所述方法在单特征相似度检测方法、单特征消歧方法的基础上，结合消歧规则，避免了单一单特征在消歧过程中带来的误差，在初次聚类的基础上再对合作者特征进行二次聚类，有效地避免了聚类不全的问题。

Claims

1.一种文献作者重名检测方法，其特征在于包括如下步骤：

步骤4：从终止训练集中提取文献聚类，进入步骤5；

步骤11：逐次从终止训练集中提取文献聚类，进入步骤12；

2.根据权利要求1所述的文献作者重名检测方法，其特征在于步骤12中所述的相似度判断采用单特征相似度检测方法计算每个单特征相似度的阈值，包括如下步骤：

步骤1：从初始训练集中提取出两个单特征；

步骤2：计算已提取的两个单特征之间的相似程度；

步骤4：结束。

3.根据权利要求2所述的文献作者重名检测方法，其特征在于所述单特征相似度检测方法可以计算出每个单特征相似度的阈值。

4.根据权利要求1所述的文献作者重名检测方法，其特征在于步骤5中所述消歧规则的判断采用单特征消歧方法，该方法包括如下步骤：

5.根据权利要求4所述的文献作者重名检测方法，其特征在于所述单特征消歧方法可以判断出每个单特征属性单独消歧时鉴别力的强弱和科学聚类次数，避免过度识别的问题。

6.根据权利要求1所述的文献作者重名检测方法，其特征在于步骤5中所述的消歧规则为多特征融合，包含以下步骤：

步骤1：用β代表单特征属性，用W_β表示每个单特征在单独消歧方面的能力，即单特征的消歧权重，使用F值作为单特征消歧能力强弱的指标，F_β为单特征属性β消歧能力强弱的指标，作者对象A包含六个属性，用六元组A＝(N,U,K,P,J,T)表示，N代表序号，U代表作者单位，K代表关键词，P代表合作者，J代表期刊，T代表标题，则单特征的权重计算公式如下：

步骤2：用V_β表示每个单特征相似度的阈值，为每一个单特征定义一个布尔变量B，L₁和L₂文献表示两篇文献，则有B_β，定义：

7.根据权利要求6所述的文献作者重名检测方法，其特征在于：所述消歧规则融合了每一个单特征的消歧能力，当消歧力强的单特征不满足要求时，规则会顺次考虑其他的单特征。