CN108304380B

CN108304380B - 一种融合学术影响力的学者人名消除歧义的方法

Info

Publication number: CN108304380B
Application number: CN201810067134.3A
Authority: CN
Inventors: 邓辉舫; 李超然
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-01-24
Filing date: 2018-01-24
Publication date: 2020-09-22
Anticipated expiration: 2038-01-24
Also published as: CN108304380A

Abstract

本发明公开了一种融合学术影响力的学者人名消除歧义的方法，该方法是将消歧数据子集和源数据集依据其合著及引用关系构建社交网络，根据网络关系计算消歧数据子集中各个节点的影响力；在消歧数据子集内部根据节点关系分别构建学者与学者，学者与文献，文献与文献，三个网络关系，使用基于排序的损失函数，并结合节点影响力相似度在多个网络中联合学习学者节点间的相似度；基于节点相似度和节点影响力构造聚类函数，从而实现较好的消歧效果。本发明在保护个人隐私的同时克服学术数据中的信息缺失问题，充分利用社交网络特征，融合节点影响力与节点相似度，有效提升学者人名消歧效果。

Description

一种融合学术影响力的学者人名消除歧义的方法

技术领域

本发明涉及实体消歧的技术领域，尤其是指一种融合学术影响力的学者人名消除歧义的方法。

背景技术

如今绝大多数学术资料均以电子资源形式存储于网络数据库中，科研活动越来越依赖于文献***，通过文献***可以获取学者信息和研究文献。学者人名歧义包括：(1)相同学者名在不同文献中记录形式不同；(2)不同学者在文献中名字相同。由于可能存在大量同名学者，且在科技文献中存在简写形式，维护这些数据的文献服务器可能会将多个学者的文献错误聚合，其信息的准确性将直接影响人们学术活动的有效性，因此文献资源面临着严峻的学者人名消歧问题。高效准确的学者名称消歧有助于正确组织文献及学者信息，方便用户获取所需资源，在实际应用中有重要意义。

学者人名消歧属于实体消歧领域的一个分支，现有工作包含基于监督学习的消歧方法和无监督式的消歧方法，目标是建立文献与现实中实体的对应关系。基于监督学习的方法是指，根据人工标注的数据，主要包括学者名字、文献标题、出版地点、研究领域、电子邮件等属性信息，生成分类模型，用其判断相同学者名字是否属于同一个学者实体。但数字文献信息繁多且存在信息缺失、信息错误的问题，需要大量数据标注和清洗，成本较高。无监督名称消歧方法是将记录划分为几个群组，使得每个群组包含来自唯一实体的记录。其方法是利用属性计算记录间的相似度，根据相似度进行聚类。但由于属性相似度约束往往较弱，且难以客观判定区分实体的相似度阈值，消歧准确率往往较低。另一方面，学者数据挖掘涉及学者个人隐私，如何在保护学者隐私的前提下进行人名消歧也是这一领域的一个重要问题。

学者的学术影响力是衡量科研主体的工作质量和重要性的重要指标，现有的学者影响力评估方法大多基于学者相关文献的引用次数，通过学者间合著关系及文献间引用关系构成网络进行学术影响力评估。常用的方式是采用搜索引擎中PageRank方法，对文献及学者重要性进行排序，同时考虑节点间相似度对学术影响力传播的影响进行学术影响力评估。学者的学术影响力是学者之间很有区分度的一个特征，然而现有的学者人名消歧方法多是从学者单个节点角度出发，根据单个节点的特征，而没有从网络全局出发考虑学者的学术影响力。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种融合学术影响力的学者人名消除歧义的方法，在保护个人隐私的同时克服学术数据中的信息缺失问题，充分利用社交网络特征，融合节点学术影响力与节点相似度，有效提升学者人名消歧效果。

为实现上述目的，本发明所提供的技术方案为：一种融合学术影响力的学者人名消除歧义的方法，该方法是以实现将待消歧人名与学者实体准确对应为目标，通过融合学者学术影响力，改进相似度计算模型，提出增强的学术影响力计算模型，而后通过改进网络结构、模型聚类函数和模型组合，以达到更高的消歧准确率；其包括以下步骤：

步骤S1、将学者数据集合U按名字分组得到n个名字组A，根据文献将每个名字组划分为m个学者实体节点a；

步骤S2、根据步骤S1划分结果，对每个组A，分别在组内学者实体节点与U中名字组节点间通过合作关系建立合作关系网络G；

步骤S3、对于每个组A，结合节点相似度和自身重要性，在合作网络G上计算A中各个学者实体节点a基于特征集F的学术影响力

步骤S4、使用网络嵌入匿名图方法，结合步骤S3所得节点的学术影响力，得到文献矩阵D，根据D计算得到名字组内学者实体节点a带学术影响力约束的相似度S_a；

步骤S5、利用步骤S4所得相似度，重复步骤S1～S3重新计算学术影响力，得到学者实体节点a基于学术影响力相似度的新的学术影响力

其中S表示该节点带学术影响力约束的相似度；

步骤S6、根据节点学术影响力的差异和相似度得到聚类函数C，使用凝聚层次聚类算法得到消歧结果。

在步骤S1中，数据集合U中包含待消歧的各个同名学者名字组A，U＝{A₁,A₂,...,A_n}，其中A_i为U中第i个名字组，包含A_i所对应学者人名的所著文献属性及其合著者信息；对于所得到的每个名字组，以文献来区分学者实体，将组中每个文献中的待消歧学者名字作为一个学者实体；假设名字组A_i中有m篇文献，则将该名字组划分为m个学者实体a_ij，即A_i＝{a_i1,a_i2,...,a_im}，其中0＜i≤n,0＜j≤m。

在步骤S2中，将步骤S1中所得每一个名字组A中的学者实体节点a，与A在数据集合U上的补集C_UA中的各个名字组节点间建立合作关系网络G＝(A∪C_UA,E)，其中，E为网络中边的集合，表示节点间的合作关系，各实体节点与名字组节点分别通过合著关系和引用关系构成边，合著关系为双向边，引用关系为单向边。

在步骤S3中，根据步骤S2所得的合作网络，在包含学者和文献特征的数据集上采用细粒度特征的学术影响力评估算法，结合自身重要性和影响概率构建基于特征集F的学术影响力；F为从待消歧数据集合U中选取的特征集F＝{f₁,f₂,...,f_n}，其中，f_n表示F中第n个特征；为A定义一组特征强度向量

其中：

a、节点的自身重要性I^out为节点基于角色的重要性，以特征强度来度量，其关系表示为

其中n为特征数量，f_i表示在第i个特征上的强度；

b、节点间的影响概率

由直接影响

即节点相似度和间接影响

即公共边数量构成；其关系为

其中q为直接影响在影响概率中所占比例；结合节点的自身重要性I^out，及其邻居节点的影响概率

节点的初始学术影响力I^I表示如下：

其中p为自身重要性在初始学术影响力中所占的比例，N表示计算节点对象的邻居节点集合，节点a和A的邻居节点集合分别表示为N_a和N_A；

假设节点以一定概率相互传播；节点间的学术影响力贡献I^F表示如下：

其中

为运算目标节点的邻居节点的学术影响力，

为节点间的传播概率，节点a对A的传播概率表示为

A对a的传播概率表示为

初始时，I^F＝I^I。

迭代计算节点的学术影响力，得到实体节点a较理想的学术影响力，表示为

在步骤S4中，对于每一个名字组内的节点，根据其合作关系构建学者-学者网络G_pp、学者-文献网络G_pd、文献-文献网络G_dd，文献用d表示，d_k表示文献集合D中第k篇文献，三个网络如下：

G_pp＝(A^x,E_pp)

式中，A^x为合著者集合，E_pp为网络中的边的集合，表示学者间的合著关系；

G_pd＝(A∪D,E_pd)

式中，A为学者名字组，D为该名字组中学者所著文献集合，E_pd为学者与文献间边的集合，表示学者实体a与文献d的关系，a∈A,d∈D；若学者实体a_ij著有文献d_k，则a_ij与d_k间存在边

a_ij∈A_i；

G_dd＝(D,E_dd)

式中，D表示文献，E_dd为文献间边的集合，表示文献与文献的关系，若第i篇文献d_i与和第j篇文献d_j相似，则d_i与d_j间存在边e_ij∈E_dd；相似性定义包含根据学者-学者、学者-文献网络关系所形成的合作交集、下一跳邻居交集及节点学术影响力的相似度：定义

为文献d_i的合著者集合，

为包含

中所有学者邻居的扩展集合，

其中

表示合著者b在网络G_pp中与邻居集合的相似性；

文献d_i与d_j间相似度

其密切程度

其中

为d_i的转置。以文献矩阵D来区分各实体节点的概率

和

分别为正负训练集，找到使得P(＞|D)最大的文献矩阵D：

表示由文献d_i组成的矩阵在N×k维空间R的转置，其中1＜i≤N；根据D得到节点a的相似度表达S_a。

在步骤S5中，重复步骤S1～S3，在步骤S3中，利用步骤S4所得实体节点a的相似度S_a重新计算节点的影响概率，

其中，λ为归一化因子，结合自身重要性和节点相似度，得到名字节点a基于学术影响力相似度的新的学术影响力

其中S表示该节点带学术影响力约束的相似度。

在步骤S6中，将步骤S4所得文献矩阵D和步骤S5所得节点学术影响力

作为输入，以节点属性相似度S_a和节点学术影响力

的乘积构成聚类函数C，

节点a_ij的聚类函数表示为

取阈值θ，若节点a_ij与节点a_ik聚类结果的距离

满足

则两节点属于同一学者实体，并将其合并为一个新组，得到y个新组，假设原始有n个分组，名字组A_i有x个节点，通过对A_i进行消歧后的消歧结果为n+x-1+y-1，即此时的名字组数。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明在节点相似度计算中加入了节点学术影响力约束，考虑节点间拓扑特征的同时，通过节点学术影响力的相似性约束来提升节点相似度计算的准确性。

2、本发明结合多网络联合嵌入方法所得相似度来计算增强的节点学术影响力，将普通基于特征相似度的学术影响力扩展为融合学术影响力相似度的节点学术影响力，削弱了单纯考虑特征相似度时节点特征信息稀疏的影响，并提升了对特征信息的容错性。

3、本发明使用融合了增强的节点学术影响力和相似度的聚类算法进行学者人名消歧，既考虑了节点相似性，也加入节点间的相互影响，因此，融合了学术影响力的消歧算法更能有效的区分不同节点，具有更高的消歧准确率。

附图说明

图1是本发明的方法流程图。

图2是本发明的逻辑结构图。

图3是本发明发明内容具体步骤中学术影响力计算的结构图。

图4是本发明具体实施方式中学术影响力计算的节点合作关系图。

图5是本发明具体实施方式中相似度计算的学者-学者合作关系图。

图6是本发明具体实施方式中相似度计算的学者-文献关系图。

图7是本发明具体实施方式中相似度计算的文献-文献关系图。

图8是本发明具体实施方式中相似度计算的逻辑图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本实施例所提供的融合学术影响力的学者人名消除歧义的方法，主要是将待消歧数据子集和源数据集依据其合著及引用关系构建社交网络，根据网络关系计算待消歧数据子集中各个节点的学术影响力；在待消歧数据子集内部根据节点关系分别构建学者与学者，学者与文献，文献与文献，三个网络关系，使用基于排序的损失函数，并结合节点学术影响力相似度在多个网络中联合学习学者节点间的相似度；基于节点相似度和节点学术影响力构造聚类函数，从而实现较好的消歧效果。

如图1和图2所示，上述方法包括以下步骤：

S1、将学者数据集合U按名字分组得到n个名字组A，根据文献将每个名字组划分为m个学者实体a；

S2、根据步骤S1划分结果，对每个组A，分别在组内学者实体节点与U中名字组节点间通过合作关系建立合作关系网络G；

S3、对于每个组A，结合节点相似度和自身重要性，在合作网络G上计算A中各个学者实体节点a基于特征集F的学术影响力

S4、使用网络嵌入匿名图方法，结合步骤S3所得节点的学术影响力，得到文献矩阵D，根据D计算得到名字组内学者实体节点a带学术影响力约束的相似度S_a；

S5、利用步骤S4所得相似度，重复步骤S1～S3重新计算学术影响力，得到学者实体节点a基于学术影响力相似度的新的学术影响力

其中S表示该节点带学术影响力约束的相似度；

S6、根据节点学术影响力的差异和相似度得到聚类函数C，使用凝聚层次聚类算法得到消歧结果。

步骤S1的具体实施方式是：将实际学术数据集Arnetminer作为U，U中包含待消歧的名字组A，U＝{A₁,A₂,..A_i.,A_n}，A_i表示U中第i个名字组，包含A_i对应学者人名所著的所有文献属性及其合著者信息；如U＝{Ajay Gupta,Alok Gupta,...}，文件Ajay Gupta是名字为Ajay Gupta的学者所著文献的集合，其中包含文献的标题，出版时间，出版社，合著者等信息；对每个名字组A_i，以文献来区分学者实体，即每篇文献对应一个学者实体；以名字组A₁为消歧案例对象，假设A₁中有m篇文献，则A₁＝{a₁₁,a₁₂,..a_1j.,a_1m}，其中a_1j为A₁中第j个学者实体，0＜j≤m；

步骤S2的具体实施方式是：将步骤S1中所得名字组A₁中的所有学者实体，与A₁在数据集合U上的补集C_UA₁中的各个名字组A_i间建立合作关系网络G₁＝(A₁∪C_UA₁,E)，E为网络中边的集合，表示节点间的合作关系，如图4学术影响力计算的节点合作关系图所示，节点间分别通过合著关系和引用关系构成有向边，合著关系为双向边，引用关系为单向边；如a₁₁和a₁₂与A₂间都存在边，则节点a₁₁与a₁₂存在一条公共边。

步骤S3的具体实施方式是：根据步骤S2所得的合作网络，采用细粒度特征的学术影响力评估算法，如图3所示，结合自身重要性和影响概率构建基于特征集F的学术影响力；从待消歧数据集合U中选取特征集F；为A定义一组特征强度向量

f_k的值表示节点a在第k个特征上的强度，我们取5个特征，即n＝5。其中，影响概率由直接影响和间接影响构成。

在网络G₁＝(A₁∪C_UA₁,E)中，名字组A₁中第j个节点a_1j的特征强度向量

表示节点a_1j在第k个特征上的强度。对于节点间的每一条边e(a_1j,A_i)∈E，A_i∈C_UA₁,节点间的链接强度为

其中：

自身重要性为节点基于角色的重要性，以特征强度来度量，我们选取5个特征，即此处n＝5，则节点a_1j的自身重要性

节点A_i与a_1j间的影响概率

由直接影响

和间接影响

构成，各占比重分别取值0.5，该影响概率为

直接影响为基于相似度的影响，节点A_i与a_1j间的特征相似度

为各个特征相似度s的整合，即

其中s_k表示与A_i在第k个特征上的相似度。该直接影响

为节点a_1j与A_i间的链接强度；间接影响

由公共边数量决定；结合自身重要性和影响概率，各占比重分别取值0.5，节点a_1j的初始学术影响力为：

(

为a_1j的邻居节点A_i的集合)

节点A_i到a_1j的学术影响力传播概率

可以表示为

值越大表示传播的概率越大；节点A_i对a_1j的贡献：

(初始时，

)；同理可得节点A_i的邻居对其影响力贡献

迭代得到A_i新的影响力

其中A_g为U中A_i的邻居节点；

迭代计算节点的学术影响力，得到实体节点a_1j较理想的最终学术影响力

步骤S4的具体实施方式是：对于每一个名字组，根据组内节点合作关系构建学者-学者G_pp、学者-文献G_pd、文献-文献G_dd三个网络并结合节点学术影响力提取相似文献矩阵，文献用d表示，d_k表示文献集合D中第k篇文献，各网络结构分别如图5、图6、图7所示，逻辑图如图8所示，其中：

G_pp＝(A^x,E_pp)

式中，A^x为合著者集合，E_pp为网络中的边的集合，表示学者间的合著关系；若节点a_1j与A_i存在一次合著关系，则存在边

边的权重

为1；

G_pd＝(A∪D,E_pd)

式中，A表示学者名字组，D为该名字组中学者所著文献集合，E_pd为学者与文献间边的集合，表示学者a与文献d的关系，a∈A,d∈D；若学者a_ij著有文献d_k，则a_ij与d_k间存在边

此处权重w_ij为1，a_ij∈A_i；

G_dd＝(D,E_dd)

式中，D为文献集合，E_pd为文献间边的集合，表示文献与文献的关系，文献用d表示，若第i篇文献d_i与和第j篇文献d_j相似，则d_i与d_j间存在边e_ij∈E_dd；相似性定义包含根据学者-学者、学者-文献网络关系所形成的合作交集、下一跳邻居交集及节点学术影响力的相似度：定义

为文献d_i的合著者集合，

为

中所有学者邻居的扩展集合，则

其中

表示b在网络G_pp中的邻居集合相似性；

文献d_i与d_j间相似度

其密切程度

为d_i所构成向量的转置。以文献矩阵D来区分各个人名节点的概率

其中

和

分别为正负训练集，找到能够使得P(＞|D)最大的文献矩阵D：

表示由文献d_i，1＜i≤N组成的矩阵在N×k维空间R的转置，根据D得到节点a_ij的相似度表达

步骤S5的具体实施方式是：重复步骤S1～S3，在步骤S3中，利用步骤S4所得相似度

重新计算节点a_ij的影响概率，

其中，λ为归一化因子，结合自身重要性和节点相似度，得到名字节点a_ij基于学术影响力相似度的新的学术影响力

其中S表示带学术影响力约束的相似度，计算对象为a_ij时，S代表

步骤S6的具体实施方式是：将步骤S4所得文献矩阵D和步骤S5所得

作为输入，以节点相似度

和节点学术影响力

的乘积构成聚类函数C，节点a_ij的聚类函数表示为

取阈值θ，若节点a₁₁与节点a₁₂聚类结果的距离

满足

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种融合学术影响力的学者人名消除歧义的方法，其特征在于：该方法是以实现将待消歧人名与学者实体准确对应为目标，通过融合学者影响力，改进相似度计算模型，提出增强的影响力计算模型，而后通过改进网络结构、模型聚类函数和模型组合，以达到更高的消歧准确率；其包括以下步骤：

数据集合U中包含待消歧的各个同名学者名字组A，U＝{A₁,A₂,...,A_n}，其中A_i为U中第i个名字组，包含A_i所对应学者人名的所著文献属性及其合著者信息；对于所得到的每个名字组，以文献来区分学者实体，将组中每个文献中的待消歧学者名字作为一个学者实体；假设名字组A_i中有m篇文献，则将该名字组划分为m个学者实体a_ij，即A_i＝{a_i1,a_i2,...,a_im}，其中0＜i≤n,0＜j≤m；

步骤S3、对于每个组A，结合节点相似度和自身重要性，在合作关系网络G上计算A中各个学者实体节点a基于特征集F的学术影响力

其中S表示该节点带学术影响力约束的相似度；

2.根据权利要求1所述的一种融合学术影响力的学者人名消除歧义的方法，其特征在于：在步骤S2中，将步骤S1中所得每一个名字组A中的学者实体节点a，与A在数据集合U上的补集C_UA中的各个名字组节点间建立合作关系网络G＝(A∪C_UA,E)，其中，E为网络中边的集合，表示节点间的合作关系，各实体节点与名字组节点分别通过合著关系和引用关系构成边，合著关系为双向边，引用关系为单向边。

3.根据权利要求1所述的一种融合学术影响力的学者人名消除歧义的方法，其特征在于：在步骤S3中，根据步骤S2所得的合作关系网络，在包含学者和文献特征的数据集上采用细粒度特征的学术影响力评估算法，结合自身重要性和影响概率构建基于特征集F的学术影响力；F为从待消歧数据集合U中选取的特征集F＝{f₁,f₂,...,f_n}，其中，f_n表示F中第n个特征；为A定义一组特征强度向量