CN108304380B - 一种融合学术影响力的学者人名消除歧义的方法 - Google Patents

一种融合学术影响力的学者人名消除歧义的方法 Download PDF

Info

Publication number
CN108304380B
CN108304380B CN201810067134.3A CN201810067134A CN108304380B CN 108304380 B CN108304380 B CN 108304380B CN 201810067134 A CN201810067134 A CN 201810067134A CN 108304380 B CN108304380 B CN 108304380B
Authority
CN
China
Prior art keywords
node
influence
similarity
academic
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810067134.3A
Other languages
English (en)
Other versions
CN108304380A (zh
Inventor
邓辉舫
李超然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810067134.3A priority Critical patent/CN108304380B/zh
Publication of CN108304380A publication Critical patent/CN108304380A/zh
Application granted granted Critical
Publication of CN108304380B publication Critical patent/CN108304380B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合学术影响力的学者人名消除歧义的方法,该方法是将消歧数据子集和源数据集依据其合著及引用关系构建社交网络,根据网络关系计算消歧数据子集中各个节点的影响力;在消歧数据子集内部根据节点关系分别构建学者与学者,学者与文献,文献与文献,三个网络关系,使用基于排序的损失函数,并结合节点影响力相似度在多个网络中联合学习学者节点间的相似度;基于节点相似度和节点影响力构造聚类函数,从而实现较好的消歧效果。本发明在保护个人隐私的同时克服学术数据中的信息缺失问题,充分利用社交网络特征,融合节点影响力与节点相似度,有效提升学者人名消歧效果。

Description

一种融合学术影响力的学者人名消除歧义的方法
技术领域
本发明涉及实体消歧的技术领域,尤其是指一种融合学术影响力的学者人名消除歧义的方法。
背景技术
如今绝大多数学术资料均以电子资源形式存储于网络数据库中,科研活动越来越依赖于文献***,通过文献***可以获取学者信息和研究文献。学者人名歧义包括:(1)相同学者名在不同文献中记录形式不同;(2)不同学者在文献中名字相同。由于可能存在大量同名学者,且在科技文献中存在简写形式,维护这些数据的文献服务器可能会将多个学者的文献错误聚合,其信息的准确性将直接影响人们学术活动的有效性,因此文献资源面临着严峻的学者人名消歧问题。高效准确的学者名称消歧有助于正确组织文献及学者信息,方便用户获取所需资源,在实际应用中有重要意义。
学者人名消歧属于实体消歧领域的一个分支,现有工作包含基于监督学习的消歧方法和无监督式的消歧方法,目标是建立文献与现实中实体的对应关系。基于监督学习的方法是指,根据人工标注的数据,主要包括学者名字、文献标题、出版地点、研究领域、电子邮件等属性信息,生成分类模型,用其判断相同学者名字是否属于同一个学者实体。但数字文献信息繁多且存在信息缺失、信息错误的问题,需要大量数据标注和清洗,成本较高。无监督名称消歧方法是将记录划分为几个群组,使得每个群组包含来自唯一实体的记录。其方法是利用属性计算记录间的相似度,根据相似度进行聚类。但由于属性相似度约束往往较弱,且难以客观判定区分实体的相似度阈值,消歧准确率往往较低。另一方面,学者数据挖掘涉及学者个人隐私,如何在保护学者隐私的前提下进行人名消歧也是这一领域的一个重要问题。
学者的学术影响力是衡量科研主体的工作质量和重要性的重要指标,现有的学者影响力评估方法大多基于学者相关文献的引用次数,通过学者间合著关系及文献间引用关系构成网络进行学术影响力评估。常用的方式是采用搜索引擎中PageRank方法,对文献及学者重要性进行排序,同时考虑节点间相似度对学术影响力传播的影响进行学术影响力评估。学者的学术影响力是学者之间很有区分度的一个特征,然而现有的学者人名消歧方法多是从学者单个节点角度出发,根据单个节点的特征,而没有从网络全局出发考虑学者的学术影响力。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种融合学术影响力的学者人名消除歧义的方法,在保护个人隐私的同时克服学术数据中的信息缺失问题,充分利用社交网络特征,融合节点学术影响力与节点相似度,有效提升学者人名消歧效果。
为实现上述目的,本发明所提供的技术方案为:一种融合学术影响力的学者人名消除歧义的方法,该方法是以实现将待消歧人名与学者实体准确对应为目标,通过融合学者学术影响力,改进相似度计算模型,提出增强的学术影响力计算模型,而后通过改进网络结构、模型聚类函数和模型组合,以达到更高的消歧准确率;其包括以下步骤:
步骤S1、将学者数据集合U按名字分组得到n个名字组A,根据文献将每个名字组划分为m个学者实体节点a;
步骤S2、根据步骤S1划分结果,对每个组A,分别在组内学者实体节点与U中名字组节点间通过合作关系建立合作关系网络G;
步骤S3、对于每个组A,结合节点相似度和自身重要性,在合作网络G上计算A中各个学者实体节点a基于特征集F的学术影响力
Figure GDA0002506761640000021
步骤S4、使用网络嵌入匿名图方法,结合步骤S3所得节点的学术影响力,得到文献矩阵D,根据D计算得到名字组内学者实体节点a带学术影响力约束的相似度Sa
步骤S5、利用步骤S4所得相似度,重复步骤S1~S3重新计算学术影响力,得到学者实体节点a基于学术影响力相似度的新的学术影响力
Figure GDA0002506761640000031
其中S表示该节点带学术影响力约束的相似度;
步骤S6、根据节点学术影响力的差异和相似度得到聚类函数C,使用凝聚层次聚类算法得到消歧结果。
在步骤S1中,数据集合U中包含待消歧的各个同名学者名字组A,U={A1,A2,...,An},其中Ai为U中第i个名字组,包含Ai所对应学者人名的所著文献属性及其合著者信息;对于所得到的每个名字组,以文献来区分学者实体,将组中每个文献中的待消歧学者名字作为一个学者实体;假设名字组Ai中有m篇文献,则将该名字组划分为m个学者实体aij,即Ai={ai1,ai2,...,aim},其中0<i≤n,0<j≤m。
在步骤S2中,将步骤S1中所得每一个名字组A中的学者实体节点a,与A在数据集合U上的补集CUA中的各个名字组节点间建立合作关系网络G=(A∪CUA,E),其中,E为网络中边的集合,表示节点间的合作关系,各实体节点与名字组节点分别通过合著关系和引用关系构成边,合著关系为双向边,引用关系为单向边。
在步骤S3中,根据步骤S2所得的合作网络,在包含学者和文献特征的数据集上采用细粒度特征的学术影响力评估算法,结合自身重要性和影响概率构建基于特征集F的学术影响力;F为从待消歧数据集合U中选取的特征集F={f1,f2,...,fn},其中,fn表示F中第n个特征;为A定义一组特征强度向量
Figure GDA0002506761640000041
其中:
a、节点的自身重要性Iout为节点基于角色的重要性,以特征强度来度量,其关系表示为
Figure GDA0002506761640000042
其中n为特征数量,fi表示在第i个特征上的强度;
b、节点间的影响概率
Figure GDA0002506761640000043
由直接影响
Figure GDA0002506761640000044
即节点相似度和间接影响
Figure GDA0002506761640000045
即公共边数量构成;其关系为
Figure GDA0002506761640000046
其中q为直接影响在影响概率中所占比例;结合节点的自身重要性Iout,及其邻居节点的影响概率
Figure GDA0002506761640000047
节点的初始学术影响力II表示如下:
Figure GDA0002506761640000048
其中p为自身重要性在初始学术影响力中所占的比例,N表示计算节点对象的邻居节点集合,节点a和A的邻居节点集合分别表示为Na和NA
假设节点以一定概率相互传播;节点间的学术影响力贡献IF表示如下:
Figure GDA0002506761640000049
其中
Figure GDA00025067616400000410
为运算目标节点的邻居节点的学术影响力,
Figure GDA00025067616400000411
为节点间的传播概率,节点a对A的传播概率表示为
Figure GDA00025067616400000412
A对a的传播概率表示为
Figure GDA00025067616400000413
初始时,IF=II
迭代计算节点的学术影响力,得到实体节点a较理想的学术影响力,表示为
Figure GDA00025067616400000414
在步骤S4中,对于每一个名字组内的节点,根据其合作关系构建学者-学者网络Gpp、学者-文献网络Gpd、文献-文献网络Gdd,文献用d表示,dk表示文献集合D中第k篇文献,三个网络如下:
Gpp=(Ax,Epp)
式中,Ax为合著者集合,Epp为网络中的边的集合,表示学者间的合著关系;
Gpd=(A∪D,Epd)
式中,A为学者名字组,D为该名字组中学者所著文献集合,Epd为学者与文献间边的集合,表示学者实体a与文献d的关系,a∈A,d∈D;若学者实体aij著有文献dk,则aij与dk间存在边
Figure GDA0002506761640000051
aij∈Ai
Gdd=(D,Edd)
式中,D表示文献,Edd为文献间边的集合,表示文献与文献的关系,若第i篇文献di与和第j篇文献dj相似,则di与dj间存在边eij∈Edd;相似性定义包含根据学者-学者、学者-文献网络关系所形成的合作交集、下一跳邻居交集及节点学术影响力的相似度:定义
Figure GDA0002506761640000052
为文献di的合著者集合,
Figure GDA0002506761640000053
为包含
Figure GDA0002506761640000054
中所有学者邻居的扩展集合,
Figure GDA0002506761640000055
其中
Figure GDA0002506761640000056
表示合著者b在网络Gpp中与邻居集合的相似性;
文献di与dj间相似度
Figure GDA0002506761640000057
其密切程度
Figure GDA0002506761640000058
其中
Figure GDA0002506761640000059
为di的转置。以文献矩阵D来区分各实体节点的概率
Figure GDA00025067616400000510
Figure GDA00025067616400000511
Figure GDA00025067616400000512
分别为正负训练集,找到使得P(>|D)最大的文献矩阵D:
Figure GDA00025067616400000513
表示由文献di组成的矩阵在N×k维空间R的转置,其中1<i≤N;根据D得到节点a的相似度表达Sa
在步骤S5中,重复步骤S1~S3,在步骤S3中,利用步骤S4所得实体节点a的相似度Sa重新计算节点的影响概率,
Figure GDA00025067616400000514
其中,λ为归一化因子,结合自身重要性和节点相似度,得到名字节点a基于学术影响力相似度的新的学术影响力
Figure GDA00025067616400000515
其中S表示该节点带学术影响力约束的相似度。
在步骤S6中,将步骤S4所得文献矩阵D和步骤S5所得节点学术影响力
Figure GDA00025067616400000516
作为输入,以节点属性相似度Sa和节点学术影响力
Figure GDA0002506761640000061
的乘积构成聚类函数C,
Figure GDA0002506761640000062
节点aij的聚类函数表示为
Figure GDA0002506761640000063
取阈值θ,若节点aij与节点aik聚类结果的距离
Figure GDA0002506761640000064
满足
Figure GDA0002506761640000065
则两节点属于同一学者实体,并将其合并为一个新组,得到y个新组,假设原始有n个分组,名字组Ai有x个节点,通过对Ai进行消歧后的消歧结果为n+x-1+y-1,即此时的名字组数。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明在节点相似度计算中加入了节点学术影响力约束,考虑节点间拓扑特征的同时,通过节点学术影响力的相似性约束来提升节点相似度计算的准确性。
2、本发明结合多网络联合嵌入方法所得相似度来计算增强的节点学术影响力,将普通基于特征相似度的学术影响力扩展为融合学术影响力相似度的节点学术影响力,削弱了单纯考虑特征相似度时节点特征信息稀疏的影响,并提升了对特征信息的容错性。
3、本发明使用融合了增强的节点学术影响力和相似度的聚类算法进行学者人名消歧,既考虑了节点相似性,也加入节点间的相互影响,因此,融合了学术影响力的消歧算法更能有效的区分不同节点,具有更高的消歧准确率。
附图说明
图1是本发明的方法流程图。
图2是本发明的逻辑结构图。
图3是本发明发明内容具体步骤中学术影响力计算的结构图。
图4是本发明具体实施方式中学术影响力计算的节点合作关系图。
图5是本发明具体实施方式中相似度计算的学者-学者合作关系图。
图6是本发明具体实施方式中相似度计算的学者-文献关系图。
图7是本发明具体实施方式中相似度计算的文献-文献关系图。
图8是本发明具体实施方式中相似度计算的逻辑图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所提供的融合学术影响力的学者人名消除歧义的方法,主要是将待消歧数据子集和源数据集依据其合著及引用关系构建社交网络,根据网络关系计算待消歧数据子集中各个节点的学术影响力;在待消歧数据子集内部根据节点关系分别构建学者与学者,学者与文献,文献与文献,三个网络关系,使用基于排序的损失函数,并结合节点学术影响力相似度在多个网络中联合学习学者节点间的相似度;基于节点相似度和节点学术影响力构造聚类函数,从而实现较好的消歧效果。
如图1和图2所示,上述方法包括以下步骤:
S1、将学者数据集合U按名字分组得到n个名字组A,根据文献将每个名字组划分为m个学者实体a;
S2、根据步骤S1划分结果,对每个组A,分别在组内学者实体节点与U中名字组节点间通过合作关系建立合作关系网络G;
S3、对于每个组A,结合节点相似度和自身重要性,在合作网络G上计算A中各个学者实体节点a基于特征集F的学术影响力
Figure GDA0002506761640000071
S4、使用网络嵌入匿名图方法,结合步骤S3所得节点的学术影响力,得到文献矩阵D,根据D计算得到名字组内学者实体节点a带学术影响力约束的相似度Sa
S5、利用步骤S4所得相似度,重复步骤S1~S3重新计算学术影响力,得到学者实体节点a基于学术影响力相似度的新的学术影响力
Figure GDA0002506761640000072
其中S表示该节点带学术影响力约束的相似度;
S6、根据节点学术影响力的差异和相似度得到聚类函数C,使用凝聚层次聚类算法得到消歧结果。
步骤S1的具体实施方式是:将实际学术数据集Arnetminer作为U,U中包含待消歧的名字组A,U={A1,A2,..Ai.,An},Ai表示U中第i个名字组,包含Ai对应学者人名所著的所有文献属性及其合著者信息;如U={Ajay Gupta,Alok Gupta,...},文件Ajay Gupta是名字为Ajay Gupta的学者所著文献的集合,其中包含文献的标题,出版时间,出版社,合著者等信息;对每个名字组Ai,以文献来区分学者实体,即每篇文献对应一个学者实体;以名字组A1为消歧案例对象,假设A1中有m篇文献,则A1={a11,a12,..a1j.,a1m},其中a1j为A1中第j个学者实体,0<j≤m;
步骤S2的具体实施方式是:将步骤S1中所得名字组A1中的所有学者实体,与A1在数据集合U上的补集CUA1中的各个名字组Ai间建立合作关系网络G1=(A1∪CUA1,E),E为网络中边的集合,表示节点间的合作关系,如图4学术影响力计算的节点合作关系图所示,节点间分别通过合著关系和引用关系构成有向边,合著关系为双向边,引用关系为单向边;如a11和a12与A2间都存在边,则节点a11与a12存在一条公共边。
步骤S3的具体实施方式是:根据步骤S2所得的合作网络,采用细粒度特征的学术影响力评估算法,如图3所示,结合自身重要性和影响概率构建基于特征集F的学术影响力;从待消歧数据集合U中选取特征集F;为A定义一组特征强度向量
Figure GDA0002506761640000081
fk的值表示节点a在第k个特征上的强度,我们取5个特征,即n=5。其中,影响概率由直接影响和间接影响构成。
在网络G1=(A1∪CUA1,E)中,名字组A1中第j个节点a1j的特征强度向量
Figure GDA0002506761640000082
Figure GDA0002506761640000083
表示节点a1j在第k个特征上的强度。对于节点间的每一条边e(a1j,Ai)∈E,Ai∈CUA1,节点间的链接强度为
Figure GDA0002506761640000091
其中:
自身重要性为节点基于角色的重要性,以特征强度来度量,我们选取5个特征,即此处n=5,则节点a1j的自身重要性
Figure GDA0002506761640000092
节点Ai与a1j间的影响概率
Figure GDA0002506761640000093
由直接影响
Figure GDA0002506761640000094
和间接影响
Figure GDA0002506761640000095
构成,各占比重分别取值0.5,该影响概率为
Figure GDA0002506761640000096
直接影响为基于相似度的影响,节点Ai与a1j间的特征相似度
Figure GDA0002506761640000097
为各个特征相似度s的整合,即
Figure GDA0002506761640000098
其中sk表示与Ai在第k个特征上的相似度。该直接影响
Figure GDA0002506761640000099
Figure GDA00025067616400000910
为节点a1j与Ai间的链接强度;间接影响
Figure GDA00025067616400000911
由公共边数量决定;结合自身重要性和影响概率,各占比重分别取值0.5,节点a1j的初始学术影响力为:
Figure GDA00025067616400000912
(
Figure GDA00025067616400000913
为a1j的邻居节点Ai的集合)
节点Ai到a1j的学术影响力传播概率
Figure GDA00025067616400000914
可以表示为
Figure GDA00025067616400000915
Figure GDA00025067616400000916
值越大表示传播的概率越大;节点Ai对a1j的贡献:
Figure GDA00025067616400000917
(初始时,
Figure GDA00025067616400000918
);同理可得节点Ai的邻居对其影响力贡献
Figure GDA00025067616400000919
迭代得到Ai新的影响力
Figure GDA00025067616400000920
其中Ag为U中Ai的邻居节点;
迭代计算节点的学术影响力,得到实体节点a1j较理想的最终学术影响力
Figure GDA00025067616400000921
步骤S4的具体实施方式是:对于每一个名字组,根据组内节点合作关系构建学者-学者Gpp、学者-文献Gpd、文献-文献Gdd三个网络并结合节点学术影响力提取相似文献矩阵,文献用d表示,dk表示文献集合D中第k篇文献,各网络结构分别如图5、图6、图7所示,逻辑图如图8所示,其中:
Gpp=(Ax,Epp)
式中,Ax为合著者集合,Epp为网络中的边的集合,表示学者间的合著关系;若节点a1j与Ai存在一次合著关系,则存在边
Figure GDA0002506761640000101
边的权重
Figure GDA0002506761640000102
为1;
Gpd=(A∪D,Epd)
式中,A表示学者名字组,D为该名字组中学者所著文献集合,Epd为学者与文献间边的集合,表示学者a与文献d的关系,a∈A,d∈D;若学者aij著有文献dk,则aij与dk间存在边
Figure GDA0002506761640000103
此处权重wij为1,aij∈Ai
Gdd=(D,Edd)
式中,D为文献集合,Epd为文献间边的集合,表示文献与文献的关系,文献用d表示,若第i篇文献di与和第j篇文献dj相似,则di与dj间存在边eij∈Edd;相似性定义包含根据学者-学者、学者-文献网络关系所形成的合作交集、下一跳邻居交集及节点学术影响力的相似度:定义
Figure GDA0002506761640000104
为文献di的合著者集合,
Figure GDA0002506761640000105
Figure GDA0002506761640000106
中所有学者邻居的扩展集合,则
Figure GDA0002506761640000107
其中
Figure GDA0002506761640000108
表示b在网络Gpp中的邻居集合相似性;
文献di与dj间相似度
Figure GDA0002506761640000109
其密切程度
Figure GDA00025067616400001010
Figure GDA00025067616400001011
为di所构成向量的转置。以文献矩阵D来区分各个人名节点的概率
Figure GDA00025067616400001012
其中
Figure GDA00025067616400001013
Figure GDA00025067616400001014
分别为正负训练集,找到能够使得P(>|D)最大的文献矩阵D:
Figure GDA00025067616400001015
表示由文献di,1<i≤N组成的矩阵在N×k维空间R的转置,根据D得到节点aij的相似度表达
Figure GDA0002506761640000111
步骤S5的具体实施方式是:重复步骤S1~S3,在步骤S3中,利用步骤S4所得相似度
Figure GDA0002506761640000112
重新计算节点aij的影响概率,
Figure GDA0002506761640000113
其中,λ为归一化因子,结合自身重要性和节点相似度,得到名字节点aij基于学术影响力相似度的新的学术影响力
Figure GDA0002506761640000114
其中S表示带学术影响力约束的相似度,计算对象为aij时,S代表
Figure GDA0002506761640000115
步骤S6的具体实施方式是:将步骤S4所得文献矩阵D和步骤S5所得
Figure GDA0002506761640000116
作为输入,以节点相似度
Figure GDA0002506761640000117
和节点学术影响力
Figure GDA0002506761640000118
的乘积构成聚类函数C,节点aij的聚类函数表示为
Figure GDA0002506761640000119
取阈值θ,若节点a11与节点a12聚类结果的距离
Figure GDA00025067616400001110
满足
Figure GDA00025067616400001111
则两节点属于同一学者实体,并将其合并为一个新组,得到y个新组,假设原始有n个分组,名字组Ai有x个节点,通过对Ai进行消歧后的消歧结果为n+x-1+y-1,即此时的名字组数。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (6)

1.一种融合学术影响力的学者人名消除歧义的方法,其特征在于:该方法是以实现将待消歧人名与学者实体准确对应为目标,通过融合学者影响力,改进相似度计算模型,提出增强的影响力计算模型,而后通过改进网络结构、模型聚类函数和模型组合,以达到更高的消歧准确率;其包括以下步骤:
步骤S1、将学者数据集合U按名字分组得到n个名字组A,根据文献将每个名字组划分为m个学者实体节点a;
数据集合U中包含待消歧的各个同名学者名字组A,U={A1,A2,...,An},其中Ai为U中第i个名字组,包含Ai所对应学者人名的所著文献属性及其合著者信息;对于所得到的每个名字组,以文献来区分学者实体,将组中每个文献中的待消歧学者名字作为一个学者实体;假设名字组Ai中有m篇文献,则将该名字组划分为m个学者实体aij,即Ai={ai1,ai2,...,aim},其中0<i≤n,0<j≤m;
步骤S2、根据步骤S1划分结果,对每个组A,分别在组内学者实体节点与U中名字组节点间通过合作关系建立合作关系网络G;
步骤S3、对于每个组A,结合节点相似度和自身重要性,在合作关系网络G上计算A中各个学者实体节点a基于特征集F的学术影响力
Figure FDA0002506761630000011
步骤S4、使用网络嵌入匿名图方法,结合步骤S3所得节点的学术影响力,得到文献矩阵D,根据D计算得到名字组内学者实体节点a带学术影响力约束的相似度Sa
步骤S5、利用步骤S4所得相似度,重复步骤S1~S3重新计算学术影响力,得到学者实体节点a基于学术影响力相似度的新的学术影响力
Figure FDA0002506761630000012
其中S表示该节点带学术影响力约束的相似度;
步骤S6、根据节点学术影响力的差异和相似度得到聚类函数C,使用凝聚层次聚类算法得到消歧结果。
2.根据权利要求1所述的一种融合学术影响力的学者人名消除歧义的方法,其特征在于:在步骤S2中,将步骤S1中所得每一个名字组A中的学者实体节点a,与A在数据集合U上的补集CUA中的各个名字组节点间建立合作关系网络G=(A∪CUA,E),其中,E为网络中边的集合,表示节点间的合作关系,各实体节点与名字组节点分别通过合著关系和引用关系构成边,合著关系为双向边,引用关系为单向边。
3.根据权利要求1所述的一种融合学术影响力的学者人名消除歧义的方法,其特征在于:在步骤S3中,根据步骤S2所得的合作关系网络,在包含学者和文献特征的数据集上采用细粒度特征的学术影响力评估算法,结合自身重要性和影响概率构建基于特征集F的学术影响力;F为从待消歧数据集合U中选取的特征集F={f1,f2,...,fn},其中,fn表示F中第n个特征;为A定义一组特征强度向量
Figure FDA0002506761630000021
其中:
a、节点的自身重要性Iout为节点基于角色的重要性,以特征强度来度量,其关系表示为
Figure FDA0002506761630000022
其中n为特征数量,fi表示在第i个特征上的强度;
b、节点间的影响概率
Figure FDA0002506761630000023
由直接影响
Figure FDA0002506761630000024
即节点相似度和间接影响
Figure FDA0002506761630000025
即公共边数量构成;其关系为
Figure FDA0002506761630000026
其中q为直接影响在影响概率中所占比例;结合节点的自身重要性Iout,及其邻居节点的影响概率
Figure FDA0002506761630000027
节点的初始学术影响力II表示如下:
Figure FDA0002506761630000028
其中p为自身重要性在初始学术影响力中所占的比例,N表示计算节点对象的邻居节点集合,节点a和A的邻居节点集合分别表示为Na和NA
假设节点以一定概率相互传播;节点间的学术影响力贡献IF表示如下:
Figure FDA0002506761630000031
其中
Figure FDA0002506761630000032
为运算目标节点的邻居节点的学术影响力,
Figure FDA0002506761630000033
为节点间的传播概率,节点a对A的传播概率表示为
Figure FDA0002506761630000034
A对a的传播概率表示为
Figure FDA0002506761630000035
Figure FDA0002506761630000036
初始时,IF=II
迭代计算节点的学术影响力,得到实体节点a较理想的学术影响力,表示为
Figure FDA0002506761630000037
4.根据权利要求1所述的一种融合学术影响力的学者人名消除歧义的方法,其特征在于:在步骤S4中,对于每一个名字组内的节点,根据其合作关系构建学者-学者网络Gpp、学者-文献网络Gpd、文献-文献网络Gdd,文献用d表示,dk表示文献集合D中第k篇文献,三个网络如下:
Gpp=(Ax,Epp)
式中,Ax为合著者集合,Epp为网络中的边的集合,表示学者间的合著关系;
Gpd=(A∪D,Epd)
式中,A为学者名字组,D为该名字组中学者所著文献集合,Epd为学者与文献间边的集合,表示学者实体a与文献d的关系,a∈A,d∈D;若学者实体aij著有文献dk,则aij与dk间存在边
Figure FDA0002506761630000038
aij∈Ai
Gdd=(D,Edd)
式中,D表示文献,Edd为文献间边的集合,表示文献与文献的关系,若第i篇文献di与和第j篇文献dj相似,则di与dj间存在边eij∈Edd;相似性定义包含根据学者-学者、学者-文献网络关系所形成的合作交集、下一跳邻居交集及节点学术影响力的相似度:定义
Figure FDA0002506761630000039
为文献di的合著者集合,
Figure FDA00025067616300000310
为包含
Figure FDA00025067616300000311
中所有学者邻居的扩展集合,
Figure FDA0002506761630000041
其中
Figure FDA0002506761630000042
表示合著者b在网络Gpp中与邻居集合的相似性;
文献di与dj间相似度
Figure FDA0002506761630000043
其密切程度
Figure FDA0002506761630000044
其中
Figure FDA0002506761630000045
为di的转置,以文献矩阵D来区分各实体节点的概率
Figure FDA0002506761630000046
Figure FDA0002506761630000047
Figure FDA0002506761630000048
分别为正负训练集,找到使得P(>|D)最大的文献矩阵D:
Figure FDA0002506761630000049
表示由文献di组成的矩阵在N×k维空间R的转置,其中1<i≤N;根据D得到节点a的相似度表达Sa
5.根据权利要求1所述的一种融合学术影响力的学者人名消除歧义的方法,其特征在于:在步骤S5中,重复步骤S1~S3,在步骤S3中,利用步骤S4所得实体节点a的相似度Sa重新计算节点的影响概率,
Figure FDA00025067616300000410
其中,λ为归一化因子,结合自身重要性和节点相似度,得到名字节点a基于学术影响力相似度的新的学术影响力
Figure FDA00025067616300000411
其中S表示该节点带学术影响力约束的相似度。
6.根据权利要求1所述的一种融合学术影响力的学者人名消除歧义的方法,其特征在于:在步骤S6中,将步骤S4所得文献矩阵D和步骤S5所得节点学术影响力
Figure FDA00025067616300000412
作为输入,以节点属性相似度Sa和节点学术影响力
Figure FDA00025067616300000413
的乘积构成聚类函数C,
Figure FDA00025067616300000414
节点aij的聚类函数表示为
Figure FDA00025067616300000415
取阈值θ,若节点aij与节点aik聚类结果的距离
Figure FDA00025067616300000416
满足
Figure FDA00025067616300000417
则两节点属于同一学者实体,并将其合并为一个新组,得到y个新组,假设原始有n个分组,名字组Ai有x个节点,通过对Ai进行消歧后的消歧结果为n+x-1+y-1,即此时的名字组数。
CN201810067134.3A 2018-01-24 2018-01-24 一种融合学术影响力的学者人名消除歧义的方法 Expired - Fee Related CN108304380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810067134.3A CN108304380B (zh) 2018-01-24 2018-01-24 一种融合学术影响力的学者人名消除歧义的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810067134.3A CN108304380B (zh) 2018-01-24 2018-01-24 一种融合学术影响力的学者人名消除歧义的方法

Publications (2)

Publication Number Publication Date
CN108304380A CN108304380A (zh) 2018-07-20
CN108304380B true CN108304380B (zh) 2020-09-22

Family

ID=62866231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810067134.3A Expired - Fee Related CN108304380B (zh) 2018-01-24 2018-01-24 一种融合学术影响力的学者人名消除歧义的方法

Country Status (1)

Country Link
CN (1) CN108304380B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102393B (zh) * 2018-08-15 2021-06-29 创新先进技术有限公司 训练和使用关系网络嵌入模型的方法及装置
CN109492027B (zh) * 2018-11-05 2022-02-08 南京邮电大学 一种基于弱可信数据的跨社群潜在人物关系分析方法
CN109726280B (zh) * 2018-12-29 2021-05-14 北京邮电大学 一种针对同名学者的排歧方法及装置
CN110942082B (zh) * 2019-03-27 2022-04-05 南京邮电大学 一种人才价值评估方法
CN110020433B (zh) * 2019-04-01 2023-04-18 中科天玑数据科技股份有限公司 一种基于企业关联关系的工商高管人名消歧方法
CN110197084B (zh) * 2019-06-12 2021-07-30 上海联息生物科技有限公司 基于可信计算及隐私保护的医疗数据联合学习***及方法
CN110990524A (zh) * 2019-10-24 2020-04-10 清华大学 基于可靠信息库的学术成果机构命名排歧方法及装置
CN111191466B (zh) * 2019-12-25 2022-04-01 中国科学院计算机网络信息中心 一种基于网络表征和语义表征的同名作者消歧方法
CN111680498B (zh) * 2020-05-18 2023-04-07 国家基础地理信息中心 实体消歧方法、装置、存储介质及计算机设备
CN112463977A (zh) * 2020-10-22 2021-03-09 三盟科技股份有限公司 基于知识图谱的社区挖掘方法、***、计算机及存储介质
CN112487825A (zh) * 2020-11-30 2021-03-12 北京航空航天大学 一种人才信息数据库消歧***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐***和推荐方法
CN104636426A (zh) * 2014-12-22 2015-05-20 河海大学 科研机构学术影响力的多因素综合定量分析与排序方法
CN104933111A (zh) * 2015-06-03 2015-09-23 中南大学 一种基于学术关系网络的专家学术距离评估方法
US9183290B2 (en) * 2007-05-02 2015-11-10 Thomas Reuters Global Resources Method and system for disambiguating informational objects
CN106294677A (zh) * 2016-08-04 2017-01-04 浙江大学 一种面向英文文献中中国作者的姓名消歧方法
EP3113093A1 (en) * 2015-06-30 2017-01-04 ResearchGate GmbH Author disambiguation and publication assignment

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183290B2 (en) * 2007-05-02 2015-11-10 Thomas Reuters Global Resources Method and system for disambiguating informational objects
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐***和推荐方法
CN104636426A (zh) * 2014-12-22 2015-05-20 河海大学 科研机构学术影响力的多因素综合定量分析与排序方法
CN104933111A (zh) * 2015-06-03 2015-09-23 中南大学 一种基于学术关系网络的专家学术距离评估方法
EP3113093A1 (en) * 2015-06-30 2017-01-04 ResearchGate GmbH Author disambiguation and publication assignment
CN106294677A (zh) * 2016-08-04 2017-01-04 浙江大学 一种面向英文文献中中国作者的姓名消歧方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Visual Analytics Approach to Author Name Disambiguation;Chris W. Muelder et.al;《2016 IEEE/ACM 3rd International Conference on Big Data Computing, Applications and Technologies》;20161209;第52-60页 *
学术网络中科研人员影响力分析方法研究;刘京旋等;《情报工程》;20151231;第1卷(第6期);第83-89页 *
科技文献作者重名消歧与实体链接;宋文强;《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》;20150415(第04期);I138-729 *

Also Published As

Publication number Publication date
CN108304380A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN108304380B (zh) 一种融合学术影响力的学者人名消除歧义的方法
CN110532436B (zh) 基于社区结构的跨社交网络用户身份识别方法
Wu et al. Multi-graph fusion networks for urban region embedding
CN107609469B (zh) 社会网络关联用户挖掘方法及***
CN108229578B (zh) 基于数据、信息和知识三层图谱架构的图像数据目标识别方法
Pan et al. Clustering of designers based on building information modeling event logs
CN110851664B (zh) 一种面向主题的社交网络节点重要度评估方法
CN104573130A (zh) 基于群体计算的实体解析方法及装置
Gao et al. CNL: collective network linkage across heterogeneous social platforms
Pham et al. ComGCN: Community-driven graph convolutional network for link prediction in dynamic networks
CN115270007B (zh) 一种基于混合图神经网络的poi推荐方法及***
CN114281809A (zh) 一种多源异构数据清洗方法及装置
Bi et al. MM-GNN: Mix-moment graph neural network towards modeling neighborhood feature distribution
CN109885797B (zh) 一种基于多身份空间映射的关系网络构建方法
Wei et al. An embarrassingly simple approach to semi-supervised few-shot learning
Qi et al. Unsupervised generalizable multi-source person re-identification: A domain-specific adaptive framework
Wang et al. Abnormal trajectory detection based on geospatial consistent modeling
Zhang et al. End‐to‐end generation of structural topology for complex architectural layouts with graph neural networks
Su The study of physical education evaluation based on a fuzzy stochastic algorithm
CN112529057A (zh) 一种基于图卷积网络的图相似性计算方法及装置
CN110633394A (zh) 基于特征加强的图压缩方法
Liang et al. The graph embedded topic model
CN114840775A (zh) 一种融合多空间特征的网络对齐模型及其应用
Yu et al. Workflow recommendation based on graph embedding
Bendahman et al. Unveiling Influence in Networks: A Novel Centrality Metric and Comparative Analysis through Graph-Based Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200922