CN110990662A

CN110990662A - 一种基于引文网络与科研合作网络的领域专家遴选方法

Info

Publication number: CN110990662A
Application number: CN201911154798.4A
Authority: CN
Inventors: 刘彦君; 吴晨生; 刘静; 许明金; 刘如; 吴玉辉
Original assignee: Beijing Institute Of Science And Technology Information
Current assignee: Beijing Institute Of Science And Technology Information
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-04-10
Anticipated expiration: 2039-11-22
Also published as: CN110990662B

Abstract

本发明公开了一种基于引文网络与科研合作网络的领域专家遴选的方法，包括以下步骤：首先，基于数据库元数据信息，构建可量化学者合作关系的学者合作网络；其次，基于文献引用信息，构建文献引用模型，删除自引干扰，线性映射生成学者引用网络；然后，将学者合作网络和学者引用网络融合生成学者关系网络；最后，计算学者关系网络中重要节点并进行聚类分组，结果即为遴选出的专家列表。本发明依据学者学术合作和学术成果，综合考虑学术合作网络评价和学术能力评价两个标准，不仅能够精准的推荐相应专家，缩短计算时间，实时更新效果好；基于学者关系网络的专家遴选模型还能够辨识专家擅长领域，解决现有遴选方法中专家与研究领域匹配不准确的问题。

Description

一种基于引文网络与科研合作网络的领域专家遴选方法

技术领域

本发明属于大数据文献检索技术领域，具体地说涉及一种基于引文网络与科研合作网络的领域专家遴选方法。

背景技术

随着计算技术普及、网络信息化发展迅猛，科技专家遴选工作由人工方式发展为网络智能化模式。网络智能化专家遴选模式，从根本上解决了传统遴选方式的效率低下、缺乏科学性和公正性等问题，打破了传统遴选方式中专家地域的限制，扩充了专家队伍网络智能化专家遴选模式的核心是专家遴选算法，目前专家遴选方法主要分为基于文本分析和基于网络结构两类。

基于研究主题、内容、学科等的文本分析，通过结合相似度计算、数学模型计分等方式对专家进行筛选。申请号为201410092584.X的中国专利描述了一种学科特征值算法以及基于该算法的项目评审专家推荐算法。根据文本信息计算项目研究内容与评审专家研究方向的文本相似度计算，根据国家标准《学科分类与代码》对项目和评审专家进行学科特征值计算，结合项目与评审专家的文本相似度和学科特征值完成推荐工作。在计算文本特征向量的相似度基础上，增加了科学合理的学科分类标准，在学科层面准确地计算，可以充分考量各级学科的比重，侧重学科的细分程度。然而随着科学技术的发展，交叉学科或跨学科研究增加，沿用现有学科分类计算遴选出的专家必然会带来结果的偏差。

基于文献、学者网络结构的专家遴选方法，主要是利用构建网络的链接结构判断专家的学术影响力。申请号为201811228086.8的中国专利公开了一种基于专家领域相似度与关联关系的协同推荐方法。将批量论文数据作为训练集，构造合作关系网络利用Dijkstra算法计算作者之间的最短路径作为专家关联度COR，利用word2vec算法构造专家词向量模型计算关联专家词向量与领域词向量的余弦相似度作为专家领域相似度，筛选专家领域相似度SIM与专家关联度COR满足阈值的专家即为推荐专家。该方法提出的专家关联度是依据专家之间合作关系计算的，以此为依据推荐的专家与给定的专家关联紧密。但是仅考虑合作关系易受主观因素影响，缺乏对研究领域的客观限定标准；而且，作者之间合作关系也不能体现知识本身的传承和研究主题之间隐含的相关性。

有鉴于此特提出本发明。

发明内容

本发明要解决的技术问题在于克服现有技术的不足，提供一种基于引文网络与科研合作网络的领域专家遴选的方法，综合考虑了学术能力评价和合作网络质量评价两个标准，快速准确地遴选出领域专家。

为解决上述技术问题，本发明采用技术方案的基本构思是：一种基于引文网络和科研合作网络，融合生成学者关系网络，借用复杂网络中重要节点和社区划分算法，实现领域专家遴选的方法，包括以下步骤：

首先，基于数据库元数据信息，构建可量化学者合作关系的学者合作网络；

其次，基于文献引用信息，构建文献引用模型，删除自引干扰，线性映射生成学者引用网络；

然后，将学者合作网络和学者引用网络融合生成学者关系网络；

最后，计算学者关系网络中重要节点并进行聚类分组，结果即为遴选出的专家列表；

其中，所述学者合作网络为无向网络。

本发明的进一步方案为：所述学者合作网络为：G^collaorati ^on＝(V,E^collaborat ^ion)，G^collaorati ^on＝(V,E^collaborat ^ion)是由|V|＝N个学者节点和|E^{collaboration}|＝M^{collaboration}条边所组成的一个无向网络，其中G^collboration代表学者合作网络中学者以及学者合作关系的集合，V代表学者群体G^collboration中的学者集合，E^{collaboration}代表学者群体G^{collaboration}中学者间的合作关系；学者v_i与学者v_j在学者合作关系集合G^collboration中的合作关系变量为

在学者合作关系集合G^collboration中学者v_i与其他学者合作次数总和为

代表学者合作网络中学者v_i与学者v_j的合作关系，若学者v_i与学者v_j有一项共同的科研成果，则学者v_i与学者v_j之间有一次合作，记为1，

是学者v_i与学者v_j边数量之和，即学者v_i与学者v_j的合作次数总和；若学者v_i与学者v_j无共同的科研成果，则学者v_i与学者v_j之间没有合作关系，记为0；其中，i≥1，j≥1，

与

相等。

上述方案中，科研成果中的每一位学者是学者合作网络中的一个节点，多个科研成果中的相同的学者只作为一个节点，同一个科研成果的多个学者之间相互存在合作关系；所述科研成果包括科技项目、期刊论文、会议论文、报纸报道、专利、著作、标准和研究报告。

本发明的进一步方案为：所述学者引用网络为：G^citation＝(V,E^citation)，G^citation＝(V,E^citation)是由|V|＝N个学者节点和|E^citation|＝M^citation条边所组成的一个有向网络；其中，G^citation代表学者引用网络中学者以及学者引用关系的集合，V代表学者群体G^citation中的学者集合，E^citation代表学者群体G^citation中学者间的引用关系；学者v_i与学者v_j在学者引用关系集合G^citation中的引用关系变量为

在学者引用关系集合G^citation中学者v_i被其他学者引用次数总和为

代表学者引用网络中学者v_i与学者v_j的引用关系，若学者v_i的某一项科研成果在学者v_j某一项科研成果中被引用，则记为1，

是学者v_i与学者v_j有向边数量之和，即学者v_i的科研成果被学者v_j的引用次数总和；若学者v_i的任何科研成果都没有被学者v_j引用，则记为0；其中，i≥1，j≥1，

与

相同或不同。

上述方案中，学者引用网络与学者合作网络的学者节点分布相同，区别在于学者引用网络与学者合作网络中代表节点关系的边不同。

本发明的进一步方案为：所述学者关系网络由学者合作网络和学者引用网络融合而成：

G＝α·G^{collaboration}+β·G^citation；

其中，α、β为学者合作网络和学者引用网络的权重分配值，α+β＝1，α与β的赋值可通过计算终端计算分配，也可通过人工设定；

所述学者关系网络模型为G＝(V,E)，G＝(V,E)由|V|＝N个学者节点和|E|＝M条边所组成的一个有向网络；其中，G代表学者群体中学者以及学者间关系的集合，V代表学者群体G中的学者集合，E代表学者群体G中学者间关系，e_ij代表学者关系网络中学者v_i与学者v_j的关系，记为

为节点v_i的入强度，

为节点v_i的出强度。

本发明的进一步方案为：所述“计算学者关系网络中重要节点”包括依据复杂网络中节点的重要性排序方法，对学者合作网络中学者进行重要性排序，具体包括如下步骤：

S11.设k为整数，取k＝0；

S12.去除学者关系网络中出强度不大于k的所有学者节点，同时删除与所述出强度不大于k的学者节点相连的边；

S13.检查此时网络中剩余的学者节点的出强度，判断剩下的学者节点中是否仍存在出强度不大于k的学者节点，若是则执行步骤S12，若否则执行步骤S14；

S14.由步骤S12所去除出强度不大于k的学者节点构成第k层，为该层的节点赋予节点Ks值，即等于k，后执行步骤S15；

S15.判断网络中剩余节点数是否为0，若是则执行步骤S17，若否则执行步骤S16；

S16.设k＝k+1，重复执行步骤S12；

S17.依据Ks值对学者进行降序排序。

上述方案中，步骤S14所形成的各层学者节点中，同层学者具有相同的Ks值，相同Ks值学者在排列中的位序相同。

本发明的进一步方案为：所述“进行聚类分组”包括对学者关系网络进行群落划分，划分后的学者群落视为相对独立的研究领域，步骤如下：

S21.将所述学者关系网络G作为初始网络，并设为当前网络；

S22.将当前网络中的节点随机分为两个群落，之后执行步骤S23；

S23.计算每个节点对所述模块度的贡献度并根据贡献度计算网络模块度，之后执行步骤S24；

S24.将较低贡献度的节点从一个群落移动到另一个群落，之后执行步骤S25；

S25.重新计算每个节点对模块度的贡献度和网络模块度，之后执行步骤S26；

S26.判断网络模块度是否增加，同时判断网络模块度是否达到最大值，若模块度增加，即未达最大值，则保留该次节点移动结果并返回执行步骤S24，若模块度不增加，则撤回移动节点，将不同于所述被撤回移动节点的贡献度较低的新节点从一个群落移动到另一个群落，并返回执行步骤S25；若模块度达到最大值，则执行步骤S27；

S27.记录并保存初始网络此时的网络模块度及群落结构，之后执行步骤S28；

S28.将步骤S27中划分出的每个群落作为单独网络继续进行划分，并对每个单独网络以递归的方式执行步骤S22～S28，直至初始网络没有更大的模块度产生，得到网络群落划分结果。

本发明的进一步方案为：所述每个节点对模块度的贡献度λ_i根据下式计算：

其中，κ_r(i)代表属于社团r的节点v_i与该群落内其他节点之间的代表关系的边数值总和，

为节点v_i的入强度，

为节点v_i的出强度，a_r(i)代表节点在社团r中的变数值的比例。

本发明的进一步方案为：所述模块度Q根据下式计算：

其中，m为学者关系网络中代表关系的边数值总和。

所述遴选方法的一种实施方案包括：对所述融合得到的学者关系网络G进行群落划分，划分结果即学者所属技术主题下对应各子技术领域的若干学者群落，在此基础上，针对划分得到各子领域学者关系网络(即由学者关系网络G划分出来的若干个新的学者关系网络)分别进行节点重要性排列计算，获取各子领域学者关系网络中Ks值较高的学者形成专家列表。

上述方案中，当特定技术主题所包含的研究领域比较庞杂，若采用对学者关系网络G直接进行节点重要性排序来获取专家列表的方法，较热门的子技术领域专家排名较高，而较冷门子技术领域的专家可能由于排名靠后而不被遴选入列表，导致部分专家学者的缺失。本发明针对此问题，优先采用聚类分组对学者关系网络G进行子领域划分，之后再进行重要性排序，可有效避免遗漏冷门领域的专家学者。

所述遴选方法的另一种实施方案包括：对所述融合得到的学者关系网络G进行节点重要性排列计算，选取学者关系网络G中Ks值较高的学者节点形成新的学者关系网络，之后对新形成的学者关系网络进行群落划分，划分结果即学者所属技术领域下对应各子技术领域的若干学者群落，并根据各子领域形成专家列表。

上述方案中，当特定技术主题所包含的研究领域分支较简单时，若直接对学者关系网络G进行聚类分组，则可能使各子领域存在大量专家学者，而无法在列表中直观地获取研究领域的领军学者。另外，当辨识特定技术主题中处于研究热点的权威专家时，对学者先聚类再排序的计算过程相比先排序再聚类的过程，增加了无谓的计算量。本发明针对此类问题，优先对学者关系网络中学者节点的重要性进行排序，可设定阈值确定Ks较高的学者节点以形成新的学者关系网络，再进行聚类分组后，即可得到更为直观的专家列表，并体现出各子领域研究热点中较为重要的专家学者。

本发明的进一步方案为：所述“基于文献引用信息，构建文献引用模型，删除自引干扰，线性映射生成学者引用网络”包括如下步骤：

S31.构建文献引用网络模型，统计文献被引次数和他引次数，后执行步骤S32；

S32.根据文献他引次数映射生成排除自引的文献他引网络模型，并映射生成学者引用网络。

上述方案中，S31中第i篇文献在文献群体G^literature中的被引次数通过引用变量

累加得到，计算公式为

所述步骤S31中第i篇文献在文献群体G^literature中的他引次数通过引用变量

与自引系数

的乘积

累加得到，计算公式为

若第j篇文献引用第i篇文献，则

等于1；若第j篇文献未引用第i篇文献，则

等于0；若第i篇文献与第j篇文献中至少有一个相同学者，该次引用为自引，则

等于0；若第i篇文献与第j篇文献没有相同学者，该次引用为他引，则

等于1；其中，i≥1，j≥1；所述步骤S32中，依据他引次数

生成排除自引的文献他引网络模型G^{literature-cited}，再通过线性映射生成如上所述的学者引用网络G^citation。

本发明的进一步方案为：所述遴选方法包括提取数据库元数据信息中学者信息，并实行数据清洗步骤，所述数据清洗步骤是以“学者姓名+一级机构+二级机构”作为每位学者的唯一标识，赋予ID编号。

采用上述技术方案后，本发明与现有技术相比具有以下有益效果：

1、学者相互引用体现了学者在知识网络中的引用影响力，学者合作关系则反映了其在社会网络中的合作影响力。由引文网络与科研合作网络融合构建学者关系网络，从研究内容相关性与专家影响力两个方面综合考量，揭示了学者之间存在的潜在的关联关系，更加全面、客观、准确地反映领域专家的分布情况；

2、通过构建学者关系网络遴选专家，打破了学者研究学科、研究领域的限制，充分利用学者间合作与引用关系特征信息可以提高学者聚类计算的有效性与可靠性；基于学者关系网络划分社团，同一个社团里的学者间往往具有相同或相近的学术研究领域，这种方法对于推荐交叉学科或新兴学科的专家同样适用。

下面结合附图对本发明的具体实施方式作进一步详细的描述。

附图说明

附图作为本发明的一部分，用来提供对本发明的进一步的理解，本发明的示意性实施例及其说明用于解释本发明，但不构成对本发明的不当限定。显然，下面描述中的附图仅仅是一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。在附图中：

图1是本发明中专家遴选方法的流程图；

图2是本发明中专家遴选方法的示意图；

图3是本发明中基于节点出强度递归地剥离网络的方法对学者排序的流程示意图；

图4是本发明中基于学者关系网络对学者进行聚类分组的流程示意图；

图5是本发明中构建学者合作网络、学者引用网络的模型示意图；

图6是本发明中融合生成学者关系网络模型示意图。

需要说明的是，这些附图和文字描述并不旨在以任何方式限制本发明的构思范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

如图1至图6所示，本发明介绍了一种基于引文网络和科研合作网络，融合生成学者关系网络，借用复杂网络中重要节点和社区划分算法，实现领域专家遴选的方法。首先，基于数据库元数据信息，构建可量化学者合作关系的学者合作网络；其次，基于文献引用信息，构建文献引用模型，删除自引干扰，线性映射生成学者引用网络；然后，将学者合作网络和学者引用网络融合生成学者关系网络；最后，计算学者关系网络中重要节点并进行聚类分组，结果即为遴选出的专家列表。

实施例

如图1和图2所示，本实施例中，具体包括以下步骤：

A.基于数据库元数据信息，构建可量化学者合作关系的学者合作网络；

本实施例中，步骤A所述学者合作网络为：G^collaorati ^on＝(V,E^collaborat ^ion)，G^collaorati ^on＝(V,E^collaborat ^ion)是由|V|＝N个学者节点和|E^{collaboration}|＝M^{collaboration}条边所组成的一个无向网络，其中G^collboration代表学者合作网络中学者以及学者合作关系的集合，V代表学者群体G^collboration中的学者集合，E^{collaboration}代表学者群体G^{collaboration}中学者间的合作关系；学者v_i与学者v_j在学者合作关系集合G^collboration中的合作关系变量为

与

相等。

本实施例中，科研成果中的每一位学者是学者合作网络中的一个节点，多个科研成果中的相同的学者只作为一个节点，同一个科研成果的多个学者之间相互存在合作关系；所述科研成果包括科技项目、期刊论文、会议论文、报纸报道、专利、著作、标准和研究报告。

B.基于文献引用信息，构建文献引用模型，删除自引干扰，线性映射生成学者引用网络；

本实施例中，所述“基于文献引用信息，构建文献引用模型，删除自引干扰，线性映射生成学者引用网络”包括如下步骤：

累加得到，计算公式为

与自引系数

的乘积

累加得到，计算公式为

若第j篇文献引用第i篇文献，则

等于1；若第j篇文献未引用第i篇文献，则

等于1；其中，i≥1，j≥1；所述步骤S32中，依据他引次数

生成排除自引的文献他引网络模型G^{literature-cited}，再通过线性映射生成学者引用网络G^citation。

本实施例中，如图5所示，构建所述学者引用网络为：G^citation＝(V,E^citation)，G^citation＝(V,E^citation)是由|V|＝N个学者节点和|E^citation|＝M^citation条边所组成的一个有向网络；其中，G^citatioⁿ代表学者引用网络中学者以及学者引用关系的集合，V代表学者群体G^citation中的学者集合，E^citation代表学者群体G^citation中学者间的引用关系；学者v_i与学者v_j在学者引用关系集合G^citation中的引用关系变量为

与

相同或不同。学者引用网络与学者合作网络的学者节点分布相同，区别在于学者引用网络与学者合作网络中代表节点关系的边不同。

C.将学者合作网络和学者引用网络融合生成学者关系网络；

本实施例中，如图6所示，所述学者关系网络由学者合作网络和学者引用网络融合而成：

G＝α·G^{collaboration}+β·G^citation；

其中，α、β为学者合作网络和学者引用网络的权重分配值，α+β＝1，α与β的赋值可通过计算终端计算分配，也可通过人工设定；所述学者关系网络模型为G＝(V,E)，是由|V|＝N个学者节点和|E|＝M条边所组成的一个有向网络；其中，G代表学者群体中学者以及学者间关系的集合，V代表学者群体G中的学者集合，E代表学者群体G中学者间关系，e_ij代表学者关系网络中学者v_i与学者v_j的关系，记为

为节点v_i的入强度，

为节点v_i的出强度。

D.计算学者关系网络中重要节点并进行聚类分组，结果即为遴选出的专家列表。

本实施例中，如图3所示，所述“计算学者关系网络中重要节点”包括依据复杂网络中节点的重要性排序方法，对学者合作网络中学者进行重要性排序；

优选的，所述依据复杂网络中节点的重要性排序方法包括：基于节点出强度递归地剥离网络的方法对学者排序，具体如下：

S11.设k为整数，取k＝0；

S15.判断网络中剩余节点数是否为0，若是则执行步骤S17，若否则执行步骤S16

S16.设k＝k+1，重复执行步骤S12；

S17.依据Ks值对学者进行降序排序。

本实施例中，如图4所示，所述“进行聚类分组”包括对学者关系网络进行群落划分，划分后的学者群落视为相对独立的研究领域，步骤如下：

S21.将所述学者关系网络G作为初始网络，并设为当前网络；

所述每个节点对模块度的贡献度λ_i根据下式计算：

为节点v_i的入强度，

所述模块度Q根据下式计算：

其中，m为学者关系网络中代表关系的边数值总和。

本实施例中，所述遴选方法还包括提取数据库元数据信息中学者信息，并实行数据清洗步骤，所述数据清洗步骤是以“学者姓名+一级机构+二级机构”作为每位学者的唯一标识，赋予ID编号。

本实施例中，关键词含有“高性能纤维”的期刊论文为例，首先选定科技论文10,547篇，学者123,653个；建立学者合作网络模型和学者引用网络模型；融合生成学者关系网络模型；对所述融合得到的学者关系网络G进行节点重要性排列计算，选取学者关系网络G中Ks值较高的学者节点形成新的学者关系网络，之后对新形成的学者关系网络进行群落划分，划分结果即学者所属技术领域下对应各子技术领域的若干学者群落，并根据各子领域形成专家列表，获得分属于18个研究领域的1,243位专家。

上述方案中，当特定技术主题所包含的研究领域分支较简单时，若对学者关系网络G直接进行聚类分组，则可能使各子领域存在大量专家学者，而无法在列表中直观地获取研究领域的领军学者。另外，当辨识特定技术主题中处于研究热点的权威专家时，对学者先聚类再排序的计算过程相比先排序再聚类的过程，增加了无谓的计算量。本发明针对此问题，优先对学者关系网络中学者节点的重要性进行排序，可设定阈值确定Ks较高的学者节点以形成新的学者关系网络，再进行聚类分组后，即可得到更为直观的专家列表，并体现出各子领域研究热点中较为重要的专家学者。

本实施例中，关键词含有“人工智能”的会议论文为例，首先选定会议论文11,432篇，学者25,985个；建立学者合作网络模型和学者引用网络模型；融合生成学者关系网络模型；对所述融合得到的学者关系网络G进行群落划分，划分结果即学者所属技术主题下对应各子技术领域的若干学者群落，在此基础上，针对划分得到的各子领域学者关系网络(即由学者关系网络G划分出来的若干个新的学者关系网络)分别进行节点重要性排列计算，获取各子领域学者关系网络中Ks值较高的学者形成专家列表，获得分属于21个研究领域的2,642位专家。

本实施例中，用户手动按序查看，获取高质量的文献。

以上所述仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专利的技术人员在不脱离本发明技术方案范围内，当可利用上述提示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明方案的范围内。

Claims

1.一种基于引文网络与科研合作网络的领域专家遴选的方法，其特征在于，包括以下步骤：

其中，所述学者合作网络为无向网络。

2.根据权利要求1所述的一种基于引文网络与科研合作网络的领域专家遴选的方法，其特征在于，所述学者合作网络为：G^collaoration＝(V,E^{collaboration})，G^collaoration＝(V,E^{collaboration})是由|V|＝N个学者节点和|E^{collaboration}|＝M^{collaboration}条边所组成的一个无向网络，其中G^collboration代表学者合作网络中学者以及学者合作关系的集合，V代表学者群体G^collboration中的学者集合，E^{collaboration}代表学者群体G^{collaboration}中学者间的合作关系；

学者v_i与学者v_j在学者合作关系集合G^collboration中的合作关系变量为

与

相等。

3.根据权利1所述的一种基于引文网络与科研合作网络的领域专家遴选的方法，其特征在于，所述学者引用网络为：G^citation＝(V,E^citation)，G^citation＝(V,E^citation)是由|V|＝N个学者节点和|E^citation|＝M^citation条边所组成的一个有向网络；其中，G^citation代表学者引用网络中学者以及学者引用关系的集合，V代表学者群体G^citation中的学者集合，E^citation代表学者群体G^citation中学者间的引用关系；

学者v_i与学者v_j在学者引用关系集合G^citation中的引用关系变量为