CN110990662A - 一种基于引文网络与科研合作网络的领域专家遴选方法 - Google Patents

一种基于引文网络与科研合作网络的领域专家遴选方法 Download PDF

Info

Publication number
CN110990662A
CN110990662A CN201911154798.4A CN201911154798A CN110990662A CN 110990662 A CN110990662 A CN 110990662A CN 201911154798 A CN201911154798 A CN 201911154798A CN 110990662 A CN110990662 A CN 110990662A
Authority
CN
China
Prior art keywords
network
scholars
student
citation
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911154798.4A
Other languages
English (en)
Other versions
CN110990662B (zh
Inventor
刘彦君
吴晨生
刘静
许明金
刘如
吴玉辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute Of Science And Technology Information
Original Assignee
Beijing Institute Of Science And Technology Information
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute Of Science And Technology Information filed Critical Beijing Institute Of Science And Technology Information
Priority to CN201911154798.4A priority Critical patent/CN110990662B/zh
Publication of CN110990662A publication Critical patent/CN110990662A/zh
Application granted granted Critical
Publication of CN110990662B publication Critical patent/CN110990662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于引文网络与科研合作网络的领域专家遴选的方法,包括以下步骤:首先,基于数据库元数据信息,构建可量化学者合作关系的学者合作网络;其次,基于文献引用信息,构建文献引用模型,删除自引干扰,线性映射生成学者引用网络;然后,将学者合作网络和学者引用网络融合生成学者关系网络;最后,计算学者关系网络中重要节点并进行聚类分组,结果即为遴选出的专家列表。本发明依据学者学术合作和学术成果,综合考虑学术合作网络评价和学术能力评价两个标准,不仅能够精准的推荐相应专家,缩短计算时间,实时更新效果好;基于学者关系网络的专家遴选模型还能够辨识专家擅长领域,解决现有遴选方法中专家与研究领域匹配不准确的问题。

Description

一种基于引文网络与科研合作网络的领域专家遴选方法
技术领域
本发明属于大数据文献检索技术领域,具体地说涉及一种基于引文网络与科研合作网络的领域专家遴选方法。
背景技术
随着计算技术普及、网络信息化发展迅猛,科技专家遴选工作由人工方式发展为网络智能化模式。网络智能化专家遴选模式,从根本上解决了传统遴选方式的效率低下、缺乏科学性和公正性等问题,打破了传统遴选方式中专家地域的限制,扩充了专家队伍网络智能化专家遴选模式的核心是专家遴选算法,目前专家遴选方法主要分为基于文本分析和基于网络结构两类。
基于研究主题、内容、学科等的文本分析,通过结合相似度计算、数学模型计分等方式对专家进行筛选。申请号为201410092584.X的中国专利描述了一种学科特征值算法以及基于该算法的项目评审专家推荐算法。根据文本信息计算项目研究内容与评审专家研究方向的文本相似度计算,根据国家标准《学科分类与代码》对项目和评审专家进行学科特征值计算,结合项目与评审专家的文本相似度和学科特征值完成推荐工作。在计算文本特征向量的相似度基础上,增加了科学合理的学科分类标准,在学科层面准确地计算,可以充分考量各级学科的比重,侧重学科的细分程度。然而随着科学技术的发展,交叉学科或跨学科研究增加,沿用现有学科分类计算遴选出的专家必然会带来结果的偏差。
基于文献、学者网络结构的专家遴选方法,主要是利用构建网络的链接结构判断专家的学术影响力。申请号为201811228086.8的中国专利公开了一种基于专家领域相似度与关联关系的协同推荐方法。将批量论文数据作为训练集,构造合作关系网络利用Dijkstra算法计算作者之间的最短路径作为专家关联度COR,利用word2vec算法构造专家词向量模型计算关联专家词向量与领域词向量的余弦相似度作为专家领域相似度,筛选专家领域相似度SIM与专家关联度COR满足阈值的专家即为推荐专家。该方法提出的专家关联度是依据专家之间合作关系计算的,以此为依据推荐的专家与给定的专家关联紧密。但是仅考虑合作关系易受主观因素影响,缺乏对研究领域的客观限定标准;而且,作者之间合作关系也不能体现知识本身的传承和研究主题之间隐含的相关性。
有鉴于此特提出本发明。
发明内容
本发明要解决的技术问题在于克服现有技术的不足,提供一种基于引文网络与科研合作网络的领域专家遴选的方法,综合考虑了学术能力评价和合作网络质量评价两个标准,快速准确地遴选出领域专家。
为解决上述技术问题,本发明采用技术方案的基本构思是:一种基于引文网络和科研合作网络,融合生成学者关系网络,借用复杂网络中重要节点和社区划分算法,实现领域专家遴选的方法,包括以下步骤:
首先,基于数据库元数据信息,构建可量化学者合作关系的学者合作网络;
其次,基于文献引用信息,构建文献引用模型,删除自引干扰,线性映射生成学者引用网络;
然后,将学者合作网络和学者引用网络融合生成学者关系网络;
最后,计算学者关系网络中重要节点并进行聚类分组,结果即为遴选出的专家列表;
其中,所述学者合作网络为无向网络。
本发明的进一步方案为:所述学者合作网络为:Gcollaorati on=(V,Ecollaborat ion),Gcollaorati on=(V,Ecollaborat ion)是由|V|=N个学者节点和|Ecollaboration|=Mcollaboration条边所组成的一个无向网络,其中Gcollboration代表学者合作网络中学者以及学者合作关系的集合,V代表学者群体Gcollboration中的学者集合,Ecollaboration代表学者群体Gcollaboration中学者间的合作关系;学者vi与学者vj在学者合作关系集合Gcollboration中的合作关系变量为
Figure BDA0002284519580000021
在学者合作关系集合Gcollboration中学者vi与其他学者合作次数总和为
Figure BDA0002284519580000022
Figure BDA0002284519580000023
代表学者合作网络中学者vi与学者vj的合作关系,若学者vi与学者vj有一项共同的科研成果,则学者vi与学者vj之间有一次合作,记为1,
Figure BDA0002284519580000031
是学者vi与学者vj边数量之和,即学者vi与学者vj的合作次数总和;若学者vi与学者vj无共同的科研成果,则学者vi与学者vj之间没有合作关系,记为0;其中,i≥1,j≥1,
Figure BDA0002284519580000032
Figure BDA0002284519580000033
相等。
上述方案中,科研成果中的每一位学者是学者合作网络中的一个节点,多个科研成果中的相同的学者只作为一个节点,同一个科研成果的多个学者之间相互存在合作关系;所述科研成果包括科技项目、期刊论文、会议论文、报纸报道、专利、著作、标准和研究报告。
本发明的进一步方案为:所述学者引用网络为:Gcitation=(V,Ecitation),Gcitation=(V,Ecitation)是由|V|=N个学者节点和|Ecitation|=Mcitation条边所组成的一个有向网络;其中,Gcitation代表学者引用网络中学者以及学者引用关系的集合,V代表学者群体Gcitation中的学者集合,Ecitation代表学者群体Gcitation中学者间的引用关系;学者vi与学者vj在学者引用关系集合Gcitation中的引用关系变量为
Figure BDA0002284519580000034
在学者引用关系集合Gcitation中学者vi被其他学者引用次数总和为
Figure BDA0002284519580000035
Figure BDA0002284519580000036
代表学者引用网络中学者vi与学者vj的引用关系,若学者vi的某一项科研成果在学者vj某一项科研成果中被引用,则记为1,
Figure BDA0002284519580000037
是学者vi与学者vj有向边数量之和,即学者vi的科研成果被学者vj的引用次数总和;若学者vi的任何科研成果都没有被学者vj引用,则记为0;其中,i≥1,j≥1,
Figure BDA0002284519580000038
Figure BDA0002284519580000039
相同或不同。
上述方案中,学者引用网络与学者合作网络的学者节点分布相同,区别在于学者引用网络与学者合作网络中代表节点关系的边不同。
本发明的进一步方案为:所述学者关系网络由学者合作网络和学者引用网络融合而成:
G=α·Gcollaboration+β·Gcitation
其中,α、β为学者合作网络和学者引用网络的权重分配值,α+β=1,α与β的赋值可通过计算终端计算分配,也可通过人工设定;
所述学者关系网络模型为G=(V,E),G=(V,E)由|V|=N个学者节点和|E|=M条边所组成的一个有向网络;其中,G代表学者群体中学者以及学者间关系的集合,V代表学者群体G中的学者集合,E代表学者群体G中学者间关系,eij代表学者关系网络中学者vi与学者vj的关系,记为
Figure BDA0002284519580000041
Figure BDA0002284519580000042
为节点vi的入强度,
Figure BDA0002284519580000043
为节点vi的出强度。
本发明的进一步方案为:所述“计算学者关系网络中重要节点”包括依据复杂网络中节点的重要性排序方法,对学者合作网络中学者进行重要性排序,具体包括如下步骤:
S11.设k为整数,取k=0;
S12.去除学者关系网络中出强度不大于k的所有学者节点,同时删除与所述出强度不大于k的学者节点相连的边;
S13.检查此时网络中剩余的学者节点的出强度,判断剩下的学者节点中是否仍存在出强度不大于k的学者节点,若是则执行步骤S12,若否则执行步骤S14;
S14.由步骤S12所去除出强度不大于k的学者节点构成第k层,为该层的节点赋予节点Ks值,即等于k,后执行步骤S15;
S15.判断网络中剩余节点数是否为0,若是则执行步骤S17,若否则执行步骤S16;
S16.设k=k+1,重复执行步骤S12;
S17.依据Ks值对学者进行降序排序。
上述方案中,步骤S14所形成的各层学者节点中,同层学者具有相同的Ks值,相同Ks值学者在排列中的位序相同。
本发明的进一步方案为:所述“进行聚类分组”包括对学者关系网络进行群落划分,划分后的学者群落视为相对独立的研究领域,步骤如下:
S21.将所述学者关系网络G作为初始网络,并设为当前网络;
S22.将当前网络中的节点随机分为两个群落,之后执行步骤S23;
S23.计算每个节点对所述模块度的贡献度并根据贡献度计算网络模块度,之后执行步骤S24;
S24.将较低贡献度的节点从一个群落移动到另一个群落,之后执行步骤S25;
S25.重新计算每个节点对模块度的贡献度和网络模块度,之后执行步骤S26;
S26.判断网络模块度是否增加,同时判断网络模块度是否达到最大值,若模块度增加,即未达最大值,则保留该次节点移动结果并返回执行步骤S24,若模块度不增加,则撤回移动节点,将不同于所述被撤回移动节点的贡献度较低的新节点从一个群落移动到另一个群落,并返回执行步骤S25;若模块度达到最大值,则执行步骤S27;
S27.记录并保存初始网络此时的网络模块度及群落结构,之后执行步骤S28;
S28.将步骤S27中划分出的每个群落作为单独网络继续进行划分,并对每个单独网络以递归的方式执行步骤S22~S28,直至初始网络没有更大的模块度产生,得到网络群落划分结果。
本发明的进一步方案为:所述每个节点对模块度的贡献度λi根据下式计算:
Figure BDA0002284519580000051
其中,κr(i)代表属于社团r的节点vi与该群落内其他节点之间的代表关系的边数值总和,
Figure BDA0002284519580000052
为节点vi的入强度,
Figure BDA0002284519580000053
为节点vi的出强度,ar(i)代表节点在社团r中的变数值的比例。
本发明的进一步方案为:所述模块度Q根据下式计算:
Figure BDA0002284519580000054
其中,m为学者关系网络中代表关系的边数值总和。
所述遴选方法的一种实施方案包括:对所述融合得到的学者关系网络G进行群落划分,划分结果即学者所属技术主题下对应各子技术领域的若干学者群落,在此基础上,针对划分得到各子领域学者关系网络(即由学者关系网络G划分出来的若干个新的学者关系网络)分别进行节点重要性排列计算,获取各子领域学者关系网络中Ks值较高的学者形成专家列表。
上述方案中,当特定技术主题所包含的研究领域比较庞杂,若采用对学者关系网络G直接进行节点重要性排序来获取专家列表的方法,较热门的子技术领域专家排名较高,而较冷门子技术领域的专家可能由于排名靠后而不被遴选入列表,导致部分专家学者的缺失。本发明针对此问题,优先采用聚类分组对学者关系网络G进行子领域划分,之后再进行重要性排序,可有效避免遗漏冷门领域的专家学者。
所述遴选方法的另一种实施方案包括:对所述融合得到的学者关系网络G进行节点重要性排列计算,选取学者关系网络G中Ks值较高的学者节点形成新的学者关系网络,之后对新形成的学者关系网络进行群落划分,划分结果即学者所属技术领域下对应各子技术领域的若干学者群落,并根据各子领域形成专家列表。
上述方案中,当特定技术主题所包含的研究领域分支较简单时,若直接对学者关系网络G进行聚类分组,则可能使各子领域存在大量专家学者,而无法在列表中直观地获取研究领域的领军学者。另外,当辨识特定技术主题中处于研究热点的权威专家时,对学者先聚类再排序的计算过程相比先排序再聚类的过程,增加了无谓的计算量。本发明针对此类问题,优先对学者关系网络中学者节点的重要性进行排序,可设定阈值确定Ks较高的学者节点以形成新的学者关系网络,再进行聚类分组后,即可得到更为直观的专家列表,并体现出各子领域研究热点中较为重要的专家学者。
本发明的进一步方案为:所述“基于文献引用信息,构建文献引用模型,删除自引干扰,线性映射生成学者引用网络”包括如下步骤:
S31.构建文献引用网络模型,统计文献被引次数和他引次数,后执行步骤S32;
S32.根据文献他引次数映射生成排除自引的文献他引网络模型,并映射生成学者引用网络。
上述方案中,S31中第i篇文献在文献群体Gliterature中的被引次数通过引用变量
Figure BDA0002284519580000061
累加得到,计算公式为
Figure BDA0002284519580000062
所述步骤S31中第i篇文献在文献群体Gliterature中的他引次数通过引用变量
Figure BDA0002284519580000063
与自引系数
Figure BDA0002284519580000064
的乘积
Figure BDA0002284519580000065
累加得到,计算公式为
Figure BDA0002284519580000066
若第j篇文献引用第i篇文献,则
Figure BDA0002284519580000067
等于1;若第j篇文献未引用第i篇文献,则
Figure BDA0002284519580000068
等于0;若第i篇文献与第j篇文献中至少有一个相同学者,该次引用为自引,则
Figure BDA0002284519580000069
等于0;若第i篇文献与第j篇文献没有相同学者,该次引用为他引,则
Figure BDA00022845195800000610
等于1;其中,i≥1,j≥1;所述步骤S32中,依据他引次数
Figure BDA00022845195800000611
生成排除自引的文献他引网络模型Gliterature-cited,再通过线性映射生成如上所述的学者引用网络Gcitation
本发明的进一步方案为:所述遴选方法包括提取数据库元数据信息中学者信息,并实行数据清洗步骤,所述数据清洗步骤是以“学者姓名+一级机构+二级机构”作为每位学者的唯一标识,赋予ID编号。
采用上述技术方案后,本发明与现有技术相比具有以下有益效果:
1、学者相互引用体现了学者在知识网络中的引用影响力,学者合作关系则反映了其在社会网络中的合作影响力。由引文网络与科研合作网络融合构建学者关系网络,从研究内容相关性与专家影响力两个方面综合考量,揭示了学者之间存在的潜在的关联关系,更加全面、客观、准确地反映领域专家的分布情况;
2、通过构建学者关系网络遴选专家,打破了学者研究学科、研究领域的限制,充分利用学者间合作与引用关系特征信息可以提高学者聚类计算的有效性与可靠性;基于学者关系网络划分社团,同一个社团里的学者间往往具有相同或相近的学术研究领域,这种方法对于推荐交叉学科或新兴学科的专家同样适用。
下面结合附图对本发明的具体实施方式作进一步详细的描述。
附图说明
附图作为本发明的一部分,用来提供对本发明的进一步的理解,本发明的示意性实施例及其说明用于解释本发明,但不构成对本发明的不当限定。显然,下面描述中的附图仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。在附图中:
图1是本发明中专家遴选方法的流程图;
图2是本发明中专家遴选方法的示意图;
图3是本发明中基于节点出强度递归地剥离网络的方法对学者排序的流程示意图;
图4是本发明中基于学者关系网络对学者进行聚类分组的流程示意图;
图5是本发明中构建学者合作网络、学者引用网络的模型示意图;
图6是本发明中融合生成学者关系网络模型示意图。
需要说明的是,这些附图和文字描述并不旨在以任何方式限制本发明的构思范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
如图1至图6所示,本发明介绍了一种基于引文网络和科研合作网络,融合生成学者关系网络,借用复杂网络中重要节点和社区划分算法,实现领域专家遴选的方法。首先,基于数据库元数据信息,构建可量化学者合作关系的学者合作网络;其次,基于文献引用信息,构建文献引用模型,删除自引干扰,线性映射生成学者引用网络;然后,将学者合作网络和学者引用网络融合生成学者关系网络;最后,计算学者关系网络中重要节点并进行聚类分组,结果即为遴选出的专家列表。
实施例
如图1和图2所示,本实施例中,具体包括以下步骤:
A.基于数据库元数据信息,构建可量化学者合作关系的学者合作网络;
本实施例中,步骤A所述学者合作网络为:Gcollaorati on=(V,Ecollaborat ion),Gcollaorati on=(V,Ecollaborat ion)是由|V|=N个学者节点和|Ecollaboration|=Mcollaboration条边所组成的一个无向网络,其中Gcollboration代表学者合作网络中学者以及学者合作关系的集合,V代表学者群体Gcollboration中的学者集合,Ecollaboration代表学者群体Gcollaboration中学者间的合作关系;学者vi与学者vj在学者合作关系集合Gcollboration中的合作关系变量为
Figure BDA0002284519580000081
在学者合作关系集合Gcollboration中学者vi与其他学者合作次数总和为
Figure BDA0002284519580000082
Figure BDA0002284519580000083
代表学者合作网络中学者vi与学者vj的合作关系,若学者vi与学者vj有一项共同的科研成果,则学者vi与学者vj之间有一次合作,记为1,
Figure BDA0002284519580000084
是学者vi与学者vj边数量之和,即学者vi与学者vj的合作次数总和;若学者vi与学者vj无共同的科研成果,则学者vi与学者vj之间没有合作关系,记为0;其中,i≥1,j≥1,
Figure BDA0002284519580000085
Figure BDA0002284519580000086
相等。
本实施例中,科研成果中的每一位学者是学者合作网络中的一个节点,多个科研成果中的相同的学者只作为一个节点,同一个科研成果的多个学者之间相互存在合作关系;所述科研成果包括科技项目、期刊论文、会议论文、报纸报道、专利、著作、标准和研究报告。
B.基于文献引用信息,构建文献引用模型,删除自引干扰,线性映射生成学者引用网络;
本实施例中,所述“基于文献引用信息,构建文献引用模型,删除自引干扰,线性映射生成学者引用网络”包括如下步骤:
S31.构建文献引用网络模型,统计文献被引次数和他引次数,后执行步骤S32;
S32.根据文献他引次数映射生成排除自引的文献他引网络模型,并映射生成学者引用网络。
上述方案中,S31中第i篇文献在文献群体Gliterature中的被引次数通过引用变量
Figure BDA0002284519580000091
累加得到,计算公式为
Figure BDA0002284519580000092
所述步骤S31中第i篇文献在文献群体Gliterature中的他引次数通过引用变量
Figure BDA0002284519580000093
与自引系数
Figure BDA0002284519580000094
的乘积
Figure BDA0002284519580000095
累加得到,计算公式为
Figure BDA0002284519580000096
若第j篇文献引用第i篇文献,则
Figure BDA0002284519580000097
等于1;若第j篇文献未引用第i篇文献,则
Figure BDA0002284519580000098
等于0;若第i篇文献与第j篇文献中至少有一个相同学者,该次引用为自引,则
Figure BDA0002284519580000099
等于0;若第i篇文献与第j篇文献没有相同学者,该次引用为他引,则
Figure BDA00022845195800000910
等于1;其中,i≥1,j≥1;所述步骤S32中,依据他引次数
Figure BDA00022845195800000911
生成排除自引的文献他引网络模型Gliterature-cited,再通过线性映射生成学者引用网络Gcitation
本实施例中,如图5所示,构建所述学者引用网络为:Gcitation=(V,Ecitation),Gcitation=(V,Ecitation)是由|V|=N个学者节点和|Ecitation|=Mcitation条边所组成的一个有向网络;其中,Gcitation代表学者引用网络中学者以及学者引用关系的集合,V代表学者群体Gcitation中的学者集合,Ecitation代表学者群体Gcitation中学者间的引用关系;学者vi与学者vj在学者引用关系集合Gcitation中的引用关系变量为
Figure BDA00022845195800000912
在学者引用关系集合Gcitation中学者vi被其他学者引用次数总和为
Figure BDA00022845195800000913
Figure BDA00022845195800000914
代表学者引用网络中学者vi与学者vj的引用关系,若学者vi的某一项科研成果在学者vj某一项科研成果中被引用,则记为1,
Figure BDA0002284519580000101
是学者vi与学者vj有向边数量之和,即学者vi的科研成果被学者vj的引用次数总和;若学者vi的任何科研成果都没有被学者vj引用,则记为0;其中,i≥1,j≥1,
Figure BDA0002284519580000102
Figure BDA0002284519580000103
相同或不同。学者引用网络与学者合作网络的学者节点分布相同,区别在于学者引用网络与学者合作网络中代表节点关系的边不同。
C.将学者合作网络和学者引用网络融合生成学者关系网络;
本实施例中,如图6所示,所述学者关系网络由学者合作网络和学者引用网络融合而成:
G=α·Gcollaboration+β·Gcitation
其中,α、β为学者合作网络和学者引用网络的权重分配值,α+β=1,α与β的赋值可通过计算终端计算分配,也可通过人工设定;所述学者关系网络模型为G=(V,E),是由|V|=N个学者节点和|E|=M条边所组成的一个有向网络;其中,G代表学者群体中学者以及学者间关系的集合,V代表学者群体G中的学者集合,E代表学者群体G中学者间关系,eij代表学者关系网络中学者vi与学者vj的关系,记为
Figure BDA0002284519580000104
Figure BDA0002284519580000105
为节点vi的入强度,
Figure BDA0002284519580000106
为节点vi的出强度。
D.计算学者关系网络中重要节点并进行聚类分组,结果即为遴选出的专家列表。
本实施例中,如图3所示,所述“计算学者关系网络中重要节点”包括依据复杂网络中节点的重要性排序方法,对学者合作网络中学者进行重要性排序;
优选的,所述依据复杂网络中节点的重要性排序方法包括:基于节点出强度递归地剥离网络的方法对学者排序,具体如下:
S11.设k为整数,取k=0;
S12.去除学者关系网络中出强度不大于k的所有学者节点,同时删除与所述出强度不大于k的学者节点相连的边;
S13.检查此时网络中剩余的学者节点的出强度,判断剩下的学者节点中是否仍存在出强度不大于k的学者节点,若是则执行步骤S12,若否则执行步骤S14;
S14.由步骤S12所去除出强度不大于k的学者节点构成第k层,为该层的节点赋予节点Ks值,即等于k,后执行步骤S15;
S15.判断网络中剩余节点数是否为0,若是则执行步骤S17,若否则执行步骤S16
S16.设k=k+1,重复执行步骤S12;
S17.依据Ks值对学者进行降序排序。
本实施例中,如图4所示,所述“进行聚类分组”包括对学者关系网络进行群落划分,划分后的学者群落视为相对独立的研究领域,步骤如下:
S21.将所述学者关系网络G作为初始网络,并设为当前网络;
S22.将当前网络中的节点随机分为两个群落,之后执行步骤S23;
S23.计算每个节点对所述模块度的贡献度并根据贡献度计算网络模块度,之后执行步骤S24;
S24.将较低贡献度的节点从一个群落移动到另一个群落,之后执行步骤S25;
S25.重新计算每个节点对模块度的贡献度和网络模块度,之后执行步骤S26;
S26.判断网络模块度是否增加,同时判断网络模块度是否达到最大值,若模块度增加,即未达最大值,则保留该次节点移动结果并返回执行步骤S24,若模块度不增加,则撤回移动节点,将不同于所述被撤回移动节点的贡献度较低的新节点从一个群落移动到另一个群落,并返回执行步骤S25;若模块度达到最大值,则执行步骤S27;
S27.记录并保存初始网络此时的网络模块度及群落结构,之后执行步骤S28;
S28.将步骤S27中划分出的每个群落作为单独网络继续进行划分,并对每个单独网络以递归的方式执行步骤S22~S28,直至初始网络没有更大的模块度产生,得到网络群落划分结果。
所述每个节点对模块度的贡献度λi根据下式计算:
Figure BDA0002284519580000111
其中,κr(i)代表属于社团r的节点vi与该群落内其他节点之间的代表关系的边数值总和,
Figure BDA0002284519580000112
为节点vi的入强度,
Figure BDA0002284519580000113
为节点vi的出强度,ar(i)代表节点在社团r中的变数值的比例。
所述模块度Q根据下式计算:
Figure BDA0002284519580000121
其中,m为学者关系网络中代表关系的边数值总和。
本实施例中,所述遴选方法还包括提取数据库元数据信息中学者信息,并实行数据清洗步骤,所述数据清洗步骤是以“学者姓名+一级机构+二级机构”作为每位学者的唯一标识,赋予ID编号。
本实施例中,关键词含有“高性能纤维”的期刊论文为例,首先选定科技论文10,547篇,学者123,653个;建立学者合作网络模型和学者引用网络模型;融合生成学者关系网络模型;对所述融合得到的学者关系网络G进行节点重要性排列计算,选取学者关系网络G中Ks值较高的学者节点形成新的学者关系网络,之后对新形成的学者关系网络进行群落划分,划分结果即学者所属技术领域下对应各子技术领域的若干学者群落,并根据各子领域形成专家列表,获得分属于18个研究领域的1,243位专家。
上述方案中,当特定技术主题所包含的研究领域分支较简单时,若对学者关系网络G直接进行聚类分组,则可能使各子领域存在大量专家学者,而无法在列表中直观地获取研究领域的领军学者。另外,当辨识特定技术主题中处于研究热点的权威专家时,对学者先聚类再排序的计算过程相比先排序再聚类的过程,增加了无谓的计算量。本发明针对此问题,优先对学者关系网络中学者节点的重要性进行排序,可设定阈值确定Ks较高的学者节点以形成新的学者关系网络,再进行聚类分组后,即可得到更为直观的专家列表,并体现出各子领域研究热点中较为重要的专家学者。
本实施例中,关键词含有“人工智能”的会议论文为例,首先选定会议论文11,432篇,学者25,985个;建立学者合作网络模型和学者引用网络模型;融合生成学者关系网络模型;对所述融合得到的学者关系网络G进行群落划分,划分结果即学者所属技术主题下对应各子技术领域的若干学者群落,在此基础上,针对划分得到的各子领域学者关系网络(即由学者关系网络G划分出来的若干个新的学者关系网络)分别进行节点重要性排列计算,获取各子领域学者关系网络中Ks值较高的学者形成专家列表,获得分属于21个研究领域的2,642位专家。
上述方案中,当特定技术主题所包含的研究领域比较庞杂,若采用对学者关系网络G直接进行节点重要性排序来获取专家列表的方法,较热门的子技术领域专家排名较高,而较冷门子技术领域的专家可能由于排名靠后而不被遴选入列表,导致部分专家学者的缺失。本发明针对此问题,优先采用聚类分组对学者关系网络G进行子领域划分,之后再进行重要性排序,可有效避免遗漏冷门领域的专家学者。
本实施例中,用户手动按序查看,获取高质量的文献。
以上所述仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专利的技术人员在不脱离本发明技术方案范围内,当可利用上述提示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明方案的范围内。

Claims (10)

1.一种基于引文网络与科研合作网络的领域专家遴选的方法,其特征在于,包括以下步骤:
首先,基于数据库元数据信息,构建可量化学者合作关系的学者合作网络;
其次,基于文献引用信息,构建文献引用模型,删除自引干扰,线性映射生成学者引用网络;
然后,将学者合作网络和学者引用网络融合生成学者关系网络;
最后,计算学者关系网络中重要节点并进行聚类分组,结果即为遴选出的专家列表;
其中,所述学者合作网络为无向网络。
2.根据权利要求1所述的一种基于引文网络与科研合作网络的领域专家遴选的方法,其特征在于,所述学者合作网络为:Gcollaoration=(V,Ecollaboration),Gcollaoration=(V,Ecollaboration)是由|V|=N个学者节点和|Ecollaboration|=Mcollaboration条边所组成的一个无向网络,其中Gcollboration代表学者合作网络中学者以及学者合作关系的集合,V代表学者群体Gcollboration中的学者集合,Ecollaboration代表学者群体Gcollaboration中学者间的合作关系;
学者vi与学者vj在学者合作关系集合Gcollboration中的合作关系变量为
Figure FDA0002284519570000011
在学者合作关系集合Gcollboration中学者vi与其他学者合作次数总和为
Figure FDA0002284519570000012
Figure FDA0002284519570000013
代表学者合作网络中学者vi与学者vj的合作关系,若学者vi与学者vj有一项共同的科研成果,则学者vi与学者vj之间有一次合作,记为1,
Figure FDA0002284519570000014
是学者vi与学者vj边数量之和,即学者vi与学者vj的合作次数总和;若学者vi与学者vj无共同的科研成果,则学者vi与学者vj之间没有合作关系,记为0;其中,i≥1,j≥1,
Figure FDA0002284519570000015
Figure FDA0002284519570000016
相等。
3.根据权利1所述的一种基于引文网络与科研合作网络的领域专家遴选的方法,其特征在于,所述学者引用网络为:Gcitation=(V,Ecitation),Gcitation=(V,Ecitation)是由|V|=N个学者节点和|Ecitation|=Mcitation条边所组成的一个有向网络;其中,Gcitation代表学者引用网络中学者以及学者引用关系的集合,V代表学者群体Gcitation中的学者集合,Ecitation代表学者群体Gcitation中学者间的引用关系;
学者vi与学者vj在学者引用关系集合Gcitation中的引用关系变量为
Figure FDA0002284519570000021
在学者引用关系集合Gcitation中学者vi被其他学者引用次数总和为
Figure FDA0002284519570000022
Figure FDA0002284519570000023
代表学者引用网络中学者vi与学者vj的引用关系,若学者vi的某一项科研成果在学者vj某一项科研成果中被引用,则记为1,
Figure FDA0002284519570000024
是学者vi与学者vj有向边数量之和,即学者vi的科研成果被学者vj的引用次数总和;若学者vi的任何科研成果都没有被学者vj引用,则记为0;其中,i≥1,j≥1,
Figure FDA0002284519570000025
Figure FDA0002284519570000026
相同或不同。
4.根据权利要求1~3任意一项所述的一种基于引文网络与科研合作网络的领域专家遴选的方法,其特征在于,所述学者关系网络由学者合作网络和学者引用网络融合而成:
G=α·Gcollaboration+β·Gcitation
其中,α、β为学者合作网络和学者引用网络的权重分配值,α+β=1,α与β的赋值可通过计算终端计算分配,也可通过人工设定;
所述学者关系网络模型为G=(V,E),G=(V,E)由|V|=N个学者节点和|E|=M条边所组成的一个有向网络;其中,G代表学者群体中学者以及学者间关系的集合,V代表学者群体G中的学者集合,E代表学者群体G中学者间关系,eij代表学者关系网络中学者vi与学者vj的关系,记为
Figure FDA0002284519570000027
Figure FDA0002284519570000028
为节点vi的入强度,
Figure FDA0002284519570000029
为节点vi的出强度。
5.根据权利要求4所述的一种基于引文网络与科研合作网络的领域专家遴选的方法,其特征在于,所述“计算学者关系网络中重要节点”包括依据复杂网络中节点的重要性排序方法,对学者合作网络中学者进行重要性排序,具体包括如下步骤:
S11.设k为整数,取k=0;
S12.去除学者关系网络中出强度不大于k的所有学者节点,同时删除与所述出强度不大于k的学者节点相连的边;
S13.检查此时网络中剩余的学者节点的出强度,判断剩下的学者节点中是否仍存在出强度不大于k的学者节点,若是则执行步骤S12,若否则执行步骤S14;
S14.由步骤S12所去除出强度不大于k的学者节点构成第k层,为该层的节点赋予节点Ks值,即等于k,后执行步骤S15;
S15.判断网络中剩余节点数是否为0,若是则执行步骤S17,若否则执行步骤S16
S16.设k=k+1,重复执行步骤S12;
S17.依据Ks值对学者进行降序排序。
6.根据权利要求1所述的一种基于引文网络与科研合作网络的领域专家遴选的方法,其特征在于,所述“进行聚类分组”包括对学者关系网络进行群落划分,划分后的学者群落视为相对独立的研究领域,步骤如下:
S21.将所述学者关系网络G作为初始网络,并设为当前网络;
S22.将当前网络中的节点随机分为两个群落,之后执行步骤S23;
S23.计算每个节点对所述模块度的贡献度并根据贡献度计算网络模块度,之后执行步骤S24;
S24.将较低贡献度的节点从一个群落移动到另一个群落,之后执行步骤S25;
S25.重新计算每个节点对模块度的贡献度和网络模块度,之后执行步骤S26;
S26.判断网络模块度是否增加,同时判断网络模块度是否达到最大值,若模块度增加,即未达最大值,则保留该次节点移动结果并返回执行步骤S24,若模块度不增加,则撤回移动节点,将不同于所述被撤回移动节点的贡献度较低的新节点从一个群落移动到另一个群落,并返回执行步骤S25;若模块度达到最大值,则执行步骤S27;
S27.记录并保存初始网络此时的网络模块度及群落结构,之后执行步骤S28;
S28.将步骤S27中划分出的每个群落作为单独网络继续进行划分,并对每个单独网络以递归的方式执行步骤S22~S28,直至初始网络没有更大的模块度产生,得到网络群落划分结果。
7.根据权利要求6所述的一种基于引文网络与科研合作网络的领域专家遴选的方法,其特征在于,所述每个节点对模块度的贡献度λi根据下式计算:
Figure FDA0002284519570000041
其中,κr(i)代表属于社团r的节点vi与该群落内其他节点之间的代表关系的边数值总和,
Figure FDA0002284519570000042
为节点vi的入强度,
Figure FDA0002284519570000043
为节点vi的出强度,ar(i)代表节点在社团r中的变数值的比例。
8.根据权利要求6所述的一种基于引文网络与科研合作网络的领域专家遴选的方法,其特征在于,所述模块度Q根据下式计算:
Figure FDA0002284519570000044
其中,m为学者网络中代表关系的边数值总和。
9.根据权利要求1所述的一种基于引文网络与科研合作网络的领域专家遴选的方法,其特征在于,所述“基于文献引用信息,构建文献引用模型,删除自引干扰,线性映射生成学者引用网络”包括如下步骤:
S31.构建文献引用网络模型,统计文献被引次数和他引次数,后执行步骤S32;
S32.根据文献他引次数映射生成排除自引的文献他引网络模型,并映射生成学者引用网络。
10.根据权利要求1所述的一种基于引文网络与科研合作网络的领域专家遴选的方法,其特征在于,所述遴选方法包括提取数据库元数据信息中学者信息,并实行数据清洗步骤,所述数据清洗步骤是以“学者姓名+一级机构+二级机构”作为每位学者的唯一标识,赋予ID编号。
CN201911154798.4A 2019-11-22 2019-11-22 一种基于引文网络与科研合作网络的领域专家遴选方法 Active CN110990662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911154798.4A CN110990662B (zh) 2019-11-22 2019-11-22 一种基于引文网络与科研合作网络的领域专家遴选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911154798.4A CN110990662B (zh) 2019-11-22 2019-11-22 一种基于引文网络与科研合作网络的领域专家遴选方法

Publications (2)

Publication Number Publication Date
CN110990662A true CN110990662A (zh) 2020-04-10
CN110990662B CN110990662B (zh) 2021-06-04

Family

ID=70085600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911154798.4A Active CN110990662B (zh) 2019-11-22 2019-11-22 一种基于引文网络与科研合作网络的领域专家遴选方法

Country Status (1)

Country Link
CN (1) CN110990662B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269909A (zh) * 2020-09-15 2021-01-26 淮阴工学院 一种基于多源信息融合技术的专家推荐方法
CN117076495A (zh) * 2023-10-16 2023-11-17 之江实验室 面向多模态文献数据的分布式存储方法、装置和设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020302A (zh) * 2012-12-31 2013-04-03 中国科学院自动化研究所 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和***
CN104657488A (zh) * 2015-03-05 2015-05-27 中南大学 一种基于引用传播网络的作者影响力计算方法
CN106126732A (zh) * 2016-07-04 2016-11-16 中南大学 基于兴趣相似模型的作者影响力传播能力预测方法
CN109002524A (zh) * 2018-07-13 2018-12-14 北京市科学技术情报研究所 一种基于论文引用关系的黄金引用作者排序方法
CN109657122A (zh) * 2018-12-10 2019-04-19 大连理工大学 一种基于学术大数据的学术团队重要成员识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020302A (zh) * 2012-12-31 2013-04-03 中国科学院自动化研究所 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和***
CN104657488A (zh) * 2015-03-05 2015-05-27 中南大学 一种基于引用传播网络的作者影响力计算方法
CN106126732A (zh) * 2016-07-04 2016-11-16 中南大学 基于兴趣相似模型的作者影响力传播能力预测方法
CN109002524A (zh) * 2018-07-13 2018-12-14 北京市科学技术情报研究所 一种基于论文引用关系的黄金引用作者排序方法
CN109657122A (zh) * 2018-12-10 2019-04-19 大连理工大学 一种基于学术大数据的学术团队重要成员识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269909A (zh) * 2020-09-15 2021-01-26 淮阴工学院 一种基于多源信息融合技术的专家推荐方法
CN117076495A (zh) * 2023-10-16 2023-11-17 之江实验室 面向多模态文献数据的分布式存储方法、装置和设备
CN117076495B (zh) * 2023-10-16 2024-02-13 之江实验室 面向多模态文献数据的分布式存储方法、装置和设备

Also Published As

Publication number Publication date
CN110990662B (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN111078873B (zh) 一种基于引文网络与科研合作网络的领域专家遴选方法
Murata et al. Link prediction of social networks based on weighted proximity measures
Pandey et al. A decision tree algorithm pertaining to the student performance analysis and prediction
CN108920544A (zh) 一种基于知识图谱的个性化职位推荐方法
CN111831905B (zh) 基于团队科研影响力及可持续性建模的推荐方法和装置
CN110599839A (zh) 一种基于智能组卷和文本分析评阅的在线考试方法和***
Kumar et al. MADM methods for finding the right personnel in academic institutions
US7296020B2 (en) Automatic evaluation of categorization system quality
CN110990662B (zh) 一种基于引文网络与科研合作网络的领域专家遴选方法
CN111723973A (zh) 基于mooc日志数据中用户行为因果关系的学习效果优化方法
Kashid et al. A review of mathematical multi-criteria decision models with a case study
Li Research on evaluation method of physical education teaching quality in colleges and universities based on decision tree algorithm
Carmona et al. Subgroup discovery in an e-learning usage study based on Moodle
Kumar et al. Fake news detection of Indian and United States election data using machine learning algorithm
CN111078859B (zh) 一种基于引用次数的作者推荐方法
CN108509588A (zh) 一种基于大数据的律师评估方法及推荐方法
Yang et al. Applied research of data mining technology in hospital staff appraisal
CN111598331A (zh) 一种基于科研多维特征的项目可行性预测分析方法
He et al. The application of analytic hierarchy process and fuzzy comprehensive evaluation method for the evaluation of enterprise training effectiveness
Cao et al. Opinion leaders discovery in social networking site based on the theory of propagation probability
Ahmed et al. Machine learning approach for effective ranking of researcher assessment parameters
CN111046165B (zh) 一种基于引用次数的文献推荐方法
Procaci et al. How Do Outstanding Users Differ From Other Users in Q&A Communities?
Valerio et al. Automatic classification of concept maps based on a topological taxonomy and its application to studying features of human-built maps
Elayidom et al. Applying data mining techniques for placement chance prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant