CN104933111A - 一种基于学术关系网络的专家学术距离评估方法 - Google Patents
一种基于学术关系网络的专家学术距离评估方法 Download PDFInfo
- Publication number
- CN104933111A CN104933111A CN201510299330.XA CN201510299330A CN104933111A CN 104933111 A CN104933111 A CN 104933111A CN 201510299330 A CN201510299330 A CN 201510299330A CN 104933111 A CN104933111 A CN 104933111A
- Authority
- CN
- China
- Prior art keywords
- academic
- value
- formula
- node
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于学术关系网络的专家学术距离评估方法,包括如下步骤:第一步,提取学术社区结构特征、关系跳数结构特征、关系权重结构特征以及邻里重叠度结构特征;学术社区结构特征区分两人是否在同一学术社区;学术关系跳数结构特征表示两人直接相连或达到通过人物的个数;学术关系权重表示在学术关系网络里,人物到其他人物的权重值;邻里重叠度表示共同朋友的数量;第二步,使用变异系数的灰色关联算法来综合评估以上的四个学术距离结构特征,得到综合的学术距离值。这种方法计算简便,能有效评估出是否回避,能显著提高科技评价及评审的公平与准确性。
Description
技术领域
本发明涉及计算机应用领域,尤其是一种应用计算机评估专家学术距离的方法。
背景技术
目前就是因为缺少科学合理的评价与评审的制度,所以在科技评价及评审中经常出现由于主观因素产生的不公平现象。由于现有的评审机制对评审者和被评审者关系难以把握,甚至有时候评审专家既是申请者也是评审者,这样易使得评审工作由于主观因素出现的不公平现象。所以制定合理的回避制度对保证学术评价与评审的公平性起着至关重要的作用。
正确的回避评审专家对于评审公平性的保证具有不可估量的意义。评审专家也是社会上的人,有着自己的关系网络,与其他很多人都存在着很多种的关系类型,但是在评审的时候,评审专家的其他社会关系会影响专家的判断,对与自己关系密切的申请者的项目的评分肯定要高于那些与自己关系不怎么强甚至没有关系的申请者的项目的评分。如果没有对需要回避的评审专家进行回避,则每年选出来的各种项目基金可能不一定是优秀的,而只是因为那个项目的申请者与评审该项目的专家的关系密切,从而使得该项目获得了高分,这肯定对于其他的申报人来说是极为不公平的。
判断两个人之间是否需要回避的依据是两个人之间的关系是否是强关系,而衡量关系强弱需要考虑的是两个人之间的学术距离。而目前没有有效的评估方法来评估两个人之间的学术距离。因此,目前回避评估技术落后,导致科技评价及评审结果不公正、不准确。
发明内容
本发明提供一种专家学术距离评估方法,能判断两个人之间的关系强弱,有效评估出是否回避,提高科技评价及评审的公平准确。
为实现上述目的,本发明的技术方案如下:
一种基于学术关系网络的专家学术距离评估方法,包括如下步骤:第一步,提取学术社区结构特征、关系跳数结构特征、关系权重结构特征以及邻里重叠度结构特征;学术社区结构特征区分两人是否在同一学术社区;学术关系跳数结构特征表示两人直接相连或达到对方需通过人物的个数;学术关系权重结构特征表示在学术关系网络里,人物到其他人物的权重值;邻里重叠度结构特征表示共同朋友的数量;第二步,使用变异系数的灰色关联算法来综合评估以上的四个学术距离结构特征,得到综合的学术距离值。
其中,学术社区结构特征取值:在一个学术社区里的人的学术社区特征值为1,不在一个学术社区里的人的学术社区特征值为0.5。
其中,提取学术社区结构特征时,采用社区层次化检测算法在学术关系网络上进行社区划分,具体为:首先初始时假设网络中的每个节点都是一个独立的社团,对任意相邻的节点i和节点j,计算将节点i加入其邻居节点j所在的社团时对应的模块度增量:
其中,si,in是节点与社团C内其他节点所有连边的权重和,Wc是社团C内部所有边的权重和,Sc是所有与社团C内部的点相关联的边的权重和,W是网络中所有边的权值之和,si是节点i的权重值;
计算节点i与所有邻居节点的模块度增量,然后选出其中最大的一个,当该值为正时,把节点i加入相应的邻居节点所在的社团;否则,节点i留在原社团中,这种社团合并过程重复进行,直到不再出现合并现象,这样就划分出了第一层社团;
然后构造一个新网络,其中的节点是前一阶段划分出的社团,节点之间连边的权重是两个社团之间所有连边的权重和,利用前面的方法对新网络进行社团划分,得到第二层社团结构;以此类推,直到不能再划分出更高一层的社团结构为止。
其中,学术关系跳数结构特征取值为:在学术关系网络里,如果两个人之间的关系存在直接连接则这两个人之间的学术关系跳数特征值为1,如果没有直接相连但是可以通过一个人物达到,则学术关系跳数特征值为2,依次这样下去,直到不可达为止。
其中,计算学术关系权重时,先对整个学术关系网络里的权重值进行反转,即先除掉那些没有直接相连而使权重值为0的值,用学术关系网络里最大的权重值与学术关系网络里最小的权重值进行交换,用第二大值与第二小值交换,按照此规则对整个学术关系网络里的权重值进行交换,接着对学术关系网络里权重值为0的人物节点的权重值进行值最大化处理,最后去得到每个节点到其他节点的最短关系权重值。
其中,邻里重叠度的定义如下:
公式(3-2)
在公式(3-2)里,分母部分不包括A和B本身。
其中,第二步包括:
计算学术距离特征灰色关联指数,各个结构特征对每个人物的学术距离指数计算如下:
公式(3-3)表示的是该指标的测量值与最优值之间的差异与整个测量过程中最好的曲线与最优曲线差异的比值,得到的是这个指标对该人物节点的学术距离贡献度,其中测量值是指每个节点的四个结构特征的测量值,而最优值是指根据测量值来得到最好的值,在公式(3-3)里ri(k)表示的是第i个节点第k个(k=1,2,3,4)个测量指标的学术距离指数,ρ为分辨系数,用来减少因为Δmax过大而使上面那个函数失真的影响,Δmax和Δmin分别是测量值与最优值差异的最大值和最小值,计算如下:
公式(3-4)
公式(3-4)表示的是所有学术距离特征的测量值与最优值之间差异的绝对值,Δmax和Δmin分别是公式(3-4)里的最大与最小值,表示的是测量曲线与最优曲线的差异,其中X*(k)与Y*(k)分别表示的是测量值与最优值,其公式分别如公式(3-5)和公式(3-6)所示:
Xi={Xi(1),Xi(2),Xi(3),Xi(4)} 公式(3-5)
公式(3-5)表示的是四个学术距离结构特征的测量值,其中Xi(m)表示第i个节点的四个学术距离结构特征的测量值(m=1,2,3,4),
Y=(y(1),y(2),y(3),y(4)) 公式(3-6)
公式(3-6)表示的是综合整个学术关系网络得出的整个学术关系网络的测量学术距离结构特征的最优序列,其中该序列中的y(m)是所有节点中的第m个回避指标因子值的最优值;采用“均值法”对这些学术距离结构特征进行无量纲化处理,对公式(3-5)、公式(3-6)里的结果处理后得到的比较数据序列分别如公式(3-7)和公式(3-9)所示:
其中xi(k)表示的是节点i的第k个结构特征值,aver(k)表示的是所有节点第k个结构特征的平均值:
无量纲化后得到的最优数据序列为:
其中y(m)表示节点第m个结构特征的最优值,aver(m)表示的是第m个结构特征的平均值。
计算学术距离结构特征变异度权值,结构特征的权重计算如下:
公式(3-10)表示各个结构特征权重值的计算,用该结构特征的标准差与其平均值比值得到该结构特征的相对变异程度,vk表示的是该结构特征的权重值,x1k表示的该结构特征测量的平均值,Sk表示的是所有结构特征的标准差,计算公式如下:
公式(3-11)表示的是某个结构特征测量指标的标准差,用来反应各个结构特征值的差异程度,其中Sk表示第k个结构特征的标准差,xi(k)是第i个节点第k个结构特征的指标值;x1k表示第k个结构特征的平均值,对各个结构特征的变异系数值进行归一化处理,使各个结构特征的权重值的范围在0到1之间,并且四个结构特征的权重值之和为1,计算公式如下:
公式(3-12)表示的是各个结构特征权重归一化处理后的结果,其中vk表示的是第k个结构特征的权重值;
综合学术距离的计算,用各个结构特征的学术距离值乘以各个结构特征的权重值,累计求和得到总的结构特征值,计算公式如下:
公式(3-13)表示R(i)表示第i个节点的总的回避指数,其中ri(k)表示特征灰色关联指数,wk表示第k个结构特征的权重值。
其中,学术社区特征的最优值为1,关系跳数特征的最优值为1,关系权重特征的最优值为整个网络的最小的权重值,邻里重叠度的最优值为1,ρ取值为0.5。
本发明的有益效果:本发明考虑了学术社区因子、学术关系权重因子、学术关系跳数因子和学术邻里重叠度因子,最后使用基于变异系数的灰色关联分析方法综合评估以上的指标,得到综合的学术距离值。这种方法计算简便,能有效评估出是否回避,能显著提高科技评价及评审的公平与准确。
附图说明
图1为本发明实施例专家学术距离评估方法的流程示意图。
图2为本发明实施例学术关系权重图。
图3为本发明实施例“王三”与“李三”关系的局部图。
图4为本发明实施例学术关系整体网络图。
图5为本发明实施例“雷一”与“李三”邻居局部图。
具体实施方式
下面结合附图及实例,对本发明做进一步说明。
如图1所示,本实施例基于学术关系网络的专家学术距离评估方法,首先用层次化社区划分算法对学术关系网络进行学术社区划分,在一个社区里的人之间联系的较频繁,不在一个社区里的人联系的较稀少,学术活动频繁的人在一个学术圈里,在同等条件下,在一个社区里的人比不在一个社区里的人的关系要强些,即学术距离要大些。关系跳数结构特征则是根据网络结构上的直接间接关系来衡量的。关系权重结构特征是把两者之间的权重考虑进来,得到一个人与另一个关系的学术权重值。邻里重叠度结构特征则是从两人之间的共同朋友个数出发,两者之间的共同朋友越多,说明两人关系越强,学术距离越大。最后使用变异系数的灰色关联算法来综合评估以上的四个学术距离结构特征,得到综合的学术距离值。
学术关系距离网络结构特征主要是从学术社区特征、关系跳数、关系权重以及邻里重叠度这四个方面来提取。
1、学术社区特征
专家的学术圈是影响评估专家之间学术距离的重要因素,在一个学术社区里的人之间的活动比不在一个学术社区里的人的活动要频繁一些。也即在相同的条件下,在一个学术社区里的人之间的学术距离比不在一个学术社区里的人之间的学术距离要大些。学术社区的形成是由于人们与人们之间进行学术交流,合作发表论文等的学术活动而形成的。在这里我们用社区层次化检测算法在学术关系网络上进行社区划分,即是学术圈。学术社区结构特征是考虑整体与局部的关系,在一个学术圈里的专家之间的联系比不在一个学术圈里的人之间的联系频繁,但是不在一个学术圈的两个人物之间不代表没有直接关系,所以把学术社区结构特征作为其中一个特征来衡量学术距离。在一个学术社区里的人的学术社区特征值为1,不在一个学术社区里的人的学术社区特征值为0.5。在这里使用的是层次化社区划分算法来对学术关系网络进行社区划分,该算法分为两个阶段:
首先初始时假设网络中的每个节点都是一个独立的社团。对任意相邻的节点i和节点j,计算将节点i加入其邻居节点j所在的社团(记为社团G)时对应的模块度增量:
其中,si,in是节点与社团C内其他节点所有连边的权重和,Wc是社团C内部所有边的权重和,Sc是所有与社团C内部的点相关联的边的权重和,W是网络中所有边的权值之和,si是节点i的权重值。
计算节点i与所有邻居节点的模块度增量,然后选出其中最大的一个。当该值为正时,把节点i加入相应的邻居节点所在的社团;否则,节点i留在原社团中。这种社团合并过程重复进行,直到不再出现合并现象,这样就划分出了第一层社团。
然后构造一个新网络,其中的节点是前一阶段划分出的社团,节点之间连边的权重是两个社团之间所有连边的权重和。利用前面的方法对新网络进行社团划分,得到第二层社团结构。以此类推,直到不能再划分出更高一层的社团结构为止。
2、关系跳数特征
学术关系跳数结构特征是根据网络结构得出的一个指标,在学术关系网络里,如果两个人之间的关系存在直接连接则这两个人之间的学术关系跳数特征值为1,如果没有直接相连但是可以通过一个人物达到,则学术关系跳数特征值为2,依次这样下去,直到不可达为止。如果一个人在学术关系网络里是孤立点,即在学术关系网络上与任何人物都没有关系,也即与任何人物都不相连,在整个网络里是孤立存在的,在这里为了研究的方便,则定义他与学术关系网络上的任何人物的学术关系跳数特征值为整个学术关系网络里最大的学术关系跳数特征值加1。学术关系跳数特征则是在不考虑网络权重值的基础上,只是根据人物与人物之间是否存在关系来衡量的。在这里表示在其他同样的条件下,学术关系跳数特征值为1的人物之间的学术距离比学术关系跳数特征值为2的学术距离要大些,学术关系跳数特征值为2的人物之间的学术距离比学术关系跳数特征值为3的学术距离要大些,以此类推。而学术关系跳数特征值一样的人物之间的学术距离则是一样的。学者间关系跳数越高,意味着两者的关系越远,学术距离越小,反之,学者间关系跳数越低,意味着两者的关系越近,学术距离越大。
3、关系权重特征
学术关系权重表示在学术关系网络里,人物到其他人物的权重值,两个人物之间的学术关系权重值越大,则两个人物之间存在的关系类型可能越多,表明两个人物之间的关系越强,学术距离越大。但经过两个人物甚至更多的人物而得到的学术关系权重极大可能比只经过一个人物而得到的学术关系权重值大甚至大很多,所以不好衡量。例如在图2里,A与B的关系权重为0.55,但是通过节点C、D以及E之后,A与B的权重则会变为2.25,显然2.25比0.55大很多,所以从权重越大来判断学术距离越大不合适,得到人物之间关系权重值之前,需要对权重值进行反转,在图2里,把D与E的最小关系权重值0.15反转为C与D之间的最大关系权重值0.75,而C与D的0.75则反转为0.15,A与C的第二小值0.35则反转为A与B的第二大值0.55,A与B的0.55则反转为0.35,B与E之间的关系权重值0.45则不变。
所以我们先是对整个学术关系网络里的权重值进行反转,即先除掉那些没有直接相连而使权重值为0的值,用学术关系网络里最大的权重值与学术关系网络里最小的权重值进行交换,用第二大值与第二小值交换,按照此规则对整个学术关系网络里的权重值进行交换。接着对学术关系网络里权重值为0的人物节点的权重值进行值最大化处理。最后去得到每个节点到其他节点的最短关系权重值。在其他相同的条件下,学术关系权重值越小就代表两者之间的学术距离越大。
4、邻里重叠度特征
一般来说,在同等条件之下,即A、B与C在其他衡量联系强度的指标一样的情况下,如果A与C的共同朋友比B与C的共同朋友多的话,邻里重叠度越大,关系强度就越强的理论,则说明A与C的关系强度比B与C的关系强度要强,即A与C的学术距离比B与C的学术距离越大。A、B的邻里重叠度的定义如下:
公式(3-2)
在公式(3-2)里,分母部分不包括A和B本身。例如A、B的共同邻居数为4个,与A、B中至少一个为邻居的节点数为10,则A与B的邻里重叠度为4/10=0.4,即A与B的邻里重叠度特征值为0.4。邻里重叠度特征值的取值范围为0到1,最小值为0,即A与B没有共同的邻居;最大值为1,即A的邻居也是B的邻居且B的邻居也是A的邻居。
最后本方案使用变异系数的灰色关联分析算法来对四个衡量学术距离的结构特征进行综合分析,得到综合的学术距离值。
变异系数法是常用的衡量数据差异的统计指标的方法,该方法是依据各个评估指标在对所有被测量对象上的指标值的差异程度大小来得到各个评估指标的权重值。变异系数法的基本原理在于,测量指标值的差异很大,那么这个指标含有的信息量则越大,对总的评估的影响就很大,测量指标值的差异很小则这个指标对总的评估的影响就很小,也即变异程度大的学术距离结构特征比变异程度小的学术距离结构特征所占的权重值要大。
1、学术距离特征灰色关联指数
每个衡量指标对节点的影响,通过该指标测量值与最优值之间的差异程度来衡量,各个结构特征对每个人物的学术距离指数计算如下:
公式(3-3)表示的是该指标的测量值与最优值之间的差异与整个测量过程中最好的曲线与最优曲线差异的比值,得到的是这个指标对该人物节点的学术距离贡献度,其中测量值是指每个节点的四个结构特征的测量值,而最优值是指根据测量值来得到最好的值,即代表各个结构特征所表示的学术距离最大的值,在这里,学术社区特征的最优值为1,关系跳数特征的最优值为1,关系权重特征的最优值为整个网络的最小的权重值,邻里重叠度的最优值为1。在公式(3-3)里ri(k)表示的是第i个节点第k个(k=1,2,3,4)个测量指标的学术距离指数,ρ为分辨系数,用来减少因为Δmax过大而使上面那个函数失真的影响,使关联系数的差异性得到了显著性提高,在这里我们对ρ取值为0.5。Δmax和Δmin分别是测量值与最优值差异的最大值和最小值,计算如下:
公式(3-4)
公式(3-4)表示的是所有学术距离特征的测量值与最优值之间差异的绝对值,Δmax和Δmin分别是公式(3-4)里的最大与最小值,表示的是测量曲线与最优曲线的差异,其中X*(k)与Y*(k)分别表示的是测量值与最优值,其公式分别如公式(3-5)和公式(3-6)所示:
Xi={Xi(1),Xi(2),Xi(3),Xi(4)} 公式(3-5)
公式(3-5)表示的是四个学术距离结构特征的测量值,其中Xi(m)表示第i个节点的四个学术距离结构特征的测量值(m=1,2,3,4)。
Y=(y(1),y(2),y(3),y(4)) 公式(3-6)
公式(3-6)表示的是综合整个学术关系网络得出的整个学术关系网络的测量学术距离结构特征的最优序列,其中该序列中的y(m)是所有节点中的第m个回避指标因子值的最优值。由于学术关系网络各个学术距离结构特征测量值的量纲不一定相同,而且有的数值量纲相差较大。因此要对这些学术距离结构特征进行无量纲化处理,这里采用的是“均值法”,对公式(3-5)、公式(3-6)里的结果处理后得到的比较数据序列分别如公式(3-7)和公式(3-9)所示:
其中,xi(k)表示的是节点i的第k个结构特征值,aver(k)表示的是所有节点第k个结构特征的平均值:
无量纲化后得到的最优数据序列为:
其中y(m)表示节点第m个结构特征的最优值,aver(m)表示的是第m个结构特征的平均值。
2、学术距离结构特征变异度权值
根据测量指标的变异程度,变异程度大的该学术距离结构特征占的权重值大,变异程度小的结构特征占的权重值小,结构特征的权重计算如下:
公式(3-10)表示各个结构特征权重值的计算,用该结构特征的标准差与其平均值比值得到该结构特征的相对变异程度,vk表示的是该结构特征的权重值,x1k表示的该结构特征测量的平均值,Sk表示的是所有结构特征的标准差,计算公式如下:
公式(3-11)表示的是某个结构特征测量指标的标准差,用来反应各个结构特征值的差异程度,其中Sk表示第k个结构特征的标准差,xi(k)是第i个节点第k个结构特征的指标值,x1k表示第k个结构特征的平均值。使后面的计算方便,对各个结构特征的变异系数值进行归一化处理,使各个结构特征的权重值的范围在0到1之间,并且四个结构特征的权重值之和为1,计算公式如下:
公式(3-12)表示的是各个结构特征权重归一化处理后的结果,其中vk表示的是第k个结构特征的权重值
3、综合学术距离的计算
用各个结构特征的学术距离值乘以各个结构特征的权重值,累计求和得到总的结构特征值,计算公式如下:
公式(3-13)表示R(i)表示第i个节点的总的回避指数,其中ri(k)表示特征灰色关联指数,wk表示第k个结构特征的权重值
本实施例对不同的数据源进行了实验,其中一个学术网络包含44个人物节点,另外一个包含585个人物节点,这两个学术关系网络都包含四种含有时间属性的关系网络,从学校经历提取的校友关系网络,从工作经历提取的同事关系网络,从发表论文提取的论文合著关系网络,从参与项目提取的项目合作关系网络。网络中的人物节点为申报者或者专家姓名,学术活动事务节点分别为学校名称、单位名称、发表论文的题目以及参与项目的名称。人物节点和学术活动事务节点之间的关系都具有时间属性。网络关系与图3、图4、图5所示。
首先对包含44个人物节点的学术关系网络进行计算,并展示了学术距离值大于0.5的人物集合,以人物节点“李三”为例,计算的结果如下:
表4-1灰色关联学术距离大于0.5的人物集合
表4-2变异系数灰色关联学术距离大于0.5的人物集合
表4-1与表4-2进行比较发现,基于变异系数的灰色关联分析法的学术距离大于0.5的人要比灰色关联分析法的学术距离大于0.5的人要少,少了“黄四”、“雷一”、“王三”以及“雷六”。因为灰色关联分析法是对学术关系社区因子,学术关系跳数因子,学术关系权重因子以及学术关系邻里重叠度因子这四个因子对其贡献度进行求平均值而得到的,而变异系数法是对以上的四个结构特征进行权重划分,得到的结果为学术关系权重结构特征所占的权重值为0.24、学术关系跳数结构特征所占的权重值为0.17、学术关系邻里重叠度结构特征所占的权重值为0.44、学术关系社区结构特征所占的权重值为0.15。“王三”与“李三”的学术关系权重比较大,又没有直接关系,用灰色关联分析法得到的学术距离大于0.5,原因是由于学术关系社区结构特征得到的关联系数较大,而邻里重叠度结构特征得到的系数也不是很小,与其他的关联系数求平均值后得到的学术距离也还是大于0.5了,而加上各个学术距离结构特征的权重之后,得到的学术距离指数小于0.5。根据实际数据进行分析,两者没有直接关系,并且两者的学术关系权重很大,说明通过那个共同朋友与“王三”、“李三”的直接联系的学术关系权重不小,如图4所示,“李三”与共同朋友“张四”的关系的连线很浅,即关系权重值很小(这里的权重值是指没有反转之前的权重值),说明从关系权重角度来看,“李三”与“张四”的关系权重很弱,那么“王三”通过“张四”与“李三”相连,这个关系权重则更弱,即“王三”与“李三”的关系权重弱,则两人之间的关系较弱,所以学术距离应该不大。而“雷一”与“李三”虽然有着直接的联系,但是两者不在一个学术社区里,并且两者之间的共同朋友太少了,共同朋友只有“雷七”一个,说明两个人联系不频繁甚至较少,两者之间的关系不强,所以两人之间的学术距离不大。“雷六”与“黄四”的分析类似,同样学术距离值不大。
另外对于人物节点“黄一”进行实验,同样展示学术距离大于0.5的人物。则基于灰色关联分析法与基于变异系数法的结果展示如下所示:
表4-3基于灰色关联法“黄一”需要回避的人物
表4-4基于变异系数法“黄一”需要回避的人物
从表4-3与表4-4展示可知,对于人物“黄一”而言,“王三”与“雷六”虽然与其是在一个学术社区里,同样的与前面分析类似,“黄一”与“王三”、“雷六”之间的学术权重比较大,并且又没有直接连接关系,共同邻居也较小,所以两者之间相互连接不紧密,则学术距离小。
Claims (8)
1.一种基于学术关系网络的专家学术距离评估方法,其特征在于,包括如下步骤:
第一步,提取学术社区结构特征、关系跳数结构特征、关系权重结构特征以及邻里重叠度结构特征;学术社区结构特征区分两人是否在同一学术社区;学术关系跳数结构特征表示两人直接相连或达到对方需通过人物的个数;学术关系权重结构特征表示在学术关系网络里,人物到其他人物的权重值;邻里重叠度结构特征表示共同朋友的数量;
第二步,使用变异系数的灰色关联算法来综合评估以上的四个学术距离结构特征,得到综合的学术距离值。
2.如权利要求1所述的基于学术关系网络的专家学术距离评估方法,其特征在于,学术社区结构特征取值:在一个学术社区里的人的学术社区特征值为1,不在一个学术社区里的人的学术社区特征值为0.5。
3.如权利要求1所述的基于学术关系网络的专家学术距离评估方法,其特征在于,提取学术社区结构特征时,采用社区层次化检测算法在学术关系网络上进行社区划分,具体为:首先初始时假设网络中的每个节点都是一个独立的社团,对任意相邻的节点i和节点j,计算将节点i加入其邻居节点j所在的社团时对应的模块度增量:
其中,si,in是节点与社团C内其他节点所有连边的权重和,Wc是社团C内部所有边的权重和,Sc是所有与社团C内部的点相关联的边的权重和,W是网络中所有边的权值之和,si是节点i的权重值;
计算节点i与所有邻居节点的模块度增量,然后选出其中最大的一个,当该值为正时,把节点i加入相应的邻居节点所在的社团;否则,节点i留在原社团中,这种社团合并过程重复进行,直到不再出现合并现象,这样就划分出了第一层社团;
然后构造一个新网络,其中的节点是前一阶段划分出的社团,节点之间连边的权重是两个社团之间所有连边的权重和,利用前面的方法对新网络进行社团划分,得到第二层社团结构;以此类推,直到不能再划分出更高一层的社团结构为止。
4.如权利要求1所述的基于学术关系网络的专家学术距离评估方法,其特征在于,学术关系跳数结构特征取值为:在学术关系网络里,如果两个人之间的关系存在直接连接则这两个人之间的学术关系跳数特征值为1,如果没有直接相连但是可以通过一个人物达到,则学术关系跳数特征值为2,依次这样下去,直到不可达为止。
5.如权利要求1所述的基于学术关系网络的专家学术距离评估方法,其特征在于,计算学术关系权重时,先对整个学术关系网络里的权重值进行反转,即先除掉那些没有直接相连而使权重值为0的值,用学术关系网络里最大的权重值与学术关系网络里最小的权重值进行交换,用第二大值与第二小值交换,按照此规则对整个学术关系网络里的权重值进行交换,接着对学术关系网络里权重值为0的人物节点的权重值进行值最大化处理,最后去得到每个节点到其他节点的最短关系权重值。
6.如权利要求1所述的基于学术关系网络的专家学术距离评估方法,其特征在于,邻里重叠度的定义如下:
公式(3-2)
在公式(3-2)里,分母部分不包括A和B本身。
7.如权利要求1所述的基于学术关系网络的专家学术距离评估方法,其特征在于,第二步包括:
计算学术距离特征灰色关联指数,各个结构特征对每个人物的学术距离指数计算如下:
公式(3-3)表示的是该指标的测量值与最优值之间的差异与整个测量过程中最好的曲线与最优曲线差异的比值,得到的是这个指标对该人物节点的学术距离贡献度,其中测量值是指每个节点的四个结构特征的测量值,而最优值是指根据测量值来得到最好的值,在公式(3-3)里ri(k)表示的是第i个节点第k个个测量指标的学术距离指数,k=1,2,3,4,ρ为分辨系数,用来减少因为Δmax过大而使上面那个函数失真的影响,Δmax和Δmin分别是测量值与最优值差异的最大值和最小值,计算如下:
公式(3-4)
公式(3-4)表示的是所有学术距离特征的测量值与最优值之间差异的绝对值,Δmax和Δmin分别是公式(3-4)里的最大与最小值,表示的是测量曲线与最优曲线的差异,其中X*(k)与Y*(k)分别表示的是测量值与最优值,其公式分别如公式(3-5)和公式(3-6)所示:
Xi={Xi(1),Xi(2),Xi(3),Xi(4)} 公式(3-5)
公式(3-5)表示的是四个学术距离结构特征的测量值,其中Xi(m)表示第i个节点的四个学术距离结构特征的测量值,m=1,2,3,4,
Y=(y(1),y(2),y(3),y(4)) 公式(3-6)
公式(3-6)表示的是综合整个学术关系网络得出的整个学术关系网络的测量学术距离结构特征的最优序列,其中该序列中的y(m)是所有节点中的第m个回避指标因子值的最优值;采用“均值法”对这些学术距离结构特征进行无量纲化处理,对公式(3-5)、公式(3-6)里的结果处理后得到的比较数据序列分别如公式(3-7)和公式(3-9)所示:
其中xi(k)表示的是节点i的第k个结构特征值,aver(k)表示的是所有节点第k个结构特征的平均值:
无量纲化后得到的最优数据序列为:
其中y(m)表示节点第m个结构特征的最优值,aver(m)表示的是第m个结构特征的平均值;
计算学术距离结构特征变异度权值,结构特征的权重计算如下:
公式(3-10)表示各个结构特征权重值的计算,用该结构特征的标准差与其平均值比值得到该结构特征的相对变异程度,vk表示的是该结构特征的权重值,x1k表示的该结构特征测量的平均值,Sk表示的是所有结构特征的标准差,计算公式如下:
公式(3-11)表示的是某个结构特征测量指标的标准差,用来反应各个结构特征值的差异程度,其中Sk表示第k个结构特征的标准差,xi(k)是第i个节点第k个结构特征的指标值;x1k表示第k个结构特征的平均值,对各个结构特征的变异系数值进行归一化处理,使各个结构特征的权重值的范围在0到1之间,并且四个结构特征的权重值之和为1,计算公式如下:
公式(3-12)表示的是各个结构特征权重归一化处理后的结果,其中vk表示的是第k个结构特征的权重值;
综合学术距离的计算,用各个结构特征的学术距离值乘以各个结构特征的权重值,累计求和得到总的结构特征值,计算公式如下:
公式(3-13)中,R(i)表示第i个节点的总的回避指数,其中ri(k)表示特征灰色关联指数,wk表示第k个结构特征的权重值。
8.如权利要求7所述的基于学术关系网络的专家学术距离评估方法,其特征在于,学术社区结构特征的最优值为1,关系跳数结构特征的最优值为1,关系权重结构特征的最优值为整个网络的最小的权重值,邻里重叠度结构特征的最优值为1,ρ取值为0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510299330.XA CN104933111B (zh) | 2015-06-03 | 2015-06-03 | 一种基于学术关系网络的专家学术距离评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510299330.XA CN104933111B (zh) | 2015-06-03 | 2015-06-03 | 一种基于学术关系网络的专家学术距离评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104933111A true CN104933111A (zh) | 2015-09-23 |
CN104933111B CN104933111B (zh) | 2018-01-12 |
Family
ID=54120279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510299330.XA Expired - Fee Related CN104933111B (zh) | 2015-06-03 | 2015-06-03 | 一种基于学术关系网络的专家学术距离评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104933111B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055604A (zh) * | 2016-05-25 | 2016-10-26 | 南京大学 | 基于词网络进行特征扩展的短文本主题模型挖掘方法 |
CN107491943A (zh) * | 2017-09-22 | 2017-12-19 | 广州土土信息科技有限公司 | 一种基于信息公开的多层次人脉圈子管理***及方法 |
CN108304380A (zh) * | 2018-01-24 | 2018-07-20 | 华南理工大学 | 一种融合学术影响力的学者人名消除歧义的方法 |
CN109542986A (zh) * | 2018-11-30 | 2019-03-29 | 北京锐安科技有限公司 | 网络数据的要素归一化方法、装置、设备及存储介质 |
CN112015954A (zh) * | 2020-08-28 | 2020-12-01 | 平顶山学院 | 基于马太效应的社团检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110184926A1 (en) * | 2010-01-26 | 2011-07-28 | National Taiwan University Of Science & Technology | Expert list recommendation methods and systems |
CN102521337A (zh) * | 2011-12-08 | 2012-06-27 | 华中科技大学 | 一种基于海量知识网络的学术社区*** |
US20130013592A1 (en) * | 2011-07-07 | 2013-01-10 | Abhijeet Narvekar | System for Engaging Experts and Organizing Recorded Media |
CN102880657A (zh) * | 2012-08-31 | 2013-01-16 | 电子科技大学 | 基于搜索者的专家推荐方法 |
CN103064837A (zh) * | 2011-10-19 | 2013-04-24 | 西安邮电学院 | 学术领域内领军人物检索与可视化导航*** |
CN103559262A (zh) * | 2013-11-04 | 2014-02-05 | 北京邮电大学 | 基于社区的作者及其学术论文推荐***和推荐方法 |
-
2015
- 2015-06-03 CN CN201510299330.XA patent/CN104933111B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110184926A1 (en) * | 2010-01-26 | 2011-07-28 | National Taiwan University Of Science & Technology | Expert list recommendation methods and systems |
US20130013592A1 (en) * | 2011-07-07 | 2013-01-10 | Abhijeet Narvekar | System for Engaging Experts and Organizing Recorded Media |
CN103064837A (zh) * | 2011-10-19 | 2013-04-24 | 西安邮电学院 | 学术领域内领军人物检索与可视化导航*** |
CN102521337A (zh) * | 2011-12-08 | 2012-06-27 | 华中科技大学 | 一种基于海量知识网络的学术社区*** |
CN102880657A (zh) * | 2012-08-31 | 2013-01-16 | 电子科技大学 | 基于搜索者的专家推荐方法 |
CN103559262A (zh) * | 2013-11-04 | 2014-02-05 | 北京邮电大学 | 基于社区的作者及其学术论文推荐***和推荐方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055604A (zh) * | 2016-05-25 | 2016-10-26 | 南京大学 | 基于词网络进行特征扩展的短文本主题模型挖掘方法 |
CN107491943A (zh) * | 2017-09-22 | 2017-12-19 | 广州土土信息科技有限公司 | 一种基于信息公开的多层次人脉圈子管理***及方法 |
CN108304380A (zh) * | 2018-01-24 | 2018-07-20 | 华南理工大学 | 一种融合学术影响力的学者人名消除歧义的方法 |
CN108304380B (zh) * | 2018-01-24 | 2020-09-22 | 华南理工大学 | 一种融合学术影响力的学者人名消除歧义的方法 |
CN109542986A (zh) * | 2018-11-30 | 2019-03-29 | 北京锐安科技有限公司 | 网络数据的要素归一化方法、装置、设备及存储介质 |
CN112015954A (zh) * | 2020-08-28 | 2020-12-01 | 平顶山学院 | 基于马太效应的社团检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104933111B (zh) | 2018-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104933111A (zh) | 一种基于学术关系网络的专家学术距离评估方法 | |
Olson | Comparison of weights in TOPSIS models | |
CN105023195A (zh) | 含分布式光伏配电网可靠性评价方法 | |
CN110111024A (zh) | 基于ahp模糊综合评价模型的科技成果市场价值评估方法 | |
JP2011248885A5 (zh) | ||
CN112434951A (zh) | 一种地震灾害等级评估方法及*** | |
Chen et al. | Data envelopment analysis with missing data: A multiple linear regression analysis approach | |
CN104537211A (zh) | 一种基于层次分析法及灰色理论的企业安全风险预警方法 | |
CN104933629A (zh) | 基于区间层次分析和区间熵组合的电力用户设备评估方法 | |
CN103646165A (zh) | 定量评判黄水品质的方法 | |
Rohe | A critical threshold for design effects in network sampling | |
CN102096633A (zh) | 一种面向应用领域的软件质量基准测评方法 | |
CN112950067A (zh) | 基于模糊综合评价的电力用户用电能效评估方法 | |
CN110716998B (zh) | 一种精细尺度人口数据空间化方法 | |
CN116842443A (zh) | 一种基于博弈论-变权的岩爆烈度等级预测方法 | |
He et al. | A study on prediction of customer churn in fixed communication network based on data mining | |
CN103678709B (zh) | 一种基于时序数据的推荐***攻击检测方法 | |
Cábelková et al. | Attitudes towards EU integration and Euro adoption in the Czech Republic | |
Lassen et al. | Variation in flintknapping skill among Folsom-era projectile point types: a quantitative approach | |
CN112818544B (zh) | 计及终端差异化可靠性需求的配电网可靠性评估方法 | |
CN105354737A (zh) | 一种适合大数据价值评价的计算方法 | |
CN110851659B (zh) | 基于学者论文关系网络的学者学术影响力计算方法及*** | |
CN103457772A (zh) | 面向应用的物联网网络性能评价方法 | |
Guo et al. | A stepwise test characteristic curve method to detect item parameter drift | |
Luo | A comparison of three estimation methods in linear regression analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180112 Termination date: 20210603 |