CN104156437A

CN104156437A - 基于论文作者信息提取和关系权值模型的学术关系网构造方法

Info

Publication number: CN104156437A
Application number: CN201410395729.3A
Authority: CN
Inventors: 袁伟; 邓攀; 闫碧莹; 李玉成
Original assignee: SINOPARADOFT (BEIJING) PARALLEL SOFTWARE Co Ltd
Current assignee: SINOPARADOFT (BEIJING) PARALLEL SOFTWARE Co Ltd
Priority date: 2014-08-13
Filing date: 2014-08-13
Publication date: 2014-11-19

Abstract

本发明提供了一种基于论文作者信息提取和关系权值模型的学术关系网构造方法。本发明针对特定领域，首先提取作者库中所有作者信息，构建初始的作者关系矩阵，其次建立作者关系权值模型，根据每篇论文的作者信息更新作者关系矩阵，然后基于作者关系矩阵确定两两作者间最优关系传递路径，构建作者关系圈；并定期更新作者关系矩阵和作者关系圈。其中两两作者间最优关系传递路径满足条件：两者之间经过的路径绝对值长度最短；在所有最短路径中关系值和最大；经过的最短路径小于6。本发明的作者关系权值模型体现了一篇文章中不同作者的真实关系值，构建的学术关系网更加合理，符合实际作者关系最优值，并实时反映最新的学术关系。

Description

基于论文作者信息提取和关系权值模型的学术关系网构造方法

技术领域

本发明属于计算机应用技术领域，涉及基于关系权值模型的学术关系网构造方法，特别涉及一种基于论文作者信息提取来获取关系权值的学术关系网构造方法。

背景技术

1967年美国社会心理学家米尔格伦(Stanley Milgram)提出了一个“六度分离”(六度区隔)理论(Six Degrees of Separation)。该理论认为在人际交往的脉络中，任意两个陌生人都可以通过“亲友的亲友”建立联系，这中间最多只要通过五个朋友就能达到目的。

基于“六度分离”理论，2008年6月28日微软悄然推出一款能够直观显示被搜索者人脉关系的“人立方”关系搜索引擎。作为一款新型社会化搜索引擎，“人立方”关系搜索引擎能从超过十亿的中文网页中自动地抽取出人名、地名、机构名以及中文短语，并自动计算出它们之间存在关系的可能性。用户只要随便输入一个人物，“人立方”搜索将给出该人物的关系、网页、资讯、简介等众多内容。

然而对于只关注特定学术领域的作者来说，通过现有人际关系网络的搜索方法得到的人际关系结果中，关系传递路径可能包含非学术领域的人员，结果路径中公众影响力巨大的名人比例较大，对于获取实际的本学术领域内的人际关系和人员信息的帮助甚小。

针对学术领域的人际圈搜索万方数据库已经有所尝试，但是目前万方学术圈搜索只支持对于直接人际关系的搜索，尚未通过间接人际关系来建立学术关系网。

发明内容

本发明针对现有人际关系搜索方法对特定学术领域的搜索结果不理想的问题，提供了一种基于论文作者信息提取和关系权值模型的学术关系网构造方法。

基于论文作者信息提取和关系权值模型的学术关系网构建方法，包括如下步骤：

步骤1、提取作者库中所有作者信息，构建初始的作者关系矩阵；

所述的作者关系矩阵的第i行第j列的元素值为第i个作者和第j个作者的关系值，用0表示作者与自己的关系，-1表示两位作者之间的关系不可达；初始的作者关系矩阵中，对角线上元素值为0，其余位置元素值为-1；

步骤2、建立作者关系权值模型，根据每篇论文的作者信息更新作者关系矩阵；

步骤3、基于步骤2得到的作者关系矩阵确定两两作者间最优关系传递路径，根据最优关系传递路径构建作者关系圈；

所述的两两作者间最优关系传递路径需满足以下几个条件：

1)两者之间经过的路径绝对值长度最短；

2)在所有最短路径中关系值和最大；

3)经过的最短路径小于6。

步骤4、定期更新作者关系矩阵和作者关系圈。由于学术论文库是动态的、不断更新的，该方法对学术论文库进行定期扫描以更新作者关系矩阵和作者关系圈，保证该方法建立的作者关系矩阵和学术关系网能反映最新学术界关系情况。

步骤2所述的作者关系权值模型定义如下：

对于一篇论文P，包括通讯作者在内共有N个作者，对于其中任意两个作者A，B，设作者A是论文P的第m作者，作者B是论文P的第n作者，论文P为作者A与B的关系值贡献的参考值

其中，为了捕获从通讯作者以及作者次序反映出的作者关系远近信息，设置c，d，e，S，x等参数，具体说明如下：

c表示第一作者和通讯作者的关系加强值，c的取值根据长期实验的经验值决定；

x表示作者机构决定的作者关系的权重，x的取值根据长期实验的经验值决定；

S表示由作者次序反映作者关系远近信息的分界值，S的取值根据长期实验的经验值决定；

d表示第一作者和作者次序在S+1位之前的非通讯作者的关系加强值，d的取值根据长期实验的经验值决定；

e表示第一作者和作者次序在S位之后的非通讯作者的关系在第一作者与作者次序在S+1位之前的作者间关系加权值d基础上的削弱值，e的取值根据长期实验的经验值决定；

所得到的参考值Relation<P,<A,B>>四舍五入到整数。

步骤2所述的更新作者关系矩阵，具体是：设k篇论文为作者A和B的关系值贡献的参考值分别为r₁,r₂,…,r_k，则作者A和B的关系值用得到的关系值更新作者关系矩阵中表示A和B关系值的元素值。

步骤c还包括下列步骤：

a)对于每一个作者，根据步骤d给出的关系矩阵，计算其与其他所有作者的最短关系传递路径；并对得到的所有最短关系传递路径，计算其路径的关系值累加值，选择关系值累加值最大的路径作为最优关系传递路径；

b)重复步骤e，得到学术领域作者关系传递网。

本发明的优点与积极效果在于：

1)作者关系权值模型能够全方位体现一篇文章中不同作者的真实关系值，根据机构、发文作者次序、合作发文数量等综合因素调整不同作者之间的关系值，反应其真实生活中的关系，使得最终构建的学术关系网更加合理；

2)在“六度分离”理论的基础上，利用图最短路径算法并结合关系权值，获取两两作者最优关系，该方法能够使得获取的结果符合实际作者关系最优值；

3)本发明方法能够动态更新作者关系矩阵和学术关系网，同时相应修改学术关系网，实时反映最新的学术关系。

附图说明

图1是本发明的学术关系网构建方法的流程图；

图2是作者最优关系传递路径方法的流程图；

图3是应用本发明所构建的学术关系网的效果示意图。

具体实施方式

下面将结合附图和实例对本发明作进一步的详细说明。

本发明中基于论文作者信息提取和关系权值模型的学术关系网构造方法综合了微软“人立方”搜索的六度空间理念和万方数据库学术圈搜索的着眼学术领域的理念，通过从论文作者信息中提取作者关系信息，然后结合实际情况建立作者关系值计算模型，从而得出任意两作者间最优关系传递路径，形成学术关系网。本发明方法构建的学术关系网一方面提供学术关系网中任意两个作者间关系传递路径搜索，另一方面将整个大学术关系网划分为一个个具有独立中心的小关系网，为作者聚焦小关系网和建立两两小关系网间联系提供信息，因此对于学术领域的人际关系建立和维系具有较强的适用性。

本发明提出的一种基于论文作者信息提取和关系权值模型的学术关系网构造方法主要包括以下几个核心技术：论文作者信息提取，关系权值模型，最优关系传递路径方法。下面将结合附图，在具体实施步骤中进行详细说明。

如图1所示，基于论文作者信息提取和关系权值模型的学术关系网构造方法主要包括以下几个步骤：

步骤1、作者信息提取。本发明方法从特定领域的海量论文中提取论文作者信息，结合作者库构建初始的作者关系矩阵。对特地领域论文的作者库中所有作者进行编号，建立作者关系矩阵。

作者关系矩阵如下所示：

ID	Author_ID1	Author_ID2	…	Author_IDN
					Author_ID1	0	-1	-1	-1
Author_ID2	-1	0	-1	-1
					…	-1	-1	0	-1
Author_IDN	-1	-1	-1	0

其中，初始的作者关系矩阵中对角线上元素值为0，其余位置元素初始值为-1。0表示矩阵中作者与自己的关系；-1表示两位作者之间关系不可达。作者关系矩阵的第i行第j列的元素值为第i个作者和第j个作者之间的关系值，当关系值为某个大于0的整数时，表示两个作者之间可以通过有限个作者实现关系可达。

步骤2、建立作者关系权值模型。本发明方法根据作者所在机构、发文作者次序、合作发文数量等综合因素建立作者关系权值模型。该模型综合考虑实际影响因素，对作者间关系进行定量描述。然后依据此模型从海量论文的作者次序中提取模型需要的参数值，按照关系权值模型计算两两作者间关系值贡献的参考值，最终获得两两作者的关系值，填充步骤1的作者关系矩阵。

作者关系权值模型定义如下：

对于一篇论文P中的任意两个作者A，B，设A是论文P的第m作者，B是论文P的第n作者，设此论文P有N个作者，此论文作者信息为作者A与B的关系值贡献的参考值为：

c表示第一作者和通讯作者的关系加强，c的取值根据长期实验的经验值决定；

d表示第一作者和作者排序靠前的部分非通讯作者的关系加强，d的取值根据长期实验的经验值决定；

e表示第一作者和作者次序靠后的部分非通讯作者的关系在第一作者与作者次序靠前的作者间关系权值基础上的削弱，e的取值根据长期实验的经验值决定；

x表示作者机构决定的作者关系的权重，x的取值根据长期实验的经验值决定。

根据该作者关系权值模型获取两两作者之间的关系值，并更新到步骤1的作者关系矩阵中。

若计算所得参考值关系值是非整数值，则四舍五入到整数。

对于某两个作者A和B的关系值，假设获得k篇论文为作者A和B的关系值贡献的参考值分别为r₁,r₂,…,r_k，则作者A和B的关系值用得到的关系值更新对应作者关系矩阵中表示A和B关系值的元素值。

步骤3、基于关系矩阵计算两两作者间最优关系传递路径，最优关系传递路径需满足以下几个条件：

1)两者之间经过的路径绝对值长度最短；

2)在所有最短路径中关系值和最大；

3)经过的最短路径小于6。

获取作者间最优关系传递路径的方法的主要步骤如图2所示，具体实施步骤如下：

步骤3.1、将作者关系矩阵中作者集合记为W，设置一个标志数组s[v][1,2…,M]记录作者v到哪些作者的最优关系传递路径已经找到。M表示集合W的元素个数，即作者关系矩阵中当前的作者数目。根据下面规则设置标志数组中的值：

初始时，s[v][v]＝1；s[v][i]＝0，i＝1,2…,M；i≠v。v、i为作者的编号，作者i也就是作者关系矩阵中的第i作者，作者v就是作者关系矩阵中的第v作者。

步骤3.2、设置数组dist[v][1,2…,M]记录作者v到各作者的最优关系传递路径的路径长度，其中，dist[v][i]记录作者v到作者i的最优关系传递路径的路径长度。

初始时，dist[v][i]根据标志数组s来设置，若s[v][i]＝1，则设置dist[v][i]＝1，否则设置dist[v][i]＝M，i＝1,2…,M。

步骤3.3、设置数组path[v][1,2…,M]记录作者v到各作者的最优关系传递路径，路径为所经过的作者序列，其中path[v][i]记录作者v到作者i的最优关系传递路径。

初始时，根据标志数组s来设置，若s[v][i]＝1，则设置path[v][i]＝{i}，否则，设置path[v][i]为空，i＝1,2…,M。

步骤3.4、利用标志数组s与作者关系矩阵，在找出所有与作者v关系值超过阈值maxRela的作者U_v。U_v＝{u|u∈W,且u≠v,rela[v,u]>maxRela}，其中，maxRela是预先设置的值，取值范围为1.5～3.5。maxRela为关系阈值，当两作者间关系值超过该阈值时，表示两作者的关系直接可达，此处所设的值在实际应用中有利于找出更准确的关系传递路径。rela[v,u]为作者关系矩阵中作者v和作者u的关系值。

对于U_v中的每个作者u，置s[v][u]＝1，更新path[v][u]＝{u}，更新dist[v][u]＝1。

重复步骤3.4M次，找到所有作者与其直接可达的作者。

骤3.5、对于步骤3.4中确定的作者集合U_v，遍历其元素，对其中任意元素u，根据作者u修改所有尚未找到与作者v的最优关系传递路径的作者的路径。

将作者v到作者u的(最优)路径长度dist[v][u]分别加到作者u到其他所有作者的路径长度上。设dist[u][r]为作者u到达作者r的路径长度，则dist[u][r]+1为将作者v到作者u的最优路径长度加上后的路径长度值，对应作者v通过作者u到达作者r的一条新的关系传递路径。

首先判断dist[u][r]+1是否小于6，若否，保持dist[v][r]的值不变；若是，分如下三种情况处理：

(1)若加后的长度dist[u][r]+1小于当前作者v到作者r的关系传递路径长度dist[v][r]，则将dist[v][r]的值替换为dist[u][r]+1，用加后的长度替换原来的长度；

(2)若加后的长度dist[u][r]+1等于当前作者v到作者r的关系传递路径长度dist[v][r]，则比较新旧两条关系传递路径上关系值的累加值，若新关系传递路径上的关系值的累加值(图3中简称新路径的关系值和)大于原来关系传递路径上的关系值累加值(图3中简称旧路径的关系值和)，则将dist[v][r]的值替换为dist[u][r]+1，虽然替换dist[r]的值与原来的相等，但仍视为长度替换，否则，保持dist[v][r]的值不变；

(3)若加后的长度dist[u][r]+1大于当前作者v到作者r的关系传递路径长度dist[v][r]，则保持dist[v][r]的值不变。

若替换dist[v][r]的值，将更新作者v到作者r的关系传递路径path[v][r]为：作者v到作者u的关系传递路径path[v][u]再加作者u到作者r的关系传递路径path[u][r]。

重复步骤3.5M次，得到作者关系矩阵中任意两作者间的最优关系传递路径。

步骤3.6、根据dist数组更新标志数组s。

对于作者关系矩阵中任意两个作者i、j，i，j＝1，2，…M，更新对应的标志数组s[i][j]：

s [i] [j] = \{\begin{matrix} 1; & dist [i] [j] < 6 \\ 0; & dist [i] [j] &GreaterEqual; 6 \end{matrix}

s[i][j]＝1表示作者i到作者j的最优关系传递路径已经找到，s[i][j]＝0表示作者i到作者j的最优关系传递路径未找到。

步骤4、定期更新作者关系矩阵和学术关系网，由于学术论文库是动态的不断更新的，该方法对学术论文库进行定期扫描以更新作者关系矩阵和学术关系网，保证该方法建立的学术关系网能反映最新学术界关系情况。

如图3所示，为应用本发明基于论文作者信息提取和关系权值模型的学术关系网构建方法得到的学术关系网的效果示意图。从图中可以看出，采用本发明方法，能获取同一领域内作者间的关系及间接关系路径，并可通过图形直观地描述出作者之间关系可达的路径。

Claims

1.一种基于论文作者信息提取和关系权值模型的学术关系网构建方法，其特征在于，通过如下步骤实现：

步骤1、提取作者信息，构建初始的作者关系矩阵；所述的作者关系矩阵的第i行第j列的元素值为作者i和作者j的关系值，用0表示作者与自己的关系，-1表示两位作者之间的关系不可达；初始的作者关系矩阵中，对角线上元素值为0，其余位置元素值为-1；

步骤2：建立作者关系权值模型，根据每篇论文的作者信息更新作者关系矩阵；

所述的作者关系权值模型为：设一篇论文P，包括通讯作者在内共有N个作者，设作者A和B分别为论文P的第m作者和第n作者，则论文P为作者A与B的关系值贡献的参考值Relation<P,<A,B>>＝

其中，c为第一作者和通讯作者的关系加强值；x表示作者机构决定的作者关系的权重；当A和B属于同一机构或单位时，参数T的值为1，否则T的值为0；S为由作者次序反映作者关系远近信息的分界值；d表示第一作者和作者次序在S+1位之前的非通讯作者的关系加强值；e表示第一作者和作者次序在S位之后的非通讯作者的关系在关系加强值d基础上的削弱值；所得到的参考值四舍五入到整数；

设k篇论文为作者A和B的关系值贡献的参考值分别为r₁,r₂,…,r_k，则作者A和B的关系值为：用得到的关系值更新作者关系矩阵中表示A和B关系值的元素值；

步骤3：基于步骤2更新的作者关系矩阵确定两两作者间最优关系传递路径，最优关系传递路径需满足以下几个条件：

1)两者之间经过的路径绝对值长度最短；

2)在所有最短路径中关系值和最大；

3)经过的最短路径小于6；

根据最优关系传递路径构建作者关系圈；

步骤4、定期更新作者关系矩阵和作者关系圈。

2.根据权利要求1所述的基于论文作者信息提取和关系权值模型的学术关系网构建方法，其特征在于，步骤3中所述的最优关系传递路径，具体获取方法是：

步骤3.1、将作者关系矩阵中作者集合记为W，M表示集合W的元素个数，设置一个标志数组s[v][1,2…,M]记录作者v到哪些作者的最优关系传递路径已经找到，数组中1表示最优关系传递路径已经找到，0表示最优关系传递路径未找到；

初始时，s[v][v]＝1；s[v][i]＝0，i＝1,2…,M,i≠v；1v、i分别为作者关系矩阵中的第i作者、第v作者；

步骤3.2、设置数组dist[v][1,2…,M]记录作者v到各作者的最优关系传递路径的路径长度，其中，dist[v][i]记录作者v到作者i的最优关系传递路径的路径长度；初始时，dist[v][i]根据标志数组s来设置，若s[v][i]＝1，则设置dist[v][i]＝1，否则设置dist[v][i]＝M；

步骤3.3、设置数组path[v][1,2…,M]记录作者v到各作者的最优关系传递路径，其中path[v][i]记录作者v到作者i的最优关系传递路径；初始时，若s[v][i]＝1，设置path[v][i]＝{i}，否则，设置path[i]为空；

步骤3.4、利用标志数组s与作者关系矩阵，找出所有与作者v关系值超过阈值maxRela的作者集合U_v：

U_v＝{u|u∈W，且u≠v，rela[v,u]>maxRela}，

其中，对于U_v中的任意u，置s[v][u]＝1，更新path[v][u]＝{u}，更新dist[v][u]＝1；

重复步骤3.4M次，找到所有作者与其直接可达的作者；

步骤3.5、对于步骤3.4中确定的作者集合U_v，遍历U_v中各作者u，并进行如下操作：

将作者v到作者u的路径长度加到作者u到作者r的路径长度上，得到dist[u][r]+1，对应作者v通过作者u到达作者r的一条新关系传递路径；

(1)若加后的长度dist[u][r]+1小于当前作者v到作者r的关系传递路径长度dist[v][r]，则将dist[v][r]的值替换为dist[u][r]+1；

(2)若加后的长度dist[u][r]+1等于当前作者v到作者r的关系传递路径长度dist[v][r]，则比较新关系传递路径上关系值的累加值是否大于原来关系传递路径上关系值的累加值，若是，将dist[v][r]的值替换为dist[u][r]+1，否则，保持dist[v][r]的值不变；

(3)若加后的长度dist[u][r]+1大于当前作者v到作者r的关系传递路径长度dist[v][r]，保持dist[v][r]的值不变；

若替换dist[v][r]的值，将更新作者v到作者r的关系传递路径path[v][r]为：作者v到作者u的关系传递路径path[v][u]再加作者u到作者r的关系传递路径path[u][r]；

重复步骤3.5M次，得到作者关系矩阵中任意两作者间的最优关系传递路径；

步骤3.6、根据dist数组更新标志数组，对于作者关系矩阵中任意两个作者i、j，i,j＝1,2,…M，更新对应的标志数组s[i][j]为：

s [i] [j] = \{\begin{matrix} 1; & dist [i] [j] < 6 \\ 0; & dist [i] [j] &GreaterEqual; 6 \end{matrix}

3.根据权利要求2所述的基于论文作者信息提取和关系权值模型的学术关系网构建方法，其特征在于，步骤3.4中所述的maxRela的取值范围为1.5～3.5。