CN103020302A

CN103020302A - 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和***

Info

Publication number: CN103020302A
Application number: CN2012105928281A
Authority: CN
Inventors: 陆浩; 王飞跃; 温婉婷; 甘润生; 孙星恺
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2012-12-31
Filing date: 2012-12-31
Publication date: 2013-04-03
Anticipated expiration: 2032-12-31
Also published as: CN103020302B

Abstract

本发明属于数据挖掘领域，针对挖掘某一学术领域核心作者及智能提取其相关信息的问题，本发明提出了一种基于社会网络分析技术中的核心节点发现算法而改进的学术核心作者挖掘、信息抽取方法和***。本方法融合了垂直搜索技术，社会网络分析技术和文本分析技术，能够在海量信息中找到某一学术领域核心作者或群体，进而获取其相关个人资料信息。本发明采用垂直搜索技术采集开源文献数据。利用文献计量学技术和复杂网络分析技术分析数据中出现的多种社会实体的重要性。并利用社团发现算法，基于实体间关系的紧密程度进行针对实体的聚类，发现学术团体。用户根据实体重要性排序，找到核心作者或机构，并根据合作群体的发文量分布找到领袖团队。

Description

基于复杂网络的学术核心作者挖掘及相关信息抽取方法和***

技术领域

本发明涉及数据挖掘领域，尤其涉及一种基于复杂网络的学术核心作者挖掘及相关信息抽取方法和***。

背景技术

众多实际网络都有一个共同性质，即它们都是由各个社团通过公共节点连接而成网络。社团内部节点间的连接相对紧密，社团间的连接相对稀疏。例如万维网可以看成是由大量网站社团组成，同一社团内部的众多站点讨论的往往是有共同兴趣的一些话题。类似地，在作者合作网或者电路网络中，同样可以将各个节点根据其不同的性质划分为不同的社团。因此，网络中社团的数目以及每个节点的归属社团及数目对复杂网络的研究都具有重要意义。

对于网络中的社团结构的定义，目前没有一个公认的标准。因此网络中社团结构定义的形式很多，但是大体上分为两类：

1.使用节点对间边的相对疏密程度来衡量社团结构。在这种方法定义下，每个社团内部的节点对间的连接相对紧密，但是各个社团之间的连接却相对稀疏。

2.使用图论中的精确数量指标来定义社团结构。这些社团结构都是由图论中团的定义衍生而来。在这类结构的定义方式下，一般要求社团内部每个点都相邻，或者至多可以与多少点不相邻，或者任两点之间最远多少跳等等类似的方式。

当前领域专家识别推荐通常采用通过构造模糊文本分类器，对专家上传到知识库中的文档进行模糊文本分类，结合数量、时间等因素建立专家知识模型的方法，这种方法存在所用文本库不全，覆盖面低，很难在多个领域进行全方位综合分析所在领域专家的具体贡献及相关个人信息，存在很大的局限性。基于此，本发明使用复杂网络分析技术中的复杂网络构建、参数分析以及社团发现算法，可有效地用于学科领域核心人物或核心团体的发现与其相关信息的获取。

发明内容

本发明针对挖掘某一学术领域核心人物及智能提取其相关信息的问题，本发明提出了一种基于社会网络分析技术中的核心节点发现方法而改进的学术核心作者挖掘、信息抽取算法和***。该方法和***针对特定领域的文献数据，使用复杂网络分析技术中的复杂网络构建、参数分析以及社团发现算法，高效率的找到领域核心团体或关键人物。

本发明提出的一种基于复杂网络的学术核心作者挖掘及相关信息抽取方法，其包括：

步骤1、采用垂直搜索技术采集指定领域的文献数据，并对所述文献数据进行整理分析，以获取作者相关信息；

步骤2、根据所获取的作者相关信息抽取作者合作网络，并统计作者相关的参数，根据所统计的不同相关参数获得不同的作者排名信息；

步骤3、对所抽取的合作网络进行社团划分，划分后的社团作为一个科研群体；

步骤4、向用户展示所述不同的作者排名信息和科研群体，并根据用户所选择的作者排名信息和科研群体为用户推荐核心作者和领袖团队。

本发明还提出了一种基于复杂网络的学术核心作者挖掘及相关信息抽取***，其包括：

数据采集和整理装置：用于采用垂直搜索技术采集指定领域的文献数据，并对所述文献数据进行整理分析，以获取作者相关信息；

参数分析统计装置：根据所获取的作者相关信息抽取作者合作网络，并统计作者相关的参数，根据所统计的不同相关参数获得不同的作者排名信息；；

社团划分装置：对所抽取的合作网络进行社团划分，划分后的社团作为一个科研群体；

结果展示装置：向用户展示所述不同的作者排名信息和科研群体，并根据用户所选择的作者排名信息和科研群体为用户推荐核心作者和领袖团队。

附图说明

图1是本发明的应用***原理图；

图2是本发明的应用***的简单使用流程图；

图3是本发明中基于复杂网络的学术核心作者挖掘及相关信息抽取方法的流程图；

图4是本发明中数据采集子流程图；

图5是本发明中数据采集配置子流程图；

图6是本发明中数据分析整理子流程图；

图7是本发明实现的应用***截图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明所提出的基于复杂网络的学术核心作者挖掘及相关信息抽取方法和***是针对领域核心专家群体信息检索而发明的，应用***原理见附图1。

下面介绍本发明所使用到的技术：

1、采集技术

1.1垂直搜索

本方法利用垂直搜索技术，根据用户关注的领域、会议等相关信息，从CNKI，SpringerLink等常用的文献检索引擎上获取相关的作者、机构、会议等元数据，自动下载并解析文献全文，获取文献作者或机构的详细通讯方式。

垂直搜索是针对某一个领域的专业搜索引擎，是搜索引擎的细分和延伸，是对网页库中的某类专门的信息进行一次整合，定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式，通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”，且具有行业色彩，相比较通用搜索引擎的海量信息无序化，垂直搜索引擎则显得更加专注、具体和深入。

垂直搜索最重要的技术是搜索引擎爬虫。搜索引擎爬虫技术是一种按照一定的规则，自动的抓取网络信息的技术。本***相关搜索引擎爬虫的设计是以普通爬虫为基础，并对其功能进行有效扩充，主要包括领域相关初始URL种子集、页面抓取模块、主题相关性分析模块，URL查重与页面下载等模块。这种设计能够保证***良好的主题相关性，以提高爬取的主题相关性页面命中率，切合用户的需求。

1.2网页采集

本技术中网页采集主要分为深度网采集和动态网采集。深度网的特征是在于其页面的隐蔽性，一般需要用户提交数据请求的表单才能获得返回的结果。动态网的页面主要特点是“动态存在”，即用户在调用页面时临时通过程序动态生成的页面。动态网按照信息项的分布主要分成两个类型：一是多记录项动态网页；另外一个就是单记录项动态网页，其页面抽取的主要难度在于网页信息的有效定位以及不同用户所定义的不同抽取请求的精确表示。

2、分析技术

2.1复杂网络技术

2.1.1基本概念

一个具体的网络可以抽象为由点集V和边集E组成的图G，节点数记为N＝|V(G)|，边数记为M＝|E(G)|。E中每条边都有V中一个节点对与之对应。如果任意点对对应于同一条边，则该网络为无向网络，否则为有向网络。若网络中包含的节点与边只有一种类型，则称该网络是同质的，否则该网络属于异质网络。

2.1.2中介度中心性

中介度中心性(betweenness centrality)是基于节点对网络通信的控制能力来定义的。它认为如果某节点存在于网络中其它节点对之间通信的必经之路上，则其在网络中必定具有重要的地位。

2.1.3聚集系数

聚集系数(clusteringcoefficient)经常被用来描述网络的传递性。比如在社交关系网中，你朋友的朋友很可能也是你的朋友；你的两个朋友很可能彼此也是朋友。聚集系数就是用来度量网络的这种性质的。

2.2其他统计指标

2.2.1H-index

评价科学家影响力的一个重要的测度是H-index度量。H-index的取值依据的是科学家的文章的数量以及被引用的次数。例如，某一个学者有至少h篇文章分别被引用h次，则这个学者的H-index取值为h。从上述描述知，某学者的H-index取值越大，他在其研究领域内的影响力也越大。H-index度量将学者们发表的科研成果的数量的质量综合地纳入了考量。

2.2.2APS值(平均产出得分)

APS值定义为：对于一篇有n个作者的论文，APS给每个作者的得分是1/n。一个作者的APS就是它所有论文的得分之和。它描述了作者对其所发文章的贡献度。

本发明提出了一种基于复杂网络的学术核心作者挖掘及信息抽取方法，应用***的简单使用流程见附图2，学术核心作者挖掘及相关信息抽取方法的流程见附图3。具体步骤如下：

步骤一：数据采集与整理。本方法采用垂直搜索技术进行指定会议的论文文献数据采集。采集流程见附图4。本步骤包含三个阶段：

阶段1：基本数据获取，具体包括：步骤a)确定采集条件，采集条件的确定见附图5。首先需要确定检索类型，包括三种检索类型：期刊、会议与关键词。然后根据不同类型确定检索词、时间等检索条件，如会议配置条件(会议相关的检索词等)、文献检索来源和检索年份等配置条件。接着选取数据源，包括国内外不同的数据库。从而构成检索条件集合。其中，会议配置条件需要用户输入，其余配置条件由***自行调整；步骤b)，根据采集条件动态配置采集信息，对确定的每个数据源站点，如CNKI，SpringerLink等分别配置采集信息，如检索类型为期刊，则配置的采集信息为期刊等；步骤c)基本文献数据采集。这里利用垂直搜索技术，根据用户关注的领域、会议等相关信息，通过初始URL种子集、页面抓取模块、主题相关性分析模块，URL查重与页面下载等模块从CNKI，SpringerLink等常用的文献检索引擎上获取相关的作者、机构、会议等元数据，自动下载并解析文献全文。

阶段2：数据整理，具体包括：步骤d)进行数据清洗，主要是将作者姓名规范化，去除多余字符，例如空格等，对机构进行一定归并，如二级机构单位由其一级单位名称替代等；步骤e)指定信息获取，本发明中最主要的研究对象是作者，因此在此步骤中可以获得简单的作者信息，即作者姓名及***分配的唯一标识ID。

阶段3：信息入库，具体包括：步骤f)将结果展示给用户，由用户判断是否对结果满意，满意则进行步骤g)，否则返回步骤a)重新配置；步骤g)将基本文献信息和作者信息存入指定数据库；步骤h)***判断是否循环采集数据，是则等待一段时间之后再次采集，否则结束采集步骤。

步骤二：参数统计分析。数据分析整理子流程见附图6。本方法研究对象为指定领域相关核心作者与团体。因此需要对作者的文献统计参数进行分析，通过对各项参数值进行综合排名进而识别出该领域的核心作者。统计参数包含作者的发文量分布和作者APS(平均产出得分)分布，并利用合作者关系抽取作者的合作网络，分析作者在合作网络中的节点中介中心性、度分布、网络聚集系数和H-index度量，其中节点中介中心性用于衡量一个作者能在多大程度上控制他人之间的交往，如果一个节点处于许多其他点对的最短路径上，它就具有较高的中介中心度。可以认为该作者居于重要位置，度分布表示某个作者与多少人有过合作关系，网络聚集系数指网络中节点的邻接点也互为邻接点的比例，即小集群结构的完美程度，用来衡量此作者在网络节点聚类情况的参数；H-index度量表示某作者h篇文章分别被引用h次，则这个学者的H-index取值为h，用来衡量其在研究领域内的影响力。将按不同参数得到的作者排名信息保存，即按照作者的发文量分布、作者APS(平均产出得分)分布、作者在合作网络中的节点中介中心性、度分布、网络聚集系数和H-index度量等参数得到不同的作者排名信息。

步骤三：根据社团划分算法进行群体分析。本方法针对作者合作网络进行社团划分，划分后的每个社团相当于一个科研群体。针对全部科研群体统计发文量分布情况。

步骤四：作者排名信息及科研群体信息展示。将步骤二保存的不同作者排名信息和步骤三找到的科研群体展现给用户，并根据用户选择的作者排名信息和科研群体排名推荐重要作者作为科研领袖，重要群体作为核心团队。

步骤五：核心作者信息抽取及展示。用户根据需要，选定主要领域学者作为核心作者，由***通过文献信息自动抽取其个人资料信息展现给用户进行相关业务或研究使用。

其中，步骤一的阶段1中，文献采集方式为深度网采集与动态网采集相结合。

深度网采集的工作过程可分为3步：1)分析页面，寻找表单；2)学习填写表单；3)识别和取回结果页面。其中，深度网爬虫第一步从站点主页开始爬行表单页面，这个过程使用一组启发式规则来去除非研究表单；第二步从表单中抽取标签，配合领域规则知识库及网站的特征标识(用户名、密码或验证码)，爬虫尽力学习如何正确地填写表单；最后一步提交表单，然后取回结果页面识别记录。另外，在深度网采集的过程中，网络爬虫需要基于领域知识库，智能化地识别特定应用领域知识，以保证采集到的信息的相关性和准确性。

动态网采集过程中，抽取多记录项动态网页的信息时，需要运用树编辑距离模型和树归并模型算法定位和抽取网页信息。使用树编辑距离准确定位网页的抽取结构，将动态网页转换为标签树并定位分离网页中的数据项，为单个数据项生成独自的数据项树；将树归并模型运用于多数据项的模式抽取上，控制重复数据项和可选数据项，生成用于抽取的包装器树，即最终抽取器。在抽取单记录项动态网页的信息时，用户需要通过可选模块，自定义抽取的数据项，***将根据用户所选数据项生成抽取模板。在抽取过程中，首先将网页转换为标签树，通过用户自定义的抽取模板匹配并抽取网页信息并保存。

阶段1的步骤c中，文献引擎来源主要有CNKI和SpringerLink，采集内容包含文献标题，文献原文，文献作者，文献关键词，作者机构，文献所在出版物，文献发表时间。

步骤二中，中介度中心性的表达式定义为：

{BC}_{i} = \underset{j < k}{Σ} \frac{g_{jk} (i)}{g_{jk}},

式中g_jk(i)表示节点j和k之间通过节点i的最短路径的条数，g_jk表示节点j和节点k之间最短路径的条数。对于有向网络则需考虑路径的方向性。中介度中心性概念在社会网络分析中非常重要。此外，中介度中心性的概念除了可定义节点的中介度，也可用来定义边的中介度以衡量边在网络中的重要性。

网络聚集系数表示节点的邻接点是否连接，是衡量网络传递性的一个度量指标。通俗的说，就是节点的网络邻居的邻居也可能是该节点的邻居，定义为：

C = \frac{{3 N}_{Δ}}{N_{3}} .

其中N△是指合作网络中三角形的个数，N3是指合作网络中连通三元组的数量。连通三元组是指包括某给定节点的三个节点，至少存在从该给定节点到其它两个节点的两条边所组成的三元组。

步骤三中，社团划分算法使用针对有向网络的快速社团划分算法。快速社团划分算法是基于GN算法中提出的模块度概念所做的一种改进算法。

先介绍GN算法：

一种简单的社团划分方法是移除将不同社团相连的边，这就是***法的中心思想。Grivan和Newman提出的社团发现算法-GN算法是最著名的用来社团发现的***算法。算法用到了上面介绍的边的中介度中心性，再依据边不属于社团的程度逐步地把不属于该社团的边删除，直到把所有的边均删除。根据社团的定义可知，社团之间的边比社团内部的边有更大的边介数。通过逐步把边介数高的边移去，可将网络划分为社团。

但是，GN算法在最坏情况下每移走一条边就需要重新计算所有边介数，仅适用于中等规模的社会网络。针对此缺陷，有很多研究从不同角度对其作了改进。此外，学者提出GN算法对于网络的社团结构并没有一个量的定义。因此，不能直接从网络的拓扑结构判断所得到的社团结构是否具有实际意义，此外，在不知道社团数目的情况下，GN算法也不知道这种分解

Q = \frac{1}{2 m} \underset{ij}{Σ} (A_{ij} - \frac{k_{i} k_{j}}{2 m}) σ_{c_{i} c_{j}}

要进行到哪一步终止。为解决这个问题，Newman等人引进了一个衡量网络社团划分质量的标准——模块度(Q)，其定义为：

其中，A为图的邻接矩阵，A_ij表示边权，k_i和k_j分别为节点i和j的度数，度是指和该节点(顶点)相关联的边的条数，m为图的总边数，C_i与C_j分别代表节点i与j所属社团编号。若基节点i与节点j属于同一个社团，则δ函数取1，反之取0。

下面介绍快速社团划分算法：

GN算法是社团发现算法领域的一个非常重要的里程碑，但由于其算法复杂度比较大，因此仅仅局限于研究中等规模的社会网络。基于这个原因，在GN算法的基础上提出了一种快速社团划分算法。这种快速算法实际上是基于贪婪算法思想的一种凝聚算法。算法步骤如下：1.初始化网络为n个社团，即每个节点就是一个独立社团；2.依次合并有边相连的社团对，并计算合并后的模块度(Q)增量；3.重复执行步骤2，不断合并社团，直到整个网络都合并成为一个社团。算法中每一次合并社团的操作都对应一个模块度值，对应着局部最大模块度值时，即为最好的社团划分。

但由于其算法复杂度仍较高，目前，大部分社团发现算法仍集中在对无向网络的研究，而事实上，大部分我们感兴趣的网络均为有向网络，例如万维网、电信通话网络、Email通信网络、生物网络等等。忽略网络连接的方向进行社团发现，意味着丢弃了网络结构中的重要信息，使得对社团发现的结果有所偏差。

对于有向网络，采用修改了的模块度公式(modularityfunction)

Q = \frac{1}{m} \underset{ij}{Σ} [A_{ij} - \frac{k_{i}^{in} k_{j}^{out}}{m}] δ_{c_{i} c_{j}},

δ_{C_{i} C_{j}} = \{\begin{matrix} 1, & C_{i} = C_{j} \\ 0, & C_{i} &NotEqual; C_{j} \end{matrix}

其中，A为图的邻接矩阵，A_ij表示边权，δ为克罗内克δ符号(Kroenekefdeltasymbol)，若基节点i与节点j属于同一个社团，则δ函数取1，反之取0。

为节点i的入度，

为节点j的出度；节点的入度是指进入该节点的边的条数；节点的出度是指从该节点出发的边的条数。m为网络的总边数。

步骤五中，联系人的联系方式可以是指联系人的Email。Email信息通过步骤1中抽取的文献原文获取。***自动解析文献原文，使用正则表达式匹配Email格式的文本信息，抽取出文献原文中包含的所有Eamil信息。本***同时使用三种正则表达式匹配目标Email：

Regex1＝

″\w+([-+.]\w+)*\w+([-.]\w+)*\.\w+([-.]\w+)*″

Regex2＝

″\{？(\w*([-+.]\w+)*，(\s)*)*\w*([-+.]\w+)*\}？

\w+([-.]\w+)*\.\w*([-.]\w*)*″

Regex3＝

″(\s)*e-mail：(\s)*\w+([-+.]\w+)*\w+([-.]\w+)*\.\w+([-.]\w+)*(\s)*″

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，本发明实现的应用***截图见附图7。所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于复杂网络的学术核心作者挖掘及相关信息抽取方法，其包括：

2.如权利要求1所述的方法，其特征在于，步骤1中采集指定领域的文献数据具体包括：

步骤11、确定采集条件，包括确定检索类型、根据不同检索类型确定检索条件；

步骤12、根据采集条件动态配置采集信息；

步骤13、根据采集条件和采集信息获取文献数据。

3.如权利要求1所述的方法，其特征在于，步骤1中对数据进行整理分析以获取作者相关信息具体包括：

步骤14、进行数据清洗；

步骤15、获取指定的作者相关信息。

4.如权利要求1所述的方法，其特征在于，步骤1还包括将获取的作者相关信息展示给用户，由用户确定是否需要重新采集数据，如果需要则重新配置采集条件，并根据重新配置的采集条件进行采集数据。

5.如权利要求1所述的方法，其特征在于，步骤2中所述相关参数包括作者的发文量分布、作者的平均产出得分、作者在合作网络中的节点中介中心性、度分布、网络聚集系数和H-index度量。

6.如权利要求5所述的方法，其特征在于，所述节点中介中心性根据下式计算获得：

{BC}_{i} = \underset{j < k}{Σ} \frac{g_{jk} (i)}{g_{jk}},

其中，g_jk(i)表示节点j和k之间通过节点i的最短路径的条数，g_jk表示节点j和节点k之间最短路径的条数；

所述网络聚集系数根据下式获得：

C = \frac{{3 N}_{Δ}}{N_{3}} .

其中，N_△指合作网络中三角形的个数，N₃是指合作网络中连通三元组的数量。

7.如权利要求1所述的方法，其特征在于，步骤3中所述社团划分采用针对有向网络的快速社团划分方法，具体包括：

步骤31、初始化所述合作网络为n个社团，即每个节点为一个独立社团；

步骤32、依次合并有边相连的社团，并计算合并后的模块度值；

步骤33、重复执行步骤32，直到整个合作网络都合并成一个社团，其中，模块度值最大时，合并后对应的社团为最终划分后的社团。

8.如权利要求7所述的方法，其中所述模块度值根据下式计算：

Q = \frac{1}{m} \underset{ij}{Σ [} A_{ij} - \frac{k_{i}^{in} k_{j}^{out}}{m}] δ_{c_{i} c_{j}},

δ_{C_{i} C_{j}} = \{\begin{matrix} 1, & C_{i} = C_{j} \\ 0, & C_{i} &NotEqual; C_{j} \end{matrix}

其中，Q为模块度值，A为图的邻接矩阵，A_ij表示边权，

为节点i的入度，

为节点j的出度；m为合作网络的总边数，。

9.如权利要求1所述的方法，其特征在于，该方法还包括：

步骤5、分析文献数据，抽取核心作者的个人资料并提供给用户。

10.一种基于复杂网络的学术核心作者挖掘及相关信息抽取***，其包括：

参数分析统计装置：根据所获取的作者相关信息抽取作者合作网络，并统计作者相关的参数，根据所统计的不同相关参数获得不同的作者排名信息；