CN106227835A

CN106227835A - 基于二分网络图层次聚类的团队研究方向挖掘方法

Info

Publication number: CN106227835A
Application number: CN201610595145.XA
Authority: CN
Inventors: 黄芳; 彭孟亚; 蔡颖; 龙军
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2016-07-25
Filing date: 2016-07-25
Publication date: 2016-12-14
Anticipated expiration: 2036-07-25
Also published as: CN106227835B

Abstract

本发明公开了一种基于二分网络图层次聚类的团队研究方向挖掘方法，包括以下步骤：步骤1：建立基于作者关键词二分网络的作者研究兴趣表示模型；步骤2：对作者研究兴趣表示模型进行图聚类：将对各个关键词的关注程度差异小的作者归于同一个作者群组；得到作者群组集合；步骤3：整体层次聚类，得到各个作者群组的研究兴趣：将作者群组集合中只包含一个作者的群组，合并到研究兴趣相似的其它作者群组中，使得每个作者群组中包含的作者个数大于2，计算并更新各个作者群组的研究兴趣，即团队研究方向。本发明能有效地挖掘出团队的学术研究方向，为分析及评价团队研究方向的发展情况提供有利条件。

Description

基于二分网络图层次聚类的团队研究方向挖掘方法

技术领域

本发明涉及一种基于二分网络图层次聚类的团队研究方向挖掘方法。

背景技术

在全球化趋势日益明显的今天，团队合作是一个非常普遍的现象。随着多学科的交叉融合、科学技术与社会的相互渗透，对科研管理和科研组织提出了更高的要求。科技创新团队通过资源共享、协同合作和分工互助，使得科技创新效率大幅提高，作为科技研发的一种有效的组织管理形式，科技创新团队逐步成为了科研创新活动的重要模式^[1]。为保障科学前沿研究活动的持续进行和培养出具有科技创新精神的个人及团队，国家自然科学基金委员会从2000年开始试行设立“创新群体科学基金”，用以帮助国内优秀的科研创新团队就某一重要学术研究方向开展的基础科学研究和应用基础研究^[2]。

团队的研究方向是评价整个团队发展的重要标志。《国家自然科学基金委员会创新研究群体科学基金试行办法》^[3]明确指出，创新研究群体必须是长期合作形成的整体，有相对集中的研究方向，并能持续活跃在其研究领域的前沿。学术论文通常是围绕着科学领域中的某一课题进行研究后的科学记录或科学总结，如果是对相关学术问题进行研究的论文，它们的相似度往往较高，但对不同问题进行解答的论文，它们的差别通常较大。以往根据论文之间的这种特性，就可以分析一个学术团队的研究方向的相关性。而这种方式并没有考虑团队中成员之间的关系，学术关系网络^[4]具有较为复杂的结构。对团队的学术方向而言，一方面需要考虑团队中成员的研究兴趣所在；另一方面仍需要考虑团队中各研究方向之间的关系。

因此，有必要设计一种结合团队成员研究兴趣和关系网络特征的团队研究方向挖掘方法。

参考文献

[1]王新新.科技创新团队的构建与发展策略研究[J].科技与经济,2014,27(3):66-69.

[2]冯长根.国家自然科学基金委员会创新研究群体[J].科技导报,2010,28(7):125.

[3]《国家自然科学基金委员会创新研究群体科学基金试行办法》,2001,2.

[4]Fang Huang,Jing Liu,Xinmin Liu,et al.Academic RelationClassification Rules Extraction with Correlation Feature Weight Selection[C].the 3rd Global Congress on Intelligent Systems(GCIS2012),Nov.6-8,2012:160-165.

[5]Tian Y,Hankins R A,Patel J M.Efficient aggregation for graphsummarization[C].AcmSigmod International Conference on Management ofData.2008:567-580.

[6]陈克寒,韩盼盼,吴健.基于用户聚类的异构社交网络推荐算法[J].计算机学报,2013,38(2):349-359.

发明内容

本发明所解决的技术问题是，针对现有技术的不足，提供一种基于二分网络图层次聚类的团队研究方向挖掘方法，基于图聚类方法的研究，对团队的研究方向进行挖掘，为分析及评价团队研究方向的发展情况提供有利条件。

本发明所提供的技术方案为：

一种基于二分网络图层次聚类的团队研究方向挖掘方法，包括以下步骤：

步骤1：建立基于作者关键词二分网络的作者研究兴趣表示模型；

步骤2：对作者研究兴趣表示模型进行图聚类：

将对各个关键词的关注程度差异小的作者归于同一个作者群组；得到作者群组集合；

步骤3：整体层次聚类，得到各个作者群组的研究兴趣：

将作者群组集合中只包含一个作者的群组，合并到研究兴趣相似的其它作者群组中，使得每个作者群组中包含的作者个数大于2，计算并更新各个作者群组的研究兴趣，即团队研究方向。

所述步骤1具体为：

从团队中作者的学术论文集出发，抽取作者信息和关键词信息，得到预处理数据，其中，作者集记为V_A＝{A₁,A₂,…,A_N}，关键词集记为V_K＝K＝{k₁,k₂,…,k_M}，将作者A_i的学术论文集中关键词列表和关键词集K进行比较，因此，对于每个作者A_n，得到的该作者A_n的研究兴趣表示模型为A_n＝{(k₁,w_n1),(k₂,w_n2),…,(k_M,w_nM)}；

基于作者的研究兴趣表示模型，构建出N×M的作者兴趣矩阵m，其中，对于作者集中的每个作者，定义该作者A_n的研究兴趣向量为v_n＝(w_n1,w_n2,…,w_nM)；

作者研究兴趣表示模型表示为G＝G(V,E)；

其中V为作者节点和关键词节点所组成的集合，即V＝{V_AUV_K}，其中V_A为作者集合V_A＝{A₁,A₂,…,A_n,…,A_N}，V_K为关键词集合V_K＝K＝{k₁,k₂,…,k_j,…,k_M}，N和M分别为团队中的作者总数和团队中所有作者的学术论文集中的关键词总数；E为作者节点和关键词节点之间的连边所构成的集合，即E＝{e(A_n,k_j)|A_n∈V_A,k_j∈K,w_nj>0}；如果作者A_n的学术论文中关键词列表中包含关键词集中的某个关键词k_j，则权重w_nj>0，在作者A_n和关键词k_j之间存在连边e(A_n,k_j)，否则w_nj＝0，在作者A_n和关键词k_j之间不存在连边。

所述步骤2，对作者研究兴趣表示模型G＝G(V,E)进行图聚类；包括以下步骤：

2.1)初始化作者群组集合Groups＝{G₀}，G₀为一个包含团队中所有作者的作者群组；

2.2)对于定义作者群组G_i对关键词k_j的关注集为：

其中，A为作者群组G_i中的作者。

2.3)通过公式(2)计算作者群组G_i对每一个关键词k_j(k_j∈K)的关注情况focus_ij：

{focus}_{i j} = \frac{| {Focus}_{k_{j}} (G_{i}) |}{| G_{i} |} - - - (2)

其中，表示作者群组G_i中关注关键词k_j的作者数量，|G_i|表示作者群组G_i中包含的作者总数；如果关注度focus_ij≥α，则称作者群组G_i“强关注”于关键词k_j，否则称作者群组G_i“弱关注”于关键词k_j；其中α>0，为关注强度阈值；

在一个作者群组中，作者们对关键词的关注情况越集中，这个群组的聚合度就越高。定义模糊度来描述作者群组内部各个作者之间对于关键词关注的差异程度。

2.4)通过公式(3)计算各个作者群组G_i在每一个关键词k_j(k_j∈K)上的模糊度fuzzy_ij：

{fuzzy}_{i j} = δ_{k_{j}} (G_{i}) = \{\begin{matrix} | {Focus}_{k_{j}} (G_{i}) | & i f & {focus}_{i j} < α \\ | | G_{i} | - | {Focus}_{k_{j}} (G_{i}) | | & i f & {focus}_{i j} &GreaterEqual; α \end{matrix} - - - (3)

公式(3)中，当作者群组G_i“强关注”于关键词k_j时，fuzzy_ij等于作者群组G_i中没有关注关键词k_j的作者数；作者群组G_i“弱关注”于关键词k_j时，fuzzy_ij等于作者群组G_i中关注关键词k_j的作者数。

2.5)根据fuzzy_ij计算各个作者群组G_i对关键词集K的模糊度fuzzy_i：

{fuzzy}_{i} = Σ_{j = 1}^{| K |} {fuzzy}_{i j} - - - (4)

其中|K|为关键词集K中的关键词总数，即M；

2.6)计算该Groups的总体模糊度Fuzzy：

F u z z y = \underset{G_{i} &Element; G r o u p s}{Σ} {fuzzy}_{i} - - - (5)

2.7)找到fuzzy_ij的最大值，将其对应的关键词k_j作为锁定词k_j′；

找到fuzzy_i的最大值，将其对应的作者群组G_i作为待***的群组G_i′；

将待***群组***为两个新的作者群组G_i1和G_i2，更新作者群组集合Groups；

G_i1＝{A_n∈G_i′||w_nj′>0}

G_i2＝G_i-G_i1；

2.8)重复执行步骤2.2)～2.7)，直至作者群组集合Groups中的作者群组个数为k；

将该聚类结果记为Groups＝{G₁,G₂,…,G_k}，k为聚类结果中的类别数，满足：

(1)并且

(2)G_j∈Groups，并且i≠j，

2.9)比较每个阶段步骤2.6)中得到的聚类结果Groups的总体模糊度Fuzzy，将Fuzzy最小值对应的Groups作为最终的聚类结果，记为summaryGroups；

所述步骤2对应的算法执行过程如下：

该算法起始于一个包含所有作者的群组，然后在每次迭代的过程中，对原来的群组进行***，直到得到了k个群组。该算法不是随机地选择一个群组进行***，而是基于对关键词的关注情况来选择待***的群组的。联系模糊度的定义，对于一个作者群组对某关键词的“弱关注”关系，我们希望从其中分离出对该关键词的关注集；而相对于“强关注”的情况，我们则希望分离出那些非关注集，这两种操作都会使群组对该关键词具有更高的关注度。因此，我们选择出待***的群组，并对之进行***操作。在每次迭代计算的时候，对每个阶段的聚类结果进行保存。最后，选择最优的一个聚类结果。

算法的伪码描述如下：

由于作者关键词二分网络数据的极端稀疏性，经基于作者关键词二分网络图聚类后的结果，有个别作者单独被归为一类，这些离散作者节点可能正是该学术团队拓展的新的研究方向。因此有必要对离散的作者节点进行处理，方便对整个团队学术研究方向的把握。

所述步骤3具体包括以下步骤：

3.1)将步骤2中得到的聚类结果summaryGroups中的作者群组分为非离散作者群组和离散作者群组；离散作者群组是指只包含一个作者的作者群组；将非离散作者群组作为初始簇；

3.2)计算每一个非离散作者群组G_i在关键词集合K上的类研究兴趣向量GMI_i(Group Major Interests)作为各个初始簇的中心；

GMI_i＝(GW_i1,GW_i2,…,GW_ij,…,GW_iM) (6)

其中，GW_ij(j＝1,2,…,M)表示G_i对关键词k_j的关注情况，定量描述为：

{GW}_{i j} = \frac{\underset{A_{n} &Element; G_{i}}{Σ} w_{n j}}{| G_{i} |} - - - (7)

3.3)遍历离散作者群组中的各个作者A_n，计算其与各个初始簇的中心的欧式距离；计算方法为：

设作者A_n的研究兴趣向量为v_n＝(w_n1,w_n2,…,w_nj,…,w_nM)

d_{n i} = \sqrt{Σ_{k = 1}^{M} {({GW}_{i j} - w_{n j})}^{2}};

3.4)比较A_n与各个初始簇的中心的欧式距离，选择欧式距离最小值对应的非离散作者群组，将A_n分配至该非离散作者群组，即将只包含作者A_n的离散作者群组与该非离散作者群组合并，形成一个新的作者群组；

3.5)迭代进行上述步骤3.1)～3.4)，直到产生的作者群组不再发生改变；

3.6)计算并更新各个作者群组的类研究兴趣向量。

所述步骤3对应的算法的伪码描述如下：

有益效果：

本发明根据挖掘出某团队的团队成员及其学术论文信息：文献名、参与作者列表、关键词列表等等，对获取的数据集进行了预处理，并利用学术团队中论文作者和论文关键词信息来表征和量化作者的研究兴趣；针对二分网络独特的拓扑结构和团队中作者和关键词之间的二分特性，构建了基于作者关键词二分网络的作者研究兴趣表示模型。接着在作者关键词二分网络上进行图聚类，挖掘出了团队的主体特征，对该网络有个初步认识。最后在作者关键词二分网络的主体特征上，进行网络整体层次的聚类挖掘出了团队成员的全局学术研究方向，为今后进行团队学术方向的分析奠定了基础。

本发明结合图摘要算法、层次聚类算法和k-means算法，提出了基于作者关键词二分网络图聚类算法和网络整体层次聚类算法，根据团队中各个作者对不同关键词的关注差异程度，将团队中的作者聚类为k个作者群组；在一个作者群组中，作者对关键词的关注情况相对集中。本发明能有效地挖掘出团队的学术研究方向，为分析及评价团队研究方向的发展情况提供有利条件。

附图说明

图1为团队研究方向挖掘方法流程；

图2为作者关键词二分网络；

图3为k＝5时作者关键词二分网络图聚类的结果；

图4为k＝7时作者关键词二分网络图聚类结果；

图5为网络整体层次聚类后产生的4个作者群组；

图6为网络整体层次聚类后产生的5个作者群组。

具体实施方式

以下结合附图和具体实施方式对本发明进行进一步具体说明。

本发明提供了一种基于二分网络图层次聚类的团队研究方向挖掘方法，包括以下步骤：

步骤1：建立基于作者关键词二分网络的作者研究兴趣表示模型G＝G(V,E)；

步骤2：对作者研究兴趣表示模型进行图聚类：将对各个关键词的关注程度差异小的作者归于同一个作者群组；得到作者群组集合；

2.2)对于定义作者群组G_i对关键词k_j的关注集为：

其中，A为作者群组G_i中的作者。

{focus}_{i j} = \frac{| {Focus}_{k_{j}} (G_{i}) |}{| G_{i} |} - - - (2)

{fuzzy}_{i j} = δ_{k_{j}} (G_{i}) = \{\begin{matrix} | {Focus}_{k_{j}} (G_{i}) | & i f & {focus}_{i j} < α \\ | | G_{i} | - | {Focus}_{k_{j}} (G_{i}) | | & i f & {focus}_{i j} &GreaterEqual; α \end{matrix} - - - (3)

{fuzzy}_{i} = Σ_{j = 1}^{| K |} {fuzzy}_{i j} - - - (4)

其中|K|为关键词集K中的关键词总数，即M；

2.6)计算该Groups的总体模糊度Fuzzy：

F u z z y = \underset{G_{i} &Element; G r o u p s}{Σ} {fuzzy}_{i} - - - (5)

G_i1＝{A_n∈G_i′|w_nj′>0}

G_i2＝G_i-G_i1；

2.9)比较每个阶段步骤2.6)中得到的聚类结果Groups的总体模糊度Fuzzy，将Fuzzy最小值对应的Groups作为最终的聚类结果，记为summaryGroups。

步骤3：整体层次聚类，得到各个作者群组的研究兴趣：

将作者群组集合中只包含一个作者的群组，合并到研究兴趣相似的其它作者群组中，使得每个作者群组中包含的作者个数大于2，计算并更新各个作者群组的研究兴趣，即团队研究方向；

3.2)计算每一个非离散作者群组G_i在关键词集合K上的类研究兴趣向量GMI_i作为各个初始簇的中心；

GMI_i＝(GW_i1,GW_i2,…,GW_ij,…,GW_iM) (6)

{GW}_{i j} = \frac{\underset{A_{n} &Element; G_{i}}{Σ} w_{n j}}{| G_{i} |} - - - (7)

设作者A_n的研究兴趣向量为v_n＝(w_n1,w_n2,…,w_nj,…,w_nM)

d_{n i} = \sqrt{Σ_{k = 1}^{M} {({GW}_{i j} - w_{n j})}^{2}};

3.6)计算并更新各个作者群组的类研究兴趣向量，即团队研究方向向量。

本发明主要流程如图1所示：

图1为团队研究方向挖掘方法流程，从团队学术论文数据出发，构建基于作者关键词二分网络的作者研究兴趣表示模型；然后对作者研究兴趣表示模型进行图聚类，得到团队研究兴趣的主体特征；最后对挖掘出的主体特征进行分析，进行网络整体层次的聚类，得到该团队全局的研究方向。

实验分析

1数据的来源

这部分数据来自于某计算机科学技术研究团队作为研究对象，借助该团队的论文数据集进行了实验验证分析，并将实验结果分别以可视化的形式以及表格的形式进行展示。本部分的作者研究兴趣表示模型、作者群组研究兴趣表示模型均借助了Gephi软件进行了示意展示。

2作者关键词二分网络

通过分析该团队的团队组成及其学术论文数据集，得到该团队的研究兴趣模型中包含23个团队成员，547个论文关键词，建立的初始作者关键词二分网络如图2所示。在图2只显示了该团队中的作者的姓名，其对应的研究兴趣领域散布在相应的作者周围，由于节点众多，这里没有显示出关键词属性。

3团队研究兴趣主体特征

1.k＝5时基于作者关键词二分网络图聚类结果

图3描述了k＝5时，作者关键词二分网络图聚类的结果：由552个节点(含聚类后作者群组和关键词)，714条边构成。可以看出，各个群组节点的大小不一，其中群组1中人数较多，群组4中只包含了一个团队成员。对上述信息，也可以使用表格进行展示。如表1，列出了5个作者群组对部分关键词集的关注情况。

表1 团队研究兴趣主体特征部分信息实例展示(k＝5时)

2.k＝7时基于作者关键词二分网络图聚类结果

图4展示的是k＝7时，作者关键词二分网络图聚类结果：554个节点，721条边。和图3相比，由于聚类的个数增多，图4中出现了较多的小团体，如群组4、群组5和群组7。同样地，表2中列出了7个作者群组关注的部分研究领域：

表2 团队研究兴趣主体特征部分信息实例展示(k＝7时)

原始的基于二分网络的团队作者研究兴趣表示模型，通过使用基于作者关键词二分网络图聚类算法进行挖掘后，可以简化原始模型的信息，将关注重点放在该模型的主体结构上，有助于对团队主要研究方向的把握。

4网络整体层次聚类的结果分析

1.处理k＝5时的团队研究兴趣主体特征

首先，使用网络整体层次聚类的方法，处理k＝5时的团队研究兴趣主体特征，得到：551个节点，693条边，所得到的团队全局研究兴趣如图5所示，此时，聚类个数为4个。可以看出，和图3相比，团队成员的研究兴趣更加清晰、更加集中。

表3列出了此时4个作者群组对部分关键词集的关注情况。和表1相比，群组3和群组4对部分关键词(如：镜头失真、汉字部件)的关注情况发生了变化。

表3 团队全局研究方向部分实例

2.处理k＝7时的团队研究兴趣主体特征

再次，对k＝7时的团队研究兴趣主体特征运用网络整体层次的聚类，由于图4中的团队主体特征信息中离散的作者节点有两个，因此全局聚类后作者群组数为5个。全局聚类结果如图6所示，其中包含552个节点，679条边。

表4中列出了此时5个作者群组及其关注的部分研究领域，和表2相比，由于离散作者节点的归类，导致网络整体层次聚类后各群组关注的研究兴趣领域已经发生了变化。

表4 团队全局研究方向部分实例

本发明首先建立了基于二分网络的作者研究兴趣表示模型。然后结合作者研究兴趣表示模型的特点，引入基于作者关键词二分网络的图聚类算法，来挖掘网络的主体特征，进而得到团队的主要研究方向。最后借助k-means算法的基本思想，在网络主体特征的基础上，进行网络整体层次的挖掘，得到团队的全局研究兴趣领域。本发明能有效地挖掘出团队的学术研究方向，为分析及评价团队研究方向的发展情况提供有利条件。

Claims

1.一种基于二分网络图层次聚类的团队研究方向挖掘方法，其特征在于，包括以下步骤：

步骤2：对作者研究兴趣表示模型进行图聚类：

步骤3：整体层次聚类，得到各个作者群组的研究兴趣：

2.根据权利要求1所述的基于二分网络图层次聚类的团队研究方向挖掘方法，其特征在于，所述步骤1中作者研究兴趣表示模型表示为G＝G(V,E)；

3.根据权利要求1所述的基于二分网络图层次聚类的团队研究方向挖掘方法，其特征在于，所述步骤2包括以下步骤：

2.2)对于定义作者群组G_i对关键词k_j的关注集为：

其中，A为作者群组G_i中的作者；

{focus}_{i j} = \frac{| {Focus}_{k_{j}} (G_{i}) |}{| G_{i} |} - - - (2)

{fuzzy}_{i j} = δ_{k_{j}} (G_{i}) = \{\begin{matrix} | {Focus}_{k_{j}} (G_{i}) | & i f & {focus}_{i j} < α \\ | | G_{i} | - | {Focus}_{k_{j}} (G_{i}) | | & i f & {focus}_{i j} &GreaterEqual; α \end{matrix} - - - (3)

{fuzzy}_{i} = Σ_{j = 1}^{| K |} {fuzzy}_{i j} - - - (4)

其中|K|为关键词集K中的关键词总数，即M；

2.6)计算该Groups的总体模糊度Fuzzy：

F u z z y = \underset{G_{i} &Element; G r o u p s}{Σ} {fuzzy}_{i} - - - (5)

2.7)找到fuzzyi_j的最大值，将其对应的关键词k_j作为锁定词k_j′；

G_i1＝{A_n∈G_i′|w_nj′>0}

G_i2＝G_i-G_i1；

4.根据权利要求3所述的基于二分网络图层次聚类的团队研究方向挖掘方法，其特征在于，所述步骤3包括以下步骤：

GMI_i＝(GW_i1,GW_i2,…,GW_ij,…,GW_iM) (6)

{GW}_{i j} = \frac{\underset{A_{n} &Element; G_{i}}{Σ} w_{n j}}{| G_{i} |} - - - (7)

设作者A_n的研究兴趣向量为v_n＝(w_n1,w_n2,…,w_nj,…,w_nM)

d_{n i} = \sqrt{Σ_{k = 1}^{M} {({GW}_{i j} - w_{n j})}^{2}};

3.6)计算并更新各个作者群组的类研究兴趣向量。