CN106227835A - 基于二分网络图层次聚类的团队研究方向挖掘方法 - Google Patents

基于二分网络图层次聚类的团队研究方向挖掘方法 Download PDF

Info

Publication number
CN106227835A
CN106227835A CN201610595145.XA CN201610595145A CN106227835A CN 106227835 A CN106227835 A CN 106227835A CN 201610595145 A CN201610595145 A CN 201610595145A CN 106227835 A CN106227835 A CN 106227835A
Authority
CN
China
Prior art keywords
author
group
key word
team
research
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610595145.XA
Other languages
English (en)
Other versions
CN106227835B (zh
Inventor
黄芳
彭孟亚
蔡颖
龙军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201610595145.XA priority Critical patent/CN106227835B/zh
Publication of CN106227835A publication Critical patent/CN106227835A/zh
Application granted granted Critical
Publication of CN106227835B publication Critical patent/CN106227835B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于二分网络图层次聚类的团队研究方向挖掘方法,包括以下步骤:步骤1:建立基于作者关键词二分网络的作者研究兴趣表示模型;步骤2:对作者研究兴趣表示模型进行图聚类:将对各个关键词的关注程度差异小的作者归于同一个作者群组;得到作者群组集合;步骤3:整体层次聚类,得到各个作者群组的研究兴趣:将作者群组集合中只包含一个作者的群组,合并到研究兴趣相似的其它作者群组中,使得每个作者群组中包含的作者个数大于2,计算并更新各个作者群组的研究兴趣,即团队研究方向。本发明能有效地挖掘出团队的学术研究方向,为分析及评价团队研究方向的发展情况提供有利条件。

Description

基于二分网络图层次聚类的团队研究方向挖掘方法
技术领域
本发明涉及一种基于二分网络图层次聚类的团队研究方向挖掘方法。
背景技术
在全球化趋势日益明显的今天,团队合作是一个非常普遍的现象。随着多学科的交叉融合、科学技术与社会的相互渗透,对科研管理和科研组织提出了更高的要求。科技创新团队通过资源共享、协同合作和分工互助,使得科技创新效率大幅提高,作为科技研发的一种有效的组织管理形式,科技创新团队逐步成为了科研创新活动的重要模式[1]。为保障科学前沿研究活动的持续进行和培养出具有科技创新精神的个人及团队,国家自然科学基金委员会从2000年开始试行设立“创新群体科学基金”,用以帮助国内优秀的科研创新团队就某一重要学术研究方向开展的基础科学研究和应用基础研究[2]
团队的研究方向是评价整个团队发展的重要标志。《国家自然科学基金委员会创新研究群体科学基金试行办法》[3]明确指出,创新研究群体必须是长期合作形成的整体,有相对集中的研究方向,并能持续活跃在其研究领域的前沿。学术论文通常是围绕着科学领域中的某一课题进行研究后的科学记录或科学总结,如果是对相关学术问题进行研究的论文,它们的相似度往往较高,但对不同问题进行解答的论文,它们的差别通常较大。以往根据论文之间的这种特性,就可以分析一个学术团队的研究方向的相关性。而这种方式并没有考虑团队中成员之间的关系,学术关系网络[4]具有较为复杂的结构。对团队的学术方向而言,一方面需要考虑团队中成员的研究兴趣所在;另一方面仍需要考虑团队中各研究方向之间的关系。
因此,有必要设计一种结合团队成员研究兴趣和关系网络特征的团队研究方向挖掘方法。
参考文献
[1]王新新.科技创新团队的构建与发展策略研究[J].科技与经济,2014,27(3):66-69.
[2]冯长根.国家自然科学基金委员会创新研究群体[J].科技导报,2010,28(7):125.
[3]《国家自然科学基金委员会创新研究群体科学基金试行办法》,2001,2.
[4]Fang Huang,Jing Liu,Xinmin Liu,et al.Academic RelationClassification Rules Extraction with Correlation Feature Weight Selection[C].the 3rd Global Congress on Intelligent Systems(GCIS2012),Nov.6-8,2012:160-165.
[5]Tian Y,Hankins R A,Patel J M.Efficient aggregation for graphsummarization[C].AcmSigmod International Conference on Management ofData.2008:567-580.
[6]陈克寒,韩盼盼,吴健.基于用户聚类的异构社交网络推荐算法[J].计算机学报,2013,38(2):349-359.
发明内容
本发明所解决的技术问题是,针对现有技术的不足,提供一种基于二分网络图层次聚类的团队研究方向挖掘方法,基于图聚类方法的研究,对团队的研究方向进行挖掘,为分析及评价团队研究方向的发展情况提供有利条件。
本发明所提供的技术方案为:
一种基于二分网络图层次聚类的团队研究方向挖掘方法,包括以下步骤:
步骤1:建立基于作者关键词二分网络的作者研究兴趣表示模型;
步骤2:对作者研究兴趣表示模型进行图聚类:
将对各个关键词的关注程度差异小的作者归于同一个作者群组;得到作者群组集合;
步骤3:整体层次聚类,得到各个作者群组的研究兴趣:
将作者群组集合中只包含一个作者的群组,合并到研究兴趣相似的其它作者群组中,使得每个作者群组中包含的作者个数大于2,计算并更新各个作者群组的研究兴趣,即团队研究方向。
所述步骤1具体为:
从团队中作者的学术论文集出发,抽取作者信息和关键词信息,得到预处理数据,其中,作者集记为VA={A1,A2,…,AN},关键词集记为VK=K={k1,k2,…,kM},将作者Ai的学术论文集中关键词列表和关键词集K进行比较,因此,对于每个作者An,得到的该作者An的研究兴趣表示模型为An={(k1,wn1),(k2,wn2),…,(kM,wnM)};
基于作者的研究兴趣表示模型,构建出N×M的作者兴趣矩阵m,其中,对于作者集中的每个作者,定义该作者An的研究兴趣向量为vn=(wn1,wn2,…,wnM);
作者研究兴趣表示模型表示为G=G(V,E);
其中V为作者节点和关键词节点所组成的集合,即V={VAUVK},其中VA为作者集合VA={A1,A2,…,An,…,AN},VK为关键词集合VK=K={k1,k2,…,kj,…,kM},N和M分别为团队中的作者总数和团队中所有作者的学术论文集中的关键词总数;E为作者节点和关键词节点之间的连边所构成的集合,即E={e(An,kj)|An∈VA,kj∈K,wnj>0};如果作者An的学术论文中关键词列表中包含关键词集中的某个关键词kj,则权重wnj>0,在作者An和关键词kj之间存在连边e(An,kj),否则wnj=0,在作者An和关键词kj之间不存在连边。
所述步骤2,对作者研究兴趣表示模型G=G(V,E)进行图聚类;包括以下步骤:
2.1)初始化作者群组集合Groups={G0},G0为一个包含团队中所有作者的作者群组;
2.2)对于定义作者群组Gi对关键词kj的关注集为:
其中,A为作者群组Gi中的作者。
2.3)通过公式(2)计算作者群组Gi对每一个关键词kj(kj∈K)的关注情况focusij
focus i j = | Focus k j ( G i ) | | G i | - - - ( 2 )
其中,表示作者群组Gi中关注关键词kj的作者数量,|Gi|表示作者群组Gi中包含的作者总数;如果关注度focusij≥α,则称作者群组Gi“强关注”于关键词kj,否则称作者群组Gi“弱关注”于关键词kj;其中α>0,为关注强度阈值;
在一个作者群组中,作者们对关键词的关注情况越集中,这个群组的聚合度就越高。定义模糊度来描述作者群组内部各个作者之间对于关键词关注的差异程度。
2.4)通过公式(3)计算各个作者群组Gi在每一个关键词kj(kj∈K)上的模糊度fuzzyij
fuzzy i j = &delta; k j ( G i ) = | Focus k j ( G i ) | i f focus i j < &alpha; | | G i | - | Focus k j ( G i ) | | i f focus i j &GreaterEqual; &alpha; - - - ( 3 )
公式(3)中,当作者群组Gi“强关注”于关键词kj时,fuzzyij等于作者群组Gi中没有关注关键词kj的作者数;作者群组Gi“弱关注”于关键词kj时,fuzzyij等于作者群组Gi中关注关键词kj的作者数。
2.5)根据fuzzyij计算各个作者群组Gi对关键词集K的模糊度fuzzyi
fuzzy i = &Sigma; j = 1 | K | fuzzy i j - - - ( 4 )
其中|K|为关键词集K中的关键词总数,即M;
2.6)计算该Groups的总体模糊度Fuzzy:
F u z z y = &Sigma; G i &Element; G r o u p s fuzzy i - - - ( 5 )
2.7)找到fuzzyij的最大值,将其对应的关键词kj作为锁定词kj′
找到fuzzyi的最大值,将其对应的作者群组Gi作为待***的群组Gi′
将待***群组***为两个新的作者群组Gi1和Gi2,更新作者群组集合Groups;
Gi1={An∈Gi′||wnj′>0}
Gi2=Gi-Gi1
2.8)重复执行步骤2.2)~2.7),直至作者群组集合Groups中的作者群组个数为k;
将该聚类结果记为Groups={G1,G2,…,Gk},k为聚类结果中的类别数,满足:
(1)并且
(2)Gj∈Groups,并且i≠j,
2.9)比较每个阶段步骤2.6)中得到的聚类结果Groups的总体模糊度Fuzzy,将Fuzzy最小值对应的Groups作为最终的聚类结果,记为summaryGroups;
所述步骤2对应的算法执行过程如下:
该算法起始于一个包含所有作者的群组,然后在每次迭代的过程中,对原来的群组进行***,直到得到了k个群组。该算法不是随机地选择一个群组进行***,而是基于对关键词的关注情况来选择待***的群组的。联系模糊度的定义,对于一个作者群组对某关键词的“弱关注”关系,我们希望从其中分离出对该关键词的关注集;而相对于“强关注”的情况,我们则希望分离出那些非关注集,这两种操作都会使群组对该关键词具有更高的关注度。因此,我们选择出待***的群组,并对之进行***操作。在每次迭代计算的时候,对每个阶段的聚类结果进行保存。最后,选择最优的一个聚类结果。
算法的伪码描述如下:
由于作者关键词二分网络数据的极端稀疏性,经基于作者关键词二分网络图聚类后的结果,有个别作者单独被归为一类,这些离散作者节点可能正是该学术团队拓展的新的研究方向。因此有必要对离散的作者节点进行处理,方便对整个团队学术研究方向的把握。
所述步骤3具体包括以下步骤:
3.1)将步骤2中得到的聚类结果summaryGroups中的作者群组分为非离散作者群组和离散作者群组;离散作者群组是指只包含一个作者的作者群组;将非离散作者群组作为初始簇;
3.2)计算每一个非离散作者群组Gi在关键词集合K上的类研究兴趣向量GMIi(Group Major Interests)作为各个初始簇的中心;
GMIi=(GWi1,GWi2,…,GWij,…,GWiM) (6)
其中,GWij(j=1,2,…,M)表示Gi对关键词kj的关注情况,定量描述为:
GW i j = &Sigma; A n &Element; G i w n j | G i | - - - ( 7 )
3.3)遍历离散作者群组中的各个作者An,计算其与各个初始簇的中心的欧式距离;计算方法为:
设作者An的研究兴趣向量为vn=(wn1,wn2,…,wnj,…,wnM)
d n i = &Sigma; k = 1 M ( GW i j - w n j ) 2 ;
3.4)比较An与各个初始簇的中心的欧式距离,选择欧式距离最小值对应的非离散作者群组,将An分配至该非离散作者群组,即将只包含作者An的离散作者群组与该非离散作者群组合并,形成一个新的作者群组;
3.5)迭代进行上述步骤3.1)~3.4),直到产生的作者群组不再发生改变;
3.6)计算并更新各个作者群组的类研究兴趣向量。
所述步骤3对应的算法的伪码描述如下:
有益效果:
本发明根据挖掘出某团队的团队成员及其学术论文信息:文献名、参与作者列表、关键词列表等等,对获取的数据集进行了预处理,并利用学术团队中论文作者和论文关键词信息来表征和量化作者的研究兴趣;针对二分网络独特的拓扑结构和团队中作者和关键词之间的二分特性,构建了基于作者关键词二分网络的作者研究兴趣表示模型。接着在作者关键词二分网络上进行图聚类,挖掘出了团队的主体特征,对该网络有个初步认识。最后在作者关键词二分网络的主体特征上,进行网络整体层次的聚类挖掘出了团队成员的全局学术研究方向,为今后进行团队学术方向的分析奠定了基础。
本发明结合图摘要算法、层次聚类算法和k-means算法,提出了基于作者关键词二分网络图聚类算法和网络整体层次聚类算法,根据团队中各个作者对不同关键词的关注差异程度,将团队中的作者聚类为k个作者群组;在一个作者群组中,作者对关键词的关注情况相对集中。本发明能有效地挖掘出团队的学术研究方向,为分析及评价团队研究方向的发展情况提供有利条件。
附图说明
图1为团队研究方向挖掘方法流程;
图2为作者关键词二分网络;
图3为k=5时作者关键词二分网络图聚类的结果;
图4为k=7时作者关键词二分网络图聚类结果;
图5为网络整体层次聚类后产生的4个作者群组;
图6为网络整体层次聚类后产生的5个作者群组。
具体实施方式
以下结合附图和具体实施方式对本发明进行进一步具体说明。
本发明提供了一种基于二分网络图层次聚类的团队研究方向挖掘方法,包括以下步骤:
步骤1:建立基于作者关键词二分网络的作者研究兴趣表示模型G=G(V,E);
其中V为作者节点和关键词节点所组成的集合,即V={VAUVK},其中VA为作者集合VA={A1,A2,…,An,…,AN},VK为关键词集合VK=K={k1,k2,…,kj,…,kM},N和M分别为团队中的作者总数和团队中所有作者的学术论文集中的关键词总数;E为作者节点和关键词节点之间的连边所构成的集合,即E={e(An,kj)|An∈VA,kj∈K,wnj>0};如果作者An的学术论文中关键词列表中包含关键词集中的某个关键词kj,则权重wnj>0,在作者An和关键词kj之间存在连边e(An,kj),否则wnj=0,在作者An和关键词kj之间不存在连边。
步骤2:对作者研究兴趣表示模型进行图聚类:将对各个关键词的关注程度差异小的作者归于同一个作者群组;得到作者群组集合;
2.1)初始化作者群组集合Groups={G0},G0为一个包含团队中所有作者的作者群组;
2.2)对于定义作者群组Gi对关键词kj的关注集为:
其中,A为作者群组Gi中的作者。
2.3)通过公式(2)计算作者群组Gi对每一个关键词kj(kj∈K)的关注情况focusij
focus i j = | Focus k j ( G i ) | | G i | - - - ( 2 )
其中,表示作者群组Gi中关注关键词kj的作者数量,|Gi|表示作者群组Gi中包含的作者总数;如果关注度focusij≥α,则称作者群组Gi“强关注”于关键词kj,否则称作者群组Gi“弱关注”于关键词kj;其中α>0,为关注强度阈值;
2.4)通过公式(3)计算各个作者群组Gi在每一个关键词kj(kj∈K)上的模糊度fuzzyij
fuzzy i j = &delta; k j ( G i ) = | Focus k j ( G i ) | i f focus i j < &alpha; | | G i | - | Focus k j ( G i ) | | i f focus i j &GreaterEqual; &alpha; - - - ( 3 )
2.5)根据fuzzyij计算各个作者群组Gi对关键词集K的模糊度fuzzyi
fuzzy i = &Sigma; j = 1 | K | fuzzy i j - - - ( 4 )
其中|K|为关键词集K中的关键词总数,即M;
2.6)计算该Groups的总体模糊度Fuzzy:
F u z z y = &Sigma; G i &Element; G r o u p s fuzzy i - - - ( 5 )
2.7)找到fuzzyij的最大值,将其对应的关键词kj作为锁定词kj′
找到fuzzyi的最大值,将其对应的作者群组Gi作为待***的群组Gi′
将待***群组***为两个新的作者群组Gi1和Gi2,更新作者群组集合Groups;
Gi1={An∈Gi′|wnj′>0}
Gi2=Gi-Gi1
2.8)重复执行步骤2.2)~2.7),直至作者群组集合Groups中的作者群组个数为k;
2.9)比较每个阶段步骤2.6)中得到的聚类结果Groups的总体模糊度Fuzzy,将Fuzzy最小值对应的Groups作为最终的聚类结果,记为summaryGroups。
步骤3:整体层次聚类,得到各个作者群组的研究兴趣:
将作者群组集合中只包含一个作者的群组,合并到研究兴趣相似的其它作者群组中,使得每个作者群组中包含的作者个数大于2,计算并更新各个作者群组的研究兴趣,即团队研究方向;
3.1)将步骤2中得到的聚类结果summaryGroups中的作者群组分为非离散作者群组和离散作者群组;离散作者群组是指只包含一个作者的作者群组;将非离散作者群组作为初始簇;
3.2)计算每一个非离散作者群组Gi在关键词集合K上的类研究兴趣向量GMIi作为各个初始簇的中心;
GMIi=(GWi1,GWi2,…,GWij,…,GWiM) (6)
其中,GWij(j=1,2,…,M)表示Gi对关键词kj的关注情况,定量描述为:
GW i j = &Sigma; A n &Element; G i w n j | G i | - - - ( 7 )
3.3)遍历离散作者群组中的各个作者An,计算其与各个初始簇的中心的欧式距离;计算方法为:
设作者An的研究兴趣向量为vn=(wn1,wn2,…,wnj,…,wnM)
d n i = &Sigma; k = 1 M ( GW i j - w n j ) 2 ;
3.4)比较An与各个初始簇的中心的欧式距离,选择欧式距离最小值对应的非离散作者群组,将An分配至该非离散作者群组,即将只包含作者An的离散作者群组与该非离散作者群组合并,形成一个新的作者群组;
3.5)迭代进行上述步骤3.1)~3.4),直到产生的作者群组不再发生改变;
3.6)计算并更新各个作者群组的类研究兴趣向量,即团队研究方向向量。
本发明主要流程如图1所示:
图1为团队研究方向挖掘方法流程,从团队学术论文数据出发,构建基于作者关键词二分网络的作者研究兴趣表示模型;然后对作者研究兴趣表示模型进行图聚类,得到团队研究兴趣的主体特征;最后对挖掘出的主体特征进行分析,进行网络整体层次的聚类,得到该团队全局的研究方向。
实验分析
1数据的来源
这部分数据来自于某计算机科学技术研究团队作为研究对象,借助该团队的论文数据集进行了实验验证分析,并将实验结果分别以可视化的形式以及表格的形式进行展示。本部分的作者研究兴趣表示模型、作者群组研究兴趣表示模型均借助了Gephi软件进行了示意展示。
2作者关键词二分网络
通过分析该团队的团队组成及其学术论文数据集,得到该团队的研究兴趣模型中包含23个团队成员,547个论文关键词,建立的初始作者关键词二分网络如图2所示。在图2只显示了该团队中的作者的姓名,其对应的研究兴趣领域散布在相应的作者周围,由于节点众多,这里没有显示出关键词属性。
3团队研究兴趣主体特征
1.k=5时基于作者关键词二分网络图聚类结果
图3描述了k=5时,作者关键词二分网络图聚类的结果:由552个节点(含聚类后作者群组和关键词),714条边构成。可以看出,各个群组节点的大小不一,其中群组1中人数较多,群组4中只包含了一个团队成员。对上述信息,也可以使用表格进行展示。如表1,列出了5个作者群组对部分关键词集的关注情况。
表1 团队研究兴趣主体特征部分信息实例展示(k=5时)
2.k=7时基于作者关键词二分网络图聚类结果
图4展示的是k=7时,作者关键词二分网络图聚类结果:554个节点,721条边。和图3相比,由于聚类的个数增多,图4中出现了较多的小团体,如群组4、群组5和群组7。同样地,表2中列出了7个作者群组关注的部分研究领域:
表2 团队研究兴趣主体特征部分信息实例展示(k=7时)
原始的基于二分网络的团队作者研究兴趣表示模型,通过使用基于作者关键词二分网络图聚类算法进行挖掘后,可以简化原始模型的信息,将关注重点放在该模型的主体结构上,有助于对团队主要研究方向的把握。
4网络整体层次聚类的结果分析
1.处理k=5时的团队研究兴趣主体特征
首先,使用网络整体层次聚类的方法,处理k=5时的团队研究兴趣主体特征,得到:551个节点,693条边,所得到的团队全局研究兴趣如图5所示,此时,聚类个数为4个。可以看出,和图3相比,团队成员的研究兴趣更加清晰、更加集中。
表3列出了此时4个作者群组对部分关键词集的关注情况。和表1相比,群组3和群组4对部分关键词(如:镜头失真、汉字部件)的关注情况发生了变化。
表3 团队全局研究方向部分实例
2.处理k=7时的团队研究兴趣主体特征
再次,对k=7时的团队研究兴趣主体特征运用网络整体层次的聚类,由于图4中的团队主体特征信息中离散的作者节点有两个,因此全局聚类后作者群组数为5个。全局聚类结果如图6所示,其中包含552个节点,679条边。
表4中列出了此时5个作者群组及其关注的部分研究领域,和表2相比,由于离散作者节点的归类,导致网络整体层次聚类后各群组关注的研究兴趣领域已经发生了变化。
表4 团队全局研究方向部分实例
本发明首先建立了基于二分网络的作者研究兴趣表示模型。然后结合作者研究兴趣表示模型的特点,引入基于作者关键词二分网络的图聚类算法,来挖掘网络的主体特征,进而得到团队的主要研究方向。最后借助k-means算法的基本思想,在网络主体特征的基础上,进行网络整体层次的挖掘,得到团队的全局研究兴趣领域。本发明能有效地挖掘出团队的学术研究方向,为分析及评价团队研究方向的发展情况提供有利条件。

Claims (4)

1.一种基于二分网络图层次聚类的团队研究方向挖掘方法,其特征在于,包括以下步骤:
步骤1:建立基于作者关键词二分网络的作者研究兴趣表示模型;
步骤2:对作者研究兴趣表示模型进行图聚类:
将对各个关键词的关注程度差异小的作者归于同一个作者群组;得到作者群组集合;
步骤3:整体层次聚类,得到各个作者群组的研究兴趣:
将作者群组集合中只包含一个作者的群组,合并到研究兴趣相似的其它作者群组中,使得每个作者群组中包含的作者个数大于2,计算并更新各个作者群组的研究兴趣,即团队研究方向。
2.根据权利要求1所述的基于二分网络图层次聚类的团队研究方向挖掘方法,其特征在于,所述步骤1中作者研究兴趣表示模型表示为G=G(V,E);
其中V为作者节点和关键词节点所组成的集合,即V={VAUVK},其中VA为作者集合VA={A1,A2,…,An,…,AN},VK为关键词集合VK=K={k1,k2,…,kj,…,kM},N和M分别为团队中的作者总数和团队中所有作者的学术论文集中的关键词总数;E为作者节点和关键词节点之间的连边所构成的集合,即E={e(An,kj)|An∈VA,kj∈K,wnj>0};如果作者An的学术论文中关键词列表中包含关键词集中的某个关键词kj,则权重wnj>0,在作者An和关键词kj之间存在连边e(An,kj),否则wnj=0,在作者An和关键词kj之间不存在连边。
3.根据权利要求1所述的基于二分网络图层次聚类的团队研究方向挖掘方法,其特征在于,所述步骤2包括以下步骤:
2.1)初始化作者群组集合Groups={G0},G0为一个包含团队中所有作者的作者群组;
2.2)对于定义作者群组Gi对关键词kj的关注集为:
其中,A为作者群组Gi中的作者;
2.3)通过公式(2)计算作者群组Gi对每一个关键词kj(kj∈K)的关注情况focusij
focus i j = | Focus k j ( G i ) | | G i | - - - ( 2 )
其中,表示作者群组Gi中关注关键词kj的作者数量,|Gi|表示作者群组Gi中包含的作者总数;如果关注度focusij≥α,则称作者群组Gi“强关注”于关键词kj,否则称作者群组Gi“弱关注”于关键词kj;其中α>0,为关注强度阈值;
2.4)通过公式(3)计算各个作者群组Gi在每一个关键词kj(kj∈K)上的模糊度fuzzyij
fuzzy i j = &delta; k j ( G i ) = | Focus k j ( G i ) | i f focus i j < &alpha; | | G i | - | Focus k j ( G i ) | | i f focus i j &GreaterEqual; &alpha; - - - ( 3 )
2.5)根据fuzzyij计算各个作者群组Gi对关键词集K的模糊度fuzzyi
fuzzy i = &Sigma; j = 1 | K | fuzzy i j - - - ( 4 )
其中|K|为关键词集K中的关键词总数,即M;
2.6)计算该Groups的总体模糊度Fuzzy:
F u z z y = &Sigma; G i &Element; G r o u p s fuzzy i - - - ( 5 )
2.7)找到fuzzyij的最大值,将其对应的关键词kj作为锁定词kj′;
找到fuzzyi的最大值,将其对应的作者群组Gi作为待***的群组Gi′;
将待***群组***为两个新的作者群组Gi1和Gi2,更新作者群组集合Groups;
Gi1={An∈Gi′|wnj′>0}
Gi2=Gi-Gi1
2.8)重复执行步骤2.2)~2.7),直至作者群组集合Groups中的作者群组个数为k;
2.9)比较每个阶段步骤2.6)中得到的聚类结果Groups的总体模糊度Fuzzy,将Fuzzy最小值对应的Groups作为最终的聚类结果,记为summaryGroups。
4.根据权利要求3所述的基于二分网络图层次聚类的团队研究方向挖掘方法,其特征在于,所述步骤3包括以下步骤:
3.1)将步骤2中得到的聚类结果summaryGroups中的作者群组分为非离散作者群组和离散作者群组;离散作者群组是指只包含一个作者的作者群组;将非离散作者群组作为初始簇;
3.2)计算每一个非离散作者群组Gi在关键词集合K上的类研究兴趣向量GMIi作为各个初始簇的中心;
GMIi=(GWi1,GWi2,…,GWij,…,GWiM) (6)
其中,GWij(j=1,2,…,M)表示Gi对关键词kj的关注情况,定量描述为:
GW i j = &Sigma; A n &Element; G i w n j | G i | - - - ( 7 )
3.3)遍历离散作者群组中的各个作者An,计算其与各个初始簇的中心的欧式距离;计算方法为:
设作者An的研究兴趣向量为vn=(wn1,wn2,…,wnj,…,wnM)
d n i = &Sigma; k = 1 M ( GW i j - w n j ) 2 ;
3.4)比较An与各个初始簇的中心的欧式距离,选择欧式距离最小值对应的非离散作者群组,将An分配至该非离散作者群组,即将只包含作者An的离散作者群组与该非离散作者群组合并,形成一个新的作者群组;
3.5)迭代进行上述步骤3.1)~3.4),直到产生的作者群组不再发生改变;
3.6)计算并更新各个作者群组的类研究兴趣向量。
CN201610595145.XA 2016-07-25 2016-07-25 基于二分网络图层次聚类的团队研究方向挖掘方法 Expired - Fee Related CN106227835B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610595145.XA CN106227835B (zh) 2016-07-25 2016-07-25 基于二分网络图层次聚类的团队研究方向挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610595145.XA CN106227835B (zh) 2016-07-25 2016-07-25 基于二分网络图层次聚类的团队研究方向挖掘方法

Publications (2)

Publication Number Publication Date
CN106227835A true CN106227835A (zh) 2016-12-14
CN106227835B CN106227835B (zh) 2018-01-19

Family

ID=57533613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610595145.XA Expired - Fee Related CN106227835B (zh) 2016-07-25 2016-07-25 基于二分网络图层次聚类的团队研究方向挖掘方法

Country Status (1)

Country Link
CN (1) CN106227835B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256231A (zh) * 2017-05-04 2017-10-17 腾讯科技(深圳)有限公司 一种团队成员识别设备、方法及***
CN108491409A (zh) * 2018-01-29 2018-09-04 浙江工业大学 一种基于医院关联网络结构特征的城市医疗体系聚类方法
CN109376236A (zh) * 2018-07-27 2019-02-22 中山大学 一种基于聚类分析的学术论文作者权重分析方法
WO2019079971A1 (zh) * 2017-10-24 2019-05-02 深圳市云中飞网络科技有限公司 群组的通信方法及装置、计算机存储介质、计算机设备
CN109741791A (zh) * 2018-12-29 2019-05-10 人和未来生物科技(长沙)有限公司 一种面向PubMed论文库的作者学科方向数据挖掘方法及***
CN109829634A (zh) * 2019-01-18 2019-05-31 北京工业大学 一种自适应的高校专利科研团队识别方法
CN110941662A (zh) * 2019-06-24 2020-03-31 上海市研发公共服务平台管理中心 科研合作关系的图示化方法、***、存储介质、及终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254028A (zh) * 2011-07-22 2011-11-23 青岛理工大学 一种集成属性和结构相似性的个性化商品推荐方法和***
CN102609546A (zh) * 2011-12-08 2012-07-25 清华大学 一种学术期刊论文作者信息挖掘方法及***
CN103020302A (zh) * 2012-12-31 2013-04-03 中国科学院自动化研究所 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和***
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐***和推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254028A (zh) * 2011-07-22 2011-11-23 青岛理工大学 一种集成属性和结构相似性的个性化商品推荐方法和***
CN102609546A (zh) * 2011-12-08 2012-07-25 清华大学 一种学术期刊论文作者信息挖掘方法及***
CN103020302A (zh) * 2012-12-31 2013-04-03 中国科学院自动化研究所 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和***
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐***和推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘非凡 等: "基于2-模网络和G-N 社群聚类算法的潜在合作者研究", 《情报理论与实践》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256231A (zh) * 2017-05-04 2017-10-17 腾讯科技(深圳)有限公司 一种团队成员识别设备、方法及***
CN107256231B (zh) * 2017-05-04 2022-04-22 腾讯科技(深圳)有限公司 一种团队成员识别设备、方法及***
WO2019079971A1 (zh) * 2017-10-24 2019-05-02 深圳市云中飞网络科技有限公司 群组的通信方法及装置、计算机存储介质、计算机设备
CN108491409A (zh) * 2018-01-29 2018-09-04 浙江工业大学 一种基于医院关联网络结构特征的城市医疗体系聚类方法
CN108491409B (zh) * 2018-01-29 2022-06-17 浙江工业大学 一种基于医院关联网络结构特征的城市医疗体系聚类方法
CN109376236A (zh) * 2018-07-27 2019-02-22 中山大学 一种基于聚类分析的学术论文作者权重分析方法
CN109376236B (zh) * 2018-07-27 2021-10-26 中山大学 一种基于聚类分析的学术论文作者权重分析方法
CN109741791A (zh) * 2018-12-29 2019-05-10 人和未来生物科技(长沙)有限公司 一种面向PubMed论文库的作者学科方向数据挖掘方法及***
CN109829634A (zh) * 2019-01-18 2019-05-31 北京工业大学 一种自适应的高校专利科研团队识别方法
CN109829634B (zh) * 2019-01-18 2021-02-26 北京工业大学 一种自适应的高校专利科研团队识别方法
CN110941662A (zh) * 2019-06-24 2020-03-31 上海市研发公共服务平台管理中心 科研合作关系的图示化方法、***、存储介质、及终端

Also Published As

Publication number Publication date
CN106227835B (zh) 2018-01-19

Similar Documents

Publication Publication Date Title
CN106227835A (zh) 基于二分网络图层次聚类的团队研究方向挖掘方法
Kahng et al. Visual exploration of machine learning results using data cube analysis
Qu et al. Efficient topological OLAP on information networks
Narvekar et al. An optimized algorithm for association rule mining using FP tree
Salam et al. Mining top− k frequent patterns without minimum support threshold
US7818322B2 (en) Efficient method for clustering nodes
CN105260387B (zh) 一种面向海量事务数据库的关联规则分析方法
Mahajan et al. Rough set approach in machine learning: a review
Aiello et al. Behavior-driven clustering of queries into topics
Lin et al. A frequent itemset mining algorithm based on the Principle of Inclusion–Exclusion and transaction mapping
Chen et al. A rough set-based hierarchical clustering algorithm for categorical data
Malo et al. Automated query learning with Wikipedia and genetic programming
Loh et al. Faster hoeffding racing: Bernstein races via jackknife estimates
Kumar et al. Fake news detection of Indian and United States election data using machine learning algorithm
Radhakrishna et al. GANDIVA: Temporal pattern tree for similarity profiled association mining
Bei et al. Summarizing scale-free networks based on virtual and real links
Xenopoulos et al. GALE: Globally assessing local explanations
Ge et al. LPX: Overlapping community detection based on X‐means and label propagation algorithm in attributed networks
Banerjee et al. Context Matters: Pushing the Boundaries of Open-Ended Answer Generation with Graph-Structured Knowledge Context
Rawat et al. Analyzing the performance of various clustering algorithms
Bouhatem et al. Density-based Approach with Dual Optimization for Tracking Community Structure of Increasing Social Networks
Khanam et al. Application of network analysis for finding relatedness among legal documents by using case citation data
Bidoki et al. Network semantic segmentation with application to github
Pimentel Choosing a clustering: an a posteriori method for social networks
Wang et al. An effective semi-supervised clustering framework integrating pairwise constraints and attribute preferences

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180119

Termination date: 20210725

CF01 Termination of patent right due to non-payment of annual fee