CN111090984B - 一种基于文献耦合分析的社区划分***及方法 - Google Patents
一种基于文献耦合分析的社区划分***及方法 Download PDFInfo
- Publication number
- CN111090984B CN111090984B CN201911165374.8A CN201911165374A CN111090984B CN 111090984 B CN111090984 B CN 111090984B CN 201911165374 A CN201911165374 A CN 201911165374A CN 111090984 B CN111090984 B CN 111090984B
- Authority
- CN
- China
- Prior art keywords
- community
- nodes
- coupling
- network
- authors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008878 coupling Effects 0.000 title claims abstract description 79
- 238000010168 coupling process Methods 0.000 title claims abstract description 79
- 238000005859 coupling reaction Methods 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000011160 research Methods 0.000 claims abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000000007 visual effect Effects 0.000 claims description 9
- 238000000638 solvent extraction Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于文献耦合分析的社区划分***及方法,属于社区划分方法技术领域。通过对参考文献、文章第一作者的处理和分析,形成以作者为节点、以作者间耦合关系为边的关系网络;在此基础上利用社区探测方法对关系网络进行社区划分,并进行耦合强弱程度的计算,用节点间连线粗细表示耦合强弱。本发明不仅能够更加直观地反映出各个作者研究方向的关联性,而且还能通过节点大小帮助研究人员了解和筛选领域内有影响力的作者,为广大研究人员的学术追踪提供方便。
Description
技术领域
本发明属于社区划分方法技术领域,尤其涉及一种基于文献耦合分析的社区划分***及方法。
背景技术
在学术科研工作的过程中,已出版的大量文献是指导科研工作的重要资源。研究人员一般会根据自己的研究方向来选择相应的文章进行阅读、研究。
但是随着研究的深入与相关文章发表的规模不断扩大,研究领域也会不断进行细化、新的子类以及交叉学科也会不断出现。面对文献数量及规模的增加,细分研究领域、了解领域有影响力的作者就成为了迫切的需求。然而,传统的人工细分方法不够全面而且也不能够凸显出在研究领域有足够影响力的作者,从而不能够对这些作者团队进行追踪,不利于对具有创新性要求的科研工作的展开。
如何通过大量文献的相关数据将研究领域高效、准确地分成各个子类;同时找出该领域有影响力的作者,是有效使用学术资源的一个重要问题。
发明内容
针对现有技术中存在不足,本发明提供了一种基于文献耦合分析的社区划分***及方法,对研究领域的大量文献进行处理分析,并形成不同的可视化社区,直观地表现这一领域的研究结构,表现出当前的研究领军人物同时也能为广大研究人员提供学术追踪。
本发明是通过以下技术手段实现上述技术目的的。
一种基于文献耦合分析的社区划分***,包括依次信号连接的数据采集模块、数据预处理模块、关系网络获取模块、研究社区获取模块和显示模块;
所述数据采集模块对文章中的参考文献信息进行采集并获取文章之间的耦合关系;
所述数据预处理模块将文章之间的耦合关系转换为第一作者之间的耦合关系;
所述关系网络获取模块建立第一作者关系网络;
所述研究社区获取模块获取稳定社区,确定社区主题,确定节点间耦合强弱程度,获取领域内有影响力的作者;
所述显示模块将研究社区以可视化的形式显示。
一种基于文献耦合分析的社区划分方法,包括以下步骤:
步骤(1):收集参考文献信息,获得不同文章间耦合关系、耦合强度;
步骤(2):将文章之间耦合关系替换成第一作者间耦合关系,并建立作者关系网络;
步骤(3):社区划分:采用社区探测方法对关系网络中的节点进行分配,形成稳定社区;确定社区研究主题,计算节点间耦合强弱程度,获取有影响力作者,并以可视化的形式将社区划分结果展出。
进一步地,所述步骤(2)中作者关系网络以作者为节点,以作者之间的耦合关系为边。
进一步地,所述步骤(3)中,在对关系网络节点进行分配之前,需要进行初始化,将每一个作者节点作为一个社区。
进一步地,所述步骤(3)中对关系网络的分配分为两个阶段,第一阶段把网络中任意节点分配到其邻近节点的社区,同时计算分配前后的模块化增益;第二阶段根据模块化增益最大值的方向将相似的节点分配到同一社区,差异的节点相互远离,并在每一次分配过程中计算整个网络的模块度。
进一步地,所述步骤(3)中稳定社区的形成需要对关系网络中的节点进行反复的两个阶段分配,直至整个网络的模块度达到最大值。
进一步地,所述模块化增益ΔQ为:
其中,∑in表示任一社区中连线权重;ki,in表示由节点i入射任一社区中的权重之和;ki表示节点i的度;∑tot表示关联到任一社区中的节点的连线权重之和;m表示网络连线权重之和。
进一步地,所述模块度Q为:其中,i、j表示网络中任意两个节点,Aij为判别常数,当节点i、j直接相连时Aij=1,否则Aij=0;ki表示节点i的度;kj表示节点j的度;m表示网络连线权重之和;δ(CiCj)为判别常数,用来判断节点i,j是否在同一社区内,节点i,j在同一社区时δ(CiCj)=1,否则δ(CiCj)=0。
进一步地,所述耦合强弱程度Sij为:其中:Wij表示任意两个节点i、j之间的耦合强度;∑Wij表示整个网络中的耦合强度之和;β为一个常数;Aij为判别常数,当节点i、j直接相连时Aij=1,否则Aij=0。
进一步地,所述有影响力作者通过节点大小判断,节点越大,该作者影响力越大。
本发明具有如下有益效果:
与现有技术相比,本发明提出了一种基于文献耦合分析的社区划分***及方法,该***结构简单,通过对文章的参考文献进行处理分析,得到不同文章之间的耦合强度、耦合关系,并用第一作者间耦合关系代替文章间耦合关系,方便可视化图形的建立;本发明中根据作者耦合关系建立关系网络,进而基于此进行可视化社区划分,通过节点间线条粗细表示耦合强弱程度,划分更加全面,能够更加直观地反映出各个作者研究方向的关联性,而且能够通过节点大小凸显出研究领域有影响力的作者,进而有利于对作者团队进行追踪分析,推动科研工作的展开,帮助科研人员节省时间,高效广泛地利用学术资源。
附图说明
图1为本发明所述社区划分***的结构示意图;
图2为本发明所述社区探测方法流程图;
图3为本发明所述关系网络示意图;
图4为本发明所述社区划分示意图。
具体实施方式
下面结合附图以及具体实施例对本发明作进一步的说明,但本发明的保护范围并不限于此。
图1是本发明所述基于文献耦合分析的社区划分***的结构示意图,本实施例中的社区划分***包括数据采集模块、数据预处理模块、关系网络获取模块、研究社区获取模块以及显示模块。数据采集模块对文章中的参考文献信息进行采集并处理;数据预处理模块与数据采集模块信号连接,对文章第一作者进行处理,并对数据采集模块传递过来的数据进行转换;关系网络获取模块与数据预处理模块信号连接,将数据预处理模块传递过来的数据进行处理并建立作者关系网络;研究社区获取模块与关系网络获取模块信号连接,采用社区探测方法对关系网络进行处理以得到一个稳定社区,并计算作者之间耦合强弱程度和作者节点的大小;显示模块与研究社区获取模块信号连接,将获得的研究社区以可视化的图片形式展示。
本实施例中的基于文献耦合分析的社区划分方法具体包括以下步骤:
步骤一:采集文章的参考文献信息,得出文章之间的耦合关系。
将从网络上获取的多篇文章作为源数据导入数据采集模块,利用“CD”来表示每篇文章的参考文献,针对“CD”进行分离字段操作,获取每篇文章的参考文献信息,利用“Pi-Pj”来表示文章Pi与文章Pj共同引用了相同的参考文献,即文章之间的耦合关系。
步骤二:获取N行第一作者之间的耦合关系。
该步骤在数据预处理模块完成,以两篇文章之间引用相同参考文献的数量作为耦合强度,通过数据预处理模块中的分析共享单元和耦合共享单元确定文章之间耦合关系“Pi-Pj”的耦合强度,并选择N(N为正整数)行耦合强度为10以上的所有文章;
识别所选取的文章的第一作者,并将步骤一中文章之间的耦合关系转换成第一作者之间的耦合关系,即分别识别文章Pi的第一作者Ai,文章Pj的第一作者Aj,将文章之间的耦合关系“Pi-Pj”替换为第一作者之间的耦合关系“Ai-Aj”;分别对N行文章之间的耦合关系进行逐行转换,得到N行第一作者之间的耦合关系。
步骤三:建立作者关系网络。
该步骤在关系网络获取模块完成,合并N行第一作者之间的耦合关系,生成如图3所示的以n(n为正整数)个作者为节点、以作者之间耦合关系为边的关系网络。
步骤四:社区划分。
该步骤在研究社区获取模块和显示模块完成,采用社区探测方法进行社区划分,图2展示了社区探测方法的流程图,主要包括如下步骤:
(1)将步骤三得到的关系网络中每一个作者节点作为一个社区,实现网络初始化。
(2)对于初始化网络中的任意节点i,依次把节点i分配到其邻近节点所在的社区,并计算分配前后的模块化增益ΔQ。ΔQ分为两个部分,前一部分表示把节点i加入到其他任一社区之后的模块度;后一部分表示节点i作为一个独立社区时的模块度。
模块化增益ΔQ的计算公式如下:
其中,∑in表示任一社区中连线权重;ki,in表示由节点i入射任一社区中的权重之和;ki表示节点i的度;∑tot表示关联到任一社区中的节点的连线权重之和;m表示网络连线权重之和。
(3)根据ΔQ最大值的方向,重新分配节点,将研究方向相似的节点分配到同一社区,差异的节点相互远离,并在每一次分配过程中计算整体模块度值Q。模块度值Q是用于评价社区结构划分质量的,Q值越大,划分效果越好。
模块度值Q的计算公式如下:
其中,i、j表示网络中任意两个节点;Aij为判别常数,当节点i、j直接相连时Aij=1,否则Aij=0;ki表示节点i的度;kj表示节点j的度;δ(Ci,Cj)为判别常数,用来判断节点i、j是否在同一社区内,当节点i、j在同一社区时δ(Ci,Cj)=1,否则δ(Ci,Cj)=0。
(4)重复步骤(2)和步骤(3),直至整个网络的模块度值Q达到最大即模块度不再发生变化时停止,形成一个稳定社区,社区探测结束。
为了更加直观全面的表现社区划分结果,对节点间耦合强弱程度、有影响力的作者、社区主题进行了分析,具体过程如下:
(1)计算节点间耦合强弱程度Sij,并通过节点间连线粗细来体现,耦合越强,节点间连线越粗;在计算耦合强弱程度Sij时,由于当任意节点i、j直接相连时Aij=1,否则Aij=0,所以利用Aij能够确保考虑到所有节点间的连线,同时考虑权重,权重大小为任意两节点之间的耦合强度与整个网络中的耦合强度之和的比值;最后,为了更加直观地显示耦合强弱程度Sij,考虑节点间连线粗细问题,因此需要附加一个常数来用于调节,该常数取值可根据耦合强度进行调整,一般取值范围为3~8。
综上所述,耦合强弱程度Sij的计算公式如下:
其中,Wij表示任意两个节点i、j之间的耦合强度;∑Wij表示整个网络中的耦合强度之和;β为一个常数。
(2)根据稳定社区中第一作者对应的文章可以确定每个社区的研究主题;根据节点连线的数量确定节点的度,节点的度越大,节点越大,节点的大小能够反映领域内作者情况,节点越大,表示作者在该领域内影响力越大;将最终社区划分结果输入到显示模块,以可视化的形式形成如图4所示的研究社区划分示意图。
所述实施例为本发明的优选的实施方式,但本发明并不限于上述实施方式,在不背离本发明的实质内容的情况下,本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。
Claims (6)
1.一种基于文献耦合分析的社区划分方法,其特征在于,包括以下步骤:
步骤(1):收集参考文献信息,获得不同文章间耦合关系、耦合强度;
步骤(2):将文章之间耦合关系替换成第一作者间耦合关系,并建立作者关系网络;
步骤(3):社区划分:采用社区探测方法对关系网络中的节点进行分配,形成稳定社区;确定社区研究主题,计算节点间耦合强弱程度,获取有影响力作者,并以可视化的形式将社区划分结果展出;
所述步骤(3)中对关系网络的分配分为两个阶段,第一阶段把网络中任意节点分配到其邻近节点的社区,同时计算分配前后的模块化增益;第二阶段根据模块化增益最大值的方向将相似的节点分配到同一社区,差异的节点相互远离,并在每一次分配过程中计算整个网络的模块度;
所述步骤(3)中稳定社区的形成需要对关系网络中的节点进行反复的两个阶段分配,直至整个网络的模块度达到最大值;
所述耦合强弱程度Sij为:其中:Wij表示任意两个节点i、j之间的耦合强度;∑Wij表示整个网络中的耦合强度之和;β为一个常数;Aij为判别常数,当节点i、j直接相连时Aij=1,否则Aij=0;
所述有影响力作者通过节点大小判断,节点越大,该作者影响力越大。
2.根据权利要求1所述一种基于文献耦合分析的社区划分方法,其特征在于,所述步骤(2)中作者关系网络以作者为节点,以作者之间的耦合关系为边。
3.根据权利要求1所述一种基于文献耦合分析的社区划分方法,其特征在于,所述步骤(3)中,在对关系网络节点进行分配之前,需要进行初始化,将每一个作者节点作为一个社区。
4.根据权利要求1所述一种基于文献耦合分析的社区划分方法,其特征在于,所述模块化增益ΔQ为:其中,∑in表示任一社区中连线权重;ki,in表示由节点i入射任一社区中的权重之和;ki表示节点i的度;∑tot表示关联到任一社区中的节点的连线权重之和;m表示网络连线权重之和。
5.根据权利要求1所述一种基于文献耦合分析的社区划分方法,其特征在于,所述模块度Q为:其中,i、j表示网络中任意两个节点,Aij为判别常数,当节点i、j直接相连时Aij=1,否则Aij=0;ki表示节点i的度;kj表示节点j的度;m表示网络连线权重之和;δ(Ci,Cj)为判别常数,用来判断节点i、j是否在同一社区内,节点i、j在同一社区时δ(Ci,Cj)=1,否则δ(Ci,Cj)=0。
6.一种实现权利要求1-5任一项所述一种基于文献耦合分析的社区划分方法的***,其特征在于,包括依次信号连接的数据采集模块、数据预处理模块、关系网络获取模块、研究社区获取模块和显示模块;
所述数据采集模块对文章中的参考文献信息进行采集并获取文章之间的耦合关系;
所述数据预处理模块将文章之间的耦合关系转换为第一作者之间的耦合关系;
所述关系网络获取模块建立第一作者关系网络;
所述研究社区获取模块获取稳定社区,确定社区主题,确定节点间耦合强弱程度,获取领域内有影响力的作者;
所述显示模块将研究社区以可视化的形式显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911165374.8A CN111090984B (zh) | 2019-11-25 | 2019-11-25 | 一种基于文献耦合分析的社区划分***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911165374.8A CN111090984B (zh) | 2019-11-25 | 2019-11-25 | 一种基于文献耦合分析的社区划分***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111090984A CN111090984A (zh) | 2020-05-01 |
CN111090984B true CN111090984B (zh) | 2024-03-19 |
Family
ID=70393666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911165374.8A Active CN111090984B (zh) | 2019-11-25 | 2019-11-25 | 一种基于文献耦合分析的社区划分***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111090984B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020302A (zh) * | 2012-12-31 | 2013-04-03 | 中国科学院自动化研究所 | 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和*** |
CN105243593A (zh) * | 2015-08-04 | 2016-01-13 | 电子科技大学 | 基于混合测度的加权网络社区聚类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120313948A1 (en) * | 2011-06-07 | 2012-12-13 | Ruth Bergman | Method and System for Providing Community Networking Services in an Organization |
-
2019
- 2019-11-25 CN CN201911165374.8A patent/CN111090984B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020302A (zh) * | 2012-12-31 | 2013-04-03 | 中国科学院自动化研究所 | 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和*** |
CN105243593A (zh) * | 2015-08-04 | 2016-01-13 | 电子科技大学 | 基于混合测度的加权网络社区聚类方法 |
Non-Patent Citations (1)
Title |
---|
宋艳辉等.基于作者文献耦合分析的情报学知识结构研究.图书情报工作.2014,第58卷(第58期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111090984A (zh) | 2020-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Setty et al. | Wishbone identifies bifurcating developmental trajectories from single-cell data | |
Chen et al. | Structure-constrained sparse canonical correlation analysis with an application to microbiome data analysis | |
Simon et al. | Changes in productivity of Spanish university libraries | |
Acosta et al. | Factors affecting inter-regional academic scientific collaboration within Europe: The role of economic distance | |
Coad et al. | Growth processes of Italian manufacturing firms | |
Abankina et al. | From equality to diversity: Classifying Russian universities in a performance oriented system | |
Stöter et al. | CellProfiler and KNIME: open source tools for high content screening | |
CN103279863A (zh) | 报告文档的自动生成方法和*** | |
CN105260835A (zh) | 多来源业务大数据的建模、分析、自我优化的方法 | |
Basti et al. | A beginner's guide to sampling methods in medical research | |
Gidding et al. | ArchaeoSTOR: A data curation system for research on the archeological frontier | |
Leydesdorff et al. | Further steps in integrating the platforms of WoS and Scopus: Historiography with HistCiteâ „¢ and main-path analysis | |
CN111090984B (zh) | 一种基于文献耦合分析的社区划分***及方法 | |
Gros et al. | ASHLEYS: automated quality control for single-cell Strand-seq data | |
Stöter et al. | CellProfiler and KNIME: open-source tools for high-content screening | |
CN117875293A (zh) | 一种业务表单模板快速数字化的生成方法 | |
Bertini et al. | Card sorting techniques for domain characterization in problem-driven visualization research | |
CN110209379B (zh) | 一种智能交互式软件***及使用方法 | |
Oeltze et al. | Interactive visual analysis of scientific data | |
Kong et al. | Skill ranking of researchers via hypergraph | |
CN111339172A (zh) | 一种毒品滥用实时可视化监测方法 | |
Yufei et al. | Application of big data analysis method in technology foresight for strategic emerging industries | |
Huang | Teaching management data clustering analysis and implementation on ideological and political education of college students | |
Arribas-Bel et al. | Looking at John Snow’s Cholera map from the twenty first century: A practical primer on reproducibility and open science | |
BĂLĂCESCU et al. | Use of the internet by the Romanian citizens. An empirical study of digital gaps between regions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |