CN112463977A - 基于知识图谱的社区挖掘方法、***、计算机及存储介质 - Google Patents

基于知识图谱的社区挖掘方法、***、计算机及存储介质 Download PDF

Info

Publication number
CN112463977A
CN112463977A CN202011137484.6A CN202011137484A CN112463977A CN 112463977 A CN112463977 A CN 112463977A CN 202011137484 A CN202011137484 A CN 202011137484A CN 112463977 A CN112463977 A CN 112463977A
Authority
CN
China
Prior art keywords
student
node
nodes
community
modularity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011137484.6A
Other languages
English (en)
Inventor
汪凡
麦嘉丽
柯钺美
罗龙
韩高强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunmnet Technology Co ltd
Original Assignee
Sunmnet Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunmnet Technology Co ltd filed Critical Sunmnet Technology Co ltd
Priority to CN202011137484.6A priority Critical patent/CN112463977A/zh
Publication of CN112463977A publication Critical patent/CN112463977A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于知识图谱的社区挖掘方法,包括:获取WOS学术知识图谱中的学者节点以及文献共著网络数据,其中,所述学者节点包含wos标识号、全名、性别以及研究领域;计算所述学者节点的研究领域语义相似度;根据所述研究领域语义相似度,使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘。本发明还公开了基于知识图谱的社区挖掘***、计算机以及存储介质。采用本发明,针对WOS学术知识图谱,综合考虑文献共著网络中学者节点间的链接信息及其研究领域语义相似度,有效地保证了社区成员直接联系紧密且属性高度相似,提高了基于知识图谱的社区挖掘的质量。

Description

基于知识图谱的社区挖掘方法、***、计算机及存储介质
技术领域
本发明涉及大数据领域,尤其涉及基于知识图谱的社区挖掘方法、***、计算机及存储介质。
背景技术
智慧教育的发展离不开人工智能这一核心技术的内在驱动力,而知识图谱作为人工智能最前沿的技术之一,给互联网中的语义信息提供了一种更好地组织、管理和理解的形式,也逐渐受到越来越多研究者的青睐。
传统的基于模块度函数优化的方法只考虑网络中节点的链接信息,因此在基于知识图谱的社区挖掘中常常会出现社区间节点链接紧密,但是节点的属性却大不一致。国内关于基于知识图谱的社区挖掘的研究有很多,大多数研究仅仅考虑使用链接的关系信息进行基于知识图谱的社区挖掘,在社交网络中随意建立的好友链接往往会成为“噪音数据”,好友直接缺乏相似的属性,降低基于知识图谱的社区挖掘的质量。
发明内容
本发明所要解决的技术问题在于,提供基于知识图谱的社区挖掘方法、***、计算机及存储介质,针对WOS学术知识图谱,综合考虑文献共著网络中学者节点间的链接信息及其研究领域语义相似度,有效地保证了社区成员直接联系紧密且属性高度相似,提高了基于知识图谱的社区挖掘的质量。
为了解决上述技术问题,本发明提供了一种基于知识图谱的社区挖掘方法,包括:获取WOS学术知识图谱中的学者节点以及文献共著网络数据,其中,所述学者节点包含wos标识号、全名、性别以及研究领域;计算所述学者节点的研究领域语义相似度;根据所述研究领域语义相似度,使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘。
优选地,所述计算所述学者节点的研究领域语义相似度的步骤包括:使用BERT预训练词向量模型来计算所有学者节点的研究领域词向量表示,并采用余弦相似度方法来计算学者之间的研究领域语义相似度,其中,学者节点之间的研究领域语义相似度计算公式表达如下:
Simij=cos(bert(xi),bert(xj))
其中i和j分别代表不同的学者节点,xi和xj代表节点的研究领域的文本输入,bert意为预训练词向量模型的输出,cos为余弦相似度函数。
优选地,所述根据所述研究领域语义相似度,使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘的步骤包括:
S1,根据所述研究领域语义相似度对模块度函数进行加权得到新的模块度函数为:
Figure BDA0002737200410000021
其中
Figure BDA0002737200410000022
其中,Aij代表学者节点i和学者节点j的权重,即共著论文的篇数,Simij为所述研究领域语义相似度,
Figure BDA0002737200410000023
表示所有与学者节点i相连的边的权重之和,
Figure BDA0002737200410000024
S2,将文献共著网络中的每一个学者节点视为一个独立社区,将每个学者节点分配到相邻的学者节点的社区内,计算分配前后的模块度变化值,记录最大的模块度变化值和对应相邻的学者节点,将所述学者节点分配到最大的模块变化值所对应的相邻学者节点的社区内,重复执行此步骤,直到整体模块度不再变化;
S3,将每个社区压缩视为一个新的学者节点,社区之间的边权重作为学者节点的边权重,将每个学者节点分配到相邻的学者节点的社区内,计算分配前后的模块度变化值,记录最大的模块度变化值和对应相邻的学者节点,将所述学者节点分配到最大的模块变化值所对应的相邻学者节点的社区内,重复执行此步骤,直到整体模块度不再变化
S4,输出最终的社区集合。
优选地,通过对WOS学术信息数据库进行知识获取,并提取实体、关系和属性,以构建了WOS学术知识图谱。
优选地,所述WOS学术知识图谱以neo4j图数据库为底层支撑,通过cypher查询语句来完成所述WOS学术知识图谱中所述学者节点和文献共著关系的数据。
本发明还提供了一种基于知识图谱的社区挖掘***,包括:包括数据获取模块、数据处理模块以及基于知识图谱的社区挖掘模块;所述数据获取模块用于获取WOS学术知识图谱中的学者节点以及文献共著网络数据,其中,所述学者节点包含wos标识号、全名、性别以及研究领域;所述数据处理模块用于计算所述学者节点的研究领域语义相似度;所述基于知识图谱的社区挖掘模块用于根据所述研究领域语义相似度,使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘。
优选地,所述数据处理模块用于使用BERT预训练词向量模型来计算所有学者节点的研究领域词向量表示,并采用余弦相似度方法来计算学者之间的研究领域语义相似度,其中,
学者节点之间的研究领域语义相似度计算公式表达如下:
Simij=cos(bert(xi),bert(xj))
其中i和j分别代表不同的学者节点,xi和xj代表节点的研究领域的文本输入,bert意为预训练词向量模型的输出,cos为余弦相似度函数。
优选地,所述基于知识图谱的社区挖掘模块用于根据所述研究领域语义相似度,使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘,其步骤包括:
S1,根据所述研究领域语义相似度对模块度函数进行加权得到新的模块度函数为:
Figure BDA0002737200410000031
其中
Figure BDA0002737200410000032
其中,Aij代表学者节点i和学者节点j的权重,即共著论文的篇数,Simij为所述研究领域语义相似度,
Figure BDA0002737200410000033
表示所有与学者节点i相连的边的权重之和,
Figure BDA0002737200410000034
S2,将文献共著网络中的每一个学者节点视为一个独立社区,将每个学者节点分配到相邻的学者节点的社区内,计算分配前后的模块度变化值,记录最大的模块度变化值和对应相邻的学者节点,将所述学者节点分配到最大的模块变化值所对应的相邻学者节点的社区内,重复执行此步骤,直到整体模块度不再变化;
S3,将每个社区压缩视为一个新的学者节点,社区之间的边权重作为学者节点的边权重,将每个学者节点分配到相邻的学者节点的社区内,计算分配前后的模块度变化值,记录最大的模块度变化值和对应相邻的学者节点,将所述学者节点分配到最大的模块变化值所对应的相邻学者节点的社区内,重复执行此步骤,直到整体模块度不再变化
S4,输出最终的社区集合。
本发明还提供了一种计算机,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现上述方法的步骤。
本发明还提供了一种存储介质,其存储有计算机指令,该程序被处理器执行时实现上述方法的步骤。
实施本发明的有益效果在于:
本发明提供基于知识图谱的社区挖掘方法、***、计算机及存储介质,通过获取WOS学术知识图谱中的学者节点以及文献共著网络数据,其中,所述学者节点包含wos标识号、全名、性别以及研究领域;计算所述学者节点的研究领域语义相似度;根据所述研究领域语义相似度,使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘。本发明针对学术研究人员这一群体,综合考虑学者的研究领域属性和共著关系,有效地保证了社区成员直接联系紧密且属性高度相似,提高了基于知识图谱的社区挖掘的质量。
附图说明
图1是本发明提供的基于知识图谱的社区挖掘方法流程图;
图2是本发明提供的基于Louvain算法的基于知识图谱的社区挖掘流程图;
图3是本发明提供的基于知识图谱的社区挖掘***示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。仅此声明,本发明在文中出现或即将出现的上、下、左、右、前、后、内、外等方位用词,仅以本发明的附图为基准,其并不是对本发明的具体限定。
如图1所示,本发明提供了基于知识图谱的社区挖掘方法,包括:
S101,获取WOS学术知识图谱中的学者节点以及文献共著网络数据,其中,所述学者节点包含wos标识号、全名、性别以及研究领域;
S102,计算所述学者节点的研究领域语义相似度;
S103,根据所述研究领域语义相似度,使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘。
本发明针对学术研究人员这一群体,综合考虑学者的研究领域属性和共著关系,有效地保证了社区成员直接联系紧密且属性高度相似,提供了基于知识图谱的社区挖掘的质量。
优选地,所述计算所述学者节点的研究领域语义相似度的步骤包括:使用BERT预训练词向量模型来计算所有学者节点的研究领域词向量表示,并采用余弦相似度方法来计算学者之间的研究领域语义相似度,其中,学者节点之间的研究领域语义相似度计算公式表达如下:
Simij=cos(bert(xi),bert(xj))
其中i和j分别代表不同的学者节点,xi和xj代表节点的研究领域的文本输入,bert意为预训练词向量模型的输出,cos为余弦相似度函数。
需要说明的是,计算学者节点之间的研究领域语义相似度需要使用到自然语言处理的方法。研究领域是定义学者研究兴趣的关键属性,相似研究领域的学者往往在科研上存在更多的协作机会,知识的共享也能有力促进科研地发展。本发明使用BERT预训练词向量模型来计算所有学者节点的研究领域词向量表示,并采用余弦相似度方法来计算学者之间的研究领域相似度。BERT是由***于2018年10月发布,并成功在11项NLP任务中取得state of the art的结果,大量的研究也证明了使用BERT(预训练词向量模型)预训练的语言表征来完成下游NLP(自然语言处理)任务可以取得非常好的效果。
如图2所示,优选地,所述根据所述研究领域语义相似度,使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘的步骤包括:
S1,根据所述研究领域语义相似度对模块度函数进行加权得到新的模块度函数为:
Figure BDA0002737200410000061
其中
Figure BDA0002737200410000062
其中,Aij代表学者节点i和学者节点j的权重,即共著论文的篇数,Simij为所述研究领域语义相似度,
Figure BDA0002737200410000063
表示所有与学者节点i相连的边的权重之和,
Figure BDA0002737200410000064
S2,将文献共著网络中的每一个学者节点视为一个独立社区,将每个学者节点分配到相邻的学者节点的社区内,计算分配前后的模块度变化值,记录最大的模块度变化值和对应相邻的学者节点,将所述学者节点分配到最大的模块变化值所对应的相邻学者节点的社区内,重复执行此步骤,直到整体模块度不再变化;
S3,将每个社区压缩视为一个新的学者节点,社区之间的边权重作为学者节点的边权重,将每个学者节点分配到相邻的学者节点的社区内,计算分配前后的模块度变化值,记录最大的模块度变化值和对应相邻的学者节点,将所述学者节点分配到最大的模块变化值所对应的相邻学者节点的社区内,重复执行此步骤,直到整体模块度不再变化
S4,输出最终的社区集合。
需要说明的是,Louvain算法是一种基于多层次优化模块度函数的算法,它的优点是快速、准确,被认为是性能最好的社区发现算法之一。模块度函数常用于衡量社区发现算法结果的质量,表征了挖掘的社区间节点的紧密程度,传统的模块度函数仅仅考虑节点间紧密程度,挖掘出的社区常常出现连接紧密但属性却相差甚远。本发明结合学者研究领域属性相似度的计算结果,使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘,综合考虑学者的研究领域属性和共著关系,有效地保证了社区成员直接联系紧密且属性高度相似,提高了基于知识图谱的社区挖掘的质量。
优选地,通过对WOS学术信息数据库进行知识获取,并提取实体、关系和属性,以构建了WOS学术知识图谱。进一步地,所述WOS学术知识图谱以neo4j图数据库为底层支撑,通过cypher查询语句来完成所述WOS学术知识图谱中所述学者节点和文献共著关系的数据。本发明基于构建的WOS学术知识图谱,提取知识图谱中的学者节点以及学者节点间的文献共著关系,学者节点包含wos标识号、全名、性别和研究领域等属性,文献共著关系意为学者之间共同发表论文,包含共同发表论文篇数属性。WOS学术知识图谱以neo4j图数据库为底层支撑,通过cypher查询语句来完成知识图谱中学者节点和共著关系的数据。
如图3所示,本发明还提供了基于知识图谱的社区挖掘***,包括:包括数据获取模块1、数据处理模块2以及基于知识图谱的社区挖掘模块3;所述数据获取模块1用于获取WOS学术知识图谱中的学者节点以及文献共著网络数据,其中,所述学者节点包含wos标识号、全名、性别以及研究领域;所述数据处理模块2用于计算所述学者节点的研究领域语义相似度;所述基于知识图谱的社区挖掘模块3用于根据所述研究领域语义相似度,使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘。
优选地,所述数据处理模块用于使用BERT预训练词向量模型来计算所有学者节点的研究领域词向量表示,并采用余弦相似度方法来计算学者之间的研究领域语义相似度,其中,
学者节点之间的研究领域语义相似度计算公式表达如下:
Simij=cos(bert(xi),bert(xj))
其中i和j分别代表不同的学者节点,xi和xj代表节点的研究领域的文本输入,bert意为预训练词向量模型的输出,cos为余弦相似度函数。
需要说明的是,计算学者节点之间的研究领域语义相似度需要使用到自然语言处理的方法。研究领域是定义学者研究兴趣的关键属性,相似研究领域的学者往往在科研上存在更多的协作机会,知识的共享也能有力促进科研地发展。本发明使用BERT预训练词向量模型来计算所有学者节点的研究领域词向量表示,并采用余弦相似度方法来计算学者之间的研究领域相似度。BERT是由***于2018年10月发布,并成功在11项NLP任务中取得state of the art的结果,大量的研究也证明了使用BERT(预训练词向量模型)预训练的语言表征来完成下游NLP(自然语言处理)任务可以取得非常好的效果。
进一步地,所述基于知识图谱的社区挖掘模块用于根据所述研究领域语义相似度,使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘,其步骤包括:
S1,根据所述研究领域语义相似度对模块度函数进行加权得到新的模块度函数为:
Figure BDA0002737200410000081
其中
Figure BDA0002737200410000082
其中,Aij代表学者节点i和学者节点j的权重,即共著论文的篇数,Simij为所述研究领域语义相似度,
Figure BDA0002737200410000083
表示所有与学者节点i相连的边的权重之和,
Figure BDA0002737200410000084
S2,将文献共著网络中的每一个学者节点视为一个独立社区,将每个学者节点分配到相邻的学者节点的社区内,计算分配前后的模块度变化值,记录最大的模块度变化值和对应相邻的学者节点,将所述学者节点分配到最大的模块变化值所对应的相邻学者节点的社区内,重复执行此步骤,直到整体模块度不再变化;
S3,将每个社区压缩视为一个新的学者节点,社区之间的边权重作为学者节点的边权重,将每个学者节点分配到相邻的学者节点的社区内,计算分配前后的模块度变化值,记录最大的模块度变化值和对应相邻的学者节点,将所述学者节点分配到最大的模块变化值所对应的相邻学者节点的社区内,重复执行此步骤,直到整体模块度不再变化
S4,输出最终的社区集合。
需要说明的是,Louvain算法是一种基于多层次优化模块度函数的算法,它的优点是快速、准确,被认为是性能最好的社区发现算法之一。模块度函数常用于衡量社区发现算法结果的质量,表征了挖掘的社区间节点的紧密程度,传统的模块度函数仅仅考虑节点间紧密程度,挖掘出的社区常常出现连接紧密但属性却相差甚远。本发明结合学者研究领域属性相似度的计算结果,使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘,综合考虑学者的研究领域属性和共著关系,有效地保证了社区成员直接联系紧密且属性高度相似,提高了基于知识图谱的社区挖掘的质量。
本发明还提供了一种计算机,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现上述方法的步骤。
本发明还提供了一种存储介质,其存储有计算机指令,该程序被处理器执行时实现上述方法的步骤。
综上所述,本发明提供基于知识图谱的社区挖掘方法、***、计算机及存储介质,通过获取WOS学术知识图谱中的学者节点以及文献共著网络数据,其中,所述学者节点包含wos标识号、全名、性别以及研究领域;计算所述学者节点的研究领域语义相似度;根据所述研究领域语义相似度,使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘。本发明针对学术研究人员这一群体,综合考虑学者的研究领域属性和共著关系,有效地保证了社区成员直接联系紧密且属性高度相似,提供了基于知识图谱的社区挖掘的质量。本发明针对WOS学术知识图谱,综合考虑文献共著网络中学者节点间的链接信息及其研究领域属性的语义相似度,使挖掘的主题社区内各节点连接紧密且具有高度相似的研究兴趣,从而有效地促进科研协作和共享。
尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本公开的预定范围。此外,上文以发明人可预见的实施例对本公开进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

Claims (10)

1.基于知识图谱的社区挖掘方法,其特征在于,包括:
获取WOS学术知识图谱中的学者节点以及文献共著网络数据,其中,所述学者节点包含wos标识号、全名、性别以及研究领域;
计算所述学者节点的研究领域语义相似度;
根据所述研究领域语义相似度,使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘。
2.如权利要求1所述的基于知识图谱的社区挖掘方法,其特征在于,所述计算所述学者节点的研究领域语义相似度的步骤包括:使用BERT预训练词向量模型来计算所有学者节点的研究领域词向量表示,并采用余弦相似度方法来计算学者之间的研究领域语义相似度,其中,
学者节点之间的研究领域语义相似度计算公式表达如下:
Simij=cos(bert(xi),bert(xj))
其中i和j分别代表不同的学者节点,xi和xj代表节点的研究领域的文本输入,bert意为预训练词向量模型的输出,cos为余弦相似度函数。
3.如权利要求2所述的基于知识图谱的社区挖掘方法,其特征在于,所述根据所述研究领域语义相似度,使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘的步骤包括:
S1,根据所述研究领域语义相似度对模块度函数进行加权得到新的模块度函数为:
Figure FDA0002737200400000011
其中
Figure FDA0002737200400000012
其中,Aij代表学者节点i和学者节点j的权重,即共著论文的篇数,Simij为所述研究领域语义相似度,
Figure FDA0002737200400000013
表示所有与学者节点i相连的边的权重之和,
Figure FDA0002737200400000014
S2,将文献共著网络中的每一个学者节点视为一个独立社区,将每个学者节点分配到相邻的学者节点的社区内,计算分配前后的模块度变化值,记录最大的模块度变化值和对应相邻的学者节点,将所述学者节点分配到最大的模块变化值所对应的相邻学者节点的社区内,重复执行此步骤,直到整体模块度不再变化;
S3,将每个社区压缩视为一个新的学者节点,社区之间的边权重作为学者节点的边权重,将每个学者节点分配到相邻的学者节点的社区内,计算分配前后的模块度变化值,记录最大的模块度变化值和对应相邻的学者节点,将所述学者节点分配到最大的模块变化值所对应的相邻学者节点的社区内,重复执行此步骤,直到整体模块度不再变化
S4,输出最终的社区集合。
4.如权利要求1所述的基于知识图谱的社区挖掘方法,其特征在于,通过对WOS学术信息数据库进行知识获取,并提取实体、关系和属性,以构建了WOS学术知识图谱。
5.如权利要求4所述的基于知识图谱的社区挖掘方法,其特征在于,所述WOS学术知识图谱以neo4j图数据库为底层支撑,通过cypher查询语句来完成所述WOS学术知识图谱中所述学者节点和文献共著关系的数据。
6.一种基于知识图谱的社区挖掘***,其特征在于,包括:包括数据获取模块、数据处理模块以及基于知识图谱的社区挖掘模块;
所述数据获取模块用于获取WOS学术知识图谱中的学者节点以及文献共著网络数据,其中,所述学者节点包含wos标识号、全名、性别以及研究领域;
所述数据处理模块用于计算所述学者节点的研究领域语义相似度;
所述基于知识图谱的社区挖掘模块用于根据所述研究领域语义相似度,使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘。
7.如权利要求5所述的基于知识图谱的社区挖掘***,其特征在于,所述数据处理模块用于使用BERT预训练词向量模型来计算所有学者节点的研究领域词向量表示,并采用余弦相似度方法来计算学者之间的研究领域语义相似度,其中,
学者节点之间的研究领域语义相似度计算公式表达如下:
Simij=cos(bert(xi),bert(xj))
其中i和j分别代表不同的学者节点,xi和xj代表节点的研究领域的文本输入,bert意为预训练词向量模型的输出,cos为余弦相似度函数。
8.如权利要求5所述的基于知识图谱的社区挖掘***,其特征在于,所述基于知识图谱的社区挖掘模块用于根据所述研究领域语义相似度,使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘,其步骤包括:
S1,根据所述研究领域语义相似度对模块度函数进行加权得到新的模块度函数为:
Figure FDA0002737200400000031
其中
Figure FDA0002737200400000032
其中,Aij代表学者节点i和学者节点j的权重,即共著论文的篇数,Simij为所述研究领域语义相似度,
Figure FDA0002737200400000033
表示所有与学者节点i相连的边的权重之和,
Figure FDA0002737200400000034
S2,将文献共著网络中的每一个学者节点视为一个独立社区,将每个学者节点分配到相邻的学者节点的社区内,计算分配前后的模块度变化值,记录最大的模块度变化值和对应相邻的学者节点,将所述学者节点分配到最大的模块变化值所对应的相邻学者节点的社区内,重复执行此步骤,直到整体模块度不再变化;
S3,将每个社区压缩视为一个新的学者节点,社区之间的边权重作为学者节点的边权重,将每个学者节点分配到相邻的学者节点的社区内,计算分配前后的模块度变化值,记录最大的模块度变化值和对应相邻的学者节点,将所述学者节点分配到最大的模块变化值所对应的相邻学者节点的社区内,重复执行此步骤,直到整体模块度不再变化
S4,输出最终的社区集合。
9.一种计算机,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-5任意一项所述方法的步骤。
10.一种存储介质,其存储有计算机指令,其特征在于,该程序被处理器执行时实现权利要求1-5任意一项所述方法的步骤。
CN202011137484.6A 2020-10-22 2020-10-22 基于知识图谱的社区挖掘方法、***、计算机及存储介质 Pending CN112463977A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011137484.6A CN112463977A (zh) 2020-10-22 2020-10-22 基于知识图谱的社区挖掘方法、***、计算机及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011137484.6A CN112463977A (zh) 2020-10-22 2020-10-22 基于知识图谱的社区挖掘方法、***、计算机及存储介质

Publications (1)

Publication Number Publication Date
CN112463977A true CN112463977A (zh) 2021-03-09

Family

ID=74834010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011137484.6A Pending CN112463977A (zh) 2020-10-22 2020-10-22 基于知识图谱的社区挖掘方法、***、计算机及存储介质

Country Status (1)

Country Link
CN (1) CN112463977A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725221A (zh) * 2023-11-20 2024-03-19 中国科学院成都文献情报中心 基于知识图谱的科研社区挖掘方法、模型及***

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646122A (zh) * 2012-02-21 2012-08-22 北京航空航天大学 一种学术社交网络的自动构建方法
CN106126732A (zh) * 2016-07-04 2016-11-16 中南大学 基于兴趣相似模型的作者影响力传播能力预测方法
CN107103551A (zh) * 2017-03-20 2017-08-29 重庆邮电大学 一种选取种子节点的合著网络社区划分方法
CN107527295A (zh) * 2017-08-24 2017-12-29 中南大学 基于时态合著网络的学术团队动态社区发现方法及其质量评估方法
CN108304380A (zh) * 2018-01-24 2018-07-20 华南理工大学 一种融合学术影响力的学者人名消除歧义的方法
CN108717425A (zh) * 2018-04-26 2018-10-30 国家电网公司 一种基于多数据源的知识图谱人物实体对齐方法
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法
CN110135890A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 基于知识关系挖掘的产品数据推送方法及相关设备
CN110674318A (zh) * 2019-08-14 2020-01-10 中国科学院计算机网络信息中心 一种基于引文网络社区发现的数据推荐方法
CN110674183A (zh) * 2019-08-23 2020-01-10 上海科技发展有限公司 科研社群划分及核心学者发现方法、***、介质及终端
CN110968782A (zh) * 2019-10-15 2020-04-07 东北大学 一种面向学者的用户画像构建及应用方法
CN111046165A (zh) * 2019-11-22 2020-04-21 北京市科学技术情报研究所 一种基于引用次数的文献推荐方法
CN111191045A (zh) * 2019-12-30 2020-05-22 创新奇智(上海)科技有限公司 一种应用于知识图谱的实体对齐方法及***
CN111428152A (zh) * 2020-04-26 2020-07-17 中国烟草总公司郑州烟草研究院 一种科研人员相似社区的构建方法及装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646122A (zh) * 2012-02-21 2012-08-22 北京航空航天大学 一种学术社交网络的自动构建方法
CN106126732A (zh) * 2016-07-04 2016-11-16 中南大学 基于兴趣相似模型的作者影响力传播能力预测方法
CN107103551A (zh) * 2017-03-20 2017-08-29 重庆邮电大学 一种选取种子节点的合著网络社区划分方法
CN107527295A (zh) * 2017-08-24 2017-12-29 中南大学 基于时态合著网络的学术团队动态社区发现方法及其质量评估方法
CN108304380A (zh) * 2018-01-24 2018-07-20 华南理工大学 一种融合学术影响力的学者人名消除歧义的方法
CN108717425A (zh) * 2018-04-26 2018-10-30 国家电网公司 一种基于多数据源的知识图谱人物实体对齐方法
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法
CN110135890A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 基于知识关系挖掘的产品数据推送方法及相关设备
CN110674318A (zh) * 2019-08-14 2020-01-10 中国科学院计算机网络信息中心 一种基于引文网络社区发现的数据推荐方法
CN110674183A (zh) * 2019-08-23 2020-01-10 上海科技发展有限公司 科研社群划分及核心学者发现方法、***、介质及终端
CN110968782A (zh) * 2019-10-15 2020-04-07 东北大学 一种面向学者的用户画像构建及应用方法
CN111046165A (zh) * 2019-11-22 2020-04-21 北京市科学技术情报研究所 一种基于引用次数的文献推荐方法
CN111191045A (zh) * 2019-12-30 2020-05-22 创新奇智(上海)科技有限公司 一种应用于知识图谱的实体对齐方法及***
CN111428152A (zh) * 2020-04-26 2020-07-17 中国烟草总公司郑州烟草研究院 一种科研人员相似社区的构建方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
段大高,韩忠明著: "社交媒体内容安全挖掘技术研究[M]", 31 December 2019, 北京邮电大学出版社, pages: 186 - 189 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725221A (zh) * 2023-11-20 2024-03-19 中国科学院成都文献情报中心 基于知识图谱的科研社区挖掘方法、模型及***

Similar Documents

Publication Publication Date Title
Liu et al. Shifu2: A network representation learning based model for advisor-advisee relationship mining
Thessen et al. Data issues in the life sciences
Fu et al. The meaning of “near” and “far”: the impact of structuring design databases and the effect of distance of analogy on design output
US20120158791A1 (en) Feature vector construction
Pattuelli Modeling a domain ontology for cultural heritage resources: A user‐centered approach
Zhu et al. Do migrants really save more? Understanding the impact of remittances on savings in rural China
JP2019504371A (ja) 自動質問応答システムにおける質問クラスタリング処理方法及び装置
Wang et al. Preference-based spatial co-location pattern mining
Rahutomo et al. Embedding model design for producing book recommendation
Zhong et al. Design of a personalized recommendation system for learning resources based on collaborative filtering
Ngorora et al. Prospects of entrepreneurship in South Africa’s rural areas: A case study of Eastern Cape Province’s Nkonkobe Municipal Area
Peng et al. AI‐Based Equipment Optimization of the Design on Intelligent Education Curriculum System
Kim et al. Through 100 years of Ecological Society of America publications: development of ecological research topics and scientific collaborations
Kosch et al. An overview of 25 years of European scientific collaboration in the field of strategic management: A bibliometric analysis
CN112330510A (zh) 一种志愿推荐方法、装置、服务器及计算机可读存储介质
Chignell A missing link? Network analysis as an empirical approach for critical physical geography
Hain et al. The promises of Machine Learning and Big Data in entrepreneurship research
CN112463977A (zh) 基于知识图谱的社区挖掘方法、***、计算机及存储介质
Xu et al. Exploring the research themes and their relationships of LIS in China from 2013 to 2018 using co-word analysis
Pan [Retracted] Construction and Application of College English Blended Teaching System Based on Multidata Fusion
Glassey Folksonomies: Spontaneous crowd sourcing with online early detection potential?
CN113742591B (zh) 学习伙伴推荐方法和装置、电子设备、存储介质
Alaofi et al. Personalisation of Generic Library Search Results Using Student Enrolment Information.
Jiang An efficient semantic retrieval method for network education information resources
Yang [Retracted] Monitoring and Sharing of Music Teaching Environment Resources Using Big Data Technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination