CN112463977A

CN112463977A - 基于知识图谱的社区挖掘方法、***、计算机及存储介质

Info

Publication number: CN112463977A
Application number: CN202011137484.6A
Authority: CN
Inventors: 汪凡; 麦嘉丽; 柯钺美; 罗龙; 韩高强
Original assignee: Sunmnet Technology Co ltd
Current assignee: Sunmnet Technology Co ltd
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-03-09

Abstract

本发明公开了基于知识图谱的社区挖掘方法，包括：获取WOS学术知识图谱中的学者节点以及文献共著网络数据，其中，所述学者节点包含wos标识号、全名、性别以及研究领域；计算所述学者节点的研究领域语义相似度；根据所述研究领域语义相似度，使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘。本发明还公开了基于知识图谱的社区挖掘***、计算机以及存储介质。采用本发明，针对WOS学术知识图谱，综合考虑文献共著网络中学者节点间的链接信息及其研究领域语义相似度，有效地保证了社区成员直接联系紧密且属性高度相似，提高了基于知识图谱的社区挖掘的质量。

Description

基于知识图谱的社区挖掘方法、***、计算机及存储介质

技术领域

本发明涉及大数据领域，尤其涉及基于知识图谱的社区挖掘方法、***、计算机及存储介质。

背景技术

智慧教育的发展离不开人工智能这一核心技术的内在驱动力，而知识图谱作为人工智能最前沿的技术之一，给互联网中的语义信息提供了一种更好地组织、管理和理解的形式，也逐渐受到越来越多研究者的青睐。

传统的基于模块度函数优化的方法只考虑网络中节点的链接信息，因此在基于知识图谱的社区挖掘中常常会出现社区间节点链接紧密，但是节点的属性却大不一致。国内关于基于知识图谱的社区挖掘的研究有很多，大多数研究仅仅考虑使用链接的关系信息进行基于知识图谱的社区挖掘，在社交网络中随意建立的好友链接往往会成为“噪音数据”，好友直接缺乏相似的属性，降低基于知识图谱的社区挖掘的质量。

发明内容

本发明所要解决的技术问题在于，提供基于知识图谱的社区挖掘方法、***、计算机及存储介质，针对WOS学术知识图谱，综合考虑文献共著网络中学者节点间的链接信息及其研究领域语义相似度，有效地保证了社区成员直接联系紧密且属性高度相似，提高了基于知识图谱的社区挖掘的质量。

为了解决上述技术问题，本发明提供了一种基于知识图谱的社区挖掘方法，包括：获取WOS学术知识图谱中的学者节点以及文献共著网络数据，其中，所述学者节点包含wos标识号、全名、性别以及研究领域；计算所述学者节点的研究领域语义相似度；根据所述研究领域语义相似度，使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘。

优选地，所述计算所述学者节点的研究领域语义相似度的步骤包括：使用BERT预训练词向量模型来计算所有学者节点的研究领域词向量表示，并采用余弦相似度方法来计算学者之间的研究领域语义相似度，其中，学者节点之间的研究领域语义相似度计算公式表达如下：

Sim_ij＝cos(bert(x_i),bert(x_j))

其中i和j分别代表不同的学者节点，x_i和x_j代表节点的研究领域的文本输入，bert意为预训练词向量模型的输出，cos为余弦相似度函数。

优选地，所述根据所述研究领域语义相似度，使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘的步骤包括：

S1，根据所述研究领域语义相似度对模块度函数进行加权得到新的模块度函数为：

其中

其中，A_ij代表学者节点i和学者节点j的权重，即共著论文的篇数，Sim_ij为所述研究领域语义相似度，

表示所有与学者节点i相连的边的权重之和，

S2，将文献共著网络中的每一个学者节点视为一个独立社区，将每个学者节点分配到相邻的学者节点的社区内，计算分配前后的模块度变化值，记录最大的模块度变化值和对应相邻的学者节点，将所述学者节点分配到最大的模块变化值所对应的相邻学者节点的社区内，重复执行此步骤，直到整体模块度不再变化；

S3，将每个社区压缩视为一个新的学者节点，社区之间的边权重作为学者节点的边权重，将每个学者节点分配到相邻的学者节点的社区内，计算分配前后的模块度变化值，记录最大的模块度变化值和对应相邻的学者节点，将所述学者节点分配到最大的模块变化值所对应的相邻学者节点的社区内，重复执行此步骤，直到整体模块度不再变化

S4，输出最终的社区集合。

优选地，通过对WOS学术信息数据库进行知识获取，并提取实体、关系和属性，以构建了WOS学术知识图谱。

优选地，所述WOS学术知识图谱以neo4j图数据库为底层支撑，通过cypher查询语句来完成所述WOS学术知识图谱中所述学者节点和文献共著关系的数据。

本发明还提供了一种基于知识图谱的社区挖掘***，包括：包括数据获取模块、数据处理模块以及基于知识图谱的社区挖掘模块；所述数据获取模块用于获取WOS学术知识图谱中的学者节点以及文献共著网络数据，其中，所述学者节点包含wos标识号、全名、性别以及研究领域；所述数据处理模块用于计算所述学者节点的研究领域语义相似度；所述基于知识图谱的社区挖掘模块用于根据所述研究领域语义相似度，使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘。

优选地，所述数据处理模块用于使用BERT预训练词向量模型来计算所有学者节点的研究领域词向量表示，并采用余弦相似度方法来计算学者之间的研究领域语义相似度，其中，

学者节点之间的研究领域语义相似度计算公式表达如下：

Sim_ij＝cos(bert(x_i),bert(x_j))

优选地，所述基于知识图谱的社区挖掘模块用于根据所述研究领域语义相似度，使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘，其步骤包括：

其中

表示所有与学者节点i相连的边的权重之和，

S4，输出最终的社区集合。

本发明还提供了一种计算机，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现上述方法的步骤。

本发明还提供了一种存储介质，其存储有计算机指令，该程序被处理器执行时实现上述方法的步骤。

实施本发明的有益效果在于：

本发明提供基于知识图谱的社区挖掘方法、***、计算机及存储介质，通过获取WOS学术知识图谱中的学者节点以及文献共著网络数据，其中，所述学者节点包含wos标识号、全名、性别以及研究领域；计算所述学者节点的研究领域语义相似度；根据所述研究领域语义相似度，使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘。本发明针对学术研究人员这一群体，综合考虑学者的研究领域属性和共著关系，有效地保证了社区成员直接联系紧密且属性高度相似，提高了基于知识图谱的社区挖掘的质量。

附图说明

图1是本发明提供的基于知识图谱的社区挖掘方法流程图；

图2是本发明提供的基于Louvain算法的基于知识图谱的社区挖掘流程图；

图3是本发明提供的基于知识图谱的社区挖掘***示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。仅此声明，本发明在文中出现或即将出现的上、下、左、右、前、后、内、外等方位用词，仅以本发明的附图为基准，其并不是对本发明的具体限定。

如图1所示，本发明提供了基于知识图谱的社区挖掘方法，包括：

S101，获取WOS学术知识图谱中的学者节点以及文献共著网络数据，其中，所述学者节点包含wos标识号、全名、性别以及研究领域；

S102，计算所述学者节点的研究领域语义相似度；

S103，根据所述研究领域语义相似度，使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘。

本发明针对学术研究人员这一群体，综合考虑学者的研究领域属性和共著关系，有效地保证了社区成员直接联系紧密且属性高度相似，提供了基于知识图谱的社区挖掘的质量。

Sim_ij＝cos(bert(x_i),bert(x_j))

需要说明的是，计算学者节点之间的研究领域语义相似度需要使用到自然语言处理的方法。研究领域是定义学者研究兴趣的关键属性，相似研究领域的学者往往在科研上存在更多的协作机会，知识的共享也能有力促进科研地发展。本发明使用BERT预训练词向量模型来计算所有学者节点的研究领域词向量表示，并采用余弦相似度方法来计算学者之间的研究领域相似度。BERT是由***于2018年10月发布，并成功在11项NLP任务中取得state of the art的结果，大量的研究也证明了使用BERT(预训练词向量模型)预训练的语言表征来完成下游NLP(自然语言处理)任务可以取得非常好的效果。

如图2所示，优选地，所述根据所述研究领域语义相似度，使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘的步骤包括：

其中

表示所有与学者节点i相连的边的权重之和，

S4，输出最终的社区集合。

需要说明的是，Louvain算法是一种基于多层次优化模块度函数的算法，它的优点是快速、准确，被认为是性能最好的社区发现算法之一。模块度函数常用于衡量社区发现算法结果的质量，表征了挖掘的社区间节点的紧密程度，传统的模块度函数仅仅考虑节点间紧密程度，挖掘出的社区常常出现连接紧密但属性却相差甚远。本发明结合学者研究领域属性相似度的计算结果，使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘，综合考虑学者的研究领域属性和共著关系，有效地保证了社区成员直接联系紧密且属性高度相似，提高了基于知识图谱的社区挖掘的质量。

优选地，通过对WOS学术信息数据库进行知识获取，并提取实体、关系和属性，以构建了WOS学术知识图谱。进一步地，所述WOS学术知识图谱以neo4j图数据库为底层支撑，通过cypher查询语句来完成所述WOS学术知识图谱中所述学者节点和文献共著关系的数据。本发明基于构建的WOS学术知识图谱，提取知识图谱中的学者节点以及学者节点间的文献共著关系，学者节点包含wos标识号、全名、性别和研究领域等属性，文献共著关系意为学者之间共同发表论文，包含共同发表论文篇数属性。WOS学术知识图谱以neo4j图数据库为底层支撑，通过cypher查询语句来完成知识图谱中学者节点和共著关系的数据。

如图3所示，本发明还提供了基于知识图谱的社区挖掘***，包括：包括数据获取模块1、数据处理模块2以及基于知识图谱的社区挖掘模块3；所述数据获取模块1用于获取WOS学术知识图谱中的学者节点以及文献共著网络数据，其中，所述学者节点包含wos标识号、全名、性别以及研究领域；所述数据处理模块2用于计算所述学者节点的研究领域语义相似度；所述基于知识图谱的社区挖掘模块3用于根据所述研究领域语义相似度，使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘。

学者节点之间的研究领域语义相似度计算公式表达如下：

Sim_ij＝cos(bert(x_i),bert(x_j))

进一步地，所述基于知识图谱的社区挖掘模块用于根据所述研究领域语义相似度，使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘，其步骤包括：

其中

表示所有与学者节点i相连的边的权重之和，

S4，输出最终的社区集合。

综上所述，本发明提供基于知识图谱的社区挖掘方法、***、计算机及存储介质，通过获取WOS学术知识图谱中的学者节点以及文献共著网络数据，其中，所述学者节点包含wos标识号、全名、性别以及研究领域；计算所述学者节点的研究领域语义相似度；根据所述研究领域语义相似度，使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘。本发明针对学术研究人员这一群体，综合考虑学者的研究领域属性和共著关系，有效地保证了社区成员直接联系紧密且属性高度相似，提供了基于知识图谱的社区挖掘的质量。本发明针对WOS学术知识图谱，综合考虑文献共著网络中学者节点间的链接信息及其研究领域属性的语义相似度，使挖掘的主题社区内各节点连接紧密且具有高度相似的研究兴趣，从而有效地促进科研协作和共享。

尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本公开的预定范围。此外，上文以发明人可预见的实施例对本公开进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

Claims

1.基于知识图谱的社区挖掘方法，其特征在于，包括：

获取WOS学术知识图谱中的学者节点以及文献共著网络数据，其中，所述学者节点包含wos标识号、全名、性别以及研究领域；

计算所述学者节点的研究领域语义相似度；

根据所述研究领域语义相似度，使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘。

2.如权利要求1所述的基于知识图谱的社区挖掘方法，其特征在于，所述计算所述学者节点的研究领域语义相似度的步骤包括：使用BERT预训练词向量模型来计算所有学者节点的研究领域词向量表示，并采用余弦相似度方法来计算学者之间的研究领域语义相似度，其中，

学者节点之间的研究领域语义相似度计算公式表达如下：

Sim_ij＝cos(bert(x_i),bert(x_j))

3.如权利要求2所述的基于知识图谱的社区挖掘方法，其特征在于，所述根据所述研究领域语义相似度，使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘的步骤包括：

其中

表示所有与学者节点i相连的边的权重之和，

S4，输出最终的社区集合。

4.如权利要求1所述的基于知识图谱的社区挖掘方法，其特征在于，通过对WOS学术信息数据库进行知识获取，并提取实体、关系和属性，以构建了WOS学术知识图谱。

5.如权利要求4所述的基于知识图谱的社区挖掘方法，其特征在于，所述WOS学术知识图谱以neo4j图数据库为底层支撑，通过cypher查询语句来完成所述WOS学术知识图谱中所述学者节点和文献共著关系的数据。

6.一种基于知识图谱的社区挖掘***，其特征在于，包括：包括数据获取模块、数据处理模块以及基于知识图谱的社区挖掘模块；

所述数据获取模块用于获取WOS学术知识图谱中的学者节点以及文献共著网络数据，其中，所述学者节点包含wos标识号、全名、性别以及研究领域；

所述数据处理模块用于计算所述学者节点的研究领域语义相似度；

所述基于知识图谱的社区挖掘模块用于根据所述研究领域语义相似度，使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘。

7.如权利要求5所述的基于知识图谱的社区挖掘***，其特征在于，所述数据处理模块用于使用BERT预训练词向量模型来计算所有学者节点的研究领域词向量表示，并采用余弦相似度方法来计算学者之间的研究领域语义相似度，其中，

学者节点之间的研究领域语义相似度计算公式表达如下：

Sim_ij＝cos(bert(x_i),bert(x_j))

8.如权利要求5所述的基于知识图谱的社区挖掘***，其特征在于，所述基于知识图谱的社区挖掘模块用于根据所述研究领域语义相似度，使用Louvain算法来完成文献共著网络中的学者主题基于知识图谱的社区挖掘，其步骤包括：

其中

表示所有与学者节点i相连的边的权重之和，

S4，输出最终的社区集合。

9.一种计算机，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-5任意一项所述方法的步骤。

10.一种存储介质，其存储有计算机指令，其特征在于，该程序被处理器执行时实现权利要求1-5任意一项所述方法的步骤。