CN112015907A

CN112015907A - 一种学科知识图谱快速构建方法、装置及存储介质

Info

Publication number: CN112015907A
Application number: CN202010833647.8A
Authority: CN
Inventors: 魏泽林; 李雪; 于丹; 张帅; 马壮
Original assignee: Dalian Neusoft Education Technology Group Co ltd
Current assignee: Dalian Neusoft Education Technology Group Co ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-12-01

Abstract

本发明提供一种学科知识图谱快速构建方法、装置及存储介质。方法包括：构建关系型数据库；通过光学字符识别获取电子版教材目录与索引，将电子版教材中的目录和索引构建关系型数据；在关系型数据库中基于知识点名称计算任意两个数据之间的相关性，建立相关关系；将知识点与节的相关关系区分为所属分类知识点或必需知识点，生成知识图谱；通过图嵌入方法获取所述知识图谱中各知识点的低维向量表达，通过计算向量的余弦相似度获得知识点之间的相似度，根据所述知识点之间的相似度对相关关系类型进行维护，并将数据同步至图形数据库。本发明无需标注训练集，即可快速全面构建学科知识图谱，普适性较高。

Description

一种学科知识图谱快速构建方法、装置及存储介质

技术领域

本发明涉及数据分析及图谱构建技术领域，具体而言，尤其涉及一种学科知识图谱快速构建方法、装置及存储介质。

背景技术

在知识图谱的构建中，通常采用两种方法，一种是人工构建，另外一种是基于语义识别的实体抽取与关系抽取算法。

一般来说，人工构建知识图谱通常依赖于人的手工操作，过程相对较慢，效率低。由于知识点实体数量较多，人工构建通常会出现知识点遗漏或者知识点之间关系标注不正确等问题，此外构建实体的数量以及全面性会很大程度上受到人为的主观影响。

另外，基于语义识别的实体抽取与关系抽取算法通常需要对数据进行标注，不仅成本高，结果不准确，也同样需要人为修改。具体来说，基于语义识别的实体抽取与关系抽取算法，首先需要进行数据的预处理，即清理文本资源中存在的噪音数据，并根据小节、段落和标点对文本按语句进行分割，然后进行分词处理、词法分析、句法分析。在预处理的基础上，采用语义分析工具标注部分知识点实体及语义关系，以此作为训练样本。采用实体抽取、语义关系挖掘、知识融合方法构建知识图谱，最后进行人工的校正。语义识别分析的这种方法对构建小说类书籍中各个人物之间的图谱有相对较好的效果，因为小说中的文字有大量描绘人物之间的关系语句。但对于高等理工科教材，因知识点间的关系描述类文字出现较少，同时教材文字中间通常穿插着大量的公式，表格等，运用自然语言处理，语义分析方法的构建知识图谱的方法则准确度较差，往往最后需要大量人工修改。

综上，针对于学科的知识点图谱构建，各类方法一直都没有太好的构建效果。

发明内容

根据上述提出的利用人工构建方法效率低下、基于语义识别的方法需要标注大量训练集数据以及无法进行准确预测等技术问题，而提供一种学科知识图谱快速构建方法、装置及存储介质，在具体构建知识图谱过程中，使用教材的目录与索引构建章、节与知识点的关联关系，再通过索引知识点的文本相似度建立知识点间的关联关系，维护后生成初版知识图谱，再经过图嵌入算法迭代维护构建学科的知识图谱。

本发明采用的技术手段如下：

一种学科知识图谱快速构建方法，包括：

构建关系型数据库，所述关系型数据库至少包括知识点名称、知识点类型、所属分类知识点以及必需知识点四列；

通过光学字符识别获取电子版教材目录与索引，将电子版教材中的目录和索引构建关系型数据，所述电子版教材目录包括课程、章、节以及对应的页码信息，所述索引包括知识点名称以及对应的页码信息；

在关系型数据库中基于知识点名称计算任意两个数据之间的相关性，并对相关性计算结果高于阈值的两个数据建立相关关系；

由所述关系型数据获取知识点与节的相关关系，将知识点与节的相关关系标注为所属分类知识点或必需知识点，将所述关系型数据库中的关系型数据爬取至图形数据库中生成包含知识点及知识点间关系的知识图谱；

通过图嵌入方法获取所述知识图谱中各知识点的低维向量表达，基于所述低维向量表达计算向量的余弦相似度，根据所述余弦相似度对相关关系类型进行维护，确定其为所属分类知识点或必需知识点，并将数据同步至图形数据库。

进一步地，所述知识点类型按照粒度分为：课程、章、节、知识点；

其中，课程对应教材名称，章对应教材目录中的一级目录，节对应教材目录中的二级目录，知识点对应索引知识点中的知识点。

进一步地，若目录中包含三级及以上目录，则将此部分目录列为知识点。

进一步地，所述通过光学字符识别获取电子版教材目录与索引知识点，将电子版教材中的目录和索引知识点构建关系型数据，包括：

将教材目录与索引扫描为图片文件，对所述图片文件进行光学字符识别，将目录中的章、节，以及索引中的知识点导入至关系型数据库；

使用目录的页码位置与索引中知识点的页码位置进行匹配，建立知识点与节的相关关系。

进一步地，所述将教材目录与索引扫描为图片文件，对所述图片文件进行光学字符识别，将目录中的章、节、以及索引中的知识点导入至关系型数据库，包括：如果索引知识点名称与目录中的章或节同名，则将索引知识点合并至同名的章或节。

进一步地，所述基于知识点名称计算任意两个关系型数据之间的相关性，包括：

利用TF-IDF算法计算知识点名称的相关性。

进一步地，通过图嵌入方法获取所述知识图谱中各知识点的低维向量表达，基于所述低维向量表达计算向量的余弦相似度，包括：

针对所述知识图谱数据通过图嵌入方法提取各知识点的低维稠密向量作为低维向量表达；

对所述低维向量表达进行余弦相似度计算进而获取知识点之间的相似度。

一种学科知识图谱快速构建装置，包括：

数据库构建单元，用于构建关系型数据库，所述关系型数据库中的数据至少包括知识点名称、知识点类型、所属分类知识点以及必需知识点四个维度；

数据构建单元，用于将电子版教材中的目录和索引构建关系型数据，所述电子版教材目录与索引通过光学字符识别获取，其中所述电子版教材目录包括课程、章、节以及对应的页码信息，所述索引包括知识点名称以及对应的页码信息；

相关关系建立单元，用于对相关性计算结果高于阈值的两个数据建立相关关系，其中所述相关性基于知识点名称计算；

知识图谱生成单元，由所述关系型数据获取知识点与节的相关关系，将知识点与节的相关关系区分为所属分类知识点或必需知识点，将所述关系型数据库中的数据爬取至图形数据库中生成包含知识点及知识点间关系的知识图谱；

数据维护单元，获取所述知识图谱中各知识点的低维向量表达，基于所述低维向量表达计算知识点之间的相似度，根据所述知识点之间的相似度对相关关系类型进行维护，确定其为所属分类知识点或必需知识点，并将数据同步至图形数据库。

一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令集；所述计算机指令集被处理器执行时实现如上述任意一项所述的学科知识图谱快速构建方法。

较现有技术相比，本发明具有以下优点：

1、本发明提供一种快速的知识图谱构建方法，该方法实体构建规范，关系构建全面，能够在学科内部快速准确的构建和维护学科的知识图谱，也可以辅助教师快速构建知识图谱。

2、本发明在知识点间的知识图谱构建过程中，通过规范化的使用教材的目录与索引来构建初版的知识图谱；由于目录与索引的知识点内容书写规范，页码定位准确，使得该方法的建立过程快速便捷；同时本方法更加符合传统的教学习惯，以教材目录的树形结构为基础，加入了知识点到章节之间的网络关系，通过进一步维护更加准确的定义知识点相关性；此外，该方法具有很大程度的普适性，可以将所有包含目录和索引的教材以一种快速的通用方法构建基础的知识图谱以供进一步维护。

3、本发明使用TFIDF方法计算知识点名称的相关性，由于教材内的知识点名称本身包含一定的信息量，名称中包含相同关键字的知识点间存在关系的可能性较高，所以利用该方法也能快速的寻找知识点间的相关性。

4、本发明使用GraphEmbedding算法进行知识点间的链接预测并迭代推送，这种维护的方式会减少知识点关系挂载不全面等问题，该方法通过随机游走的算法，计算知识图谱中知识点的低维向量，向量可以表达知识点在知识图谱中的结构等特征，通过协同过滤算法，挖掘知识点之间的潜在关系。

基于上述理由本发明可在教育领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明学科知识图谱快速构建方法流场图。

图2a为本发明中必需知识点示意图。

图2b为本发明中所属分类知识点示意图。

图2c为本发明中必需知识点与所属分类知识点第一组合关系示意图。

图2d为本发明中必需知识点与所属分类知识点第二组合关系示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明提供了一种学科知识图谱快速构建方法，主要包括：

步骤一，构建关系型数据库，数据库必要列为4列：第一列为知识点名称，也是知识点的唯一标识；第二列为知识点类型，知识点实体类型按照粒度分为四种：课程、章、节、知识点，分别对应教材名称、目录中的一级目录、二级目录与索引中包含的知识点(如果目录中包含三级以及以上的目录，则将这部分目录都列为知识点)；第三列为所属分类知识点，记录每个知识点属于哪几个知识点，体现知识点间的从属关系；第四列为必需知识点，记录想掌握某一知识点所必需掌握的前置知识点，体现知识点学习过程中的逻辑递进关系。这里说明，由所属分类知识点和必需知识点两种关系的组合将会反应出知识点与知识点之间的4种不同关系，见附图2。

步骤二，在算法使用过程中，我们的方法以教材的目录与索引知识点为结构化数据模板，将电子版教材中的目录和索引知识点构建关系型数据。具体方法为，将教材目录与索引通过扫描获取jpg文件，然后对图片进行ocr(光学字符识别)识别。将目录中的章、节、以及索引中的知识点导入至关系型数据库，知识点名称作为知识点实体并按流程1中的实体类型划分标注知识点类型，如果索引知识点与目录中的章或节同名，则将索引知识点合并到同名的章或节。然后使用目录的页码位置与索引中标注的知识点的页码位置进行匹配。匹配方法为：按照目录结构建立课程、章、节的从属关系，索引中的页码包含在某一节的页码范围内，则建立知识点与节的相关关系。

步骤三，使用TF-IDF算法计算相关性，将相关性高的两个知识点间建立相关关系。由于知识点名称本身包含一定的信息量，名称中包含相同关键字多的知识点间存在关系的可能性较高(比如：贝叶斯定理与贝叶斯决策树存在一定的关系)。将索引中知识点的名称使用TF-IDF算法计算相关性将相关性高的两个知识点间建立相关关系。

步骤四，通过知识图谱维护***经由人工操作把知识点与节的相关关系区分为所属分类知识点或必需知识点，这里包含了一个用于维护和管理知识点与知识点间的关系的前端网站与后台数据库。然后我们将数据库的内容通过程序爬取到neo4j数据库中生成包含知识点及知识点间关系的知识图谱，其中neo4j数据库是知识图谱的主要载体。

步骤五，使用图嵌入(Graph Embedding)等方法计算出知识点的低维向量表达。具体方法是将已建立好的知识图谱数据通过graphembedding方法提取各个知识点的低维稠密向量，具体算法可以选择deepwalk(DeepWalk:Online Learning of SocialRepresentations)，node2vec(node2vec:Scalable Feature Learning for Networks)，以及GCN(Graph Convolutional Networks for Text Classification)方法。这里我们使用node2vec算法。

步骤六，将得到的知识点向量表达使用余弦相似度计算出知识点之间的相似度，以此表征知识点之间存在潜在关系的可能性，然后将相似的知识点通过知识图谱维护***推荐给维护人员，通常为教师，经过人工判断再次将知识点间的类型维护为所属分类知识点或必需知识点存入关系型数据库，同时将新增数据同步至neo4j数据库。

下面通过具体的应用实例对本发明的方案做进一步说明。

本实施例以周志华的《机器学习》为教材构建弱关系(关系未定义)的知识图谱。具体步骤包括：

1、构建关系型数据库，数据库必要列为4列：第一列为知识点名称，也是知识点的唯一性标识；第二列为知识点类型，知识点实体类型按照粒度分为四种：课程、章、节、知识点；第三列为所属分类知识点；第四列为必需知识点。

2、首先对目录和索引部分进行扫描，然后将处理过的照片使用python开源数据包cnocr对照片进行文字提取。其中，cnocr是用来做中文OCR的Python 3包，cnocr自带了训练好的识别模型，我们使用的识别模型是crnn，识别准确度约为98.7％。我们将识别得到的文本数据通过编写程序借助python开源数据包pandas进行一定的清洗操作，将一些目录中出现的无用信息剔除，整理成规范的结构性数据，将目录与章、节、教材名称爬取出来，根据目录与索引通过编写程序进行匹配。其中索引知识点A的页码如果大于第n章B的页码且小于第n+1章的页码，则第n章B知识点的关联知识点为A存入MySql数据库中。

3、将教材索引中知识点的名称使用TF-IDF算法计算相关性将相关性高的知识点间建立关系存入数据库中。

4、登录前端管理页面，通过页面来修改订正结构化的知识图谱数据，在之后的使用过程中，在校园场景下，教师也可以通过管理页面管理知识图谱。

5、将neo4j数据库的知识图谱按照RDF格式提取信息，使用Node2vec算法计算出知识点的128维向量表示。Node2vec算法是通过超参数p和q来控制随机游走的策略来生成随机游走序列，其随机游走概率为：

其中d_tx为顶点p和顶点q之间的最短路径距离。

这种随机游走方式是通过deepwalk算法衍生而来，然后Skip-Gram算法计算向量。其优化函数为：

6、使用各知识点的向量通过余弦相似度算法进行计算，计算结果作为各知识点间的相关度：

其中相关度较高的两个知识点间链接存在的可能性较高。我们将可能存在关系的知识点推送至管理***中，再次通过前端管理界面，订正维护知识点间的关系。我们再次使用结构化数据爬取程序将新增的知识点间的关系维护至neo4j数据库中。在之后的具体使用中，第4步过程后的步骤可以迭代使用来进一步维护知识图谱。

最终，我们构建了590个实体，1026个关系的机器学习学科的知识图谱。

对应本申请学科知识图谱快速构建方法，还提供了一种学科知识图谱快速构建的装置，包括：

本申请还公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令集；所述计算机指令集被处理器执行时实现如上述任意一项所述的学科知识图谱快速构建方法。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种学科知识图谱快速构建方法，其特征在于，包括：

2.根据权利要求1所述的学科知识图谱快速构建方法，其特征在于，所述知识点类型按照粒度分为：课程、章、节、知识点；

3.根据权利要求2所述的学科知识图谱快速构建方法，其特征在于，若目录中包含三级及以上目录，则将此部分目录列为知识点。

4.根据权利要求1所述的学科知识图谱快速构建方法，其特征在于，所述通过光学字符识别获取电子版教材目录与索引知识点，将电子版教材中的目录和索引知识点构建关系型数据，包括：

5.根据权利要求4所述的学科知识图谱快速构建方法，其特征在于，所述将教材目录与索引扫描为图片文件，对所述图片文件进行光学字符识别，将目录中的章、节、以及索引中的知识点导入至关系型数据库，包括：如果索引知识点名称与目录中的章或节同名，则将索引知识点合并至同名的章或节。

6.根据权利要求1所述的学科知识图谱快速构建方法，其特征在于，所述基于知识点名称计算任意两个关系型数据之间的相关性，包括：

利用TF-IDF算法计算知识点名称的相关性。

7.根据权利要求1所述的学科知识图谱快速构建方法，其特征在于，所述通过图嵌入方法获取所述知识图谱中各知识点的低维向量表达，基于所述低维向量表达计算向量的余弦相似度，包括：

8.一种学科知识图谱快速构建装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机指令集；所述计算机指令集被处理器执行时实现如权利要求1-7任一项所述的学科知识图谱快速构建方法。