CN111475629A

CN111475629A - 一种面向数学辅导问答的知识图谱构建方法及其

Info

Publication number: CN111475629A
Application number: CN202010243464.0A
Authority: CN
Inventors: 马玉慧; 王�琦; 郭炯
Original assignee: Bohai University
Current assignee: Bohai University
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-31

Abstract

一种面向数学辅导问答***的知识图谱构建方法及其***，其步骤如下：利用网络爬虫程序获取数学知识的初步实体；将数学教材、辅导书电子化，利用字符匹配、TF‑IDF算法、TextRank算法，以及词向量相似度计算，对初步实体进行筛选、扩充与对齐，构成包含数学概念、知识点、题型的实体；应用Bi‑LSTM结合Attention进行实体分类及实体关系识别；将知识内容、易错点、难点、辅导语作为属性，采用规则模板进行实体属性及属性值的抽取；使用图数据库Neo4j对数学知识图谱进行存储、查询、推理及可视化。有益效果为：提高了构建效率与知识覆盖率，建立了学科知识与题型、重难点、易错点，以及辅导语之间的关联；构建的图谱不仅支持数学问题自动推理，还能够支持数学辅导自动问答。

Description

一种面向数学辅导问答***的知识图谱构建方法及其***

技术领域

本发明涉及一种智能教学领域，尤其涉及一种面向数学辅导问答***的知识图谱构建方法及其***。

背景技术

知识图谱是实现自动问答、语义搜索的核心关键技术。知识图谱中三元组的存储方式为信息的搜索、***的自动推理提供了必要的、丰富的语义信息。基于知识图谱的智能***，可以更好地实现基于语义的信息搜索与关系推理，为用户带来了更好地智能体验。目前，知识图谱已成为实现智能***的核心技术之一。

近几年，用问答***替代真人教师对学生学习进行辅导已成为一种新的发展趋势。数学辅导问答***模拟线下真人教师，不仅要能回答学生提出的问题，同时也能进行知识讲解与提问，并对学生的回答进行正误判断。如果学生回答错误，则要分析出产生错误的原因，以便动态制定接下来的教学策略。

目前已有的数学学科知识图谱大多是面向数学知识的查询，或面向数学题的自动求解。其知识图谱包含的知识多为显性数学知识，缺少数学解题技巧、方法、数学思想方面的隐性知识，缺少教师进行数学辅导过程中使用的数学教学知识，以及这些知识的关联内容。相应地，知识图谱中的语义信息缺失，不足以支撑数学辅导问答***的查询与推理。

发明内容

本发明所要解决的技术问题是提供一种面向数学辅导问答***的知识图谱构建方法及其***，通过该方法提高了构建学科问答***知识图谱的效率与知识覆盖率，建立了学科知识与题型、重难点、易错点，以及辅导语之间的关联。

为了实现上述目的，本发明采用了如下技术方案：

一种面向数学辅导问答***的知识图谱构建方法，其步骤如下：

1、利用网络爬虫程序从百度百科、中文***中获取数学知识的初步实体；

2、将数学教材、辅导书电子化，利用字符匹配、TF-IDF算法、TextRank算法，以及词向量相似度计算，对初步实体进行筛选、扩充与对齐，构成包含数学概念、知识点、题型的实体；

3、应用双向长短时记忆网络(Bi-LSTM)结合注意力机制(Attention)进行实体分类及实体关系识别；

4、将知识内容、易错点、难点、辅导语作为属性，采用规则模板进行实体属性及属性值的抽取；

5、使用图数据库Neo4j对数学知识图谱进行存储、查询、推理及可视化。

作为进一步优选，所述步骤2中对初步实体进行筛选、扩充时具体操作如下：将数学教材、数学辅导书电子化处理生成非结构化数据，将爬虫程序获取的网页中<title>标签中的内容作为待验证实体，以非结构化数据为范本，采用字符匹配的方法删除初步实体中不属于数学知识的实体，利用TF-IDF算法和TextRank算法获取关键词和关键短语，进一步扩充实体。

作为进一步优选，所述步骤2中通过词向量相似度计算进行实体对齐，具体操作如下：

利用jieba对非结构化数据进行分词，并与经过筛选、扩充后的实体共同构成语料库，通过Word2vec进行训练，生成词向量；

基于词向量进行词语相似度计算，若计算结果小于0.95，则视为不同实体；若大于0.95，则视为同一实体的别名；若结果等于1，则为重复实体，直接删除。

作为进一步优选，所述步骤3中进行实体分类及实体关系识别的具体操作如下：

预置实体关系，确定三种知识类别：数学概念、知识点、题型；

在分词的基础上，再进行依存句法分析，将每个句子中词语的依存句法成分、实体关系、知识类别进行标注，转化为向量并与句子中每个词对应的词向量一同输入嵌入Attention的Bi-LSTM模型进行训练，生成识别模型，对包含未知实体的类别及关系进行抽取。

作为进一步优选，所述步骤4的具体操作如下：在对非结构数据进行分词和依存句法分析的基础上，根据数学教材以及数学辅导书中规范表述的特点构建规则模板，从非结构化数据中抽取出数学概念、知识点的知识内容，抽取知识点的易错点、难点，抽取题型的辅导语。

一种面向数学辅导问答***的知识图谱构建***，包括：

实体识别模块，用于利用网络爬虫程序从百度百科、中文***中获取数学知识的初步实体；将数学教材、辅导书电子化，利用字符匹配、TF-IDF算法、TextRank算法，以及词向量相似度计算，对初步实体进行筛选、扩充与对齐，构成包含数学概念、知识点、题型的实体；并传给实体关系抽取模块和实体属性、属性值识别模块；

实体关系抽取模块，以非结构化数据为语料，对实体识别模块识别的实体进行关系抽取；应用双向长短时记忆网络(Bi-LSTM)结合注意力机制(Attention)进行实体分类及实体关系识别；以<实体、关系、实体>三元组的形式进行实体关系存储成CSV文件，并传递给知识图谱存储查询模块；

实体属性、属性值识别模块，用于将知识内容、易错点、难点、辅导语作为属性，采用规则模板对实体识别模块中识别的实体进行实体属性及属性值的抽取；将实体、属性和属性值生成<实体、属性、属性值>三元组形式存储成CSV文件，并传递给知识图谱存储查询模块；

知识图谱存储查询模块，用于将实体关系抽取模块和实体属性、属性值识别模块生成的CSV文件导入到图数据库Neo4j中，使用图数据库Neo4j对数学知识图谱进行存储、查询、推理及可视化。

本发明的有益效果为：通过该知识图谱构建方法构建面向数学辅导问答***的知识图谱，提高了构建学科问答***知识图谱的效率与知识覆盖率，利用结合注意力机制(Attention)的双向长短时记忆网络(Bi-LSTM)与人工规则的方法从非结构化数据中抽取学科知识、题型、重难点、易错点、辅导语，并建立了彼此间的关联；利用该方法构建的知识图谱不仅支持数学问题的自动推理，还能够支持数学辅导的自动问答。

附图说明

图1所示为面向数学辅导问答***的知识图谱构建方法流程图；

图2所示为实体识别过程流程图；

图3所示为生成词向量结果示例图；

图4所示为嵌入Attention层的Bi-LSTM模型结构图；

图5所示为neo4j存储知识图谱部分结果示例图。

图6***功能结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

如图1所示，本发明涉及的一种面向数学辅导问答***的知识图谱构建方法，其具体包括以下步骤：

1、利用网络爬虫程序从百度百科、中文***中获取数学知识的初步实体。

2、将数学教材、辅导书电子化，利用字符匹配、TF-IDF算法、TextRank算法，以及词向量相似度计算，对初步实体进行筛选、扩充与对齐，构成包含数学概念、知识点、题型的实体。如图2所示，具体过程包括：

2.1将数学教材、数学辅导书电子化处理生成非结构化数据，将爬虫程序获取的网页中<title>标签中的内容作为待验证实体，以非结构化数据为范本，采用字符匹配的方法删除初步实体中不属于数学知识的实体；

2.2利用TF-IDF算法识别非结构化数据中的关键词。具体TF-IDF算法公式为：

即tf_i＝某词在文档中出现的次数/文档的总词数；

其中，tf_i表示词条在文本中出现的频率；n_i表示该词出现的次数，

表示文档中所有词条出现次数总和。

idf是逆向文件频率，即某一特定词的idf，可以由总文档数除以包含该词语的文档数，再将得到的商取对数得到。|D|表示语料库中的文档总数。|{j:t_i∈d_j}|表示包含词语t_i的文档数。

词语TF-IDF值为：TF-IDF＝TF×IDF；

按照TF-IDF计算公式求出TF-IDF值后，对词语按TF-IDF值进行降序排序，自动获取关键词。

2.3运用TextRank算法，识别非结构化数据中的关键短语。具体步骤为：把给定的文本T按照完整句子进行分割，即T＝[S₁,S₂,Λ,S_m]；对于每个句子S_i属于T，利用jieba进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词；构建候选关键词图G＝(V,E)，其中V为节点集，由生成的候选关键词组成，然后采用共现关系(co-occurrence)构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为7的窗口中共现，即最多共现7个词。迭代传播各节点的权重，直至收敛；对节点权重进行倒序排序，从而得到最重要的T个单词，在原始文本中进行标记，若形成相邻词组，则组合成关键词短语。

2.4利用jieba对非结构化数据进行分词，并与经过上述筛选、扩充后的实体共同构成语料库，通过Word2vec进行训练，生成词向量；生成的词向量示例如图3所示。

2.5基于词向量进行词语相似度计算，实现实体对齐。若计算结果小于0.95，则视为不同实体；若大于0.95，则视为同一实体的别名；若结果等于1，则为重复实体，直接删除。

3、应用双向长短时记忆网络(Bi-LSTM)与注意力机制(Attention)进行实体分类及实体关系识别。具体步骤为：

3.1预置实体关系，确定三种知识类别：数学概念、知识点、题型。

3.2对非结构化数据利用jieba进行分词，再进行依存句法分析。例如对“一元一次方程指只含有一个未知数、未知数的最高次数为1且两边都为整式的等式”，进行依存句法分析后的部分结果为：

<指，一元一次方程，名词性主语>

<指，等式，直接宾语>

<含有，次数，相关关系>

3.3进行实体关系标注。对每个句子中的实体及其关系进行标注。例如3.2中的句子进行实体关系标注后为：

<一元一次方程，未知数，include>

<未知数，次数，include>

<一元一次方程，等式，is-kind-of>

<等式，整式，相关>

3.4将依存句法成分、实体关系、知识类别进行向量化；

3.5将句子中每个词的词向量，以及其在上一步3.4中对应的向量组合成一个新的向量作为输入到Bi-LSTM模型的输入层。

在Bi-LSTM模型中嵌入Attention层，实现实体类别与实体关系抽取。嵌入Attention层的Bi-LSTM模型结构图如图4所示。

通过Attention先计算每个时序的权重，然后将所有时序的向量进行加权求和作为特征向量，再进行softmax分类。Attention的权重计算公式为：

其中i表示时刻，j表示序列中的第j个元素，T_x表示序列的长度，f(x_j)表示对元素x_j的编码。a_ij是概率，反映了C_i的重要性，a_ij的计算公式为：

其中e_ij表示待编码的元素与其他元素之间的匹配度。

4、将知识内容、易错点、难点、辅导语作为属性，采用规则模板进行实体属性及属性值的抽取，具体实施方法为：

4.1在对非结构数据进行分词和依存句法分析的基础上，根据数学教材以及数学辅导书中规范表述的特点构建规则模板。规则模板由“实体名”、“核心动词”、“知识内容”、“易错点”、“难点”、“指导语”按其表述顺序构成序列。例如在教材中，一元一次方程的定义内容为：“一元一次方程指只含有一个未知数、未知数的最高次数为1且两边都为整式的等式”，匹配的规则模板为：实体名～核心动词～知识内容。如果句子与该模板匹配，则该实体“知识内容”属性的属性值为“只含有一个未知数、未知数的最高次数为1且两边都为整式的等式”；

4.2根据规则模板，从非结构化数据中抽取出数学概念、知识点的知识内容，抽取知识点的易错点、难点，抽取题型的辅导语。

5、使用Neo4j对数学知识图谱进行存储、查询、推理及可视化。将实体的属性、属性值，以及实体、关系、实体以三元组形式存储的CSV文件导入到Neo4j图数据库中。知识图谱的部分可视化结果如图5所示。

如图6所示，本发明涉及的一种面向数学辅导问答***的知识图谱构建***，具体包括：

实体识别模块，所述实体识别模块利用网络爬虫程序从百度百科、中文***中获取数学知识的初步实体；将数学教材、辅导书电子化，利用字符匹配、TF-IDF算法、TextRank算法，以及词向量相似度计算，对初步实体进行筛选、扩充与对齐，构成包含数学概念、知识点、题型的实体；并分别传给实体关系抽取模块和实体属性、属性值识别模块；

实体关系抽取模块，所述实体关系抽取模块以非结构化数据为语料，对实体识别模块识别的实体，应用双向长短时记忆网络(Bi-LSTM)结合注意力机制(Attention)进行实体分类及实体关系识别；以<实体、关系、实体>三元组的形式进行实体关系存储成CSV文件，并传递给知识图谱存储查询模块；

实体属性、属性值识别模块，所述实体属性、属性值识别模块将知识内容、易错点、难点、辅导语作为属性，采用规则模板对实体识别模块中识别的实体进行实体属性及属性值的抽取；将实体、属性和属性值生成<实体、属性、属性值>三元组形式存储成CSV文件，并传递给知识图谱存储查询模块；

知识图谱存储查询模块，该知识图谱存储查询模块用于将实体关系抽取模块、实体属性、属性值识别模块生成的生成的CSV文件导入到图数据库Neo4j中，使用图数据库Neo4j对数学知识图谱进行存储、查询、推理及可视化。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种面向数学辅导问答***的知识图谱构建方法，其特征在于步骤如下：

(1)利用网络爬虫程序从百度百科、中文***中获取数学知识的初步实体；

(2)将数学教材、辅导书电子化，利用字符匹配、TF-IDF算法、TextRank算法，以及词向量相似度计算，对初步实体进行筛选、扩充与对齐，构成包含数学概念、知识点、题型的实体；

(3)应用双向长短时记忆网络(Bi-LSTM)结合注意力机制(Attention)进行实体分类及实体关系识别；

(4)将知识内容、易错点、难点、辅导语作为属性，采用规则模板进行实体属性及属性值的抽取；

(5)使用图数据库Neo4j对数学知识图谱进行存储、查询、推理及可视化。

2.根据权利要求1所述的一种面向数学辅导问答***的知识图谱构建方法，其特征在于，所述步骤(2)中对初步实体进行筛选、扩充时具体操作如下：将数学教材、数学辅导书电子化处理生成非结构化数据，将爬虫程序获取的网页中<title>标签中的内容作为待验证实体，以非结构化数据为范本，采用字符匹配的方法删除初步实体中不属于数学知识的实体，利用TF-IDF算法和TextRank算法获取关键词和关键短语，进一步扩充实体。

3.根据权利要求2所述的一种面向数学辅导问答***的知识图谱构建方法，其特征在于，所述步骤(2)中通过词向量相似度计算进行实体对齐，具体操作如下：

4.根据权利要求3所述的一种面向数学辅导问答***的知识图谱构建方法，其特征在于，所述步骤(3)中进行实体分类及实体关系识别的具体操作如下：

5.根据权利要求1所述的一种面向数学辅导问答***的知识图谱构建方法，其特征在于，所述步骤(4)的具体操作如下：在对非结构数据进行分词和依存句法分析的基础上，根据数学教材以及数学辅导书中规范表述的特点构建规则模板，从非结构化数据中抽取出数学概念、知识点的知识内容，抽取知识点的易错点、难点，抽取题型的辅导语。

6.一种实现如权利要求1-5任一项所述的面向数学辅导问答***的知识图谱构建方法的构建***，其特征在于包括：

所述实体关系抽取模块，以非结构化数据为语料，对实体识别模块识别的实体进行关系抽取；应用双向长短时记忆网络(Bi-LSTM)结合注意力机制(Attention)进行实体分类及实体关系识别；以<实体、关系、实体>三元组的形式进行实体关系存储成CSV文件，并传递给知识图谱存储查询模块；

所述实体属性、属性值识别模块，用于将知识内容、易错点、难点、辅导语作为属性，采用规则模板对实体识别模块中识别的实体进行实体属性及属性值的抽取；将实体、属性和属性值生成<实体、属性、属性值>三元组形式存储成CSV文件，并传递给知识图谱存储查询模块；

所述知识图谱存储查询模块，用于将实体关系抽取模块和实体属性、属性值识别模块生成的CSV文件导入到图数据库Neo4j中，使用图数据库Neo4j对数学知识图谱进行存储、查询、推理及可视化。