CN112926340B

CN112926340B - 一种用于知识点定位的语义匹配模型

Info

Publication number: CN112926340B
Application number: CN202110319217.9A
Authority: CN
Inventors: 吴亦珂; 吴天星; 李林; 高超禹; 漆桂林
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2024-05-07
Anticipated expiration: 2041-03-25
Also published as: CN112926340A

Abstract

本发明公开了一种用于知识点定位的语义匹配模型，主要用于解决电学领域题目知识点定位的问题。本发明首先对原始教材进行预处理，形成语料。然后，使用基于统计学的语义匹配模型TF‑IDF，LSI以及LDA编码。之后，再使用深度学习的语义匹配模型加强深度语义理解，通过BERT编码。随后，对于以上四种编码方式，计算余弦相似度作为语义相似的衡量。最后，基于投票的语义匹配集成模型根据教材片段出现在前列的次数和余弦相似度选择用户指定数量的教材片段作为最终知识点定位的结果。

Description

一种用于知识点定位的语义匹配模型

技术领域

本发明属于自然语言处理领域，具体涉及一种用于知识点定位的语义匹配模型。

背景技术

语义匹配是自然语言处理中一个重要的基础问题，可以应用于大量的NLP任务中，如信息检索、问答***、复述问题、对话***、机器翻译等，这些NLP任务在很大程度上可以抽象为语义匹配问题。语义匹配模型的质量会极大地影响到最终应用的效果。

传统的语义匹配技术有BoW、VSM、TF-IDF、BM25、Jaccord、SimHash等算法，如BM25算法通过查询字段的覆盖程度来计算两者间的匹配得分，得分越高的网页与查询的匹配度更好。主要解决词汇层面的匹配问题，或者说词汇层面的相似度问题。但是，其往往受到词义局限、结构局限和知识局限的影响。主题模型同样可以用于语义匹配，将语句映射到等长的低维连续空间，可在此隐式的潜在语义空间上进行相似度计算。如LSI，LDA以及PLSA，这些技术对文本的语义表示形式简洁、运算方便，较好地弥补了传统词汇匹配方法的不足，可是从效果上来看，依然无法替代字面匹配技术，只能作为字面匹配的有效补充。近年来日益火热的神经网络同样在语义匹配方面有着重要的作用，这就是深度语义匹配模型。神经网络可以通过训练得到的词向量，将文本内容通过向量的形式进行编码并计算两者的余弦相似度进行语义相似性的匹配，从而挖掘出更深层次的语义信息。但是，神经网络的可解释性较差，容易产生语义漂移等问题。三类语义匹配模型均各有长短，所以，采用合适的方法，实现更加有效的语义匹配具有重大的研究意义。

本文中提出的用于知识点定位的语义匹配模型，主要针对电学领域的考试场景，能够根据题干信息，自动进行语义理解，并从教材中寻找相对应的知识点。该模型兼顾了多种语义匹配模型，采用了TF-IDF进行传统的语义匹配，使用LSI和LDA增加了主题方面的信息，并且通过BERT神经网络加强对于深层语义的理解，最后，采用基于投票的语义匹配集成模型选出一定数量(用户指定)的候选结果作为知识点的出处。

发明内容

技术问题：本发明提出了一种用于知识点定位的语义匹配模型，能够自动的捕捉到题干信息，同时判断和教材不同章节段落的相关性，挑选最相关的教材段落作为匹配知识点。本发明结合了基于统计学的语义匹配方法和基于深度学习的相关性判断方法。其中，基于统计学的语义匹配方法包括TF-IDF，LSI，LDA三种编码方式。同时加入基于BERT编码的深度学习模型，以解决未登录词的问题，并进行更深层次的语义理解，支持模糊语义理解。最后，使用基于投票的语义匹配集成模型，挑选总排名靠前的K个(用户指定)最相近段落作为知识点定位的候选结果。

技术方案：本发明基于多种语义匹配的方法，首先，采用基于统计学的语义匹配方法。对题干和教材的文本进行预处理操作，去除停用词并对语料进行分词，使用TF-IDF，LSI和LDA模型，对于题干和教材的语义相似度进行匹配。然后，采用基于深度学习的相关性判断方法。对于原始语料进行一定预处理，使之符合BERT神经网络的输入要求，并使用BERT神经网络进行相似度的计算。最后，根据出现的次数和相似度的数值对四种编码方式得到的结果进行排序，选择排名最靠前的K个片段作为知识点定位的候选结果。

本发明的用于知识点定位的语义匹配模型，包括如下步骤：

1)对于给定的电学领域的教材，为了方便知识点的定位，将其以段为单位进行划分，并记录每一段所处的章节信息以及页数；

2)去除教材中的停用词以及无意义的词，并且对其进行分词，形成语料，并构建词典；

3)对于任意指定的题目以及处理后的语料，根据2)中构建好的词典，计算该题目和所有语料的TF-IDF值，使用基于统计学的语义匹配方法，即TF-IDF，LSI，LDA，分别对语料和题目进行相应的编码，再计算题目和所有语料片段编码的余弦相似度作为该道题和所有语料片段的语义相似度；

4)对于1)中处理好的教材片段构建训练集，并对BERT神经网络进行训练：

4-1)综合考虑3)中三种方法得到的余弦相似度，选取一些相似度较大的语料对作为正例；

4-2)随机选择不同章节的语句作为负例；

5)使用4)中的数据集对BERT神经网络进行训练，并将该模型用于语料片段和题库的编码，同样使用余弦相似度作为题目和语料片段的语义相似度；

6)基于投票的语义匹配集成模型根据四种编码方式的中各语料片段出现在前列的次数和相似度选出K个片段作为知识点定位的结果。

本发明用于知识点定位的语义匹配模型方法的优选方案中，所述步骤3)中基于统计学的语义匹配方法按如下步骤对语料和问题进行相应编码：

3-1)通过2)中的分词，将所有分词的结果组成一个词典，对于每份语料以及问题计算词典中每个词的TF-IDF值，得到相应的编码；

3-2)将3-1中获得的语料以及问题的TF-IDF值编码作为列向量组成TF-IDF矩阵；

之后，使用LDA进行基于主题模型的分析，得到语料中每份语料属于各个主题的概率，将概率值作为编码；

3-3)进行LSI编码，具体地，将3-2)中获得的TF-IDF矩阵使用SVD进行分解，即：

A＝UΣV^T

其中，A是TF-IDF矩阵，U为正交矩阵，其列向量称为左奇异向量，V也为正交矩阵，其列向量称为右奇异向量，Σ为矩形对角矩阵，对于分解得到的结果，选取V^T矩阵的列向量作为每份语料的编码；

3-4)对于以上三种编码方式，分别计算待求题目和教材的余弦相似度以度量题目和各教材片段的相似程度。

本发明用于知识点定位的语义匹配模型方法的优选方案中，所述步骤5)中BERT神经网络的编码方法按如下步骤进行：

5-1)将1)中得到的教材片段以及问题去除停用词以及无意义的词；

5-2)对教材片段以及问题进行分词，并编码形成id；

5-3)将得到的id送入模型，取BERT神经网络输出的编码作为结果。

本发明用于知识点定位的语义匹配模型方法的优选方案中，所述步骤6)中基于投票的语义匹配集成模型按如下步骤确定最终的知识点定位的结果：

6-1)用户设定需要知识点定位的个数K，对于四种编码方式，分别取出余弦相似度最大的K个教材片段作为候选集1；

6-2)统计候选集1中的教材片段出现次数之和，在候选集中选出出现次数最多的K个教材片段作为候选集2(允许次数相同导致最终结果超出K个的情况)；

6-3)在候选集2中，根据片段出现次数从大到小进行排序，次数相同的则计算四种编码方式下的余弦相似度之和，相似度越大，排名越靠前；

6-4)取出前K个作为最后的匹配结果。

有益效果：本发明与现有技术相比，具有以下优点：

相比于目前大多数语义匹配模型，本发明最大的优势在于全面考虑了多种语义匹配模型，汲取了多种模型的优势，从而实现对于多种语义匹配方式的综合利用。首先，使用传统的TF-IDF进行编码，从浅层的语义角度，进行文本的语义匹配。其次，对TF-IDF模型进行适当地拓展，引入了主题模型。具体地，使用LSI增加了模型对于主题的理解，能够关注更加主要的信息。通过LDA进行隐含主题的推断，使得模型对于主题有了更加深刻的认识，从而帮助模型从更深层次上理解语义。并且，通过BERT编码的方式，从更深层次进行语义的匹配，并且该种方法可以免受预处理效果好坏的影响，并解决未登陆词的问题。最后，通过集成模型的方法，从出现次数和余弦相似度两个方面，将以上四种编码方式进行结合，筛选出最终的结果。而现在大多数语义匹配模型，往往只会使用或者侧重使用其中的一种模型，并不能实现从浅层到深层的语义理解以及匹配。

该模型使用起来较为简单方便。词典的构建以及教材的TF-IDF值可以离线完成。教材的BERT编码也可以提前计算出来。当计算指定题目的知识点定位时，对于TF-IDF仅仅只需要计算出该问题的TF-IDF编码向量，而LDA和LSI则可以将求出的题目TF-IDF编码向量加入到TF-IDF矩阵当中，从而求出题目和语料在这两种模型下的相应编码。对于BERT神经网络，可以直接将问题进行适当预处理后输入到网络当中，得到问题的编码。得到编码后就可以计算问题和各语料片段的余弦相似度从而得到最终结果。也就是说，整个流程大部分是可以放在线下计算完成。所以，该模型可以很方便地部署在服务器上，拥有极大的应用前景。

该模型不仅仅能够实现题库中问题的知识点定位，还支持模糊查询以及新题目的输入。对于题库外的题目，能够通过BERT模型解决未登陆词的问题，更好地实现语义的匹配。

附图说明

图1是本发明的整体框架示意图；

图2是本发明中语料处理的流程图；

图3是本发明中基于统计学的语义匹配模型的示意图；

图4是本发明中基于投票的语义匹配集成模型的示意图。

具体实施方式

以下结合实例和说明书附图，详细说明本发明的实施过程。

本发明是用于知识点定位的语义匹配模型方法，包括以下6个步骤：

1)对于给定的电学领域的教材，为了方便知识点的定位，将其以段为单位进行划分，并记录每一段所处的章节信息以及页数。

(1)在该模型中，如果选择一句话为搜索粒度，则会导致语料数量过多，计算复杂度较大，反应时间较长。但选择页作为搜索粒度则会导致定位不够准确，范围过于宽泛。为了更好地定位知识点的位置，选择段落作为定位的粒度较为合适，即将每一段文字作为一份语料；

(2)通过页数的划分或正则表达式的方法可以得到每一段所处的章节信息；

(3)存储结构可以使用json的方式存储，如下图所示：

″专业基础理论1.1-1.2第1页part 1″：{

″章数″：″第一章专业基础理论″，

″页数”：1，

″文本″：″随时间按正弦规律变化的交流称为正弦交流。

″节数″：″第1节单相交流电路分析与计算″

2)去除教材中的停用词以及无意义的词，并且对其进行分词，形成语料，并构建词典。

(1)原始的教材当中会有大量的停用词以及无意义的词，这些词不仅会占用额外的存储空间，还会影响运行的效率以及最终的匹配质量，如标点符号(，。《》)，虚词(而且，而是)，无意义的数词(第一章，第二节)等。去除方法可以使用正则表达式匹配，或者采用停用词表进行去除。

(2)处理之后的语料依然无法被模型直接理解，仍然需要就行分词的处理，即将一句话中的每个词语划分出来，可以考虑直接使用jieba分词的方式实现。

(3)在分词的过程中，只要出现新词，就将其加入字典当中，完成词典的构建。

3)对于任意指定的题目以及处理后的语料，根据2)中构建好的词典，计算该题目和所有语料的TF-IDF值，使用基于统计学的语义匹配方法，即TF-IDF，LSI，LDA，分别对语料和题目进行相应的编码。再计算题目和所有语料片段编码的余弦相似度作为该道题和所有语料片段的语义相似度。

这里结合图3说明基于统计学的语义匹配详细步骤：

(1)TF-IDF值的计算

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。具体来说，TF表示的是词频，即某一个给定的词语在该文件中出现的频率。一个词语出现次数越多，则说明其越重要。IDF是逆向文件频率，表示的是一个词的区分能力，即如果包含某特定词条的文档越少，IDF越大，则说明该词条具有很好的类别区分能力，从一定程度上反应了该词对于这个语料的重要程度。

TF的计算方法为

其中，n为待求的词，count(n)为n在语料当中的出现次数，m为该份语料的总词数。

IDF的计算方法为

其中，lg表示以10为底的对数，D为语料库的总文件数，N为包含n这个词的文件数量。

TF-IDF(n)＝TF(n)×IDF(n)

因此，对于每一份语料，可以对词典中的词分别计算这个词在这篇语料当中的TF-IDF值。从而可以得到每一份语料的TF-IDF编码，如下图所示：

对于题目，可以先去除停用词以及无实际意义的词并进行分词，之后，同样可以其进行TF-IDF的编码。

(2)构建TF-IDF矩阵

对于每一份语料以及问题，可以将其TF-IDF编码作为列向量从而组成TF-IDF矩阵。特别地，在实际操作过程中，考虑到教材是不变的，可以提前将每一份语料的TF-IDF编码离线计算出来。等到输入需要定位知识点的问题时，再将该问题进行TF-IDF编码，加入到TF-IDF矩阵当中。最终形成的结果应该如下图所示：

(3)LSI编码

LSI全称是潜在语义索引，LSI的基本思想就是把高维的文档降到低维的潜在语义空间。因此，降维是LSI分析中最重要的一步，通过降维，去除了文档中的“噪音”，也就是无关信息，使文章的语义结构逐渐呈现。相比传统向量空间，潜在语义空间的维度更小，语义关系更明确。LSA可以通过奇异值分解(SVD)的方法来得到文本的主题，具体来说，SVD可以将任意一个矩阵分解为三个矩阵的乘积形式：

A＝UΣV^T

其中，A是TF-IDF矩阵，U为正交矩阵，其列向量称为左奇异向量，V也为正交矩阵，其列向量称为右奇异向量，Σ为矩形对角矩阵，对于分解得到的结果，选取V^T矩阵的列向量作为每份语料的编码；在这三个矩阵当中，U表示了词和词之间的相关性，V矩阵表示了文本和主题的相关性，因此，可以将V矩阵取出来，作为对应的LSI的编码。

因此，在我们的模型之中，使用LSI进行编码可以使得模型在TF-IDF计算的编码向量上进一步延伸，通过奇异值分解，为编码增加了主题信息的理解，从而更加关注主要信息。由于LSI是一个主题模型，主题数量的设定对于最终的结果有着巨大的影响。主题数量不易过大，否则会包含冗余概念，也不宜过小，否则无法保留全部的信息。最好能根据实际的语料情况进行人工的判断以及尝试。该编码环节将(2)中的TF-IDF矩阵作为输入，并确定主题的数量，将产生得到的V矩阵作为语料以及待求问题的LSI编码向量。

(4)LDA编码

LDA可以将文档集中每篇文档的主题以概率分布的形式给出，通过分析一批文档集，抽取出它们的主题分布，就可以根据主题分布进行主题聚类或文本分类。同时，它是一种典型的词袋模型，即一篇文档是由一组词构成，词与词之间没有先后顺序关系。LDA和LSI一样，都属于主题模型，但是LDA与LSI比较起来，LDA将每个文档关于话题的概率分布以及一个话题上所有单词的概率分布都赋予了一个稀疏形式的狄利克雷先验，两种先验使得LDA模型能够比LSI更好地刻画文档-话题-单词这三者的关系。因此，LDA模型的使用可以有效地进一步增强模型对于主题信息的理解。

LDA的使用同样需要设置主题的数量，设定好主题数量后，将TF-IDF矩阵输入，可以通过LDA模型获得各个语料对应属于各个主题的概率，将这些概率值组成向量，从而获得语料基于LDA模型的编码。

例如，一篇语料属于top1，top2，top3的概率分别为0.1，0.6，0.3，则可以将这份语料编码为[0.1，0.6，0.3]。

(5)余弦相似度的计算

余弦相似度通过计算两个向量的夹角余弦值来评估它们的相似度。即将待求的两个向量根据坐标值，绘制到向量空间中，求得其夹角，并得出夹角对应的余弦值，夹角越小，余弦值越接近于1，它们的方向越吻合，则越相似。计算公式为：

其中，X和Y是需要计算相似度的两个向量，X_i和Y_i分别是X，Y两个向量中第i个元素，n为对应向量的元素个数，θ为X和Y在向量空间中的夹角。

本发明使用余弦相似度作为题目编码和教材编码的相似度衡量指标。由以上三种方法得到了三份编码，对于每一种编码都可以计算问题和各语料的余弦相似度，并进行记录。

4)对于1)中处理好的教材构建训练集，并对BERT神经网络进行训练。

前面使用的三种模型都是一些传统的语义匹配方法，BERT模型的引入是为了让模型能够获得更深层的语义理解，并且BERT作为一种神经网络模型可以免受分词效果的影响，并且能够解决词典当中未登入词汇的问题。

训练数据集的选取方面并没有使用2)中处理后的语料，这主要因为谷歌提供的BERT模型已经拥有预处理的相关功能，只需要分段就可以了。在读取数据集后，BERT模型会先将原来的语料转化为Unicode进行编码，调用相关函数去除停用词以及无实际意义的词，同时，其会调用FullTokenizer进行分词操作。并且会把语料中的词语转化为id的形式输入到BERT模型当中。

BERT的整体任务可以看作是一个二分类任务，即对于输入的两句话，判断两句话是否是相关的。因此，只需要准备正例和负例就可以实现。对于正例，可以预先计算3)中几种编码方式的余弦相似度，余弦相似度越大则可以认为两个语料在向量空间中的夹角越小，从而说明这两个语料越相似。据此，可以选择相似度排名最靠前的N个语料对作为正例，并通过人工审查的方式，确保数据质量。同时，负例的选取可以选择不同段落的任意两句话，为了确保训练的质量，需要人为确定这两句话的确不相关。

5)使用4)中的数据集对BERT神经网络进行训练，并将该模型用于教材和题库的编码，对于一道题目同样使用余弦相似度作为其和语料片段的语义相似度。

6)基于投票的语义匹配集成模型根据四种编码方式的中各教材片段出现在前列的次数和相似度选出K个片段作为知识点定位的结果。

这里结合图4说明基于投票的语义匹配集成模型的具体执行步骤：

(1)人为设定好K值，K为用户想要确定的知识点定位的个数；

(2)对于四种编码方式，取出每一种编码方式余弦相似度最大的K个语料片段作为候选集1，相同片段合并为一个；

(3)对于候选集1中的每一个片段，统计其在这四种编码方式的出现次数，按照从大到小进行排列，选出前K个片段作为候选集2。考虑到会有出现次数相同而造成排名并列的问题，允许因为排名并列导致最终的结果数量查过K个；

(4)对于候选集2中的所有片段，将四种编码方式对应的余弦相似度进行求和，将其按照从大到小排列，选出最大的K个作为最终结果并返回，作为定位的最终结果。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种用于知识点定位的语义匹配模型的建立方法，其特征在于，该方法包括以下步骤：

3)对于任意指定的题目以及处理后的语料，根据2)中构建好的词典，计算该题目和所有语料的TF-IDF值，使用基于统计学的语义匹配方法，即TF-IDF，LSI，LDA，分别对语料和题目进行相应的编码，再计算题目和所有语料片段编码的余弦相似度作为该道题和所有语料片段的语义相似度；所述步骤3)中，基于统计学的语义匹配方法按如下步骤对语料和问题进行相应编码：

3-2)将3-1)中获得的语料以及问题的TF-IDF值编码作为列向量组成TF-IDF矩阵，之后，使用LDA进行基于主题模型的分析，得到语料中每份语料属于各个主题的概率，将概率值作为编码；

A＝UΣV^T

3-4)对于以上三种编码方式，分别计算待求题目和教材的余弦相似度以度量题目和各教材片段的相似程度；

4-1)综合考虑3)中三种方法得到的余弦相似度，选择相似度排名最靠前的N个语料对作为正例；

4-2)随机选择不同章节的语句作为负例；

5)使用4)中的数据集对BERT神经网络进行训练，并将该模型用于语料片段和待求题目的编码，同样使用余弦相似度作为题目和语料片段的语义相似度；

6)基于投票的语义匹配集成模型根据四种编码方式中各语料片段出现在前列的次数和余弦相似度选出K个片段作为知识点定位的结果；所述步骤6)中基于投票的语义匹配集成模型按如下步骤确定最终的知识点定位的结果：

6-1)用户设定需要知识点定位的个数K，对于四种编码方式，分别取出余弦相似度最大的K个语料片段作为候选集1；

6-2)统计候选集1中的语料片段出现次数之和，在候选集中选出出现次数最多的K个语料片段作为候选集2，允许次数相同导致最终结果超出K个的情况；

6-4)取出前K个作为最后的匹配结果。

2.根据权利要求1所述的一种用于知识点定位的语义匹配模型的建立方法，其特征在于，所述步骤5)中BERT神经网络的编码方法按如下步骤进行：

5-2)对教材片段以及问题进行分词，并编码形成id；