CN110334184A

CN110334184A - 基于机器阅读理解的智能问答***

Info

Publication number: CN110334184A
Application number: CN201910598073.8A
Authority: CN
Inventors: 王彬; 孙宁; 韩光洁
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2019-10-15

Abstract

本发明提供了一种基于机器阅读理解的智能问答***，该***包括：机器阅读理解模型、用户问答***、管理员后台管理***；所述机器阅读理解模型提供了一种基于注意力机制的机器阅读理解算法，用于在文章中搜索用户提问的答案；所述用户问答***提供了用户提问回答等功能；所述管理员管理***提供了问答文章管理、用户特征探索等功能。整个***完整的实现了一个智能问答***，可以满足用户的问答功能；该***也提供了用于问答的基于注意力机制的机器阅读理解算法。

Description

基于机器阅读理解的智能问答***

技术领域

本发明涉及自然语言处理领域，尤其是一种基于机器阅读理解的智能问答***。

背景技术

随着科技的发展与进步，智能设备与网络的飞速发展，人们日常生活中会产生大量的数据，人类进入了大数据时代。而在这些海量的数据之中，以自然语言形式的保存的数据占据了其中的一部分，而这一部分也是人们获取信息的一个重要来源，人们可以在这些海量数据中搜寻自己需要的信息。但往往在日常的搜索之中需要花费巨大的时间与精力才能找到自己需要的信息。因此，我们对智能问答***的需求日益增长。

目前智能问答***还较为稀少，智能程度也较低，无法较好的理解用户提出的问题并返回正确有效的答案。用户在提问的时候，***给出的答案往往是答非所问，这些答案根本不能使用户得到有用的信息，用户也得不到自己最关心的内容，这样大量的数据都失去了他的价值，没有被完整的利用。所以我们急需一个***，能够根据用户给出的问题，对于文档进行检索，给出问题的答案。这样能够在最简短的时间内，返回给用户有效的信息。

发明内容

本发明提供了一种基于机器阅读理解的智能问答***，包括机器阅读理解模型、用户问答***、管理员后台管理***这三个模块：其中机器阅读理解模型主要用于读入文章与问题，在文章中进行检索，给出问题的答案；用户问答***用于用户用来进行提问，获取答案；管理员后台管理***用于管理员上传文章问题数据对模型进行训练，查看用户对答案的满意程度，对***中的文章进行实时的更新。

机器阅读理解模型提供一种基于注意力机制的机器阅读理解算法，该模型用于读取文章与问题，从文章中检索问题的答案，并将答案返回。整个机器阅读理解算法模型中有五个网络，包括：文章与问题词嵌入层、文章与问题编码层、基于注意力机制的答案搜索层、基于注意力机制的自匹配层、答案输出层。机器阅读理解算法包括如下步骤：

(1)将文章与问题数据输入模型中，对文章与问题内容进行分词、长度压缩等预处理工作；

(2)将处理好的词语输入文章与问题词嵌入层，读取预训练的中文词向量，将词语转换成词向量形式；

(3)将文章词向量与问题词向量输入文章与问题的编码层，对词向量进行编码，生成文章编码向量与问题编码向量；

(4)将文章编码向量与问题编码向量输入基于注意力机制的答案搜索层，先计算问题编码向量对于文章编码向量的注意力向量，找到文章中与问题相关的重点部分，然后生成基于问题注意力的文章编码向量；

(5)将基于问题注意力的文章编码向量输入基于注意力机制的自匹配层，计算基于问题注意力的文章向量与原先的文章向量的注意力向量，从整篇文章中获取与问题有关的信息并且提炼文章编码向量，然后生成自匹配的文章向量；

(6)将自匹配的文章向量输入基于Pointer Networks网络答案输出网络，输出答案的开始位置与结束位置。

上述步骤(1)中的对文章与问题进行预处理操作，步骤如下：

(1-1)对输入的文章与问题进行字符长度判断，如果长度超过预设的长度，则将程序会计算文章中每个段落内容与问题的BLEU-4分数，也就是计算文章段落与问题的之间有多少相关程度，选取其中分数最高也就是相关性最大的一个段落作为最终结果；如果字数不超过预设长度，则不做处理。

(1-2)删除文章中一些无用词，一些无意义的符号；

(1-3)对文章与问题进行分词。

上述步骤(2)中构建的文章与问题词嵌入层：

具体的内容为：文章与问题的词嵌入分为单词级词嵌入与词语级词嵌入；将文章与问题中分割好的词语转换为各自的单词级词向量和和字符级词向量和其中为文章单词词向量集合，为问题单词词向量集合，为文章字符词向量集合，为问题字符词向量集合；字符级的词向量输入双向循环神经网络，使用双向循环神经网络的最终隐藏状态作为最终的字符级的词向量。

文章与问题的词嵌入层是将文章与问题中的词语转换成词向量形式，使用了预训练的大型中文词向量，该预训练词向量中有100w词汇量的中文词向量。将处理好的文章与问题中的词语与预训练词向量中的词语进行匹配，选择相应的词向量作为模型的输入。

上述步骤(3)中构建的文章与问题编码层：

文章与问题的编码层是用于将文章与问题进一步编码，相当于是阅读文章与问题。该层网络构建了3层的GRU网络，输入上一层网络获得的文章向量与问题向量，在GRU网络中，获取其中前向与后向的最终状态作为编码后的结果进行输出，最后得到编码后的文章向量与问题向量。

具体内容为：将文章与问题词向量输入双向循环神经网络中，输入词向量，通过循环神经网络，得到新的向量和u^Q表示问题，u^P表示文章内容，计算公式为：

上述步骤(4)中构建的基于注意力机制的答案搜索层：

基于注意力机制的答案搜索层是用于结合上下文去验证答案是否正确，搜集答案的证据。使用缩放点积注意力机制计算问题对于文章的注意力向量，然后把注意力向量输入单层的GRU网络，计算得出基于问题注意力的文章编码向量，该编码向量中包含了问题内容的全部信息。

具体内容为：对文章编码向量与问题编码向量，通过将文章与问题中词语的软对齐来生成基于问题注意力的文章编码向量计算公式为：

其中，c_t表示的是问题u^Q对于文章内容u^P的注意力向量，使用缩放点积注意力，所述缩放点积注意力向量的计算公式为：

其中的Q，K，V表示为Query向量，Key向量，Value向量，d_k表示为key向量的维数的平方根，Q、K、V的具体表示公式如下：

其中表示为问题编码向量的权重参数，表示为文章编码向量的权重参数。

上述步骤(5)中构建的基于注意力机制的自匹配网络层：

基于注意力机制的自匹配网络层是用于阅读文章上下文，搜集答案的证据。使用缩放点积注意力机制计算基于问题注意力的文章编码向量与文章本身的注意力向量的注意力向量。然后将生成的自匹配注意力向量输入单层GRU单元，汇集上下文中的信息，以佐证在文章中选出的答案是否正确。最后得到包含文章信息的自匹配文章向量。

具体内容为：将基于问题注意力的文章编码向量与文章本身的编码向量进行匹配，能够动态的从整个文章中收集关于问题的相关信息，从上下文中获取有用的证据，以证明某个答案候选者是最终答案，最后获得具有上下文信息，与问题相关的文章编码向量具体的计算公式如下：

其中的c_t表示的是，的自我注意力，使用缩放点积注意力机制，其计算公式为：

Q’、K’、V’的具体公式为：

其中的表示为基于问题注意力的文章编码向量的权重参数，表示为基于问题注意力的文章编码转置向量的权重参数。

上述步骤(6)中构建的答案输出层：

答案输出层使用Pointer Networks网络作为输出网络，用于将答案的开始位置与结束位置进行输出。首先构建注意力池向量计算问题编码向量作为指针网络(PointerNetworks)网络的初始隐藏向量。然后构建指针网络，在网络中使用注意力机制作为指针计算自匹配文章向量中词语作为开始位置与结尾位置的概率，最后选出文章中概率最大的词作为答案的开始位置与结束位置。

具体内容为：使用指针网络网络作为答案输出层，输入自匹配文章编码向量，将问题向量r^Q作为指针网络的初始状态，该向量的计算公式为：

其中v为可学习的参数，和为权重参数，是一组向量参数；使用缩放点积注意力机制用作在文章段落中选择答案的起始位置p¹和结束位置p²的指针，注意力指针的计算公式如下所示：

其中v为可学习的参数，和为权重参数。

用户问答***包括了如下的功能：问题补完功能，在用户输入问题时，可以展示问题的补全选项，帮助用户提问；评价功能，用户可以对给出的答案进行点赞或者差评，评价结果会返回给管理员；兴趣推荐功能，***根据用户的提问信息，向用户提供用户可能感兴趣的问题；***会保存用户的提问状态与提问记录；用户可以查看已问过的所有问题，并可以对感兴趣的问题进行收藏。

***的运行流程如下：

(8-1)用户在***输入页面输入问句；

(8-2)***将输入的问句进行分词；

(8-3)将问题的分词结果输入机器阅读理解模型，模型从文章中搜索出问题的答案；

(8-4)将搜索答案返回给用户；

(8-5)用户可对答案进行评价，将评价结果返回***。

管理员后台管理***帮助管理员进行整个***的管理，包括如下的功能：训练模型，输入数据对模型进行训练；更新文章，将缺少的文章或者老旧的文章进行更新，用于能够更正确的查看问题；查看用户的满意情况，如果用户不满意，则需要进一步了解出现的问题；查看用户提问记录，获取用户的提问趋势。

***的运行流程如下：

(9-1)管理员在后台输入文章与问题对机器阅读理解模型进行训练，训练好的模型用于用户回答答案；

(9-2)管理员在后台检查用户对***返回答案的满意程度，若有不满意的回答，如果答案是偏离正确答案过远，则需要重新调整参数、调整数据，对模型重新进行训练；若是答案过于老旧或者文章中没有包含问题的信息，则需要增添、更新***中的文章，以便***的答案更加实时、有效。

本发明的有益效果：

本发明的整个***完整的实现了一个智能问答***，可以满足用户的问答功能；该***也提供了用于问答的基于注意力机制的机器阅读理解算法。

附图说明

图1是智能问答***组成模块图；

图2是机器阅读理解模型结构图；

图3是用户问答***流程图；

图4是管理员后台管理流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理做详细的描述。

如图1所示，智能问答***由三部分组成，机器阅读理解模型，用户问答***，管理员后台管理***。

机器阅读理解模型提供了一种基于注意力机制的机器阅读理解算法，模型能够对文本进行编码，从文本中搜索有效信息，最后将信息输出。如图2所示，为模型的层次结构。整个模型包括五层网络：文章与问题词嵌入层、文章与问题编码层、基于注意力机制的答案搜索层、基于注意力机制的自匹配层、答案输出层。

实验例：

本发明采用了百度Dureader数据集里训练模型，该数据集数据量很大，并且数据都是由人进行提供与标注的。

模型训练的实现需要实现数据预处理，构建模型中的五层网络，构建损失函数与优化函数，具体实施步骤如下：

(1)数据预处理

对用于训练的文章与问题数据进行预处理，具体操作步骤如下：

(1-1)对文本长度进行处理，本文设定了文章内容最大长度为400个字符，当文章内容小于400字符时不作处理；当文章内容大于400字符时，程序会计算文章中每个段落内容与问题的BLEU-4分数，选取其中分数最高也就是相关性最大的一个段落作为最终结果。

(1-2)使用Jieba分词对处理好的文章内容、问题进行分词，生成分词好的文本数据。之后将分词后的文本输入词表生成程序，生成词表。

(1-3)将所有的数据进行划分批次，一个批次(batch)的数据将一起输入模型进行训练。

(1-4)将每一个批次(batch)中的数据内容保持到同样的长度，也就是在小于固定长度的文章与问题内容使用填充符(<pad>)的id进行字符填充。

(1-5)把一个批次(batch)的数据一同输入模型中进行训练。

(2)构建模型

在模型训练中，batch为16，训练次数为30。具体层网络的构建情况为：

(2-1)文章与问题词嵌入层

文章与问题词嵌入层，将文章与问题分为词语级的词嵌入与字符级的词嵌入。两种词向量都先使用预训练的中文词向量，该词向量的维度的都是300维。字符级的词向量还需要输入一个双向循环神经网络，使用双向循环神经网络的最终隐藏状态作为最终的字符级的词向量。其中双向循环网络的隐藏单元数为48。

(2-2)文章与问题编码层

文章与问题编码层，将文章与问题的词向量输入3层的GRU网络，对词向量进行编码。其中使用了Dropout，比例为0.5；GRU中的隐藏单元数为48。

(2-3)基于注意力机制的答案搜索层

基于注意力机制的答案搜索层，使用缩放点积注意力机制计算了问题对于文章的注意力向量，然后把注意力向量输入单层的GRU网络，计算得出基于问题注意力的文章编码向量。其中使用了Dropout，比例为0.5；GRU中的隐藏单元数为48。

(2-4)基于注意力机制的自匹配层

基于注意力机制的自匹配层，使用缩放点积注意力机制计算了上一层网络生成的基于问题注意力的文章编码向量与他自己本身的注意力向量。然后将生成的自匹配注意力向量输入单层GRU网络，最后得到包含文章信息的自匹配文章向量。其中使用了Dropout，比例为0.5；GRU中的隐藏单元数为48。

(2-5)答案输出层

首先缩放点积注意力机制计算问题编码注意力向量作为指针网络(PointerNetworks)网络的初始隐藏向量。然后构建指针网络，在网络中使用注意力机制作为指针计算自匹配文章向量中词语作为开始位置与结尾位置的概率，最后选出文章中概率最大的词作为答案的开始位置与结束位置。同时因为每个问题对应着多个文档，所以需要对所有文档进行遍历，选出单篇文章中的最佳答案，然后结合所有文章，选出总体上的最佳答案。其中使用了Dropout，比例为0.5；GRU中的隐藏单元数为48。

(3)构建损失函数与优化函数

本发明使用了交叉熵损失函数(Cross_entropy)Softmax函数将模型的输出结果映射为概率，然后交叉熵损失函数计算生成结果与实际结果的差值，并且交叉熵损失函数有着当生成结果与实际结果相差较大时，损失值也就是越大，相应的权重更新速度也越快；如果生成结果与实际结果相差较小时，损失值也就是越小，权重也是小幅度的变化，而且变化幅度是指数级的，这种特性能加速模型的收敛过程。

使用AdaDelta作为优化函数，该优化函数可以自动调节学习率，设置初始学习率为0.5。

如图3所示的用户问答***包括了如下的功能：问题补完功能，在用户输入问题时，可以展示问题的补全选项，帮助用户提问；评价功能，用户可以对给出的答案进行点赞或者差评，评价结果会返回给管理员；兴趣推荐功能，***根据用户的提问信息，向用户提供用户可能感兴趣的问题；***会保存用户的提问状态与提问记录；用户可以查看已问过的所有问题，并可以对感兴趣的问题进行收藏。

如图4所示的管理员后台管理***帮助管理员进行整个***的管理，包括如下的功能：训练模型，输入数据对模型进行训练；更新文章，将缺少的文章或者老旧的文章进行更新，用于能够更正确的查看问题；查看用户的满意情况，如果用户不满意，则需要进一步了解出现的问题；查看用户提问记录，获取用户的提问趋势。

Claims

1.一种基于机器阅读理解的智能问答***，其特征在于，包括：机器阅读理解模型、用户问答***、管理员后台管理***；所述机器阅读理解模型读取文本内容，对文本进行处理，根据用户提出的问题搜索相应的答案；所述用户问答***用于用户进行提问，获取答案；管理员管理***用于管理员上传用于回答的文件，查看用户的提问情况。

2.根据权利要求1中所述的基于机器阅读理解的智能问答***，其特征在于：所述机器阅读理解模型提供了一种基于注意力机制的机器阅读理解算法，所述算法对提供的文章进行处理，从中提取出提问问题的答案，返回结果；所述机器阅读理解算法模型中有五个网络，包括：文章与问题词嵌入层、文章与问题编码层、基于注意力机制的答案搜索层、基于注意力机制的自匹配层、答案输出层；机器阅读理解算法的计算步骤如下：

(2-1)将文章与问题数据输入模型中，对文章与问题内容进行预处理工作；

(2-2)将处理好的词语输入文章与问题词嵌入层，将自然语言的词语转换成词向量形式；

(2-3)将文章词向量与问题词向量输入文章与问题的编码层，生成文章编码向量与问题编码向量；

(2-4)将文章编码向量与问题编码向量输入基于注意力机制的答案搜索层，先计算问题编码向量对于文章编码向量的注意力向量，然后生成基于问题注意力的文章编码向量；

(2-5)将基于问题注意力的文章编码向量输入基于注意力机制的自匹配层，计算基于问题注意力的文章向量与原先的文章向量的注意力向量，然后生成自匹配的文章向量；

(2-6)将自匹配的文章向量输入基于Pointer Networks网络答案输出网络，输出答案的开始位置与结束位置。

3.根据权利要求2中所述的基于机器阅读理解的智能问答***，其特征在于：所述的文章与问题词嵌入层，具体的内容为：文章与问题的词嵌入分为单词级词嵌入与词语级词嵌入；将文章与问题中分割好的词语转换为各自的单词级词向量和和字符级词向量和其中为文章单词词向量集合，为问题单词词向量集合，为文章字符词向量集合，为问题字符词向量集合；字符级的词向量输入双向循环神经网络，使用双向循环神经网络的最终隐藏状态作为最终的字符级的词向量。

4.根据权利要求2中所述的基于机器阅读理解的智能问答***，其特征在于：所述的文章与问题编码层，具体内容为：将文章与问题词向量输入双向循环神经网络中，输入词向量，通过循环神经网络，得到新的向量和u^Q表示问题，u^P表示文章内容，计算公式为：

5.根据权利要求2中所述的基于机器阅读理解的智能问答***，其特征在于：所述基于注意力机制的答案搜索层，具体内容为：对文章编码向量与问题编码向量，通过将文章与问题中词语的软对齐来生成基于问题注意力的文章编码向量计算公式为：

6.根据权利要求2中所述的基于机器阅读理解的智能问答***，其特征在于：所述基于注意力机制的自匹配层，具体内容为：将基于问题注意力的文章编码向量与文章本身的编码向量进行匹配，能够动态的从整个文章中收集关于问题的相关信息，从上下文中获取有用的证据，以证明某个答案候选者是最终答案，最后获得具有上下文信息，与问题相关的文章编码向量具体的计算公式如下：

Q’、K’、V’的具体公式为：

7.根据权利要求2中所述的基于机器阅读理解的智能问答***，其特征在于：所述答案输出层，具体内容为：使用指针网络网络作为答案输出层，输入自匹配文章编码向量，将问题向量r^Q作为指针网络的初始状态，该向量的计算公式为：

其中v为可学习的参数，和为权重参数。

8.根据权利要求1所述的基于机器阅读理解的智能问答***，其特征在于：所述用户问答***为用户提供了提问回答的功能，***的运行流程如下：

(8-1)用户在***输入页面输入问句；

(8-2)***将输入的问句进行分词；

(8-4)将搜索答案返回给用户；

(8-5)用户可对答案进行评价，将评价结果返回***。

9.根据权利要求1所述的基于机器阅读理解的智能问答***，其特征在于：所述管理员管理***为管理员提供了问答***控制灯功能，***的运行流程如下：