CN112364150A

CN112364150A - 一种结合检索与生成的智能问答方法和***

Info

Publication number: CN112364150A
Application number: CN202110035346.5A
Authority: CN
Inventors: 刘鹏; 张真; 曹骝; 刁小宇; 王小聪; 贾雯婕
Original assignee: Nanjing Innovative Data Technologies Inc
Current assignee: Nanjing Innovative Data Technologies Inc
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2021-02-12

Abstract

本发明公开了一种结合检索与生成的智能问答方法，包括：构建预设领域知识库模块；构建检索式问答模块；构建生成式问答模块；将用户问题分别输入检索式问答模块和生成式问答模块，得到对应的两种输出结果；对两种输出结果进行判断，采用预设的答案选择策略选择其中一个作为最终答案，根据选择结果对预设领域知识库进行扩充处理。本发明能够，综合利用检索式问答和生成式问答两种策略，利用检索式问答模块保证领域内智能问答的准确性，同时利用生成式问答模块扩充领域知识库、缓解数据匮乏问题，以此提高智能问答***的应答能力。

Description

一种结合检索与生成的智能问答方法和***

技术领域

本发明涉及智能问答技术领域，具体而言涉及一种结合检索与生成的智能问答方法和***。

背景技术

随着科技的飞速发展，自然语言处理领域得到了显著的突破，问答***逐渐应用在各行各业，智能客服代替人工客服已成为常态化。智能问答***主要是利用海量的语料库信息，建立问题-答案知识体系，高效精准的完成答案的获取。

问答***主要包含检索式问答***和生成式问答***。目前业内主要使用的是基于检索式问答***，通过构建问答知识对，根据问题相似度返回知识库中固定结果。而当针对预设领域的知识相对较少时，构建完备的知识库需要大量人力成本，同时依旧会存在知识库数据匮乏、涉及范围不足等问题，无法返回正确答案。而生成式问答***则是通过大量语料库信息，提取特征信息，***基于已有知识生成答案，但该***体系不够完善，相对匮乏。

因此，如何设计一套针对预设领域的智能问答***，使其在知识库范围内能够完成高准确率、高效率的回答，同时在知识库范围外具有较好的应答能力，动态扩充知识库，针对重复性、常见性问题，节省人力成本是非常重要的。

发明内容

本发明针对现有技术中的不足，提供一种结合检索与生成的智能问答方法和***，综合利用检索式问答和生成式问答两种策略，利用检索式问答模块保证领域内智能问答的准确性，同时利用生成式问答模块扩充领域知识库、缓解数据匮乏问题，以此提高智能问答***的应答能力。

为实现上述目的，本发明采用以下技术方案：

一种结合检索与生成的智能问答方法，所述智能问答方法包括以下步骤：

S1，构建预设领域知识库模块：

基于预设领域问答数据建立问题-答案索引，构建预设领域知识库；

S2，构建检索式问答模块：

对预设领域知识库的问答文本数据进行分词处理，利用word2vec训练预设领域知识库中的词向量，并存储预设领域知识库中问题的向量编码，构建检索式问答模块；

S3，构建生成式问答模块：

搜集整理包括预设领域在内的多领域百科类问答数据集，对其中包含的问答数据进行预处理后导入GPT-2模型进行训练，得到预训练语言模型；将预设领域知识库中的问答数据分别拼接成为先问后答与先答后问的形式，生成微调语料T0和T1，采用微调预料T0对预训练语言模型进行训练得到生成式问答模型Model0，采用微调语料T1对生成式问答模型Model0进行训练得到生成式问答模型Model1；

S4，将用户问题输入检索式问答模块，检索式问答模块对用户输入问题进行分词处理，并基于预设领域知识库词对应的编码向量，使用余弦相似度计算输入问题与预设领域知识库问题的相似度并按照相似度大小排序，输出相似度最高的问题对应的答案；

S5，将用户问题输入生成式问答模型Model0并输出多个候选回答，采用生成式问答模型Model1计算多个候选回答的损失值，将损失值最低的回答作为生成式问答模块的最终输出；

S6，对步骤S4和步骤S5的输出结果进行判断，采用预设的答案选择策略选择其中一个作为最终答案，根据选择结果对预设领域知识库进行扩充处理。

为优化上述技术方案，采取的具体措施还包括：

进一步地，步骤S1，所述基于预设领域问答数据建立问题-答案索引，构建预设领域知识库的过程包括以下步骤：

S11，搜集预设领域问答数据，数据形式为问题-答案数据对，建立问题-答案索引，生成初始问答知识库；

S12，依据步骤S6中的答案选择策略，当选择结果为生成式问答模块输出时，将输出的答案与对应的问题存入知识扩充库；

S13，人工检查、矫正知识扩充库答案后，将矫正后的问题-答案存入预设领域知识库，并清理知识扩充库。

进一步地，步骤S2中，所述对预设领域知识库的问答文本数据进行分词处理，利用word2vec训练预设领域知识库中的词向量的过程包括以下步骤：

对预设领域知识库中的问答数据按词进行切分，经过去除停用词和大小写转换步骤后，通过word2vec转换为词向量的形式。

进一步地，步骤S3中，所述构建生成式问答模块包括以下步骤：

S31，搜集整理预训练语料，包括跨领域百科类问答数据集和百科词条数据集，具体形式分别为问题-答案和词条-答案，对预训练语料按字进行切分，切分后的数据按照问题-答案形式进行拼接，问题与答案之间添加词表中的分隔符；

S32，准备微调语料，微调语料T0和T1均来源于预设领域知识库问答语料T，且T0和T1的切分方式相同，不同之处在于微调语料T0切分后的数据按照问题-答案形式进行拼接，微调语料T1在切分后的数据按照答案-问题形式进行拼接，问题与答案之间添加分隔符进行标记；

S33，将预训练语料与微调语料通过词嵌入的方式转化为向量形式，经过位置嵌入形成带有位置信息的向量；

S34，将预训练语料输入GPT-2模型，以模型损失值最小化为目标函数，利用误差反向传播算法对GPT模型进行训练，得到预训练语言模型；

S35，将微调语料T0输入预训练语言模型，以输出准确率最大化作为目标函数，利用误差反向传播算法对预训练语言模型训练多个轮次，观察到损失值收敛时保存得到生成式问答模型Model0；

S36，将微调语料T1输入生成式问答模型Model0，重复步骤S35中的训练过程对生成式问答模型Model0进行训练，观察到损失值收敛时保存得到生成式问答模型Model1。

进一步地，步骤S5中，所述采用生成式问答模型Model1计算多个候选回答的损失值的过程包括以下步骤：

将生成式问答模型Model0输出的多个候选答案分别与历史问题库中的问题进行拼接，历史问题库用于存储单次对话用户之前所输入的问题，拼接形式为先答后问，将拼接后的结果输入至生成式问答模型Model1，计算多个候选答案的损失值。

进一步地，步骤S6中，所述预设的答案选择策略是指：

设定相似度阈值，若检索式问答模块输出结果对应的相似度大于等于相似度阈值，则输出检索式问答模块的回答，反之则输出生成式问答模块的回答。

进一步地，所述GPT-2模型包括10层依次顺序连接的结构相同的Transformer 解码器模块。

基于前述智能问答方法，本发明还提及一种结合检索与生成的智能问答***，所述智能问答***包括预设领域知识库模块、检索式问答模块、生成式问答模块、用户问题接收模块和答案选择模块；

所述预设领域知识库模块用于基于预设领域问答数据建立问题-答案索引，构建预设领域知识库，并根据历史回答数据对预设领域知识库进行扩充处理；

所述用户问题接收模块用于接收用户输入的问题，将之分别发送至检索式问答模块和生成式问答模块；

所述检索式问答模块用于用户输入问题进行分词处理，并基于预设领域知识库词对应的编码向量，使用余弦相似度计算输入问题与领域知识库问题的相似度并按照相似度大小排序，输出相似度最高的问题对应的答案；

所述生成式问答模块包括生成式问答模型Model0和生成式问答模型Model1，所述生成式问答模型Model0用于对输入用户问题进行处理并输出多个候选回答，所述生成式问答模型Model1用于计算多个候选回答的损失值，将损失值最低的回答作为生成式问答模块的最终输出；

所述答案选择模块用于采用预设的答案选择策略选择检索式问答模块和生成式问答模块中其中一个的输出答案作为最终答案。

本发明的有益效果是：

本发明基于检索式问答模型，设计生成式问答流程及答案优化策略，并结合检索式问答模型，使得预设领域智能问答任务不再受限于数据量匮乏、数据分布分散、问答连贯性较差等问题，提高问答***在预设领域知识库范围内外的应答能力，使用多领域数据提高智能问答任务效率，使用生成式问答选择策略提高回答质量，并通过知识库维护方案增量扩充知识库数据，为领域单一、数据匮乏的智能问答任务提供新思路。

本发明基于GPT-2模型构建生成式问答模块，设计生成式问答流程及答案优化策略，同时结合检索式问答模型，使得预设领域智能问答任务不再受限于数据量匮乏、数据分布分散、问答连贯性较差等问题，提高问答***在预设领域知识库范围内外的应答能力，使用多领域数据提高智能问答任务效率，使用生成式问答选择策略提高回答质量，并通过知识库维护方案增量扩充知识库数据，为领域单一、数据匮乏的智能问答任务提供新思路。

附图说明

图1是本发明的结合检索与生成的智能问答方法流程图。

图2是本发明的结合检索与生成的智能问答***的结构示意图。

图3为生成式问答模块的总体框架示意图。

图4为生成式问答模块中的GPT-2模型单层Transformer Decoder block的内部结构示意图。

图5为生成式问答模块的问答流程示意图。

图6为本发明的答案选择策略以及知识库维护方法示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

结合图1和图2，本发明提及一种结合检索与生成的智能问答方法，所述智能问答方法包括以下步骤：

S1，构建预设领域知识库模块：

基于预设领域问答数据建立问题-答案索引，构建预设领域知识库。

S2，构建检索式问答模块：

对预设领域知识库的问答文本数据进行分词处理，利用word2vec训练预设领域知识库中的词向量，并存储预设领域知识库中问题的向量编码，构建检索式问答模块。

S3，构建生成式问答模块：

搜集整理包括预设领域在内的多领域百科类问答数据集，对其中包含的问答数据进行预处理后导入GPT-2模型进行训练，得到预训练语言模型；将预设领域知识库中的问答数据分别拼接成为先问后答与先答后问的形式，生成微调语料T0和T1，采用微调预料T0对预训练语言模型进行训练得到生成式问答模型Model0，采用微调语料T1对生成式问答模型Model0进行训练得到生成式问答模型Model1。

S4，将用户问题输入检索式问答模块，检索式问答模块对用户输入问题进行分词处理，并基于预设领域知识库词对应的编码向量，使用余弦相似度计算输入问题与预设领域知识库问题的相似度并按照相似度大小排序，输出相似度最高的问题对应的答案。

S5，将用户问题输入生成式问答模型Model0并输出多个候选回答，采用生成式问答模型Model1计算多个候选回答的损失值，将损失值最低的回答作为生成式问答模块的最终输出。

下面以一个具体实施例对本发明的结合检索与生成的智能问答方法的具体步骤进行说明，应当理解，其中选取的数字如词向量维度为128维，只考虑词频大于5的词数据等均为简化说明需要，并非唯一取值。

步骤一：通过人工收集与基于实际使用情况相结合的实时更新策略构造智能问答知识库。具体实施过程如下：

1、通过人工和数据爬取相结合收集问答数据集：

通过查阅相关文献以及结合专家建议，收集该领域的常见专业术语、关键词等信息，同时适当衍生相关领域信息，利用脚本爬取相关原始数据文本。整理原始数据，得到目标领域数据，随后对数据去噪处理，删除文本中的无关信息。将整理后的数据文本划分为问题和答案对，生成初始领域知识库。

因生成式语言模型需要，同时收集百科类问答数据集，做上述重复操作，得到百科类问答知识库。

2、实时更新领域知识库：

根据用户实时使用情况，针对初始知识库中未出现的问题，即问题相识度低于指定阈值，提取生成式语言模块对应答案，结合人工筛选，确定答案合理性后，添加到领域知识库中。

步骤二：利用现代汉语语料库以及领域知识，构造领域词典，结合词典，采用双向最大匹配法对领域知识库中的问题集以及对应答案集分别分词，同时去除特殊符号、标点符号、停用词后，得到

，以及

，其中，

表示问题集文本分隔开的第i个词，

表示答案集文本分隔开的第i个词。

步骤三：结合问题集与答案集分词后数据，通过TF-IDF算法，对分词数据集排序，假设为

。

步骤四：训练出领域词向量，计算问题相似度，构建检索式问答模块，具体内容如下：

1．针对上述排序后的分词数据集

，利用word2vec方法，训练词向量模型，其中训练后每个词向量维度为128维，只考虑词频大于5的词数据。

2．将提问语句重复分词、去除停用词等操作，将知识库问题集以及提问语句分词数据，根据训练后的word2vec词向量表示进行映射处理，分别得到知识库问题集词嵌入向量组Vec1=（

），以及提问语句词嵌入向量Vec2=

，其中

和

的维度均为128。

3．利用余弦距离：

计算知识库问题以及提问语句之间相似度值，其中

为知识库问题集中每个问题对应的词嵌入向量，

代表提问语句词嵌入向量。得到提问语句与知识库问题集间的匹配相似度P_i，选取最大相似度

，此处设定一个相似度阈值

，如果

>

，则输出

问题对应知识库中的答案文本，反之输出生成模块的结果。

步骤五：利用多领域百科类问答数据对GPT-2模型进行预训练，生成关注上下文信息的预训练语言模型，然后结合预设领域知识对预训练语言模型进行微调，构建基于GPT-2模型的生成式问答模型，具体内容如下：

1、将领域知识库中的问题集以及答案集分别映射到word2vec模型词向量中，得到文本词嵌入向量，同时计算位置向量，计算公式为：

其中，pos为当前字的位置索引，i表示对应的词向量某一维度，

为词向量维度。

2.构建基于多层Transformer Decoder block的GPT-2模型，训练生成预训练语言模型：

（1）利用包含Masked自注意力子块M和全连接前馈神经网络子块FN的顺序连接，构造Transformer解码器模块，每个子块都包含残差连接和层归一化处理，每一个Transformer解码器模块的输出表示为：

其中Norm()为层归一化函数，M表示Masked自注意力子块，FN表示全连接前馈神经网络子块。

归一化函数Norm的输出表示为：

。

（2）搭建10层基于Transformer Decoder block的GPT-2模型，其中每个Transformer Decoder block结构相同，依次顺序连接起来，即形成GPT-2模型，整个模型的输出表示为：

。

（3）使用多领域百科类知识问答数据进行预训练，利用误差反向传播算法更新模型内部各个参数，使得模型损失值最小化，得到语言模型，其中模型损失值计算：

式中，

为输入是

时模型的准确率。

3. 利用预设领域知识库构建语料库，微调语言模型得到生成式问答模型Model0和Model1。

（1）利用预设领域知识库中的问题和答案构建先答后问微调语料库T0，输入预训练语言模型，得到结果P，建立生成式问答模型Model0，其中，模型Model0的输出选择[CLS]对应的输出向量C，计算过程为：

其中，

为全连接层参数。

（2）以生成式问答模型Model0的输出准确率最大化作为目标函数，利用误差反向传播算法训练模型，得到最终训练的生成式问答模型Model0。

（3）利用领域知识库的问题和答案构建先问后答微调语料库T1，输入生成式问答模型Model0，重复上述训练过程，得到生成式问答模型Model1。图3为生成式问答模块的总体框架示意图。图5为生成式问答模块的问答流程示意图。

步骤六：接收用户传递的中文提问语句，同时输入检索式问答模块和生成式问答模块中，根据实际情况返回***回答：

1．将提问语句输入到生成式问答模块中，得到生成式问答模型Model0输出的5个生成式回答，生成式问答模型Model1分别计算结果损失值，选择损失值最小的结果作为候选答案answer1；

2．将用户输入的中文提问语句，输入到检索式问答模块中，得到与问题集之间的匹配概率Pi，设定相似度阈值

，若匹配概率的最大值

>

，则将

对应问题的答案answer2作为***最终推荐答案answer，反之将answer1作为***最终推荐答案answer。

图6为本发明的答案选择策略以及知识库维护方法示意图。

综上，本发明所述的智能问答***将检索式问答与生成式问答相结合，使用预设领域知识以及多领域知识以提高问答***的准确率及应答能力，在实际情况中适用性强，同时针对语料库较小的领域问答任务也有较好的表现。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种结合检索与生成的智能问答方法，其特征在于，所述智能问答方法包括以下步骤：

S1，构建预设领域知识库模块：

S2，构建检索式问答模块：

S3，构建生成式问答模块：

2.根据权利要求1所述的结合检索与生成的智能问答方法，其特征在于，步骤S1，所述基于预设领域问答数据建立问题-答案索引，构建预设领域知识库的过程包括以下步骤：

3.根据权利要求1所述的结合检索与生成的智能问答方法，其特征在于，步骤S2中，所述对预设领域知识库的问答文本数据进行分词处理，利用word2vec训练预设领域知识库中的词向量的过程包括以下步骤：

4.根据权利要求1所述的结合检索与生成的智能问答方法，其特征在于，步骤S3中，所述构建生成式问答模块包括以下步骤：

S31，搜集整理预训练语料，包括跨领域百科类问答数据集和百科词条数据集，具体形式分别为问题-答案和词条-答案，对预训练语料按字进行切分，切分后的数据按照问题-答案形式进行拼接，问题与答案之间添加分隔符进行标记；

S32，准备微调语料，微调语料T0和T1均来源于预设领域知识库问答语料T，且T0和T1的切分方式相同，不同之处在于微调语料T0切分后的数据按照问题-答案形式进行拼接，微调语料T1在切分后的数据按照答案-问题形式进行拼接，问题与答案之间添加分隔符；

5.根据权利要求1所述的结合检索与生成的智能问答方法，其特征在于，步骤S5中，所述采用生成式问答模型Model1计算多个候选回答的损失值的过程包括以下步骤：

6.根据权利要求1所述的结合检索与生成的智能问答方法，其特征在于，步骤S6中，所述预设的答案选择策略是指：

7.根据权利要求1所述的结合检索与生成的智能问答方法，其特征在于，所述GPT-2模型包括10层依次顺序连接的结构相同的Transformer 解码器模块。

8.一种基于权利要求1-7任意一项中所述智能问答方法的结合检索与生成的智能问答***，其特征在于，所述智能问答***包括预设领域知识库模块、检索式问答模块、生成式问答模块、用户问题接收模块和答案选择模块；