CN111553159A

CN111553159A - 一种问句生成方法及***

Info

Publication number: CN111553159A
Application number: CN202010330059.2A
Authority: CN
Inventors: 许光銮; 于泓峰; 张文凯; 田雨; 李沛光; 姚方龙; 武斌; 刘那与
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-08-18
Anticipated expiration: 2040-04-24
Also published as: CN111553159B

Abstract

本发明提供一种问句生成方法及***，包括：基于命名实体识别工具对待阅读理解文本进行识别，得到答案部分；将待阅读理解文本和相应的答案部分带入预先训练好的问句生成模型生成针对答案的多个问句；对多个问句进行订正后得到待阅读理解文本对应的问句；其中，问句生成模型，基于已有的对话***与阅读理解文本在多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制对阅读理解文本中的命名实体其进行替换，提高了生成问句的执行速度和准确度、挺高了扩展性，大幅度减少了人工标注，同时利用已有的对话***提高了问句生成的可读性及多样性。

Description

一种问句生成方法及***

技术领域

本发明属于处理自然语言数据技术领域，具体涉及一种问句生成方法及***。

背景技术

随着网络信息的***式的增长，各种信息充斥着整个网络环境。人们现在已经习惯于去网络上搜寻一些解决问题的方法。当用户并不是十分熟悉一些搜索技巧的时候，他们往往需要花费很多的时间去筛选搜索引擎返回的结果。交互对话***与阅读理解***的诞生有效的解决了前面提到的信息烦杂的问题。交互对话***与阅读理解***采用自然语言处理的方法将用户提交的问题进行分析，获取相关答案然后返回给用户。

问句自动生成将会在缺少人机交互的情况下为交互式问答***提供问答对。这些问答对可以根据***需要限定在某一领域内存在也可以作为通用领域问答对。为交互对话***与阅读理解***提供数据支撑。问句的自动生成是一项集自然语言处理与自然语言生成于一体的项目。如何的在没有人参与的情况下机器自动的正确的生成问句，根据一定的文本生成怎样的问句，生成问句的优劣评定是目前问句自动生成研究者共同面对的难题。如果能正确的解决以上三个问题，问句自动生成将会被应用到生活的各个方面。同时，我们发现由于当前对话***与阅读理解***由于缺少相关问句的支持，也使得对话***与阅读理解的内容过于单一，不适合当前人们的需求。目前虽然有一些问句生成方法，但是问句生成采用传统规则的方法同时需要大量的人工标注，因此导致生成问句的过程存在生成性能的不足、可扩展性差、执行速度慢、生成性能较低，不足以满足当前人们的需求。

发明内容

为了解决现有技术中存在的问题，本发明的目的在于提供一种问句生成方法，包括：

基于命名实体识别工具对待阅读理解文本进行识别，得到答案部分；

将所述待阅读理解文本和相应的答案部分带入预先训练好的问句生成模型生成针对所述答案的多个问句；

对所述多个问句进行订正后得到待阅读理解文本对应的问句；

其中，所述问句生成模型，基于已有的对话***与阅读理解文本在多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制对阅读理解文本中的命名实体其进行替换，得到用对话***表达的问句。

优选的，所述问句生成模型的训练包括：

选择已经标注出问句和答案的阅读理解文本，并进行数据过滤；

对过滤后的阅读理解文本采用命名实体识别工具进行识别得到答案部分；

根据阅读理解文本、答案部分以及注出的问句构建训练数据集，并将所述训练数集据进行多细粒度的分割得到训练集、验证集和测试集；

基于训练集在双向自注意力机制的多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制对所述训练数据以及进行训练对话***进行训练得到问句生成模型；

其中所述属性包括：数据格式和专业方向。

优选的，所述基于训练集使用基于双向自注意力机制的多层多尺度的transformer网络的算法模型对所述训练数据以及进行训练对话***进行训练得到问句生成模型，包括：

基于占位符机制，利用固定占位符关键字对阅读理解文本包括的篇章段落中的命名实体其进行依次进行记录与替换；

将实体替换后的篇章段落及答案送入transformer编码器之中获得中间层向量；

将编码器输出的中间层向量送入到由自注意力机制与拷贝机制构成的transformer解码器之中生成问句；

利用篇章段落中记录固定占位符关键字标记対生成问句中的占位符进行替换。

优选的，所述问句生成模型的训练还包括：

将所述测试集中的阅读理解文本和答案部分带入训练后的问句生成模型得到答案部分对应的预测问句；

基于所述测试集中的问句与所述预测问句对所述问句生成模型进行优化。

优选的，所述问句生成模型的训练还包括：

利用验证集对优化后的问句生成模型进行优化评估。

优选的，所述对过滤后的阅读理解文本采用命名实体识别工具进行识别得到答案部分，包括：

基于命名实体识别工具对阅读理解文本进行实体标注，将标注后的实体作为答案，拼接到篇章段落后；

所述实体类型包括：人物、组织、时间、地点。

优选的，所述对训练数据进行多细粒度的分割得到训练集、验证集和测试集，包括：

基于实体类型从所述训练数据中随机选取80％个样本作为训练集；选择10％个样本划分为验证集；将所述训练数据中剩余的10％个样本划分为测试集；

且训练集，验证集与测试集中实体类型数据比例相同。

优选的，所述将待阅读理解文本带入预先训练好的问句生成模型中，生成多个问句，之前还包括：

将待识别的待阅读理解文本进行数据处理；

基于现有阅读理解文本格式对待识别的待阅读理解文本的格式进行调整，保证数据属性保持一致。

优选的，所述数据处理包括：

对数据进行分句、分词、词向量嵌入处理、正则化和清洗。

基于同一种发明构思，本发明还提供一种问句生成***，包括：

数据准备模块，用于基于命名实体识别工具对待阅读理解文本进行识别，得到答案部分；

问句生成模块，用于将所述待阅读理解文本和相应的答案部分带入预先训练好的问句生成模型生成针对所述答案的多个问句；

问句确定模块，用于对所述多个问句进行订正后得到待阅读理解文本对应的问句；

本发明的有益效果是

本发明提供一种问句生成方法及***，包括：基于命名实体识别工具对待阅读理解文本进行识别，得到答案部分；将所述待阅读理解文本和相应的答案部分带入预先训练好的问句生成模型生成针对所述答案的多个问句；对所述多个问句进行订正后得到待阅读理解文本对应的问句；其中，所述问句生成模型，基于已有的对话***与阅读理解文本在多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制对阅读理解文本中的命名实体其进行替换，得到用对话***表达的问句，利用在多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制提高了生成问句的执行速度和准确度、挺高了扩展性，大幅度减少了人工标注，同时，利用已有的对话***提高了问句生成的可读性及多样性。

附图说明

图1为本发明的问句生成方法流程图；

图2为本发明基于transformer与命名实体识别的问句生成方法步骤示意图；

图3为本发明的问句生成***框图。

具体实施方式

下面结合具体实施方式对本发明进行详细说明。

实施例1，如图1所示和图2所示，本发明的技术方案如下：

S1基于命名实体识别工具对待阅读理解文本进行识别，得到答案部分；

S2将所述待阅读理解文本和相应的答案部分带入预先训练好的问句生成模型生成针对所述答案的多个问句；

S3对所述多个问句进行订正后得到待阅读理解文本对应的问句；

其中，所述问句生成模型，基于已有的对话***与阅读理解文本在多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制对阅读理解文本中的命名实体其进行替换，得到用对话***表达的问句。本发明提到的transformer是一种神经网络架构。

其中问句生成模型生成的具体过程如下：

步骤1：选择已有的对话***与阅读理解文本，选择的对话***与阅读理解文本具有相同的属性，例如具有相同数据格式、具有相同专业方向等。数据的预处理包括对文本的分句、分词、word embedding、正则化、清洗等，其目的是对已有的数据进行优化和扩充。

步骤2：对处理好的数据采用现有的命名实体识别工具进行处理，获得每个词的实体特征，如人物、组织、时间、地点等实体信息，将其融入到word embedding中。获取更好的预处理结果。

这里命名实体识别工具可以采用现有的统计机器学习模型的命名实体识别工具。

步骤3：根据扩充之后的数据分割训练集和测试集。使用算法对训练集中的数据进行训练，根据测试集性能指标，选择最优的模型。

更进一步，训练算法使用深度学习算法，算法采用基于transformer的语言模型。该模型的transformer龙骨架构由两部分组成，第一部分为transformer的编码层层，第二部分为由自注意力机制与拷贝机制构成的transformer解码层。为了提高模型的在生成问句方面的表现，本发明在transformer架构上加入了拷贝机制和占位符机制这两种机制来弥补词表不足的情况(Out-of-vocabulary)。其中，copy机制从原句中选择要复制的单词，来解决生成未知词和低频词的问题，通过使用两个不同的softmax层来预测模型将要生成词的来源。在模型每一次预测的过程中，均使用多层感知器来决定使用哪个softmax层来生成单词。占位符机制则是由固定占位符关键字对包含答案文档中的命名实体其进行替换：上下文中被命名实体识别模型标记为命名实体的所有单词都被替换为表示其实体的固定占位符关键字，并对其进行记录与排序，映射保存在内存中。比如对于法律文书中的一个片段“李明在华联超市购买了一把水果刀”，其中有两个命名实体“李明”和“华联超市”，通过占位符机制我们将其替换为“Person_1”，“Organization_1”，则原句变为“Person_1在Organization_1购买了一把水果刀”。在训练过程中，模型对目标问题采用相同的步骤。在评测过程中，固定占位符关键字将被相应的命名实体替换，作为后期处理步骤。训练方法采用监督训练和分阶段训练模型。监督训练，预处理后的文本作为训练的输入数据，预处理后的文本的生成结果作为输出参考，根据每次训练的结果优化模型。分阶段训练，调整模型学习率，初始学习率从10^-3开始，每次学习率降低10倍，降到10^-8停止。每迭代训练一次训练集，进行一次测试集性能指标测试，观察测试集的性能指标变化，当性能指标不再变化时，选择其对应的模型作为最优模型。

以上三步为问句生成模型的方法，当有新的阅读理解文本需要进行问句生成时可以利用已经训练好的问句模型直接生成，也可以为了提高生成的准确度重新训练后，再利用新训练好的问句模型生成问句。

步骤4：对新获取的阅读理解文本，分析其属性是否和步骤1中选择的对话***与阅读理解文本属性相同，如果属性不同，在后面的预处理操作过程中，尽量让其与步骤1中选择的数据属性保持一致。对文本进行预处理操作。预处理包括对数据进行分句、分词、映射处理word embedding、正则化和清洗，清洗包括对海量网址、图片、脏乱文字进行过滤,

步骤5：对通过步骤4预处理过后的文本，通过现有的命名实体识别工具，查找当前文本中的实体，将其作为预选答案部分，再将其一并送入步骤3中的模型中得到最优模型中进行问句生成操作，预测问句。

步骤6：基于人机交互界面舍弃不正常的生成结果，不用于后面的更新升级。对正常的问句生成结果，对其进行分析，并校正。

步骤7：保存校正后的问句生成结果到数据库。

本实施例进一步的还可以包括：当新获取的对话***与阅读理解文本数量达到一定规模时，重复上述步骤1中的数据预处理操作、步骤2，对模型进行自动迭代更新升级。

更进一步，模型更新可以选择自动更新升级或者手动一键更新升级。

实施例2：

在本实施例中，设定待阅读理解文本包括一个陈述句，该陈述句可以理解为答案，例如：北京是中国的首都，

首先对该句子进行预处理包括对文本的分句、分词、词向量嵌入、正则化、清洗等得到：分词：<北京><是><中国><的><首都>

然后，对上述处理好的数据采用现有的命名实体识别工具进行处理，获得每个词的实体特征，得到：<北京>与<中国>为地名

最后，利用实施例1步骤3-5的训练方法，将命名实体信息进行编码，同时融入到词嵌入之中；再将融入命名实体信息的词嵌入模型送入到transformer问句生成模型中，得到问句：中国的首都是哪里？

实施例3，

为了实现上述方法，本发明还提供一种问句生成***，包括：

问句生成模块，用于将所述待阅读理解文本和相应的答案部分带入预先训练好的问句生成模型生成针对答案的多个问句；

问句确定模块，用于对多个问句进行订正后得到待阅读理解文本对应的问句；

其中，问句生成模型，基于已有的对话***与阅读理解文本在多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制对阅读理解文本中的命名实体其进行替换，得到用对话***表达的问句。

其中，问句生成模块中问句生成模型的训练包括：

根据阅读理解文本、答案部分以及注出的问句构建训练数据集，并将训练数集据进行多细粒度的分割得到训练集、验证集和测试集；

基于训练集在双向自注意力机制的多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制对训练数据以及进行训练对话***进行训练得到问句生成模型；

其中属性包括：数据格式和专业方向。

基于训练集使用基于双向自注意力机制的多层多尺度的transformer网络的算法模型对训练数据以及进行训练对话***进行训练得到问句生成模型，包括：

将实体替换后的篇章段落及答案送入由transformer编码器之中；

将解码器输出的隐层向量送入到由自注意力机制与拷贝机制构成的transformer解码器之中生成问句；

问句生成模型的训练还包括：

将测试集中的阅读理解文本和答案部分带入训练后的问句生成模型得到答案部分对应的预测问句；

基于测试集中的问句与预测问句对问句生成模型进行优化。

问句生成模型的训练还包括：

利用验证集对优化后的问句生成模型进行优化评估。

对过滤后的阅读理解文本采用命名实体识别工具进行识别得到答案部分，包括：

实体类型包括：人物、组织、时间、地点。

对训练数据进行多细粒度的分割得到训练集、验证集和测试集，包括：

基于实体类型从训练数据中随机选取80％个样本作为训练集；选择10％个样本划分为验证集；将训练数据中剩余的10％个样本划分为测试集；

且训练集，验证集与测试集中实体类型数据比例相同。

将待阅读理解文本带入预先训练好的问句生成模型中，生成多个问句，之前还包括：

将待识别的待阅读理解文本进行数据处理；

数据处理包括：

对数据进行分句、分词、词向量嵌入处理、正则化和清洗。

以上所述仅是对本发明的较佳实施方式而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施方式所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种问句生成方法，其特征在于，包括：

2.如权利要求1所述的问句生成方法，其特征在于，所述问句生成模型的训练包括：

其中所述属性包括：数据格式和专业方向。

3.如权利要求2所述的问句生成方法，其特征在于，所述基于训练集使用基于双向自注意力机制的多层多尺度的transformer网络的算法模型对所述训练数据以及进行训练对话***进行训练得到问句生成模型，包括：

将实体替换后的篇章段落及答案送入由transformer编码器之中得到中间向量；

将中间向量输入解码器中生成问句，其中解码器由自注意力机制与拷贝机制构成的transformer解码器构成；

4.如权利要求3所述的问句生成方法，其特征在于，所述问句生成模型的训练还包括：

5.如权利要求4所述的问句生成方法，其特征在于，所述问句生成模型的训练还包括：

利用验证集对优化后的问句生成模型进行优化评估。

6.如权利要求2所述的问句生成方法，其特征在于，所述对过滤后的阅读理解文本采用命名实体识别工具进行识别得到答案部分，包括：

所述实体类型包括：人物、组织、时间、地点。

7.如权利要求2所述的问句生成方法，其特征在于，所述对训练数据进行多细粒度的分割得到训练集、验证集和测试集，包括：

且训练集，验证集与测试集中实体类型数据比例相同。

8.如权利要求1所述的问句生成方法，其特征在于，所述将待阅读理解文本带入预先训练好的问句生成模型中，生成多个问句，之前还包括：

将待识别的待阅读理解文本进行数据处理；

9.如权利要求8所述的问句生成方法，其特征在于，所述数据处理包括：

对数据进行分句、分词、词向量嵌入处理、正则化和清洗。

10.一种问句生成***，其特征在于，包括：

数据准备模块，用于命名实体识别工具对待阅读理解文本进行识别，得到答案部分；