CN111061851B

CN111061851B - 基于给定事实的问句生成方法及***

Info

Publication number: CN111061851B
Application number: CN201911276552.4A
Authority: CN
Inventors: 刘康; 何世柱; 赵军; 刘操
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2023-08-08
Anticipated expiration: 2039-12-12
Also published as: CN111061851A

Abstract

本发明涉及一种基于给定事实的问句生成方法及***所述问句生成方法包括：获取历史参考数据，所述历史参考数据包括多条不同用户的历史输入信息；对各历史输入信息进行扩展，得到对应的上下文表示；根据各所述输入信息及对应的上下文表示，建立问句生成模型；基于所述问句生成模型，根据当前用户的当前输入信息，确定所述当前输入信息对应的问句序列。本发明通过历史参考数据建立问句生成模型；能够基于所述问句生成模型，可根据当前用户给定的少量当前输入信息，即可准确确定所述当前输入信息对应的问句序列。

Description

基于给定事实的问句生成方法及***

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于给定事实的问句生成方法及***。

背景技术

随着互联网的蓬勃发展和网络通讯终端的日益普及，人们每天都会接触涉及各个领域的海量信息。知识库问答可以帮助人们快速地从海量信息中获取知识，从而减轻人类的学习成本。然而，知识库问答严重依赖人工标注数据，问答对(pair)的标注数据成为制约问句技术和问答***开发的瓶颈资源，问句生成可以有效解决这一问题。

问句生成这一任务主要从给定的答案及其辅助信息中自动生成问句。给定的答案及辅助信息可能是纯文本形式，也可能是结构化的知识库。问句生成有着如下用途：1.自动构建问答的数据资源，或者减少人工标注问答对的工作量；2.用于数据增强，提高问答***的性能；3.作为一个典型的文本生成任务，可以促进文本生成技术的发展和进步。

然而，传统问句生成方法容易生成谓词不匹配的问句，如表1中的给定输入<自由女神像，位置，纽约市>，可能会生成Q1(谁创作了自由女神像？)这样不能表达给定谓词的问句，此外，传统方法生成的问句容易对应多个模棱两可的答案，如Q2(自由女神像在哪？)有着多个正确答案(如，美国、纽约州、纽约市等等)，这使得传统方法生成的问句难以实用化。

表1

发明内容

为了解决现有技术中的上述问题，即为了解决基于少量给定事实，准确确定问题，本发明提供一种基于给定事实的问句生成方法及***。

为解决上述技术问题，本发明提供了如下方案：

一种基于给定事实的问句生成方法，所述问句生成方法包括：

获取历史参考数据，所述历史参考数据包括多条不同用户的历史输入信息；

对各历史输入信息进行扩展，得到对应的上下文表示；

根据各所述输入信息及对应的上下文表示，建立问句生成模型；

基于所述问句生成模型，根据当前用户的当前输入信息，确定所述当前输入信息对应的问句序列。

可选地，所述历史参考数据还包括多条监督信息，各所述监督信息包括对应历史输入信息的人工标注问句及参***；

所述问句生成方法还包括：

根据所述监督信息，对所述问句生成模型进行修正，得到修正后的问句生成模型。

可选地，所述根据所述监督信息，对所述问句生成模型进行修正，得到修正后的问句生成模型，具体包括：

基于所述问句生成模型，根据各历史输入信息，确定对应的历史问句序列；

根据各所述历史问句序列及对应的人工标注问句，计算生成问句损失

根据各所述历史问句序列及对应的参***，计算辅助答案损失

其中，各参考***括有对应历史输入信息的答案类型词，所述历史问句序列包括有对应历史输入信息的生成词，是答案类型词的集合，|A|表示所述答案类型词的集合中答案类型词的数量，/>是一个问句序列中生成词y_t与对应答案类型词a_n的损失；

根据所述生成问句损失及辅助答案损失/>确定监督信息损失

其中，λ表示参考系数；

根据所述监督信息损失对所述问句生成模型进行修正，得到修正后的问句生成模型。

可选地，所述不同用户的历史输入信息的格式为头实体-关系-尾实体；

所述对各历史输入信息进行扩展，得到对应的上下文表示，具体包括：

针对头实体和/或尾实体，用在知识库的类型信息作为头实体和/或尾实体的上下文表示；

针对关系，用对应在知识库中的领域、值域、主题以及距离监督回标的句子中的至少一者作为所述关系的上下文表示。

可选地，当所述知识库的类型信息有多个时，选用最频繁使用以及最具有区分度的类型作为头实体和/或尾实体的上下文表示。

可选地，所述根据各所述输入信息及对应的上下文表示，建立问句生成模型，具体包括：

针对每对输入信息及对应的上下文表示，

对所述输入信息进行训练，得到训练信息；

基于第一序列模型，根据所述上下文表示，得到表示序列；

将所述训练信息及表示序列进行融合，得到融合信息；

对所述融合信息进行编码，得到隐层状态序列；

对各所述隐层状态序列进行解码，计算得到对应的解码序列函数，所述解码序列函数为问句生成模型。

可选地，所述对各所述隐层状态序列进行解码，计算得到对应的解码序列函数，具体包括：

基于第二序列模型，对各所述隐层状态序列进行解码，得到解码信息；

根据所述解码信息，分别计算从知识库中复制历史输入信息对应名称的知识库复制模式概率、复制上下文表示的上下文复制模式概率及从词表中生成词语的词表生成模式概率；

根据所述知识库复制模式概率p_cpkb、上下文复制模式概率p_cptx及词表生成模式概率p_genv，计算目标词的预测概率P(y_t|s_t，y_t-1，F，C)：

其中genv，cpkb和cpctx分别代表词表生成模式，知识库复制模式和上下文复制模式，p.代表三种不同模式的概率，P(*|*)代表各种模式下生成目标词的概率，F和C分别表示输入信息和上下文，s_t表示当前解码状态，y_t表示当前时刻生成的词语；

根据目标词的预测概率P(y_t|s_t，y_t-1，F，C)，逐词解码，得到解码的问句序列函数。

为解决上述技术问题，本发明还提供了如下方案：

一种基于给定事实的问句生成***，所述问句生成***包括：

获取单元，用于获取历史参考数据，所述历史参考数据包括多条不同用户的历史输入信息；

扩展单元，用于对各历史输入信息进行扩展，得到对应的上下文表示；

建模单元，用于根据各所述输入信息及对应的上下文表示，建立问句生成模型；

确定单元，用于基于所述问句生成模型，根据当前用户的当前输入信息，确定所述当前输入信息对应的问句序列。

为解决上述技术问题，本发明还提供了如下方案：

一种基于给定事实的问句生成***，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

对各历史输入信息进行扩展，得到对应的上下文表示；

为解决上述技术问题，本发明还提供了如下方案：

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

对各历史输入信息进行扩展，得到对应的上下文表示；

根据本发明的实施例，本发明公开了以下技术效果：

本发明通过历史参考数据建立问句生成模型；能够基于所述问句生成模型，可根据当前用户给定的少量当前输入信息，即可准确确定所述当前输入信息对应的问句序列。

附图说明

图1是本发明基于给定事实的问句生成方法的流程图；

图2是答案辅助监督示意图

图3是本发明基于给定事实的问句生成***的模块结构示意图。

符号说明：

获取单元—1，扩展单元—2，建模单元—3，确定单元—4。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的目的在于提供一种基于给定事实的问句生成方法，通过历史参考数据建立问句生成模型；能够基于所述问句生成模型，可根据当前用户给定的少量当前输入信息，即可准确确定所述当前输入信息对应的问句序列。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明基于给定事实的问句生成方法包括：

步骤100：获取历史参考数据，所述历史参考数据包括多条不同用户的历史输入信息；

步骤200：对各历史输入信息进行扩展，得到对应的上下文表示；

步骤300：根据各所述输入信息及对应的上下文表示，建立问句生成模型；

步骤400：基于所述问句生成模型，根据当前用户的当前输入信息，确定所述当前输入信息对应的问句序列。

进一步地，所述历史参考数据还包括多条监督信息，各所述监督信息包括对应历史输入信息的人工标注问句及参***。

为提高确定精度，本发明基于给定事实的问句生成方法还包括：

传统方法只有问句端的监督信息，即比较生成问句与人工标注的问句，以他们之间的差异作为损失，再用优化器进行训练，这样可能容易得到模棱两可的问句，即一个问句对应多个正确的答案。为此，除了人工标注问句作为监督信息，还利用答案信息作为辅助监督，目标是生成的问句包含任意一个答案的类型词语。

进一步地，所述根据所述监督信息，对所述问句生成模型进行修正，得到修正后的问句生成模型，具体包括：

步骤S1：基于所述问句生成模型，根据各历史输入信息，确定对应的历史问句序列。

步骤S2：根据各所述历史问句序列及对应的人工标注问句，计算生成问句损失

步骤S3：根据各所述历史问句序列及对应的参***，计算辅助答案损失(如图2所示)：

其中，各参考***括有对应历史输入信息的答案类型词，所述历史问句序列包括有对应历史输入信息的生成词，是答案类型词的集合(如纽约市的类型词包括城市、行政区域等)，|A|表示所述答案类型词的集合中答案类型词的数量，/>是一个问句序列中生成词y_t与对应答案类型词a_n的损失。其中，辅助答案损失/>为两次计算的最小值。

步骤S4：根据所述生成问句损失及辅助答案损失/>确定监督信息损失/>

其中，λ表示参考系数。

步骤S5：根据所述监督信息损失对所述问句生成模型进行修正，得到修正后的问句生成模型。

在本实施例中，所述不同用户的历史输入信息的格式为头实体(主语)-关系(谓语)-尾实体(宾语)。

进一步地，在步骤200中，所述对各历史输入信息进行扩展，得到对应的上下文表示，具体包括：

其中，当所述知识库的类型信息有多个时，选用最频繁使用以及最具有区分度的类型作为头实体和/或尾实体的上下文表示。

在步骤300中，所述根据各所述输入信息及对应的上下文表示，建立问句生成模型，具体包括：

针对每对输入信息及对应的上下文表示，

对所述输入信息进行训练，得到训练信息；

基于第一序列模型，根据所述上下文表示，得到表示序列；

将所述训练信息及表示序列进行融合，得到融合信息；

对所述融合信息进行编码，得到隐层状态序列；

其中，对于输入符号化的事实，可以用TransE等知识库表示学习方法在大规模语料上预训练，也可以随机初始化跟着第一序列模型一起训练。对于上下文信息，可以用第一序列模型进行建模，该第一序列模型可以为递归神经网络(RNN，Recurrent NeuralNetworks)、门控循环单元(GRU，Gated Recurrent Unit)、长短期记忆网络(LSTM，LongShort Term Memory)以及Transformer模型等。这样，参考信息中的每个元素既有符号化的表示，又有上下文的表示，可以通过Gate进行融合，最终，将融合信息可以编码成一个隐层状态序列(如H_f＝[h^s；h^p；h^o])。

进一步地，所述对各所述隐层状态序列进行解码，计算得到对应的解码序列函数，具体包括：

根据所述解码信息，分别计算从知识库中复制历史输入信息对应的名称的知识库复制模式概率、复制上下文表示的上下文复制模式概率及从词表中生成词语的词表生成模式概率；

根据所述知识库复制模式概率p_cpkb、上下文复制模式概率p_cpctx及词表生成模式概率p_genv，计算目标词的预测概率P(y_t|s_t，y_t-1，F，C)：

其中genv，cpkb和cpctx分别代表词表生成模式，知识库复制模式和上下文复制模式，p.代表三种不同模式的概率，P(*|*)代表各种模式下生成词语的概率，F和C分别表示输入信息和上下文，s_t表示当前解码状态，y_t表示当前时刻生成的词语；

根据目标词的预测概率P(y_t|s_t，y_t-1，F，C)，对逐词解码，得到问句序列函数。

同样的，解码器可以用第二序列模型进行解码，该第二序列模型可以是递归神经网络(RNN，Recurrent Neural Networks)、门控循环单元(GRU，Gated Recurrent Unit)、长短期记忆网络(LSTM，Long Short Term Memory)以及Transformer模型等。解码过程中，为了更好地捕获输入信息，可以选择性采用如下几种copy(复制)形式：1.考虑头实体经常在生成的问句出现，因此copy知识库头实体符号对应的名称；2.copy扩展的上下文，需要注意的是，输入的上下文可能会有很多重复的词语，因此使用maxout指针的机制，即出现多个相同token(词语)时，以copy得分最高的token作为该token在copy模式下的得分，而不是加和。最后，一共有两种不同copy形式以及从词表中生成token三种模式，这三种模式的加权和作为最终选择token概率，进而根据目标词的预测概率，逐词解码，得到问句生成模型，再一步对所述问句生成模型修正，得到修正后的问句生成模型，根据修正后的问句生成模型，基于少量给定事实可以准确确定问句序列信息。

下面通过以下实验验证本发明的有效性：

测试语料

SimpleQuestions：当前规模最大的知识库问答数据集。

比较方法：

Template：模板生成问句

Serban et al.(2016)：Sequence-to-Sequence模型生成问句

Elsahar et al.(2018)：引入单一上下文生成问句

所示实验结果(如表2)

表2

总体性能比较：通过对比已有方法和本发明的效果来说明其有效性。本发明的性能都明显好于基准方法，加上答案辅助监督(最后一行)，性能继续提升。

表3

谓词覆盖比较(如表3所示)：人工评估了生成问句中是否正确表达了给定输入的谓词，通过计算正确表达给定谓词的比例(谓词覆盖度Predicate Identification)，发现本发明的性能最好。

表4

答案覆盖度比较：本发明进一步定义了生成问句中包含答案类型词的比例这一评价指标Ans_cov，用来评价生成问句对应答案的确定程度。调节答案辅助监督信息的权重λ。发现有答案辅助监督时，BLEU得分更高，Ans_cov提升更明显。

此外，本发明还提供一种基于给定事实的问句生成***，可基于少量给定事实，准确确定问题。

如图3所示，本发明基于给定事实的问句生成***包括：获取单元1、扩展单元2、建模单元3及确定单元4。

具体地，所述获取单元1用于获取历史参考数据，所述历史参考数据包括多条不同用户的历史输入信息；

所述扩展单元2用于对各历史输入信息进行扩展，得到对应的上下文表示；

所述建模单元3用于根据各所述输入信息及对应的上下文表示，建立问句生成模型；

所述确定单元4用于基于所述问句生成模型，根据当前用户的当前输入信息，确定所述当前输入信息对应的问句序列。

进一步地，本发明还提供一种基于给定事实的问句生成***，包括：

处理器；以及

对各历史输入信息进行扩展，得到对应的上下文表示；

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

对各历史输入信息进行扩展，得到对应的上下文表示；

相对于现有技术，本发明基于给定事实的问句生成***、计算机可读存储介质与上述基于给定事实的问句生成方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于给定事实的问句生成方法，其特征在于，所述问句生成方法包括：

获取历史参考数据，所述历史参考数据包括多条不同用户的历史输入信息；所述历史参考数据还包括多条监督信息，各所述监督信息包括对应历史输入信息的人工标注问句及参***；

对各历史输入信息进行扩展，得到对应的上下文表示；

所述问句生成模型其修正方法还包括：

根据所述监督信息，对所述问句生成模型进行修正，得到修正后的问句生成模型：

根据各所述历史问句序列及对应的参***，计算辅助答案损失

根据所述生成问句损失及辅助答案损失/>确定监督信息损失/>

其中，λ表示参考系数；

根据所述监督信息损失对所述问句生成模型进行修正，得到修正后的问句生成模型；

2.根据权利要求1所述的基于给定事实的问句生成方法，其特征在于，所述不同用户的历史输入信息的格式为头实体-关系-尾实体；

3.根据权利要求2所述的基于给定事实的问句生成方法，其特征在于，当所述知识库的类型信息有多个时，选用最频繁使用以及最具有区分度的类型作为头实体和/或尾实体的上下文表示。

4.根据权利要求1所述的基于给定事实的问句生成方法，其特征在于，所述根据各所述输入信息及对应的上下文表示，建立问句生成模型，具体包括：

针对每对输入信息及对应的上下文表示，

对所述输入信息进行训练，得到训练信息；

基于第一序列模型，根据所述上下文表示，得到表示序列；

将所述训练信息及表示序列进行融合，得到融合信息；

对所述融合信息进行编码，得到隐层状态序列；

5.根据权利要求4所述的基于给定事实的问句生成方法，其特征在于，所述对各所述隐层状态序列进行解码，计算得到对应的解码序列函数，具体包括：

根据所述知识库复制模式概率p_cpkb、上下文复制模式概率p_cpctx及词表生成模式概率p_genυ，计算目标词的预测概率P(y_t|s_t，y_t-1，F，C)：

P(y_t|s_t，y_t-1，F，C)＝p_genυP_genυ(y_t|s_t，V)+p_cpkbP_cpkb(y_t|s_t，F)+p_cpctxP_cpctx(y_t|s_t，C)；

根据目标词的预测概率P(y_t|s_t，y_t-1，F，C)，逐词解码，得到问句序列函数。

6.一种基于给定事实的问句生成***，其特征在于，所述问句生成***包括：

获取单元，用于获取历史参考数据，所述历史参考数据包括多条不同用户的历史输入信息；所述历史参考数据还包括多条监督信息，各所述监督信息包括对应历史输入信息的人工标注问句及参***；

所述问句生成模型其修正方法还包括：

根据各所述历史问句序列及对应的参***，计算辅助答案损失

根据所述生成问句损失及辅助答案损失/>确定监督信息损失/>

其中，λ表示参考系数；

7.一种基于给定事实的问句生成***，包括：

处理器；以及

对各历史输入信息进行扩展，得到对应的上下文表示；

所述问句生成模型其修正方法还包括：

根据各所述历史问句序列及对应的参***，计算辅助答案损失

根据所述生成问句损失及辅助答案损失/>确定监督信息损失/>

其中，λ表示参考系数；

8.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

对各历史输入信息进行扩展，得到对应的上下文表示；

所述问句生成模型其修正方法还包括：

根据各所述历史问句序列及对应的参***，计算辅助答案损失

根据所述生成问句损失及辅助答案损失/>确定监督信息损失/>

其中，λ表示参考系数；