CN109614471A

CN109614471A - 一种基于生成式对抗网络的开放式问题自动生成方法

Info

Publication number: CN109614471A
Application number: CN201811495625.4A
Authority: CN
Inventors: 柴梓; 万小军; 谢勤也; 黄波; 李大任
Original assignee: Wise Four Seas (beijing) Technology Co Ltd; Peking University
Current assignee: Wise Four Seas (beijing) Technology Co Ltd; Peking University
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2019-04-12
Anticipated expiration: 2038-12-07
Also published as: CN109614471B

Abstract

本发明公布了一种基于生成式对抗网络的开放式问题自动生成方法，建立问题自动生成模型包括生成器和鉴别器，通过构建开放式问题自动生成数据集，采用增强学习的模型对抗训练方法，实现问题自动生成。本发明方法能够解决开放式问题生成中答案发散且差异较大，难以使用最大似然法高效拟合的问题，提升问题自动生成的效果。

Description

一种基于生成式对抗网络的开放式问题自动生成方法

技术领域

本发明涉及自然语言计算机处理技术领域，具体涉及一种基于生成式对抗网络自动生成开放式问题的模型方法。

背景技术

自然语言生成技术是自然语言处理技术领域的重要分支之一，旨在使得计算机具有类似人的语言创造能力。问题自动生成是指：输入特定的背景语料(例如一篇新闻，一段观点等)，计算机提炼，总结出要点信息，并进一步输出一个或多个与输入相关，可读性良好，具有实际意义的问题。

根据所生成问题的指向性，可以将问题自动生成分为“封闭式”和“开放式”两个类别。封闭式问题自动生成旨在产生指向性固定，具有标准答案的问题。开放式问题自动生成旨在产生指向性不固定，没有标准答案的问题。面对开放式问题，具有不同背景的回答者往往能够给出不同角度的分析和解答，从而引发讨论，有效的进行知识交流分享。针对一段文本(可以是非结构化的，例如一篇新闻；或结构化的，例如知识库中的三元组)，一般可以提出多个封闭式和开放式问题。不难想象，提出封闭式问题难度小于开放式问题。因为封闭式问题有着标准答案，提问范围有限。而开放式问题可以风格各异，种类多样，往往需要更多的背景知识和联想创造。

目前，绝大多数工作都聚焦于封闭式问题自动生成的技术。具体来说，这些技术的输入是背景语料以及问题的标准答案。因此，这类技术可以视为自动问题回答领域(给定背景语料和相关的问题，生成问题答案)的“对偶研究”，其使用的数据集也往往与自动问题回答领域一致，例如SQuAD等。其中预先给定的答案往往是背景文本中的特定单词或短语，因而输出的问题往往提问模式单一，易于回答，采用的模型大多仅可以用于学术研究，实用性不强。另一方面，目前针对开放式问题生成还缺乏一定规模的数据集，因而难以进行模型的训练，缺乏可用的技术方案。

此外，现有的模型大多基于序列到序列模型。这样的模型在机器翻译等领域取得了重大突破，但是在问题生成领域却面临着较大的问题，即序列到序列模型是通过最大似然法训练的，旨在让模型较好的拟合数据集。在机器翻译领域，给定机器翻译源语言，虽然有着不同的翻译方式，但是合理的翻译都有着相关的语意，差别不大，因而一般能够较好的拟合数据集。因此，给定一段文本，当给定答案并进行封闭式问题生成时，可能生成的问题差别不至于太大，但是如果进行开放式问题生成，合理的问题不仅可以有多个，而且它们的提问形式，侧重点等可能有着巨大的差异，因而拟合数据集变得非常困难，或者难以获取到需要的训练数据量。即便是目前一些使用对偶学习，增强学习等的改进方法，生成的问题在可读性以及与背景语料的匹配性上也并不理想。

发明内容

为了克服现有技术存在的不足，本发明的目的是提供一种基于生成式对抗网络的开放式问题自动生成模型方法，用以解决开放式问题生成中答案发散且差异较大所导致的使用最大似然法难以拟合数据，难以生成可读性，与背景语料匹配性良好的结果的问题。

本发明的原理是：问题自动生成属于自然语言生成技术，自然语言生成技术能够使得计算机具有类似人的语言创造能力。现有的针对封闭式问题的自动生成技术，采用最大似然拟合法，即给定一个输入，模型对应这个输入只有一个标准答案，模型通过拟合数据修改更新参数，使得其输出更接近标准答案。但是，开放式问题生成中可以产生的很多标准答案(针对同一段话可以提出各种各样的开放式问题)。因此，开放式问题生成需要模型能够处理对同一个输入具有多个不同的答案(开放式问题)。虽然某些领域中也存在“针对同一输入有着多个不同答案“的情况(例如机器翻译领域，针对同一条语句存在多种合理的翻译方式)，但是这些领域中某一个标准答案往往具有足够的代表性(例如不同的翻译有着相同的意义，彼此联系比较紧密)。另一方面，开放式问题生成领域中不同答案的差异性极其明显，不同问题的主题，提问方式可以毫不相关，没有任何一个答案具有普遍的代表性。因此，采用现有方法和模型，模型参数的更新会非常缓慢，拟合效率很低。本发明提供一种基于生成式对抗网络的开放问题自动生成模型方法，通过利用计算机构建开放式问题自动生成数据集，采用增强学***台以及教育应用领域。

本发明提供的技术方案是：

一种基于生成式对抗网络的开放式问题的自动生成方法，问题自动生成模型包括生成器和鉴别器，通过利用计算机构建开放式问题自动生成数据集，采用增强学习的模型对抗训练方法，实现开放式问题的自动生成；包括如下步骤：

1)构建开放式问题自动生成数据集；

具体实施时，本发明结合了网络新闻平台-在线问答平台(如腾讯新闻-知乎)的问题匹配和人工提问两种方式，构建了一个开放式问题自动生成数据集。数据集采取XML格式，每一条数据由<data>标签指明，并包括新闻和问题(<new>和<question>)两个并列的子标签。<new>标签指明了一条新闻，新闻的标题和正文通过一个<sep>符号分割；<question>标签指明了一条开放式问题。问题能够通过阅读该新闻提出，且与新闻的主题相关。新闻和问题均为汉语文本。

数据集中一共有20098个并列的<data>标签。不同的数据可能包含相同的新闻或问题，但二者不会同时相同。数据集涉及到9296条不同的新闻。针对每一条新闻，至少存在两条与之相关的问题。数据集中新闻标题平均长度约为22个字符，正文平均长度约为874个字符；问题的平均长度约为22个字符。这些问题一般具备一定的灵活性(例如：部分问题会针对新闻涉及的现象进行一些联想类比)，且具有讨论意义。

2)构建包括生成器和鉴别器的问题自动生成模型；包括如下步骤：

21)构建生成器，包括编码器和解码器，用于根据原始语料生成问题；编码器通过编码步骤将新闻编码为一个向量，解码器通过解码步骤将此向量解码为最终的问题；生成器的编码器和解码器均采用长短期记忆网络，由于编码器的输入和解码器的输出均为一个文本序列，这种架构也称为“序列到序列模型”。

在编码步骤，执行如下操作：

211a)输入新闻语料，对新闻语料经过清洗，分词后，变为一个单词序列w₀,w₁,...,w_n；

211b)通过将单词序列中的每一个单词替换成与之对应的词向量，单词序列被进一步转化为向量序列x₀,x₁,...,x_n；

211c)将这个向量序列视为一个时序序列，作为编码器的输入，通过编码器(长短期记忆网络)计算得到一系列对应的编码结果h₀,h₁,...,h_i,...,h_n。其中h_i又被称为第i步的隐状态。具体来说，长短期记忆网络由不同的“编码单元”组成，每个编码单元有着相同的参数和运算方式，并维护者一个“单元状态”。第i个单元接受第i个输入x_i和前一个单元的隐状态h_i，首先通过如下的方法得到四个数值：

其中，σ为“sigmoid函数”，tanh为“双曲正切函数”。u_i被称为“更新门数值”，为了得到此数值，需要使用“更新门参数”，即矩阵W_u和向量b_u。类似的，f_i和o_i被分别称为“遗忘门数值”和“输出门数值”；被称为“单元状态数值”。与之对应的矩阵和向量分别被称为遗忘门参数，输出门参数与单元状态参数。所有参数的具体数值需要通过训练步骤得到。

计算出这四个数值后，第i个单元通过这些数值进一步计算出本单元对应的单元状态c_i，并且通过c_i最终计算出本单元对应的隐状态h_i：

其中⊙代表逐元素相乘，第一个编码单元的初始隐状态与单元状态可以随机赋值(不过往往这个值会接近零向量以便于训练)，最后一个编码单元的隐状态传给解码器。编码单元的个数与输入单词序列的长度相同(即：一共有n个编码单元)。为了捕捉更多的文本信息，本发明具体实施时，编码器使用双向多层长短期记忆神经网络。

在解码步骤开始前，首先需要确定“解码词表”：解码步骤是逐词进行的，每解码出一个词，本质上是在挑选当前情况下最适合作为输出的那一个词汇。因此能够输哪些词汇需要提前确定。本发明采用的方法是：将数据集中的所有问题进行分词后，选取出现频率大于一定阈值的单词组成词表。这样做的结果是：解码词表无法包含所有可能的词汇，因此加入一个特殊单词<UNK>，指代所有未包含在词表中的词汇。此外词表中还需要包括<BOS>，<EOS>两个特殊单词以指明解码步骤的开始和停止。

在确定解码词表后，执行如下操作：

212a)以<BOS>作为解码器的初始输入，以编码器最后一个隐状态作为解码器的初始隐状态s₀；

212b)第一个解码单元使用和式1，式2相同(但是参数不共享)的方式计算出对应的隐状态s₁。解码单元与编码单元的不同之处在于：计算出隐状态后，会进一步通过一个全连接网络将其转化为一个与解码词表等长的概率分布。此后，会通过一定策略从此分布中挑选出合适的输出词汇(例如贪心策略会挑选具有最大概率的词汇作为输出，而束搜索策略则会结合当前的概率分布与历史概率分布共同得到结果)。

212c)挑选出第一个输出词汇后，该词汇所对应的词向量会作为第二个解码单元的输入，并通过相似的方法得到第二个解码单元的隐状态与输出词汇。依此类推，解码器会逐词得到输出，直到某一个解码单元输出<EOS>后解码过程停止。

实际操作时，为了防止解码过程太久还不停止，可以做出约束：如果解码过程已经得到了足够长的输出(例如已经输出了50个词)，那么强制停止解码过程。

本发明具体实施时，为了达到更好的解码效果，在解码过程中模型引入注意力机制。具体来说，在解码器的时间步骤j，解码器首先会将当前计算得到的隐状态s_j与编码器的每一个隐状态h_i输入给一个评分函数，通过式3计算出一个数值e_ij：

e_ij＝score(s_j,h_i) (式3)

本发明中，评分函数score()就是向量内积函数。

通过式3，同一个解码单元隐状态s_j会和每一个编码单元隐状态h_i计算得到一组(个数与编码单元的个数n相同)评分，这组评分会组成一个n维向量，通过softmax函数归一化为一个n维概率分布α_ij(i＝1,2,...,n)。这个概率分布表明了当前时间步解码单元对不同编码单元隐状态的关注程度。利用此概率分布对所有编码器的输出进行加权求和，即可得到蕴含着信息的上下文向量c_j：

将上下文向量c_j输入给全连接网络用语产生概率分布，可以得到比s_j作为输入更好的生成效果。

22)构建鉴别器，用于判断问题的来源；包括语言特性评估模块和契合程度评估模块；

鉴别器的目的是判断一个问题是由生成器产生的，还是现实世界中人类的提问(即数据集中的问题)。本发明中鉴别器由两个模块组成。两个模块各自是一个二分类器。

语言特性评估模块用于评估生成问题的语言特性(即一个问题是否符合人类提问的语言风格)，执行操作如下：

221a)接收一个完整的问题，将其转化成词向量序列，并由采用长短期记忆网络的鉴别器进一步转化为隐状态序列。

221b)然后该隐状态序列由一个全连接网络转化为一个数值p₁作为输出，该数值表示输入语句是真实数据的概率值。概率越大表明输入问题越像现实世界中人类的提问。

契合程度评估模块用于评估生成问题与背景语料的契合程度。它同时接收背景语料和问题，并判断二者是否契合。在此模块中，执行如下操作：

222a)背景语料和问题首先由卷积神经网络分别转化为两个向量；

222b)通过内积运算，将上一步骤得到的两个向量转化为一个数值结果。该数值经过sigmoid函数被归一化为概率值p₂。概率值越大表明新闻和问题越契合。

鉴别器的最终输出是两个模块输出的加权和λp₁+(1-λ)p₂。反映了生成问题的优劣程度。实数λ是一个需要设置的超参数，取值在0到1之间(本发明具体实施中取0.3)，用以均衡两个模块的判断。加权和越大，表明问题越符合人类的语言习惯，越和背景语料相契合。

3)采用增强学习的对抗训练方法训练步骤2)建立的问题自动生成模型；

这一步的目的在于：虽然以上的步骤已经搭建了生成器和鉴别器的构架，但是生成器与鉴别器中存在大量数值未知的参数。为了得到这些参数，需要利用数据集中的数据进行训练。训练过程分为预训练和对抗训练两个阶段。

31)预训练阶段仅仅涉及到模型的生成器部分。为了让此阶段更加有效，生成器采用“强迫学习”策略得到输出。该策略下，解码器中除了第一个解码单元输入依然为<BOS>外，剩余每个解码单元的输入并非来自于前一个单元，而是直接来源于正确的答案(即数据集中与输入新闻对应的问题)。因此，解码单元的个数也必须与正确答案的单词数目相同，不再以输出<EOS>作为解码终止条件。

每一个解码单元都会计算得到一个概率分布，但强迫学习策略并不依据此概率分布挑选单词，而是直接将标准答案中的对应单词作为下一个单元的输入。这是由于在训练初期，模型参数的初始化带有随机性，因而此概率分布也具有随机性，依据这样的分布难以挑选出正确的单词，容易发生“一步错，步步错”的现象，加大训练难度(收敛时间变长或根本无法收敛)。强迫学习阶段的目标是：虽然下一个单元的输入是从正确答案挑选的，但是如果依据本单元计算得到的概率分布，选出的单词应该与下一个单元的输入尽量一致(这样训练结束后，不采用强迫学习策略模型也能够生成标准答案)。为了达到此目的，预训练阶段使用的是最大似然法原理，即使用下一个单元的输入单词生成一个对应的0-1分布(即概率分布维度与解码词表一致，对应于该单词维度的数值为1，其他单词维度的数值都是0)。通过这个0-1分布与解码单元的预测分布计算交叉熵。通过累加所有的交叉熵，即可得到最终交叉熵。使用梯度下降法最小化最终的交叉熵，即可更新生成器的参数(包括更新门参数W_u,b_u，遗忘门参数W_f,b_f，输出门参数W_o,b_o与单元状态参数W_c,b_c)。本质上这是一种最大似法，使得模型能够尽量拟合数据集。

采用强迫学习的训练方式有效避免了错误累积的现象(一个单元的偏差导致其后的单元偏差越来越严重)，更容易让神经网络快速收敛。但是由于强迫学习要求必须实现知晓答案，因而在对抗训练和实际使用阶段，不采用强迫学习策略。

32)预训练阶段完成后，对模型进行对抗训练。

在这个过程中，鉴别器和生成器的训练是交互进行的。根据生成式对抗网络的理论，生成器和鉴别器会逐渐趋向于达到纳什均衡。在此过程中，可能会出现生成器效果与鉴别器效果此消彼长的波动。因此，训练过程中需要对生成器和鉴别器进行监测，对生成器，使用BLEU(BiLingual Evaluation Understudy)，ROUGE(Recall-Oriented Understudyfor Gisting Evaluation)，METEOR(Metric for Evaluation of Translation withExplicit ORdering)等指标评测生成的问题与数据集中标准问题的差距，对鉴别器，察鉴别器分类的正确率。当评测指标随着训练过程均有上升，且鉴别器正确率随着训练过程下降到近乎随机挑选(即：无法区分来自于生成器输出和数据集中的数据)后，即可停止训练。

在训练鉴别器的时候，生成器部分被固定，不进行任何更新。对于鉴别器，两个模块各自是一个二分类器，并各自采用交叉熵作为损失函数。对于语言特性评估模块，其正例是数据集中的问题，负例是生成器提出的问题。对于契合程度评估模块，其正例是数据集中的(新闻，数据集中的问题)数据对，负例除了数据对(新闻，生成器提出的问题)之外，还有该新闻和从数据集中负采样得到的与之不匹配的问题组成的(新闻，问题)数据对。通过梯度下降法分别最小化两个模块的损失函数，可以更新鉴别器参数，使其获得更好的分类效果。

在训练生成器的时候，鉴别器部分被固定，不进行任何更新。对于生成器，对抗训练其本质是尽量提升鉴别器对其生成结果的打分。由于文本的不连续性，鉴别器对生成器结果的打分无法通过网络梯度进行直接的反向传播。因此，模型引入增强学***均值，即为当前状态下的反馈。

在生成器参数(包括更新门参数W_u,b_u，遗忘门参数W_f,b_f，输出门参数W_o,b_o与单元状态参数W_c,b_c)固定的情况下，在某个特定的状态下采取什么动作是确定的，也就是说此时的生成器对应着一种“策略”。如果采用不同的参数，就会对应着不同的策略，增强学习方法旨在通过寻找参数，得到能够获取最大反馈的“策略”。在本发明中，获得了一系列状态、动作和反馈序列之后，采用得失增强学习中的策略梯度方法更新模型的参数，以最大程度的获取反馈值。

4)对抗学习阶段结束后，利用训练好参数(包括更新门参数W_u,b_u，遗忘门参数W_f,b_f，输出门参数W_o,b_o与单元状态参数W_c,b_c)的生成器，即可输入新闻，输出问题，投入实际使用中。鉴别器部分虽然在实际应用中不再使用，但是可以用于其他的任务中(例如问题分类等)。

通过上述步骤，实现基于生成式对抗网络的开放式问题的自动生成。

本发明提供的开放式问题的自动生成方法可应用于在线问答平台。目前的在线问答平台上，提问大都是用户提问，难免会存在用户提问和时事热点之间有一些时间差或者有一些新闻本可以引发一些讨论但是没有用户提问)；而采用本发明的开放式问题的自动生成方法，可用使用自动提问的方法通过在线抓取新闻生成一定质量的开放式问题，由此更及时地吸引更多的流量和更多的高质量回答。

与现有技术相比，本发明的有益效果是：

本发明提供的基于生成式对抗网络的问题自动生成模型方法通过采用生成式对抗网络架构，提升了问题自动生成的效果。具体实施中，采用针对自然语言生成的多个最为标准和通用的评测方法，对生成的问题进行基于词的BLEU，ROUGE，METEOR自动评测，评估现有传统的序列到序列模型和本发明提出的问题自动生成模型，通过对比可以发现，本发明方法所生成的开放式问题在这些评测指标下均显示出了更好的性能，生成的开放式问题的可读性强，且与背景语料的匹配性良好。

附图说明

图1为本发明提出方法的流程框图。

图2为本发明对抗训练过程框架图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种基于生成式对抗网络的问题自动生成模型方法，通过采用生成式对抗网络架构，提升问题自动生成的效果。

图1所示为本发明提出方法的流程，包括：构建开放式问题自动生成数据集；构建包括生成器和鉴别器的问题自动生成模型；采用增强学习的对抗训练方法训练问题自动生成模型。具体包括：

1)构建开放式问题自动生成数据集；

由于开放式问题自动生成技术领域目前尚未得到深入研究，因而缺乏一定规模的数据集。本发明首先构建一个开放式问题自动生成数据集。具体实施时，本发明结合了网络新闻平台-在线问答平台的问题匹配和人工提问两种方式，最终构建了包含9296条新闻的数据集。针对数据集中的每一条新闻，至少存在两条与之相关的问题。最终数据集中一共包含了20098个问题。

在编码步骤，执行如下操作：

在确定解码词表后，执行如下操作：

e_ij＝score(s_j,h_i) (式3)

本发明中，评分函数score()就是向量内积函数。

鉴别器的最终输出是两个模块输出的加权和λp₁+(1-λ)p₂。反映了生成问题的优劣程度。λ是一个需要设置的超参数，以均衡两个模块的判断。加权和越大，表明问题越符合人类的语言习惯，越和背景语料相契合。

每一个解码单元都会计算得到一个概率分布，但强迫学习策略并不依据此概率分布挑选单词，而是直接将标准答案中的对应单词作为下一个单元的输入。预训练阶段使用的是最大似然法原理，即希望模型能够尽量拟合数据集。为此，希望通过此概率分布挑选的单词与下一个单元的输入尽量一致。因而，使用下一个单元的输入单词生成一个对应的0-1分布(即概率分布维度与解码词表一致，对应于该单词维度的数值为1，其他单词维度的数值都是0)。通过这个0-1分布与解码单元的预测分布计算交叉熵。通过累加所有的交叉熵，即可得到最终交叉熵。使用梯度下降法最小化最终的交叉熵，即可更新生成器的参数(包括更新门参数W_u,b_u，遗忘门参数W_f,b_f，输出门参数W_o,b_o与单元状态参数W_c,b_c)。本质上这是一种最大似法，使得模型能够尽量拟合数据集。

32)预训练阶段完成后，对模型进行对抗训练。在这个过程中，鉴别器和生成器的训练是交互进行的。根据生成式对抗网络的理论，生成器和鉴别器会逐渐趋向于达到纳什均衡。在此过程中，可能会出现生成器效果与鉴别器效果此消彼长的波动。因此，训练过程中需要对生成器和鉴别器进行监测，对生成器，使用BLEU，ROUGE，METOR等指标评测生成的问题与数据集中标准问题的差距，对鉴别器，察鉴别器分类的正确率。当评测指标随着训练过程均有上升，且鉴别器正确率随着训练过程下降到近乎随机挑选(即：无法区分来自于生成器输出和数据集中的数据)后，即可停止训练。BLEU、ROUGE、METEOR分别参见文献1(BLEU：Papineni K,Roukos S,Ward T,et al.BLEU:a method for automatic evaluation ofmachine translation[C]//Proceedings of the 40th annual meeting on associationfor computational linguistics.Association for Computational Linguistics,2002:311-318.)、文献2(Lin C Y.Rouge:A package for automatic evaluation of summaries[J].Text Summarization Branches Out,2004.)和文献3(Denkowski M,Lavie A.Meteoruniversal:Language specific translation evaluation for any target language[C]//Proceedings of the ninth workshop on statistical machinetranslation.2014:376-380.)。

在训练鉴别器的时候，生成器部分被固定，不进行任何更新。对于鉴别器，两个模块各自是一个二分类器，并各自采用交叉熵作为损失函数。对于语言特性评估模块，其正例是数据集中的问题，负例是生成器提出的问题。对于契合程度评估模块，其正例是数据集中的(新闻，数据集中的问题)数据对，负例除了数据对(新闻，生成器提出的问题)之外，还有该新闻和从数据集中负采样得到的与之不匹配的问题组成的(新闻，问题)数据对。通过梯度下降法分别最小化两个鉴别器的损失函数，可以更新鉴别器参数，使其获得更好的分类效果。

具体实施中，基于生成式对抗网络的问题自动生成如图2所示。在准备阶段，需要对新闻，问题进行分词，并预训练词向量。词向量维度为200。

在预训练阶段，需要对生成器，即序列到序列模型进行训练。这一模块采取长段时记忆网络，编码器和解码器各有两层。编码器采用双向网络，每个网络单元的维度为50；解码器单用单向网络，每个单元的维度为100。注意力机制细节与Luong Attention一致。

在对抗训练阶段，需要交替训练生成器和鉴别器。鉴别器中part-1部分是一个长段时记忆网络，每个网络单元维度为60，part-2部分是一个卷积神经网络，由卷积层(共采用了五种卷积核，长度为200，宽度分别为1到5)，池化层和全连阶层构成。每训练一轮生成器，就接着训练6轮鉴别器。

具体实施中，采用针对自然语言生成的多个最为标准和通用的评测方法，对生成的问题进行基于词的BLEU，ROUGE，METEOR自动评测，评估现有传统的序列到序列模型和本发明提出的问题自动生成模型，通过对比可以发现，本发明模型的效果均有所提升。具体效果如下(所有评测指标均为百分数)：

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于生成式对抗网络的开放式问题自动生成方法，问题自动生成模型包括生成器和鉴别器，通过构建开放式问题自动生成数据集，采用增强学习的模型对抗训练方法，实现开放式问题的自动生成；包括如下步骤：

1)构建开放式问题自动生成数据集；数据集采用XML格式；每一条数据由<data>标签表示，包含新闻子标签和问题子标签；新闻和问题均为汉语文本；

21)构建生成器，包括编码器和解码器，用于根据原始语料生成开放式问题；

编码器通过编码步骤将新闻编码为一个向量；解码器通过解码步骤将此向量解码为问题；

生成器构建采用序列到序列模型架构；生成器的编码器和解码器均采用长短期记忆网络；编码器的输入和解码器的输出均为一个文本序列；

22)构建鉴别器，用于判断问题的来源；包括语言特性评估模块和契合程度评估模块；语言特性评估模块和契合程度评估模块分别是一个二分类器；

语言特性评估模块用于评估生成问题的语言特性，即评估一个问题是否符合人类提问的语言风格，语言特性评估模块的输出为输入语句是真实数据的概率值p₁；

契合程度评估模块用于评估生成问题与背景语料的契合程度，同时接收背景语料和问题，并判断二者是否契合；契合程度评估模块的输出为新闻和问题契合的概率值p₂；

鉴别器的最终输出是语言特性评估模块和契合程度评估模块输出的加权和：λp₁+(1-λ)p₂，表示生成问题的优劣程度；

3)利用步骤1)开放式问题自动生成数据集中的数据，采用增强学习的对抗训练方法训练步骤2)建立的问题自动生成模型，得到生成器与鉴别器中的未知的参数；训练过程分为预训练阶段和对抗训练阶段；

31)预训练阶段仅涉及模型的生成器部分；采用强迫学习策略得到生成器的输出；包括：

解码器中除了第一个解码单元输入为<BOS>外，剩余每个解码单元的输入并非来自于前一个单元，而是直接来源于正确的答案，即数据集中与输入新闻对应的问题；

解码单元的个数须与正确答案的单词数目相同；不以输出<EOS>作为解码终止条件；

每一个解码单元进行计算得到一个概率分布；该概率分布并不用于挑选单词，而直接将标准答案中的对应单词作为下一个单元的输入；

使用最大似然法，通过计算交叉熵，使用梯度下降法最小化最终的交叉熵，即可更新生成器的参数，使得通过概率分布挑选的单词与下一个单元的输入尽量一致，从而使得模型能够尽量拟合数据集；

32)预训练阶段完成后，对模型进行对抗训练；包括：

对抗训练过程中，鉴别器和生成器的训练交互进行；对生成器和鉴别器进行监测，生成器和鉴别器达到纳什均衡，即停止训练；

在训练鉴别器的时候，生成器部分被固定，不进行任何更新；

鉴别器的两个模块分别采用交叉熵作为损失函数；通过梯度下降法分别最小化两个模块的损失函数，更新鉴别器参数，获得更好的分类；

通过对生成器进行对抗训练提升鉴别器对生成器的生成结果的打分；在训练生成器时，鉴别器被固定，不进行任何更新；采用增强学习方法，将生成器当前已经生成的文本作为状态，在某个状态下可采取的动作是生成某个特定的词，动作个数与词表大小相同；在状态下采取特定的动作会导致状态的迁移；采取的动作被称作“策略”；在每一个状态下采取动作即获取一个反馈；通过多次采样获得多个反馈，得到当前状态下的反馈；

4)对抗学习阶段结束后，利用训练好参数的生成器，输入新闻，输出问题；

通过上述步骤，实现基于生成式对抗网络的问题自动生成；训练好的鉴别器可应用于问题分类任务。

2.如权利要求1所述基于生成式对抗网络的开放式问题自动生成方法，其特征是，步骤21)构建生成器中，编码步骤具体执行如下操作：

211b)通过将单词序列中的每一个单词替换成与之对应的词向量，将单词序列进一步转化为向量序列x₀,x₁,...,x_n；

211c)将该向量序列视为一个时序序列，作为编码器的输入，通过编码器计算得到一系列对应的编码结果h₀,h₁,...,h_i,...,h_n，其中h_i又被称为第i步的隐状态；即编码器的长短期记忆网络由不同的编码单元组成，每个编码单元具有相同的参数和运算方式，并维护一个单元状态；第i个单元接受第i个输入x_i和前一个单元的隐状态h_i；

在解码步骤开始前，确定解码词表；

在确定解码词表后，执行如下操作：

212b)计算出第一个解码单元对应的隐状态s₁；计算出隐状态后，进一步通过全连接网络将隐状态转化为一个与解码词表等长的概率分布；之后从此分布中挑选出输出词汇；

212c)挑选出第一个输出词汇后，将该词汇所对应的词向量作为第二个解码单元的输入，并通过相似的方法得到第二个解码单元的隐状态与输出词汇；

解码器逐词得到输出，直到某一个解码单元输出<EOS>后解码过程停止。

3.如权利要求2所述基于生成式对抗网络的开放式问题自动生成方法，其特征是，步骤211c)通过式1得到更新门数值、遗忘门数值、输出门数值、单元状态数值：

其中，σ为“sigmoid函数”，tanh为“双曲正切函数”；u_i为“更新门数值”；矩阵W_u和向量b_u为更新门参数；f_i和o_i分别为“遗忘门数值”和“输出门数值”；为“单元状态数值”。

计算出四个数值后，第i个单元通过这些数值进一步计算出本单元对应的单元状态c_i，并且通过c_i计算出本单元对应的隐状态h_i，表示为式2：

其中，⊙代表逐元素相乘。

4.如权利要求2所述基于生成式对抗网络的开放式问题自动生成方法，其特征是，骤21)构建生成器过程中，确定解码词表采用的方法具体是：将数据集中的所有问题进行分词后，选取出现频率大于设定阈值的单词组成词表；解码步骤逐词进行，每解码出一个词，即得到当前情况下最适合作为输出的一个词汇；

在解码过程中引入注意力机制，具体在解码器的时间步骤j，解码器首先将当前计算得到的隐状态s_j与编码器的每一个隐状态h_i输入给一个评分函数，通过式3计算出一个数值e_ij：

e_ij＝score(s_j,h_i) (式3)

评分函数score()是向量内积函数。

通过式3，同一个解码单元隐状态s_j和每一个编码单元隐状态h_i计算得到一组个数与编码单元的个数n相同的评分，这组评分组成一个n维向量，通过softmax函数归一化为一个n维概率分布α_ij，i＝1,2,...,n；利用此概率分布对所有编码器的输出进行加权求和，即可得到蕴含着信息的上下文向量c_j，表示为式4：

将上下文向量c_j输入给全连接网络用语产生概率分布，可得到比s_j作为输入的更好的生成效果。

5.如权利要求1所述基于生成式对抗网络的开放式问题自动生成方法，其特征是，语言特性评估模块评估生成问题的语言特性，具体执行操作如下：

221a)接收一个完整的问题，转化成词向量序列，并由采用长短期记忆网络的鉴别器进一步转化为隐状态序列；

221b)该隐状态序列由一个全连接网络转化为一个数值p₁作为输出，该数值表示输入语句是真实数据的概率值；

契合程度评估模块评估生成问题与背景语料的契合程度，具体执行如下操作：

222a)首先由卷积神经网络将背景语料和问题分别转化为两个向量；

222b)通过内积运算，将得到的两个向量转化为一个数值结果；该数值经过sigmoid函数归一化为概率值p₂，表明新闻和问题的契合程度。

6.如权利要求1所述基于生成式对抗网络的开放式问题自动生成方法，其特征是，鉴别器以两个模块输出的加权和为最终输出，具体通过设置超参数λ的值，均衡输出的评估结果。

7.如权利要求1所述基于生成式对抗网络的开放式问题自动生成方法，其特征是，步骤31)预训练阶段中，使用最大似然法，具体通过累加所有的交叉熵得到最终交叉熵；更新生成器的参数包括：更新门参数W_u,b_u，遗忘门参数W_f,b_f，输出门参数W_o,b_o与单元状态参数W_c,b_c。

8.如权利要求1所述基于生成式对抗网络的开放式问题自动生成方法，其特征是，步骤32)对模型进行对抗训练过程中，对生成器使用BLEU、ROUGE或METOR指标评测生成的问题与数据集中标准问题的差距。

9.如权利要求1所述基于生成式对抗网络的开放式问题自动生成方法，其特征是，步骤32)对模型进行对抗训练过程中，对于语言特性评估模块，正例是数据集中的问题，负例是生成器提出的问题；对于契合程度评估模块，正例是数据集中的数据对：[新闻，数据集中的问题]，负例除了数据对[新闻，生成器提出的问题]之外，还有该新闻和从数据集中负采样得到的与之不匹配的问题组成的数据对[新闻，问题]。

10.如权利要求1所述基于生成式对抗网络的开放式问题自动生成方法，其特征是，步骤32)对模型进行对抗训练训练生成器时，采取蒙特卡洛搜索的方法，即从当前状态采样到<EOS>，将采样后的语句传给鉴别器，得到采样的单次反馈。