CN110825869A

CN110825869A - 一种基于复制机制的变分生成解码器的文本摘要生成方法

Info

Publication number: CN110825869A
Application number: CN201910872440.9A
Authority: CN
Inventors: 黄晓; 滕蔚; 林嘉良; 保延翔
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2020-02-21

Abstract

本发明提供一种基于复制机制的变分生成解码器的文本摘要生成方法，该方法利用VAE思想，生成含有潜在句子结构信息的隐变量，最大化利用了句子潜在的特征信息，使得生成的摘要结构性与可读性较强。在复制部分引入复制机制，将含有注意力机制的上下文语义向量作为复制部分来缓解传统序列到序列框架下常见的重复问题。生成部分和复制部分共同作用，使得生成的摘要更精确。

Description

一种基于复制机制的变分生成解码器的文本摘要生成方法

技术领域

本发明涉及自然语言处理技术领域，更具体地，涉及一种基于复制机制的变分生成解码器的文本摘要生成方法。

背景技术

自动文摘目标就是从一段指定文本中生成简洁的摘要。其实现的方法主要有两种：抽取式和生成式。抽取式的自动文摘主要是从原文本中直接抽取句子或短语来作为摘要；生成式的自动文摘主要是重新生成一个原文中没有的新句子作为摘要。

传统的神经网络生成式的文本摘要方法一般是基于注意力的序列到序列方法。这种方法可以提取浅层次的语义信息，从原文本中生成简单的摘要。但是生成的摘要中常常含有重复的词，并且在生成摘要时常常忽略了摘要中所含的潜在结构信息，这就大大制约了生成摘要的质量。

发明内容

本发明提供一种基于复制机制的变分生成解码器的文本摘要生成方法，该方法可实现生成句子结构清晰、内容准确的文本摘要。

为了达到上述技术效果，本发明的技术方案如下：

一种基于复制机制的变分生成解码器的文本摘要生成方法，包括以下步骤：

S1：将输入的文本内容映射成一个的编码成语义序列；

S2：对步骤S1得到的语义序列进行解码；

S3：对步骤S2解码的输出进行优化得到输入文本的文本摘要。

进一步地，所述步骤S1的具体过程是：

将输入的文本内容X＝{x₁,x₂,...,x_T}映射成对应的词向量作为输入送入编码器的双向的门控循环单元GRU进行编码，得到输入的文本在编码阶段的隐藏层状态，双向的门控循环单元GRU包含前向-后向和后向-前向两个方向进行编码，前向-后向是由x₁到x_T；后向-前向是由x_T到x₁，所得的隐藏层状态如下：

将两个方向的隐藏层状态连接得到输入的文本在编码阶段的隐藏层状态：

进一步地，所述步骤S2中的解码过程包括基于VAE的潜在句子结构信息建模和基于复制机制的复制信息建模，其中基于VAE的潜在句子结构信息建模的过程是：

解码阶段的隐藏层状态是由两层GRU计算的,第一层隐藏层状态

的计算方式如下：

其中，y_t-1是上一时刻的输出，

是上一时刻的第一层隐藏层状态；

利用当前时刻的第一层隐藏层状态

和编码阶段的所有的隐藏层状态

来计算注意力权重分布，上下文语义向量c_t表示输入文本内容的隐藏层状态的加权和，注意力权重a_ti计算方式如下：

其中，注意力机制的权重用来衡量t时刻的输出与文本中内容的相关性，

和

为权重矩阵；b_a为偏置；

第二层隐藏层状态

将注意力机制引入解码阶段，所以将c_t加入

的计算中：

其中，y_t-1是上一时刻的输出，

是上一时刻的第二层隐藏层状态。

在句子建模是考虑到时序问题，将t时刻之前的输出变量y_<t和潜在结构变量z_<t映射成后验分布q_φ(z_t|y_<t,z_<t)，用后验分布q_φ(z_t|y_<t,z_<t)近似输出的真实后验分布p_θ(z_t|y_<t,z_<t)，并假设这个分布是正态分布，从q_φ(z_t|y_<t,z_<t)中采样出z，由于采样过程不可导，为了保证训练过程反向传播顺利进行，所以引入重构参数技巧，通过参数变化得到新的采样结果，重构参数式子如下：

z＝μ+σε

其中，ε～N(0，I)是噪声变量，高斯参数μ和σ分别是变分均值和标准差；

采样出来的潜在变量z包含有目标摘要的潜在句子结构信息，将潜在结构变量z和第二层隐藏层状态

共同映射到一个新的隐藏层状态作为生成部分变量：

其中，tanh(·)是激活函数，

和是权重矩阵，

是偏置。

进一步地，所述步骤S2中基于复制机制的复制信息建模的过程是：

为了解决生成摘要中的重复问题，在解码阶段引入复制机制，将上下文语义向量c_t作为复制向量，通过复制向量c_t、第二层隐藏层状态

以及潜在结构变量z_t计算出一个控制门g_switch：

其中，sigmoid(·)是激活函数，

和

是权重矩阵，b_switch是偏置；

g_switch用来给生成部分的变量和复制部分变量分配不同权重，g_switch代表生成部分的权重；(1-g_switch)代表复制部分的权重，将c_t作为复制部分的变量能确保每一个最终的隐层都有不同程度的复制，达到了再一次加强注意力机制的效果，减轻产生重复词问题；

最终的隐藏层变量计算如下：

将最终隐藏层变量h经过softmax(·)函数得到目标词y_t的概率分布，如下式表示：

其中，sigmoid(·)是激活函数，

是权重矩阵，是偏置。

进一步地，所述步骤S3的具体过程是：

进行优化网络，损失函数主要包括两部分：生成摘要的对数似然函数的负数和变分的下界，将变分下界中对数项和生成摘要的对数似然函数结合。损失函数如下式所示：

其中，{Xⁿ}表示训练文本内容，{yⁿ}表示生成的目标摘要，D_KL[·]为KL散度，N为样本个数，T为输出序列长度。

与现有技术相比，本发明技术方案的有益效果是：

本发明提供了一种基于复制机制的变分生成解码器的文本摘要生成方法。该方法基于注意力的序列到序列框架结合变分自编码(Variational Auto-Encoder,VAE)和复制机制来提取和充分利用句子中蕴含的有效信息。该方法的编码器和传统的编码器相同，采用双向的门控循环单元(Gated Recurrent Unit，GRU)作为基本序列建模单元。与传统解码器不同，该方法的解码器一共有三部分，第一部分是GRU解码部分，采用两层GRU，第一层GRU用于注意力机制的计算，第二层GRU则引入注意力机制，计算得到解码器隐藏层状态。第二部分是VAE部分，用于潜在变量的建模，利用VAE提取潜在句子结构信息，生成含有目标摘要潜在结构信息的隐变量。将隐变量和解码器隐藏层状态结合映射成一个新变量作为生成部分的变量。第三部分是复制部分，采用含有注意力机制的上下文的语义向量作为复制部分的变量。在模型的最终输出部分，生成部分的变量和复制部分的变量共同作用一起解码输出，生成句子结构清晰、内容准确的文本摘要。

附图说明

图1为本发明方法的流程图；

图2数据预处理图；

图3分词图；

图4 VAE思想图；

图5摘要潜在结构分析图；

图6生成摘要举例图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于复制机制的变分生成解码器的文本摘要生成方法，即给定一个文本序列X＝{x₁,x₂,...,x_T}作为输入，目标是生成对应文本序列的摘要Y＝{y₁,y₂,...,y_T}。整体框架如图1，分成编码器和解码器两部分。编码器部分采用双向的GRU对输入序列进行编码。解码器则有三部分组成，第一部分是GRU解码部分，采用两层GRU，第一层GRU用于注意力机制的计算，第二层GRU则引入注意力机制，计算得到解码器隐藏层状态。第二部分是VAE部分，用于潜在变量的建模，利用VAE提取潜在句子结构信息，生成含有目标摘要潜在结构信息的隐变量。将隐变量和解码器隐藏层状态结合映射成一个新变量作为生成部分的变量。第三部分是复制部分，采用含有注意力机制的上下文的语义向量作为复制部分的变量。在模型的最终输出部分，生成部分的变量和复制部分的变量共同作用一起解码输出得到目标摘要。以新浪微博短中文摘要公开数据集(large-scale Chinese short textsummarization,LCSTS)为例进行说明。

首先数据预处理，如图2所示。按照图3的方式进行分词，构建词典。分别对文本内容和目标摘要进行分词和构建词典。为了避免分词错误带来的误差，以字为单位进行分词构建词典。然后将词典的字映射成随机初始化的词向量。分别得到文本内容的词典和目标摘要的词典。

然后将输入的文本内容X＝{x₁,x₂,...,x_T}转化成ID的形式，通过ID在字典里索引，找到对应字的字向量，以字向量的形式作为输入送入双向的GRU进行编码，得到编码阶段的隐藏层状态。双向GRU包含前向-后向和后向-前向两个方向进行编码。前向-后向是由x₁到x_T；后向-前向是由x_T到x₁。所得的隐藏层状态如下所示：

将两个方向的隐藏层状态连接得到编码阶段的隐藏层状态：

接下来计算解码阶段的隐藏层状态。解码阶段的隐藏层状态是由两层GRU计算的。第一层隐藏层状态

的计算方式如下：

其中，y_t-1是上一时刻的输出，是上一时刻的第一层隐藏层状态。

然后利用当前时刻的第一层隐藏层状态

和编码阶段的所有的隐藏层状态

来计算注意力权重分布。注意力权重计算方式如下：

其中，

和

为权重矩阵；b_a为偏置。

上下文语义向量c_t表示输入文本内容的隐藏层状态的加权和：

第二层隐藏层状态，考虑将注意力机制引入解码阶段，将c_t加入的计算中：

其中，y_t-1是上一时刻的输出，

是上一时刻的第二层隐藏层状态。

再接下来是对句子潜在结构建模，提取出句子中的潜在结构如图5。用一个后验分布q_φ(z_t|y_<t,z_<t)近似输出的真实后验分布p_θ(z_t|y_<t,z_<t)，并假设这个分布是正态分布，从q_φ(z_t|y_<t,z_<t)中采样出z。由于采样过程不可导，为了保证训练过程反向传播顺利进行，所以引入重构参数技巧，通过参数变化得到新的采样结果，如图5所示。重构参数式子如下：

z＝μ+σε

其中，ε～N(0，I)是噪声变量，高斯参数μ和σ分别是变分均值和标准差。

采样出来的潜在变量z包含有目标摘要的潜在句子结构信息。将潜在结构变量z和第二层隐藏层状态

共同映射到一个新的隐藏层状态作为生成部分变量：

其中，tanh(·)是激活函数，

和是权重矩阵，是偏置。

再接下来是对复制变量的建模。在解码阶段引入复制机制。将上下文语义向量c_t作为复制向量。通过复制向量c_t、第二层隐藏层状态以及潜在结构变量z_t计算出一个控制门g_switch：

其中，sigmoid(·)是激活函数，

和

是权重矩阵，b_switch是偏置。

g_switch用来给生成部分的变量和复制部分变量分配不同权重。g_switch用来给生成部分的变量和复制部分变量分配不同权重。g_switch代表生成部分的权重；(1-g_switch)代表复制部分的权重。将c_t作为复制部分的变量能确保每一个最终的隐层都有不同程度的复制，达到了再一次加强注意力机制的效果，减轻产生重复词问题。

所以最终的隐藏层变量计算如下：

最后，将最终隐藏层变量h经过softmax(·)函数得到目标词y_t的概率分布，如下式表示：

其中，sigmoid(·)是激活函数，

是权重矩阵，

是偏置。

进行优化网络，损失函数主要包括两部分：生成摘要的对数似然函数的负数和变分的下界。为了方便表示，将变分下界中对数项和生成摘要的对数似然函数结合。损失函数如下式所示：

其中，{Xⁿ}表示训练文本内容，{yⁿ}表示生成的目标摘要，D_KL[·]为KL散度，N为样本个数，T为输出序列长度。图6为实施例的生成摘要结果图。

本实施例方法基于注意力的序列到序列框架结合VAE和复制机制来提取和充分利用句子中蕴含的有效信息。该方法的编码器和传统的编码器相同，采用双向的GRU作为基本序列建模单元。与传统解码器不同，该方法的解码器一共有三部分，第一部分是GRU解码部分，采用两层GRU，第一层GRU用于注意力机制的计算，第二层GRU则引入注意力机制，计算得到解码器隐藏层状态。第二部分是VAE部分，用于潜在变量的建模，利用VAE提取潜在句子结构信息，生成含有目标摘要潜在结构信息的隐变量。将隐变量和解码器隐藏层状态结合映射成一个新变量作为生成部分的变量。第三部分是复制部分，采用含有注意力机制的上下文的语义向量作为复制部分的变量。在模型的最终输出部分，生成部分的变量和复制部分的变量共同作用一起解码输出，生成句子结构清晰、内容准确的文本摘要。

本发明方法相较于传统的序列到序列模型，没有引入生成式模型，摘要的句子信息提取不够全面，无法利用潜在句子结构信息，导致生成摘要质量不高。本发明基于注意力的序列到序列框架下增加了潜在句子结构信息建模部分，引入VAE作为生成模型来建模潜在结构变量，提高了生成摘要的结构性与可读性。

同时，本发明在解码部分引入了复制机制，将该方法的输出部分分为生成部分和复制部分。VAE生成的隐变量和解码器隐藏层状态结合映射成一个新的隐变量作为生成部分，含有注意力机制的上下文的语义向量作为复制部分，生成部分和复制部分结合一起解码输出。既保证了能利用句子深层次的语义信息又缓解了序列到序列框架中常见的重复问题，使得摘要生成有序、高质量的进行。

另外，本发明的解码器的GRU解码部分采用两层GRU。第一层GRU用于注意力机制的计算，第二层GRU则引入注意力机制得到解码器隐藏层状态，利于实现变分思想与复制思想结合，构建基于复制机制的变分生成解码器；该方法在LCSTS数据集上验证，论证算法优于常见的基线模型。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。