CN110825869A - 一种基于复制机制的变分生成解码器的文本摘要生成方法 - Google Patents
一种基于复制机制的变分生成解码器的文本摘要生成方法 Download PDFInfo
- Publication number
- CN110825869A CN110825869A CN201910872440.9A CN201910872440A CN110825869A CN 110825869 A CN110825869 A CN 110825869A CN 201910872440 A CN201910872440 A CN 201910872440A CN 110825869 A CN110825869 A CN 110825869A
- Authority
- CN
- China
- Prior art keywords
- hidden layer
- variable
- layer
- text
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000010076 replication Effects 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 241000288105 Grus Species 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000005728 strengthening Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于复制机制的变分生成解码器的文本摘要生成方法,该方法利用VAE思想,生成含有潜在句子结构信息的隐变量,最大化利用了句子潜在的特征信息,使得生成的摘要结构性与可读性较强。在复制部分引入复制机制,将含有注意力机制的上下文语义向量作为复制部分来缓解传统序列到序列框架下常见的重复问题。生成部分和复制部分共同作用,使得生成的摘要更精确。
Description
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及一种基于复制机制的变分生成解码器的文本摘要生成方法。
背景技术
自动文摘目标就是从一段指定文本中生成简洁的摘要。其实现的方法主要有两种:抽取式和生成式。抽取式的自动文摘主要是从原文本中直接抽取句子或短语来作为摘要;生成式的自动文摘主要是重新生成一个原文中没有的新句子作为摘要。
传统的神经网络生成式的文本摘要方法一般是基于注意力的序列到序列方法。这种方法可以提取浅层次的语义信息,从原文本中生成简单的摘要。但是生成的摘要中常常含有重复的词,并且在生成摘要时常常忽略了摘要中所含的潜在结构信息,这就大大制约了生成摘要的质量。
发明内容
本发明提供一种基于复制机制的变分生成解码器的文本摘要生成方法,该方法可实现生成句子结构清晰、内容准确的文本摘要。
为了达到上述技术效果,本发明的技术方案如下:
一种基于复制机制的变分生成解码器的文本摘要生成方法,包括以下步骤:
S1:将输入的文本内容映射成一个的编码成语义序列;
S2:对步骤S1得到的语义序列进行解码;
S3:对步骤S2解码的输出进行优化得到输入文本的文本摘要。
进一步地,所述步骤S1的具体过程是:
将输入的文本内容X={x1,x2,...,xT}映射成对应的词向量作为输入送入编码器的双向的门控循环单元GRU进行编码,得到输入的文本在编码阶段的隐藏层状态,双向的门控循环单元GRU包含前向-后向和后向-前向两个方向进行编码,前向-后向是由x1到xT;后向-前向是由xT到x1,所得的隐藏层状态如下:
进一步地,所述步骤S2中的解码过程包括基于VAE的潜在句子结构信息建模和基于复制机制的复制信息建模,其中基于VAE的潜在句子结构信息建模的过程是:
在句子建模是考虑到时序问题,将t时刻之前的输出变量y<t和潜在结构变量z<t映射成后验分布qφ(zt|y<t,z<t),用后验分布qφ(zt|y<t,z<t)近似输出的真实后验分布pθ(zt|y<t,z<t),并假设这个分布是正态分布,从qφ(zt|y<t,z<t)中采样出z,由于采样过程不可导,为了保证训练过程反向传播顺利进行,所以引入重构参数技巧,通过参数变化得到新的采样结果,重构参数式子如下:
z=μ+σε
其中,ε~N(0,I)是噪声变量,高斯参数μ和σ分别是变分均值和标准差;
进一步地,所述步骤S2中基于复制机制的复制信息建模的过程是:
gswitch用来给生成部分的变量和复制部分变量分配不同权重,gswitch代表生成部分的权重;(1-gswitch)代表复制部分的权重,将ct作为复制部分的变量能确保每一个最终的隐层都有不同程度的复制,达到了再一次加强注意力机制的效果,减轻产生重复词问题;
最终的隐藏层变量计算如下:
将最终隐藏层变量h经过softmax(·)函数得到目标词yt的概率分布,如下式表示:
进一步地,所述步骤S3的具体过程是:
进行优化网络,损失函数主要包括两部分:生成摘要的对数似然函数的负数和变分的下界,将变分下界中对数项和生成摘要的对数似然函数结合。损失函数如下式所示:
其中,{Xn}表示训练文本内容,{yn}表示生成的目标摘要,DKL[·]为KL散度,N为样本个数,T为输出序列长度。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供了一种基于复制机制的变分生成解码器的文本摘要生成方法。该方法基于注意力的序列到序列框架结合变分自编码(Variational Auto-Encoder,VAE)和复制机制来提取和充分利用句子中蕴含的有效信息。该方法的编码器和传统的编码器相同,采用双向的门控循环单元(Gated Recurrent Unit,GRU)作为基本序列建模单元。与传统解码器不同,该方法的解码器一共有三部分,第一部分是GRU解码部分,采用两层GRU,第一层GRU用于注意力机制的计算,第二层GRU则引入注意力机制,计算得到解码器隐藏层状态。第二部分是VAE部分,用于潜在变量的建模,利用VAE提取潜在句子结构信息,生成含有目标摘要潜在结构信息的隐变量。将隐变量和解码器隐藏层状态结合映射成一个新变量作为生成部分的变量。第三部分是复制部分,采用含有注意力机制的上下文的语义向量作为复制部分的变量。在模型的最终输出部分,生成部分的变量和复制部分的变量共同作用一起解码输出,生成句子结构清晰、内容准确的文本摘要。
附图说明
图1为本发明方法的流程图;
图2数据预处理图;
图3分词图;
图4 VAE思想图;
图5摘要潜在结构分析图;
图6生成摘要举例图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于复制机制的变分生成解码器的文本摘要生成方法,即给定一个文本序列X={x1,x2,...,xT}作为输入,目标是生成对应文本序列的摘要Y={y1,y2,...,yT}。整体框架如图1,分成编码器和解码器两部分。编码器部分采用双向的GRU对输入序列进行编码。解码器则有三部分组成,第一部分是GRU解码部分,采用两层GRU,第一层GRU用于注意力机制的计算,第二层GRU则引入注意力机制,计算得到解码器隐藏层状态。第二部分是VAE部分,用于潜在变量的建模,利用VAE提取潜在句子结构信息,生成含有目标摘要潜在结构信息的隐变量。将隐变量和解码器隐藏层状态结合映射成一个新变量作为生成部分的变量。第三部分是复制部分,采用含有注意力机制的上下文的语义向量作为复制部分的变量。在模型的最终输出部分,生成部分的变量和复制部分的变量共同作用一起解码输出得到目标摘要。以新浪微博短中文摘要公开数据集(large-scale Chinese short textsummarization,LCSTS)为例进行说明。
首先数据预处理,如图2所示。按照图3的方式进行分词,构建词典。分别对文本内容和目标摘要进行分词和构建词典。为了避免分词错误带来的误差,以字为单位进行分词构建词典。然后将词典的字映射成随机初始化的词向量。分别得到文本内容的词典和目标摘要的词典。
然后将输入的文本内容X={x1,x2,...,xT}转化成ID的形式,通过ID在字典里索引,找到对应字的字向量,以字向量的形式作为输入送入双向的GRU进行编码,得到编码阶段的隐藏层状态。双向GRU包含前向-后向和后向-前向两个方向进行编码。前向-后向是由x1到xT;后向-前向是由xT到x1。所得的隐藏层状态如下所示:
其中,yt-1是上一时刻的输出,是上一时刻的第一层隐藏层状态。
上下文语义向量ct表示输入文本内容的隐藏层状态的加权和:
第二层隐藏层状态,考虑将注意力机制引入解码阶段,将ct加入的计算中:
再接下来是对句子潜在结构建模,提取出句子中的潜在结构如图5。用一个后验分布qφ(zt|y<t,z<t)近似输出的真实后验分布pθ(zt|y<t,z<t),并假设这个分布是正态分布,从qφ(zt|y<t,z<t)中采样出z。由于采样过程不可导,为了保证训练过程反向传播顺利进行,所以引入重构参数技巧,通过参数变化得到新的采样结果,如图5所示。重构参数式子如下:
z=μ+σε
其中,ε~N(0,I)是噪声变量,高斯参数μ和σ分别是变分均值和标准差。
再接下来是对复制变量的建模。在解码阶段引入复制机制。将上下文语义向量ct作为复制向量。通过复制向量ct、第二层隐藏层状态以及潜在结构变量zt计算出一个控制门gswitch:
gswitch用来给生成部分的变量和复制部分变量分配不同权重。gswitch用来给生成部分的变量和复制部分变量分配不同权重。gswitch代表生成部分的权重;(1-gswitch)代表复制部分的权重。将ct作为复制部分的变量能确保每一个最终的隐层都有不同程度的复制,达到了再一次加强注意力机制的效果,减轻产生重复词问题。
所以最终的隐藏层变量计算如下:
最后,将最终隐藏层变量h经过softmax(·)函数得到目标词yt的概率分布,如下式表示:
进行优化网络,损失函数主要包括两部分:生成摘要的对数似然函数的负数和变分的下界。为了方便表示,将变分下界中对数项和生成摘要的对数似然函数结合。损失函数如下式所示:
其中,{Xn}表示训练文本内容,{yn}表示生成的目标摘要,DKL[·]为KL散度,N为样本个数,T为输出序列长度。图6为实施例的生成摘要结果图。
本实施例方法基于注意力的序列到序列框架结合VAE和复制机制来提取和充分利用句子中蕴含的有效信息。该方法的编码器和传统的编码器相同,采用双向的GRU作为基本序列建模单元。与传统解码器不同,该方法的解码器一共有三部分,第一部分是GRU解码部分,采用两层GRU,第一层GRU用于注意力机制的计算,第二层GRU则引入注意力机制,计算得到解码器隐藏层状态。第二部分是VAE部分,用于潜在变量的建模,利用VAE提取潜在句子结构信息,生成含有目标摘要潜在结构信息的隐变量。将隐变量和解码器隐藏层状态结合映射成一个新变量作为生成部分的变量。第三部分是复制部分,采用含有注意力机制的上下文的语义向量作为复制部分的变量。在模型的最终输出部分,生成部分的变量和复制部分的变量共同作用一起解码输出,生成句子结构清晰、内容准确的文本摘要。
本发明方法相较于传统的序列到序列模型,没有引入生成式模型,摘要的句子信息提取不够全面,无法利用潜在句子结构信息,导致生成摘要质量不高。本发明基于注意力的序列到序列框架下增加了潜在句子结构信息建模部分,引入VAE作为生成模型来建模潜在结构变量,提高了生成摘要的结构性与可读性。
同时,本发明在解码部分引入了复制机制,将该方法的输出部分分为生成部分和复制部分。VAE生成的隐变量和解码器隐藏层状态结合映射成一个新的隐变量作为生成部分,含有注意力机制的上下文的语义向量作为复制部分,生成部分和复制部分结合一起解码输出。既保证了能利用句子深层次的语义信息又缓解了序列到序列框架中常见的重复问题,使得摘要生成有序、高质量的进行。
另外,本发明的解码器的GRU解码部分采用两层GRU。第一层GRU用于注意力机制的计算,第二层GRU则引入注意力机制得到解码器隐藏层状态,利于实现变分思想与复制思想结合,构建基于复制机制的变分生成解码器;该方法在LCSTS数据集上验证,论证算法优于常见的基线模型。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (5)
1.一种基于复制机制的变分生成解码器的文本摘要生成方法,其特征在于,包括以下步骤:
S1:将输入的文本内容映射成一个的编码成语义序列;
S2:对步骤S1得到的语义序列进行解码;
S3:对步骤S2解码的输出进行优化得到输入文本的文本摘要。
3.根据权利要求2所述的基于复制机制的变分生成解码器的文本摘要生成方法,其特征在于,所述步骤S2中的解码过程包括基于VAE的潜在句子结构信息建模和基于复制机制的复制信息建模,其中基于VAE的潜在句子结构信息建模的过程是:
在句子建模是考虑到时序问题,将t时刻之前的输出变量y<t和潜在结构变量z<t映射成后验分布qφ(zt|y<t,z<t),用后验分布qφ(zt|y<t,z<t)近似输出的真实后验分布pθ(zt|y<t,z<t),并假设这个分布是正态分布,从qφ(zt|y<t,z<t)中采样出z,由于采样过程不可导,为了保证训练过程反向传播顺利进行,所以引入重构参数技巧,通过参数变化得到新的采样结果,重构参数式子如下:
z=μ+σε
其中,ε~N(0,I)是噪声变量,高斯参数μ和σ分别是变分均值和标准差;
采样出来的潜在变量z包含有目标摘要的潜在句子结构信息,将潜在结构变量z和第二层隐藏层状态共同映射到一个新的隐藏层状态作为生成部分变量:
4.根据权利要求3所述的基于复制机制的变分生成解码器的文本摘要生成方法,其特征在于,所述步骤S2中基于复制机制的复制信息建模的过程是:
为了解决生成摘要中的重复问题,在解码阶段引入复制机制,将上下文语义向量ct作为复制向量,通过复制向量ct、第二层隐藏层状态以及潜在结构变量zt计算出一个控制门gswitch:
gswitch用来给生成部分的变量和复制部分变量分配不同权重,gswitch代表生成部分的权重;(1-gswitch)代表复制部分的权重,将ct作为复制部分的变量能确保每一个最终的隐层都有不同程度的复制,达到了再一次加强注意力机制的效果,减轻产生重复词问题;
最终的隐藏层变量计算如下:
其中,sigmoid(·)是激活函数,是权重矩阵,是偏置,h为最终的隐藏层变量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910872440.9A CN110825869A (zh) | 2019-09-16 | 2019-09-16 | 一种基于复制机制的变分生成解码器的文本摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910872440.9A CN110825869A (zh) | 2019-09-16 | 2019-09-16 | 一种基于复制机制的变分生成解码器的文本摘要生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110825869A true CN110825869A (zh) | 2020-02-21 |
Family
ID=69548131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910872440.9A Pending CN110825869A (zh) | 2019-09-16 | 2019-09-16 | 一种基于复制机制的变分生成解码器的文本摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110825869A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626614A (zh) * | 2021-08-19 | 2021-11-09 | 车智互联(北京)科技有限公司 | 资讯文本生成模型的构造方法、装置、设备及存储介质 |
CN113901809A (zh) * | 2021-09-16 | 2022-01-07 | 昆明理工大学 | 基于半监督的敏感舆情短语生成方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110032638A (zh) * | 2019-04-19 | 2019-07-19 | 中山大学 | 一种基于编码器-解码器的生成式摘要提取方法 |
-
2019
- 2019-09-16 CN CN201910872440.9A patent/CN110825869A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110032638A (zh) * | 2019-04-19 | 2019-07-19 | 中山大学 | 一种基于编码器-解码器的生成式摘要提取方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626614A (zh) * | 2021-08-19 | 2021-11-09 | 车智互联(北京)科技有限公司 | 资讯文本生成模型的构造方法、装置、设备及存储介质 |
CN113626614B (zh) * | 2021-08-19 | 2023-10-20 | 车智互联(北京)科技有限公司 | 资讯文本生成模型的构造方法、装置、设备及存储介质 |
CN113901809A (zh) * | 2021-09-16 | 2022-01-07 | 昆明理工大学 | 基于半监督的敏感舆情短语生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598221B (zh) | 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法 | |
CN111178094B (zh) | 一种基于预训练的稀缺资源神经机器翻译训练方法 | |
CN112115687B (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN110795556A (zh) | 一种基于细粒度***式解码的摘要生成方法 | |
CN107967262A (zh) | 一种神经网络蒙汉机器翻译方法 | |
CN113158665A (zh) | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 | |
CN111708877B (zh) | 基于关键信息选择和变分潜在变量建模的文本摘要生成法 | |
CN112765345A (zh) | 一种融合预训练模型的文本摘要自动生成方法及*** | |
CN110032638B (zh) | 一种基于编码器-解码器的生成式摘要提取方法 | |
CN108845994B (zh) | 利用外部信息的神经机器翻译***及翻译***的训练方法 | |
CN111160452A (zh) | 一种基于预训练语言模型的多模态网络谣言检测方法 | |
CN111666756B (zh) | 一种基于主题融合的序列模型文本摘要生成方法 | |
CN111125333B (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN111581374A (zh) | 文本的摘要获取方法、装置及电子设备 | |
Xue et al. | A better way to attend: Attention with trees for video question answering | |
CN110084297B (zh) | 一种面向小样本的影像语义对齐*** | |
CN108228576A (zh) | 文本翻译方法及装置 | |
CN113657123A (zh) | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 | |
CN112926344B (zh) | 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质 | |
CN113723103A (zh) | 融合多源知识的中文医学命名实体和词性联合学习方法 | |
CN108763230B (zh) | 利用外部信息的神经机器翻译方法 | |
CN110825869A (zh) | 一种基于复制机制的变分生成解码器的文本摘要生成方法 | |
CN115719072A (zh) | 一种基于掩码机制的篇章级神经机器翻译方法及*** | |
CN117573084B (zh) | 一种基于逐层融合抽象语法树的代码补全方法 | |
CN116720531B (zh) | 基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200221 |
|
RJ01 | Rejection of invention patent application after publication |