CN110597979B

CN110597979B - 一种基于自注意力的生成式文本摘要方法

Info

Publication number: CN110597979B
Application number: CN201910511656.2A
Authority: CN
Inventors: 田珂珂; 印鉴
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2023-06-23
Anticipated expiration: 2039-06-13
Also published as: CN110597979A

Abstract

本发明提供一种基于自注意力的生成式文本摘要方法，该方法抛弃了以往文本摘要方法中常用的循环神经网络结构，转而采用了基于自注意力机制的方法，避免了循环神经网络结构的低效性。此外对于自注意力机制方法在生成摘要效果不佳的缺点，本发明对其该方法进行了改进，简化了其结构，最终实现了高效、准确的文本摘要生成。

Description

一种基于自注意力的生成式文本摘要方法

技术领域

本发明涉及自然语言处理和文本处理领域，更具体地，涉及一种基于自注意力的生成式文本摘要方法。

背景技术

随着近年来互联网技术的发展，文本信息呈现爆发式增长，人们每天能从各种途径接触到海量的文本信息，如新闻、博客、微信、微博等。大量的文本数据同时也带来了信息过载的问题。根据中国网络信息中心(CNNIC)发布的《第43次中国互联网络发展状况统计报告》显示，截至2018年12月，中国的网民又突破了历史新高，达到了8.29亿人，已经占到了中国总人口的59.6％。其中城镇网民占6.07亿，农村网民占2.22亿。而根据QuestMobile发布的《***互联网2018年半年大报告》显示，***互联网用户对互联网的依赖越发强烈，人均单日使用时长达289.7分钟(近5小时)，其中资讯是除过社交和视频之外，最消耗时间的项目，且仍有上升趋势。也就是说，人们每天花费大量的时间，在浏览各式各样的信息上，因此信息过载问题不容忽视。根据社会学研究，信息过载会给人们都来许多现实和心理上的困扰，如浪费时间精力、决策失误、精神压力。在此背景下，自动文本摘要和个性化推荐***成为了解决信息过载的重要方法，因此这两个领域得以快速发展。

文本摘要，即给定一段长文本，通过提取其中的关键信息，将其精炼成一段短文本或几句话。现有的文本摘要的方法可大致分为两类，抽取式(extractive)和生成式(abstractive)。

抽取式，顾名思义，即从原文中抽取出能最大程度上保留原文信息的一个或多个句子，并将其组合成一段话，作为原文的摘要。这种方法所形成的摘要一般无语法问题，但多个句子间的衔接往往并不顺畅。此外，部分文章的关键信息较为分散，并不集中在几个句子中，故有时候得到的摘要质量较差，不过整体来说差强人意。生成式方法，与人类做摘要的方式较为接近，即先阅读原文，然后根据自己的理解写摘要。对于计算机来说，即先将原文编码成数字形式，然后根据编码信息来进行解码，使用语言模型来生产摘要。当前的各类生成式方法能生成效果较好的摘要，但其无论是在模型训练阶段还是生成摘要阶段，效率都十分的低下，尤其是在输入序列较长时，其时间消耗和空间消耗十分巨大。

发明内容

本发明提供一种高效、准确的基于自注意力的生成式文本摘要方法。

为了达到上述技术效果，本发明的技术方案如下：

一种基于自注意力的生成式文本摘要方法，包括以下步骤：

S1：建立基于自注意力机制的文本摘要模型，模型包括基于自注意力机制的编码器和基于注意力机制的解码器，其中编码器的参数被解码器共享；

S2：建立文本摘要模型的对应的损失函数；

S3：进行文本摘要模型的训练，并在目标文本数据集上测试。

进一步地，所述步骤S1的具体过程是：

S11：构建字词的向量表示层：先将文字转换成数字表示，即用向量表示层来完成；

S12：构建基于自注意力机制的编码器，编码器包括多头注意力层和全连接层，接收来自于向量表示层的向量，并提取其中隐藏的特征，以向量形式输出；

S13：构建基于注意力机制的解码器，解码器包括多头注意力层和全连接层，接收来自于编码器的特征，并根据此特征来生成摘要文本。

进一步地，所述步骤S2的具体过程是：

文本摘要模型的损失函数由负对数似然函数给出：

loss＝-logP(y|x)

其中，x＝{x₁，x₂，...，x_n}为输入原文文本，y＝{y₁，y₂，...，y_m}为摘要序列，m＜n，似然函数表示在当前模型参数下，得到摘要序列的概率，而该概率，即在当前模型参数下，得到摘要序列中每个词的概率相乘：

P(y|x)＝p(y₁|x)*p(y₂|x，y₁)*...*p(y_m|x，y₁，...y_m-1)。

进一步地，所述步骤S3的具体过程是：

S31：对于训练集中的输入原文文本x＝{x₁，x₂，...，x_n}，对其进行分词，每个词输入到向量表示层得到其对应的向量，并输入到编码器，编码器提取每个词的特征，对每个词产生一个向量h_i，则对于原文序列有矩阵H＝[h_i]，对于训练集中的摘要序列y＝{y₁，y₂，...，y_m}，做相同的处理，得到矩阵表示S＝[s_i]；

S32：将S31得到的向量表示H和S，共同输入到解码器中，解码器来预测一个摘要序列y′＝{y′₁，y′₂，...，y′_k}；

S33：将y′和y作为损失函数的输入，计算损失值，并进行梯度回传，以更新文本摘要模型参数，训练文本摘要模型；

S34：对于训练集中的所有数据，重复S31-S33，迭代10次左右，即可完成文本摘要模型的训练，将训练好的文本摘要模型保存。

进一步地，用训练好的文本摘要模型在测试集上进行测试，生成测试集中每个输入文本对应的摘要序列，使用ROUGE评价方法来对生成的摘要序列质量进行量化评估。

与现有技术相比，本发明技术方案的有益效果是：

本发明抛弃了以往文本摘要方法中常用的循环神经网络结构，转而采用了基于自注意力机制的方法，避免了循环神经网络结构的低效性。此外对于自注意力机制方法在生成摘要效果不佳的缺点，本发明对其该方法进行了改进，简化了其结构，最终实现了高效、准确的文本摘要方法。

附图说明

图1为本发明流程示意图；

图2为实施例1中的算法结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，本实施例中提供了一种基于自注意力的生成式文本摘要方法，包括以下步骤：

S2：建立文本摘要模型的对应的损失函数；

步骤S1的具体过程是：

步骤S2的具体过程是：

文本摘要模型的损失函数由负对数似然函数给出：

loss＝-logP(y|x)

P(y|x)＝p(y₁|x)*p(y₂|x，y₁)*...*p(y_m|x，y₁，...y_m-1)。

步骤S3的具体过程是：

S31：对于训练集中的输入原文文本x＝{x₁，x₂，...，x_n)，对其进行分词，每个词输入到向量表示层得到其对应的向量，并输入到编码器，编码器提取每个词的特征，对每个词产生一个向量h_i，则对于原文序列有矩阵H＝[h_i]，对于训练集中的摘要序列y＝{y₁，y₂，...，y_m)，做相同的处理，得到矩阵表示S＝[s_i]；

其中，用训练好的文本摘要模型在测试集上进行测试，生成测试集中每个输入文本对应的摘要序列，使用ROUGE评价方法来对生成的摘要序列质量进行量化评估。

本实施中的方法针对新闻文本的摘要生成，使用的数据为英文新闻数据集Gigaword和DUC2004。Gigawords来自于约翰霍普金斯大学的人类语言技术实验室，内含约400万条短新闻文本及其对应的标题；DUC2004数据集首次来源于文本分析会议TAC，包含500条文本，用于评测文本摘要效果。表1展示了这两个数据集的详细情况。

表1、Gigaword和DUC2004数据集的详细情况

已有的生成式文本摘要方法，遵循编码解码框架，通常采用循环神经网络作为其编码器和解码器。编码器由双向循环神经网络组成，用于从两个方向阅读原文，从而充分利用上下文信息。解码器由单向循环神经网络构成，最开始其输入为特定的开始标识符，如“<s>”，然后逐字生成摘要序列，当生成结束标识符，如“</s>”，则生成摘要的过程结束。基于循环神经网络的方法生成的摘要效果较好，但是其处理序列的特点是逐词处理，并行化能力较差，使得其无论是在训练阶段还是在测试阶段，效率都十分低下。所以提出了基于自注意力机制的文本摘要方法。

具体方法步骤如下：构建模型，包括基于自注意力机制的编码器，和基于注意力机制的解码器，编码器和解码器都可堆叠多层；将原文序列x和摘要序列y输入到编码器，得到其对应的特征h和s，接下来将h和s输入到解码器，可生成摘要序列y′，根据y和y′计算损失函数，以更新模型参数。在测试阶段，摘要序列一开始只包含开始标识符，然后逐词生成摘要。细节如下：

1、首先读入训练集，每个训练集包含两个文件，一个文件保存了输入文本，另一个文件保存了摘要序列，输入文本和摘要序列一一对应；

2、构建模型，包括编码器和解码器，编码器包括带掩码的多头自注意力层和全连接层。解码器包括多头注意力层和全连接层；

3、将训练集每64个原文-摘要对作为一个batch，经过编码器，得到原文和摘要对应的特征表示h和s，然后将h和s一起输入到解码器，生成摘要序列y′，然后通过损失函数计算损失值，采用反向传播来更新模型参数，以对模型进行训练。

4、重复步骤3约10次，基本上可将模型充分训练。训练完成后，将模型参数保存到本地文件。

5、读取测试集数据，在测试集上测试模型效果。读取测试集中的原文x，设置初始摘要序列y′＝{y₀}，仅包含开始标识符“<s>”；使x和y′依次经过编码器和解码器，得到摘要序列的下一个词y₁，则此时y′＝{y₀，y₁}，重复上述过程，直至最终得到结束标识符，完成摘要序列的生成。

6、采用ROUGE指标来对模型生成的摘要质量进行评估，其中包括三个子指标：ROUGE-1，ROUGE-2，ROUGE-L，该指标得分越高越好。

为了体现本发明方法建立的模型的效果，选择另外几个模型来进行对比：

ABS，文本摘要领域最开始的模型；

Seq2seq，基于循环神经网络和注意力机制的模型；

Transformer，基于自注意力机制的模型，最开始用于机器翻译领域；

Seq2seq+select，加入了选择门机制的seq2seq模型；

分别在Gigaword训练集上进行训练，用其验证集来选择模型，训练完成后，在Gigaword测试集和DUC2004测试集上进行实验，测试结果分别如表2和表3所示。对比了本发明方法建立的模型跟其他已有方法的效果，从表2和表3来看，本发明方法建立的模型相对以往的模型，在生成摘要的质量上有了明显的提升。此外，本发明方法的训练效率在所有的方法中，也是最优的，相对其他基于循环神经网络的模型，训练时间仅为他们的1/9～1/3。证明了本发明方法的有效性和高效性。

本发明方法建立的模型的具体结构如附图2所示。

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

表2对比不同模型的在Gigaword数据集上的效果(F1值，％)

表3对比不同模型的在DUC2004数据集上的效果(召回率，％)

模型	ROUGE-1	ROUGE-2	ROUGE-L
				ABS	26.55	7.06	22.05
Seq2seq	27.88	8.41	24.04
				Transformer	27.34	8.29	24.01
Seq2seq+select	28.12	8.98	24.89
				本发明方法	28.82	9.60	25.32

相同或相似的标号对应相同或相似的部件；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。