CN108804495B

CN108804495B - 一种基于增强语义的自动文本摘要方法

Info

Publication number: CN108804495B
Application number: CN201810281684.5A
Authority: CN
Inventors: 史景伦; 洪冬梅; 宁培阳; 王桂鸿
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-04-02
Filing date: 2018-04-02
Publication date: 2021-10-22
Anticipated expiration: 2038-04-02
Also published as: CN108804495A

Abstract

本发明公开了一种基于增强语义的自动文本摘要方法，步骤如下：对文本预处理，按照词频信息从高到低排列，将词转为id；利用一个单层双向LSTM将输入序列进行编码，提取文本信息特征；利用单层单向LSTM将编码得到的文本语义向量进行解码获得隐层状态；进行语境向量的计算，提取输入序列中与当前输出最有用的信息；在解码后得到一个词表大小的概率分布，采取一定的策略进行摘要词选择，训练阶段将融合生成摘要和源文本的语义相似度进行损失计算，提高摘要和源文本的语义相似度。本发明利用LSTM深度学习模型对文本进行表征，融入上下文的语义联系，并增强了摘要和源文本的语义关系，生成的摘要更能契合文本的主题思想，应用前景广泛。

Description

一种基于增强语义的自动文本摘要方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于增强语义的自动文本摘要方法。

背景技术

随着科技和互联网的快速发展，大数据时代的来临，铺天盖地的网络信息与日俱增。其中，具有代表性的文本信息量的***性增长，如新闻、博客、聊天、报告、微博等，使得信息负担过重，庞大的信息使得人们在浏览阅读时花费大量时间。因此，如何快速从大量文本信息中提取关键内容，解决信息过载的问题，已成为一个迫切的需求，自动文本摘要技术应运而生。

自动文本摘要技术按照生成摘要类型可分为抽取式摘要和生成式摘要。前者是将原文中的句子按照一定的方法来进行重要性排序，将重要性最高的前n个句子作为摘要；后者是通过挖掘更深层次的语义信息，对原文中心思想进行转述，概括。对于抽取式摘要已经由大量的研究，但是这种方法只是停留在表面的词汇信息，而生成式摘要更符合人产生摘要的过程。

近几年来，由于深度学习的兴起，在许多领域取得了不多的成绩，也被引入了自动文摘领域。基于序列到序列seq2seq模型，可以实现生成式摘要，借鉴机器翻译的成功应用，基于seq2seq模型的自动文摘已成为自然语言处理的研究热点，但还存在一些连贯性，可读性的问题。传统的抽取式摘要通常会造成很大的信息损失，尤其体现在长文本中，因此深入研究生成式自动文摘，对于真正解决信息过载具有重要意义。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于增强语义的自动文本摘要方法，该方法基于seq2seq模型，在引入注意力机制的同时，利用生成摘要与源文本的语义相似性来训练，提高生成摘要与源文本的语义相关度，提高摘要质量。

本发明的目的可以通过采取如下技术方案达到：

一种基于增强语义的自动文本摘要方法，所述的自动文本摘要方法包括：

文本预处理步骤，对文本进行分词、形态还原以及指代消解，按照词频信息从高到低排列，将词转为id；

编码步骤，将输入序列进行编码，经过神经网络得到携带文本序列信息的隐藏层状态向量；

解码步骤，将由编码器得到的最后隐藏层状态进行初始化，开始进行解码获得每一步隐藏层状态s_t；

注意力分布计算步骤，结合输入序列的隐藏层状态与当前时刻解码获得的隐藏层状态s_t进行语境向量的计算，得到当前t时刻的语境向量u_t；

摘要生成步骤，将解码步骤得到的输出经过两个线性层映射为词表大小维度的向量，每一个维代表词表中单词的概率，用一定选择策略选出候选词，生成摘要。

进一步地，所述的文本预处理步骤中文本的数据是通过爬虫爬取的语料库或开源的语料库，并由文章-摘要对组成。

进一步地，所述的文本预处理步骤中，获取前200k的词作为基本词表，同时将特殊标记[PAD]、[UNK]、[START]和[STOP]加入词表，并把文本的词转为id，每一篇对应一个序列。

进一步地，所述的输入序列是将文本经过转换后获得的id序列对应的词向量，词向量维度128，序列最大长度取为700。

进一步地，所述的神经网络是一个单层双向的LSTM，隐藏层单元数是256，将正反向的隐藏层状态h连接起来得到最终隐藏层状态。

进一步地，所述的解码步骤过程如下：

接收输入的词向量以及上一时刻隐藏层状态，经过单层单向的LSTM神经网络，得到当前时刻隐藏层状态s_t，隐藏单元数是256。

进一步地，所述的语境向量u_t的计算方式如下：

其中，v，W_h，W_s和b_att是需要学习的参数，h_i为encoder的隐藏层状态值，N为输入序列的长度。

进一步地，所述的选择策略指的是测试阶段用beam search算法在每一步选出概率最大的4个结果，直到最后得到概率最大的摘要序列，而训练阶段只选概率最大的词，摘要完全生成后与参考摘要进行对比评估。

进一步地，所述的摘要生成步骤中，每一步只生成一个词，最终生成摘要最大长度为100，也就是从编码步骤到摘要生成步骤最大循环次数是100，当输出结束标志或者达到最大长度时停止，概率计算公式如下：

p_v＝softmax(V₁(V₂[s_t,u_t]+b₂)+b₁)

其中，V₁，V₂，b₁，b₂都是需要学习的参数，p_v为预测下一个单词提供依据。

进一步地，所述的摘要生成步骤还包括：将最终得到的预测摘要和源文本序列进行语义相似度Rel计算，训练过程惩罚低语义相关度的摘要，计算如下：

其中，

和

分别是前向和后向的隐藏层状态，G_t是编码器隐藏层状态，λ是一个可调节因子，M是生成的摘要序列长度，loss_t是每一步的损失，与语义相似度Rel结合构成总的损失loss。

本发明相对于现有技术具有如下的优点及效果：

本发明基于seq2seq模型，构建了基于LSTM的自动文本摘要模型，在解码器时引入注意力机制获取每一时刻的语境向量，并引入语义相似度来增强生成摘要与源文本的语义相关度，在训练时将相似度融合到损失函数中，避免模型走偏，提高摘要的质量。

附图说明

图1是本发明的基于增强语义的自动文本摘要方法的步骤流程图；

图2是本发明中的语义相似度计算结构图；

图3是本发明中的解码生成摘要词时每一步的算法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，基于增强语义的自动文本摘要方法包括：文本预处理步骤、编码步骤、解码步骤、注意力步骤、摘要生成步骤。其中：

文本预处理步骤，这里的文本数据可以是通过爬虫爬取的语料库，也可以是开源的语料库，以CNN/Daily Mail为例，是由文章-摘要对组成的，每篇文章平均780个词，摘要平均56个词。将源文本进行分词，形态还原，指代消解后，按照词频高低，获取前200k的词作为基本词表，并且与每一个文本的词组成对应的扩展词表，同时将特殊标记[PAD],[UNK],[START],[STOP]加入词表，并把文本的词转为id，每一篇对应一个序列，摘要同理，训练集包含287226个样本，验证集包含13368个样本，测试集包含11490个样本。

编码步骤，对输入序列进行word embedding后，得到128维的向量，经过神经网络得到一个携带文本序列信息的文本表示向量。

其中，输入序列是将文章经过转换后获得的id序列，最大长度取为700，最短长度为30。

其中，编码步骤中的神经网络是一个单层双向的LSTM组成，隐藏层单元数是256，将正反向的隐藏层状态h连接起来得到最终隐藏层状态。

解码步骤，接收输入序列的词向量，经过单层单向的LSTM神经网络，得到最终隐藏层状态s_t，隐藏单元数是256。

注意力计算步骤，结合当前时刻解码步骤得到解码状态s_t和编码步骤的输入序列的隐藏层状态，得到当前时刻的语境向量u_t。

其中，t时刻语境向量计算方式如下：

摘要生成步骤，将解码步骤得到的输出经过两个线性层映射为词表大小维度的向量，每一个维代表词表中单词的概率，用一定选择策略选出候选词。

其中，选择策略指的是测试阶段用beam search算法每一步选出概率最大的4个结果，直到最后得到概率最大的摘要序列，而训练阶段只取概率最大的词，摘要完全生成后与参考摘要进行对比评估。

其中，生成摘要最大长度为100，概率计算公式如下：

p_v＝softmax(V₁(V₂[s_t,u_t]+b₂)+b₁)

其中，V₁，V₂，b₁，b₂都是需要学习的参数，p_v为预测下一个单词提供了依据。

其中，摘要生成步骤还包括将最终得到的预测摘要和源文本序列进行语义相似度Rel计算，训练过程惩罚低语义相关度的摘要，计算如下：

其中，

和

分别是前向和后向的隐藏层状态，G_t是编码器隐藏层状态，λ是一个可调节因子，默认为1，M是生成的摘要序列长度，loss_t是每一步的损失，与相似度结合构成总的损失。

在训练过程中，采用的是反向传播算法，使用Adagrad优化器，学习率为0.15，初始加速器值为0.1。

解码步骤分为训练阶段和测试阶段，其中，训练阶段将参考摘要作为输入，测试阶段将上一时刻输出作为这一时刻输入。

评估参考摘要和预测摘要的指标为ROUGE指标。采用了linux操作***，并在GPU上运行程序，使用的编程语言为python，平台为tensorflow。引入语义相似度的模型运行时间大约4天，进行了约380000次迭代，实验结果如下表所示。

表1.三种模型结果对比

实验模型	ROUGE-1	ROUGE-2	ROUGE-L
				基本LSTM模型	0.2896	0.1028	0.2613
LSTM+Attention	0.3116	0.1127	0.2920
				LSTM+Attention+Rel	0.3493	0.1390	0.3342

本发明通过融合注意力机制，充分发挥seq2seq模型进行深层次挖掘文本语义信息的能力，使解码生成摘要时可以关注在输入序列中对当前输出有用的信息，并融入语义相似度进行损失计算，使模型在生成摘要时可以关注与源文本的语义相似度，得到更符合原文语义的句子。与传统的基于统计的自动文摘方法相比，基于深度学习的模型更有表征能力，在自动文本摘要任务上有很大优势。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于增强语义的自动文本摘要方法，其特征在于，所述的自动文本摘要方法包括：

文本预处理步骤，对文本进行分词、形态还原以及指代消解，按照词频信息从高到低排列，将词转为id序列；

摘要生成步骤，将解码步骤得到的输出经过两个线性层映射为词表大小维度的向量，每一个维代表词表中单词的概率，用选择策略选出候选词，生成摘要；其中，所述的选择策略指的是测试阶段用beam search算法在每一步选出概率最大的4个结果，直到最后得到概率最大的摘要序列，而训练阶段只选概率最大的词，摘要完全生成后与参考摘要进行对比评估；

所述的摘要生成步骤还包括：将最终得到的预测摘要和源文本序列进行语义相似度Rel计算，训练过程惩罚低语义相关度的摘要，计算如下：

其中，

和

分别是前向和后向的隐藏层状态，G_t是编码器隐藏层状态，λ是一个可调节因子，M是生成的摘要序列长度，loss_t是每一步的损失，与语义相似度Rel结合构成总的损失loss；

所述的摘要生成步骤中，每一步只生成一个词，最终生成摘要最大长度为100，也就是从编码步骤到摘要生成步骤最大循环次数是100，当输出结束标志或者达到最大长度时停止，概率计算公式如下：

p_v＝softmax(V₁(V₂[s_t,u_t]+b₂)+b₁)

2.根据权利要求1所述的一种基于增强语义的自动文本摘要方法，其特征在于，所述的文本预处理步骤中文本的数据是通过爬虫爬取的语料库或开源的语料库，并由文章-摘要对组成。

3.根据权利要求1所述的一种基于增强语义的自动文本摘要方法，其特征在于，所述的文本预处理步骤中，获取前200k的词作为基本词表，同时将特殊标记[PAD]、[UNK]、[START]和[STOP]加入词表，并把文本的词转为id序列，每一篇对应一个序列。

4.根据权利要求1所述的一种基于增强语义的自动文本摘要方法，其特征在于，所述的输入序列是将文本经过转换后获得的id序列对应的词向量，词向量维度128，序列最大长度取为700。

5.根据权利要求1所述的一种基于增强语义的自动文本摘要方法，其特征在于，所述的神经网络是一个单层双向的LSTM，隐藏层单元数是256，将正反向的隐藏层状态h连接起来得到最终隐藏层状态。

6.根据权利要求1所述的一种基于增强语义的自动文本摘要方法，其特征在于，所述的解码步骤过程如下：

7.根据权利要求1所述的一种基于增强语义的自动文本摘要方法，其特征在于，所述的语境向量u_t的计算方式如下：