CN114547287A

CN114547287A - 一种生成式文本摘要方法

Info

Publication number: CN114547287A
Application number: CN202111373234.7A
Authority: CN
Inventors: 田玲; 康昭; 惠孛; 孙麟; 罗光春; 袁铭潮; 陈仙莹
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-05-27
Anticipated expiration: 2041-11-18
Also published as: CN114547287B

Abstract

一种生成式文本摘要方法，属于自然语言处理技术领域。本发明在Word2Vec的CBOW模型基础上进行改进，融入了音节标注信息增强了文本的特征表示能力；采用基于LSTM的Encoder‑Decoder框架实现新闻摘要生成，并在生成过程中着力解决未登录词问题，有效提升了新闻摘要生成的效果。

Description

一种生成式文本摘要方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种生成式文本摘要方法。

背景技术

随着当今时代在计算机硬件设备技术的提升下计算机性能也随之飞速提高，以及互联网行业的蓬勃发展。个人计算机的普及和迅速发展的互联网行业导致了各种文本信息通过各种各样的载体出现在人们的日常生活中。由于这个时代信息量巨大，人们面临着一个不可避免的、具有挑战性的信息过载问题，同时由于网络上庞大的信息量，也给信息检索带来了困难。因此，如何解决信息过载造成的数据灾难问题，有效解决人们从文本中获取信息困难的问题，是目前全球领域内关注的热点内容之一。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要，该技术的出现解决了信息过载的问题。

早期自动文本摘要技术研究采用基于规则的方法和基于传统机器学习的方法，但其因为很难按照人类理解文章那样来学习文章导致其生成摘要不尽人意。随着深度学习相关研究的发展，循环神经网络模型具有灵活的计算步骤，其输出依赖于之前的计算，这使得它能够捕获语言中的上下文依赖关系，并能够对各种文本长度建模。但传统的基于循环神经网络的框架存在一个潜在的问题，在实际模型预测过程中，由于在预测时模型预测的词汇是开放的，假如预测文本中存在没有在生成单词的词表中的词，模型将无法对其进行处理和生成，这就是未登录词(Out-Of-Vocabulary，OOV)问题。因为在摘要生成过程中原文某些生僻词可能包含重要的信息，但是因为其频率比较低导致在训练时无法加入词表，并且由于现在模型越来越大，加入新词后模型重新训练代价十分高，导致传统方法并不能很好解决OOV问题。

发明内容

本发明的目的在于，针对背景技术存在的缺陷，提出了一种生成式文本摘要方法。

为实现上述目的，本发明采用的技术方案如下：

一种生成式文本摘要方法，包括以下步骤：

步骤1、数据爬取：

数据源网站爬取新闻文本原始语料，进行解析后，得到新闻文本；

步骤2、数据预处理：

S21.数据清洗：对步骤1得到的新闻文本进行数据清洗，得到清洗后的新闻文本；

S22.数据格式处理：对清洗后的新闻文本进行数据格式处理，得到处理后的新闻文本；

S23.分词：对处理后的新闻文本采用语法分析分词算法进行分词处理，得到分词后的新闻文本；

S24.音节标注：对分词后的新闻文本，采用语音和谐规律处理算法进行音节标注，采用1表示元音、0表示辅音，构造与分词后的新闻文本相同维度的音节向量，得到新闻文本音节数据；

步骤3、文本特征表示：

S31.初始化：首先，遍历步骤S23得到的分词后的新闻文本，得到分词后的新闻文本中词的个数V以及每个词的词频，将V个词按照词频从大到小的顺序排列，构建词汇表Vocab：{w₁，w₂，…，w_i，…，w_V}，w_i代表词汇表中的第i个词；根据词在词汇表中的位置，生成V维度的One-Hot编码，对于第i个词w_i，其生成的One-Hot编码记为one_hot_i；

S32.生成词向量并迭代训练：采用步骤S31中生成的One-Hot编码进行词向量的生成；对于词w_i，生成过程具体为：

a.定义词向量的长度为N，窗口大小为c；

b.随机初始化权重矩阵W_V×N，计算得到中间层的隐藏向量h_i：

c.随机初始化权重矩阵W′_N×V，计算词w_i的概率分布y：

y＝softmax(h_i·W′_N×V)

d.迭代训练：采用梯度下降的方法，不断迭代训练，当one_hot_i-y低于预设的阈值时，停止迭代，得到训练后的中间层的隐藏向量h_i′，训练后的中间层的隐藏向量h_i′为词w_i训练后的词向量h_i′；

S33.音节信息的融入：将步骤S24得到的音节向量与步骤S32得到的词向量 h_i′拼接，得到融入音节信息的词向量h″_i；

S34.基于神经网络的词向量调整：从分词后的新闻文本中随机抽取一个包含词w_i的句子W，假设句子W由m个词组成，词w_i在句子W中排第j位，记为w^j， W＝{w¹，w²，…w^m}，句子W对应的融入音节信息的句向量为

其中

表示在句子W中排第j位的词w^j对应的融入音节信息的词向量；然后，将融入音节信息的句向量H中的每一个词向量输入神经网络中，得到隐层向量G＝{g₁，g₂，…，g_j，…，g_m}，其中，g_j为词向量

的隐层向量；

S35.基于注意力机制的词向量调整：

a.针对隐层向量G＝{g₁，g₂，…，g_j，…，g_m}，计算注意力权重：

其中，V′和M′为随机初始化的矩阵，V′为1行、x列的矩阵，M′为x行、1 列的矩阵，x为预设的值，b为随机初始化的值；

b.采用梯度下降法训练V′、M′和b，得到训练好的注意力权重A′＝ [a₁′，a₂′...，a_j′...，a_m′]；

c.采用训练好的注意力权重对隐层向量g_j进行更新，得到更新后的隐层向量g′_j：

步骤4、新闻摘要生成：

S41.词向量表示：假设新闻向量S由k个句向量构成，S＝{s₁，…，s_p，…，s_k}，其中，句向量s_p由m′个词向量组成，s_p＝{g′₁，…，g′_q，…，g′_m′}，g′_q表示在句向量s_p中位置为q的词向量；

S42.编码：将步骤S41的新闻向量S输入LSTM模型进行编码，得到语义向量T：

T＝LSTM(S)

S43.解码：将步骤S42得到的语义向量T输入另一个LSTM模型进行解码，生成文本摘要向量S′：

S′＝LSTM(T)

文本摘要向量S′由k′个句向量构成，S′＝{s₁′，…，s_p′′…，s_k′′}，其中句向量s_p′′由m″个词向量组成；

S44.未登录词复制：

a.计算句向量s_p中词向量g′_q的概率分布：

P_vocab(g′_q)＝softmax(V″(V″′[s_p，s_p′′]+b′)+b″)

其中，[s_p，s_p′′]表示将步骤S41得到的句向量s_p和步骤S43得到的句向量s_p′′进行向量拼接操作；V″和V″′为随机初始化得到的矩阵，V″的维度为1*x′，V″′的维度为x′*1，x′为预设的值；b′和b″为随机初始化的数值；

b.计算词向量g′_q的生成概率P_gen：

P_gen＝sigmoid(s_p·M₁+sp_′′·M₂+A′·M₃+b_gen)

其中，M₁、M₂和M₃为随机初始化得到的矩阵，M₁、M₂、M₃的维度分别为 m′*m″、m″*m″、m′*m″；b_gen为随机初始化的数值；

c.得到词向量g′_q的最终生成概率：

其中a_j表示步骤S35的注意力权重；

d.若P_vocab(g′_q)为0向量，则从新闻向量S中更新词向量g′_q到S′中覆盖注意力权重最高的词向量；若P_vocab(g′_q)为非零向量，则将生成文本摘要向量S′中注意力权重最高的词向量更新为最终生成概率最高的词向量；

S45.映射：对于步骤S44更新后的生成文本摘要向量S′，将其中每个词向量映射成词，得到最终的文本摘要。

本发明的有益效果为：

本发明提供的一种生成式文本摘要方法，在Word2Vec的CBOW模型基础上进行改进，融入了音节标注信息增强了文本的特征表示能力；采用基于LSTM 的Encoder-Decoder框架实现新闻摘要生成，并在生成过程中着力解决未登录词问题，有效提升了新闻摘要生成的效果。

附图说明

图1为本发明提供的一种生成式文本摘要方法的流程图。

具体实施方式

下面结合附图对本发明的方案进行详细阐述。

一种生成式文本摘要方法，具体包括以下步骤：

步骤1、数据爬取：

本发明实施例爬取新闻网站上的新闻文本作为后续数据预处理的基础数据，比如中央广播网上的新闻文本；具体步骤如下：

S11.数据采集：在Scrapy爬虫框架中输入目标数据源网站的URL地址，获得格式为Json字符串的新闻文本原始语料；

S12.数据解析：对步骤S11得到的新闻文本原始语料进行正则表达式解析，得到新闻文本；所述新闻文本由多个句子组成，句子由多个词组成；

步骤2、数据预处理：

该步骤主要涉及对步骤S12得到的新闻文本进行预处理，以提高下游模型的数据分析处理能力。数据预处理过程包括：数据清洗、数据格式处理、分词和音节标注。具体为：

S21.数据清洗：对步骤S12得到的新闻文本采用基于SQL(Structured QueryLanguage，结构化查询语言)或者Excel的人工校对方法进行数据清洗，具体可以采用完整性检查、拼写检查更正、去除非文本信息、丢弃无效数据等手段，得到清洗后的新闻文本；

S22.数据格式处理：对清洗后的新闻文本采用基于SQL或者Excel的人工校对方法进行数据格式处理，具体包括大小写转换、数值格式统一等，得到处理后的新闻文本；

S23.分词：对处理后的新闻文本采用语法分析分词算法进行分词处理，得到分词后的新闻文本；分词后的新闻文本由句子组成，句子由词组成；该步骤的分词处理，是对处理后的新闻文本进行分词，在新闻文本中某些字与字之间添加标识符，用来表示新闻文本中哪些字组成了一个词，并不是分词处理后就变成了词汇表；例如[我/喜欢/吃/苹果]就是文本[我喜欢吃苹果]的分词处理结果。

S24.音节标注：的元音和辅音区分明显，同时元音的和辅音的表达含义有一定的区别，根据此特征，本发明采用1和0区分该词是元音还是辅音，采用1 表示元音、0表示辅音。对分词后的新闻文本，采用语音和谐规律处理算法进行音节标注，构造与分词后的新闻文本相同维度的音节向量，获得新闻文本音节数据。

步骤3、文本特征表示：

该步骤主要是针对传统文本特征表示方法生成文本特征离散稀疏的问题，在Word2Vec的CBOW(Continuous Bag-Of-Words Model)模型基础上进行改进，融入了音节标注信息以增强模型的文本特征表示能力，并利用Bi-LSTM和注意力机制对文本表征能力进行提升。

S31.初始化：采用步骤S23得到的分词后的新闻文本生成One-Hot编码。具体过程为：首先，遍历分词后的新闻文本，得到分词后的新闻文本中词的个数 V以及每个词的词频，将V个词按照词频从大到小的顺序排列，构建词汇表Vocab： {w₁，w₂，…，w_i，…，w_V}，w_i代表词汇表中的第i个词；根据每个词在词汇表中的位置，生成一个V维度的One-Hot编码，对于第i个词w_i，表示它在词汇表Vocab 中排在第i位，其生成的One-Hot编码记为one_hot_i，具体生成过程如下：

对于词w_i，它在词汇表Vocab中排在第i位，则其对应的One-Hot编码 one_hot_i为：[0，0...，1，0，0...，0]，该编码的维度为V，第i位为1，其余所有位均为 0。

S32.生成词向量并迭代训练：采用步骤S31中生成的One-Hot编码来生成词向量；对于词w_i，生成过程具体为：

a.定义词向量的长度为N，窗口大小为c；

b.按照高斯分布，随机初始化一个权重矩阵W_V×N，其中V表示该矩阵的行数，即One-Hot编码的维度V，N表示该矩阵的列数，即定义的词向量长度N；将词w_i的前面c个词w_i-c，w_i-c+1...，w_i-1和后面c个词w_i+1，w_i+2...，w_i+c的One-Hot 编码，即 one_hot_i-c，one_hot_i-c+1，...，one_hot_i-1，one_hot_i+1，one_hot_i+2，...，one_hot_i+c分别与W_V×N相乘后再取平均，得到中间层的隐藏向量h_i；计算公式如下：

c.按照高斯分布，随机初始化一个权重矩阵W′_N×V，其中N表示该矩阵的行数，即定义的词向量长度N，V表示该矩阵的列数，即One-Hot编码的维度V；将隐藏向量h_i右乘W′_N×V，再经过激活函数softmax，得到词w_i的概率分布y：

y＝softmax(h_i·W′_N×V)

d.迭代训练：迭代训练的目标是使得词w_i的概率分布y最接近真实的概率分布，即最接近词w_i的One-Hot编码。具体为：采用梯度下降的方法，将one_hot_i-y 的梯度反向传播给W_V×N和W′_N×V，不断修正W_V×N和W′_N×V的参数，使得 one_hot_i-y逐渐减小；当one_hot_i-y低于一个预设的阈值时(该阈值为自定义，设定时一般选取趋于0的数值，例如0.001)停止迭代，即可得到训练后的中间层的隐藏向量h_i′，该隐藏向量即为词w_i训练后的词向量h_i′；

S33.音节信息的融入：将步骤S24得到的音节向量与步骤S32得到的词向量 h_i′拼接，得到词w_i融入音节信息的词向量h″_i；

S34.基于Bi-LSTM(双向长短期记忆网络)进行词向量调整：通过 Bi-LSTM(双向长短期记忆网络)可以使得步骤S33得到的词w_i融入音节信息的词向量h″_i中包含更多的上下文信息，具体过程如下：

对步骤S33得到的词w_i融入音节信息的词向量h″_i进行调整，首先从分词后的新闻文本中随机抽取一个包含词w_i的句子W，假设这个句子W由m个词组成，词w_i在句子W中排在第j位，表示为w^j，则该句子可表示成词的集合W＝ {w¹，w²，…w^j，…w^m}(步骤S31提到的词w_i，是指在词汇表Vocab中排第i位的词，而此处的w¹，w²，…w^m指的是在句子W中位置为1，2，...，m的词)。该句子对应的融入音节信息的句向量为

其中

表示在句子W中排第j位的词w^j对应的融入音节信息的词向量；然后，将融入音节信息的句向量H 中的每一个融入音节信息的词向量

依次输入一个由 Bi-LSTM单元构成的神经网络中，得到

对应的隐层向量：

其中，g_j是融入音节信息的词向量

的隐层向量，G是句子W中m个词的融入音节信息的词向量

对应的隐层向量g₁，g₂，…，g_m组成的集合；

S35.基于注意力机制的词向量调整：不同的词对其他词的影响程度不同，利用注意力机制对步骤S34获得的词w^j的隐层向量g_j进行调整，接收其他词不同程度的影响。具体为：

a.针对m个词的隐层向量G＝{g₁，g₂，…，g_j，…，g_m}，计算注意力权重 [a₁，a₂...，a_j...，a_m]，公式如下：

其中，A表示注意力权重a₁，a₂...，a_j...，a_m组成的向量，a_j是一个数值， softmax函数会得到一个m维度的向量，a_j就是softmax函数输出的向量中第j位的数值；V′和M′是两个按照高斯分布随机初始化的矩阵，V′为1行、x列的矩阵， M′为x行、1列的矩阵(此处的x是一个预设的值，其取值最好趋近于向量g_j的长度)，b是一个按照高斯分布随机初始化的值；

b.采用梯度下降法训练上述公式中的V′、M′和b，得到训练好的注意力权重 A′＝[a₁′，a₂′...，a_j′...，a_m′]；

c.采用训练好的注意力权重A′＝[a₁′，a₂′...，a_j′...，a_m′]对隐层向量g_j进行更新：

得到词w^j的更新后的隐层向量g′_j；

步骤4、新闻摘要生成：

该步骤主要针对传统新闻摘要生成方法效果不佳的问题，采用基于LSTM的Encoder-Decoder框架实现新闻摘要生成，并在生成过程中着力解决未登录词 (Out-Of-Vocabulary，OOV)问题，以提升新闻摘要生成的效果。

S41.词向量表示：对步骤S23得到的分词后的新闻文本进行摘要生成。假设新闻向量S由k个句向量构成，即S＝{s₁，…，s_p，…，s_k}，其中，句向量s_p由m′个词向量组成，s_p＝{g′₁，…，g′_q，…，g′_m′}，其中g′_q表示在句向量s_p中位置为q的词向量；

S42.编码：

将步骤S41的新闻向量S输入单向LSTM模型进行编码，LSTM基于新闻向量S生成一个语义向量T：

T＝LSTM(S)

该语义向量T包含了该新闻的全部信息。

S43.解码：将步骤S42得到的语义向量T输入另一个不同的单向LSTM模型进行解码，生成文本摘要向量S′；生成的文本摘要向量S′由k′个句向量构成， S′＝{s₁′，…，s_p′′…，s_k′′}，其中句向量s_p′′由m″个词向量组成，s_p′′＝{g′₁，…g_′′，… g′_m″}，g′_q′为句向量s_p′′中位置为q′的词向量表示(LSTM用作解码时，可以将一个向量扩展为多个向量)：

S′＝LSTM(T)

S44.未登录词复制：在步骤S43获得文本摘要向量S′后，需判断S′中的每个词向量是否是未登录词的向量(即判断Vocab词汇表中是否有词对应的词向量与S′中的词向量一致，如果是，则需要进行词复制操作)。具体过程为：

a.计算句向量s_p中词向量g′_q的概率分布P_vocab，公式如下：

P_vocab(g′_q)＝softmax(V″(V″′[s_p，s_p′′]+b′)+b″)

其中[s_p，s_p′′]表示将步骤S41得到的句向量s_p和步骤S43得到的句向量s_p′′进行向量拼接操作；V″和V″′是两个根据高斯分布随机初始化得到的矩阵，V″的维度为1*x′，V″′的维度为x′*1(x′是一个预设的值，其取值在1000左右)；b′和b″是两个根据高斯分布随机初始化的数值；V″和V″′、b′和b″都需要通过梯度下降法不断修正它们的参数，以提高P_vocab(g′_q)的精确度。

b.计算词向量g′_q的生成概率P_gen：

P_gen＝sigmoid(s_p·M₁+s_p′′·M₂+A′·M₃+b_gen)

其中，M₁、M₂和M₃是根据高斯分布随机初始化得到的矩阵，s_p是步骤S41 得到的句向量，s_p′′是骤S43得到的句向量，A′是步骤S35得到的训练好的注意力权重的集合，b_gen是根据高斯分布随机初始化的数值；M₁、M₂、M₃的维度分别为m′*m″、m″*m″、m′*m″；M₁、M₂、M₃和b_gen都需要通过梯度下降法不断修正它们的参数，以提高P_gen的精确度。

c.综合上述的概率分布P_vocab和生成概率P_gen，即可得到词向量g′_q的最终生成概率：

其中a_j表示步骤S35的注意力权重，m′表示步骤S41的句向量长度。

d.若P_vocab(g′_q)计算出来为0向量，说明步骤S31的词汇表Vocab中所有词对应的词向量与g′_q都不相同，此时需要直接从S中更新词向量g′_q到S′中覆盖注意力A′权重最高的词向量；若P_vocab(g′_q)计算出来为非零向量，则说明词向量g′_q对应的词存在于步骤S31的词汇表Vocab中，此时则根据P（g′_q)的概率分布，选择生成概率最高的词向量，即将生成文本摘要向量S′中注意力A′权重最高的词向量更新为最终生成概率最高的词向量，从而解决了OOV问题；

S45.映射：对于步骤S44更新后得到的生成文本摘要向量S′，将S′中每个句向量s_p′′中的词向量g′_q′映射成词，即可得到最终的文本摘要S^final＝{W₁ ^final，···，W_i ^final，…，W_k′ ^final}，其中句子W_i ^final由m′个词组成，W_i ^final＝{w¹，w²，…w^m′}，其中w¹，w²，…w^m′是词。

至此，本发明实现了一种生成式文本摘要方法。