CN114781356B

CN114781356B - 一种基于输入共享的文本摘要生成方法

Info

Publication number: CN114781356B
Application number: CN202210248412.1A
Authority: CN
Inventors: 苏锦钿; 位慧泽
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2024-06-21
Anticipated expiration: 2042-03-14
Also published as: CN114781356A

Abstract

本发明公开了一种基于输入共享的文本摘要生成方法。所述方法包括以下步骤：对文本进行计算得到句子，并将句子组合得到多个候选摘要文本，得到候选摘要数据集；得到模型输入序列，计算模型输入序列的注意力掩码矩阵；构建文本摘要生成模型，获取候选摘要文本对应的最终的候选摘要得分；使用候选摘要得分，以候选摘要文本的真实得分监督文本摘要生成模型的训练，得到训练好的文本摘要生成模型；获取待推理文本，进行预处理后输入训练好的文本摘要生成模型，选取候选摘要得分的候选摘要文本作为待推理文本的摘要文本。本发明能够减少输入到模型中的词数，在保留大部分生成效果的前提下，极大提高模型的训练速度与推理速度。

Description

一种基于输入共享的文本摘要生成方法

技术领域

本发明涉及深度学习和自然语言处理，尤其是涉及一种基于输入共享的文本摘要生成方法。

背景技术

自动文本摘要指用程序处理长文本，得到保留主要语义的摘要的过程。随着进入数据量飞速增长的大数据时代，能够有效减少需要阅读的文字数量的自动文本摘要方法愈加受到关注。当前自动文本摘要方法可分成两大类：生成式摘要方法和抽取式摘要方法，生成式摘要方法根据原文生成得到摘要，可生成原文未有的新词，而抽取式摘要方法则从原文中摘取部分句子或片段，组成摘要，更具连贯性。

目前主流的抽取式摘要方法多为句子级摘要抽取算法，即使用模型获取句子表征，再使用序列标注框架：通过对每个句子表征进行独立的预测是否属于摘要文本；或者使用自回归形式：每次解码获得本次需要抽取的句子，并在下次解码预测时，考虑上次抽取出的句子的影响。

当前出现了一种文档级别的抽取式摘要生成算法(Extractive Summarizationas Text Matching)，即对多个候选摘要进行打分，而非句子级别打分。此方法避免了句子级方法的缺点，但多个候选摘要同时输入模型进行计算，也暴露出该方法在计算量、显存占用上的缺点，因而需要采用一种输入共享的方法，缓解该方法的缺点。

发明内容

本发明的目的是针对现有技术的不足而设计的一种基于输入共享的文本摘要抽取方法，该方法基于现有文档级抽取式摘要生成方法，通过共享文档和候选摘要的文本输入以减少显存占用量并提高训练和推理速度，通过使用多专家模块提高文档向量表征的多样性以提高效果，具有广泛的实用价值。

本发明的目的至少通过如下技术方案之一实现。

一种基于输入共享的文本摘要生成方法，包括以下步骤：

S1、基于句子级别的抽取式摘要生成算法，对文本进行计算得到句子，并将句子组合得到多个候选摘要文本，进而得到候选摘要数据集；

S2、在原文本序列前后补充代表文本和候选摘要文本的特殊符，得到模型输入序列，计算模型输入序列的注意力掩码矩阵；

S3、构建文本摘要生成模型，将模型输入序列和模型输入序列的注意力掩码矩阵输入到文本摘要生成模型，获取候选摘要文本对应的最终的候选摘要得分；

S4、损失计算与推理，使用步骤S3中得到的候选摘要得分，在训练时以候选摘要文本的真实得分监督文本摘要生成模型的训练，并以KL散度函数作为指导增大多专家模块之间的多样性，提高多专家模块的集成效果，得到训练好的文本摘要生成模型；

S5、获取待推理文本，进行预处理后输入训练好的文本摘要生成模型，选取候选摘要得分的候选摘要文本作为待推理文本的摘要文本。

进一步地，步骤S1中，具体如下：

获取多个文本，使用开源的句子级别的抽取式文本摘要生成算法，对每一个文本都进行处理并计算，获得该文本中评分排名高的最多10个句子，然后对获得的句子每2个句子或每3个句子组合得到该文本对应的T个候选摘要文本；

获取每个文本对应的T个候选摘要文本的真实得分，得到包括原文本、原文本对应的T个候选摘要文本以及原文本对应的T个候选摘要文本的真实的得分的候选摘要数据集。

进一步地，获取文本对应的参考摘要，将候选摘要文本与参考摘要进行比较，分别计算ROUGE-1得分、ROUGE-2得分和ROUGE-L得分，并计算三者的平均值，作为候选摘要文本的真实得分。

进一步地，步骤S2中，在原文本序列前后补充代表原文本和候选摘要文本的特殊符，得到模型输入序列，具体如下：

原文本序列表示为d＝{s₁,s₂,…,s_m}，其中m为文本的句子数量，每个句子s_i＝{w_i1,w_i2,…,w_in}，其中n为句子s_i包含的单词数量，w_in表示句子s_i的第n个词语；

模型输入序列中，将文本的多个句子文本使用特殊符[SEP]连接起来；代表文本和代表候选摘要文本的特殊符相同，在原文本序列头部补充特殊符[CLS]作为原文本表示词，在原文本序列尾部补充多个特殊符[CLS]_t作为候选摘要文本表示词，[CLS]_t表示原文本中得到的第t个候选摘要文本对应的特殊符，t＝1～T，T为候选摘要文本的个数；

对原文本序列处理后，得到的模型输入序列表示为：

z＝{CLS,w₁₁,…,w_1n,SEP,…,w_m1,…,w_mn,SEP,CLS₁,…,CLS_T}

获取模型输入序列对应的位置编码序列，对所有的[CLS]特殊符，其位置编码均为0，而文本词语的位置编码按序列长度增长；

获取模型输入序列对应的片段编码序列，对所有的[CLS]_t特殊符，其片段编码均为S₀，而文本词语的片段编码是使用S₀、S₁两种编码，按照句子索引，交错分布；

最后依据BERT模型的词表将模型输入序列、位置编码序列、片段编码序列分别映射为各自的one hot向量。

进一步地，步骤S2中，计算模型输入序列的注意力掩码矩阵具体如下：

注意力计算式：

式中mask即为掩码矩阵中的值，为0代表不被遮蔽，为1代表被遮蔽，因计算得到的注意力还会经过SoftMax函数，因而被遮蔽即减去10000.0，会使得SoftMax函数的结果为0，即构成遮蔽注意力的效果；

所述注意力掩码矩阵用于BERT模型的自注意力计算模块，用于屏蔽不相关内容的注意力交互；其中代表原文本的特殊符和原文本的词语能够进行相互的注意力计算，即在注意力掩码矩阵上并未屏蔽原文本和原文本的词语之间的计算；而代表候选摘要文本的特殊符仅能与部分原文本的词语进行相互的注意力计算，具体为代表候选摘要文本的特殊符，仅能与其代表的候选摘要文本中的词语进行注意力计算，原文本的词语也只能与被包含到的候选摘要文本的特殊符进行注意力计算。

进一步地，步骤S3中，文本摘要生成模型包括BERT模型和多个专家模块，其中BERT模型作为编码层，BERT模型的输出连接多个专家模块的输入。

进一步地，基于三种one hot向量，采用已经完成预训练的BERT模型的词嵌入矩阵、位置编码嵌入矩阵、片段编码嵌入矩阵对模型输入序列进行表示，将模型输入序列和模型输入序列的注意力掩码矩阵输入到BERT模型中，分别使用BERT模型最后一层的输出向量H_Z中，在特殊符[CLS]和[CLS]_t位置的输出向量，作为文本向量和候选摘要向量，具体如下：

其中文本向量为h_cls，表示原文本中第t个候选摘要文本对应的候选摘要向量；

再对文本向量和候选摘要向量使用多个不同的带激活函数的双层感知机网络作为的专家模块进行计算，从而得到原文本和候选摘要文本相对应的各自的多个文本专家表示向量和多个候选摘要专家表示向量：

h_ku＝W_k2ac(W_k1h_u+b_k1)+b_k2

其中W_k1、W_k2分别为专家模块k的第1层和第2层单层感知机网络的权重矩阵，b_k1、b_k2分别为专家模块k的第1层和第2层单层感知机网络的偏置项，ac(·)为gelu激活函数，即每个专家模块是由中间包括激活函数的双层感知机网络构成；h_u为任一文本向量或候选摘要向量，h_ku为向量h_u在专家模块k下的表示向量；k＝1～K，K为专家模块的数量；

对于获得的多个文本专家表示向量和多个候选摘要专家表示向量，分别使用经过同一个专家模块计算得到的文本专家表示向量与候选摘要专家表示向量计算余弦相似度，在每个专家模块下均得到候选摘要文本对应的专家候选摘要得分：

其中，h_kv为文本向量h_v在专家模块k下的表示向量，h_kv′为候选摘要向量h_v′在专家模块k下的表示向量，因而候选摘要向量h_v′对应的候选摘要文本v′在该专家模块k处的专家候选摘要得分为S_kv′；

最后使用单层感知机网络计算同一个候选摘要文本的多个专家候选摘要得分，得到候选摘要文本对应的最终的候选摘要得分：

S_v′＝f([S_1v′,…,S_kv′])

其中f(·)为单层感知机网络，S_kv′为候选摘要文本v′在专家模块k处的专家候选摘要得分，[·,·]为矩阵的拼接操作，最终计算获得S_v′为候选摘要文本v′对应的最终的候选摘要得分。

进一步地，步骤S4中，在训练文本摘要生成模型时，共包括两种损失：

得分损失Loss₁，由真实得分监督，使用候选摘要文本两两构成，具体如下：

其中，r₁和r₂均为超参数，f_i和f_j分别代表候选摘要文本i和候选摘要文本j的真实得分，s_i和s_j分别代表候选摘要文本i和候选摘要文本j对应的候选摘要得分，T为同一个文本的候选摘要文本的数量；

专家多样性损失Loss₂，用以提高专家模块的多样性，使用KL散度函数计算构成，具体如下：

其中，g为超参数，KL(·)为Kullback-Leibler散度函数，d_n和d_m分别代表专家模块n和专家模块m对同一个文本样本的多个候选摘要文本，计算获得的候选摘要得分的分布列表，得分分布列表d_n如下：

d_n＝{s_n1,…,s_nt,…,s_nT}

其中，s_nt为第t个候选摘要文本在专家模块n处的专家候选摘要得分，T表示一个文本的候选摘要文本的数量。

进一步地，在训练时，文本摘要生成模型的训练目标为最小化Loss₁和Loss₂在候选摘要数据集上的损失之和。

进一步地，步骤S5中，获取待推理的文本，对待推理的文本进行步骤S1和S2的操作，得到模型输入序列和注意力掩码矩阵，将模型输入序列和模型输入序列的注意力掩码矩阵然后输入文本摘要生成模型，得到待推理的文本的各个候选摘要文本的候选摘要得分，选取候选摘要得分最高的候选摘要文本作为待推理的文本的摘要文本。

相比于现有技术，本发明的优点在于：

(1)相比与现有的技术，本发明的能够在输入时共享文档和候选摘要文本之间相同的词语，有效减少输入序列长度，显著减少模型计算时的显存占用以及计算量；

(2)本发明在BERT模型后，使用多专家模块同时对文档和候选摘要向量进行非线性转换，对同一个表征向量得到多个专家模块对应的专家表示向量，能够有效提高向量表征的多样性，进而提高集成后的模型效果。

综上所述，本发明在文档级摘要抽取方法的基础上，提出输入共享方式，减少显存占用提高训练速度，同时使用多专家模块，进一步提高模型的预测质量。

附图说明

图1为本发明实施例中一种基于输入共享的文本摘要生成方法的步骤流程图；

图2为本发明实施例中的模型示意图。

图3为本发明实施例中的掩码矩阵设计图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

实施例1：

一种基于输入共享的文本摘要生成方法，如图1所示，包括以下步骤：

S1、基于句子级别的抽取式摘要生成算法，对文本进行计算得到句子，并将句子组合得到多个候选摘要文本，进而得到候选摘要数据集，具体如下：

获取多个文本，使用开源的句子级别的抽取式文本摘要生成算法，本实施例中，采用BertSumExt(Text Summarization with Pretrained Encoders)，对每一个文本都进行处理并计算，获得该文本中评分排名高的最多10个句子，然后对获得的句子每2个句子或每3个句子组合得到该文本对应的T个候选摘要文本；

获取文本对应的参考摘要，将候选摘要文本与参考摘要进行比较，分别计算ROUGE-1得分、ROUGE-2得分和ROUGE-L得分，并计算三者的平均值，作为候选摘要文本的真实得分。

本实施例中，训练时的文本数据集采用CNN/DailyMail(Teaching machines toread and comprehend.)、XSum(Dont give me the details,just the summary！topic-aware convolutional neural networks for extreme summarization.)和Reddit(Abstractive summarization of reddit posts with multi-level memorynetworks.)；

S2、在原文本序列前后补充代表文本和候选摘要文本的特殊符，得到模型输入序列，具体如下：

本实施例中，所采用的分词方法与BERT模型一致，原文本序列表示为d＝{s₁,s₂,…,s_m}，其中m为文本的句子数量，每个句子s_i＝{w_i1,w_i2,…,w_in}，其中n为句子s_i包含的单词数量，w_in表示句子s_i的第n个词语；

对原文本序列处理后，得到的模型输入序列表示为：

z＝{CLS,w₁₁,…,w_1n,SEP,…,w_m1,…,w_mn,SEP,CLS₁,…,CLS_T}

模型输入序列如图2中词语编码所示，其中为了节约版面，将每句中词语数仅保留1词以展示。

获取模型输入序列对应的位置编码序列，对所有的[CLS]特殊符，其位置编码均为0，而文本词语的位置编码按序列长度增长，如图2中位置编码所示；

获取模型输入序列对应的片段编码序列，对所有的[CLS]_t特殊符，其片段编码均为S₀，而文本词语的片段编码是使用S₀、S₁两种编码，按照句子索引，交错分布，如图2中片段编码所示；

计算模型输入序列的注意力掩码矩阵，具体如下：

注意力计算式：

掩码矩阵如图3所示，其中代表文档的[CLS]特殊符与文本词语之间能够相互关注到，不会被掩码矩阵遮蔽，即全为0；而代表候选摘要的特殊符只能与其代表文本的词语相互关注到，如图3所示，第一候选摘要文本1的特殊符[CLS]₁其代表的摘要的文本序列为[W₁₁,SEP,W₃₁,SEP]，因而特殊符[CLS]₁只与这4个词语还有其本身共5个字符，在掩码矩阵上为0，即不被遮蔽，而其他所有位置均为遮蔽状态(为1)。同理第一候选摘要文本2的特殊符[CLS]₂只与其代表的文本序列[W₂₁,SEP,W₃₁,SEP]，还有其自身有注意力交互，其他字符均被遮蔽。

如图2所示，文本摘要生成模型包括BERT模型和多个专家模块，其中BERT模型作为编码层，BERT模型的输出连接多个专家模块的输入。

基于三种one hot向量，采用已经完成预训练的BERT模型的词嵌入矩阵、位置编码嵌入矩阵、片段编码嵌入矩阵对模型输入序列进行表示，将模型输入序列和模型输入序列的注意力掩码矩阵输入到BERT模型中，分别使用BERT模型最后一层的输出向量H_Z中，在特殊符[CLS]和[CLS]_t位置的输出向量，作为文本向量和候选摘要向量，具体如下：

h_ku＝W_k2ac(W_k1h_u+b_k1)+b_k2

其中W_k1、W_k2分别为专家模块k的第1层和第2层单层感知机网络的权重矩阵，b_k1、b_k2分别为专家模块k的第1层和第2层单层感知机网络的偏置项，ac(·)为gelu激活函数，即每个专家模块是由中间包括激活函数的双层感知机网络构成；h_u为任一文本向量或候选摘要向量，h_ku为向量h_u在专家模块k下的表示向量；k＝1～K，K为专家模块的数量；本实施例中，专家模块的数量在K＝4时，效果较高，再提升K的数量并无太大收益。

S_v′＝f([S_1v′,…,S_kv′])

在训练文本摘要生成模型时，共包括两种损失：

d_n＝{s_n1,…,s_nt,…,s_nT}

在训练时，文本摘要生成模型的训练目标为最小化Loss₁和Loss₂在候选摘要数据集上的损失之和。

S5、获取待推理的文本，对待推理的文本进行步骤S1和S2的操作，得到模型输入序列和注意力掩码矩阵，将模型输入序列和模型输入序列的注意力掩码矩阵然后输入文本摘要生成模型，得到待推理的文本的各个候选摘要文本的候选摘要得分，选取候选摘要得分最高的候选摘要文本作为待推理的文本的摘要文本。

实施例2：

本实施例中，与实施例1的不同之处在于，步骤S1中，采用DiscoBert(Discourse-Aware Neural Extractive Text Summarization)，对每一个文本都进行处理并计算，获得该文本中评分排名高的最多10个句子，然后对获得的句子每2个句子或每3个句子组合得到该文本对应的T个候选摘要文本；

本实施例中，训练时的文本数据集采用XSum(Dont give me the details,justthe summary！topic-aware convolutional neural networks for extremesummarization.)。

实施例3：

本实施例中，与实施例1的不同之处在于，步骤S1中，采用Hetformer(Hetformer:Heterogeneous transformer with sparse attention for long-text extractivesummarization)，对每一个文本都进行处理并计算，获得该文本中评分排名高的最多10个句子，然后对获得的句子每2个句子或每3个句子组合得到该文本对应的T个候选摘要文本；

本实施例中，训练时的文本数据集采用Reddit(Abstractive summarization ofreddit posts with multi-level memory networks.)。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于输入共享的文本摘要生成方法，其特征在于，包括以下步骤：

获取每个文本对应的T个候选摘要文本的真实得分，得到包括原文本、原文本对应的T个候选摘要文本以及原文本对应的T个候选摘要文本的真实的得分的候选摘要数据集；

获取文本对应的参考摘要，将候选摘要文本与参考摘要进行比较，分别计算ROUGE-1得分、ROUGE-2得分和ROUGE-L得分，并计算三者的平均值，作为候选摘要文本的真实得分；

对原文本序列处理后，得到的模型输入序列表示为：

z＝{CLS,w₁₁,…,w_1n,SEP,…,w_m1,…,w_mn,SEP,CLS₁,…,CLS_T}

最后依据BERT模型的词表将模型输入序列、位置编码序列、片段编码序列分别映射为各自的one hot向量；

计算模型输入序列的注意力掩码矩阵；

所述注意力掩码矩阵用于BERT模型的自注意力计算模块，用于屏蔽不相关内容的注意力交互；其中代表原文本的特殊符和原文本的词语能够进行相互的注意力计算，即在注意力掩码矩阵上并未屏蔽原文本和原文本的词语之间的计算；而代表候选摘要文本的特殊符仅能与部分原文本的词语进行相互的注意力计算，具体为代表候选摘要文本的特殊符，仅能与其代表的候选摘要文本中的词语进行注意力计算，原文本的词语也只能与被包含到的候选摘要文本的特殊符进行注意力计算；

S4、使用步骤S3中得到的候选摘要得分，以候选摘要文本的真实得分监督文本摘要生成模型的训练，得到训练好的文本摘要生成模型；

2.根据权利要求1所述的一种基于输入共享的文本摘要生成方法，其特征在于，步骤S3中，文本摘要生成模型包括BERT模型和多个专家模块，其中BERT模型作为编码层，BERT模型的输出连接多个专家模块的输入。

3.根据权利要求2所述的一种基于输入共享的文本摘要生成方法，其特征在于，基于三种one hot向量，采用已经完成预训练的BERT模型的词嵌入矩阵、位置编码嵌入矩阵、片段编码嵌入矩阵对模型输入序列进行表示，将模型输入序列和模型输入序列的注意力掩码矩阵输入到BERT模型中，分别使用BERT模型最后一层的输出向量H_Z中，在特殊符[CLS]和[CLS]_t位置的输出向量，作为文本向量和候选摘要向量；

h_ku＝W_k2ac(W_k1h_u+b_k1)+b_k2

S_v′＝f([S_1v′,…,S_kv′])

4.根据权利要求3所述的一种基于输入共享的文本摘要生成方法，其特征在于，步骤S4中，在训练文本摘要生成模型时，共包括两种损失：

d_n＝{s_n1,…,s_nt,…,s_nT}

5.根据权利要求4所述的一种基于输入共享的文本摘要生成方法，其特征在于，在训练时，文本摘要生成模型的训练目标为最小化Loss₁和Loss₂在候选摘要数据集上的损失之和。

6.根据权利要求5所述的一种基于输入共享的文本摘要生成方法，其特征在于，步骤S5中，获取待推理的文本，对待推理的文本进行步骤S1和S2的操作，得到模型输入序列和注意力掩码矩阵，将模型输入序列和模型输入序列的注意力掩码矩阵然后输入文本摘要生成模型，得到待推理的文本的各个候选摘要文本的候选摘要得分，选取候选摘要得分最高的候选摘要文本作为待推理的文本的摘要文本。