CN110929030A

CN110929030A - 一种文本摘要和情感分类联合训练方法

Info

Publication number: CN110929030A
Application number: CN201911080385.6A
Authority: CN
Inventors: 高建彬; 潘慧
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-03-27
Anticipated expiration: 2039-11-07
Also published as: CN110929030B

Abstract

本发明提供了一种文本摘要和情感分类联合训练方法，该方法采用文本摘要和情感分类联合模型实现，具体包括如下步骤：文本预处理，构建训练集词汇表；构建文本摘要模型，进行文本摘要任务预训练；在文本摘要模型的基础之上增加情感分类层，构建分层式端到端模型，对情感分类和文本摘要任务进行联合训练。本发明提出的一种文本摘要和情感分类联合训练方法，通过两类任务的联合训练，能提升生成摘要和输入文本之间的内容一致性，使得生成的摘要能更好地包含输入文本的情感信息，并且通过摘要任务对输入文本的关键信息进行了抽取，使得情感的预测更加准确。

Description

一种文本摘要和情感分类联合训练方法

技术领域

本发明涉及自然语言处理领域的文本摘要和情感分类方法，具体涉及一种基于文本摘要和情感分类联合训练方法。

背景技术

随着近几年文本信息的***式增长，人们每天能接触到海量的文本信息，如新闻、微博、博客、报告、论文等。文本摘要应用场景广泛，直观上看，可以用于生成新闻标题，论文关键词以及摘要等；往宽泛看，文本摘要技术也可以应用于Google、百度等搜索引擎的结果优化中，凡是需要从文本中抽取关键信息，形成精炼表达的任务，都可以用自动文本摘要技术解决。文本摘要的主流方法分为两类：抽取式(Extractive)和生成式(Abstractive)。抽取式方法从原文档集合中抽取一些具有代表性的文本片段构成摘要，根据输入文本的不同切分方式，这些片段可以是整个文档中的句子、子句、段落或者小节。生成式方法基于深度学习技术，采用Sequence-to-Sequence框架，同时加上注意力(Attention)机制，针对输入文本，生成一段包含文本关键内容的摘要。相比于抽取式方法，生成式方法更复杂，但得到的摘要更加精炼简洁，表达上更加流畅。

情感分类是给文本分配一个情感标签，以确定文本中的态度或意见。这也被称为意见挖掘，即提取导出说话人的意见或态度。情感分类包括无监督和监督方法，无监督方法包括使用情感词典、语法分析和句法模式等。在监督方法中，主要通过传统机器学习方法(如支持向量机、最大熵、朴素贝叶斯等)和特征组合，随着深度学习的发展，结合循环神经网络(R NN)、卷积神经网络(CNN)以及Attention机制的深度模型在情感分类任务中也有了很好的发展。

文本摘要任务和情感分类的目标都是挖掘文本的主要思想。文本摘要是以更为具体的方式使用词和句子来描述文本，而情感分类则是以更为抽象的方式使用标签总结文本。在之前的研究工作中，文本摘要和情感分类任务都是分开通过模型进行训练，使得两种模型之间不能很好地学得两种任务的联合表达。

发明内容

针对上述存在的问题，本发明结合深度学习中的Attention机制，利用分层式端到端的模型框架对文本摘要和情感分类任务进行联合训练，以同时提升文本摘要和情感分类任务的学习效果。

本发明提出的一种文本摘要和情感分类联合训练方法，其具体步骤如下：

步骤1：进行文本预处理，运用大规模中文***等数据，通过Word2Vec、Glove以及最近的Elmo、Bert等语言模型进行训练，得到词向量矩阵，计算中文词汇的定长向量表达，方便后期对文本进行向量表示。构建合适的训练集(要求针对每段文本样本，同时包含摘要和情感类别的标注)对训练集文本进行中文分词和词性提取，构建训练集词汇表。

步骤2：依据步骤1得到的词向量矩阵，将训练集分词后文本表示为定长向量，作为模型输入，进行文本摘要任务预训练，构建文本摘要模型，运用大规模文本摘要数据集，利用梯度下降算法更新网络参数，直至所述文本摘要模型的损失函数收敛。

步骤3：进行文本摘要和情感分类任务联合训练，利用步骤2中所述文本摘要模型训练得到的参数作为初始化，在文本摘要模型的基础之上增加情感分类层，并构建文本摘要任务和情感分类任务的联合损失函数，最后利用梯度下降算法对整个网络进行端到端的训练，直至述联合损失函数收敛。

这种分层结构会在文本摘要和情感分类之间建立紧密的联系，因此这两个任务可以彼此提升。在通过文本摘要层对文本进行压缩之后，情感分类器就能更加轻松地预测更精炼文本的情感标签。此外，通过加入卷积门控模块，文本摘要层还能对输入文本的重要性分布进行学***，使得生成的摘要能更好地包含输入文本的情感信息，方便商业应用，并且通过摘要任务对输入文本的关键信息进行了抽取，使得情感的预测更加准确。

附图说明

图1为Encoder部分卷积门控单元

图2为本发明的文本摘要和情感分类联合模型示意图

图3为本发明的文本摘要和情感分类联合模型工作效果图

具体实施方式

本发明中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征或步骤以外，均可以以任何方式组合。本发明(包括任何附加权利要求、摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

在本发明中，设计了一种分层式端到端的模型对情感分类和文本摘要任务进行联合训练，该分层式端到端模型包括文本摘要层和情感分类层，文本摘要层将源文本压缩成短句子，从而生成文本摘要；而情感分类层是进一步将生成的文本摘要总结成一个情感类别。

这种分层结构会在文本摘要和情感分类之间建立紧密的联系，因此这两个任务可以彼此提升。在通过文本摘要层对文本进行压缩之后，情感分类器就能更加轻松地预测更精炼文本的情感标签。此外，通过加入卷积门控模块，参考图1，在循环神经网络(RNN)编码器的输出后使用与Inception类似的结构实现一维卷积，其中k表示卷积核的大小，该模块使用卷积神经网络(CNN)对RNN输出的语义表示进行改进，增强其与上下文的联系，文本摘要层还能对输入文本的重要性分布进行学习，得到输入文本中词汇的权重分布，并移除对预测情感有害的冗余和误导性信息。并且，情感分类任务能为文本摘要任务提供更为重要的监督信号并引导摘要组件获取源文本的情感倾向，通过两类任务的联合训练，能提升生成摘要和输入文本之间的内容一致性。

本发明的方法采用如图2所示的文本摘要和情感分类联合模型实现，该文本摘要和情感分类联合模型包括：预训练模块(采用例如Word2Vec、Glove以及Elmo、Bert模型实现)、文本摘要模块和分层式端到端的联合训练模块。

其中，预训练模块用于对训练集中原始文本进行预处理；文本摘要模块用于生成文本摘要；分层式端到端的模块用于对情感分类和文本摘要任务进行联合，生成与文本摘要相适应的情感分类类别。

文本摘要模块采用生成式文本摘要模型实现，其结合Attention机制，其包括编码层(En coder)和解码层(Decoder)结构，Encoder结构选用双向循环神经网络Bi-LSTM，并运用卷积门控单元和自注意力(self-Attention)机制优化隐藏状态语义表示，Decoder层采用Pointer-Generator机制，生成文本摘要。

Attention机制在自然语言任务中应用广泛，可以看成一种自动加权，大致定义为：给定一组向量集合values，以及一个向量query，Attention机制是一种根据该向量query计算向量集合values的加权求和的机制，query和value是两个维度相同的向量，通过(2)式中的任意一个公式可以得到一个数。目前主流的计算公式有以下几种：

Attention机制是连接编码层(Encoder)和解码层(Decoder)的一个通道。由于在Encoder中保留每个循环神经网络RNN单元的隐藏状态，假设Encoder第s时间步的隐藏状态m_s，而后对于Decoder中每一个时间步，计算得到当前时间步的隐藏状态，假设第t个时间步的隐藏状态为m_t，便可按照上述公式计算得到第t个时间步时对应的编码部分输入文本第s个词的权重，记为f(m_t,m_s)，并进行softmax计算得到最终权重a_ts。dot，general，concat，perceptron表示四种目前主流的权重计算公式。其中，n表示编码部分输入文本的总词数，W_a表示参数矩阵，v_a代表参数向量，U_a同W_a，训练过程中通过反向传播对参数进行更新。

若query包含在values集合中，则为自注意力(Self-Attention)机制。Self-Attention模块可以学得输入文本的关键信息和结构特征，本发明在Encoder部分引入该Self-Attention模块，对输入文本进行关键信息提取。

Pointer-Generator机制可以有效解决生成摘要中未登录词(out ofvocabulary，OOV)和低频词问题，该方法在Decoder的每个时间步，通过网络自动学习指向(pointer)以及生成(generator)的概率，定义如下：

其中

是上下文向量(对应于Encoder每个t时刻的隐状态)，s_t是Decoder部分t时刻的隐状态，x_t是t时刻的输入，σ表示sigmoid函数，将值映射到0-1，标量P_gen∈[0,1]代表generator概率，1-P_gen代表pointer概率。当P_gen偏向1时，正常生成词汇，偏向0时，则是从Attention的概率分布a_t(a_ts代表输入文本一个词的概率，a_t代表整个输入文本词的概率向量)中采样一个对应的词，最终生成词w的定义如下：

其中，w表示训练集的整个词汇表，w_i表示词汇表的第i个词，

表示在Decoder第t个时间步中，词汇表中第i个词Attention的权重，P_vocab(w)代表通过模型以generator方式出词时的词汇概率分布，

代表以pointer方式出词时的词汇概率分布，P(w)代表总的词汇概率分布，决定最终生成的词。

本发明提出的一种文本摘要和情感分类联合训练方法，包括如下步骤：

步骤1，对训练集中原始文本进行预处理

(1.1)采用预训练模块进行文本预处理，运用大规模中文***等数据，通过Word2Vec、Glove以及最近的Elmo、Bert等模型进行训练，得到词向量矩阵，计算中文词汇的定长向量表达，方便后期对文本进行向量表示。

(1.2)构建合适的训练集(要求针对训练集中每一个文本样本，应同时包含摘要和情感类别的标注)，对所述训练集中每一个文本样本进行中文分词和词性提取，构建训练集词汇表。然后，运用预训练得到的上述词向量矩阵对文本摘要和情感分类联合模型的嵌入层(embedding)进行初始化，并将训练集中每一个文本样本的词性的embedding向量与词的embedding向量进行拼接，假设所述训练集词汇表大小为L，词的embedding向量维度大小为E₁，词性的embedding向量维度大小为E₂，最终得到训练集输入文本的矩阵表达，该矩阵的维度为L×(E₁+E₂)，矩阵的行数等于整个训练集词的个数，每行代表一个词，通过该训练集输入文本的矩阵，可将所述训练集中的每个文本样本表示为定长输入文本向量。

步骤2，运用大规模文本摘要数据集进行一阶段训练，得到网络的初始参数

(2.1)进行文本摘要任务预训练，构建文本摘要模块，该模块通过生成式文本摘要模型实现，将步骤1得到的定长输入文本向量输入文本摘要模块的Encoder部分，通过双向循环神经网络Bi-LSTM进行编码，假设所述双向循环神经网络Bi-LSTM的输出层向量维度为H，由此得到定长输入文本向量的初始特征，尺寸为L×H，该初始特征为加权文本向量，然后将该初始特征依次送入卷积门控模块和self-Attention模块，得到定长输入文本向量(即输入文本的每个词一个权重向量)中各词汇的权重分布，尺寸为L×H，将该权重赋予初始特征，对其进行调整，并对定长输入文本向量的无效信息进行过滤，得到其最终的向量表达。

(2.2)用Encoder部分最后一个时间步的特征对Decoder部分进行初始化，参考上文描述的Attention计算方式，训练得到文本摘要任务的权重分布，运用指针生成(Pointer-Gener ator)算法生成文本摘要，假设文本摘要长度为L^′，即可得到Decoder部分LSTM模块的输出特征，尺寸为L′×H，该输出特征为文本向量。依据如下损失函数，对网络参数进行更新。

y_t代表文本摘要的真实标签，x代表所述Encoder部分的输入文本，即参考摘要(即训练集中的一条文本样本对应的参考摘要)，p(y_t|x)表示条件概率，即给定一段文本，然后第t步生成这个词的概率，利用梯度下降算法重复更新网络参数，直至上述损失函数L_s收敛。

步骤3，利用分层式端到端模型对文本摘要和情感分类任务进行联合训练

(3.1)在过程2的生成式文本摘要模型基础之上，增加情感分类层，构建分层式端到端模型，并利用过程2训练得到的网络参数对情感分类之外的模型参数进行初始化，并构建文本摘要任务和情感分类任务的联合损失函数L。将过程2.1得到的尺寸为L×H的所述初始特征和过程2.2得到的针对情感分类任务学得的尺寸为L′×H的所述输出特征进行拼接，然后进行最大池化操作，得到维度为H的情感向量，最后通过分层式端到端模型，运用交叉熵损失函数，通过梯度下降更新网络参数，即对整个分层式端到端模型进行端到端的训练，直至联合损失函数L收敛。联合损失函数定义如下：

L＝L_s+λL_c

L_c＝-logp(l|x)

其中，L_s代表文本摘要任务的损失，计算采用交叉熵，L_c代表情感分类任务的损失，y_t和l分别代表文本摘要和情感类别的真实标签，x代表所述Encoder部分输入的groundtruth(代表训练集中文本样本的参考摘要，用于计算损失)，λ是超参数，用于平衡两类损失，其根据实际情况进行预设。

(3.2)分层式端到端模型训练结束后，便可直接应用于文本摘要和情感分类任务。

针对特定的任务，例如用户评论、客服对话、新闻等，可以使用该任务的领域数据集按照上述步骤1-3进行embedding预训练以及文本摘要任务预训练，然后再利用分层式端到端的模型对情感分类和文本摘要任务进行联合训练，可得到更好的效果。

文本摘要模块基于自然语言处理通用架构Encoder-Decoder和经典模型PointerNetwork，并做了以下改进：在Encoder部分增加卷积门控单元以及Self-Attention机制，通过对Encode r部分输入文本每个时间步的输出向量进行加权，使得输入文本中的关键词汇权重更大，因此，在Encoder部分学得的文本向量能更多地包含输入文本的关键信息。并且，由于文本摘要和情感分类的联合任务数据集更难构造，在步骤2利用大规模文本摘要数据集，仅针对文本摘要任务进行训练，得到生成式文本摘要模型初始参数，可使得步骤3的训练过程更快收敛。

依据步骤2中的生成式文本摘要模型架构和模型参数，在Decoder部分增加情感分类层，构造分层式端到端的模型，并对文本摘要和情感分类任务进行联合训练。Decoder部分两种任务分别对Encoder部分的输出进行Attention计算，由于采用两种任务的联合损失函数，可以使得生成的摘要更好地覆盖输入文本中含有情感信息的词汇，并且由于文本摘要能提取关键信息，可使得分层式端到端的模型对于情感类别的预测更加准确。

参考图3，例如，将测试集文本样本(今天阳光明媚......)输入到训练完成的所述文本摘要和情感分类联合模型中，结合Attention和Pointer等机制得到生成的文本摘要(今天天气好)，然后将其转化为情感向量，最终得到情感类别(积极)。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种文本摘要和情感分类联合训练方法，其特征在于，该方法采用文本摘要和情感分类联合模型实现，该文本摘要和情感分类联合模型包括：预训练模块、文本摘要模块和分层式端到端的联合训练模块；其中，预训练模块用于对训练集中原始文本进行预处理；文本摘要模块用于生成文本摘要；分层式端到端的联合训练模块用于对情感分类和文本摘要任务进行联合，生成与所述生成文本摘要相适应的情感分类类别；

该方法具体包括如下步骤：

步骤1，对训练集中原始文本进行预处理

(1.1)采用预训练模块进行文本预处理，运用大规模中文***数据，通过Word2Vec、Glove以及Elmo、Bert模型进行训练，得到词向量矩阵，计算中文词汇的定长向量表达，便于后期对文本进行向量表示；

(1.2)构建合适的训练集，其中所述训练集中每一个文本样本都同时包含参考摘要和情感类别的标注，对所述训练集中每一个文本样本进行中文分词和词性提取，构建训练集词汇表；然后，运用步骤(1.1)得到的所述词向量矩阵对所述文本摘要和情感分类联合模型的嵌入层(embedding)进行初始化，并将所述训练集中每一个文本样本的词性的embedding向量与词的embedding向量进行拼接，假设所述训练集词汇表大小为L，词的embedding向量维度大小为E₁，词性的embedding向量维度大小为E₂，最终得到训练集输入文本的矩阵表达，该训练集输入文本的矩阵维度为L×(E₁+E₂)，该矩阵的行数等于整个所述训练集中词的个数，每行代表一个词，通过该训练集输入文本的矩阵，可将所述训练集中的每个文本样本表示为定长输入文本向量；

(2.1)进行文本摘要任务预训练，构建文本摘要模块，该文本摘要模块通过生成式文本摘要模型实现，所述生成式文本摘要模型结合Attention机制，包括编码层(Encoder)部分和解码层(Decoder)部分，所述Encoder部分选用双向循环神经网络Bi-LSTM，并运用卷积门控单元和自注意力(self-Attention)机制优化隐藏状态语义表示，所述Decoder部分采用Pointer-Generator机制，生成文本摘要；

具体包括：将步骤1得到的所述定长输入文本向量输入所述生成式文本摘要模型的Encoder部分，通过双向循环神经网络Bi-LSTM进行编码，假设所述双向循环神经网络Bi-LSTM的输出层向量维度为H，由此得到所述定长输入文本向量的初始特征，尺寸为L×H，然后将该初始特征依次送入所述Encoder部分的卷积门控模块和self-Attention模块，得到所述定长输入文本向量中各词汇的权重分布，尺寸为L×H，将所述权重分布赋予所述初始特征，对所述初始特征进行调整，并对所述定长输入文本向量的无效信息进行过滤，得到所述训练集中的每个文本样本最终的向量表达；

(2.2)用Encoder部分最后一个时间步的特征对所述生成式文本摘要模型的Decoder部分进行初始化，采用Attention机制计算方式，训练得到文本摘要任务的权重分布，运用指针生成(Pointer-Generator)算法生成文本摘要，假设文本摘要长度为L′，即可得到Decoder部分LSTM模块的输出特征，所述输出特征的尺寸为L′×H；依据如下损失函数，对所述生成式文本摘要模型的网络参数进行更新：

其中，y_t代表参考摘要中t时刻的真实标签，x代表所述Encoder部分输入的所述训练集中的文本样本对应的参考摘要，p(y_t|x)表示条件概率，利用梯度下降算法重复更新所述生成式文本摘要模型的网络参数，直至所述损失函数L_s收敛；

(3.1)在步骤2的所述生成式文本摘要模型基础之上，增加情感分类层，构建分层式端到端的联合训练模块，该分层式端到端的联合训练模块采用分层式端到端模型实现，并利用步骤2训练得到的所述生成式文本摘要模型的网络参数对情感分类层之外的所述文本摘要和情感分类联合模型参数进行初始化，并构建所述文本摘要和情感分类联合模型的联合损失函数L；将步骤(2.1)得到的所述初始特征和步骤(2.2)得到的针对情感分类任务学得的所述输出特征进行拼接，然后进行最大池化操作，得到维度为H的情感向量，最后通过所述分层式端到端模型，运用交叉熵损失函数，通过梯度下降更新所述文本摘要和情感分类联合模型的网络参数，即对整个所述分层式端到端模型进行端到端的训练，直至所述联合损失函数L收敛，所述联合损失函数L定义如下：

L＝L_s+λL_c

L_c＝-logp(l|x)

其中，L_s代表文本摘要任务的损失，计算采用交叉熵，L_c代表情感分类任务的损失，y_t代表参考摘要中t时刻的真实标签，l代表情感类别的真实标签，x代表所述Encoder部分输入的所述训练集中的文本样本对应的参考摘要，λ是超参数，用于平衡上述两类损失，其根据实际情况进行预设；

(3.2)分层式端到端模型训练结束后，得到训练完成的所述文本摘要和情感分类联合模型，所述训练完成的所述文本摘要和情感分类联合模型直接应用于文本摘要和情感分类任务。

2.根据权利要求1所述的文本摘要和情感分类联合训练方法，其特征在于，所述步骤(2.2)中所述Attention机制具体为：所述Attention机制是一种自动加权，其定义为：给定一组向量集合values，以及一个向量query，Attention机制是一种根据该向量query计算向量集合values的加权求和的机制，query和value是两个维度相同的向量，通过下式f(m_t，m_s)右侧中的任意一个公式可以得到一个数：

所述Attention机制是连接编码层(Encoder)和解码层(Decoder)的一个通道，由于在所述Encoder部分中保留每个循环神经网络RNN单元的隐藏状态，假设所述Encoder部分第s个时间步的隐藏状态为m_s，而后对于所述Decoder部分中每一个时间步，计算得到当前时间步的隐藏状态，假设第t个时间步的隐藏状态为m_t，便可计算得到第t个时间步时对应的所述Encoder部分输入文本中第s个词的权重，记为f(m_t，m_s)，并进行softmax计算得到最终权重a_ts，a_ts代表所述训练集输入文本一个词的概率；dot，general，concat，perceptron表示四种目前主流的权重计算公式，其中，n表示所述Encoder部分输入文本的总词数，W_a表示参数矩阵，v_a代表参数向量，U_a同W_a，训练过程中通过反向传播对参数进行更新；

若query包含在values集合中，则为自注意力(Self-Attention)机制，Self-Attention模块可以学得输入文本的关键信息和结构特征，在所述Encoder部分中引入该Self-Attention模块，对输入文本进行关键信息提取。

3.根据权利要求2所述的文本摘要和情感分类联合训练方法，其特征在于，所述步骤(2.2)中所述指针生成(Pointer-Generator)算法用于解决生成摘要中未登录词(out ofvocabulary，OOV)和低频词问题，该算法在所述Decoder部分的每个时间步，自动学习指向(pointer)以及生成(generator)的概率，定义如下：

其中

是上下文向量，即对应于所述Encoder部分每个t时刻的隐状态，s_t是所述Decoder部分t时刻的隐状态，x_t是t时刻的输入，σ表示sigmoid函数，将值映射到0-1，标量P_gen∈[0，1]代表generator概率，1-P_gen代表pointer概率；当P_gen偏向1时，正常生成词汇，偏向0时，则是从Attention的概率分布a_t中采样一个对应的词，其中，a_t代表所述训练集中整个输入文本词的概率向量，最终生成词w的定义如下：

其中，w表示所述训练集的整个词汇表，w_i表示所述词汇表的第i个词，

表示在Decoder第t个时间步中，所述词汇表中第i个词Attention的权重，P_vocab(w)代表通过模型以generator方式出词时的词汇概率分布，

4.根据权利要求1-3任意一项所述的文本摘要和情感分类联合训练方法，其特征在于，所述训练集为用户评论、客服对话或新闻领域的数据集。