CN110287320A

CN110287320A - 一种结合注意力机制的深度学习多分类情感分析模型

Info

Publication number: CN110287320A
Application number: CN201910553755.7A
Authority: CN
Inventors: 刘磊; 孙应红; 陈浩; 李静
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-09-27
Anticipated expiration: 2039-06-25
Also published as: CN110287320B

Abstract

本发明涉及一种结合注意力机制的深度学习多分类情感分析模型，属于自然语言处理技术领域，本发明分析了现有CNN网络和LSTM网络在文本情感分析方面的弱点，提出了一种结合注意力机制的深度学习多分类情感分析模型。该模型运用注意力机制将CNN网络提取的局部特征和LSTM模型提取的语序特征相融合，并在分类层采用集成模型的思想，分别将CNN网络和LSTM网络提取的情感特征拼接，作为模型最终提取的情感特征。通过对比实验，发现该模型的准确率有了显著的提高。

Description

一种结合注意力机制的深度学习多分类情感分析模型

技术领域

本发明属于文本信息处理领域，涉及一种结合注意力机制的深度学习多分类情感分析模型。

背景技术

随着微博、Twitter等社交网络的不断兴起，互联网已不仅仅是人们获取日常信息的来源，同时也成为人们表达自己观点不可或缺的平台。人们在网络社区评论热点事件、抒写影评观点以及描述产品体验等，都会产生大量的带有情感色彩(如：喜怒哀乐等)的文本信息，而对这些文本信息进行有效的情感分析，可以更好地了解用户的兴趣倾向和关注程度。但随着人们对网络信息关注度的增加，网络社区每天都有海量的带有情感色彩的文本产生，如果仅仅依靠人工标记，已经远远无法完成这一任务，这就使得文本情感分析成为自然语言处理领域的一个研究热点。

随着深度学习方法在计算机视觉方向的成功应用，越来越多的深度学习技术也被应用于自然语言处理方向。深度学习的优势在于，不仅可以自动提取文本的特征，而且对大数据有较强的表达能力。目前主流的基于深度学习的文本情感分析方法主要包括卷积神经网络(Convolutional Neural Network，CNN)和循环神经网络(Recurrent NeuralNetwork，RNN)两种，基于这两种方法的情感分析模型的准确率都较低，主要有以下几个方面的原因：

首先，在文本的情感分析过程中，卷积神经网络通过扩大卷积核尺寸，有效地捕捉到不同位置的情感信息，进而获取到文本的局部情感特征。但卷积的过程中，往往忽略了文本中语序间的前后关系。但在文本情感分析过程中，语序的先后关系又十分重要，没有语序的特征信息必导致结果有一定的偏差。

其次，循环神经网络网络利用前后依赖关系，有效模拟文本数据的先后顺序，能够提取到文本的语序关系和语义信息，因此在文本的情感分析中能达到很好的效果。但当样本数据较长或者语言场景较复杂时，有用的情感信息的间隔有大有小，长短不一，长短记忆网络(Long Short-Term Memory，LSTM)的性能也因此受到限制。

本发明充分利用了注意力机制、CNN网络、LSTM网络，提出并实现了一种结合注意力机制的深度学习多分类情感分析模型。此模型能够有效的提高文本情感分析的准确率。

发明内容

本发明提出了一种基于注意力机制的深度学习多分类情感分析模型。该模型结合CNN网络和LSTM网络进行情感特征融合。首先利用CNN网络的多尺度卷积核提取出待分析文本的局部特征，然后利用注意力机制，将CNN网络提取的局部特征融入到LSTM网络中。最后利用集成模型的思想，将CNN网络的池化层结果和LSTM网络的特征提取结果进行拼接，作为最终的模型输出。实验表明，在文本情感分析中，该模型的准确率有了显著的提高。

为实现上述目的，本发明采用如下的技术方案：

1.一种结合注意力机制的深度学习多分类情感分析方法，其特征在于包括以下步骤：

步骤(1)数据预处理

设情感数据集表示为：G＝[(segtxt₁,y₁),(segtxt₂,y₂),......,(segtxt_N,y_N)]，其中，segtxt_i表示第i个样本，y_i则为对应的情感类别标签，N表示数据集G中样本个数，对G中样本进行数据预处理，

数据集G经预处理后，表示为G′＝[(seg₁,y₁),(seg₂,y₂),...,(seg_M,y_M)]，其中：seg_i表示为数据集G′中第i个样本，y_i则为对应的情感类别标签，M表示数据集G′中样本个数；

步骤(2)构建模型的输入

对于数据集G′中任意一个待分析样本数据(seg,y)，将其进一步细化表示为：

seg＝[w₁,w₂,w₃,...,w_d]^T (1)

y＝[0,0,1,...,0] (2)

其中：w_i∈R^ε是指依据词表wordList对待分析文本中第i词语的one-hot编码，ε为词表wordList的大小，d表示该文本的句长。y∈R^p是依据情感类别的one-hot编码，p表示模型待分的类别数目。则该样本的词向量嵌入矩阵可表示为：

X＝seg*E^T (3)

其中：X∈R^d×m，X＝[x₁,x₂,...,x_d]^T为待分析文本的词向量矩阵表示，m为词向量的维度，x_i∈R^m为该文本中第i个词汇的词向量表示，E为词向量嵌入层表示；

步骤(3)构建深度学习多分类情感分析模型

深度学习多分类情感分析模型包括基于CNN网络的局部特征提取阶段和基于LSTM网络的语序关系特征提取阶段，将基于CNN网络的局部特征提取阶段的池化层结果C_Cnn和基于LSTM网络的语序关系特征提取阶段的结果C'_Rnn拼接，即向量[C_Cnn；C'_Rnn]作为模型最终提取的特征向量。然后将特征向量[C_Cnn；C'_Rnn]经过全连接层得到最终的模型输出向量其中p表示模型待分的类别数目。

所述的基于CNN网络的局部特征提取阶段，包括以下内容：

局部特征提取阶段输入为公式3的待分析文本的词向量矩阵表示X；

局部特征提取阶段基于CNN网络，一共包括两层，即一层卷积层、一层池化层，其中：

卷积层采用n种不同尺度的卷积核对待分析文本进行卷积，且同一尺度卷积核的滤波器即神经元各k个；

池化层采用最大池化层的方法将卷积所得的向量做下采样，选出局部最优特征，因此每个滤波器通过最大池化层变为一个标量，该标量代表着该滤波器中最优的情感特征；

局部特征提取模块的输出为C_Cnn＝[c₁,c₂,...,c_nk]，即将池化层中不同尺寸的多个滤波器选取的最优特征拼接到一起C_Cnn＝[c₁,c₂,...,c_nk]作为本模块的输出，其中，C_Cnn∈R^nk，nk为卷积层中所有滤波器的个数；

所述的基于LSTM网络的语序关系特征提取阶段，包括以下内容：

多尺度CNN网络局部特征提取：将基于CNN网络的局部特征提取阶段中卷积层同一卷积尺度的k个滤波器的卷积结果拼接，得到集合Z_Cnn，然后将集合Z_Cnn中的每个向量Z_i输入到GLU机制中，即门控卷积网络，得到的结果记为{π₁,π₂,...,π_n}，完成多尺度CNN网络局部特征的提取。

其中，Z_Cnn＝{Z₁,Z₂,...,Z_n}，Z_i为尺度为i的多个滤波器卷积结果的拼接；

其中，Z_i代表某一尺度的k个滤波器卷积结果的拼接，W₁，W₂∈R^λ×q为权重矩阵，λ表示对应权重矩阵的维度，的b₁，b₂∈R^q为偏置量，σ表示sigmoid函数，π_i∈R^q，q为LSTM网络的输出维度；

然后，利用注意力机制，将多尺度CNN网络局部特征提取结果{π₁,π₂,...,π_n}融入到LSTM网络中，得到基于LSTM网络的语序关系特征提取阶段的输出结果C'_Rnn，即

其中，表示待分析文本中最后一个词语所对应的LSTM模块的输出，表示待分析文本中第一个词语所对应的LSTM模块的输出，本发明采用双向LSTM模型，即BiLSTM模型，

采用正向传播，具体计算过程如下：

d为待分析文本的长度，该文本中每一个词语顺序对应一个LSTM模块，，

正向传播过程中，第t-1个LSTM模块的输出为则第t个LSTM模块的输出计算公式如下：

其中：是两个向量的点乘，也称打分函数，是用来计算前一词语的LSTM的输出和当前局部特征向量的相似度，

其中：α_t,i∈R代表特征π_i的权重，

其中：s_t-1∈R^q是多个卷积特征的加权结果，利用s_t-1代替结合当前词语的词向量x_t求得当前LSTM模块的输出公式如下：

采用反向传播，具体计算过程与正向传播一样，此处不再赘述；

步骤(4)模型训练：将训练数据输入多分类情感分析模型，采用交叉熵损失函数，结合反向传播BP算法调整参数，利用softmax回归作为分类算法，完成训练；

步骤(5)模型分析：将待分析文本输入训练完成的模型，最终输出对该文本分析后的情感分类结果。

所述的预处理过程包括以下步骤：

1)分词、去除停用、英文大写转小写、繁体转简体。

2)选取数据集G中频率大于等于σ的词语，构造词汇表wordList＝{word₁,word₂,...word_ε}，其中，word_i表示词汇表wordlist中第i个词语，ε表示数据集G中词频超过σ的词语总数。

3)对数据集G中每一个样本，若长度大于d，则删除该样本，若长度小于d，则用符号</>补齐。

所述的基于CNN网络的局部特征提取模块的卷积层计算公式如下：

z＝f(∑W^T*x_i:i+s-1+b) (8)

其中:z表示一个神经元对待分析文本的卷积所得的特征向量，f(·)表示激活函数，W∈R^s×m表示神经元的权重矩阵，同一个神经元参数共享，s×m表示卷积核尺寸的大小，b表示阈值，x_i:i+s-1表示由文本句子中的第i个词到i+s-1个词语的词向量。

所述的训练数据为经过预处理之后的数据。

所述的基于CNN网络的局部特征提取阶段的卷积层采用4种不同尺度的卷积核。所述的训练结束条件是准确率不再改变或达到设置迭代次数。

附图说明

图1本发明的方法流程图；

图2结合注意力机制的深度学习多分类情感分析模型结构示意图。

具体实施方式

下面结合图表和实施例，对本发明的具体实施方式作进一步的详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明提出的方法是依次按以下步骤实现的：

步骤(1)数据预处理

情感语数据集表示为：G＝[(segtxt₁,y₁),(segtxt₂,y₂),......,(segtxt_N,y_N)]，其中，segtxt_i表示第i个样本，y_i则为对应的情感类别标签。N表示数据集G中样本个数，情感标签取“喜悦”、“愤怒”、“厌恶”、“低落”四大类，N取80000，其中，四类情感样本各20000条。对G中样本进行数据预处理包括以下几个步骤：

1)分词、去除停用、英文大写转小写、繁体转简体。

2)选取数据集G中频率大于等于σ的词语，构造词汇表wordList＝{word₁,word₂,...word_ε}，其中，word_i表示数据集G中第i个词语，ε表示数据集G中词频超过σ的词语总数。σ取2，最终得到的数据集G中，词频大于等于2的词语共41763个，即ε为41763。

3)将上述处理后，对数据集G中每一个样本，若长度大于d，则删除该样本，若长度小于d，则用符号</>补齐。d取64。

数据集G经预处理后，表示为G′＝[(seg₁,y₁),(seg₂,y₂),...,(seg_M,y_M)]。其中：seg_i表示为数据集G′中第i个样本，y_i则为对应的情感类别标签，M表示数据集G′中样本个数。最终数据集G′中样本的个数为73150条，各情感类别的样本条数如表1所示：

表1预处理后各类别样本数量

步骤(2)模型的输入

seg＝[w₁,w₂,w₃,...,w_d]^T (1)

y＝[0,0,1,...,0] (2)

其中：w_i∈R^ε是指依据词表wordList对待分析文本中第i词语的one-hot编码，ε为词表wordList的大小，文本的句长d为64。y∈R^p是依据情感类别的one-hot编码，p表示模型待分的类别数目，p为4。则该样本的词向量嵌入矩阵可表示为：

X＝seg*E^T (3)

其中：X∈R^d×m，X＝[x₁,x₂,...,x_d]^T为待分析文本的词向量矩阵表示，词向量维度m取256。x_i∈R^m为该文本中第i个词汇的词向量表示，词向量嵌入层表示E，采用***开源word2vec词向量，接下来将X作为网络模型的输入。

步骤(3)构建深度学习多分类情感分析模型

所述的基于CNN网络的局部特征提取阶段，包括以下内容：

卷积层采用n种不同尺度的卷积核对待分析文本进行卷积，且同一尺度卷积核的滤波器即神经元各k个，本发明n取4，k取128。

局部特征提取模块的输出为C_Cnn＝[c₁,c₂,...,c_nk]，即将池化层中不同尺寸的多个滤波器选取的最优特征拼接到一起C_Cnn＝[c₁,c₂,...,c_nk]作为本模块的输出，其中，C_Cnn∈R^nk，nk为卷积层中所有滤波器的个数，共512个；

其中，Z_i代表某一尺度的k个滤波器卷积结果的拼接，W₁，W₂∈R^λ×q为权重矩阵，λ表示对应权重矩阵的维度，b₁，b₂∈R^q为偏置量，σ表示sigmoid函数，π_i∈R^q，q为LSTM网络的输出维度，q取256；

采用正向传播，具体计算过程如下：

其中：α_t,i∈R代表特征π_i的权重，

步骤(4)模型训练：将训练数据输入多分类情感分析模型，采用交叉熵损失函数，结合反向传播BP算法调整参数，利用softmax回归作为分类算法，完成训练。

z＝f(∑W^T*x_i:i+s-1+b) (8)

其中:z表示一个神经元对待分析文本的卷积所得的特征向量，f(·)表示激活函数，W∈R^s×m表示神经元的权重矩阵，同一个神经元参数共享，s×m表示卷积核尺寸的大小，b表示阈值，x_i:i+s-1表示由文本句子中的第i个词到i+s-1个词语的词向量，s取[2,3,4,5]四种不同的卷积尺寸，f(·)采用RELU激活函数。

所述的训练数据为经过预处理之后的数据。

1.实验分析

测试阶段，选取喜悦、愤怒、厌恶、低落各类别情感语料各占2000条。使用准确率Acc(Accuracy)作为评价指标，测试阶段模型的参数保持不变，测试集结果如表2所示：

表2情感分析结果对比

表2中给出了几种模型的测试结果对比，其中，实验1是通用的卷积核尺寸为3的单尺度CNN网络模型，实验2是通用的LSTM网络，实验3则是本文提出的基于注意力机制的文本情感分析模型。

通过实验的对比性分析可见，相较通常的CNN网络和LSTM网络，本文提出的基于注意力机制的情感分析模型的准确率都明显提高，说明了本发明提出的方法可以有效的提取CNN网络的局部特征信息和LSTM网络的语序特征信息，说明了该方法的有效性。

Claims

步骤(1)数据预处理

设情感数据集表示为：G＝[(segtxt₁,y₁),(segtxt₂,y₂),...,(segtxt_N,y_N)]，其中，segtxt_i表示第i个样本，y_i则为对应的情感类别标签，N表示数据集G中样本个数，对G中样本进行数据预处理，

步骤(2)构建模型的输入

seg＝[w₁,w₂,...,w_i,...,w_d]^T (1)

y＝[0,0,1,...,0] (2)

其中：w_i∈R^ε是指依据词表wordList对待分析文本中第i词语的one-hot编码，ε为词表wordList的大小，d表示该文本的句长，y∈R^p是依据情感类别的one-hot编码，p表示模型待分的类别数目，则该样本的词向量嵌入矩阵可表示为：

X＝seg*E^T (3)

步骤(3)构建深度学习多分类情感分析模型

深度学习多分类情感分析模型包括基于CNN网络的局部特征提取阶段和基于LSTM网络的语序关系特征提取阶段，将基于CNN网络的局部特征提取阶段的池化层结果C_Cnn和基于LSTM网络的语序关系特征提取阶段的结果C'_Rnn拼接，即向量[C_Cnn；C'_Rnn]作为模型最终提取的特征向量，然后将特征向量[C_Cnn；C'_Rnn]经过全连接层得到最终的模型输出向量其中p表示模型待分的类别数目，

所述的基于CNN网络的局部特征提取阶段，包括以下内容：

多尺度CNN网络局部特征提取：将基于CNN网络的局部特征提取阶段中卷积层同一卷积尺度的k个滤波器的卷积结果拼接，得到集合Z_Cnn，然后将集合Z_Cnn中的每个向量Z_i输入到GLU机制中，即门控卷积网络，得到的结果记为{π₁,π₂,...,π_n}，完成多尺度CNN网络局部特征的提取，

其中，Z_i代表某一尺度的k个滤波器卷积结果的拼接，W₁，W₂∈R^λ×q为权重矩阵，λ表示对应权重矩阵的维度，b₁，b₂∈R^q为偏置量，σ表示sigmoid函数，π_i∈R^q，q为LSTM网络的输出维度；

采用正向传播，具体计算过程如下：

其中：α_t,i∈R代表特征π_i的权重，

2.根据权利要求1所述的一种结合注意力机制的深度学习多分类情感分析方法，其特征在于，所述的预处理过程包括以下步骤：

1)分词、去除停用、英文大写转小写、繁体转简体，

2)选取数据集G中频率大于等于σ的词语，构造词汇表wordList＝{word₁,word₂,...word_ε}，其中，word_i表示词汇表wordlist中第i个词语，ε表示数据集G中词频超过σ的词语总数，

3.根据权利要求1所述的一种结合注意力机制的深度学习多分类情感分析方法，其特征在于，所述的基于CNN网络的局部特征提取模块的卷积层计算公式如下：

z＝f(∑W^T*x_i:i+s-1+b) (8)

4.根据权利要求1所述的一种结合注意力机制的深度学习多分类情感分析方法，其特征在于，所述的训练数据为经过预处理之后的数据。

5.根据权利要求1所述的一种结合注意力机制的深度学习多分类情感分析方法，其特征在于，所述的基于CNN网络的局部特征提取阶段的卷积层采用4种不同尺度的卷积核。

6.根据权利要求1所述的一种结合注意力机制的深度学习多分类情感分析方法，其特征在于，所述的训练结束条件是准确率不再改变或达到设置迭代次数。