CN110096587B

CN110096587B - 基于注意力机制的lstm-cnn词嵌入的细粒度情感分类模型

Info

Publication number: CN110096587B
Application number: CN201910026957.6A
Authority: CN
Inventors: 姜明; 张雯; 张旻; 汤景凡; 戚铖杰; 腾海滨
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2020-07-07
Anticipated expiration: 2039-01-11
Also published as: CN110096587A

Abstract

本发明公开了基于注意力机制的LSTM‑CNN词嵌入的细粒度情感分类模型。本发明用一般的LSTM提取到的特征与指定角度的相关性不大导致情感分类准确率降低的问题。本发明采用的技术方案是，将CNN与LSTM进行结合，同时利用CNN识别局部特征的能力和LSTM利用文本序列的能力，用LSTM获取句子表示，将LSTM的输出馈送给CNN作为输入。通过CNN的卷积池化操作对LSTM提取到的特征进行选择，再引入注意力机制去重点关注句中与指定方面关联程度较高的信息，最后得到句子的预测极性。同时，为了提升分类的效率，本发明在模型中输入了指定角度的词嵌入向量，提高了分类准确率。

Description

基于注意力机制的LSTM-CNN词嵌入的细粒度情感分类模型

技术领域

本发明涉及情感分类领域，具体涉及一种基于注意力机制的LSTM-CNN词嵌入的细粒度情感分类模型。

背景技术

情感分析已经被广泛应用在电商网站。对消费者评论等信息进行情感分类，不仅可以挖掘用户对商品的喜好程度，给***提供购买建议，同时有利于商家及时改善产品及服务，从而提高商业价值。为了得到一条评论对商品的不同方面的评价，由此提出了细粒度情感分类。例如对句子“菜品不错但是服务一般”的情感分析结果为“菜品：积极；服务：消极”。

细粒度情感分析过程的关键通常都始于从文本中检测与指定角度相关的信息。突出于指定角度相关性大的信息，弱化不相关或者相关性较小的信息。

现有方案利用LSTM提取句子的特征，再结合注意力机制对特征打分来表现它们对指定方面情感极性的重要程度。现有方法通常采用LSTM提取句子特征，但是每个特征对句子在给定方面的情感极性的影响程度相差不大，没有凸显出与指定角度相关性较强的特征。

发明内容

本发明的目的是针对现有技术的不足，提供一种对评论文本进行细粒度情感分类的方法。提出基于注意力机制的LSTM-CNN词嵌入的细粒度情感分类模型，以解决对句子在给定角度下进行情感分析时准确率低的问题。

基于注意力机制的LSTM-CNN词嵌入的细粒度情感分类模型，其特征在于包括如下步骤：

步骤1、对需要进行情感分类的评论文本进行预分类处理；

步骤2、用LSTM模型对评论进行句子表示，获得句子的特征矩阵；

步骤3、用CNN模型对步骤2得到的特征矩阵执行卷积核池化操作，筛选出特征矩阵中较为突出的句子特征；

步骤4、指定一个角度词并输入相应的词嵌入向量v_a，让模型获取指定角度词的信息；

步骤5、利用注意力机制，针对给定的角度词的信息，从已经得到的句子特征中学习与该角度相关性较大的特征，弱化不相关的特征，突出相关联的特征；

步骤6、计算得到最终的句子表示，不同数值范围对应不同的情感极性，得到评论在指定方面的细粒度情感极性。

步骤1具体实现如下：

1.1将爬取自网络的评论信息整合成数据集；

1.2对数据集进行清洗：去掉标点符号、表情符、英文字符，然后引用停用词典去掉停用词；

1.3用现有的分词工具LTP对清洗后的数据集中的每一条评论进行分词；

1.4用W2V词向量模型将分词后的每一条评论表示为词向量形式s＝[w₁，w₂，...，w_N]，N是句子长度，w_i是词向量。

步骤2具体实现如下：

2.1用一个初始的LSTM模型对固定长度的句子输入进行编码，如果句子编码后的向量长度不够，则末尾用数字0进行补齐；

2.2 LSTM隐藏层的输出是隐藏层特征矩阵[h₁，h₂，...，h_N]，表示句子级别特征；隐藏层特征h_i，i∈[1，N]与词向量w_i是一一对应的关系。

步骤3具体实现如下：

CNN层的输入是LSTM的隐藏层输出；设置3种长度的滤波器，长度分别是1、2和3；每种长度的滤波器数量都是200个；滤波器将滑过输入的特征矩阵，滑动窗口的长度就是滤波器的长度；每种长度的滤波器都会得到200个特征矩阵，称为特征映射；运用激活函数Rule使得600个特征映射都被表示成单列的向量；然后应用最大池化操作从每个特征映射中选择值最大的特征；每个特征映射都会被表示成一个单独的值；最后将对应相同长度滤波器的特征映射被连接到一起，由此得到一个新的特征映射c＝[c₁，c₂，...c_N]。

步骤5具体实现如下：

步骤5.利用注意力机制，针对步骤4中给定的角度词的信息，从已经得到的句子特征c＝[c₁，c₂，...c_N]中学习与角度词的信息相关性较大的特征，弱化不相关的特征，突出相关联的特征，具体实现如下：

5.1步骤3中获得的每个特征映射c₁都与角度词的词向量v_a进行拼接获得M；

其中，圆圈中带叉号的运算符表示

把向量v重复链接N次，e_N是单位向量；

表示进行线性转换，执行次数是句子的长度；M是结合指定角度词后的CNN隐藏层表示；

5.2通过计算α＝softmax(ω^TM)，得到注意力权重向量α＝[α₁，α₂，...，α_N]，ω是模型在训练过程中需要学习的参数；紧接着，得到加权隐藏表示r；通过给定方面的最终句子表示根据如下得到：r＝Cα^T。

步骤6具体实现如下：

步骤6.添加一个线性层，将步骤5.2中的句子表示转换成长度等于情感类别数的向量；计算得到最终的句子表示，构成向量的数值分别对应不同的情感极性，不同数值范围对应不同的情感极性，其中最大的值所对应的情感极性就是这条评论在指定角度的细粒度情感极性。

本发明的优点及有益效果如下：

本发明主要为了解决对文本评论进行细粒度的情感分析时，用一般的LSTM提取到的特征与指定角度的相关性不大导致情感分类准确率降低的问题。本发明采用的技术方案是，用LSTM获取句子表示，将LSTM的输出馈送给CNN作为输入。通过CNN的卷积池化操作对LSTM提取到的特征进行选择，再引入注意力机制去重点关注句中与指定方面关联程度较高的信息，最后得到句子的预测极性。同时，为了提升分类的效率，基于注意力机制的LSTM-CNN词嵌入的细粒度情感分类模型在模型中输入了指定角度的词嵌入向量，提高了分类准确率。

附图说明

图1是本发明所述方法的流程框图。

图2是本发明所述模型方法的架构图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，基于注意力机制的LSTM-CNN词嵌入的细粒度情感分类模型，包括以下步骤：

步骤1.对待分类的文本进行预分类处理：

1.1将爬取自网络的评论信息整合成数据集；

步骤2.用LSTM模型对评论进行句子表示，获得句子特征；

2.2 LSTM隐藏层的输出是隐藏层特征矩阵[h₁，h₂，...，h_N]，表示句子级别特征；隐藏层特征h_i，i∈[1，N]与词向量w_i是一一对应的关系；

步骤3.用CNN模型对步骤2得到的隐藏层特征执行卷积核池化操作，筛选出较为突出的句子特征；

CNN层的输入是LSTM的隐藏层输出。设置3种长度的滤波器，长度分别是1、2和3。每种长度的滤波器数量都是200个。滤波器将滑过输入的特征矩阵，滑动窗口的长度就是滤波器的长度。每种长度的滤波器都会得到200个特征矩阵，称为特征映射。运用激活函数Rule使得600个特征映射都被表示成单列的向量。然后应用最大池化操作从每个特征映射中选择值最大的特征。每个特征映射都会被表示成一个单独的值，大大地降低了特征的维度。最后将对应相同长度滤波器的特征映射被连接到一起，由此得到一个新的特征映射c＝[c₁，c₂，...c_N]。

步骤4.指定一个角度词如“卫生”，并输入该词的词嵌入向量v_a，让模型获取指定角度词的信息；

步骤5.利用注意力机制，针对步骤4中给定的角度词的信息，从已经得到的句子特征c＝[c₁，c₂，...c_N]中学习与角度词的信息相关性较大的特征，弱化不相关的特征，突出相关联的特征；

其中，圆圈中带叉号的运算符表示

把向量v重复链接N次，e_N是单位向量。

表示进行线性转换，执行次数是句子的长度。M是结合指定角度词后的CNN隐藏层表示。

5.2通过计算α＝softmax(ω^TM)，得到注意力权重向量α＝[α₁，α₂，...，α_N]，ω是模型在训练过程中需要学习的参数。紧接着，得到加权隐藏表示r。通过给定方面的最终句子表示根据如下得到：r＝Cα^T

步骤6.添加一个线性层，将步骤5.2中的句子表示转换成长度等于情感类别数(积极、消极和中性)的向量。计算得到最终的句子表示，构成向量的数值分别对应不同的情感极性，不同数值范围对应不同的情感极性，其中最大的值所对应的情感极性就是这条评论在指定角度的细粒度情感极性。

Claims

1.基于注意力机制的LSTM-CNN词嵌入的细粒度情感分类方法，其特征在于包括如下步骤：

步骤1、对需要进行情感分类的评论文本进行预分类处理；

步骤6、计算得到最终的句子表示，不同数值范围对应不同的情感极性，得到评论在指定方面的细粒度情感极性；

步骤1具体实现如下：

1.1将爬取自网络的评论信息整合成数据集；

1.4用W2V词向量模型将分词后的每一条评论表示为词向量形式s＝[w₁,w₂,…,w_N],N是句子长度,w_i是词向量；

步骤2具体实现如下：

2.2LSTM隐藏层的输出是隐藏层特征矩阵[h₁,h₂,…,h_N]，表示句子级别特征；隐藏层特征h_i,i∈[1,N]与词向量w_i是一一对应的关系；

步骤3具体实现如下：

CNN层的输入是LSTM的隐藏层输出；设置3种长度的滤波器，长度分别是1、2和3；每种长度的滤波器数量都是200个；滤波器将滑过输入的特征矩阵，滑动窗口的长度就是滤波器的长度；每种长度的滤波器都会得到200个特征矩阵，称为特征映射；运用激活函数Rule使得600个特征映射都被表示成单列的向量；然后应用最大池化操作从每个特征映射中选择值最大的特征；每个特征映射都会被表示成一个单独的值；最后将对应相同长度滤波器的特征映射被连接到一起，由此得到一个新的特征映射C＝[c₁,c₂,…c_N]；

步骤5具体实现如下：

步骤5.利用注意力机制，针对步骤4中给定的角度词的信息，从已经得到的句子特征C＝[c₁,c₂,…c_N]中学习与角度词的信息相关性较大的特征，弱化不相关的特征，突出相关联的特征，具体实现如下:

其中，圆圈中带叉号的运算符表示

把向量v重复链接N次，e_N是单位向量；

5.2通过计算α＝softmax(ω^TM)，得到注意力权重向量α＝[α₁,α₂,…,α_N]，ω是模型在训练过程中需要学习的参数；紧接着，得到加权隐藏表示r；通过给定方面的最终句子表示根据如下得到：r＝Cα^T；

步骤6具体实现如下：