CN112256876A

CN112256876A - 基于多记忆注意力网络的方面级情感分类模型

Info

Publication number: CN112256876A
Application number: CN202011153583.3A
Authority: CN
Inventors: 梁雪春; 潘代斌
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-01-22

Abstract

本发明公开了一种基于多记忆注意力网络的方面级情感分类模型，包括词嵌入层、位置记忆层、Bi‑LSTM网络层、注意力交互记忆层、标签记忆层；通过多个记忆模块学习特征信息，更精确地生成了上下文的情感特征向量，提高了模型性能。

Description

基于多记忆注意力网络的方面级情感分类模型

技术领域

本发明涉及情感分类技术领域，具体为一种基于多记忆注意力网络的方面级情感分类模型。

背景技术

情感分析是自然语言处理中一项重要的任务，它是指通过计算机等辅助手段，判断人们在文本中对产品、对象、事件、服务、主题及其属性等实体所持有的情感、看法等感受。情感分析研究领域中人们一直重点关注的问题，就是方面级情感分析，包括方面级情感分类和方面词提取两个子任务。

本发明主要对方面级别的情感分类任务进行研究，即针对文本语句S所表达的对象O的特定方面A，判断文本中所表达关于A的情感极性。例如，给定上下文：一群友好的员工，比萨饼不错，但是牛肉块不值钱！该语句评论的对象O是饭店，其中包含了三个方面A：人员，比萨饼和牛肉块，其情感极性分别为积极、积极和负性。显然，不同目标方面的情感极性除了要考虑语句的上下文信息，还要考虑目标方面的特征信息。如果忽略目标方面的信息，那么将很难判断文本的情感极性。Jiang人工对Twitter数据集的情感分类的结果进行评估，实验结果显示：约40％的情感分析的错误源于缺乏对方面信息的关注。因此，人们越来越关注方面级情感分类的研究。

传统方法普遍会建立情感词典或人工设计特征，例如词袋，再将情感词典投入到情感分类器来进行分类。但是，这种人工构造的方法是劳动密集型的，几乎达到了其性能瓶颈。深度神经网络模型在自然语言处理任务中发展迅速，在NLP的一些子领域中成功应用(例如：机器翻译和自动问答)，推动研究人员将注意力从早期人工设计特征的传统方法迁移到深度学习方法。近年来，基于RNN(Recursive Neural Networks,RNN)的序列神经网络模型能解决梯度消失或***，在方面级情感分类表现较好，如LSTM(Long Short-TermMemory)、双向LSTM模型等。

由于江等人指出情感分类有多数错误是因为未在分类中考虑方面词而引起的，最近的研究倾向于在建模上下文时考虑其与目标方面词之间的内在联系。Dong等人提出了一种自适应递归神经网络(Recursive Neural Networks, RNN)，基于文本的句法关系，将情感从上下文词传播到特定目标。Vo和Zhang 将整个语句分为三个部分，即左上下文和右上下文以及目标方面词，然后使用池化函数和情感词典生成依赖于目标方面词的特征。MA等提出 IAN(Interactive Attention Networks)模型，他是通过LSTM分别对上下文和方面词进行建模，再利用两者的隐层信息，经池化函数相互监督生成新的注意力权重。韩虎等提出了LT-T-TR模型，将目标语句分为包含方面词的上文、目标方面、包含方面词的下文，通过注意力机制来学习上下和下文到目标之间的注意力权重，提高情感分析的准确率。杨鹏等人将交互式注意力神经网络应用到细粒度情感分类，验证了以IAN为基础的神经网络模型能关注到上下文词与目标方面词的交互信息，从而提高方面级情感分类的准确率。

上面的研究开始关注方面词对于方面级情感分析的重要性，但上述模型还存在一些问题：1)缺乏对目标方面词在上下文语境中信息的深层挖掘。2) 基于IAN的模型需采用池化操作来监督注意力的生成，会忽略目标方面词与上下文之间的一些内在信息。3)上述模型往往只从一个角度关注方面词的情感特征，无法从多个角度进行考虑。因此，本发明提出一种基于多记忆注意力网络的方面级情感分类模型(Aspect level sentimentClassification model based on multi memory attention network，AC-MMAN)。主要包括以下几个内容：1)位置记忆注意力模块，记忆给定语句中的单词与目标方面词的位置关系，来表示不同位置的词语对目标方面的影响程度。2)注意力交互记忆模块，采用AOA(Attention-Over-Attention)计算上下文的注意力权重，挖掘上下文与各个方面词之间深层联系，同时AOA模型不通过池化函数来计算注意力权重，能保留上下文更多的隐含信息。3)标签记忆模块，我们采用了标签平滑正则化方法来鼓励模型对模糊标签不太自信，因为标签不可靠性问题在以往的研究中容易被究忽略，中性情绪是一种模糊的情绪状态，会给模型学习带来困难。4)采用Bi-LSTM(Bidirectional-LSTM)神经网络同时对上下文和方面进行建模，解决上下文含多个方面词的问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于多记忆注意力网络的方面级情感分类模型，通过多个记忆模块学习特征信息，更精确地生成了上下文的情感特征向量，提高了模型性能。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：

本发明提供一种基于多记忆注意力网络的方面级情感分类模型，包括词嵌入层、位置记忆层、Bi-LSTM网络层、注意力交互记忆层、标签记忆层。

作为本发明的进一步方案，所述词嵌入层具体为：将每个单词嵌入一个低维实值向量中，称为单词嵌入；然后，我们能从M^V×d得到v_i∈R^d，其中i 是上下文或目标中的单词索引，d表示嵌入矩阵维度，V表示词汇量；词嵌入能被视为神经网络的参数，也能通过语言模型从适当的语料库进行预训练；通过词嵌入层，获得上下文和目标方面的词向量表示：上下文向量 [v₁；v₂；…；v_n]∈R^n×d和方面词向量[v_i；v_i+1；…；v_i+m-1]∈R^n×d。

作为本发明的进一步方案，所述位置记忆层具体为：方面级情感类任务中，单词和方面词之间的位置能挖掘出重要的信息；通常，离目标方面词越近的词语，对该方面词的影响也就越大；情感词“good”更能判断方面词 “servic”的情感记性，同时与情感词“dreadful”相比”，距离方面词“servic” 的相对位置也更近；然而，对于方面词“restaurant”而言，情感词“good” 比“high”距离方面词“price”的相对位置更近，但它不是能主要判断方面词“price”的单词；这会导致在某些情况下仅根据相对位置计算的注意力权重，反而会影响情感分类的准确性；对错误文本的分析后，我们发现该问题主要由于没有将标点符号会分割不同方面词的情感判断这一情况考虑在内，因此，我们将一种基于标点符号的权重梯级衰减算法运用在方面级情感分类任务中，改进位置记忆模块。

作为本发明的进一步方案，所述Bi-LSTM网络层具体为：使用两个Bi-LSTM 神经网络对上下文词向量以及方面词向量进行编码，来学习上下文与方面词之间的语义联系；每个Bi-LSTM是由两个LSTM叠加而成^[12]，它能更好的发挥 LSTM的优势，学习文本对象中词与词之间长期依赖信息，同时能避免梯度消失或***问题；形式上，输入带有位置权重的词向量v’_t，先前的单元状态c_t-1和先前的隐藏状态h_t-1，LSTM网络中的当前单元状态c_t和当前隐藏状态h_t更新为：

f_t＝σ(W_f[h_t-1，v’_t]+b_f)(3)i_t＝σ(W_i[h_t-1，v’_t]+b_i) (4)

o_t＝σ(W_o[h_t-1，v’_t]+b_o)(7)h_t＝o_t⊙tanh(c_t) (8)

其中i_t，f_t和o_t对应输入门，遗忘门和输出门，能控制之前文本与当前信息的记忆和遗忘程度，使LSTM能长期记忆文本之间关系；σ是sigmoid激活函数；W和b对应三个门中的权重矩阵和偏差；符号“·”表示矩阵乘法，而 “⊙”是逐元素乘法。

通过前向LSTM后，得到隐藏状态

d_n代表隐藏向量的维度，再将词向量输入后向LSTM网络，生成另一系列的隐藏状态

最后，拼接两个隐藏状态

和

得到最终隐藏向量

同时方面词向量也经过 Bi-LSTM编码，得到隐藏语义状态h_a；

其中，

代表前向LSTM，

代表后向LSTM。h_s和h₉是Bi-LSTM网络层的最终输出。

作为本发明的进一步方案，所述注意力交互记忆层具体为：通过Bi-LSTM 网络生成的上下文隐藏状态h_s和方面词的隐藏语义h_a后，我们使用注意力交互记忆模块(AOA)来计算整个上下文的注意力权重；AOA模型在处理自然语言另一子任务问答研究中表现优异，受其启发，我们将其应用在方面级情感分析；我们首先通过一个成对交互矩阵I＝h_s·h_a，来挖掘出上下文与方面词之间的相关性；分别通过按列和按行的softmax函数，我们得到了方面词到上下文的注意力γ和上下文到方面的注意力＝；再对＝按列求平均，生成一个方面级注意力

它代表了对方面词影响程度大的部分；最后，与方面词到上下文的注意力γ加权和来获得最终注意力权重ε∈Rⁿ；通过关注每个方面词的影响，我们学习到上下文中每个词对方面词的权重；

然后，我们通过注意力交互记忆模块(AOA)获得上下文隐藏语义的加权和：

r＝h_s ^··ε (16)

r最终的上下文表示，再通过非线性层将r投影到情感极性的类别C的向量空间中；

x＝tanh(W_l·r+b_l) (17)

式(17)中，W_l代表权重矩阵，b_l代表偏差。然后通过Softmax函数来计算方面级别的情感极性c(c∈C)；

最高概率的类别即最终的情感极性。

作为本发明的进一步方案，所述标签记忆层具体为：由于中性情绪是非常模糊的情绪状态，因此标记为中性的训练样本是不可靠的；我们在损失函数中采用了标签平滑正则化(LSR)项；惩罚了低熵输出分布；LSR能通过防止网络在训练过程中为每个训练示例分配全部概率来减少过度拟合，并使用平滑值(例如01或09)替换分类器的0和1目标；

对于具有原始真实标签分布C(k丨x)的训练样本x，我们将C(k丨x)替换为

q(k丨x)＝(1-c)q(k丨x)+cu(k) (19)

其中u(k)是标签上的先验分布，并且c是平滑参数；我们将先验标签分布设置为统一的u(k)＝1/C；

LSR相当于先验标记分布u(k)与网络预测分布p_θ之间的KL散度；LSR 术语正式定义为：

ψ_lsr＝-D_KL(u(^k)||p_θ) (20)

要优化的目标函数是具有ψ_lsr和L2正则化的交叉熵损失函数，其定义为：

其中

是以为one-hot向量的实际情感类别，y是输出层给出的预测的情感极性，λ是L2正则化项的系数，Θ是参数集；

采用Dropout来防止模型过拟合，并使用Adam和小批量随机梯度下降方法来寻找参数的最优解。

(三)有益效果

1、本发明提供了一种基于多记忆注意力网络的方面级情感分类模型，通过多个记忆模块学习特征信息，更精确地生成了上下文的情感特征向量，提高了模型性能。

2、方面级情感分类的目的是判断所描述对象的特定方面在其语句中的情感极性。针对传统依赖注意力机制的深度学习模型无法从多个角度关注特定方面的情感特征，以及缺乏对特定方面与上下文之间语义信息的挖掘等问题，提出了一种基于多记忆注意力网络的方面级情感分类模型(AC-MMAN)。该模型使用双向长短时记忆网络(Bi-LSTM)对上下文以及目标方面进行编码来获取上下文和方面的表示；同时，在Bi-LSTM网络中的不同位置加入不同类型的记忆注意力模块，通过多记忆模块让模型从不同角度学习到上下文与目标方面词之间的深层情感信息，获得每个单词更准确的权重值，从而提高情感分析的准确性。并在SemEval 2014Task 41的公开数据集上进行实验，验证了其有效性。

附图说明

图1为本发明实施例提供的一种基于多记忆注意力网络的方面级情感分类模型AC-MMAN网络图；

图2为本发明实施例中上下文中单词与方面词的位置关系。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明提供一种基于多记忆注意力网络的方面级情感分类模型，包括词嵌入层、位置记忆层、Bi-LSTM网络层、注意力交互记忆层、标签记忆层。

本发明实施例中，所述词嵌入层具体为：将每个单词嵌入一个低维实值向量中，称为单词嵌入；然后，我们能从M^V×d得到v_i∈R^d，其中i是上下文或目标中的单词索引，d表示嵌入矩阵维度，V表示词汇量；词嵌入能被视为神经网络的参数，也能通过语言模型从适当的语料库进行预训练；通过词嵌入层，获得上下文和目标方面的词向量表示：上下文向量[v₁；v₂；…；v_n]∈ R^n×d和方面词向量[v_i；v_i+1；…；v_i+m-1]∈R^n×d。

本发明实施例中，所述位置记忆层具体为：方面级情感类任务中，单词和方面词之间的位置能挖掘出重要的信息；通常，离目标方面词越近的词语，对该方面词的影响也就越大；情感词“good”更能判断方面词“servic”的情感记性，同时与情感词“dreadful”相比”，距离方面词“servic”的相对位置也更近；然而，对于方面词“restaurant”而言，情感词“good”比 “high”距离方面词“price”的相对位置更近，但它不是能主要判断方面词“price”的单词；这会导致在某些情况下仅根据相对位置计算的注意力权重，反而会影响情感分类的准确性；对错误文本的分析后，我们发现该问题主要由于没有将标点符号会分割不同方面词的情感判断这一情况考虑在内，因此，我们将一种基于标点符号的权重梯级衰减算法运用在方面级情感分类任务中，改进位置记忆模块。

本发明实施例中，所述Bi-LSTM网络层具体为：使用两个Bi-LSTM神经网络对上下文词向量以及方面词向量进行编码，来学习上下文与方面词之间的语义联系；每个Bi-LSTM是由两个LSTM叠加而成^[12]，它能更好的发挥LSTM 的优势，学习文本对象中词与词之间长期依赖信息，同时能避免梯度消失或 ***问题；形式上，输入带有位置权重的词向量v’_t，先前的单元状态c_t-1和先前的隐藏状态h_t-1，LSTM网络中的当前单元状态c_t和当前隐藏状态h_t更新为：

f_t＝σ(W_f[h_t-1，v’_t]+b_f)(3)i_t＝σ(W_i[h_t-1，v’_t]+b_i) (4)

o_t＝σ(W_o[h_t-1，v’_t]+b_o)(7)h_t＝o_t⊙tanh(c_t) (8)

通过前向LSTM后，得到隐藏状态

最后，拼接两个隐藏状态

和

得到最终隐藏向量

同时方面词向量也经过 Bi-LSTM编码，得到隐藏语义状态h_a；

其中，

代表前向LSTM，

代表后向LSTM。h_s和h_a是Bi-LSTM网络层的最终输出。

本发明实施例中，所述注意力交互记忆层具体为：通过Bi-LSTM网络生成的上下文隐藏状态h_s和方面词的隐藏语义h_a后，我们使用注意力交互记忆模块(AOA)来计算整个上下文的注意力权重；AOA模型在处理自然语言另一子任务问答研究中表现优异，受其启发，我们将其应用在方面级情感分析；我们首先通过一个成对交互矩阵I＝h_s·h_a，来挖掘出上下文与方面词之间的相关性；分别通过按列和按行的softmax函数，我们得到了方面词到上下文的注意力γ和上下文到方面的注意力δ；再对δ按列求平均，生成一个方面级注意力

r＝h_s ^··ε (16)

x＝tanh(W_l·r+b_l) (17)

最高概率的类别即最终的情感极性。

本发明实施例中，所述标签记忆层具体为：由于中性情绪是非常模糊的情绪状态，因此标记为中性的训练样本是不可靠的；我们在损失函数中采用了标签平滑正则化(LSR)项；惩罚了低熵输出分布；LSR能通过防止网络在训练过程中为每个训练示例分配全部概率来减少过度拟合，并使用平滑值(例如01或09)替换分类器的0和1目标；

对于具有原始真实标签分布q(k丨x)的训练样本x，我们将q(k丨x)替换为

q(k丨x)＝(1-c)q(k丨x)+cu(k) (19)

ψ_lsr＝-D_KL(u(k)||p_θ) (20)

其中

实验测试：

我们对SemEval 2014Task 4的数据集进行了实验，以验证我们模型的有效性，它由两类评论组成：餐厅和笔记本电脑。评论带有三种情感极性：积极，中立和消极，如表1所示：

表1 SemEval 2014数据集的统计数据

评估指标：

我们采用“准确性”指标来评估方面的情感分类的性能，其定义为：

其中T是正确预测的样本数，N是样本总数。

参数设定：

在我们的实验中，我们从训练集中随机选择5份20％的数据作为交叉验证集，来训练我们的超参数。所有的上下文和方面词都采用GloVe2进行词嵌入。 LSTM隐藏层、词向量以及注意力向量的维度都设置成300维。

通过从均匀分布U(-0.05；0.05)进行采样，为所有权重矩阵提供初始值，并且所有偏差都设置为零。Adams的初始学习率设置为0.01，衰减因子为0.95，正则化的系数为0.001，dropout参数设成0.2。

需要说明的是，在本发明中，诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，能理解在不脱离本发明的原理和精神的情况下能对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于多记忆注意力网络的方面级情感分类模型，其特征在于，包括词嵌入层、位置记忆层、Bi-LSTM网络层、注意力交互记忆层、标签记忆层。

2.根据权利要求1所述的一种基于多记忆注意力网络的方面级情感分类模型，其特征在于，所述词嵌入层具体为：将每个单词嵌入一个低维实值向量中，称为单词嵌入；我们从M^V×d得到v_i∈R^d，其中i是上下文或目标中的单词索引，d表示嵌入矩阵维度，V表示词汇量；词嵌入被视为神经网络的参数，通过语言模型从语料库进行预训练；通过词嵌入层，获得上下文和目标方面的词向量表示：上下文向量[v₁；v₂；...；v_n]∈R^n×d和方面词向量[v_i；v_i+1；...；v_i+m-1]∈R^n×d。

3.根据权利要求1所述的一种基于多记忆注意力网络的方面级情感分类模型，其特征在于，所述位置记忆层具体为：方面级情感类任务中，单词和方面词之间的位置能挖掘出重要的信息；离目标方面词越近的词语，对该方面词的影响就越大。

4.根据权利要求1所述的一种基于多记忆注意力网络的方面级情感分类模型，其特征在于，所述Bi-LSTM网络层具体为：使用两个Bi-LSTM神经网络对上下文词向量以及方面词向量进行编码，来学习上下文与方面词之间的语义联系；每个Bi-LSTM是由两个LSTM叠加而成，它能发挥LSTM的优势，学习文本对象中词与词之间长期依赖信息，同时能避免梯度消失或***问题；形式上，输入带有位置权重的词向量v′_t，先前的单元状态c_t-1和先前的隐藏状态h_t-1，LSTM网络中的当前单元状态c_t和当前隐藏状态h_t更新为：

f_t＝σ(W_f[h_t-1，v′_t]+b_f) (3) i_t＝σ(W_i[h_t-1，v′_t]+b_i) (4)

o_t＝σ(W_o[h_t-1，v′_t]+b_o) (7) h_t＝o_t⊙tanh(c_t) (8)

其中i_t，f_t和o_t对应输入门，遗忘门和输出门，能控制之前文本与当前信息的记忆和遗忘程度，使LSTM能长期记忆文本之间关系；σ是sigmoid激活函数；W和b对应三个门中的权重矩阵和偏差；符号“·”表示矩阵乘法，而“⊙”是逐元素乘法；

通过前向LSTM后，得到隐藏状态

最后，拼接两个隐藏状态

和

得到最终隐藏向量

同时方面词向量也经过Bi-LSTM编码，得到隐藏语义状态h_a；

其中，

代表前向LSTM，

代表后向LSTM；h_s和h_a是Bi-LSTM网络层的最终输出。

5.根据权利要求1所述的一种基于多记忆注意力网络的方面级情感分类模型，其特征在于，所述注意力交互记忆层具体为：通过Bi-LSTM网络生成的上下文隐藏状态h_s和方面词的隐藏语义h_a后，使用注意力交互记忆模块(AOA)来计算整个上下文的注意力权重；首先通过一个成对交互矩阵I＝h_s·h_a，来挖掘出上下文与方面词之间的相关性；分别通过按列和按行的softmax函数，从而得到了方面词到上下文的注意力γ和上下文到方面的注意力δ；再对δ按列求平均，生成一个方面级注意力