CN115017912A

CN115017912A - 一种多任务学习的双目标实体情感分析方法

Info

Publication number: CN115017912A
Application number: CN202210054948.XA
Authority: CN
Inventors: 文瑜; 旷中洁; 朱新华
Original assignee: Guilin Tourism University
Current assignee: Guilin Tourism University
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-09-06

Abstract

本发明公开了一种多任务学习的双目标实体情感分析方法，通过句子语境分断符识别与左右实体情感极性分类的多任务学习，联合训练一个具有句子语境分断符自动识别与双目标实体情感极性自动分类的神经网络模型。其次，使用所训练的神经网络模型识别情感句子中的语境分断符。再者，以得到的语境分断符对情感句子的语义表示进行分离，得到左子句语义表示和右子句语义表示，然后分别对左子句语义表示和右子句语义表示进行情感分析，最终得到双目标实体的情感极性。通过语境分断符使得情感句子中两个目标实体的情感表达相互分离，以更有效的方法解决方面级情感分析问题。

Description

一种多任务学习的双目标实体情感分析方法

技术领域

本发明涉及自然语言理解中的方面级情感分析，具体是一种多任务学习的双目标实体情感分析方法，可广泛应用于各个领域的方面级情感分析任务中。

背景技术

方面级情感分类的目的是预测多个目标实体在句子或者文档中的极性，它是一项细粒度情感分析的任务，与传统的情感分析任务不同，它是在目标实体上做极性分析(一般为积极、消极、中性三个分类)。方面级情感分类常用在评论人的评论句子中，如：商场购物评论、餐饮评论、电影评论等。方面级情感分类，通常在一个句子中有两个方面词及其相关的情感取向，例如句子"Prices are higher to dine but their food is quite good"，对于目标实体“Prices”它是消极的，但对于目标实体“food”它是积极的。

随着人工神经网络技术的不断发展，各种神经网络如Long Short-Term Memory(LSTM)、Deep Memory Network和Google AI Language提出的Bidirectional EncoderRepresentations from Transformers(BERT)语言模型被应用于方面极性分类，从而为其提供端到端的分类方法，而无需任何特征工程工作。然而，当句子中有多个目标实体时，方面极性分类任务需要区分不同方面的情绪。因此，与只有一个整体情感取向的文档级情感分析相比，方面极性分类任务更加复杂，面临的主要挑战是：在对不同目标实体进行情感分析时，如何突出与其相关的情感表达而抑制与它不相关的情感表达。为了实现这一目标，目前针对方面极性分类的深度学习方法提出了多种以方面为中心的情感语义学习方法，例如：基于注意力的语义学习、位置衰减、左右语义学习、方面连接与全局语义学习等，但每种方法都存在一定程度的不相关情感表达的影响。为彻底解决多目标情感分析中不相关情感表达的影响，本发明提出一种多任务学习的双目标实体情感分析方法，通过语境分断符使得情感句子中两个目标实体的情感表达相互分离。

发明内容

本发明公开了一种多任务学习的双目标实体情感分析方法，通过句子语境分断符识别与左右实体情感极性分类的多任务学习，联合训练一个具有句子语境分断符自动识别与双目标实体情感极性自动分类的神经网络模型，以更有效的方法解决方面级情感分析问题。

为实现上述目的，本发明的技术方案为：

一种多任务学习的双目标实体情感分析方法，其特征在于包括以下步骤：

S1.通过句子语境分断符识别与左右实体情感极性分类的多任务学习，联合训练一个具有句子语境分断符自动识别与双目标实体情感极性自动分类的神经网络模型；

S2.使用步骤S1所训练的神经网络模型识别情感句子中的语境分断符；

S3.在步骤S1所训练的神经网络模型中，以步骤S2得到的语境分断符所对应的位置对情感句子的语义表示进行分离，得到左子句语义表示和右子句语义表示，然后分别对左子句语义表示和右子句语义表示进行情感分析，最终得到双目标实体的情感极性；

所述情感句子是指包含左、右两个目标实体的多情感表达句子；

所述语境分断符是指在情感句子中位于左右两个目标实体之间、使得两个目标实体的情感表达相互分离的字词；

所述神经网络模型是指一种基于BERT语言模型的神经网络结构；所述BERT语言模型是指Google AI Language提出的Bidirectional Encoder Representations fromTransformers(BERT)语言模型。

进一步的，所述步骤S1具体包括：

S1.1 BERT语言模型的输入序列s是由情感句子Sen＝{…,t₁,w₁,w₂,…,w_n,t₂,…}与BERT编码符号所组成，如下所示：

Mid＝{w₁,w₂,...,w_n} (2)

其中，[CLS]是BERT分类符的编码，[SEP]是BERT结束符的编码，t₁是待分析的左目标实体,t₂是待分析的右目标实体，Mid＝{w₁,w₂,...,w_n}是左右目标实体t₁和t₂之间的中间字词序列，“…”代表省略的字词序列，m是输入序列s的长度，d_w是BERT中字符编码的维度，n是中间字词序列Mid的长度，所述“字词”是指文本经Bert的分词器Tokenzier分离出的语言片段；

S1.2将输入序列s送入BERT语言模型进行处理，得到情感句子Sen的句子语义表示C_Sen，如下所示：

其中，

表示BERT语言模型,

是BERT语言模型的第i个隐藏状态,d_b是BERT语言模型的隐藏单元数；

S1.3按照对应关系，从C_Sen中抽取出中间字词序列Mid＝{w₁,w₂,...,w_n}所对应的中间语义表示C_Mid，如下所示：

其中，

表示中间语义提取，

是第i个中间字词w_i在C_Sen中所对应的隐藏状态；

S1.4对中间语义表示C_Mid执行一个softmax线性变换，进行语境分断符的识别，计算过程如下所示：

其中，公式(5)和(6)是对中间语义表示C_Mid执行softmax线性变换的计算过程，

是一个用于语境分断符识别的可学习的参数向量，

是一个偏置参数，

表示向量的点积运算，

是中间字词序列Mid对应的语境分断置信分数向量，w为一个中间字词，Ρ(w|C_Mid,θ)表示中间字词w为语境分断符的预测概率，

表示返回使得Ρ(w|C_Mid,θ)为最大值的中间字词，w^*为计算得出的语境分断符，θ是所有可学习的参数集合，exp(·)表示以e为底的指数函数；

S1.5以语境分断符w_sp作为分隔符，形成两个由1、0组成的掩码矩阵，将句子语义表示C_Sen分离成左子句语义表示C_left和右子句语义表示C_right，计算过程如下所示：

其中，mask^L为用于分离左子句语义的掩码矩阵，mask^r为用于分离右子句语义的掩码矩阵，

为一个全1向量，

为一个全0向量，tonken_i∈Sen为句子Sen中的第i个字词，函数

求指定字词在句子Sen中的位置编号，

为mask^L中的第i列向量，i∈[1,m]且为整数，

为mask^r中的第j列向量，j∈[1,m]且为整数，

表示逐元素相乘；

S1.6分别在左子句语义表示C_left和右子句语义表示C_right上执行一个多头自注意力的编码过程，得到左子句语义编码C'_left和右子句语义编码C'_right，计算过程如下所示：

其中，MHSA()X表示输入

的多头注意力MHA(Q,K,V)；

S1.7分别对左子句语义编码C'_left和右子句语义编码C'_right执行平均池化操作，得到左子句情感向量Z^L和右子句情感向量Z^r，计算过程如下：

其中，avePooling(C)表示对参数

执行按列求平均值的池化操作；

S1.8分别对左子句情感向量Z^L和右子句情感向量Z^r执行softmax的线性变换，进行情感极性的概率计算，并得出最终的情感极性，计算过程如下:

其中，

是情感极性的表示矩阵，

是一个偏置向量，d_k是情感极性的个数，Y是情感极性的集合，y是一个情感极性，

分别是Z^L和Z^r所对应的情感极性置信分数向量，Ρ(y|Z^L,θ)、Ρ(y|Z^r,θ)分别表示Z^L和Z^r在情感极性y上的预测概率，y^L、y^r分别为最终评定的左情感极性和右情感极性，

分别表示返回使得Ρ(y|Z^L,θ)和Ρ(y|Z^r,θ)为最大值的情感极性，θ是所有可学习的参数集合，exp(·)表示以e为底的指数函数。

更进一步的，所述步骤S1中，联合训练一个具有句子语境分断符自动识别与双目标实体情感极性自动分类的神经网络模型的联合训练方法为：

(1)分别使用交叉熵损失误差计算语境分断符识别的损失函数和双目标实体情感分析的损失函数，计算过程如下:

其中，Ω是双目标实体情感分析任务的训练句子的集合，|Ω|表示集合Ω的大小，

是Ω中第i个训练句子的语境分断符的字词标签，

是Ω中第i个训练句子的中间语义表示，

分别是Ω中第i个训练句子的左情感极性标签和右情感极性标签，

分别是Ω中第i个训练句子的左子句情感向量和右子句情感向量，Ψ^Mid(θ)是进行语境分断符识别训练时使用的损失函数，Ψ^L(θ)是进行左目标实体情感分析训练时使用的损失函数，Ψ^r(θ)是进行右目标实体情感分析训练时使用的损失函数；

(2)使用如下的公式(27)计算联合训练句子语境分断符识别与双目标实体情感极性分类的联合损失函数

其中，α₁和α₂是两个权重参数；

(3)联合训练目标是最小化公式(27)计算的联合损失误差。

为彻底解决多目标情感分析中不相关情感表达的影响，本发明提出一种多任务学习的双目标实体情感分析方法，通过语境分断符使得情感句子中两个目标实体的情感表达相互分离。首先，通过句子语境分断符识别与左右实体情感极性分类的联合学习，联合训练一个具有句子语境分断符自动识别与双目标实体情感极性自动分类的神经网络模型。其次，使用所训练的神经网络模型识别情感句子中的语境分断符。再者，以得到的语境分断符所对应的位置对情感句子的语义表示进行分离，得到左子句语义表示和右子句语义表示，然后分别对左子句语义表示和右子句语义表示进行情感分析，得到双目标实体的情感极性。

本发明具有以下优点：

(1)通过一个广泛预训练与任务微调的BERT语言模型，为情感句子动态编码，可有效克服方面级情感分析语料集过小的问题；

(2)通过语境分断符使得情感句子中两个目标实体的情感表达相互分离，彻底解决多目标情感分析中不相关情感表达的影响；

(3)通过语境分断符将双目标实体情感分析转换为两个独立的单目标实体情感分析，大幅度地提高了双目标实体情感分析的性能；

(4)通过将包含更多目标实体的情感句子转换为多个双目标实体情感句子，本发明的方法可以应用到各种类型的方面级情感分析任务中。

附图说明

图1是本发明的方法流程示意图。

具体实施方式

以下结合具体实施例对本发明作进一步说明，但本发明的保护范围不限于以下实施例。

设包含左目标实体t₁和右目标实体t₂的情感句子Sen＝{…,t₁,w₁,w₂…,w_n,t₂,…}，则通过以下步骤分析双目标实体t₁和t₂的情感：

进一步的，所述步骤S1具体包括：

S1.1 BERT语言模型的输入序列s是由情感句子Sen＝{…,t₁,w₁,w₂,…,w_n,t₂,...}与BERT编码符号所组成，如下所示：

Mid＝{w₁,w₂,...,w_n} (2)

其中，

表示BERT语言模型,

其中，

表示中间语义提取，

是第i个中间字词w_i在C_Sen中所对应的隐藏状态；

其中，

是一个用于语境分断符识别的可学习的参数向量，

是一个偏置参数，

表示向量的点积运算，

为一个全1向量，

为一个全0向量，tonken_i∈Sen为句子Sen中的第i个字词，函数

求指定字词在句子Sen中的位置编号，

为mask^L中的第i列向量，i∈[1,m]且为整数，

为mask^r中的第j列向量，j∈[1,m]且为整数，

表示逐元素相乘；

其中，MHSA()X表示输入

的多头注意力MHA(Q,K,V)；

其中，avePooling(C)表示对参数

执行按列求平均值的池化操作；

其中，

是情感极性的表示矩阵，

是一个偏置向量，d_k是情感极性类别的个数，Y是情感极性类别的集合，y是一个情感极性，

是Ω中第i个训练句子的语境分断符的字词标签，

是Ω中第i个训练句子的中间语义表示，

其中，α₁和α₂是两个权重参数；

(3)联合训练目标是最小化公式(27)计算的联合损失误差。

本实施例通过语境分断符使得情感句子中两个目标实体的情感表达相互分离，彻底解决多目标情感分析中不相关情感表达的影响。

应用实例

1.实例环境

本实例使用Google AI Language在文献“Devlin J,Chang MW,Lee K,ToutanovaK(2019)BERT:Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding.In:Proceedings of the 2019Conference of NAACL,pp 4171–4186”中提出并开发的BERT-BASE版本作为BERT编码层的预训练模型，该BERT模型包括12层Transformers，768个隐藏单元，12个多头，以及总参数＝110M)；本实例采用的多头注意力来源于文献“Vaswani A,Shazeer N,Parmar N,Uszkoreit J,Jones L,Gomez AN,KaiserL,Polosukhin I(2017)Attention Is All You Need.In:31st Conference on NeuralInformation Processing Systems(NIPS 2017),pp 5998–6008”中，设置了注意力的头数为12；为了最小化损失值，本实例使用了Adam Optimizer优化器，并将学习率设置为2e-5，batch size大小设置为16；在训练期间，本实例将epochs设置为10。

2.数据集

本实例使用在国际上广泛使用的SemEval-2014task 4数据集作为评测基准，该数据集于2014年在第八届国际语义评估研讨会上所公布。它提供了来自餐厅(Rest)和笔记本电脑(Lap)领域的两个评论数据集。SemEval-2014task 4数据集中的每个样本由一个评论句子、一些观点目标和对观点目标的相应情感极性组成。数据集详细情况如表1所示。

表1数据集详细情况

3.对比方法

本实例将本发明的模型与5个非BERT的方法和4个基于BERT的方法进行比较，对比方法如下所示：

(1)非BERT的方法

·MenNet[1]使用多层记忆网络结合注意力来捕捉每个上下文词对方面极性分类的贡献。

·IAN[2]采用两个LSTM网络分别获取特定方面和上下文的特征，然后交互生成它们的注意力向量，最后将这两个注意力向量连接起来进行方面极性分类。

·TNet-LF[3]使用CNN网络从基于双向LSTM网络的单词表示中提取重要特征，并提出一种基于相关性的机制来生成句子中单词的特定目标表示。该模型还采用了位置衰减技术。

·MCRF-SA[4]提出了一个基于多个CRF的简洁注意力模型，该模型可以提取特定于方面的意见跨度。该模型还采用了位置衰减和方面连接技术。

·MAN[5]在多层转换器编码器之上构建了两个具有位置函数的注意力：一个用于生成上下文和方面之间关系的交互式注意力，以及一个基于转换器编码器的方面到上下文的局部注意力。

(2)基于BERT的方法

·BERT-BASE[6]是Google AI Language开发的BERTBASE版本，采用单句输入方式：“[CLS]+评论句+[SEP]”进行方面极性分类。

·BERT-SPC[7]是预训练BERT模型在句子对分类(SPC)任务中的应用。BERT-SPC应用于方面极性分类任务的输入方式是：“[CLS]+评论句+[SEP]+方面目标+[SEP]”。

·AEN-BERT[7]在BERT编码器之上构建了两个多头注意力机制：一个多头自注意力机制来建模上下文，一个方面到上下文多头注意力机制来建模方面目标。

·MAN-BERT是MAN[5]模型的变体。本实例使用BERT模型来替换MAN[5]中的Transformer编码器。

其中，上述关联的文献分别为：

1.Tang D,Qin B,Liu T(2016)Aspect Level Sentiment Classification withDeep Memory Network.In:Empirical methods in natural language processing,pp214–224

2.Ma D,Li S,Zhang X,Wang H(2017)Interactive attentions networks foraspect-level sentiment classification.In:Proceedings of the 26thInternational Joint Conference on Artificial Intelligence,Melbourne,Australia,19-25August 2017,pp 4068-4074

3.Li X,Bing L,Lam W,Shi B(2018)Transformation Networks for Target-Oriented Sentiment Classification.In Proceedings of ACL,pp 946-956

4.Xu L,Bing L,Lu W,Huang F(2020)Aspect Sentiment Classification withAspect-Specific Opinion Spans.In Proceedings of EMNLP 2020,pp 3561-3567

5.Xu Q,Zhu Li,Dai T,Yan C(2020)Aspect-based sentiment classificationwith multi-attention network.Neurocomputing,388(3):135-143

6.Devlin J,Chang MW,Lee K,Toutanova K(2019)BERT:Pre-training of DeepBidirectional Transformers for Language Understanding.In:Proceedings of the2019Conference of NAACL,pp 4171–4186

7.Song Y,Wang J,Jiang T,Liu Z,Rao Y(2019)Attentional encoder networkfor targeted sentiment classification.In:arXiv preprint arXiv:1902.09314

4.实例对比结果

本实例通过在数据集上报告准确度Accuracy(Acc)和宏平均Macro-average F1(M-F1)来评估各种模型。

表2实验结果，其中带符号“+”的来自原始论文，带符号“*”的来自文献[5]，其他的来自我们的实验，粗体值表示最好的

表2的实验结果表明，本发明提出的一种多任务学***均Macro-average F1(M-F1)结果，显著超过了所有同类方法的结果，这充分说明了本发明方法是可行和优秀的。

5.示例

对于包含双目标实体“Prices”和“food”的情感句子"Prices are higher todine but their food is quite good"，本实例模型首先识别出语境分断符为“but”，然后得到左子句“Prices are higher to dine”的语义表示与右子句“their food is quitegood”的语义，最后对左子句语义和右子句语义分别进行情感分析，得到左目标实体“Prices”的情感极性为“负面”、右目标实体“food”的情感极性为“正面”。