CN115017912A - 一种多任务学习的双目标实体情感分析方法 - Google Patents
一种多任务学习的双目标实体情感分析方法 Download PDFInfo
- Publication number
- CN115017912A CN115017912A CN202210054948.XA CN202210054948A CN115017912A CN 115017912 A CN115017912 A CN 115017912A CN 202210054948 A CN202210054948 A CN 202210054948A CN 115017912 A CN115017912 A CN 115017912A
- Authority
- CN
- China
- Prior art keywords
- emotion
- context
- target entity
- clause
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 145
- 238000004458 analytical method Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000002996 emotional effect Effects 0.000 claims abstract description 28
- 238000003062 neural network model Methods 0.000 claims abstract description 20
- 230000014509 gene expression Effects 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 53
- 238000012549 training Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000009977 dual effect Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 238000003754 machining Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种多任务学习的双目标实体情感分析方法,通过句子语境分断符识别与左右实体情感极性分类的多任务学习,联合训练一个具有句子语境分断符自动识别与双目标实体情感极性自动分类的神经网络模型。其次,使用所训练的神经网络模型识别情感句子中的语境分断符。再者,以得到的语境分断符对情感句子的语义表示进行分离,得到左子句语义表示和右子句语义表示,然后分别对左子句语义表示和右子句语义表示进行情感分析,最终得到双目标实体的情感极性。通过语境分断符使得情感句子中两个目标实体的情感表达相互分离,以更有效的方法解决方面级情感分析问题。
Description
技术领域
本发明涉及自然语言理解中的方面级情感分析,具体是一种多任务学习的双目标实体情感分析方法,可广泛应用于各个领域的方面级情感分析任务中。
背景技术
方面级情感分类的目的是预测多个目标实体在句子或者文档中的极性,它是一项细粒度情感分析的任务,与传统的情感分析任务不同,它是在目标实体上做极性分析(一般为积极、消极、中性三个分类)。方面级情感分类常用在评论人的评论句子中,如:商场购物评论、餐饮评论、电影评论等。方面级情感分类,通常在一个句子中有两个方面词及其相关的情感取向,例如句子"Prices are higher to dine but their food is quite good",对于目标实体“Prices”它是消极的,但对于目标实体“food”它是积极的。
随着人工神经网络技术的不断发展,各种神经网络如Long Short-Term Memory(LSTM)、Deep Memory Network和Google AI Language提出的Bidirectional EncoderRepresentations from Transformers(BERT)语言模型被应用于方面极性分类,从而为其提供端到端的分类方法,而无需任何特征工程工作。然而,当句子中有多个目标实体时,方面极性分类任务需要区分不同方面的情绪。因此,与只有一个整体情感取向的文档级情感分析相比,方面极性分类任务更加复杂,面临的主要挑战是:在对不同目标实体进行情感分析时,如何突出与其相关的情感表达而抑制与它不相关的情感表达。为了实现这一目标,目前针对方面极性分类的深度学习方法提出了多种以方面为中心的情感语义学习方法,例如:基于注意力的语义学习、位置衰减、左右语义学习、方面连接与全局语义学习等,但每种方法都存在一定程度的不相关情感表达的影响。为彻底解决多目标情感分析中不相关情感表达的影响,本发明提出一种多任务学习的双目标实体情感分析方法,通过语境分断符使得情感句子中两个目标实体的情感表达相互分离。
发明内容
本发明公开了一种多任务学习的双目标实体情感分析方法,通过句子语境分断符识别与左右实体情感极性分类的多任务学习,联合训练一个具有句子语境分断符自动识别与双目标实体情感极性自动分类的神经网络模型,以更有效的方法解决方面级情感分析问题。
为实现上述目的,本发明的技术方案为:
一种多任务学习的双目标实体情感分析方法,其特征在于包括以下步骤:
S1.通过句子语境分断符识别与左右实体情感极性分类的多任务学习,联合训练一个具有句子语境分断符自动识别与双目标实体情感极性自动分类的神经网络模型;
S2.使用步骤S1所训练的神经网络模型识别情感句子中的语境分断符;
S3.在步骤S1所训练的神经网络模型中,以步骤S2得到的语境分断符所对应的位置对情感句子的语义表示进行分离,得到左子句语义表示和右子句语义表示,然后分别对左子句语义表示和右子句语义表示进行情感分析,最终得到双目标实体的情感极性;
所述情感句子是指包含左、右两个目标实体的多情感表达句子;
所述语境分断符是指在情感句子中位于左右两个目标实体之间、使得两个目标实体的情感表达相互分离的字词;
所述神经网络模型是指一种基于BERT语言模型的神经网络结构;所述BERT语言模型是指Google AI Language提出的Bidirectional Encoder Representations fromTransformers(BERT)语言模型。
进一步的,所述步骤S1具体包括:
S1.1 BERT语言模型的输入序列s是由情感句子Sen={…,t1,w1,w2,…,wn,t2,…}与BERT编码符号所组成,如下所示:
Mid={w1,w2,...,wn} (2)
其中,[CLS]是BERT分类符的编码,[SEP]是BERT结束符的编码,t1是待分析的左目标实体,t2是待分析的右目标实体,Mid={w1,w2,...,wn}是左右目标实体t1和t2之间的中间字词序列,“…”代表省略的字词序列,m是输入序列s的长度,dw是BERT中字符编码的维度,n是中间字词序列Mid的长度,所述“字词”是指文本经Bert的分词器Tokenzier分离出的语言片段;
S1.2将输入序列s送入BERT语言模型进行处理,得到情感句子Sen的句子语义表示CSen,如下所示:
S1.3按照对应关系,从CSen中抽取出中间字词序列Mid={w1,w2,...,wn}所对应的中间语义表示CMid,如下所示:
S1.4对中间语义表示CMid执行一个softmax线性变换,进行语境分断符的识别,计算过程如下所示:
其中,公式(5)和(6)是对中间语义表示CMid执行softmax线性变换的计算过程,是一个用于语境分断符识别的可学习的参数向量,是一个偏置参数,表示向量的点积运算,是中间字词序列Mid对应的语境分断置信分数向量,w为一个中间字词,Ρ(w|CMid,θ)表示中间字词w为语境分断符的预测概率,表示返回使得Ρ(w|CMid,θ)为最大值的中间字词,w*为计算得出的语境分断符,θ是所有可学习的参数集合,exp(·)表示以e为底的指数函数;
S1.5以语境分断符wsp作为分隔符,形成两个由1、0组成的掩码矩阵,将句子语义表示CSen分离成左子句语义表示Cleft和右子句语义表示Cright,计算过程如下所示:
其中,maskL为用于分离左子句语义的掩码矩阵,maskr为用于分离右子句语义的掩码矩阵,为一个全1向量,为一个全0向量,tonkeni∈Sen为句子Sen中的第i个字词,函数求指定字词在句子Sen中的位置编号,为maskL中的第i列向量,i∈[1,m]且为整数,为maskr中的第j列向量,j∈[1,m]且为整数,表示逐元素相乘;
S1.6分别在左子句语义表示Cleft和右子句语义表示Cright上执行一个多头自注意力的编码过程,得到左子句语义编码C'left和右子句语义编码C'right,计算过程如下所示:
S1.7分别对左子句语义编码C'left和右子句语义编码C'right执行平均池化操作,得到左子句情感向量ZL和右子句情感向量Zr,计算过程如下:
S1.8分别对左子句情感向量ZL和右子句情感向量Zr执行softmax的线性变换,进行情感极性的概率计算,并得出最终的情感极性,计算过程如下:
其中,是情感极性的表示矩阵,是一个偏置向量,dk是情感极性的个数,Y是情感极性的集合,y是一个情感极性,分别是ZL和Zr所对应的情感极性置信分数向量,Ρ(y|ZL,θ)、Ρ(y|Zr,θ)分别表示ZL和Zr在情感极性y上的预测概率,yL、yr分别为最终评定的左情感极性和右情感极性, 分别表示返回使得Ρ(y|ZL,θ)和Ρ(y|Zr,θ)为最大值的情感极性,θ是所有可学习的参数集合,exp(·)表示以e为底的指数函数。
更进一步的,所述步骤S1中,联合训练一个具有句子语境分断符自动识别与双目标实体情感极性自动分类的神经网络模型的联合训练方法为:
(1)分别使用交叉熵损失误差计算语境分断符识别的损失函数和双目标实体情感分析的损失函数,计算过程如下:
其中,Ω是双目标实体情感分析任务的训练句子的集合,|Ω|表示集合Ω的大小,是Ω中第i个训练句子的语境分断符的字词标签,是Ω中第i个训练句子的中间语义表示, 分别是Ω中第i个训练句子的左情感极性标签和右情感极性标签,分别是Ω中第i个训练句子的左子句情感向量和右子句情感向量,ΨMid(θ)是进行语境分断符识别训练时使用的损失函数,ΨL(θ)是进行左目标实体情感分析训练时使用的损失函数,Ψr(θ)是进行右目标实体情感分析训练时使用的损失函数;
其中,α1和α2是两个权重参数;
(3)联合训练目标是最小化公式(27)计算的联合损失误差。
为彻底解决多目标情感分析中不相关情感表达的影响,本发明提出一种多任务学习的双目标实体情感分析方法,通过语境分断符使得情感句子中两个目标实体的情感表达相互分离。首先,通过句子语境分断符识别与左右实体情感极性分类的联合学习,联合训练一个具有句子语境分断符自动识别与双目标实体情感极性自动分类的神经网络模型。其次,使用所训练的神经网络模型识别情感句子中的语境分断符。再者,以得到的语境分断符所对应的位置对情感句子的语义表示进行分离,得到左子句语义表示和右子句语义表示,然后分别对左子句语义表示和右子句语义表示进行情感分析,得到双目标实体的情感极性。
本发明具有以下优点:
(1)通过一个广泛预训练与任务微调的BERT语言模型,为情感句子动态编码,可有效克服方面级情感分析语料集过小的问题;
(2)通过语境分断符使得情感句子中两个目标实体的情感表达相互分离,彻底解决多目标情感分析中不相关情感表达的影响;
(3)通过语境分断符将双目标实体情感分析转换为两个独立的单目标实体情感分析,大幅度地提高了双目标实体情感分析的性能;
(4)通过将包含更多目标实体的情感句子转换为多个双目标实体情感句子,本发明的方法可以应用到各种类型的方面级情感分析任务中。
附图说明
图1是本发明的方法流程示意图。
具体实施方式
以下结合具体实施例对本发明作进一步说明,但本发明的保护范围不限于以下实施例。
设包含左目标实体t1和右目标实体t2的情感句子Sen={…,t1,w1,w2…,wn,t2,…},则通过以下步骤分析双目标实体t1和t2的情感:
S1.通过句子语境分断符识别与左右实体情感极性分类的多任务学习,联合训练一个具有句子语境分断符自动识别与双目标实体情感极性自动分类的神经网络模型;
S2.使用步骤S1所训练的神经网络模型识别情感句子中的语境分断符;
S3.在步骤S1所训练的神经网络模型中,以步骤S2得到的语境分断符所对应的位置对情感句子的语义表示进行分离,得到左子句语义表示和右子句语义表示,然后分别对左子句语义表示和右子句语义表示进行情感分析,最终得到双目标实体的情感极性;
所述情感句子是指包含左、右两个目标实体的多情感表达句子;
所述语境分断符是指在情感句子中位于左右两个目标实体之间、使得两个目标实体的情感表达相互分离的字词;
所述神经网络模型是指一种基于BERT语言模型的神经网络结构;所述BERT语言模型是指Google AI Language提出的Bidirectional Encoder Representations fromTransformers(BERT)语言模型。
进一步的,所述步骤S1具体包括:
S1.1 BERT语言模型的输入序列s是由情感句子Sen={…,t1,w1,w2,…,wn,t2,...}与BERT编码符号所组成,如下所示:
Mid={w1,w2,...,wn} (2)
其中,[CLS]是BERT分类符的编码,[SEP]是BERT结束符的编码,t1是待分析的左目标实体,t2是待分析的右目标实体,Mid={w1,w2,...,wn}是左右目标实体t1和t2之间的中间字词序列,“…”代表省略的字词序列,m是输入序列s的长度,dw是BERT中字符编码的维度,n是中间字词序列Mid的长度,所述“字词”是指文本经Bert的分词器Tokenzier分离出的语言片段;
S1.2将输入序列s送入BERT语言模型进行处理,得到情感句子Sen的句子语义表示CSen,如下所示:
S1.3按照对应关系,从CSen中抽取出中间字词序列Mid={w1,w2,...,wn}所对应的中间语义表示CMid,如下所示:
S1.4对中间语义表示CMid执行一个softmax线性变换,进行语境分断符的识别,计算过程如下所示:
其中,是一个用于语境分断符识别的可学习的参数向量,是一个偏置参数,表示向量的点积运算,是中间字词序列Mid对应的语境分断置信分数向量,w为一个中间字词,Ρ(w|CMid,θ)表示中间字词w为语境分断符的预测概率,表示返回使得Ρ(w|CMid,θ)为最大值的中间字词,w*为计算得出的语境分断符,θ是所有可学习的参数集合,exp(·)表示以e为底的指数函数;
S1.5以语境分断符wsp作为分隔符,形成两个由1、0组成的掩码矩阵,将句子语义表示CSen分离成左子句语义表示Cleft和右子句语义表示Cright,计算过程如下所示:
其中,maskL为用于分离左子句语义的掩码矩阵,maskr为用于分离右子句语义的掩码矩阵,为一个全1向量,为一个全0向量,tonkeni∈Sen为句子Sen中的第i个字词,函数求指定字词在句子Sen中的位置编号,为maskL中的第i列向量,i∈[1,m]且为整数,为maskr中的第j列向量,j∈[1,m]且为整数,表示逐元素相乘;
S1.6分别在左子句语义表示Cleft和右子句语义表示Cright上执行一个多头自注意力的编码过程,得到左子句语义编码C'left和右子句语义编码C'right,计算过程如下所示:
S1.7分别对左子句语义编码C'left和右子句语义编码C'right执行平均池化操作,得到左子句情感向量ZL和右子句情感向量Zr,计算过程如下:
S1.8分别对左子句情感向量ZL和右子句情感向量Zr执行softmax的线性变换,进行情感极性的概率计算,并得出最终的情感极性,计算过程如下:
其中,是情感极性的表示矩阵,是一个偏置向量,dk是情感极性类别的个数,Y是情感极性类别的集合,y是一个情感极性,分别是ZL和Zr所对应的情感极性置信分数向量,Ρ(y|ZL,θ)、Ρ(y|Zr,θ)分别表示ZL和Zr在情感极性y上的预测概率,yL、yr分别为最终评定的左情感极性和右情感极性, 分别表示返回使得Ρ(y|ZL,θ)和Ρ(y|Zr,θ)为最大值的情感极性,θ是所有可学习的参数集合,exp(·)表示以e为底的指数函数。
更进一步的,所述步骤S1中,联合训练一个具有句子语境分断符自动识别与双目标实体情感极性自动分类的神经网络模型的联合训练方法为:
(1)分别使用交叉熵损失误差计算语境分断符识别的损失函数和双目标实体情感分析的损失函数,计算过程如下:
其中,Ω是双目标实体情感分析任务的训练句子的集合,|Ω|表示集合Ω的大小,是Ω中第i个训练句子的语境分断符的字词标签,是Ω中第i个训练句子的中间语义表示, 分别是Ω中第i个训练句子的左情感极性标签和右情感极性标签,分别是Ω中第i个训练句子的左子句情感向量和右子句情感向量,ΨMid(θ)是进行语境分断符识别训练时使用的损失函数,ΨL(θ)是进行左目标实体情感分析训练时使用的损失函数,Ψr(θ)是进行右目标实体情感分析训练时使用的损失函数;
其中,α1和α2是两个权重参数;
(3)联合训练目标是最小化公式(27)计算的联合损失误差。
本实施例通过语境分断符使得情感句子中两个目标实体的情感表达相互分离,彻底解决多目标情感分析中不相关情感表达的影响。
应用实例
1.实例环境
本实例使用Google AI Language在文献“Devlin J,Chang MW,Lee K,ToutanovaK(2019)BERT:Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding.In:Proceedings of the 2019Conference of NAACL,pp 4171–4186”中提出并开发的BERT-BASE版本作为BERT编码层的预训练模型,该BERT模型包括12层Transformers,768个隐藏单元,12个多头,以及总参数=110M);本实例采用的多头注意力来源于文献“Vaswani A,Shazeer N,Parmar N,Uszkoreit J,Jones L,Gomez AN,KaiserL,Polosukhin I(2017)Attention Is All You Need.In:31st Conference on NeuralInformation Processing Systems(NIPS 2017),pp 5998–6008”中,设置了注意力的头数为12;为了最小化损失值,本实例使用了Adam Optimizer优化器,并将学习率设置为2e-5,batch size大小设置为16;在训练期间,本实例将epochs设置为10。
2.数据集
本实例使用在国际上广泛使用的SemEval-2014task 4数据集作为评测基准,该数据集于2014年在第八届国际语义评估研讨会上所公布。它提供了来自餐厅(Rest)和笔记本电脑(Lap)领域的两个评论数据集。SemEval-2014task 4数据集中的每个样本由一个评论句子、一些观点目标和对观点目标的相应情感极性组成。数据集详细情况如表1所示。
表1数据集详细情况
3.对比方法
本实例将本发明的模型与5个非BERT的方法和4个基于BERT的方法进行比较,对比方法如下所示:
(1)非BERT的方法
·MenNet[1]使用多层记忆网络结合注意力来捕捉每个上下文词对方面极性分类的贡献。
·IAN[2]采用两个LSTM网络分别获取特定方面和上下文的特征,然后交互生成它们的注意力向量,最后将这两个注意力向量连接起来进行方面极性分类。
·TNet-LF[3]使用CNN网络从基于双向LSTM网络的单词表示中提取重要特征,并提出一种基于相关性的机制来生成句子中单词的特定目标表示。该模型还采用了位置衰减技术。
·MCRF-SA[4]提出了一个基于多个CRF的简洁注意力模型,该模型可以提取特定于方面的意见跨度。该模型还采用了位置衰减和方面连接技术。
·MAN[5]在多层转换器编码器之上构建了两个具有位置函数的注意力:一个用于生成上下文和方面之间关系的交互式注意力,以及一个基于转换器编码器的方面到上下文的局部注意力。
(2)基于BERT的方法
·BERT-BASE[6]是Google AI Language开发的BERTBASE版本,采用单句输入方式:“[CLS]+评论句+[SEP]”进行方面极性分类。
·BERT-SPC[7]是预训练BERT模型在句子对分类(SPC)任务中的应用。BERT-SPC应用于方面极性分类任务的输入方式是:“[CLS]+评论句+[SEP]+方面目标+[SEP]”。
·AEN-BERT[7]在BERT编码器之上构建了两个多头注意力机制:一个多头自注意力机制来建模上下文,一个方面到上下文多头注意力机制来建模方面目标。
·MAN-BERT是MAN[5]模型的变体。本实例使用BERT模型来替换MAN[5]中的Transformer编码器。
其中,上述关联的文献分别为:
1.Tang D,Qin B,Liu T(2016)Aspect Level Sentiment Classification withDeep Memory Network.In:Empirical methods in natural language processing,pp214–224
2.Ma D,Li S,Zhang X,Wang H(2017)Interactive attentions networks foraspect-level sentiment classification.In:Proceedings of the 26thInternational Joint Conference on Artificial Intelligence,Melbourne,Australia,19-25August 2017,pp 4068-4074
3.Li X,Bing L,Lam W,Shi B(2018)Transformation Networks for Target-Oriented Sentiment Classification.In Proceedings of ACL,pp 946-956
4.Xu L,Bing L,Lu W,Huang F(2020)Aspect Sentiment Classification withAspect-Specific Opinion Spans.In Proceedings of EMNLP 2020,pp 3561-3567
5.Xu Q,Zhu Li,Dai T,Yan C(2020)Aspect-based sentiment classificationwith multi-attention network.Neurocomputing,388(3):135-143
6.Devlin J,Chang MW,Lee K,Toutanova K(2019)BERT:Pre-training of DeepBidirectional Transformers for Language Understanding.In:Proceedings of the2019Conference of NAACL,pp 4171–4186
7.Song Y,Wang J,Jiang T,Liu Z,Rao Y(2019)Attentional encoder networkfor targeted sentiment classification.In:arXiv preprint arXiv:1902.09314
4.实例对比结果
本实例通过在数据集上报告准确度Accuracy(Acc)和宏平均Macro-average F1(M-F1)来评估各种模型。
表2实验结果,其中带符号“+”的来自原始论文,带符号“*”的来自文献[5],其他的来自我们的实验,粗体值表示最好的
表2的实验结果表明,本发明提出的一种多任务学***均Macro-average F1(M-F1)结果,显著超过了所有同类方法的结果,这充分说明了本发明方法是可行和优秀的。
5.示例
对于包含双目标实体“Prices”和“food”的情感句子"Prices are higher todine but their food is quite good",本实例模型首先识别出语境分断符为“but”,然后得到左子句“Prices are higher to dine”的语义表示与右子句“their food is quitegood”的语义,最后对左子句语义和右子句语义分别进行情感分析,得到左目标实体“Prices”的情感极性为“负面”、右目标实体“food”的情感极性为“正面”。
Claims (3)
1.一种多任务学习的双目标实体情感分析方法,其特征在于包括以下步骤:
S1.通过句子语境分断符识别与左右实体情感极性分类的多任务学习,联合训练一个具有句子语境分断符自动识别与双目标实体情感极性自动分类的神经网络模型;
S2.使用步骤S1所训练的神经网络模型识别情感句子中的语境分断符;
S3.在步骤S1所训练的神经网络模型中,以步骤S2得到的语境分断符所对应的位置对情感句子的语义表示进行分离,得到左子句语义表示和右子句语义表示,然后分别对左子句语义表示和右子句语义表示进行情感分析,最终得到双目标实体的情感极性;
所述情感句子是指包含左、右两个目标实体的多情感表达句子;
所述语境分断符是指在情感句子中位于左右两个目标实体之间、使得两个目标实体的情感表达相互分离的字词;
所述神经网络模型是指一种基于BERT语言模型的神经网络结构;所述BERT语言模型是指Google AI Language提出的Bidirectional Encoder Representations fromTransformers(BERT)语言模型。
2.根据权利要求1所述的一种多任务学习的双目标实体情感分析方法,其特征在于:
所述步骤S1具体包括:
S1.1 BERT语言模型的输入序列s是由情感句子Sen={…,t1,w1,w2,…,wn,t2,…}与BERT编码符号所组成,如下所示:
Mid={w1,w2,...,wn} (2)
其中,[CLS]是BERT分类符的编码,[SEP]是BERT结束符的编码,t1是待分析的左目标实体,t2是待分析的右目标实体,Mid={w1,w2,...,wn}是左右目标实体t1和t2之间的中间字词序列,“…”代表省略的字词序列,m是输入序列s的长度,dw是BERT中字符编码的维度,n是中间字词序列Mid的长度,所述“字词”是指文本经Bert的分词器Tokenzier分离出的语言片段;
S1.2将输入序列s送入BERT语言模型进行处理,得到情感句子Sen的句子语义表示CSen,如下所示:
S1.3按照对应关系,从CSen中抽取出中间字词序列Mid={w1,w2,...,wn}所对应的中间语义表示CMid,如下所示:
S1.4对中间语义表示CMid执行一个softmax线性变换,进行语境分断符的识别,计算过程如下所示:
其中,是一个用于语境分断符识别的可学习的参数向量,是一个偏置参数,表示向量的点积运算,是中间字词序列Mid对应的语境分断置信分数向量,w为一个中间字词,Ρ(w|CMid,θ)表示中间字词w为语境分断符的预测概率,表示返回使得Ρ(w|CMid,θ)为最大值的中间字词,w*为计算得出的语境分断符,θ是所有可学习的参数集合,exp(·)表示以e为底的指数函数;
S1.5以语境分断符wsp作为分隔符,形成两个由1、0组成的掩码矩阵,将句子语义表示CSen分离成左子句语义表示Cleft和右子句语义表示Cright,计算过程如下所示:
其中,maskL为用于分离左子句语义的掩码矩阵,maskr为用于分离右子句语义的掩码矩阵,为一个全1向量,为一个全0向量,tonkeni∈Sen为句子Sen中的第i个字词,函数求指定字词在句子Sen中的位置编号,为maskL中的第i列向量,i∈[1,m]且为整数,为maskr中的第j列向量,j∈[1,m]且为整数,表示逐元素相乘;
S1.6分别在左子句语义表示Cleft和右子句语义表示Cright上执行一个多头自注意力的编码过程,得到左子句语义编码C'left和右子句语义编码C'right,计算过程如下所示:
S1.7分别对左子句语义编码C'left和右子句语义编码C'right执行平均池化操作,得到左子句情感向量ZL和右子句情感向量Zr,计算过程如下:
S1.8分别对左子句情感向量ZL和右子句情感向量Zr执行softmax的线性变换,进行情感极性的概率计算,并得出最终的情感极性,计算过程如下:
3.根据权利要求1所述的一种多任务学习的双目标实体情感分析方法,其特征在于:
所述步骤S1中,联合训练一个具有句子语境分断符自动识别与双目标实体情感极性自动分类的神经网络模型的联合训练方法为:
(1)分别使用交叉熵损失误差计算语境分断符识别的损失函数和双目标实体情感分析的损失函数,计算过程如下:
其中,Ω是双目标实体情感分析任务的训练句子的集合,|Ω|表示集合Ω的大小,是Ω中第i个训练句子的语境分断符的字词标签,是Ω中第i个训练句子的中间语义表示, 分别是Ω中第i个训练句子的左情感极性标签和右情感极性标签,分别是Ω中第i个训练句子的左子句情感向量和右子句情感向量,ΨMid(θ)是进行语境分断符识别训练时使用的损失函数,ΨL(θ)是进行左目标实体情感分析训练时使用的损失函数,Ψr(θ)是进行右目标实体情感分析训练时使用的损失函数;
其中,α1和α2是两个权重参数;
(3)联合训练目标是最小化公式(27)计算的联合损失误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210054948.XA CN115017912A (zh) | 2022-01-18 | 2022-01-18 | 一种多任务学习的双目标实体情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210054948.XA CN115017912A (zh) | 2022-01-18 | 2022-01-18 | 一种多任务学习的双目标实体情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115017912A true CN115017912A (zh) | 2022-09-06 |
Family
ID=83066454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210054948.XA Pending CN115017912A (zh) | 2022-01-18 | 2022-01-18 | 一种多任务学习的双目标实体情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115017912A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115618884A (zh) * | 2022-11-16 | 2023-01-17 | 华南师范大学 | 基于多任务学习的言论分析方法、装置以及设备 |
CN117633239A (zh) * | 2024-01-23 | 2024-03-01 | 中国科学技术大学 | 一种结合组合范畴语法的端到端方面情感识别方法 |
-
2022
- 2022-01-18 CN CN202210054948.XA patent/CN115017912A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115618884A (zh) * | 2022-11-16 | 2023-01-17 | 华南师范大学 | 基于多任务学习的言论分析方法、装置以及设备 |
CN115618884B (zh) * | 2022-11-16 | 2023-03-10 | 华南师范大学 | 基于多任务学习的言论分析方法、装置以及设备 |
CN117633239A (zh) * | 2024-01-23 | 2024-03-01 | 中国科学技术大学 | 一种结合组合范畴语法的端到端方面情感识别方法 |
CN117633239B (zh) * | 2024-01-23 | 2024-05-17 | 中国科学技术大学 | 一种结合组合范畴语法的端到端方面情感识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN113239181B (zh) | 基于深度学习的科技文献引文推荐方法 | |
Du et al. | Convolution-based neural attention with applications to sentiment classification | |
CN111259127B (zh) | 一种基于迁移学习句向量的长文本答案选择方法 | |
Shi et al. | Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval | |
CN114169330A (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
CN115017912A (zh) | 一种多任务学习的双目标实体情感分析方法 | |
CN113051380B (zh) | 信息生成方法、装置、电子设备和存储介质 | |
CN115796182A (zh) | 一种基于实体级跨模态交互的多模态命名实体识别方法 | |
CN116561305A (zh) | 基于多模态和transformer的假新闻检测方法 | |
CN115687567A (zh) | 一种不需要标注数据的短文本搜索相似长文本方法 | |
CN114579707A (zh) | 一种基于bert神经网络与多语义学习的方面级情感分析方法 | |
Barse et al. | Cyber-Trolling Detection System | |
CN114911906A (zh) | 一种基于杂合神经网络的方面级情感分析方法 | |
Nia et al. | A framework for a large-scale B2B recommender system | |
CN115618875A (zh) | 一种基于命名实体识别的舆情评分方法、***及存储介质 | |
Zouidine et al. | A comparative study of pre-trained word embeddings for Arabic sentiment analysis | |
Jin et al. | A review of text sentiment analysis methods and applications | |
Affi et al. | Arabic named entity recognition using variant deep neural network architectures and combinatorial feature embedding based on cnn, lstm and bert | |
CN113157892A (zh) | 用户意图处理方法、装置、计算机设备及存储介质 | |
Sharma et al. | A framework for image captioning based on relation network and multilevel attention mechanism | |
Syaputra et al. | Improving mental health surveillance over Twitter text classification using word embedding techniques | |
Prajapati et al. | Automatic Question Tagging using Machine Learning and Deep learning Algorithms | |
Ranjan et al. | An Optimized Deep ConvNet Sentiment Classification Model with Word Embedding and BiLSTM Technique | |
Chen et al. | Multi-Label Text Classification Based on BERT and Label Attention Mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |