CN114936623A - 一种融合多模态数据的方面级情感分析方法 - Google Patents
一种融合多模态数据的方面级情感分析方法 Download PDFInfo
- Publication number
- CN114936623A CN114936623A CN202210415940.1A CN202210415940A CN114936623A CN 114936623 A CN114936623 A CN 114936623A CN 202210415940 A CN202210415940 A CN 202210415940A CN 114936623 A CN114936623 A CN 114936623A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- vector
- image
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 57
- 238000004458 analytical method Methods 0.000 title claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims abstract description 38
- 230000015654 memory Effects 0.000 claims abstract description 34
- 230000004927 fusion Effects 0.000 claims abstract description 31
- 238000002372 labelling Methods 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 109
- 238000000034 method Methods 0.000 claims description 21
- 230000003993 interaction Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 15
- 230000007246 mechanism Effects 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000002156 mixing Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 230000000295 complement effect Effects 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract description 2
- 230000002996 emotional effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种融合多模态数据的方面级情感分析方法,首先进行数据预处理,文本和图像格式调整到适应神经网络的输入要求;其次特征提取,词嵌入之后使用Bi‑LSTM提取文本特征,Resnet50网络提取图像特征;接下来多模态方面提取和对齐,使用序列标注方法从文本中提取方面术语,使用加入注意力和Point‑wise卷积运算的记忆网络进行图像区域和方面词的隐式对齐;然后基于位置注意力的文本特征,高斯建模上下文显式位置,记忆网络提取方面词敏感的文本表示;接着进行多模态数据融合,融合判别矩阵融合多模态数据;最终进行情感分类,利用融合后的特征信息进行情感分类。本发明使用多模态数据进行方面级情感分析,提取多模态互补信息,提高了情感分析任务的准确率。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种方面级情感分析方法。
背景技术
近年来,随着信息技术的飞速发展以及个人电脑、手机的全面普及使得互联网上用户生成的数据量***性增长。海量用户活跃在各类应用平台上,对社会热点新闻发表己见,对所消费的产品或者服务发表评价,将自己的个人观点和体验以文本、图片和视频的方式分享给其他人,给后续用户提供参考意见。这些带有丰富数据的观点和评价蕴含着用户所表达的情感信息且十分具有影响力,人们希望通过对从网络中获取的数据进行分析和处理,从而得到有价值的信息。
以往文档级别和句子级别的情感分析只能分析出整个文档或者整个句子表达的一种情感,但是在真实的场景中,一个热点事件或者一件商品会存在多个评价维度,而一个文档或句子中也可能同时包含多个方面并且用户对这些方面的情感不一致。方面级情感分析(Aspect-Based Sentiment Analysis,ABSA)就是分析用户对于每个实体或者实体属性的情感极性,更加全面的考虑了影响句子情感的因素。例如,句子“显示器很清晰,但是键盘敲起来让人很不舒服”描述了“显示器”和“键盘”两个方面,对于这两个方面的情感极性分别是积极和消极。现有ABSA方法主要依赖于文本内容,而当今文本不仅仅包含文本,还包含许多其他的数据源。使用智能手机和平板可以随时随地拍照和录像,互联网上用户生成更多的多模态内容。Flickr和Instagram这类以图片分享为主、文字为辅的新型社交平台的兴起也表明人们越来越倾向于使用图片来表达自己的情感态度。数据里的图像信息和文本信息通常具有协同作用,关联的图像可以和文本可以互相补充,增强对方面的情感分析。
目前方面级情感分析方法主要依赖文本,忽略了多模态数据,这样容易丢失很多有价值的信息。因此需要一种新的方面级情感分类方法来克服现有技术忽略的问题。
发明内容
为了克服现有技术的不足,本发明提供了一种融合多模态数据的方面级情感分析方法,首先进行数据预处理,文本和图像格式调整到适应神经网络的输入要求;其次特征提取,词嵌入之后使用Bi-LSTM提取文本特征,Resnet50网络提取图像特征;接下来多模态方面提取和对齐,使用序列标注方法从文本中提取方面术语,使用加入注意力和Point-wise卷积运算的记忆网络进行图像区域和方面词的隐式对齐;然后基于位置注意力的文本特征,高斯建模上下文显式位置,记忆网络提取方面词敏感的文本表示;接着进行多模态数据融合,融合判别矩阵融合多模态数据;最终进行情感分类,利用融合后的特征信息进行情感分类。本发明使用多模态数据进行方面级情感分析,提取多模态互补信息,提高了情感分析任务的准确率。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:文本和图像预处理;
进行单词的大小写转换,去停用词并规范输入文本的格式;将图像等比缩放到固定范围,然后进行填充分割成多个大小相等的区域,最后对图像进行归一化处理,保证输入网络模型的图片维度为224*224*3;
步骤2:文本和图像特征提取;
针对文本数据,先使用词向量进行单词嵌入,然后使用Bi-LSTM提取文本和方面词特征;针对图像数据,对分割后的图像,使用除去全连接层的Resnet50网络提取图像特征,然后使用线性变换将图像特征映射到文本特征空间;
步骤3:多模态方面提取和对齐;
使用BIO标注体系标注文本,然后使用序列标注方法提取文本中的方面词;使用具有多个计算层的记忆网络进行多模态数据的隐式对齐,找到与提取的文本中的方面词相对应的图像区域;
步骤4:基于位置注意力的文本特征,并使用高斯分布建模单词的相对显式位置;针对不同的方面词,使用具有多个计算层的记忆网络在上下文中提取与目标相关的特征进行分析,在每个计算层,引入多头注意力机制监督文本向量生成;
步骤5:多模态数据融合;
融合方面词图像特征和文本特征,使用融合判别矩阵度量模态数据之间的相关度,使用点积计算在数值和方向上度量相似性,获得图像特征相关的文本部分和与文本最相关的图像特征;
步骤6:情感分类;
特征融合之后进行拼接,使用softmax分类器输出情感类别的概率分布,并在模型训练时加入标签平滑正则化项提供模型的泛化性,提供模型对新数据的预测能力。
优选地,所述词向量为GloVe词向量或者BERT预训练词向量。
优选地,所述步骤2具体为:
步骤2-1:给定文本序列和使用序列标注方法提取到的方面词序列,使用GloVe词向量或者BERT预训练词向量将单词转换成稠密词向量,然后使用双向长短期记忆网络Bi-LSTM提取文本特征:
其中,表示文本的词嵌入向量,表示方面词的词嵌入向量,i和j分别表示进行到第 i或者第j个单词,n表示文本长度,m表示方面词长度,表示文本单词向量的反向LSTM,表示方面词单词向量的反向LSTM,得到文本特征向量和方面词特征向量和
步骤2-2:对于分割后的输入图像I={I1,I2,…,Ik},使用除去全连接层的Resnet50 网络提取图像特征,mv=ResNet(I),将其使用线性变换V=Wvmv变换到文本的特征空间,得到映射到文本特征空间的图像特征信息V={v1,v2,…,vk},Wv是可学习参数。
优选地,所述步骤3具体为:
步骤3-1:方面提取,提取情感分析对象即方面词;首先使用BIO标注体系标记文本,然后使用序列标注方法提取文本中的方面词,给定文本序列该序列共包含n个单词,提取到一个或多个方面词序列一个序列中包含一个或多个单词;
步骤3-2:对方面词和图像进行多模态的隐式方面对齐,使用具有多个计算层的记忆网络量化图像区域和方面词的交互,查找实例子组件之间的对应关系;首先将方面词特征作为输入进行转换,在第一层,执行以下操作:
pw(1)=conv(σ(conv(ha,I),I))
其中,pw代表是转换后的特征信息,(1)表示第一层,ha为方面词词向量平均值,σ表示可学习参数,conv(.)表示代表卷积核为1的卷积运算;
步骤3-3:使用注意力机制监督其与图像特征的交互;
在每一层,使用如下方法监督方面词与图像的交互:
优选地,所述步骤4基于位置注意力的文本特征表示如下:
步骤4-1:使用高斯分布建模上下文词与方面词的相对显式位置,赋予距离方面词较近的单词更高的权重,权重定义如下:
其中,l表示上下文单词与方面词之间的距离,pos(.)表示文本中单词的位置,a表示文本中方面词的位置,表示文本单词,p(.)表示影响概率,σ表示传播范围,为可调参数;将影响概率作为权重,对文本经过Bi-LSTM输出的特征向量进行加权,获得最终的上下文输出
步骤4-2:上下文与方面词交互,给定文本特征Hs和方面词表征向量ha,使用基于多头注意力MHA的记忆网络,在每一层以方面词作为查询,使用多头注意力机制监督带有方面信息的文本向量生成:
oi=Attention(Hs,ha),i∈[1,t]
MHA(Hs,ha)=[o1;o2;…;ot]*Wmh
其中oi表示第i个head的注意力输出,“;”表示向量拼接,Wmh为可学习参数,t表示head的数量;
步骤4-3:将MHA的输出和方面词特征向量的线性变换相加,作为下一个计算层的输入,最后一个计算层的输出向量ms即为方面词敏感的文本表示。
优选地,所述步骤5中多模态数据融合,基于方面词敏感的图像特征mv和文本特征ms,使用融合判别矩阵度量两种模态数据之间的相关度,具体如下:
步骤5-1:融合判别矩阵计算如下:
其中D为相似度矩阵,Dij表示第i个单词和图片的第j个区域的相关度,Wfd是可学习的参数矩阵,*代表元素积;
步骤5-2:对D的每一行进行最大池化:
步骤5-3:使用Softmax进行归一化计算得到权重向量βsv,即上下文词相对图片区域的最终注意力值,进而获得上下文词关注向量msv:
基于步骤5-3相同的方法,利用相似度矩阵进一步度量与句子相关的图像区域,获得图像相对上下文的关注向量mvs;
步骤5-4:将方面词敏感的图像特征mv、方面敏感的文本特征ms与文本和图像的关注向量msv和mvs进行拼接m=[ms;mv;msv;mvs],得到最终的编码表征向量m。
优选地,所述步骤6情感分类具体如下:
步骤6-1:利用融合后的特征信息进行情感分析,通过softmax分类器输出所属情感类别的概率分布,分类函数表示为y′=softmax(Ws*m+bs),其中Ws和bs是分类层的权重向量和偏置矩阵;
步骤6-3:实现融合多模态数据的方面级情感分析。
本发明的有益效果如下:
本发明基于文本和图像两种模态的数据进行方面级情感分析,相对于使用单模态数据的网络能更好地捕捉方面词的描述信息,提高了分类的准确率。并且,本发明提供的方法在网络舆情分析、个性化商品推荐和精准市场营销等领域具有广阔的应用场景。
附图说明
图1为本发明方法的流程示意图。
图2为本发明方法的框架图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明旨在提供一种针对文本和图像数据的方面级情感分析模型,证明了方面级情感分析中多模态数据之间互补性的存在,解决传统方面级情感分析方法忽略了多模态数据的问题。
为解决上述问题,本发明提供了一种融合多模态数据的方面级情感分析方法,结合图像和文本两种典型数据模态开展研究,采取的技术方案分为三个部分。
第一个部分,是多模态数据的对齐。为了获得相对于特定方面词敏感的图像部分,即发现与文本方面词语义相关的图像区域,设计了一种层次化多模态数据的关联计算模型,刻画方面词和图像区域之间的交互,在不同计算层使用点卷积和Attention机制量化方面特征和图像区域的对齐程度,获得方面词和图像区域的相关性,捕获并持续更新二者之间的交互影响;这一部分主要包括文本和图像预处理、文本和图像特征提取、多模态方面提取和对齐。
1)对于文本信息,采用多种词嵌入方式或者方式,将单词映射到向量空间。对于图像信息,首先进行预处理以消除图像中的无关信息,将图片缩放保持长宽比不变,然后进行填充分割,并将划分后的每一块大小调整到适应神经网络的输入要求。
2)使用BIO标注体系标记文本,用序列标注方法提取文本中的方面术语。从预处理后的数据将语料划分为训练集、验证集和测试集。提取文本特征,使用Bi-LSTM 提取文本和方面词特征信息,使用预训练Resnet50模型提取图片特征,并将图像特征投影到文本特征空间。
3)采用隐式对齐的方式,使用具有多个计算层的记忆网络提取图像和方面术语之间的交互信息,每一层采用注意力机制进行监督。
第二个部分,本发明针对现有基于分析方法对方面词信息利用不足的问题,构建融合方面词位置信息的多计算层记忆网络模型。自适应地关注方面词和上下文词之间的交互,获得方面词敏感的上下文信息。
1)在采用Bi-LSTM从左到右和从右到左获取文本特征的基础上,利用位置Attention机制指导带有方面信息的文本向量生成,使用高斯分布给距离方面词更近的上下文词赋予更高的权重,并将权重系数与上下文的单词向量相乘。
2)在每个计算层加入MHA多头注意力,将参与计算的向量映射到不同的子表征空间。
第三个部分,设计了融合判别矩阵以度量不同模态之间的相似性。
1)将图像敏感的视觉特征和文本特征的每一个元素使用点积计算得到相似度矩阵,矩阵的任一元素表示一个上下文词和一个图片区域的相似性。
2)将三个部分得到的特征拼接起来,通过softmax层对情感进行分类,进而得到情感结果。
一种融合多模态数据的方面级情感分析方法,包括如下步骤:
步骤1:文本和图像预处理;
进行单词的大小写转换,去停用词并规范输入文本的格式;将图像等比缩放到固定范围,然后进行填充分割成多个大小相等的区域,最后对图像进行归一化处理,保证输入网络模型的图片维度为224*224*3;
步骤2:文本和图像特征提取;
针对文本数据,先使用GloVe词向量或者BERT预训练词向量进行单词嵌入,然后使用Bi-LSTM提取文本和方面词特征;针对图像数据,对分割后的图像,使用除去全连接层的Resnet50网络提取图像特征,然后使用线性变换将图像特征映射到文本特征空间;
步骤2-1:给定文本序列和使用序列标注方法提取到的方面词序列,使用GloVe 词向量或者BERT预训练词向量将单词转换成稠密词向量,然后使用双向长短期记忆网络Bi-LSTM提取文本特征:
步骤2-2:对于分割后的输入图像I={I1,I2,…,Ik},使用除去全连接层的Resnet50 网络提取图像特征,mv=ResNet(I),将其使用线性变换V=Wvmv变换到文本的特征空间,得到映射到文本特征空间的图像特征信息V={v1,v2,…,vk};
步骤3:多模态方面提取和对齐;
使用BIO标注体系标注文本,然后使用序列标注方法提取文本中的方面词;使用具有多个计算层的记忆网络进行多模态数据的隐式对齐,找到与提取的文本中的方面词相对应的图像区域;
步骤3-1:方面提取,提取情感分析对象即方面词;首先使用BIO标注体系标记文本,然后使用序列标注方法提取文本中的方面词,给定文本序列该序列共包含n个单词,提取到一个或多个方面词序列一个序列中包含一个或多个单词;
步骤3-2:对方面词和图像进行多模态的隐式方面对齐,使用具有多个计算层的记忆网络量化图像区域和方面词的交互,查找实例子组件之间的对应关系;在每一层,执行以下操作:
pw(1)=conv(σ(conv(ha,I),I))
其中,qw代表Point-wise卷积运算,将上一特征图在深度方向上进行加权组合,生成新特征图,ha为方面词词向量平均值;
步骤3-3:使用注意力机制监督其与图像特征的交互;
在每一层,使用如下方法监督方面词与图像的交互:
其中,得到方面与图像区域的相关性向量v(j),将其与pw(j)求和得到m(j),表示这一层更新的记忆,最后一层记忆向量为mv表示方面词敏感的图像特征;
步骤4:基于位置注意力的文本特征,并使用高斯分布建模单词的相对显式位置;针对不同的方面词,使用具有多个计算层的记忆网络在上下文中提取与目标相关的特征进行分析,在每个计算层,引入多头注意力机制监督文本向量生成;
步骤4-1:使用高斯分布建模上下文词与方面词的相对显式位置,赋予距离方面词较近的单词更高的权重,权重定义如下:
步骤4-2:上下文与方面词交互,给定文本特征Hs和方面词表征向量ha,使用基于多头注意力MHA的记忆网络,在每一层以方面词作为查询,使用多头注意力机制监督带有方面信息的文本向量生成:
oi=Attention(Hs,ha),i∈[1,t]
MHA(Hs,ha)=[o1;o2;…;ot]*Wmh
其中oi表示第i个head的注意力输出,“;”表示向量拼接,Wmh为可学习参数
步骤4-3:将MHA的输出和方面词特征向量的线性变换相加,作为下一个计算层的输入,最后一个计算层的输出向量ms即为方面词敏感的文本表示;
步骤5:多模态数据融合;
融合方面词图像特征和文本特征,使用融合判别矩阵度量模态数据之间的相关度,使用点积计算在数值和方向上度量相似性,获得图像特征相关的文本部分和与文本最相关的图像特征;
基于方面词敏感的图像特征mv和文本特征ms,使用融合判别矩阵度量两种模态数据之间的相关度,具体如下:
步骤5-1:融合判别矩阵计算如下:
其中D为相似度矩阵,Dij表示第i个单词和图片的第j个区域的相关度,Wfd是可学习的参数矩阵,*代表元素积;
步骤5-2:对D的每一行进行最大池化:
步骤5-3:使用Softmax进行归一化计算得到权重向量βsv,即上下文词相对图片区域的最终注意力值,进而获得上下文词关注向量msv:
基于步骤5-3相同的方法,利用相似度矩阵进一步度量与句子相关的图像区域,获得图像相对上下文的关注向量mvs;
步骤5-4:将方面词敏感的图像特征mv、方面敏感的文本特征ms与文本和图像的关注向量msv和mvs进行拼接m=[ms;mv;msv;mvs],得到最终的编码表征向量m;
步骤6:情感分类;
特征融合之后进行拼接,使用softmax分类器输出情感类别的概率分布,并在模型训练时加入标签平滑正则化项提供模型的泛化性,提供模型对新数据的预测能力;
步骤6-1:利用融合后的特征信息进行情感分析,通过softmax分类器输出所属情感类别的概率分布,分类函数表示为y′=softmax(Ws*m+bs),其中Ws和bs是分类层的权重向量和偏置矩阵;
步骤6-3:实现融合多模态数据的方面级情感分析。
具体实施例:
对于建立融合多模态数据的方面级情感分析模型,具体地,如图2所示,方面级情感分析模型分为多个模块,包括词嵌入模块对应为(Input Embedding Layer)、特征提取模块对应为Feature Extraction Layer、方面词敏感的记忆网络对应为Aspect- sensitiveMemory Network、方面词敏感的图像网络对应为Aspect-sensitive Visual Network、融合判别矩阵对应为Fusion Discriminant Matrix Layer、输出层对应为Output Layer。从Input Embedding Layer输入文本和图像,其中文本包括方面词及其上下文,经过FeatureExtraction Layer得到文本和图像的对应编码,而后方面词和上下文的对应编码进入Aspect-sensitive Memory Network,方面词和图像的对应编码进入Aspect- sensitiveVisual Network,进一步提取特定于方面词的文本特征和图像特征;通过FusionDiscriminant Matrix Layer对两种模态的特征进行融合。
结合图1~图2,一种融合多模态数据的方面级情感分析方法的具体实施步骤如下:
S1,文本和图像预处理。
S11,进行单词的大小写转换,简单的拼写检查和缩略词修正之后,进行去停用词,规范输入文本的格式。
S12,图像大小需要适应神经网络的输入要求,随机地将图片等比缩放到[256,480] 范围内,然后将缩放得到的图片填充到一个正方形中,并将其分成K个大小相等的区域,对于划分后的每一块区域,将其调整为224*224*3矩阵。最后,对所有图像进行归一化处理。
S2,文本和图像特征提取。
S21,给定文本序列和提取到的方面词序列,使用GloVe词向量或者BERT预训练词向量将单词转换成稠密词向量,然后使用双向长短期记忆网络(Bidirectional LongShort-Term Memory Network,简称Bi-LSTM)提取文本特征。
S22,对于分割后的输入图像I={I1,I2,…,Ik},使用除去全连接层的Resnet50网络提取图像特征,mv=ResNet(I),将其使用线性变换V=Wvmv变换到文本的特征空间,得到映射到文本特征空间的图像特征信息V={v1,v2,…,vk}。
S3,多模态方面提取和对齐。
S31,方面提取,提取情感分析对象即方面术语,例如用户文本“这家的菜很一般,但是服务员态度很好”中包含两个方面术语“菜”和“服务员”。首先使用BIO标注体系标记文本,然后使用序列标注方法提取文本中的方面词。给定文本序列 该序列共包含n个单词,提取到一个或多个方面词序列 该一个序列包含一个或多个单词。
S32,针对不同的方面词可能对应图片的不同区域,对方面词和图像进行多模态的隐式方面对齐,使用具有多个计算层的记忆网络量化图像区域和方面词的交互,查找实例子组件之间的对应关系。在每一层,执行以下操作。
pw(1)=conv(σ(conv(ha,I),I))
pw代表Point-wise卷积运算,将上一特征图在深度方向上进行加权组合,生成新特征图,ha为方面词词向量平均值。
S33,使用注意力机制监督其与图像特征的交互。
在每一层,使用如下步骤监督方面词与图像的交互:
得到方面与图像区域的相关性向量v(j),将其与pw(j)求和得到m(j),表示这一层更新的记忆,最后一层记忆向量为mv表示方面词敏感的图像特征。
S4,基于位置注意力的文本特征。
S41,使用高斯分布来建模上下文词与方面词的相对显式位置,赋予距离方面词较近的单词更高的权重,权重定义如下。
S42,上下文与方面词交互,给定文本特征Hs和方面词表征向量ha,基于多头注意力(Multi-head Attention,MHA)的记忆网络,在每一层以方面词作为查询,使用多头注意力机制监督带有方面信息的文本向量生成。
oi=Attention(Hs,ha),i∈[1,t]
MHA(Hs,ha)=[o1;o2;…;ot]*Wmh
其中oi表示第i个head的注意力输出,“;”表示向量拼接,Wmh为可学习参数。
S43,将MHA的输出和方面词特征向量的线性变换相加,作为下一个计算层的输入。最后一个计算层的输出向量ms即为方面词敏感的文本表示。
S5,多模态数据融合,基于方面词敏感的图像特征mv和文本特征ms,使用融合判别矩阵度量两种模态数据之间的相关度。
S51,融合判别矩阵计算如下。
其中D为相似度矩阵,Dij表示第i个单词和图片的第j个区域的相关度,Wfd是可学习的参数矩阵,*代表元素积。
S52,对D的每一行进行最大池化。
S53,使用Softmax进行归一化计算得到权重向量βsv(即上下文词相对图片区域的最终注意力值),进而获得上下文词关注向量msv。
基于相同的方法,利用相似度矩阵可以进一步度量与句子相关的图像区域,获得图像相对上下文的关注向量mvs。
S54,将前六个步骤得到的方面词敏感的图像特征mv、方面敏感的文本特征ms与本步骤得到的文本和图像的关注向量msv和mvs进行拼接m=[ms;mv;msv;mvs],得到最终的编码表征向量m。
S6,情感分类。
S61,利用融合后的特征信息进行情感分析,通过softmax分类器输出所属情感类别的概率分布,分类函数可表示为y′=softmax(Ws*m+bs),其中Ws和bs是分类层的权重向量和偏置矩阵。
S62,使用加入了标签平滑正则化(Label Smoothing Regularization,LSR)的损失函数进行模型训练。其中qi为真实的标签表示,pi是输出层给出的标签概率,λ是L2正则化的系数。
至此,即可实现融合多模态数据的方面级情感分析,利用本发明设计的方法,用户给定多模态评论文本,方面级情感分析框架针对提取到的不同方面词给出了具有参考意义的情感分类。
本发明基于两个公开的多模态数据集TWITTER-15和TWITTER-17,分别包括2014-2015年和2016-2017年的推文。在两个数据集上分别取得了79.03%和73.36%的分类准确率,均取得了基于当前数据集实验的最优性能。
Claims (7)
1.一种融合多模态数据的方面级情感分析方法,其特征在于,包括如下步骤:
步骤1:文本和图像预处理;
进行单词的大小写转换,去停用词并规范输入文本的格式;将图像等比缩放到固定范围,然后进行填充分割成多个大小相等的区域,最后对图像进行归一化处理,保证输入网络模型的图片维度为224*224*3;
步骤2:文本和图像特征提取;
针对文本数据,先使用词向量进行单词嵌入,然后使用Bi-LSTM提取文本和方面词特征;针对图像数据,对分割后的图像,使用除去全连接层的Resnet50网络提取图像特征,然后使用线性变换将图像特征映射到文本特征空间;
步骤3:多模态方面提取和对齐;
使用BIO标注体系标注文本,然后使用序列标注方法提取文本中的方面词;使用具有多个计算层的记忆网络进行多模态数据的隐式对齐,找到与提取的文本中的方面词相对应的图像区域;
步骤4:基于位置注意力的文本特征,并使用高斯分布建模单词的相对显式位置;针对不同的方面词,使用具有多个计算层的记忆网络在上下文中提取与目标相关的特征进行分析,在每个计算层,引入多头注意力机制监督文本向量生成;
步骤5:多模态数据融合;
融合方面词图像特征和文本特征,使用融合判别矩阵度量模态数据之间的相关度,使用点积计算在数值和方向上度量相似性,获得图像特征相关的文本部分和与文本最相关的图像特征;
步骤6:情感分类;
特征融合之后进行拼接,使用softmax分类器输出情感类别的概率分布,并在模型训练时加入标签平滑正则化项提供模型的泛化性,提供模型对新数据的预测能力。
2.根据权利要求1所述的一种融合多模态数据的方面级情感分析方法,其特征在于,所述词向量为GloVe词向量或者BERT预训练词向量。
3.根据权利要求1所述的一种融合多模态数据的方面级情感分析方法,其特征在于,所述步骤2具体为:
步骤2-1:给定文本序列和使用序列标注方法提取到的方面词序列,使用GloVe词向量或者BERT预训练词向量将单词转换成稠密词向量,然后使用双向长短期记忆网络Bi-LSTM提取文本特征:
其中,表示文本的词嵌入向量,表示方面词的词嵌入向量,i和j分别表示进行到第i或者第j个单词,n表示文本长度,m表示方面词长度,表示文本单词向量的反向LSTM,表示方面词单词向量的反向LSTM,得到文本特征向量和方面词特征向量和
步骤2-2:对于分割后的输入图像I={I1,I2,…,Ik},使用除去全连接层的Resnet50网络提取图像特征,mv=ResNet(I),将其使用线性变换V=Wvmv变换到文本的特征空间,得到映射到文本特征空间的图像特征信息V={v1,v2,…,vk},Wv是可学习参数。
4.根据权利要求3所述的一种融合多模态数据的方面级情感分析方法,其特征在于,所述步骤3具体为:
步骤3-1:方面提取,提取情感分析对象即方面词;首先使用BIO标注体系标记文本,然后使用序列标注方法提取文本中的方面词,给定文本序列该序列共包含n个单词,提取到一个或多个方面词序列一个序列中包含一个或多个单词;
步骤3-2:对方面词和图像进行多模态的隐式方面对齐,使用具有多个计算层的记忆网络量化图像区域和方面词的交互,查找实例子组件之间的对应关系;首先将方面词特征作为输入进行转换,在第一层,执行以下操作:
pw(1)=conv(σ(conv(ha,I),I))
其中,pw代表是转换后的特征信息,(1)表示第一层,ha为方面词词向量平均值,σ表示可学习参数,conv(.)表示代表卷积核为1的卷积运算;
步骤3-3:使用注意力机制监督其与图像特征的交互;
在每一层,使用如下方法监督方面词与图像的交互:
5.根据权利要求4所述的一种融合多模态数据的方面级情感分析方法,其特征在于,所述步骤4基于位置注意力的文本特征表示如下:
步骤4-1:使用高斯分布建模上下文词与方面词的相对显式位置,赋予距离方面词较近的单词更高的权重,权重定义如下:
其中,l表示上下文单词与方面词之间的距离,pos(.)表示文本中单词的位置,a表示文本中方面词的位置,表示文本单词,p(.)表示影响概率, σ表示传播范围,为可调参数;将影响概率作为权重,对文本经过Bi-LSTM输出的特征向量进行加权,获得最终的上下文输出
步骤4-2:上下文与方面词交互,给定文本特征Hs和方面词表征向量ha,使用基于多头注意力MHA的记忆网络,在每一层以方面词作为查询,使用多头注意力机制监督带有方面信息的文本向量生成:
oi=Attention(Hs,ha),i∈[1,t]
MHA(Hs,ha)=[o1;o2;…;ot]*Wmh
其中oi表示第i个head的注意力输出,“;”表示向量拼接,Wmh为可学习参数,t表示head的数量;
步骤4-3:将MHA的输出和方面词特征向量的线性变换相加,作为下一个计算层的输入,最后一个计算层的输出向量ms即为方面词敏感的文本表示。
6.根据权利要求5所述的一种融合多模态数据的方面级情感分析方法,其特征在于,所述步骤5中多模态数据融合,基于方面词敏感的图像特征mv和文本特征ms,使用融合判别矩阵度量两种模态数据之间的相关度,具体如下:
步骤5-1:融合判别矩阵计算如下:
其中D为相似度矩阵,Dij表示第i个单词和图片的第j个区域的相关度,Wfd是可学习的参数矩阵,*代表元素积;
步骤5-2:对D的每一行进行最大池化:
步骤5-3:使用Softmax进行归一化计算得到权重向量βsv,即上下文词相对图片区域的最终注意力值,进而获得上下文词关注向量msv:
基于步骤5-3相同的方法,利用相似度矩阵进一步度量与句子相关的图像区域,获得图像相对上下文的关注向量mvs;
步骤5-4:将方面词敏感的图像特征mv、方面敏感的文本特征ms与文本和图像的关注向量msv和mvs进行拼接m=[ms;mv;msv;mvs],得到最终的编码表征向量m。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210415940.1A CN114936623B (zh) | 2022-04-20 | 2022-04-20 | 一种融合多模态数据的方面级情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210415940.1A CN114936623B (zh) | 2022-04-20 | 2022-04-20 | 一种融合多模态数据的方面级情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114936623A true CN114936623A (zh) | 2022-08-23 |
CN114936623B CN114936623B (zh) | 2024-02-27 |
Family
ID=82862273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210415940.1A Active CN114936623B (zh) | 2022-04-20 | 2022-04-20 | 一种融合多模态数据的方面级情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114936623B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115239937A (zh) * | 2022-09-23 | 2022-10-25 | 西南交通大学 | 一种跨模态情感预测方法 |
CN116049397A (zh) * | 2022-12-29 | 2023-05-02 | 北京霍因科技有限公司 | 基于多模态融合的敏感信息发现并自动分类分级方法 |
CN116108186A (zh) * | 2023-04-13 | 2023-05-12 | 南开大学 | 一种多模态方面级情感分析方法 |
CN116719930A (zh) * | 2023-04-28 | 2023-09-08 | 西安工程大学 | 基于视觉方面注意的多模态情感分析方法 |
CN116975776A (zh) * | 2023-07-14 | 2023-10-31 | 湖北楚天高速数字科技有限公司 | 一种基于张量和互信息的多模态数据融合方法和设备 |
CN117009925A (zh) * | 2023-10-07 | 2023-11-07 | 北京华电电子商务科技有限公司 | 一种基于方面的多模态情感分析***和方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559683A (zh) * | 2020-12-11 | 2021-03-26 | 苏州元启创人工智能科技有限公司 | 基于多模态数据及多交互记忆网络的方面级情感分析方法 |
CN113361617A (zh) * | 2021-06-15 | 2021-09-07 | 西南交通大学 | 基于多元注意力修正的方面级情感分析建模方法 |
US11194972B1 (en) * | 2021-02-19 | 2021-12-07 | Institute Of Automation, Chinese Academy Of Sciences | Semantic sentiment analysis method fusing in-depth features and time sequence models |
-
2022
- 2022-04-20 CN CN202210415940.1A patent/CN114936623B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559683A (zh) * | 2020-12-11 | 2021-03-26 | 苏州元启创人工智能科技有限公司 | 基于多模态数据及多交互记忆网络的方面级情感分析方法 |
US11194972B1 (en) * | 2021-02-19 | 2021-12-07 | Institute Of Automation, Chinese Academy Of Sciences | Semantic sentiment analysis method fusing in-depth features and time sequence models |
CN113361617A (zh) * | 2021-06-15 | 2021-09-07 | 西南交通大学 | 基于多元注意力修正的方面级情感分析建模方法 |
Non-Patent Citations (1)
Title |
---|
杨玉亭;冯林;代磊超;苏菡;: "面向上下文注意力联合学习网络的方面级情感分类模型", 模式识别与人工智能, no. 08, 15 August 2020 (2020-08-15) * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115239937A (zh) * | 2022-09-23 | 2022-10-25 | 西南交通大学 | 一种跨模态情感预测方法 |
CN116049397A (zh) * | 2022-12-29 | 2023-05-02 | 北京霍因科技有限公司 | 基于多模态融合的敏感信息发现并自动分类分级方法 |
CN116049397B (zh) * | 2022-12-29 | 2024-01-02 | 北京霍因科技有限公司 | 基于多模态融合的敏感信息发现并自动分类分级方法 |
CN116108186A (zh) * | 2023-04-13 | 2023-05-12 | 南开大学 | 一种多模态方面级情感分析方法 |
CN116108186B (zh) * | 2023-04-13 | 2023-06-20 | 南开大学 | 一种多模态方面级情感分析方法 |
CN116719930A (zh) * | 2023-04-28 | 2023-09-08 | 西安工程大学 | 基于视觉方面注意的多模态情感分析方法 |
CN116975776A (zh) * | 2023-07-14 | 2023-10-31 | 湖北楚天高速数字科技有限公司 | 一种基于张量和互信息的多模态数据融合方法和设备 |
CN117009925A (zh) * | 2023-10-07 | 2023-11-07 | 北京华电电子商务科技有限公司 | 一种基于方面的多模态情感分析***和方法 |
CN117009925B (zh) * | 2023-10-07 | 2023-12-15 | 北京华电电子商务科技有限公司 | 一种基于方面的多模态情感分析***和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114936623B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114936623B (zh) | 一种融合多模态数据的方面级情感分析方法 | |
CN110737801B (zh) | 内容分类方法、装置、计算机设备和存储介质 | |
Xi et al. | Visual question answering model based on visual relationship detection | |
CN110059217B (zh) | 一种两级网络的图像文本跨媒体检索方法 | |
Wang et al. | Self-constraining and attention-based hashing network for bit-scalable cross-modal retrieval | |
US20190188564A1 (en) | Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques | |
CN111125406B (zh) | 一种基于自适应聚类学习的视觉关系检测方法 | |
Zhang et al. | Multi-layer attention based CNN for target-dependent sentiment classification | |
CN113065577A (zh) | 一种面向目标的多模态情感分类方法 | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
Ji et al. | Survey of visual sentiment prediction for social media analysis | |
Das et al. | Automated Indian sign language recognition system by fusing deep and handcrafted feature | |
Zhao et al. | Generative label fused network for image–text matching | |
CN112651940A (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
Sultan et al. | Sign language identification and recognition: A comparative study | |
CN115658934A (zh) | 一种基于多类注意力机制的图文跨模态检索方法 | |
Li et al. | Mining online reviews for ranking products: A novel method based on multiple classifiers and interval-valued intuitionistic fuzzy TOPSIS | |
Al-Tameemi et al. | Interpretable multimodal sentiment classification using deep multi-view attentive network of image and text data | |
Liu et al. | A multimodal approach for multiple-relation extraction in videos | |
CN117493491A (zh) | 一种基于机器学习的自然语言处理方法及*** | |
Shi et al. | Unpaired referring expression grounding via bidirectional cross-modal matching | |
WO2023134085A1 (zh) | 问题答案的预测方法、预测装置、电子设备、存储介质 | |
Pallavi et al. | Retrieval of facial sketches using linguistic descriptors: an approach based on hierarchical classification of facial attributes | |
Liu et al. | A new action recognition method by distinguishing ambiguous postures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |