CN112860888A - 一种基于注意力机制的双模态情感分析方法 - Google Patents

一种基于注意力机制的双模态情感分析方法 Download PDF

Info

Publication number
CN112860888A
CN112860888A CN202110103283.2A CN202110103283A CN112860888A CN 112860888 A CN112860888 A CN 112860888A CN 202110103283 A CN202110103283 A CN 202110103283A CN 112860888 A CN112860888 A CN 112860888A
Authority
CN
China
Prior art keywords
text
picture
tanh
mode
modality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110103283.2A
Other languages
English (en)
Other versions
CN112860888B (zh
Inventor
林翔鹏
王甲海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110103283.2A priority Critical patent/CN112860888B/zh
Publication of CN112860888A publication Critical patent/CN112860888A/zh
Application granted granted Critical
Publication of CN112860888B publication Critical patent/CN112860888B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制的双模态情感分析方法,使用了预训练的BERT模型和ResNet152模型进行文本和图片的信息编码,在得到文本编码和图片编码后先分别提取了文本模态和图片模态的局部信息和全局信息,充分考虑了模态内的高维特征对最终分类的积极作用。在模态间融合部分,本发明使用了双向注意力机制和门控多模态单元相结合的方式,考虑了图文模态之间双向的交互作用,从而提取到更多互补的信息。在模态间融合之后采取细粒度的特征提取,进一步对所拼接的特征进行过滤,剔除可能冗余的特征,得到更紧凑对情感极性更有益的细粒度特征表示,再对文本模态和图片模态进行加权拼接,从而提高了分类的准确度。

Description

一种基于注意力机制的双模态情感分析方法
技术领域
本发明涉及多模态情感分析领域,更具体地,涉及一种基于注意力机制的图文双模态情感分析方法。
背景技术
传统的情感分析是一个比较重要的自然语言处理领域的子任务。主要的形式就是输入一段文本,输出一个情感极性,是一个经典的分类任务。但是,随着互联网的发展,社交媒体的普及,信息越来越丰富,微博和Twitter等中英文社交平台已经成为我们日常生活中的一部分,并在人们的日常交流中发挥重要的作用。
因此,情感分析任务已经不仅仅局限于文本的信息,越来越多的多模态数据出现在社交平台平台上。比如在一段视频中提取文字,视频画面,音频信息,可以进行三模态的情感分析研究。又比如在微博或者Twitter的平台上,信息不仅仅是文本内容,还会附带大量的图片信息,图片会对文本的情感极性起到一个补充作用。尽管多模态的信息为人类的交流提供了极大的便利,但是多模态数据也为情感分析带来了越来越多的挑战。因此,从视觉和文本内容中自动检测情感已成为一个重要的研究课题。
目前大多数双模态情感分析的工作集中在简单融合的技术,将多个不同模态的不同特征组合在一起,然后输入到分类器中,得到预测的情感极性。首先,这些工作的主要缺点是难以捕捉模态之间的复杂关系,多模态之间的融合过程过于粗糙。文本和图片这两个模态是互补的关系,需要提取的是两者的互补特征,而不是仅仅是共有特征。其次,文本和图片之间的影响必定是双向的,有些方法不能有效利用视觉和文本信息之间的关联,片面地考虑图像对文本的单向影响,而忽略了视觉和文本信息之间的交互作用。
公开日为2019年03月29日,公开号为CN109543180A的中国专利公开了一种基于注意力机制的文本情感分析方法,包括如下步骤:一、对文本数据进行预处理;二、构建词表并利用GloVe模型构建词向量;三、利用内在注意力对句向量进行编码,利用交互注意力对目标词向量进行编码,并通过GRU融合编码后的两个向量,平均池化后得到融合表示;四、根据得到的融合表示,通过逐点的前馈网络(FFN)得到上下文向量的抽象特征,再通过全连接与Softmax函数计算情感分类标签的概率分布,得到分类结果;五、将预处理后的语料划分为训练集和测试集,对模型参数进行多次训练,选取分类准确率最高的模型用于情感倾向性分类。但该专利只考虑了文本信息,未曾考虑图片信息。
发明内容
本发明提供一种基于注意力机制的双模态情感分析方法,充分挖掘模态内的高维特征并利用模态间的交互信息,得到较好的分类结果。
为解决上述技术问题,本发明的技术方案如下:
一种基于注意力机制的双模态情感分析方法,包括以下步骤:
S1:获取文本数据和图片数据,所述文本数据和图片数据中的文本图片一一对应,并对文本数据和图片数据进行预处理;
S2:对于文本数据,将文本编码为词向量后作为文本模态的输入;对于图片数据,将图片编码为图片向量作为图片模态的输入;
S3:分别提取文本模态和图片模态的模态内高维特征;
S4:采用模态间的双向注意力机制和门控多模态单元对文本模态和图片模态的数据进行深层次的交互提取工作,提取模态间互补特征,得到文本侧模态间互补特征表示和图片侧模态间互补特征表示;
S5:分别对文本侧模态间互补特征表示和图片侧模态间互补特征表示进行细粒度特征提取,得到文本模态细粒度特征表示和图片模态细粒度特征表示,有助于后续的情感极性分类;
S6:将文本模态细粒度特征表示和图片模态细粒度特征表示进行加权拼接,通过softmax函数计算情感极性的概率,得到分类结果;
S7:对上述步骤S1至S6所述的模型进行多次迭代训练,将准确率最高的模型用于双模态情感分类任务。
优选地,所述步骤S1中对文本数据和图片数据进行预处理,具体为:
对于文本数据,所述预处理包括分词、去除停用词、去除标点符号得到相同长度的文本;
对于图片数据,所述预处理包括标准化和归一化过程得到相同大小的图片。
优选地,步骤S2中,采用GloVe或BERT预训练模型将文本编码为词向量后作为文本模态的输入T1,采用ResNet152预训练模型将图片编码为图片向量后作为图片模态的输入V1
优选地,将每个单词映射成一个300维或768维的向量,再结合每段文本固定的句子长度,组成文本模态矩阵作为文本输入T1
优选地,将每张固定像素大小的图片映射成一个7x7x2048维的图片模态矩阵,再将每个特征图进行展平形成图片模态矩阵作为图片输入V1
优选地,在经过步骤S2之后,每种模态信息都有了向量表示,步骤S3的主要目的是进一步得到各自模态信息本身的显著特征,也就是模态内的高维特征,比如说局部特征和全局特征,方便后续模态融合工作,步骤S3采用卷积核大小为2和3的卷积窗口来捕捉2-gram和3-gram文本的局部特征,然后采用最大池化操作获取不同卷积窗口下的文本局部信息,采用双向门控循环单元去捕捉文本全局信息,最后将文本局部信息和文本全局信息进行拼接,得到了文本侧的模态内高维特征表示T2
TCNN=fMP(fConv(T1))
TGRU=fBiGRU(T1)
T2=W1[TCNN∶TGRU]
其中,fConv表示卷积操作,fMP表示最大池化操作,TCNN表示文本模态的局部信息,fBiGRU表示双向门控循环单元操作,TGRU表示文本模态的全局信息,W1表示将文本局部信息和文本全局信息进行拼接的全连接层的可训练参数。
优选地,步骤S3采用通道注意力机制和空间注意力机制去提取图片的特征,其中通道注意力机制关注的是通道维度,也就是说对于一个特征图而言,关注的是输入图片中什么内容是有意义的,具体为:
将图片输入V1分别经过最大池化层和全局平均池化层后经过共享MLP进行拼接,再与图片输入V1的向量逐个元素相乘得到图像模态的全局特征Vchannel,空间注意力机制使用了最大池化和全局平均池化提取区域特征,然后将两个特征进行拼接,使用7*7大小的卷积核操作生成特征图,再经过一层ReLU激活函数后得到图片侧的模态内高维特征表示V2
Vchannel=ReLU(W3(W2(fMP(V1)))+W3(W2(fAP(V1))))⊙V1
Figure BDA0002916398160000031
其中,fMP表示最大池化操作,fAP表示全局平均池化操作,ReLU表示激活函数,⊙表示逐元素相乘,Vchannel表示图像模态的全局特征,
Figure BDA0002916398160000041
表示7*7大小的卷积核操作,Vspatial表示图像模态的区域特征,也是图片侧的模态内高维特征表示V2,W2和W3表示通道注意力机制的全连接层的可训练参数。
优选地,经过步骤S3的模态内的高维特征提取后,每个模态有各自的局部信息和全局信息。多模态任务一般需要将两个模态发生一定的交互,得到互补信息。步骤S4主要采用的是模态间的双向注意力机制和门控多模态单元对双模态信息进行深层次的融合。
步骤S4中的门控多模态单元将文本特征和图片特征映射到同一空间中,得到一个多模态联合表示:
T3=tanh(W4·T2)
V3=tanh(W5·V2)
c=σ(W6·[T2∶V2])
g=c*T3+(1-c)*V3
式中,tanh是激活函数,σ是sigmoid函数,T3和V3分别是为了拼接向量而进行的维度处理后的文本模态和图像模态,c存储两个模态的当前空间表示,g表示门控多模态单元所输出的多模态联合表示,W4、W5和W6表示全连接层的可训练参数。
优选地,步骤S4中的双向注意力机制具体为:
将图片对文本所做的注意力机制后的得到的模态间特征F1,多模态联合表示g以及步骤S3中所提取的文本侧的模态内高维特征表示T2进行拼接,再送入一层线性层及激活函数tanh,得到融合后的文本侧的模态间互补特征T4
Figure BDA0002916398160000042
Figure BDA0002916398160000043
Figure BDA0002916398160000047
T4=tanh(W7[T2∶F1∶g])
其中矩阵
Figure BDA0002916398160000044
表示第i个文本内容和第j个图片内容之间的联系,之后对于矩阵
Figure BDA0002916398160000045
的每行,用softmax函数来量化得到每个图片模态对文本模态的重要性权重矩阵
Figure BDA0002916398160000046
因此图片对文本的注意力机制的输出表示为F1,W7表示全连接层的可训练参数;
将图片对文本所做的注意力机制后的得到的模态间特征F2,门控多模态单元g以及步骤S3中所提取的图片侧的模态内高维特征表示V2进行拼接,再送入一层线性层及激活函数tanh,得到融合后的图片侧的模态间互补特征V4
Figure BDA0002916398160000051
Figure BDA0002916398160000052
Figure BDA0002916398160000053
V4=tanh(W8[V2∶F2∶g])
其中矩阵
Figure BDA0002916398160000054
表示第i个图片内容和第j个文本内容之间的联系,之后对于矩阵M的每行,用softmax函数来量化得到每个文本模态对图片模态的重要性权重矩阵
Figure BDA0002916398160000055
因此文本对图片的注意力机制的输出表示为F2,W8表示全连接层的可训练参数。
优选地,步骤S5中对文本侧模态间互补特征表示和图片侧模态间互补特征表示进行细粒度特征提取,因为前一部分杂糅了比较多的特征信息,可能会出现拼接之后有互斥作用,因此需要通过卷积和门控机制来实现简单的细粒度的提取工作,具体为:
对于每个模态过一层卷积神经网络后,分别用tanh激活函数和sigmoid激活函数去处理,得到的输出再进行矩阵相乘,最后经过最大池化层得到各模态的最终细粒度的特征;
对于文本模态:
Ttanh=tanh(fconv(T4))
Tsigmoid=sigmoid(fConv(T4))
T5=fMP(Ttanh·Tsigmoid)
其中,Ttanh表示为经过tanh函数提取的文本特征,Tsigmoid表示为经过sigmoid函数提取的文本特征,T5为文本模态的细粒度特征表示;
对于图片模态:
Vtanh=tanh(fConv(V4))
Vsigmoid=sigmoid(fConv(V4))
V5=fMP(Vtanh·Vsigmoid)
其中,Vtanh表示为经过tanh函数提取的图片特征。Vsigmoid表示为经过sigmoid函数提取的图片特征,V5为图片模态的细粒度特征表示。
与现有技术相比,本发明技术方案的有益效果是:
本发明使用了预训练的BERT模型和ResNet152模型进行文本和图片的信息编码,在得到文本编码和图片编码后并非直接进行模态间的融合工作,而是先分别提取了文本模态和图片模态的局部信息和全局信息,充分考虑了模态内的高维特征对最终分类的积极作用。在模态间融合部分,本发明使用了双向注意力机制和门控多模态单元相结合的方式,不仅考虑图片对文本单向的影响,也考虑了图文模态之间双向的交互作用,从而提取到更多互补的信息。在模态间融合之后并非直接进行常规分类工作。而是采取细粒度的特征提取,进一步对所拼接的特征进行过滤,剔除可能冗余的特征,得到更紧凑对情感极性更有益的细粒度特征表示,再对文本模态和图片模态进行加权拼接,从而提高了分类的准确度。
附图说明
图1为本发明的方法流程示意图。
图2为本发明的模型结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种基于注意力机制的双模态情感分析方法,如图1和图2,包括以下步骤:
S1:获取文本数据和图片数据,所述文本数据和图片数据中的文本图片一一对应,并对文本数据和图片数据进行预处理;
S2:对于文本数据,将文本编码为词向量后作为文本模态的输入;对于图片数据,将图片编码为图片向量作为图片模态的输入;
S3:分别提取文本模态和图片模态的模态内高维特征;
S4:采用模态间的双向注意力机制和门控多模态单元对文本模态和图片模态的数据进行深层次的交互提取工作,提取模态间互补特征,得到文本侧模态间互补特征表示和图片侧模态间互补特征表示;
S5:分别对文本侧模态间互补特征表示和图片侧模态间互补特征表示进行细粒度特征提取,得到文本模态细粒度特征表示和图片模态细粒度特征表示;
S6:将文本模态细粒度特征表示和图片模态细粒度特征表示进行加权拼接,通过softmax函数计算情感极性的概率,得到分类结果;
S7:对上述步骤S1至S6所述的模型进行多次迭代训练,将准确率最高的模型用于双模态情感分类任务。
所述步骤S1中对文本数据和图片数据进行预处理,具体为:对于文本数据,所述预处理包括分词、去除停用词、去除标点符号得到相同长度的文本;对于图片数据,所述预处理包括标准化和归一化过程得到相同大小的图片。
步骤S2中,采用GloVe或BERT预训练模型将文本编码为词向量后作为文本模态的输入T1,采用ResNet152预训练模型将图片编码为图片向量后作为图片模态的输入V1
将每个单词映射成一个300维或768维的向量,再结合每段文本固定的句子长度,组成文本模态矩阵作为文本输入T1
将每张固定像素大小的图片映射成一个7x7x2048维的图片模态矩阵,再将每个特征图进行展平形成图片模态矩阵作为图片输入V1
步骤S3采用卷积核大小为2和3的卷积窗口来捕捉2-gram和3-gram文本的局部特征,然后采用最大池化操作获取不同卷积窗口下的文本局部信息,采用双向门控循环单元去捕捉文本全局信息,最后将文本局部信息和文本全局信息进行拼接,得到了文本侧的模态内高维特征表示T2
TCNN=fMP(fConv(T1))
TGRU=fBiGRU(T1)
T2=W1[TCNN∶TGRU]
其中,fConv表示卷积操作,fMP表示最大池化操作,TCNN表示文本模态的局部信息,fBiGRU表示双向门控循环单元操作,TGRU表示文本模态的全局信息,W1表示将文本局部信息和文本全局信息进行拼接的全连接层的可训练参数。
步骤S3采用通道注意力机制和空间注意力机制去提取图片的特征,具体为:
将图片输入V1分别经过最大池化层和全局平均池化层后经过共享MLP进行拼接,再与图片输入V1的向量逐个元素相乘得到图像模态的全局特征Vchannel,空间注意力机制使用了最大池化和全局平均池化提取区域特征,然后将两个特征进行拼接,使用7*7大小的卷积核操作生成特征图,再经过一层ReLU激活函数后得到图片侧的模态内高维特征表示V2
Vchannel=ReLU(W3(W2(fMP(V1)))+W3(W2(fAP(V1))))⊙V1
Figure BDA0002916398160000081
其中,fMP表示最大池化操作,fAP表示全局平均池化操作,ReLU表示激活函数,⊙表示逐元素相乘,Vchannel表示图像模态的全局特征,
Figure BDA0002916398160000082
表示7*7大小的卷积核操作,Vspatial表示图像模态的区域特征,也是图片侧的模态内高维特征表示V2,W2和W3表示通道注意力机制的全连接层的可训练参数。
步骤S4中的门控多模态单元将文本特征和图片特征映射到同一空间中,得到一个多模态联合表示:
T3=tanh(W4·T2)
V3=tanh(W5·V2)
c=σ(W6·[T2∶V2])
g=c*T3+(1-c)*V3
式中,tanh是激活函数,σ是sigmoid函数,T3和V3分别是为了拼接向量而进行的维度处理后的文本模态和图像模态,c存储两个模态的当前空间表示,g表示门控多模态单元所输出的多模态联合表示,W4、W5和W6表示全连接层的可训练参数。
步骤S4中的双向注意力机制具体为:
将图片对文本所做的注意力机制后的得到的模态间特征F1,多模态联合表示g以及步骤S3中所提取的文本侧的模态内高维特征表示T2进行拼接,再送入一层线性层及激活函数tanh,得到融合后的文本侧的模态间互补特征T4
Figure BDA0002916398160000083
Figure BDA0002916398160000084
Figure BDA0002916398160000085
T4=tanh(W7[T2∶F1∶g])
其中矩阵
Figure BDA0002916398160000091
表示第i个文本内容和第j个图片内容之间的联系,之后对于矩阵
Figure BDA0002916398160000092
的每行,用softmax函数来量化得到每个图片模态对文本模态的重要性权重矩阵
Figure BDA0002916398160000093
因此图片对文本的注意力机制的输出表示为F1,W7表示全连接层的可训练参数;
将图片对文本所做的注意力机制后的得到的模态间特征F2,门控多模态单元g以及步骤S3中所提取的图片侧的模态内高维特征表示V2进行拼接,再送入一层线性层及激活函数tanh,得到融合后的图片侧的模态间互补特征V4
Figure BDA0002916398160000094
Figure BDA0002916398160000095
Figure BDA0002916398160000096
V4=tanh(W8[V2∶F2∶g])
其中矩阵
Figure BDA0002916398160000097
表示第i个图片内容和第j个文本内容之间的联系,之后对于矩阵M的每行,用softmax函数来量化得到每个文本模态对图片模态的重要性权重矩阵
Figure BDA0002916398160000098
因此文本对图片的注意力机制的输出表示为F2,W8表示全连接层的可训练参数。
步骤S5中对文本侧模态间互补特征表示和图片侧模态间互补特征表示进行细粒度特征提取,具体为:
对于每个模态过一层卷积神经网络后,分别用tanh激活函数和sigmoid激活函数去处理,得到的输出再进行矩阵相乘,最后经过最大池化层得到各模态的最终细粒度的特征;
对于文本模态:
Ttanh=tanh(fConv(T4))
Tsigmoid=sigmoid(fConv(T4))
T5=fMP(Ttanh·Tsigmoid)
其中,Ttanh表示为经过tanh函数提取的文本特征,Tsigmoid表示为经过sigmoid函数提取的文本特征,T5为文本模态的细粒度特征表示;
对于图片模态:
Vtanh=tanh(fConv(V4))
Vsigmoid=sigmoid(fConv(V4))
V5=fMP(Vtanh·Vsigmoid)
其中,Vtanh表示为经过tanh函数提取的图片特征。Vsigmoid表示为经过sigmoid函数提取的图片特征,V5为图片模态的细粒度特征表示。
在具体实施过程中,使用公开的MVSA数据集,包括了MVSA-Single和MVSA-Multiple两个独立的部分。前者采集自Twitter上超过5000个文本图像对,并由单人进行标注。后者采集自Twitter上超过20000个文本图像对,并由三个人进行标注。该数据集是双模态情感分析领域的标准数据集,对数据集的干扰数据进行剔除,使用8:1:1的分割比例将数据集随机分成训练集,验证集和测试集。
在之前的方法中,要么局限于简单的早期融合或晚期融合技术,仅考虑模态间的相互作用,忽略了模态内的特征所产生的影响。要么是在模态间的融合仅使用了简单的注意力机制和拼接,没有充分利用模态间的互补关系,也没有考虑文本和图片的双向影响。本实施例既挖掘了模态内的高维特征,又通过双向注意力机制和门控多模态单元捕捉模态间复杂的关联,考虑了文本和图片的相互作用,最后又提出细粒度的特征提取工作,提炼丰富的情感极性特征。
对上述步骤S3至步骤S6的模型部分进行10个epoch的迭代训练,记录测试集的测试数据并保存准确率最高的模型,用于后续的双模态情感分类任务。
具体结果由准确率(Accuracy)来评价。具体结果如表1所示:
表1
Figure BDA0002916398160000101
由上述实验结果可知,本发明较其他方法有明显的提升,达到了目前数据集的最好水平。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于注意力机制的双模态情感分析方法,其特征在于,包括以下步骤:
S1:获取文本数据和图片数据,所述文本数据和图片数据中的文本图片一一对应,并对文本数据和图片数据进行预处理;
S2:对于文本数据,将文本编码为词向量后作为文本模态的输入;对于图片数据,将图片编码为图片向量作为图片模态的输入;
S3:分别提取文本模态和图片模态的模态内高维特征;
S4:采用模态间的双向注意力机制和门控多模态单元对文本模态和图片模态的数据进行深层次的交互提取工作,提取模态间互补特征,得到文本侧模态间互补特征表示和图片侧模态间互补特征表示;
S5:分别对文本侧模态间互补特征表示和图片侧模态间互补特征表示进行细粒度特征提取,得到文本模态细粒度特征表示和图片模态细粒度特征表示;
S6:将文本模态细粒度特征表示和图片模态细粒度特征表示进行加权拼接,通过softmax函数计算情感极性的概率,得到分类结果;
S7:对上述步骤S1至S6所述的模型进行多次迭代训练,将准确率最高的模型用于双模态情感分类任务。
2.根据权利要求1所述的基于注意力机制的双模态情感分析方法,其特征在于,所述步骤S1中对文本数据和图片数据进行预处理,具体为:
对于文本数据,所述预处理包括分词、去除停用词、去除标点符号得到相同长度的文本;
对于图片数据,所述预处理包括标准化和归一化过程得到相同大小的图片。
3.根据权利要求2所述的基于注意力机制的双模态情感分析方法,其特征在于,步骤S2中,采用GloVe或BERT预训练模型将文本编码为词向量后作为文本模态的输入T1,采用ResNet152预训练模型将图片编码为图片向量后作为图片模态的输入V1
4.根据权利要求3所述的基于注意力机制的双模态情感分析方法,其特征在于,将每个单词映射成一个300维或768维的向量,再结合每段文本固定的句子长度,组成文本模态矩阵作为文本输入T1
5.根据权利要求4所述的基于注意力机制的双模态情感分析方法,其特征在于,将每张固定像素大小的图片映射成一个7x7x2048维的图片模态矩阵,再将每个特征图进行展平形成图片模态矩阵作为图片输入V1
6.根据权利要求5所述的基于注意力机制的双模态情感分析方法,其特征在于,步骤S3采用卷积核大小为2和3的卷积窗口来捕捉2-gram和3-gram文本的局部特征,然后采用最大池化操作获取不同卷积窗口下的文本局部信息,采用双向门控循环单元去捕捉文本全局信息,最后将文本局部信息和文本全局信息进行拼接,得到了文本侧的模态内高维特征表示T2
TCNN=fMP(fConv(T1))
TGRU=fBiGRU(T1)
T2=W1[TCNN:TGRU]
其中,fConv表示卷积操作,fMP表示最大池化操作,TCNN表示文本模态的局部信息,fBiGRU表示双向门控循环单元操作,TGRU表示文本模态的全局信息,W1表示将文本局部信息和文本全局信息进行拼接的全连接层的可训练参数。
7.根据权利要求6所述的基于注意力机制的双模态情感分析方法,其特征在于,步骤S3采用通道注意力机制和空间注意力机制去提取图片的特征,具体为:
将图片输入V1分别经过最大池化层和全局平均池化层后经过共享MLP进行拼接,再与图片输入V1的向量逐个元素相乘得到图像模态的全局特征Vchannel,空间注意力机制使用了最大池化和全局平均池化提取区域特征,然后将两个特征进行拼接,使用7*7大小的卷积核操作生成特征图,再经过一层ReLU激活函数后得到图片侧的模态内高维特征表示V2
Vchannel=ReLU(W3(W2(fMP(V1)))+W3(W2(fAP(V1))))⊙V1
Figure FDA0002916398150000021
其中,fMP表示最大池化操作,fAP表示全局平均池化操作,ReLU表示激活函数,⊙表示逐元素相乘,Vchannei表示图像模态的全局特征,
Figure FDA0002916398150000022
表示7*7大小的卷积核操作,Vspatial表示图像模态的区域特征,也是图片侧的模态内高维特征表示V2,W2和W3表示通道注意力机制的全连接层的可训练参数。
8.根据权利要求7所述的基于注意力机制的双模态情感分析方法,其特征在于,步骤S4中的门控多模态单元将文本特征和图片特征映射到同一空间中,得到一个多模态联合表示:
T3=tanh(W4·T2)
V3=tanh(W5·V2)
c=σ(W6·[T2:V2])
g=c*T3+(1-c)*V3
式中,tanh是激活函数,σ是sigmoid函数,T3和V3分别是为了拼接向量而进行的维度处理后的文本模态和图像模态,c存储两个模态的当前空间表示,g表示门控多模态单元所输出的多模态联合表示,W4、W5和W6表示全连接层的可训练参数。
9.根据权利要求8所述的基于注意力机制的双模态情感分析方法,其特征在于,步骤S4中的双向注意力机制具体为:
将图片对文本所做的注意力机制后的得到的模态间特征F1,多模态联合表示g以及步骤S3中所提取的文本侧的模态内高维特征表示T2进行拼接,再送入一层线性层及激活函数tanh,得到融合后的文本侧的模态间互补特征T4
Figure FDA0002916398150000031
Figure FDA0002916398150000032
Figure FDA0002916398150000039
T4=tanh(W7[T2∶F1∶g])
其中矩阵
Figure FDA0002916398150000033
表示第i个文本内容和第j个图片内容之间的联系,之后对于矩阵
Figure FDA0002916398150000034
的每行,用softmax函数来量化得到每个图片模态对文本模态的重要性权重矩阵
Figure FDA0002916398150000035
因此图片对文本的注意力机制的输出表示为F1,W7表示全连接层的可训练参数;
将图片对文本所做的注意力机制后的得到的模态间特征F2,门控多模态单元g以及步骤S3中所提取的图片侧的模态内高维特征表示V2进行拼接,再送入一层线性层及激活函数tanh,得到融合后的图片侧的模态间互补特征V4
Figure FDA0002916398150000036
Figure FDA0002916398150000037
Figure FDA0002916398150000038
V4=tanh(W8[V2:F2:g])
其中矩阵
Figure FDA0002916398150000041
表示第i个图片内容和第j个文本内容之间的联系,之后对于矩阵M的每行,用softmax函数来量化得到每个文本模态对图片模态的重要性权重矩阵
Figure FDA0002916398150000042
因此文本对图片的注意力机制的输出表示为F2,W8表示全连接层的可训练参数。
10.根据权利要求9所述的基于注意力机制的双模态情感分析方法,其特征在于,步骤S5中对文本侧模态间互补特征表示和图片侧模态间互补特征表示进行细粒度特征提取,具体为:
对于每个模态过一层卷积神经网络后,分别用tanh激活函数和sigmoid激活函数去处理,得到的输出再进行矩阵相乘,最后经过最大池化层得到各模态的最终细粒度的特征;
对于文本模态:
Ttanh=tanh(fConv(T4))
Tsigmoid=sigmoid(fConv(T4))
T5=fMP(Ttanh·Tsigmoid)
其中,Ttanh表示为经过tanh函数提取的文本特征,Tsigmoid表示为经过sigmoid函数提取的文本特征,T5为文本模态的细粒度特征表示;
对于图片模态:
Vtanh=tanh(fConv(V4))
Vsigmoid=sigmoid(fConv(V4))
V5=fMP(Vtanh·Vsigmoid)
其中,Vtanh表示为经过tanh函数提取的图片特征。Vsigmoid表示为经过sigmoid函数提取的图片特征,V5为图片模态的细粒度特征表示。
CN202110103283.2A 2021-01-26 2021-01-26 一种基于注意力机制的双模态情感分析方法 Active CN112860888B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110103283.2A CN112860888B (zh) 2021-01-26 2021-01-26 一种基于注意力机制的双模态情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110103283.2A CN112860888B (zh) 2021-01-26 2021-01-26 一种基于注意力机制的双模态情感分析方法

Publications (2)

Publication Number Publication Date
CN112860888A true CN112860888A (zh) 2021-05-28
CN112860888B CN112860888B (zh) 2022-05-06

Family

ID=76009168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110103283.2A Active CN112860888B (zh) 2021-01-26 2021-01-26 一种基于注意力机制的双模态情感分析方法

Country Status (1)

Country Link
CN (1) CN112860888B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239184A (zh) * 2021-07-09 2021-08-10 腾讯科技(深圳)有限公司 知识库获取方法、装置、计算机设备及存储介质
CN113343974A (zh) * 2021-07-06 2021-09-03 国网天津市电力公司 考虑模态间语义距离度量的多模态融合分类优化方法
CN113435496A (zh) * 2021-06-24 2021-09-24 湖南大学 一种基于注意力机制的自适应融合的多模态情感分类方法
CN113657115A (zh) * 2021-07-21 2021-11-16 内蒙古工业大学 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN114022735A (zh) * 2021-11-09 2022-02-08 北京有竹居网络技术有限公司 视觉语言预训练模型的训练方法、装置、设备及介质
CN114048288A (zh) * 2021-11-10 2022-02-15 北京明略软件***有限公司 细粒度情感分析方法、***、计算机设备和存储介质
CN114218380A (zh) * 2021-12-03 2022-03-22 淮阴工学院 基于多模态的冷链配载用户画像标签抽取方法及装置
CN114863447A (zh) * 2022-03-22 2022-08-05 齐鲁工业大学 基于多粒度特征注意力融合的图文情感分析方法及***
CN114882978A (zh) * 2022-07-12 2022-08-09 紫东信息科技(苏州)有限公司 引入图片翻译信息的胃部图像处理方法及***
CN115035512A (zh) * 2022-05-24 2022-09-09 合肥工业大学 基于多模态深度学习的作物营养状态诊断方法和***
CN115631504A (zh) * 2022-12-21 2023-01-20 西南石油大学 一种基于双模态图网络信息瓶颈的情感识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840287A (zh) * 2019-01-31 2019-06-04 中科人工智能创新技术研究院(青岛)有限公司 一种基于神经网络的跨模态信息检索方法和装置
US20200257903A1 (en) * 2019-04-29 2020-08-13 Beijing Dajia Internet Information Technology Co., Ltd Video rating method, video rating device, equipment and storage medium
CA3081168A1 (en) * 2019-05-22 2020-11-22 Royal Bank Of Canada System and method for machine learning architecture for partially-observed multimodal data
CN112041851A (zh) * 2018-12-29 2020-12-04 华为技术有限公司 一种识别文本的方法及终端设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112041851A (zh) * 2018-12-29 2020-12-04 华为技术有限公司 一种识别文本的方法及终端设备
CN109840287A (zh) * 2019-01-31 2019-06-04 中科人工智能创新技术研究院(青岛)有限公司 一种基于神经网络的跨模态信息检索方法和装置
US20200257903A1 (en) * 2019-04-29 2020-08-13 Beijing Dajia Internet Information Technology Co., Ltd Video rating method, video rating device, equipment and storage medium
CA3081168A1 (en) * 2019-05-22 2020-11-22 Royal Bank Of Canada System and method for machine learning architecture for partially-observed multimodal data

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435496A (zh) * 2021-06-24 2021-09-24 湖南大学 一种基于注意力机制的自适应融合的多模态情感分类方法
CN113343974A (zh) * 2021-07-06 2021-09-03 国网天津市电力公司 考虑模态间语义距离度量的多模态融合分类优化方法
CN113239184B (zh) * 2021-07-09 2021-11-02 腾讯科技(深圳)有限公司 知识库获取方法、装置、计算机设备及存储介质
CN113239184A (zh) * 2021-07-09 2021-08-10 腾讯科技(深圳)有限公司 知识库获取方法、装置、计算机设备及存储介质
CN113657115B (zh) * 2021-07-21 2023-06-30 内蒙古工业大学 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN113657115A (zh) * 2021-07-21 2021-11-16 内蒙古工业大学 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN114022735A (zh) * 2021-11-09 2022-02-08 北京有竹居网络技术有限公司 视觉语言预训练模型的训练方法、装置、设备及介质
CN114048288A (zh) * 2021-11-10 2022-02-15 北京明略软件***有限公司 细粒度情感分析方法、***、计算机设备和存储介质
CN114218380A (zh) * 2021-12-03 2022-03-22 淮阴工学院 基于多模态的冷链配载用户画像标签抽取方法及装置
CN114863447A (zh) * 2022-03-22 2022-08-05 齐鲁工业大学 基于多粒度特征注意力融合的图文情感分析方法及***
CN115035512A (zh) * 2022-05-24 2022-09-09 合肥工业大学 基于多模态深度学习的作物营养状态诊断方法和***
CN115035512B (zh) * 2022-05-24 2023-04-18 合肥工业大学 基于多模态深度学习的作物营养状态诊断方法和***
CN114882978A (zh) * 2022-07-12 2022-08-09 紫东信息科技(苏州)有限公司 引入图片翻译信息的胃部图像处理方法及***
CN115631504A (zh) * 2022-12-21 2023-01-20 西南石油大学 一种基于双模态图网络信息瓶颈的情感识别方法

Also Published As

Publication number Publication date
CN112860888B (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
CN112860888B (zh) 一种基于注意力机制的双模态情感分析方法
WO2021233112A1 (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
CN107979764B (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
CN109524006B (zh) 一种基于深度学习的汉语普通话唇语识别方法
Khan et al. An efficient sign language translator device using convolutional neural network and customized ROI segmentation
Siddique et al. Deep learning-based bangla sign language detection with an edge device
Paul et al. A modern approach for sign language interpretation using convolutional neural network
CN113935435A (zh) 基于时空特征融合的多模态情感识别方法
Wang et al. (2+ 1) D-SLR: an efficient network for video sign language recognition
Islam et al. A simple and mighty arrowhead detection technique of Bangla sign language characters with CNN
Yang et al. Fast RF-UIC: A fast unsupervised image captioning model
Dissanayake et al. Utalk: Sri Lankan sign language converter mobile app using image processing and machine learning
CN111311364A (zh) 基于多模态商品评论分析的商品推荐方法及***
Xue et al. Lcsnet: End-to-end lipreading with channel-aware feature selection
Rawf et al. Effective Kurdish sign language detection and classification using convolutional neural networks
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
Elons et al. Facial expressions recognition for arabic sign language translation
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
Kumar et al. Facial emotion recognition and detection using cnn
He et al. An optimal 3D convolutional neural network based lipreading method
CN115712869A (zh) 基于分层注意力网络的多模态谣言检测方法及***
Saha et al. Real time Bangla Digit Recognition through Hand Gestures on Air Using Deep Learning and OpenCV
Altaf et al. Evaluation of Dilated CNN for Hand Gesture Classification
Shane et al. Sign Language Detection Using Faster RCNN Resnet
Seetha et al. Sign Language to Sentence Interpreter Using Convolutional Neural Network in Real Time

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant