CN114969458B - 基于文本指导的层级自适应融合的多模态情感分析方法 - Google Patents
基于文本指导的层级自适应融合的多模态情感分析方法 Download PDFInfo
- Publication number
- CN114969458B CN114969458B CN202210743773.3A CN202210743773A CN114969458B CN 114969458 B CN114969458 B CN 114969458B CN 202210743773 A CN202210743773 A CN 202210743773A CN 114969458 B CN114969458 B CN 114969458B
- Authority
- CN
- China
- Prior art keywords
- mode
- text
- modal
- feature
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 53
- 230000004927 fusion Effects 0.000 title claims abstract description 43
- 238000004458 analytical method Methods 0.000 title claims abstract description 35
- 230000007246 mechanism Effects 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000009466 transformation Effects 0.000 claims abstract description 14
- 230000000007 visual effect Effects 0.000 claims description 55
- 230000003993 interaction Effects 0.000 claims description 44
- 239000013598 vector Substances 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000010200 validation analysis Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 15
- 238000002679 ablation Methods 0.000 description 6
- 101100268668 Caenorhabditis elegans acc-2 gene Proteins 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 101000782621 Bacillus subtilis (strain 168) Biotin carboxylase 2 Proteins 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于文本指导的层级自适应融合的多模态情感分析方法,属于自然语言处理领域。发明包括:首先分别提取文本、语音、视觉三种模态特征,然后采用跨模态注意力机制以文本模态信息为指导实现两两模态之间的表征,获取文本密切相关的语音特征和视觉特征;然后采用多模态自适应门控机制使用模态相关特征对三种单模态特征进行有效筛选,获取三种模态特有特征;接着采用多模态层级融合策略综合多模态特征和模态重要信息;最后输出使用线性变换去预测情感极性。本发明采用公共数据集CMU‑MOSI数据集来训练模型。实验结果表明本发明对多模态情感分析性能的提升是有效的。
Description
技术领域
本发明涉及基于文本指导的层级自适应融合的多模态情感分析方法,属于自然语言处理领域。
背景技术
随着互联网技术的发展,近年来,抖音、快手等社交媒体交流方式得到较快发展。越来越多的用户选择使用视频来表达自己的观点和情感,这些视频提供了大量的多模态数据。多模态情感分析(Multimodal Sentiment Analysis,MSA)也因此受到越来越多的关注,相关的研究已经被广泛应用到各个领域,例如社交媒体舆情监督、个性化推荐等。因此,多模态情感分析具有重要的研究意义和应用价值。
多模态情感分析不仅要充分表征单模态信息,还要考虑不同模态特征之间的交互与融合。Zadeh等人提出了张量融合网络(Tensor Fusion Network,TFN),同时提出了一种记忆融合网络(Memory Fusion Network,MFN),该网络使用LSTM来学习特定于视图的交互作用。Tsai等人提出了跨模态变换器,该变换器学习跨模态注意以强化目标模态。Yu等人引入了单峰子任务,以帮助模态表征学习。
尽管这些方法在多模态情感分析领域取得了一定的成功。但在以往的研究中,多模态融合方法通常将三种模态特征看作同等重要,侧重于多模态特征的融合,忽略不同模态对最终的情感分析结果的贡献,对模态重要性信息利用不足,这样可能会造成模态中重要信息的丢失,影响多模态情感分析性能。
发明内容
本发明提供了基于文本指导的层级自适应融合的多模态情感分析方法,以文本模态信息为指导实现多模态信息的层级自适应筛选及融合提升多模态情感分析的性能。
本发明的技术方案是:基于文本指导的层级自适应融合的多模态情感分析方法,所述方法的具体步骤如下:
Step1、准备数据集,对公共数据集数据进行预处理;
Step2、将处理好的数据输入到基于文本指导的层级自适应融合模型,通过特征表示模块对文本、语音、视觉三种模态信息进行表征;通过局部跨模态特征交互模块对获得的文本、语音、视觉三种特征提取模态相关特征;通过全局多模态交互模块采用门控机制过滤模态相关特征获得模态特有特征;通过局部-全局特征融合模块对模态相关特征和模态特有特征进行有效的融合。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、下载CMU-MOSI数据集,其中CMU-MOSI数据集包括2199个简短的独白视频剪辑,每个视频片段利用人工对其进行情感分数注释,情感分数取值为[-3,+3],代表情感强度的极性从极负向到极正向;其中CMU-MOSI训练、验证和测试集分别包含1284、229、686个视频片段;然后通过预处理形成pkl格式文件。
作为本发明的进一步方案,所述Step2中,通过特征表示模块对文本、语音、视觉三种模态信息进行表征具体包括:
Step2.1、多模态语言序列涉及三种模态:文本模态T、语音模态A和视觉模态V,定义输入序列为其中,l{t,a,v}表示模态的序列长度;采用三个独立的子网络获取三种模态的特征表示;对于文本模态,使用预训练的12层BERT来提取句子表征,并将最后一层中的第一个单词向量作为整个句子的表示;利用BERT获得文本模态的特征表示,文本模态特征表示如下:
Ht=BERT(Ft,θbert)
其中,Ht表示文本模态特征,lt表示文本模态的序列长度,dt表示文本模态的特征维度,θbert为BERT模型的网络参数;
对于语音模态和视觉模态,使用单向LSTM来获取两种模态相对应的时间特征,采用最后一层的隐藏时刻状态作为整个序列的表示;Fa,Fv分别通过单向LSTM,得到语音模态特征表示和视觉模态特征表示,语音模态和视觉模态的特征表示如下:
其中,表示语音模态特征,/>表示视觉模态特征,la,lv分别表示语音模态和视觉模态的序列长度,da,dv分别表示语音模态和视觉模态的特征维度,θlstm为LSTM模型的网络参数。
作为本发明的进一步方案,所述Step2中,所述通过局部跨模态特征交互模块对获得的文本、语音、视觉三种特征提取模态相关特征具体包括:
Step2.2、利用跨模态注意力机制学习文本模态与非文本模态之间的相关性;当有两种模态视觉模态V和文本模态T,特征表示为Hv、Ht,文本模态到视觉模态的跨模态注意力Cross-Modal Attention,CM表示如下:
其中,为线性变换权重矩阵,dk表示Q和K向量的维度,dV表示V向量的维度,利用两个跨注意力模块获得文本对语音,文本对视觉的两组模态交互特征,此时由文本模态特征Ht提供K和V向量,由语音模态特征Ha,视觉模态特征Hv分别提供Q向量,跨模态交互过程表示如下:
然后连接文本模态特征Ht,文本语音交互特征文本视觉交互特征/>并将它们映射到低维空间中,过程表示如下:
其中,dt表示文本模态的特征维度,da,dv分别表示语音模态和视觉模态的特征维度,dm表示低维空间维度,ReLU为激活函数,Hm为三种模态的相关特征。
作为本发明的进一步方案,所述Step2中,所述通过全局多模态交互模块采用门控机制过滤模态相关特征获得模态特有特征具体包括:
Step2.3、利用门控单元设计了全局多模态特征交互模块,学习不同模态的特有特征,该模块以文本模态为主的相关特征为指导,利用门控机制得到三种模态的特有特征;以语音模态为例,首先将局部跨模态特征交互模块的输出模态相关特征Hm与特征表示模块的输出语音模态特征Ha分别输入两个独立的线性层,两个线性层的输出作为门控单元的输入,利用多模态相关特征过滤出单模态的特有特征,提出的多模态自适应门控模块如下:
λa=sigmoid(WmHm+WaHa)
其中,λa是多模态相关特征和语音特征之间的相似性权重,Wm和Wa是参数矩阵,为语音模态的特有特征;
重复上述步骤2.3得到文本模态和视觉模态的特有特征,分别表示为dt表示文本模态的特征维度,da,dv分别表示语音模态和视觉模态的特征维度,lt表示文本模态的序列长度,la,lv分别表示语音模态和视觉模态的序列长度;
然后连接文本特有特征语音特有特征/>视觉特有特征/>并将它们映射到低维空间/>中,过程表示如下:
其中,dm表示低维空间维度,ReLU为激活函数,/>为不同模态的特有特征。
作为本发明的进一步方案,所述Step2中,所述通过局部-全局特征融合模块对模态相关特征和模态特有特征进行有效的融合具体包括:
Step2.4、经过局部跨模态特征交互模块得到模态相关特征Hm,经过全局多模态交互模块得到模态特有特征然后基于Transformer设计了局部-全局特征融合模块;
首先,将模态相关特征和模态特有特征叠加到矩阵然后,将矩阵M作为Transformer的输入,基于多头自我注意机制,使每个向量学习其他交叉模态表示,综合利用全局多模态特征,实现多模态情感的综合判定;
对于自注意力机制,定义Transformer生成一个新矩阵过程表示如下:
headiθAttention(QWi q,KWi k,VWi v)
其中,Wo为线性变换权重矩阵,/>表示拼接,θatt={Wq,Wk,Wv,Wo};
最后获取Transformer的输出,拼接输出向量,送入线性层,得到最终预测结果,过程表示如下:
其中,为经过Transformer后得到的模态相关特性,/>为经过Transformer后得到的模态特有特征,/>dm为低维空间维度,/>为偏置系数。
本发明的有益效果是:
1、本发明针对多模态情感分析,在考虑模态重要性息的情况下,有效探索不同模态间和模态内的关系提高多模态情感分析准确率。提出一种基于文本模态指导的多模态层级自适应融合方法,以文本模态为指导,实现了多模态信息的层级自适应筛选及融合。
2、通过跨模态注意力机制充分学习模态相关特征,通过多模态自适应门控机制筛选融合模态特有特征,帮助多模态融合和情感预测。
3、在CMU-MOSI,CMU-MOSEI数据集上进行了实验,结果表明本发明显著提高了多模态情感分析性能。
附图说明
图1是本发明CMU-MOSI数据集模态重要性消融实验结果;
图2是本发明提出的基于文本指导的层级自适应融合的多模态情感分析方法流程示意图。
具体实施方式
实施例1:如图1-图2所示,基于文本指导的层级自适应融合的多模态情感分析方法,以CMU-MOSI数据集为例训练模型,所述方法具体步骤如下:
Step1、准备数据集,对公共数据集CMU-MOSI数据进行预处理;
Step1.1、下载CMU-MOSI数据集,其中CMU-MOSI数据集包括2199个简短的独白视频剪辑,每个视频片段利用人工对其进行情感分数注释,情感分数取值为[-3,+3],代表情感强度的极性从极负向到极正向;其中CMU-MOSI训练、验证和测试集分别包含1284、229、686个视频片段;然后通过预处理形成pkl格式文件。
Step2、将处理好的数据输入到基于文本指导的层级自适应融合模型,通过特征表示模块对文本、语音、视觉三种模态信息进行表征;通过局部跨模态特征交互模块对获得的文本、语音、视觉三种特征提取模态相关特征;通过全局多模态交互模块采用门控机制过滤模态相关特征获得模态特有特征;通过局部-全局特征融合模块对模态相关特征和模态特有特征进行有效的融合。
所述Step2的具体步骤如下所示:
Step2.1、多模态语言序列涉及三种模态:文本模态T、语音模态A和视觉模态V,定义输入序列为其中,l{t,a,v}表示模态的序列长度;采用三个独立的子网络获取三种模态的特征表示;对于文本模态,使用预训练的12层BERT来提取句子表征,并将最后一层中的第一个单词向量作为整个句子的表示;利用BERT获得文本模态的特征表示,文本模态特征表示如下:
Ht=BERT(Ft,θbert)
其中,Ht表示文本模态特征,lt表示文本模态的序列长度,dt表示文本模态的特征维度,θbert为BERT模型的网络参数;
对于语音模态和视觉模态,使用单向LSTM来获取两种模态相对应的时间特征,采用最后一层的隐藏时刻状态作为整个序列的表示;Fa,Fv分别通过单向LSTM,得到语音模态特征表示和视觉模态特征表示,语音模态和视觉模态的特征表示如下:
其中,表示语音模态特征,/>表示视觉模态特征,la,lv分别表示语音模态和视觉模态的序列长度,da,dv分别表示语音模态和视觉模态的特征维度,θlstm为LSTM模型的网络参数。
Step2.2、利用跨模态注意力机制学习文本模态与非文本模态之间的相关性;当有两种模态视觉模态V和文本模态T,特征表示为Hv、Ht,文本模态到视觉模态的跨模态注意力Cross-Modal Attention,CM表示如下:
其中,为线性变换权重矩阵,dk表示Q和K向量的维度,dV表示V向量的维度,利用两个跨注意力模块获得文本对语音,文本对视觉的两组模态交互特征,此时由文本模态特征Ht提供K和V向量,由语音模态特征Ha,视觉模态特征Hv分别提供Q向量,跨模态交互过程表示如下:
然后连接文本模态特征Ht,文本语音交互特征文本视觉交互特征/>并将它们映射到低维空间中,过程表示如下:
其中,dt表示文本模态的特征维度,da,dv分别表示语音模态和视觉模态的特征维度,dm表示低维空间维度,ReLU为激活函数,Hm为三种模态的相关特征。
Step2.3、利用门控单元设计了全局多模态特征交互模块,学习不同模态的特有特征,该模块以文本模态为主的相关特征为指导,利用门控机制得到三种模态的特有特征;以语音模态为例,首先将局部跨模态特征交互模块的输出模态相关特征Hm与特征表示模块的输出语音模态特征Ha分别输入两个独立的线性层,两个线性层的输出作为门控单元的输入,利用多模态相关特征过滤出单模态的特有特征,提出的多模态自适应门控模块如下:
λa=sigmoid(WmHm+WaHa)
其中,λa是多模态相关特征和语音特征之间的相似性权重,Wm和Wa是参数矩阵,为语音模态的特有特征;
重复上述步骤2.3得到文本模态和视觉模态的特有特征,分别表示为dt表示文本模态的特征维度,da,dv分别表示语音模态和视觉模态的特征维度,lt表示文本模态的序列长度,la,lv分别表示语音模态和视觉模态的序列长度;
然后连接文本特有特征语音特有特征/>视觉特有特征/>并将它们映射到低维空间/>中,过程表示如下:
其中,dm表示低维空间维度,ReLU为激活函数,/>为不同模态的特有特征。
Step2.4、经过局部跨模态特征交互模块得到模态相关特征Hm,经过全局多模态交互模块得到模态特有特征然后基于Transformer设计了局部-全局特征融合模块;
首先,将模态相关特征和模态特有特征叠加到矩阵然后,将矩阵M作为Transformer的输入,基于多头自我注意机制,使每个向量学习其他交叉模态表示,综合利用全局多模态特征,实现多模态情感的综合判定;
对于自注意力机制,定义Transformer生成一个新矩阵过程表示如下:
headi=Attention(QWi q,KWi k,VWi v)
其中,Wo为线性变换权重矩阵,/>表示拼接,θatt={Wq,Wk,Wv,Wo};
最后获取Transformer的输出,拼接输出向量,送入线性层,得到最终预测结果,过程表示如下:
其中,为经过Transformer后得到的模态相关特性,/>为经过Transformer后得到的模态特有特征,/>dm为低维空间维度,/>为偏置系数。
为了说明本发明的效果,设置了3组对比实验,第1组是主实验结果,在这个领域和以前的一些工作进行比较,验证多模态情感分析性能的提升。第2组实验是模型消融实验,验证提出的模型有效性。第3组实验是模态重要性消融实验验证文本模态的重要性。
(1)主实验结果
像以前的大多数工作一样使用CMU-MOSI数据集。训练、验证和测试集分别包含1284、229、686个视频片段。参数设置如下表1所示。
表1:模型的参数设置
使用四种评价指标来评估模型的情感分析性能。评价指标分别有:1)平均绝对误差(MAE)2)相关系数(Corr)3)ACC_2,二分类精度;4)F1 Score,对ACC2加权值。上述的指标中,除了MAE,其余的指标越高的分数代表越优秀的表现。为了充分验证提出模型的性能,选取了多模态情感分析中几种主流且性能较高的模型,在相同的实验环境和数据集的条件下,利用上述四种指标来充分讨论性能表现,实验结果如下表2所示。
表2不同模型在CMU-MOSI数据集上的实验结果
分析表2可知本文提出的模型在CMU-MOSI数据集上情感二分类准确率和F1分数这两个评价指标上的表现都要优于其他对比模型。与其他模型对比准确率提升了0.76%~5.62%,,F1值提升了0.7%~5.64%。对比现有先进的Self-MM模型,Acc_2提升了0.76%,F1值提升了0.7%,原因在于本文模型考虑了文本模态的重要性,充分利用了文本模态信息帮助多模态信息融合。对比ICCN模型,Acc_2提升了3.36%,F1提升了3.36%,原因在于本文模型在考虑文本模态重要性的同时,考虑模态信息的相关性和差异性,充分利用了三种模态的相关特征与特有特征,从而使模型性能得以提升。实验结果充分地说明本文模型在多模态情感分类任务上的有效性和先进性。
(2)模型消融实验
本发明针对表2中的训练数据和测试数据对本发明模型和其简化模型性能进行测试,实验结果如下表3所示:
1.(-)跨模态注意力:在完整模型基础上移除局部跨模态交互模块(以文本模态为指导)。
2.(-)门控单元:在完整模型基础上移除全局多模态交互模块。
3.(-)文本门,(-)语音门,(-)视觉门:在全局多模态交互模块依次移除文本门,语音门,视觉门。
4.相关特征融合:在局部-全局特征融合模块,移除模态特有特征,只使用模态相关特征。
5.特有特征融合:在局部-全局特征融合模块,移除模态相关特征,只使用模态特有特征。
表3 CMU-MOSI数据集模型消融实验结果
1.当去除单模态交互模块后,准确率和F1分数都有所下降。结果表明,局部跨模态交互模块有效地减少不同模态之间的差异性,从非文本模态中学习到了文本模态的互补特征。
2.当去除全局多模态交互模块或文本门控网络、语音门控网络、视觉门控网络,准确率和F1分数都有所下降。由此说明全局多模态交互模块学习到了不同模态的特有特征,为情感预测提供了额外的信息。结果表明,多模态自适应门控机制对过滤单模态特征的特有信息很有帮助。
3.全局-局部特征融合模块中,只融合相关模态时或只融合特有模态时,准确率和F1分数都有所下降。结果表明,去除模态相关特征或模态特有特征都会影响模型性能,同时融合两种特征时,模型可以学习到更多特征信息,有利于情感预测。
(3)模态重要性消融实验
为了验证不同模态对最终的情感分析结果的重要程度不同,模型分别以文本模态为指导模态(Text attention),以语音模态为指导模态(Audio attention),以视觉模态为指导模态(Visual attention),分别对其进行情感分析实验并对实验结果进行比较。实验结果如下图1所示。
图1实验结果表明,以文本模态为指导模态时,模型性能最好,以语音模态为指导模态时或以视觉模态为主要模态时,情感分析的准确率及F1分数都有明显的下降。由此说明,在多模态情感分析任务中,不同模态对最终的情感分析结果的重要程度不同。其中文本模态对情感分析结果贡献最大,反映了文本模态的重要性。
本发明提取文本、语音、视觉三种模态特征,然后采用跨模态注意力机制以文本模态信息为指导实现两两模态之间的表征,获取文本密切相关的语音特征和视觉特征;然后采用多模态自适应门控机制使用模态相关特征对三种单模态特征进行有效筛选,获取三种模态特有特征;接着采用多模态层级融合策略综合多模态特征和模态重要信息;最后输出使用线性变换去预测情感极性。
通过以上实验证明了本发明通过引入局部跨模态交互模块,解决模态间信息融合不充分问题。以贡献程度较大的文本模态为指导模态,以贡献程度较小的语音模态和视觉模态为辅助模态,利用跨模态注意力机制实现两两模态间的重要性信息表征,然后基于多模态自适应门控机制实现多模态重要信息指导下的多模态层级自适应融合,最后同时应用模态相关特征与模态特有特征,充分探索了模态间和模态内的相关关系。实验表明本发明的方法相比多个基线模型取得了更优的结果。针对多模态情感分析任务,本发明提出的基于文本指导的层级自适应融合的多模态情感分析方法对多模态情感分析性能的提升是有效的。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (2)
1.基于文本指导的层级自适应融合的多模态情感分析方法,其特征在于:所述方法的具体步骤如下:
Step1、准备数据集,对公共数据集数据进行预处理;
Step2、将处理好的数据输入到基于文本指导的层级自适应融合模型,通过特征表示模块对文本、语音、视觉三种模态信息进行表征;通过局部跨模态特征交互模块对获得的文本、语音、视觉三种特征提取模态相关特征;通过全局多模态交互模块采用门控机制过滤模态相关特征获得模态特有特征;通过局部-全局特征融合模块对模态相关特征和模态特有特征进行有效的融合;
所述Step2中,通过特征表示模块对文本、语音、视觉三种模态信息进行表征具体包括:
Step2.1、多模态语言序列涉及三种模态:文本模态T、语音模态A和视觉模态V,定义输入序列为其中,l{t,a,v}表示模态的序列长度;采用三个独立的子网络获取三种模态的特征表示;对于文本模态,使用预训练的12层BERT来提取句子表征,并将最后一层中的第一个单词向量作为整个句子的表示;利用BERT获得文本模态的特征表示,文本模态特征表示如下:
Ht=BERT(Ft,θbert)
其中,Ht表示文本模态特征,lt表示文本模态的序列长度,dt表示文本模态的特征维度,θbert为BERT模型的网络参数;
对于语音模态和视觉模态,使用单向LSTM来获取两种模态相对应的时间特征,采用最后一层的隐藏时刻状态作为整个序列的表示;Fa,Fv分别通过单向LSTM,得到语音模态特征表示和视觉模态特征表示,语音模态和视觉模态的特征表示如下:
其中,表示语音模态特征,/>表示视觉模态特征,la,lv分别表示语音模态和视觉模态的序列长度,da,dv分别表示语音模态和视觉模态的特征维度,θlstm为LSTM模型的网络参数;
所述Step2中,所述通过局部跨模态特征交互模块对获得的文本、语音、视觉三种特征提取模态相关特征具体包括:
Step2.2、利用跨模态注意力机制学习文本模态与非文本模态之间的相关性;当有两种模态视觉模态V和文本模态T,特征表示为Hv、Ht,文本模态到视觉模态的跨模态注意力Cross-Modal Attention,CM表示如下:
其中,为线性变换权重矩阵,dk表示Q和K向量的维度,dV表示V向量的维度,利用两个跨注意力模块获得文本对语音,文本对视觉的两组模态交互特征,此时由文本模态特征Ht提供K和V向量,由语音模态特征Ha,视觉模态特征Hv分别提供Q向量,跨模态交互过程表示如下:
然后连接文本模态特征Ht,文本语音交互特征文本视觉交互特征/>并将它们映射到低维空间中,过程表示如下:
其中,dt表示文本模态的特征维度,da,dv分别表示语音模态和视觉模态的特征维度,dm表示低维空间维度,ReLU为激活函数,Hm为三种模态的相关特征;
所述Step2中,所述通过全局多模态交互模块采用门控机制过滤模态相关特征获得模态特有特征具体包括:
Step2.3、利用门控单元设计了全局多模态特征交互模块,学习不同模态的特有特征,该模块以文本模态为主的相关特征为指导,利用门控机制得到三种模态的特有特征;以语音模态为例,首先将局部跨模态特征交互模块的输出模态相关特征Hm与特征表示模块的输出语音模态特征Ha分别输入两个独立的线性层,两个线性层的输出作为门控单元的输入,利用多模态相关特征过滤出单模态的特有特征,提出的多模态自适应门控模块如下:
λa=sigmoid(WmHm+WaHa)
其中,λa是多模态相关特征和语音特征之间的相似性权重,Wm和Wa是参数矩阵,为语音模态的特有特征;
重复上述步骤2.3得到文本模态和视觉模态的特有特征,分别表示为dt表示文本模态的特征维度,da,dv分别表示语音模态和视觉模态的特征维度,lt表示文本模态的序列长度,la,lv分别表示语音模态和视觉模态的序列长度;
然后连接文本特有特征语音特有特征/>视觉特有特征/>并将它们映射到低维空间/>中,过程表示如下:
其中,dm表示低维空间维度,ReLU为激活函数,/>为不同模态的特有特征;
所述Step2中,所述通过局部-全局特征融合模块对模态相关特征和模态特有特征进行有效的融合具体包括:
Step2.4、经过局部跨模态特征交互模块得到模态相关特征Hm,经过全局多模态交互模块得到模态特有特征然后基于Transformer设计了局部-全局特征融合模块;
首先,将模态相关特征和模态特有特征叠加到矩阵然后,将矩阵M作为Transformer的输入,基于多头自我注意机制,使每个向量学习其他交叉模态表示,综合利用全局多模态特征,实现多模态情感的综合判定;
对于自注意力机制,定义Transformer生成一个新矩阵过程表示如下:
headi=Attention(QWi q,KWi k,VWi v)
其中,Wo为线性变换权重矩阵,/>表示拼接,θatt={Wq,Wk,Wv,Wo};
最后获取Transformer的输出,拼接输出向量,送入线性层,得到最终预测结果,过程表示如下:
其中,为经过Transformer后得到的模态相关特性,/>为经过Transformer后得到的模态特有特征,/>dm为低维空间维度,/>为偏置系数。
2.根据权利要求1所述的基于文本指导的层级自适应融合的多模态情感分析方法,其特征在于:所述Step1的具体步骤为:
Step1.1、下载CMU-MOSI数据集,其中CMU-MOSI数据集包括2199个简短的独白视频剪辑,每个视频片段利用人工对其进行情感分数注释,情感分数取值为[-3,+3],代表情感强度的极性从极负向到极正向;其中CMU-MOSI训练、验证和测试集分别包含1284、229、686个视频片段;然后通过预处理形成pkl格式文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210743773.3A CN114969458B (zh) | 2022-06-28 | 2022-06-28 | 基于文本指导的层级自适应融合的多模态情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210743773.3A CN114969458B (zh) | 2022-06-28 | 2022-06-28 | 基于文本指导的层级自适应融合的多模态情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114969458A CN114969458A (zh) | 2022-08-30 |
CN114969458B true CN114969458B (zh) | 2024-04-26 |
Family
ID=82965492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210743773.3A Active CN114969458B (zh) | 2022-06-28 | 2022-06-28 | 基于文本指导的层级自适应融合的多模态情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114969458B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115544279B (zh) * | 2022-10-11 | 2024-01-26 | 合肥工业大学 | 一种基于协同注意力的多模态情感分类方法及其应用 |
CN115809438B (zh) * | 2023-01-18 | 2023-06-16 | 中国科学技术大学 | 多模态情感分析方法、***、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528004A (zh) * | 2020-12-24 | 2021-03-19 | 北京百度网讯科技有限公司 | 语音交互方法、装置、电子设备、介质和计算机程序产品 |
CN112651448A (zh) * | 2020-12-29 | 2021-04-13 | 中山大学 | 一种面向社交平台表情包的多模态情感分析方法 |
CN113420807A (zh) * | 2021-06-22 | 2021-09-21 | 哈尔滨理工大学 | 基于多任务学习与注意力机制的多模态融合情感识别***、方法及实验评价方法 |
CN113435496A (zh) * | 2021-06-24 | 2021-09-24 | 湖南大学 | 一种基于注意力机制的自适应融合的多模态情感分类方法 |
CN113704552A (zh) * | 2021-08-31 | 2021-11-26 | 哈尔滨工业大学 | 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、***及设备 |
US11281945B1 (en) * | 2021-02-26 | 2022-03-22 | Institute Of Automation, Chinese Academy Of Sciences | Multimodal dimensional emotion recognition method |
CN114463688A (zh) * | 2022-04-12 | 2022-05-10 | 之江实验室 | 一种跨模态上下文编码的对话情感识别方法及*** |
-
2022
- 2022-06-28 CN CN202210743773.3A patent/CN114969458B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528004A (zh) * | 2020-12-24 | 2021-03-19 | 北京百度网讯科技有限公司 | 语音交互方法、装置、电子设备、介质和计算机程序产品 |
CN112651448A (zh) * | 2020-12-29 | 2021-04-13 | 中山大学 | 一种面向社交平台表情包的多模态情感分析方法 |
US11281945B1 (en) * | 2021-02-26 | 2022-03-22 | Institute Of Automation, Chinese Academy Of Sciences | Multimodal dimensional emotion recognition method |
CN113420807A (zh) * | 2021-06-22 | 2021-09-21 | 哈尔滨理工大学 | 基于多任务学习与注意力机制的多模态融合情感识别***、方法及实验评价方法 |
CN113435496A (zh) * | 2021-06-24 | 2021-09-24 | 湖南大学 | 一种基于注意力机制的自适应融合的多模态情感分类方法 |
CN113704552A (zh) * | 2021-08-31 | 2021-11-26 | 哈尔滨工业大学 | 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、***及设备 |
CN114463688A (zh) * | 2022-04-12 | 2022-05-10 | 之江实验室 | 一种跨模态上下文编码的对话情感识别方法及*** |
Non-Patent Citations (2)
Title |
---|
Multi-level Multi-Modal Cross-Attention network for Fake news detection;Long Ying等;IEEE Access;20210920;1-10 * |
卢婵等.山东大学学报(理学版).2023,第58卷(第12期),31-40+51. * |
Also Published As
Publication number | Publication date |
---|---|
CN114969458A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114969458B (zh) | 基于文本指导的层级自适应融合的多模态情感分析方法 | |
CN115293170A (zh) | 一种基于协同注意力融合的方面级多模态情感分析方法 | |
Phan et al. | Consensus-based sequence training for video captioning | |
CN115577161A (zh) | 融合情感资源的多模态情感分析模型 | |
CN117391051B (zh) | 一种融合情感的共同注意网络多模态虚假新闻检测方法 | |
CN111563373A (zh) | 聚焦属性相关文本的属性级情感分类方法 | |
CN114091466A (zh) | 一种基于Transformer和多任务学习的多模态情感分析方法及*** | |
CN114140885A (zh) | 一种情感分析模型的生成方法、装置、电子设备以及存储介质 | |
CN115481679A (zh) | 一种多模态情感分析方法及其*** | |
Lin et al. | PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis | |
Xiao et al. | Multi-channel attentive graph convolutional network with sentiment fusion for multimodal sentiment analysis | |
CN113158075A (zh) | 融合评论的多任务联合谣言检测方法 | |
Deng et al. | Multimodal affective computing with dense fusion transformer for inter-and intra-modality interactions | |
Lian et al. | A survey of deep learning-based multimodal emotion recognition: Speech, text, and face | |
Zeng et al. | Robust multimodal sentiment analysis via tag encoding of uncertain missing modalities | |
CN117539999A (zh) | 一种基于跨模态联合编码的多模态情感分析方法 | |
CN117893948A (zh) | 基于多粒度的特征对比和融合框架的多模态情感分析方法 | |
US20240119716A1 (en) | Method for multimodal emotion classification based on modal space assimilation and contrastive learning | |
Jia et al. | Semantic association enhancement transformer with relative position for image captioning | |
Wang et al. | A cross modal hierarchical fusion multimodal sentiment analysis method based on multi-task learning | |
CN116186236A (zh) | 一种基于单模态和多模态联合训练的情感分析方法及*** | |
CN115858728A (zh) | 一种基于多模态数据的情感分析方法 | |
CN115982652A (zh) | 一种基于注意力网络的跨模态情感分析方法 | |
CN114693949A (zh) | 一种基于区域感知对齐网络的多模态评价对象抽取方法 | |
Liu et al. | TACFN: transformer-based adaptive cross-modal fusion network for multimodal emotion recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |