CN114969458B

CN114969458B - 基于文本指导的层级自适应融合的多模态情感分析方法

Info

Publication number: CN114969458B
Application number: CN202210743773.3A
Authority: CN
Inventors: 郭军军; 卢婵
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2024-04-26
Anticipated expiration: 2042-06-28
Also published as: CN114969458A

Abstract

本发明涉及基于文本指导的层级自适应融合的多模态情感分析方法，属于自然语言处理领域。发明包括：首先分别提取文本、语音、视觉三种模态特征，然后采用跨模态注意力机制以文本模态信息为指导实现两两模态之间的表征，获取文本密切相关的语音特征和视觉特征；然后采用多模态自适应门控机制使用模态相关特征对三种单模态特征进行有效筛选，获取三种模态特有特征；接着采用多模态层级融合策略综合多模态特征和模态重要信息；最后输出使用线性变换去预测情感极性。本发明采用公共数据集CMU‑MOSI数据集来训练模型。实验结果表明本发明对多模态情感分析性能的提升是有效的。

Description

基于文本指导的层级自适应融合的多模态情感分析方法

技术领域

本发明涉及基于文本指导的层级自适应融合的多模态情感分析方法，属于自然语言处理领域。

背景技术

随着互联网技术的发展，近年来，抖音、快手等社交媒体交流方式得到较快发展。越来越多的用户选择使用视频来表达自己的观点和情感，这些视频提供了大量的多模态数据。多模态情感分析(Multimodal Sentiment Analysis，MSA)也因此受到越来越多的关注，相关的研究已经被广泛应用到各个领域，例如社交媒体舆情监督、个性化推荐等。因此，多模态情感分析具有重要的研究意义和应用价值。

多模态情感分析不仅要充分表征单模态信息，还要考虑不同模态特征之间的交互与融合。Zadeh等人提出了张量融合网络(Tensor Fusion Network,TFN)，同时提出了一种记忆融合网络(Memory Fusion Network,MFN)，该网络使用LSTM来学习特定于视图的交互作用。Tsai等人提出了跨模态变换器，该变换器学习跨模态注意以强化目标模态。Yu等人引入了单峰子任务，以帮助模态表征学习。

尽管这些方法在多模态情感分析领域取得了一定的成功。但在以往的研究中，多模态融合方法通常将三种模态特征看作同等重要，侧重于多模态特征的融合，忽略不同模态对最终的情感分析结果的贡献，对模态重要性信息利用不足，这样可能会造成模态中重要信息的丢失，影响多模态情感分析性能。

发明内容

本发明提供了基于文本指导的层级自适应融合的多模态情感分析方法,以文本模态信息为指导实现多模态信息的层级自适应筛选及融合提升多模态情感分析的性能。

本发明的技术方案是：基于文本指导的层级自适应融合的多模态情感分析方法，所述方法的具体步骤如下：

Step1、准备数据集，对公共数据集数据进行预处理；

Step2、将处理好的数据输入到基于文本指导的层级自适应融合模型，通过特征表示模块对文本、语音、视觉三种模态信息进行表征；通过局部跨模态特征交互模块对获得的文本、语音、视觉三种特征提取模态相关特征；通过全局多模态交互模块采用门控机制过滤模态相关特征获得模态特有特征；通过局部-全局特征融合模块对模态相关特征和模态特有特征进行有效的融合。

作为本发明的进一步方案，所述Step1的具体步骤为：

Step1.1、下载CMU-MOSI数据集，其中CMU-MOSI数据集包括2199个简短的独白视频剪辑，每个视频片段利用人工对其进行情感分数注释，情感分数取值为[-3,+3]，代表情感强度的极性从极负向到极正向；其中CMU-MOSI训练、验证和测试集分别包含1284、229、686个视频片段；然后通过预处理形成pkl格式文件。

作为本发明的进一步方案，所述Step2中，通过特征表示模块对文本、语音、视觉三种模态信息进行表征具体包括：

Step2.1、多模态语言序列涉及三种模态：文本模态T、语音模态A和视觉模态V，定义输入序列为其中，l_{t,a,v}表示模态的序列长度；采用三个独立的子网络获取三种模态的特征表示；对于文本模态，使用预训练的12层BERT来提取句子表征，并将最后一层中的第一个单词向量作为整个句子的表示；利用BERT获得文本模态的特征表示，文本模态特征表示如下：

H_t＝BERT(F_t,θ^bert)

其中，H_t表示文本模态特征,l_t表示文本模态的序列长度，d_t表示文本模态的特征维度，θ^bert为BERT模型的网络参数；

对于语音模态和视觉模态，使用单向LSTM来获取两种模态相对应的时间特征，采用最后一层的隐藏时刻状态作为整个序列的表示；F_a，F_v分别通过单向LSTM，得到语音模态特征表示和视觉模态特征表示，语音模态和视觉模态的特征表示如下：

其中，表示语音模态特征，/>表示视觉模态特征，l_a，l_v分别表示语音模态和视觉模态的序列长度，d_a,d_v分别表示语音模态和视觉模态的特征维度,θ^lstm为LSTM模型的网络参数。

作为本发明的进一步方案，所述Step2中，所述通过局部跨模态特征交互模块对获得的文本、语音、视觉三种特征提取模态相关特征具体包括：

Step2.2、利用跨模态注意力机制学习文本模态与非文本模态之间的相关性；当有两种模态视觉模态V和文本模态T，特征表示为H_v、H_t，文本模态到视觉模态的跨模态注意力Cross-Modal Attention,CM表示如下：

其中，为线性变换权重矩阵，d_k表示Q和K向量的维度，d_V表示V向量的维度，利用两个跨注意力模块获得文本对语音，文本对视觉的两组模态交互特征，此时由文本模态特征H_t提供K和V向量，由语音模态特征H_a，视觉模态特征H_v分别提供Q向量，跨模态交互过程表示如下：

然后连接文本模态特征H_t，文本语音交互特征文本视觉交互特征/>并将它们映射到低维空间中，过程表示如下：

其中，d_t表示文本模态的特征维度，d_a,d_v分别表示语音模态和视觉模态的特征维度，d_m表示低维空间维度，ReLU为激活函数,H_m为三种模态的相关特征。

作为本发明的进一步方案，所述Step2中，所述通过全局多模态交互模块采用门控机制过滤模态相关特征获得模态特有特征具体包括：

Step2.3、利用门控单元设计了全局多模态特征交互模块，学习不同模态的特有特征，该模块以文本模态为主的相关特征为指导，利用门控机制得到三种模态的特有特征；以语音模态为例，首先将局部跨模态特征交互模块的输出模态相关特征H_m与特征表示模块的输出语音模态特征H_a分别输入两个独立的线性层，两个线性层的输出作为门控单元的输入，利用多模态相关特征过滤出单模态的特有特征，提出的多模态自适应门控模块如下：

λ_a＝sigmoid(W_mH_m+W_aH_a)

其中，λ_a是多模态相关特征和语音特征之间的相似性权重，W_m和W_a是参数矩阵，为语音模态的特有特征；

重复上述步骤2.3得到文本模态和视觉模态的特有特征，分别表示为d_t表示文本模态的特征维度，d_a,d_v分别表示语音模态和视觉模态的特征维度，l_t表示文本模态的序列长度，l_a，l_v分别表示语音模态和视觉模态的序列长度；

然后连接文本特有特征语音特有特征/>视觉特有特征/>并将它们映射到低维空间/>中，过程表示如下：

其中，d_m表示低维空间维度，ReLU为激活函数，/>为不同模态的特有特征。

作为本发明的进一步方案，所述Step2中，所述通过局部-全局特征融合模块对模态相关特征和模态特有特征进行有效的融合具体包括：

Step2.4、经过局部跨模态特征交互模块得到模态相关特征H_m，经过全局多模态交互模块得到模态特有特征然后基于Transformer设计了局部-全局特征融合模块；

首先，将模态相关特征和模态特有特征叠加到矩阵然后，将矩阵M作为Transformer的输入，基于多头自我注意机制，使每个向量学习其他交叉模态表示，综合利用全局多模态特征，实现多模态情感的综合判定；

对于自注意力机制，定义Transformer生成一个新矩阵过程表示如下：

head_iθAttention(QW_i ^q,KW_i ^k,VW_i ^v)

其中，W^o为线性变换权重矩阵，/>表示拼接，θ^att＝{W^q,W^k,W^v，W^o}；

最后获取Transformer的输出，拼接输出向量，送入线性层，得到最终预测结果，过程表示如下：

其中，为经过Transformer后得到的模态相关特性，/>为经过Transformer后得到的模态特有特征，/>d_m为低维空间维度，/>为偏置系数。

本发明的有益效果是：

1、本发明针对多模态情感分析，在考虑模态重要性息的情况下，有效探索不同模态间和模态内的关系提高多模态情感分析准确率。提出一种基于文本模态指导的多模态层级自适应融合方法，以文本模态为指导，实现了多模态信息的层级自适应筛选及融合。

2、通过跨模态注意力机制充分学习模态相关特征，通过多模态自适应门控机制筛选融合模态特有特征，帮助多模态融合和情感预测。

3、在CMU-MOSI,CMU-MOSEI数据集上进行了实验，结果表明本发明显著提高了多模态情感分析性能。

附图说明

图1是本发明CMU-MOSI数据集模态重要性消融实验结果；

图2是本发明提出的基于文本指导的层级自适应融合的多模态情感分析方法流程示意图。

具体实施方式

实施例1：如图1-图2所示，基于文本指导的层级自适应融合的多模态情感分析方法，以CMU-MOSI数据集为例训练模型，所述方法具体步骤如下：

Step1、准备数据集，对公共数据集CMU-MOSI数据进行预处理；

所述Step2的具体步骤如下所示：

H_t＝BERT(F_t,θ^bert)

λ_a＝sigmoid(W_mH_m+W_aH_a)

head_i＝Attention(QW_i ^q,KW_i ^k,VW_i ^v)

为了说明本发明的效果，设置了3组对比实验，第1组是主实验结果，在这个领域和以前的一些工作进行比较，验证多模态情感分析性能的提升。第2组实验是模型消融实验，验证提出的模型有效性。第3组实验是模态重要性消融实验验证文本模态的重要性。

(1)主实验结果

像以前的大多数工作一样使用CMU-MOSI数据集。训练、验证和测试集分别包含1284、229、686个视频片段。参数设置如下表1所示。

表1：模型的参数设置

使用四种评价指标来评估模型的情感分析性能。评价指标分别有：1)平均绝对误差(MAE)2)相关系数(Corr)3)ACC_2，二分类精度；4)F1 Score，对ACC2加权值。上述的指标中，除了MAE，其余的指标越高的分数代表越优秀的表现。为了充分验证提出模型的性能，选取了多模态情感分析中几种主流且性能较高的模型，在相同的实验环境和数据集的条件下，利用上述四种指标来充分讨论性能表现，实验结果如下表2所示。

表2不同模型在CMU-MOSI数据集上的实验结果

分析表2可知本文提出的模型在CMU-MOSI数据集上情感二分类准确率和F1分数这两个评价指标上的表现都要优于其他对比模型。与其他模型对比准确率提升了0.76％～5.62％,，F1值提升了0.7％～5.64％。对比现有先进的Self-MM模型，Acc_2提升了0.76％，F1值提升了0.7％，原因在于本文模型考虑了文本模态的重要性，充分利用了文本模态信息帮助多模态信息融合。对比ICCN模型，Acc_2提升了3.36％，F1提升了3.36％，原因在于本文模型在考虑文本模态重要性的同时，考虑模态信息的相关性和差异性，充分利用了三种模态的相关特征与特有特征，从而使模型性能得以提升。实验结果充分地说明本文模型在多模态情感分类任务上的有效性和先进性。

(2)模型消融实验

本发明针对表2中的训练数据和测试数据对本发明模型和其简化模型性能进行测试，实验结果如下表3所示：

1.(-)跨模态注意力：在完整模型基础上移除局部跨模态交互模块(以文本模态为指导)。

2.(-)门控单元：在完整模型基础上移除全局多模态交互模块。

3.(-)文本门，(-)语音门，(-)视觉门:在全局多模态交互模块依次移除文本门，语音门，视觉门。

4.相关特征融合：在局部-全局特征融合模块，移除模态特有特征，只使用模态相关特征。

5.特有特征融合：在局部-全局特征融合模块，移除模态相关特征，只使用模态特有特征。

表3 CMU-MOSI数据集模型消融实验结果

1.当去除单模态交互模块后，准确率和F1分数都有所下降。结果表明，局部跨模态交互模块有效地减少不同模态之间的差异性，从非文本模态中学习到了文本模态的互补特征。

2.当去除全局多模态交互模块或文本门控网络、语音门控网络、视觉门控网络，准确率和F1分数都有所下降。由此说明全局多模态交互模块学习到了不同模态的特有特征，为情感预测提供了额外的信息。结果表明，多模态自适应门控机制对过滤单模态特征的特有信息很有帮助。

3.全局-局部特征融合模块中，只融合相关模态时或只融合特有模态时，准确率和F1分数都有所下降。结果表明，去除模态相关特征或模态特有特征都会影响模型性能，同时融合两种特征时，模型可以学习到更多特征信息，有利于情感预测。

(3)模态重要性消融实验

为了验证不同模态对最终的情感分析结果的重要程度不同，模型分别以文本模态为指导模态(Text attention),以语音模态为指导模态(Audio attention)，以视觉模态为指导模态(Visual attention)，分别对其进行情感分析实验并对实验结果进行比较。实验结果如下图1所示。

图1实验结果表明，以文本模态为指导模态时，模型性能最好，以语音模态为指导模态时或以视觉模态为主要模态时，情感分析的准确率及F1分数都有明显的下降。由此说明，在多模态情感分析任务中，不同模态对最终的情感分析结果的重要程度不同。其中文本模态对情感分析结果贡献最大，反映了文本模态的重要性。

本发明提取文本、语音、视觉三种模态特征，然后采用跨模态注意力机制以文本模态信息为指导实现两两模态之间的表征，获取文本密切相关的语音特征和视觉特征；然后采用多模态自适应门控机制使用模态相关特征对三种单模态特征进行有效筛选，获取三种模态特有特征；接着采用多模态层级融合策略综合多模态特征和模态重要信息；最后输出使用线性变换去预测情感极性。

通过以上实验证明了本发明通过引入局部跨模态交互模块，解决模态间信息融合不充分问题。以贡献程度较大的文本模态为指导模态，以贡献程度较小的语音模态和视觉模态为辅助模态，利用跨模态注意力机制实现两两模态间的重要性信息表征，然后基于多模态自适应门控机制实现多模态重要信息指导下的多模态层级自适应融合，最后同时应用模态相关特征与模态特有特征，充分探索了模态间和模态内的相关关系。实验表明本发明的方法相比多个基线模型取得了更优的结果。针对多模态情感分析任务，本发明提出的基于文本指导的层级自适应融合的多模态情感分析方法对多模态情感分析性能的提升是有效的。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于文本指导的层级自适应融合的多模态情感分析方法，其特征在于：所述方法的具体步骤如下：

Step1、准备数据集，对公共数据集数据进行预处理；

Step2、将处理好的数据输入到基于文本指导的层级自适应融合模型，通过特征表示模块对文本、语音、视觉三种模态信息进行表征；通过局部跨模态特征交互模块对获得的文本、语音、视觉三种特征提取模态相关特征；通过全局多模态交互模块采用门控机制过滤模态相关特征获得模态特有特征；通过局部-全局特征融合模块对模态相关特征和模态特有特征进行有效的融合；

所述Step2中，通过特征表示模块对文本、语音、视觉三种模态信息进行表征具体包括：

H_t＝BERT(F_t,θ^bert)

其中，表示语音模态特征，/>表示视觉模态特征，l_a，l_v分别表示语音模态和视觉模态的序列长度，d_a,d_v分别表示语音模态和视觉模态的特征维度,θ^lstm为LSTM模型的网络参数；

所述Step2中，所述通过局部跨模态特征交互模块对获得的文本、语音、视觉三种特征提取模态相关特征具体包括：

其中，d_t表示文本模态的特征维度，d_a,d_v分别表示语音模态和视觉模态的特征维度，d_m表示低维空间维度，ReLU为激活函数,H_m为三种模态的相关特征；

所述Step2中，所述通过全局多模态交互模块采用门控机制过滤模态相关特征获得模态特有特征具体包括：

λ_a＝sigmoid(W_mH_m+W_aH_a)

其中，d_m表示低维空间维度，ReLU为激活函数，/>为不同模态的特有特征；

所述Step2中，所述通过局部-全局特征融合模块对模态相关特征和模态特有特征进行有效的融合具体包括：

head_i＝Attention(QW_i ^q,KW_i ^k,VW_i ^v)

2.根据权利要求1所述的基于文本指导的层级自适应融合的多模态情感分析方法，其特征在于：所述Step1的具体步骤为：