CN116168324A

CN116168324A - 基于循环交互Transformer与维度交叉融合的视频情感识别方法

Info

Publication number: CN116168324A
Application number: CN202310128601.XA
Authority: CN
Inventors: 龚沛朱; 刘晋; 吴中岱; 韩冰
Original assignee: Shanghai Maritime University; Shanghai Ship and Shipping Research Institute Co Ltd
Current assignee: Shanghai Maritime University; Shanghai Ship and Shipping Research Institute Co Ltd
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-05-26

Abstract

本发明公开了一种基于循环交互Transformer与维度交叉融合的视频情感识别方法，解决了视频情感识别过程中，多模态特征表达不准确，交互不充分及交互过程对时序依赖敏感度高的问题，其技术方案要点是使用模态特定嵌入层，针对视频中的多模态信息分别提取高层的抽象特征，将抽象特征传入提出的循环交互Transformer网络中，设计一种循环交互注意力机制促进多模态特征充分交互，并提出一种维度交叉融合方法，将高维信息通过因子分解方法沿长，宽，通道三个维度分别映射到不同的子空间中，本发明的一种基于循环交互Transformer与维度交叉融合的视频情感识别方法，有利于增强关键信息的表达力及模型的鲁棒性，能充分利用多模态中存在的有效信息，提升了情感识别的识别率。

Description

基于循环交互Transformer与维度交叉融合的视频情感识别方法

技术领域

本发明涉及多模态情感计算技术，特别涉及一种基于循环交互Transformer与维度交叉融合的视频情感识别方法。

背景技术

情感计算，又名主观性分析，通常是指利用统计学知识和深度学习技术研究旨在确定场景中某对象对于某一主题或事件的观点态度，判断其情绪状态。目前，已有大量研究分别对文本，音频，视频等模态进行情感分析。然而单单针对单种模态的数据，如文本，进行情感分析往往会有数据不全面、易受噪声污染等一系列缺陷，因此将多种模态数据结合进行有效表达和分析成了现今趋势。

在多模态情感计算任务中往往涉及多种模态的原始数据，如图像，文本，音频等。由于不同的模态具有不同的统计属性，并且分布在不同的特征空间，大量的研究已分别为单模态特征表示设计了各种深度学习方法。例如，图像数据通常由分层的空间网络处理，而文本数据则由序列网络编码。然而，高层语义概念和低层数据之间的差异导致了模态内嵌入之间的语义差距。为了缩小此差距，自监督嵌入模型被引入来表示不同模态的数据。在大量未标记数据上进行预训练后，自监督嵌入模型具有很强的泛化能力。然而此过程中，由长距离依赖引起的表征的不一致问题往往被忽视，这对模态内语义信息的维护是不利的。

多模态情感计算模型的输入通常由多个序列组成，这些序列以严格的时间顺序排列进行互动。在序列任务中，通常会结合递归神经网络与注意力机制来捕获时间序列上的动态交互。然而，这种按照时间步将多模态数据严格对齐的计算方法会导致较早出现的信息被更晚出现的信息所干扰，甚至覆盖。为了解决这个问题，记忆网络通过构建了一个具有复杂结构的存储单元来实现关键信息回溯，但它仍无法解决多模态信息交互对时序依赖敏感度高的问题。

根据多模态信息融合时期不同，可分为特征级融合和决策级融合。特征级融合是指将多模态特征(文本、图像、音频等)进行组合，然后作为分类器回归器的输入。特征级融合的优势在于早期阶段各种多模态特征之间的相关性可以潜在地提供更好的完成任务；而缺点是就是需要对特征进行统一化处理。而在决策级融合中，各模态的特征学习依旧是各自分开的，只是在最后进行预测时，会添加一个融合机制，该机制的作用是通过数据的标签学习得到一个权重矩阵，该权重矩阵可以判断每次分类的过程中，哪一种模态的表示信息应该占据更大的比重。决策级融合方式的优点在于，每个模态都可以选用自己最适合的特征抽取器来抽取特征表示向量，但其缺陷是模态之间的信息交互太过表面化。

当前的视频多模态情感识别任务中，仍存在多模态信息特征表达不准确问题，多模态信息交互不充分问题及多模态信息交互对时序依赖敏感度高的问题。

发明内容

本发明的目的是提供一种基于循环交互Transformer与维度交叉融合的视频情感识别方法，能充分利用多模态中存在的有效信息，提升了情感识别的识别率。

本发明的上述技术目的是通过以下技术方案得以实现的：

一种基于循环交互Transformer与维度交叉融合的视频情感识别方法，包括有以下步骤：

S1、基于视频中的多模态情感数据，使用预训练的自监督神经网络模型作为模态特定嵌入层，分别对图像、音频和文本数据进行特征提取；

S2、基于嵌入修正算法将提取的多模态特征向量修正转化为统一表征；

S3、通过循环交互注意力机制获取修正后多模态特征向量的跨模态信息，引入并构建循环矩阵；

S4、在循环交互注意力机制的基础上增加残差连接与前馈层，封装为循环交互注意力模块，堆叠多个循环交互注意力模块以构建循环交互Transfomer网络，获取跨模态信息，完成多模态特征交互；

S5、基于维度交叉融合，将得到的交互结果通过因子分解法沿长、宽、通道三个维度分别映射到不同的子空间中，得到最终融合结果，用于识别预测。

作为优选，步骤S1中进行特征提取的特征提取器均进行预训练，通过迁移学习获取；

图像信息的特征提取器结构，基于自监督神经网络模型Fab-Net，在大规模人脸数据集上进行预训练；

音频信息的特征提取器结构，基于自监督神经网络模型Wav2Vec，在大规模语音识别数据集上进行预训练；

文本信息的特征提取器结构，基于自监督神经网络模型RoBERTa，在大规模文本数据集上进行预训练。

作为优选，步骤S2中嵌入修正算法具体为：

输入{Xⁱ}_i∈A,V，表示音频(A)或图像(V)序列；

初始化特殊记号CLS←[]；

进行分句切片，形成语句序列Seq←[s₁,s₂,…,s_m]；

将特殊记号CLS与原始数据序列进行拼接Concate([CLS],Seq)；

对序列位置进行编码Pos＝[p₀,p₁,p₂,…,p_n]；

将位置信息融入数据序列

迭代M次；

获取查询向量Q，Q＝W_Q·I_seq、键向量K，K＝W_K·I_seq、值向量V,V＝W_V·I_seq，其中W_Q,W_K,W_V为可学习的权重参数；

计算查询向量Q与键向量K的相似性

获得最终的模态信息特征向量O^seq

返回O^seq。

作为优选，步骤S3中的循环矩阵构建方法具体为：

对文本序列数据O^T，将文本序列数据记为

其中n为序列长度，则可构造循环矩阵：

其中mat_T(.)为循环矩阵构造方法。

作为优选，步骤S3中的循环交互注意力机制具体为：

实现文本数据与

与音频数据/>

之间的交互，其中N(.)表示特征向量的长度，d(.)表示特征通道数，将文本模态作为目标模态，借助循环交互注意力机制CIT从音频模态中获取跨模态信息的过程为：

其中

表示查询向量，由文本特征序列O^T计算所得，/>

是可学习参数权重；/>

表示键向量，由音频特征序列O^A计算所得，/>

是可学习参数权重；

表示值向量，由音频特征序列O^A计算所得，/>

是可学习参数权重；mat_T(Q^T)_i表示循环矩阵的行向量。

作为优选，以文本模态作为目标模态，通过循环交互Transformer网络从音频模态中获取跨模态信息的完整过程可表示为

其中MLP表示全连接神经网络，

表示第i层的带有多头的循环交互注意力机制。

作为优选，步骤S5中的维度交叉融合方法具体为：

包含三个分支，每个分支负责捕捉输入特征图的空间维度高H或宽W与通道维度C之间的交叉特征及依赖关系；

在分支一中向高度H与通道C构成的平面进行投射，探索(H,C)之间的交互，首先将μ沿着H轴逆时针旋转90°，得到旋转后的新特征张量表示为

随后对μ₁的第1维度进行综合池化，缩减得到张量/>

经过一个卷积层和全连接层，并通过sigmoid激活函数得到注意力权重矩阵/>

其中每个元素的值都在0-1之间；

在分支二中向宽度W与高度H构成的平面进行投射，探索(W,H)之间的交互，首先将μ沿着W轴逆时针旋转90°，得到旋转后的新特征张量表示为

与分支①类似的，对μ₂的第1维度进行综合池化，缩减得到张量/>

并经过一个卷积层和全连接层，通过sigmoid激活函数得到注意力权重矩阵/>

其中每个元素的值都在0-1之间；

在分支三中向宽度W与通道C构成的平面进行投射，探索(W,C)之间的交互，该分支不需旋转，对μ的第1维度进行综合池化，缩减得到张量

其中每个元素的值都在0-1之间；

对三个分支的结果进行对位相加取平均，得到最终的融合结果。

作为优选，张量的计算具体为：

μ_max＝MaxPool_1d(μ)，μ_avg＝AvgPool_1d(μ)

其中Concate(.)表示拼接，MaxPool_1d(.)表示一维最大池化，AvgPool_1d(.)表示一维平均池化；

最终的融合结果具体为：

其中rotate(.)表示旋转，σ表示sigmoid非线性激活函数，ψ₁,ψ₂,ψ₃分别表示三个不同的二维卷积层。

综上所述，本发明具有以下有益效果：

使用模态特定嵌入层，针对视频中的多模态信息，包括图像，音频和文本分别提取高层的抽象特征，将抽象特征传入提出的循环交互Transformer网络中，该网络基于原始的Transformer神经网络框架,设计了一种循环交互注意力机制促进多模态特征充分交互，通过构建循环矩阵，从而尽可能探索出所有多模态特征交互的组合，同时也削弱了多模态交互对时序的敏感度，提出了一种维度交叉融合方法，将高维信息通过因子分解方法沿长，宽，通道三个维度分别映射到不同的子空间中，从而解决视频情感分析中多模态特征冗余问题，并有利于增强关键信息的表达力及模型的鲁棒性，充分利用了多模态中存在的有效信息，提升了情感识别的识别率。

附图说明

图1为本方法的流程示意图；

图2为本发明中嵌入修正算法的示意图；

图3为本发明中循环交互注意力机制的结构图；

图4是本发明中循环交互Transformer的网络结构图；

图5是本发明中维度交叉融合的结构示意图；

图6是本发明在情感识别数据集IEMOCAP上的识别混淆矩阵图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

根据一个或多个实施例，公开了一种基于循环交互Transformer与维度交叉融合的视频情感识别方法，如图1所示，包括有以下步骤：

S1、基于视频中的多模态情感数据，使用预训练的自监督神经网络模型作为模态特定嵌入层，分别对图像、音频和文本数据进行特征提取。

进行特征提取的特征提取器均进行预训练，通过迁移学习获取。具体的：

图像信息的特征提取器结构，基于自监督神经网络模型Fab-Net，在大规模人脸数据集上进行预训练；具体的，本实例中的自监督神经网络模型Fab-Net是在VoxCeleb数据集上进行预训练的，以学习人脸属性作为辅助任务，包括关键点检测、面部肌肉动作,表情等，其嵌入向量的维度为256，最大序列长度为300。

音频信息的特征提取器结构，基于自监督神经网络模型Wav2Vec，在大规模语音识别数据集上进行预训练；具体的，本实例中的自监督神经网络模型Wav2Vec在librisspeech数据集上进行预训练，该网络包含3.35M参数，其嵌入大小为512，最大序列长度为935。

文本信息的特征提取器结构，基于自监督神经网络模型RoBERTa，在大规模文本数据集上进行预训练；具体的，本实例中的自监督神经网络模型RoBERTa由24层Transformer编码器组成，模型包含355M参数，在英文文本数据集CC-NEWS，OPENWEBTEXT和STORIES上进行预训练，其嵌入向量维度为1024，最大序列长度为512。

S2、基于嵌入修正算法将提取的多模态特征向量修正转化为统一表征，有利于多模态信息的跨模态交互以及融合。

如图2所示，该嵌入修正算法中引入了一个特殊标记CLS，并利用多头自注意力机制将模态内部特征信息进行统一编码。

其中，嵌入修正算法具体为：

输入{Xⁱ}_i∈A,V，表示音频(A)或图像(V)序列；

初始化特殊记号CLS←[]；

进行分句切片，形成语句序列Seq←[s₁,s₂,…,s_m]；

将特殊记号CLS与原始数据序列进行拼接Concate([CLS],Seq)；

对序列位置进行编码Pos＝[p₀,p₁,p₂,…,p_n]；

将位置信息融入数据序列

迭代M次；

计算查询向量Q与键向量K的相似性

获得最终的模态信息特征向量O^seq

返回O^seq。

S3、通过循环交互注意力机制获取修正后多模态特征向量的跨模态信息，引入并构建循环矩阵；修正后的多模态特征向量通过该机制，可以借助跨模态特征强化当前模态特征的表达能力，并通过引入与构建循环矩阵以削弱多模态特征对于时序的依赖性。

其中，

如图3所示，循环矩阵构建方法具体为：

以文本序列数据为例，对文本序列数据O^T，将文本序列数据记为

其中n为序列长度，则可构造循环矩阵：

其中mat_T(.)为循环矩阵构造方法。

循环交互注意力机制具体为：

以文本数据与音频数据为例，实现文本数据与

与音频数据

之间的交互，其中N(.)表示特征向量的长度，d(.)表示特征通道数，将文本模态作为目标模态，借助循环交互注意力机制CIT从音频模态中获取跨模态信息的过程为：/>

其中

表示查询向量，由文本特征序列O^T计算所得，/>

是可学习参数权重；/>

表示键向量，由音频特征序列O^A计算所得，/>

是可学习参数权重；

表示值向量，由音频特征序列O^A计算所得，/>

是可学习参数权重；mat_T(Q^T)_i表示循环矩阵的行向量。

S4、在循环交互注意力机制的基础上增加残差连接与前馈层，封装为循环交互注意力模块，堆叠多个循环交互注意力模块以构建循环交互Transfomer网络，获取跨模态信息，完成多模态特征交互。其中每个模块在抽象高级语义特征的同时也最大限度保留了上一层的低级语义信息，这样细粒度的特征表达能够有效提升模型效果。

如图4所示，循环交互Transformer网络的具体计算方法为：

以文本模态作为目标模态，通过循环交互Transformer网络从音频模态中获取跨模态信息的完整过程可表示为

其中MLP表示全连接神经网络，

表示第i层的带有多头的循环交互注意力机制。

S5、基于维度交叉融合，将得到的交互结果通过因子分解法沿长、宽、通道三个维度分别映射到不同的子空间中，得到最终融合结果，用于识别预测。从而解决视频情感分析中多模态特征冗余问题，并有利于增强关键信息的表达力及模型的鲁棒性。

如图5所示，设计了一种维度交叉融合方法，维度交叉融合方法具体为：

图5中从左至右，具体地，当输入特征张量表示为

在分支一中向高度H与通道C构成的平面进行投射，探索(H,C)之间的交互，首先将μ沿着H轴逆时针旋转90°，得到旋转后的新特征张量表示为/>

随后对μ₁的第1维度进行综合池化，缩减得到张量/>

其中每个元素的值都在0-1之间；

其中每个元素的值都在0-1之间；

其中每个元素的值都在0-1之间；

张量的计算具体为：

μ_max＝MaxPool_1d(μ)，μ_avg＝AvgPool_1d(μ)

最终的融合结果具体为：

为表述清楚，现举一实例：

本实例种使用了公开情感计算数据集IEMOCAP。该数据集包含了五组对话和十个男女演员，其中每一组对话都会由两个固定的演员进行。IEMOCAP包含大约12个小时的视听数据，包括视频，语音，转录的文本以及面部表情。数据集标签包括愤怒，快乐，悲伤，中性，兴奋，沮丧，恐惧，惊讶7种类别。

由于该数据集在每种类别之间的分布是不均匀的，因此选取了其中四个最为常见的标签，即快乐(Happy)，悲伤(Sad)，生气(Anger)和平淡(Neutral)。将数据集分为训练集，验证集和测试集，将前四组对话用作训练和验证，最后一个对话进行测试。因此，测试集中的两个演员是不会在训练集合验证集中出现的。这种分割方式也使得在评估情感分析效果时排除了与说话人有关的干扰。其统计信息见表1：

数据集	类别数	训练集数量	验证集数量	测试集数量
					IEMOCAP	4	2,717	789	938

表1

根据IEMOCAP数据集的数据量和种类数，本实例中的模型参数具体呈现在表2：

批量大小	32
		初始学习率	3.00E-04
学习率策略	Adam
		自注意力块数量	2
跨模态注意力块数量	2
		自注意力头数量	4
跨模态注意力头数量	4
		Dropout率	0.1
训练轮数	20

表2

表3为多模态情感识别模型的精度比较

表3

从表3可以看出本发明设计的模型在准确率Acc和F1-score评价指标上的表现都优于现有模型。其中CTC表示联结主义时间分类机制,将CTC与模型结合能使该模型在无监督的情况下进行端到端的训练并推断出语音与文本之间的对齐关系。

如图6所示，展现了本发明涉及模型在IEMOCAP数据集上的准确率混淆矩阵。从图中可以看出，快乐(Happy)拥有最高的识别准确率达到83.3，最难识别的是平淡(Neutral)。此外，生气(Angry)最有可能被误判为快乐(Happy)，我们推测或许是因为这两种表情的面部肌肉变化幅度都比较大。

通过本发明中提出的方法能够充分利用视频中各种模态信息进行交互，并有效融合，同时提升了对情感识别的准确性。

本具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。