CN114329036A

CN114329036A - 一种基于注意力机制的跨模态特征融合***

Info

Publication number: CN114329036A
Application number: CN202210256553.8A
Authority: CN
Inventors: 王青; 兰浩源; 刘阳; 林倞
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-04-12
Anticipated expiration: 2042-03-16
Also published as: CN114329036B

Abstract

本发明提供一种基于注意力机制的跨模态特征融合***，该***基于音频和视频图像两者信息的互补关系，提出了用有监督对比学习作为框架的方法来提取音视频两个模态的特征，同时构建了音视频关联分析模块，实现音视频对齐，并设计了一种基于注意力机制的跨模态特征融合模块，以实现音视频特征的融合。将音频和RGB图片作为输入来达到对视频表示进行学习的目的。

Description

一种基于注意力机制的跨模态特征融合***

技术领域

本发明涉及音、视频处理技术领域，更具体地，涉及一种基于注意力机制的跨模态特征融合***。

背景技术

对于视频表示学***面上的像素运动的瞬时速度，是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。由于光流较好的包含了视频的运动信息，因此大部分的研究人员将光流作为一个模态来提升视频表示学习的性能。

尽管RGB图像包含了视频的静态信息，光流包含了视频的动态信息，然而，光流也是基于RGB图像生成的模态，并不完全独立于RGB图像模态；而在现有的3D卷积网络当中，对输入的图像片段也能较好的提取其中的动态信息。因此，光流模态的利用达到的瓶颈。而在视频中，除了丰富的图片信息以外，也存在大量有效的声音信息。比如在“砍树”这一行为中，往往也伴随着砍伐树木的声音；在“打棒球”这一行为中，同时也伴随着球棒敲击棒球的声音近的一些研究也证明了音频的有效性。在以往的相关工作中，多采用通过音视频是否对齐以及音视频是否属于同一样本来对网络进行训练。这样的方法虽然能够较好的进行模态之间的信息交互，但却不能解决类内样本差异大，而类间样本差异小的问题。这些方式虽然能学到较好的特征，但有一个不足是之处：没有考虑到属于同一个类别动作之间特征的相关性。

现有技术中公开了一种基于多模深度学习的双模态情感识别方法的专利，该方法分别获得音频和视频RGB图像三通道输入矩阵，获得音频数据样本和视频数据样本；构建音频深度卷积神经网络和视频深度卷积神经网络，获得高层次音频特征和获得高层次视频特征；建立由全连接层构成的融合网络，构建高层次音视频统一特征；将融合网络最后一层全连接层输出的音视频统一特征聚合成全局特征，将全局特征输入到分类器中，获得音视频情感识别分类结果；采用了全连接层构成的融合网络，实现对音视频情感信息的融合，构建高层次的音视频统一特征表示，有效地提高音视频情感识别性能。但是，此发明没有涉及任何有关将音频和RGB图片作为输入来达到对视频表示进行学习的技术内容。

发明内容

本发明提供一种基于注意力机制的跨模态特征融合***，该***实现音视频特征的融合，将音频和RGB图片作为输入来达到对视频表示进行学习。

为了达到上述技术效果，本发明的技术方案如下：

一种基于注意力机制的跨模态特征融合***，包括：

音视频关联分析模块，用于对音频和视频RGB图像两个模态进行对齐；

有监督对比学习模块，用于音频和视频RGB图像两个模态提取模态的特征；

跨模态特征融合模块，用于利用模态之间的相关知识来学习全局上下文表示。

进一步地，音视频关联分析模块从一段视频i中连续采集16帧RGB图像所产生的RGB片段v_i作为RGB图像模态的输入；此时，一段视频中仅采样一个片段，为了充分利用一段视频中的有效音频信息，将整段视频i中所提取的音频转换为该段视频的梅尔频谱图a_i作为音频模态的输入；其中，i=1,···,N。

进一步地，有监督对比学习模块的具体处理过程是：

1）、模态特征提取：视频i的RGB片段v_i经过以r3d为基础框架的3D卷积网络后提取的特征为

，对应音频的梅尔频谱图a_i经过音频的3D卷积网络后提取的特征为

；

2）、自监督对比学习生成自监督对比损失；

3）、有监督对比学习生成有监督对比损失。

进一步地，自监督对比学习生成自监督对比损失的具体过程是：

正对{

,

}_i=1,···,N表示为：来源于同一个视频 i的RGB片段特征

和对应音频所产生的梅尔频谱图特征

；负对{

,

}_{i,j=1,···,N且i≠j}∪{

,

}_{i,j=1,···,N且i≠j}表示为：来源于视频 i产生的RGB片段特征

，和所有来源于视频j(i≠j)所产生的RGB片段特征

以及梅尔频谱图特征

；视频的RGB图像模态的自监督对比损失表示为：

其中，

是标量温度参数，其中分子为所有正对样本距离和，分母为所有正对以及负对样本距离和；

同理，音频模态的自监督对比损失为：

由公式(1) (2)得出整体自监督对比损失为：

。

进一步地，有监督对比学习生成有监督对比损失的具体过程是：

正对{

,

}_{i,j=1,···,N且yi=yj}∪{

,

}_{i,j=1,···,N且i≠j且yi=yj}表示为：

和所有来源于同一类别的视频 i和视频j的RGB片段特征

以及音频所产生的梅尔频谱图特征

，

；其余的都为负对；有监督对比损失公式如下：

视频的RGB图像模态的有监督对比损失表示为：

其中，

同理，音频模态的有监督对比损失为：

由公式(4) (5)得出整体有监督对比损失为：

。

进一步地，跨模态特征融合模块接收来自不同模态的特征并学习全局上下文嵌入，然后该嵌入用于重新校准来自不同片段的输入特征，使用从有监督对比学习框架中学习到的视频片段特征作为输入，将经过融合后的特征作为输出，通过交叉熵计算融合部分的损失函数。

进一步地，跨模态特征融合模块的具体处理过程是：

一个视频i的两个模态分别为v_i和a_i，从有监督对比学习框架中经过三维卷积网络提取的特征是{

,

}，为了利用这两个模态之间的相关性，连接这两个特征向量并通过全连接层获得联合表示：

其中 [·，·] 表示连接操作，

表示联合表示，W_s和b_s是全连接层的权重和偏差；选择

来限制模型容量并增加其泛化能力，为了利用在联合表示Z_u中聚合的全局上下文信息，通过一个全连接层预测它的激励信号：

其中W_e和b_e是全连接层的权重和偏差，在获得激励信号

后，使用它通过简单的门控机制自适应地重新校准输入特征

，

：

其中⊙是通道维度中每个元素的通道乘积运算，δ(·)是线性整流函数，通过这种方式，允许一个片段的特征重新校准另一个片段的特征，同时保持不同片段之间的相关性；

这两个细化的特征向量{

,

}被连接并输入到带有归一化指数函数soft-max的全连接层中作为分类输出，用交叉熵损失用于衡量分类的正确性：

其中y_i和p_i分别代表样本在真实情况和预测中属于类i的概率，C表示所有可能顺序的数量；

整体损失函数由式 (6) 和式 (10) 组合得到，其中λ_sup和λ_cross分别控制

和

的贡献，如下：

。

进一步地，每个视频的片段由大小为

的帧组成，其中c是通道数，l是帧数，h和w表示帧的高度和宽度。

进一步地，3D卷积核的大小是t×d×d，其中t是时间长度，d是空间大小；将视频RGB图像序列定义为

，其中v_i为从一个视频 i(i=1,...,N)中连续采样 m 帧产生的一个RGB片段。

进一步地，音频模态为一段视频的整段音频通过短时傅里叶变换生成的梅尔频谱图；视频RGB图像的一个片段和整段视频生成的梅尔频谱图对齐作为输入；音频梅尔频谱图序列表示为

，其中a_i为从一个视频 i 中提取的音频所生成的一个梅尔频谱图。

与现有技术相比，本发明技术方案的有益效果是：

本发明基于音频和视频图像两者信息的互补关系，提出了用有监督对比学习作为框架的方法来提取音视频两个模态的特征，同时构建了音视频关联分析模块，实现音视频对齐，并设计了一种基于注意力机制的跨模态特征融合模块，以实现音视频特征的融合。将音频和RGB图片作为输入来达到对视频表示进行学习的目的。

附图说明

图1为本发明***总体处理过程框图；

图2为本发明中音视频对比学习示例图；

图3为本发明中有监督对比学习(SCL)处理过程框架图；

图4为本发明中跨模态特征融合模块(MFAM) 处理过程框架图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于注意力机制的跨模态特征融合***，包括：

音视频关联分析模块从一段视频i中连续采集16帧RGB图像所产生的RGB片段v_i作为RGB图像模态的输入；此时，一段视频中仅采样一个片段，为了充分利用一段视频中的有效音频信息，将整段视频i中所提取的音频转换为该段视频的梅尔频谱图a_i作为音频模态的输入；其中，i=1,···,N。

有监督对比学习模块的具体处理过程是：

；

2）、自监督对比学习生成自监督对比损失；

3）、有监督对比学习生成有监督对比损失。

通过音视频关联分析（AVCA）模块对音频和视频RGB图像两个模态进行对齐。该模块中，对于每个视频，分为视频RGB图像模态和音频模态两个部分作为输入。视频RGB图像模态为，一段视频随机采样连续的16帧为一个片段。音频模态为，一段视频的整段音频通过短时傅里叶变换生成的梅尔频谱图。此时视频RGB图像的一个片段和整段视频生成的梅尔频谱图对齐作为输入。

在有监督对比学习（SCL）模块中，分别利用两个不同的三维卷积神经网络（3DCNN）为视频RGB图像片段和音频梅尔频谱图提取时空特征，并且所有3D CNN共享相同的权重。然后，为两个模态所产生的特征设计有监督对比损失，以增强同类样本表示学习的判别能力。

在多模态融合中，引入基于注意力机制的跨模态特征融合模块（MFAM），从有监督对比学习框架中学习到的特征通过MFAM模块自适应传播，并自适应地重新校准通道特征。将校准后特征联接后通过交叉熵计算损失函数。

实施例2

有监督对比学习模块的具体处理过程是：

；

2）、自监督对比学习生成自监督对比损失；

3）、有监督对比学习生成有监督对比损失。

自监督对比学习生成自监督对比损失的具体过程是：

正对{

,

}_i=1,···,N表示为：来源于同一个视频 i的RGB片段特征

和对应音频所产生的梅尔频谱图特征

；负对{

,

}_{i,j=1,···,N且i≠j}∪{

,

}_{i,j=1,···,N且i≠j}表示为：来源于视频 i产生的RGB片段特征

，和所有来源于视频j(i≠j)所产生的RGB片段特征

以及梅尔频谱图特征

；视频的RGB图像模态的自监督对比损失表示为：

其中，

同理，音频模态的自监督对比损失为：

由公式(1) (2)得出整体自监督对比损失为：

。

有监督对比学习生成有监督对比损失的具体过程是：

正对{

,

}_{i,j=1,···,N且yi=yj}∪{

,

}_{i,j=1,···,N且i≠j且yi=yj}表示为：

和所有来源于同一类别的视频 i和视频j的RGB片段特征

以及音频所产生的梅尔频谱图特征

，

；其余的都为负对；有监督对比损失公式如下：

视频的RGB图像模态的有监督对比损失表示为：

其中，

同理，音频模态的有监督对比损失为：

由公式(4) (5)得出整体有监督对比损失为：

。

跨模态特征融合模块接收来自不同模态的特征并学习全局上下文嵌入，然后该嵌入用于重新校准来自不同片段的输入特征，使用从有监督对比学习框架中学习到的视频片段特征作为输入，将经过融合后的特征作为输出，通过交叉熵计算融合部分的损失函数。

跨模态特征融合模块的具体处理过程是：

,

其中 [·，·] 表示连接操作，

表示联合表示，W_s和b_s是全连接层的权重和偏差；选择

其中W_e和b_e是全连接层的权重和偏差，在获得激励信号

后，使用它通过简单的门控机制自适应地重新校准输入特征

，

：

这两个细化的特征向量{

,

和

的贡献，如下：

。

实施例3

为了方便描述每个模块，给定 N 个不同的视频，每个视频的片段由大小为

的帧组成，其中c是通道数，l是帧数，h和w表示帧的高度和宽度。3D卷积核的大小是t×d×d，其中t是时间长度，d是空间大小；将视频RGB图像序列定义为

，其中v_i为从一个视频 i (i=1,...,N)中连续采样m 帧产生的一个RGB片段。音频模态为一段视频的整段音频通过短时傅里叶变换生成的梅尔频谱图；视频RGB图像的一个片段和整段视频生成的梅尔频谱图对齐作为输入；音频梅尔频谱图序列表示为

为视频 i 的类别标签。

1）、音视频关联分析（音视频对齐）

声音信号是一维信号，直观上只能看到时域信息，不能看到频域信息。而通过傅里叶变换(FT)可以将其变换到频域，但是丢失了时域信息，无法看到时频关系。为了解决这个问题，产生了很多方法，短时傅里叶变换，小波等都是很常用的时频分析方法。

短时傅里叶变换(STFT)，就是对短时的信号做傅里叶变换。原理如下：对一段长语音信号，分帧、加窗，再对每一帧做傅里叶变换，之后把每一帧的结果沿另一维度堆叠，得到一张图（类似于二维信号），这张图就是声谱图。

由于得到的声谱图较大，为了得到合适大小的声音特征，通常将它通过梅尔尺度滤波器组(Mel-scale filter banks)，变为梅尔频谱。

在以往的音视频对齐中，大部分采用的是一个RGB图像对应一定时间长度音频所产生的梅尔频谱图进行对齐。这种做法虽然能够将两个模态进行对齐，提取了视频的静态图像信息以及音频信息，但忽略了视频本身所包含的时序信息。

为了利用视频的时序信息，本发明将从一段视频i(i=1,...,N)中连续采集16帧RGB图像所产生的RGB片段v_i作为RGB图像模态的输入。此时，一段视频中仅采样一个片段，为了充分利用一段视频中的有效音频信息，将整段视频i中所提取的音频转换为该段视频的梅尔频谱图a_i作为音频模态的输入。

1.1）音视频对比学习

在图像领域中，自监督对比学习已经是一种较为常见的学习方法。它的核心思想是，将来源于同一个样本的数据特征之间的距离尽量靠近，而来源于不同样本的数据特征尽量远离。图像领域中通常是将一张图片通过翻转或者裁剪等操作进行数据的增广，这样产生的图片和原始图片之间形成了一个正对，其他所有图片和原始图片之间形成了负对。通过对比损失使得正对距离近，而负对距离远。

而为了让属于同类动作的特征也彼此接近，有研究者提出了一种新的对比学习方法：有监督对比学习。它的核心思想是，将来源于同一个类别的数据特征之间的距离尽量靠近，而来源于不同类别的数据特征尽量远离。此时正对扩展为了通过原始图片增广产生的图片以及和原始图片具有同一类别信息的图片，负对则为所有和原始图片不属于同一类别的图片。

虽然对比学习方法已经较为广泛的运用于图像学习领域中，也有部分学者将其引入到了视频表示学习当中，但在多模态领域中结合对比学习则是近几年才提出的。而在多模态领域中，大部分学者仅仅把RGB图像以及光流作为两个模态进行学习，将音频作为其中一个模态的更是少之又少。因此，本发明将有监督对比学习引入音视频多模态学习中，使得模型在能够更好的提取不同模态特征的同时，也能够更好地区分类内差异大，类间差异小的样本。

2）模态特征提取

视频i的RGB片段v_i经过以r3d为基础框架的3D卷积网络后提取的特征为

。两个网络的不同之处在于图像输入的通道数。

3）有监督对比学习

3.1）自监督对比学习

如图3所示，有监督对比学习(SCL)框架图：输入为一个视频的RGB图像片段和对应音频产生的梅尔频谱图，输出为经过卷积网络和对比学习之后产生的两个模态特征向量自监督对比学习的核心是，使来源于同一个样本的数据特征之间的距离尽量靠近，而来源于不同样本的数据特征尽量远离。

在本发明中，以视频i的RGB片段特征

为例，正对{

,

}_i=1,···,N表示为：来源于同一个视频 i的RGB片段特征

和对应音频所产生的梅尔频谱图特征

；负对{

,

}_{i,j=1,···,N且i≠j}∪{

,

}_{i,j=1,···,N且i≠j}表示为：来源于视频 i产生的RGB片段特征

，和所有来源于视频j(i≠j)所产生的RGB片段特征

以及梅尔频谱图特征

。如图2所示。此时，视频的RGB图像模态的自监督对比损失表示为：

其中，

同理，音频模态的自监督对比损失为：

由公式(1) (2)得出整体自监督对比损失为：

。

3.2）有监督对比学习

虽然自监督对比学习能够学到较好的特征，但有一个不足是之处：没有考虑到属于同一个类别动作之间特征的相关性；为了让同类动作的特征彼此接近，采用了一种新的对比学习方法：有监督对比学。有监督对比学习的核心是，使来源于同一类别样本的数据特征之间的距离尽量靠近，而来源于不同类别的数据特征尽量远离。

在本发明中，以RGB片段特征

为例，正对{

,

}_{i,j=1,···,N且yi=yj}∪{

,

}_{i,j=1,···,N且i≠j且yi=yj}表示为：

和所有来源于同一类别的视频 i和视频j的RGB片段特征

以及音频所产生的梅尔频谱图特征

，

；其余的都为负对；有监督对比损失公式如下：

视频的RGB图像模态的有监督对比损失表示为：

其中，

同理，音频模态的有监督对比损失为：

由公式(4) (5)得出整体有监督对比损失为：

。

4）多模态融合

如图4所示，为了使不同模态之间的信息进行更好的融合，提出了一种基于注意力机制的跨模态特征融合（MFAM）模块。由于来自不同模态的特征是相关的，构建了一个跨模态特征融合模块，该模块接收来自不同模态的特征并学习全局上下文嵌入，然后该嵌入用于重新校准来自不同片段的输入特征，如图4所示。使用从有监督对比学习框架中学习到的视频片段特征作为输入，将经过融合后的特征作为输出，通过交叉熵计算融合部分的损失函数。

为了固定符号，假设一个视频i的两个模态分别为v_i和a_i，从有监督对比学习框架中经过三维卷积网络提取的特征是{

,

其中 [·，·] 表示连接操作，

表示联合表示，W_s和b_s是全连接层的权重和偏差；选择

其中W_e和b_e是全连接层的权重和偏差，在获得激励信号

后，使用它通过简单的门控机制自适应地重新校准输入特征

，

：

这两个细化的特征向量{

,

和

的贡献，如下：

。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于注意力机制的跨模态特征融合***，其特征在于，包括：

2.根据权利要求1所述的基于注意力机制的跨模态特征融合***，其特征在于，音视频关联分析模块从一段视频i中连续采集16帧RGB图像所产生的RGB片段v_i作为RGB图像模态的输入；此时，一段视频中仅采样一个片段，为了充分利用一段视频中的有效音频信息，将整段视频i中所提取的音频转换为该段视频的梅尔频谱图a_i作为音频模态的输入；其中，i=1,···,N。

3.根据权利要求2所述的基于注意力机制的跨模态特征融合***，其特征在于，有监督对比学习模块的具体处理过程是：

；

2）、自监督对比学习生成自监督对比损失；

3）、有监督对比学习生成有监督对比损失。

4.根据权利要求3所述的基于注意力机制的跨模态特征融合***，其特征在于，自监督对比学习生成自监督对比损失的具体过程是：

正对{

,

}_i=1,···,N表示为：来源于同一个视频 i的RGB片段特征

和对应音频所产生的梅尔频谱图特征

；负对{

,

}_{i,j=1,···,N且i≠j}∪{

,

}_{i,j=1,···,N且i≠j}表示为：来源于视频 i产生的RGB片段特征

，和所有来源于视频j(i≠j)所产生的RGB片段特征

以及梅尔频谱图特征

；视频的RGB图像模态的自监督对比损失表示为：

其中，

同理，音频模态的自监督对比损失为：

由公式(1) (2)得出整体自监督对比损失为：

。

5.根据权利要求4所述的基于注意力机制的跨模态特征融合***，其特征在于，有监督对比学习生成有监督对比损失的具体过程是：

正对{

,

}_{i,j=1,···,N且yi=yj}∪{

,

}_{i,j=1,···,N且i≠j且yi=yj}表示为：

和所有来源于同一类别的视频 i和视频j的RGB片段特征

以及音频所产生的梅尔频谱图特征

，

；其余的都为负对；有监督对比损失公式如下：

视频的RGB图像模态的有监督对比损失表示为：

其中，

同理，音频模态的有监督对比损失为：

由公式(4) (5)得出整体有监督对比损失为：

。

6.根据权利要求5所述的基于注意力机制的跨模态特征融合***，其特征在于，跨模态特征融合模块接收来自不同模态的特征并学习全局上下文嵌入，然后该嵌入用于重新校准来自不同片段的输入特征，使用从有监督对比学习框架中学习到的视频片段特征作为输入，将经过融合后的特征作为输出，通过交叉熵计算融合部分的损失函数。

7.根据权利要求6所述的基于注意力机制的跨模态特征融合***，其特征在于，跨模态特征融合模块的具体处理过程是：