CN114329036A - 一种基于注意力机制的跨模态特征融合*** - Google Patents

一种基于注意力机制的跨模态特征融合*** Download PDF

Info

Publication number
CN114329036A
CN114329036A CN202210256553.8A CN202210256553A CN114329036A CN 114329036 A CN114329036 A CN 114329036A CN 202210256553 A CN202210256553 A CN 202210256553A CN 114329036 A CN114329036 A CN 114329036A
Authority
CN
China
Prior art keywords
video
audio
segment
rgb
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210256553.8A
Other languages
English (en)
Other versions
CN114329036B (zh
Inventor
王青
兰浩源
刘阳
林倞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202210256553.8A priority Critical patent/CN114329036B/zh
Publication of CN114329036A publication Critical patent/CN114329036A/zh
Application granted granted Critical
Publication of CN114329036B publication Critical patent/CN114329036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供一种基于注意力机制的跨模态特征融合***,该***基于音频和视频图像两者信息的互补关系,提出了用有监督对比学习作为框架的方法来提取音视频两个模态的特征,同时构建了音视频关联分析模块,实现音视频对齐,并设计了一种基于注意力机制的跨模态特征融合模块,以实现音视频特征的融合。将音频和RGB图片作为输入来达到对视频表示进行学习的目的。

Description

一种基于注意力机制的跨模态特征融合***
技术领域
本发明涉及音、视频处理技术领域,更具体地,涉及一种基于注意力机制的跨模态特征融合***。
背景技术
对于视频表示学***面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。由于光流较好的包含了视频的运动信息,因此大部分的研究人员将光流作为一个模态来提升视频表示学习的性能。
尽管RGB图像包含了视频的静态信息,光流包含了视频的动态信息,然而,光流也是基于RGB图像生成的模态,并不完全独立于RGB图像模态;而在现有的3D卷积网络当中,对输入的图像片段也能较好的提取其中的动态信息。因此,光流模态的利用达到的瓶颈。而在视频中,除了丰富的图片信息以外,也存在大量有效的声音信息。比如在“砍树”这一行为中,往往也伴随着砍伐树木的声音;在“打棒球”这一行为中,同时也伴随着球棒敲击棒球的声音近的一些研究也证明了音频的有效性。在以往的相关工作中,多采用通过音视频是否对齐以及音视频是否属于同一样本来对网络进行训练。这样的方法虽然能够较好的进行模态之间的信息交互,但却不能解决类内样本差异大,而类间样本差异小的问题。这些方式虽然能学到较好的特征,但有一个不足是之处:没有考虑到属于同一个类别动作之间特征的相关性。
现有技术中公开了一种基于多模深度学习的双模态情感识别方法的专利,该方法分别获得音频和视频RGB图像三通道输入矩阵,获得音频数据样本和视频数据样本;构建音频深度卷积神经网络和视频深度卷积神经网络,获得高层次音频特征和获得高层次视频特征;建立由全连接层构成的融合网络,构建高层次音视频统一特征;将融合网络最后一层全连接层输出的音视频统一特征聚合成全局特征,将全局特征输入到分类器中,获得音视频情感识别分类结果;采用了全连接层构成的融合网络,实现对音视频情感信息的融合,构建高层次的音视频统一特征表示,有效地提高音视频情感识别性能。但是,此发明没有涉及任何有关将音频和RGB图片作为输入来达到对视频表示进行学习的技术内容。
发明内容
本发明提供一种基于注意力机制的跨模态特征融合***,该***实现音视频特征的融合,将音频和RGB图片作为输入来达到对视频表示进行学习。
为了达到上述技术效果,本发明的技术方案如下:
一种基于注意力机制的跨模态特征融合***,包括:
音视频关联分析模块,用于对音频和视频RGB图像两个模态进行对齐;
有监督对比学习模块,用于音频和视频RGB图像两个模态提取模态的特征;
跨模态特征融合模块,用于利用模态之间的相关知识来学习全局上下文表示。
进一步地,音视频关联分析模块从一段视频i中连续采集16帧RGB图像所产生的RGB片段vi作为RGB图像模态的输入;此时,一段视频中仅采样一个片段,为了充分利用一段视频中的有效音频信息,将整段视频i中所提取的音频转换为该段视频的梅尔频谱图ai作为音频模态的输入;其中,i=1,···,N。
进一步地,有监督对比学习模块的具体处理过程是:
1)、模态特征提取:视频i的RGB片段vi经过以r3d为基础框架的3D卷积网络后提取的特征为
Figure 714699DEST_PATH_IMAGE001
,对应音频的梅尔频谱图ai经过音频的3D卷积网络后提取的特征为
Figure 19778DEST_PATH_IMAGE002
2)、自监督对比学习生成自监督对比损失;
3)、有监督对比学习生成有监督对比损失。
进一步地,自监督对比学习生成自监督对比损失的具体过程是:
正对{
Figure 88229DEST_PATH_IMAGE001
,
Figure 820561DEST_PATH_IMAGE002
}i=1,···,N表示为:来源于同一个视频 i的RGB片段特征
Figure 872831DEST_PATH_IMAGE001
和对应音频所产生的梅尔频谱图特征
Figure 477207DEST_PATH_IMAGE002
;负对{
Figure 665743DEST_PATH_IMAGE001
,
Figure 568977DEST_PATH_IMAGE003
}i,j=1,···,N且i≠j∪{
Figure 905280DEST_PATH_IMAGE001
,
Figure 427528DEST_PATH_IMAGE002
}i,j=1,···,N且i≠j表示为:来源于视频 i产生的RGB片段特征
Figure 595204DEST_PATH_IMAGE001
,和所有来源于视频j(i≠j)所产生的RGB片段特征
Figure 544706DEST_PATH_IMAGE003
以及梅尔频谱图特征
Figure 696201DEST_PATH_IMAGE002
;视频的RGB图像模态的自监督对比损失表示为:
Figure 553299DEST_PATH_IMAGE004
其中,
Figure 716427DEST_PATH_IMAGE005
是标量温度参数,其中分子为所有正对样本距离和,分母为所有正对以及负对样本距离和;
同理,音频模态的自监督对比损失为:
Figure 462928DEST_PATH_IMAGE006
由公式(1) (2)得出整体自监督对比损失为:
Figure 711507DEST_PATH_IMAGE007
进一步地,有监督对比学习生成有监督对比损失的具体过程是:
正对{
Figure 372296DEST_PATH_IMAGE001
,
Figure 780143DEST_PATH_IMAGE008
}i,j=1,···,N且yi=yj∪{
Figure 71447DEST_PATH_IMAGE001
,
Figure 666377DEST_PATH_IMAGE003
}i,j=1,···,N且i≠j且yi=yj表示为:
Figure 334118DEST_PATH_IMAGE001
和所有来源于同一类别的视频 i和视频j的RGB片段特征
Figure 268576DEST_PATH_IMAGE003
以及音频所产生的梅尔频谱图特征
Figure 855415DEST_PATH_IMAGE002
Figure 813007DEST_PATH_IMAGE008
;其余的都为负对;有监督对比损失公式如下:
视频的RGB图像模态的有监督对比损失表示为:
Figure 644959DEST_PATH_IMAGE009
其中,
Figure 637186DEST_PATH_IMAGE010
是标量温度参数,其中分子为所有正对样本距离和,分母为所有正对以及负对样本距离和;
同理,音频模态的有监督对比损失为:
Figure 332610DEST_PATH_IMAGE011
由公式(4) (5)得出整体有监督对比损失为:
Figure 167710DEST_PATH_IMAGE012
进一步地,跨模态特征融合模块接收来自不同模态的特征并学习全局上下文嵌入,然后该嵌入用于重新校准来自不同片段的输入特征,使用从有监督对比学习框架中学习到的视频片段特征作为输入,将经过融合后的特征作为输出,通过交叉熵计算融合部分的损失函数。
进一步地,跨模态特征融合模块的具体处理过程是:
一个视频i的两个模态分别为vi和ai,从有监督对比学习框架中经过三维卷积网络提取的特征是{
Figure 646096DEST_PATH_IMAGE001
,
Figure 883043DEST_PATH_IMAGE002
},为了利用这两个模态之间的相关性,连接这两个特征向量并通过全连接层获得联合表示:
Figure 483788DEST_PATH_IMAGE013
其中 [·,·] 表示连接操作,
Figure 681551DEST_PATH_IMAGE014
表示联合表示,Ws和bs是全连接层的权重和偏差;选择
Figure 353841DEST_PATH_IMAGE015
来限制模型容量并增加其泛化能力,为了利用在联合表示Zu中聚合的全局上下文信息,通过一个全连接层预测它的激励信号:
Figure 55081DEST_PATH_IMAGE016
其中We和be是全连接层的权重和偏差,在获得激励信号
Figure 921668DEST_PATH_IMAGE017
后,使用它通过简单的门控机制自适应地重新校准输入特征
Figure 341148DEST_PATH_IMAGE001
Figure 489233DEST_PATH_IMAGE002
Figure 435192DEST_PATH_IMAGE018
其中⊙是通道维度中每个元素的通道乘积运算,δ(·)是线性整流函数,通过这种方式,允许一个片段的特征重新校准另一个片段的特征,同时保持不同片段之间的相关性;
这两个细化的特征向量{
Figure 846582DEST_PATH_IMAGE019
,
Figure 877991DEST_PATH_IMAGE020
}被连接并输入到带有归一化指数函数soft-max的全连接层中作为分类输出,用交叉熵损失用于衡量分类的正确性:
Figure 501871DEST_PATH_IMAGE021
其中yi和pi 分别代表样本在真实情况和预测中属于类i的概率,C表示所有可能顺序的数量;
整体损失函数由式 (6) 和式 (10) 组合得到,其中λsup和λcross分别控制
Figure 567916DEST_PATH_IMAGE022
Figure 150207DEST_PATH_IMAGE023
的贡献,如下:
Figure 341017DEST_PATH_IMAGE024
进一步地,每个视频的片段由大小为
Figure 654406DEST_PATH_IMAGE025
的帧组成,其中c是通道数,l是帧数,h和w表示帧的高度和宽度。
进一步地,3D卷积核的大小是t×d×d,其中t是时间长度,d是空间大小;将视频RGB图像序列定义为
Figure 919165DEST_PATH_IMAGE026
,其中vi为从一个视频 i(i=1,...,N)中连续采样 m 帧产生的一个RGB片段。
进一步地,音频模态为一段视频的整段音频通过短时傅里叶变换生成的梅尔频谱图;视频RGB图像的一个片段和整段视频生成的梅尔频谱图对齐作为输入;音频梅尔频谱图序列表示为
Figure 796991DEST_PATH_IMAGE027
,其中ai为从一个视频 i 中提取的音频所生成的一个梅尔频谱图。
与现有技术相比,本发明技术方案的有益效果是:
本发明基于音频和视频图像两者信息的互补关系,提出了用有监督对比学习作为框架的方法来提取音视频两个模态的特征,同时构建了音视频关联分析模块,实现音视频对齐,并设计了一种基于注意力机制的跨模态特征融合模块,以实现音视频特征的融合。将音频和RGB图片作为输入来达到对视频表示进行学习的目的。
附图说明
图1为本发明***总体处理过程框图;
图2为本发明中音视频对比学习示例图;
图3为本发明中有监督对比学习(SCL)处理过程框架图;
图4为本发明中跨模态特征融合模块(MFAM) 处理过程框架图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于注意力机制的跨模态特征融合***,包括:
音视频关联分析模块,用于对音频和视频RGB图像两个模态进行对齐;
有监督对比学习模块,用于音频和视频RGB图像两个模态提取模态的特征;
跨模态特征融合模块,用于利用模态之间的相关知识来学习全局上下文表示。
音视频关联分析模块从一段视频i中连续采集16帧RGB图像所产生的RGB片段vi作为RGB图像模态的输入;此时,一段视频中仅采样一个片段,为了充分利用一段视频中的有效音频信息,将整段视频i中所提取的音频转换为该段视频的梅尔频谱图ai作为音频模态的输入;其中,i=1,···,N。
有监督对比学习模块的具体处理过程是:
1)、模态特征提取:视频i的RGB片段vi经过以r3d为基础框架的3D卷积网络后提取的特征为
Figure 678359DEST_PATH_IMAGE001
,对应音频的梅尔频谱图ai经过音频的3D卷积网络后提取的特征为
Figure 971937DEST_PATH_IMAGE002
2)、自监督对比学习生成自监督对比损失;
3)、有监督对比学习生成有监督对比损失。
通过音视频关联分析(AVCA)模块对音频和视频RGB图像两个模态进行对齐。该模块中,对于每个视频,分为视频RGB图像模态和音频模态两个部分作为输入。视频RGB图像模态为,一段视频随机采样连续的16帧为一个片段。音频模态为,一段视频的整段音频通过短时傅里叶变换生成的梅尔频谱图。此时视频RGB图像的一个片段和整段视频生成的梅尔频谱图对齐作为输入。
在有监督对比学习(SCL)模块中,分别利用两个不同的三维卷积神经网络(3DCNN)为视频RGB图像片段和音频梅尔频谱图提取时空特征,并且所有3D CNN共享相同的权重。然后,为两个模态所产生的特征设计有监督对比损失,以增强同类样本表示学习的判别能力。
在多模态融合中,引入基于注意力机制的跨模态特征融合模块(MFAM),从有监督对比学习框架中学习到的特征通过MFAM模块自适应传播,并自适应地重新校准通道特征。将校准后特征联接后通过交叉熵计算损失函数。
实施例2
如图1所示,一种基于注意力机制的跨模态特征融合***,包括:
音视频关联分析模块,用于对音频和视频RGB图像两个模态进行对齐;
有监督对比学习模块,用于音频和视频RGB图像两个模态提取模态的特征;
跨模态特征融合模块,用于利用模态之间的相关知识来学习全局上下文表示。
音视频关联分析模块从一段视频i中连续采集16帧RGB图像所产生的RGB片段vi作为RGB图像模态的输入;此时,一段视频中仅采样一个片段,为了充分利用一段视频中的有效音频信息,将整段视频i中所提取的音频转换为该段视频的梅尔频谱图ai作为音频模态的输入;其中,i=1,···,N。
有监督对比学习模块的具体处理过程是:
1)、模态特征提取:视频i的RGB片段vi经过以r3d为基础框架的3D卷积网络后提取的特征为
Figure 746995DEST_PATH_IMAGE001
,对应音频的梅尔频谱图ai经过音频的3D卷积网络后提取的特征为
Figure 139931DEST_PATH_IMAGE002
2)、自监督对比学习生成自监督对比损失;
3)、有监督对比学习生成有监督对比损失。
自监督对比学习生成自监督对比损失的具体过程是:
正对{
Figure 633229DEST_PATH_IMAGE001
,
Figure 668181DEST_PATH_IMAGE002
}i=1,···,N表示为:来源于同一个视频 i的RGB片段特征
Figure 235429DEST_PATH_IMAGE001
和对应音频所产生的梅尔频谱图特征
Figure 690943DEST_PATH_IMAGE002
;负对{
Figure 281324DEST_PATH_IMAGE001
,
Figure 244601DEST_PATH_IMAGE003
}i,j=1,···,N且i≠j∪{
Figure 604038DEST_PATH_IMAGE001
,
Figure 666672DEST_PATH_IMAGE002
}i,j=1,···,N且i≠j表示为:来源于视频 i产生的RGB片段特征
Figure 868983DEST_PATH_IMAGE001
,和所有来源于视频j(i≠j)所产生的RGB片段特征
Figure 245738DEST_PATH_IMAGE003
以及梅尔频谱图特征
Figure 849895DEST_PATH_IMAGE002
;视频的RGB图像模态的自监督对比损失表示为:
Figure 83430DEST_PATH_IMAGE004
其中,
Figure 648403DEST_PATH_IMAGE005
是标量温度参数,其中分子为所有正对样本距离和,分母为所有正对以及负对样本距离和;
同理,音频模态的自监督对比损失为:
Figure 454948DEST_PATH_IMAGE006
由公式(1) (2)得出整体自监督对比损失为:
Figure 523398DEST_PATH_IMAGE007
有监督对比学习生成有监督对比损失的具体过程是:
正对{
Figure 255731DEST_PATH_IMAGE001
,
Figure 104738DEST_PATH_IMAGE008
}i,j=1,···,N且yi=yj∪{
Figure 823295DEST_PATH_IMAGE001
,
Figure 136465DEST_PATH_IMAGE003
}i,j=1,···,N且i≠j且yi=yj表示为:
Figure 915065DEST_PATH_IMAGE001
和所有来源于同一类别的视频 i和视频j的RGB片段特征
Figure 579264DEST_PATH_IMAGE003
以及音频所产生的梅尔频谱图特征
Figure 101513DEST_PATH_IMAGE002
Figure 206872DEST_PATH_IMAGE008
;其余的都为负对;有监督对比损失公式如下:
视频的RGB图像模态的有监督对比损失表示为:
Figure 782472DEST_PATH_IMAGE009
其中,
Figure 278175DEST_PATH_IMAGE010
是标量温度参数,其中分子为所有正对样本距离和,分母为所有正对以及负对样本距离和;
同理,音频模态的有监督对比损失为:
Figure 728748DEST_PATH_IMAGE011
由公式(4) (5)得出整体有监督对比损失为:
Figure 891876DEST_PATH_IMAGE012
跨模态特征融合模块接收来自不同模态的特征并学习全局上下文嵌入,然后该嵌入用于重新校准来自不同片段的输入特征,使用从有监督对比学习框架中学习到的视频片段特征作为输入,将经过融合后的特征作为输出,通过交叉熵计算融合部分的损失函数。
跨模态特征融合模块的具体处理过程是:
一个视频i的两个模态分别为vi和ai,从有监督对比学习框架中经过三维卷积网络提取的特征是{
Figure 809017DEST_PATH_IMAGE001
,
Figure 447809DEST_PATH_IMAGE002
},为了利用这两个模态之间的相关性,连接这两个特征向量并通过全连接层获得联合表示:
Figure 46280DEST_PATH_IMAGE013
其中 [·,·] 表示连接操作,
Figure 188549DEST_PATH_IMAGE014
表示联合表示,Ws和bs是全连接层的权重和偏差;选择
Figure 542169DEST_PATH_IMAGE015
来限制模型容量并增加其泛化能力,为了利用在联合表示Zu中聚合的全局上下文信息,通过一个全连接层预测它的激励信号:
Figure 278044DEST_PATH_IMAGE016
其中We和be是全连接层的权重和偏差,在获得激励信号
Figure 589463DEST_PATH_IMAGE017
后,使用它通过简单的门控机制自适应地重新校准输入特征
Figure 196025DEST_PATH_IMAGE001
Figure 48443DEST_PATH_IMAGE002
Figure 271614DEST_PATH_IMAGE018
其中⊙是通道维度中每个元素的通道乘积运算,δ(·)是线性整流函数,通过这种方式,允许一个片段的特征重新校准另一个片段的特征,同时保持不同片段之间的相关性;
这两个细化的特征向量{
Figure 274205DEST_PATH_IMAGE019
,
Figure 391066DEST_PATH_IMAGE020
}被连接并输入到带有归一化指数函数soft-max的全连接层中作为分类输出,用交叉熵损失用于衡量分类的正确性:
Figure 24172DEST_PATH_IMAGE021
其中yi和pi 分别代表样本在真实情况和预测中属于类i的概率,C表示所有可能顺序的数量;
整体损失函数由式 (6) 和式 (10) 组合得到,其中λsup和λcross分别控制
Figure 593694DEST_PATH_IMAGE022
Figure 603238DEST_PATH_IMAGE023
的贡献,如下:
Figure 512288DEST_PATH_IMAGE024
实施例3
为了方便描述每个模块,给定 N 个不同的视频,每个视频的片段由大小为
Figure 942395DEST_PATH_IMAGE025
的帧组成,其中c是通道数,l是帧数,h和w表示帧的高度和宽度。3D卷积核的大小是t×d×d,其中t是时间长度,d是空间大小;将视频RGB图像序列定义为
Figure 874579DEST_PATH_IMAGE026
,其中vi为从一个视频 i (i=1,...,N)中连续采样m 帧产生的一个RGB片段。音频模态为一段视频的整段音频通过短时傅里叶变换生成的梅尔频谱图;视频RGB图像的一个片段和整段视频生成的梅尔频谱图对齐作为输入;音频梅尔频谱图序列表示为
Figure 546869DEST_PATH_IMAGE027
,其中ai为从一个视频 i 中提取的音频所生成的一个梅尔频谱图。
Figure 513688DEST_PATH_IMAGE028
为视频 i 的类别标签。
1)、音视频关联分析(音视频对齐)
声音信号是一维信号,直观上只能看到时域信息,不能看到频域信息。而通过傅里叶变换(FT)可以将其变换到频域,但是丢失了时域信息,无法看到时频关系。为了解决这个问题,产生了很多方法,短时傅里叶变换,小波等都是很常用的时频分析方法。
短时傅里叶变换(STFT),就是对短时的信号做傅里叶变换。原理如下:对一段长语音信号,分帧、加窗,再对每一帧做傅里叶变换,之后把每一帧的结果沿另一维度堆叠,得到一张图(类似于二维信号),这张图就是声谱图。
由于得到的声谱图较大,为了得到合适大小的声音特征,通常将它通过梅尔尺度滤波器组(Mel-scale filter banks),变为梅尔频谱。
在以往的音视频对齐中,大部分采用的是一个RGB图像对应一定时间长度音频所产生的梅尔频谱图进行对齐。这种做法虽然能够将两个模态进行对齐,提取了视频的静态图像信息以及音频信息,但忽略了视频本身所包含的时序信息。
为了利用视频的时序信息,本发明将从一段视频i(i=1,...,N)中连续采集16帧RGB图像所产生的RGB片段vi作为RGB图像模态的输入。此时,一段视频中仅采样一个片段,为了充分利用一段视频中的有效音频信息,将整段视频i中所提取的音频转换为该段视频的梅尔频谱图ai作为音频模态的输入。
1.1)音视频对比学习
在图像领域中,自监督对比学习已经是一种较为常见的学习方法。它的核心思想是,将来源于同一个样本的数据特征之间的距离尽量靠近,而来源于不同样本的数据特征尽量远离。图像领域中通常是将一张图片通过翻转或者裁剪等操作进行数据的增广,这样产生的图片和原始图片之间形成了一个正对,其他所有图片和原始图片之间形成了负对。通过对比损失使得正对距离近,而负对距离远。
而为了让属于同类动作的特征也彼此接近,有研究者提出了一种新的对比学习方法:有监督对比学习。它的核心思想是,将来源于同一个类别的数据特征之间的距离尽量靠近,而来源于不同类别的数据特征尽量远离。此时正对扩展为了通过原始图片增广产生的图片以及和原始图片具有同一类别信息的图片,负对则为所有和原始图片不属于同一类别的图片。
虽然对比学习方法已经较为广泛的运用于图像学习领域中,也有部分学者将其引入到了视频表示学习当中,但在多模态领域中结合对比学习则是近几年才提出的。而在多模态领域中,大部分学者仅仅把RGB图像以及光流作为两个模态进行学习,将音频作为其中一个模态的更是少之又少。因此,本发明将有监督对比学习引入音视频多模态学习中,使得模型在能够更好的提取不同模态特征的同时,也能够更好地区分类内差异大,类间差异小的样本。
2)模态特征提取
视频i的RGB片段vi经过以r3d为基础框架的3D卷积网络后提取的特征为
Figure 285334DEST_PATH_IMAGE001
,对应音频的梅尔频谱图ai经过音频的3D卷积网络后提取的特征为
Figure 95028DEST_PATH_IMAGE002
。两个网络的不同之处在于图像输入的通道数。
3) 有监督对比学习
3.1)自监督对比学习
如图3所示,有监督对比学习(SCL)框架图:输入为一个视频的RGB图像片段和对应音频产生的梅尔频谱图,输出为经过卷积网络和对比学习之后产生的两个模态特征向量自监督对比学习的核心是,使来源于同一个样本的数据特征之间的距离尽量靠近,而来源于不同样本的数据特征尽量远离。
在本发明中,以视频i的RGB片段特征
Figure 180795DEST_PATH_IMAGE001
为例,正对{
Figure 126754DEST_PATH_IMAGE001
,
Figure 334882DEST_PATH_IMAGE002
}i=1,···,N表示为:来源于同一个视频 i的RGB片段特征
Figure 241658DEST_PATH_IMAGE001
和对应音频所产生的梅尔频谱图特征
Figure 757215DEST_PATH_IMAGE002
;负对{
Figure 433047DEST_PATH_IMAGE001
,
Figure 874393DEST_PATH_IMAGE003
}i,j=1,···,N且i≠j∪{
Figure 268465DEST_PATH_IMAGE001
,
Figure 758352DEST_PATH_IMAGE002
}i,j=1,···,N且i≠j表示为:来源于视频 i产生的RGB片段特征
Figure 678904DEST_PATH_IMAGE001
,和所有来源于视频j(i≠j)所产生的RGB片段特征
Figure 166517DEST_PATH_IMAGE003
以及梅尔频谱图特征
Figure 172519DEST_PATH_IMAGE002
。如图2所示。此时,视频的RGB图像模态的自监督对比损失表示为:
Figure 403780DEST_PATH_IMAGE004
其中,
Figure 850942DEST_PATH_IMAGE005
是标量温度参数,其中分子为所有正对样本距离和,分母为所有正对以及负对样本距离和;
同理,音频模态的自监督对比损失为:
Figure 401134DEST_PATH_IMAGE006
由公式(1) (2)得出整体自监督对比损失为:
Figure 504220DEST_PATH_IMAGE007
3.2)有监督对比学习
虽然自监督对比学习能够学到较好的特征,但有一个不足是之处:没有考虑到属于同一个类别动作之间特征的相关性;为了让同类动作的特征彼此接近,采用了一种新的对比学习方法:有监督对比学。有监督对比学习的核心是,使来源于同一类别样本的数据特征之间的距离尽量靠近,而来源于不同类别的数据特征尽量远离。
在本发明中,以RGB片段特征
Figure 663805DEST_PATH_IMAGE029
为例,正对{
Figure 168736DEST_PATH_IMAGE001
,
Figure 60469DEST_PATH_IMAGE008
}i,j=1,···,N且yi=yj∪{
Figure 41063DEST_PATH_IMAGE001
,
Figure 348548DEST_PATH_IMAGE003
}i,j=1,···,N且i≠j且yi=yj表示为:
Figure 98198DEST_PATH_IMAGE001
和所有来源于同一类别的视频 i和视频j的RGB片段特征
Figure 160832DEST_PATH_IMAGE003
以及音频所产生的梅尔频谱图特征
Figure 238509DEST_PATH_IMAGE002
Figure 501082DEST_PATH_IMAGE008
;其余的都为负对;有监督对比损失公式如下:
视频的RGB图像模态的有监督对比损失表示为:
Figure 715026DEST_PATH_IMAGE009
其中,
Figure 276457DEST_PATH_IMAGE010
是标量温度参数,其中分子为所有正对样本距离和,分母为所有正对以及负对样本距离和;
同理,音频模态的有监督对比损失为:
Figure 638169DEST_PATH_IMAGE011
由公式(4) (5)得出整体有监督对比损失为:
Figure 553035DEST_PATH_IMAGE012
4)多模态融合
如图4所示,为了使不同模态之间的信息进行更好的融合,提出了一种基于注意力机制的跨模态特征融合(MFAM)模块。由于来自不同模态的特征是相关的,构建了一个跨模态特征融合模块,该模块接收来自不同模态的特征并学习全局上下文嵌入,然后该嵌入用于重新校准来自不同片段的输入特征,如图4所示。使用从有监督对比学习框架中学习到的视频片段特征作为输入,将经过融合后的特征作为输出,通过交叉熵计算融合部分的损失函数。
为了固定符号,假设一个视频i的两个模态分别为vi和ai,从有监督对比学习框架中经过三维卷积网络提取的特征是{
Figure 11698DEST_PATH_IMAGE001
,
Figure 619397DEST_PATH_IMAGE002
},为了利用这两个模态之间的相关性,连接这两个特征向量并通过全连接层获得联合表示:
Figure 796300DEST_PATH_IMAGE013
其中 [·,·] 表示连接操作,
Figure 311595DEST_PATH_IMAGE014
表示联合表示,Ws和bs是全连接层的权重和偏差;选择
Figure 765711DEST_PATH_IMAGE015
来限制模型容量并增加其泛化能力,为了利用在联合表示Zu中聚合的全局上下文信息,通过一个全连接层预测它的激励信号:
Figure 904830DEST_PATH_IMAGE016
其中We和be是全连接层的权重和偏差,在获得激励信号
Figure 444396DEST_PATH_IMAGE017
后,使用它通过简单的门控机制自适应地重新校准输入特征
Figure 763382DEST_PATH_IMAGE001
Figure 196637DEST_PATH_IMAGE002
Figure 146139DEST_PATH_IMAGE018
其中⊙是通道维度中每个元素的通道乘积运算,δ(·)是线性整流函数,通过这种方式,允许一个片段的特征重新校准另一个片段的特征,同时保持不同片段之间的相关性;
这两个细化的特征向量{
Figure 766476DEST_PATH_IMAGE019
,
Figure 92415DEST_PATH_IMAGE020
}被连接并输入到带有归一化指数函数soft-max的全连接层中作为分类输出,用交叉熵损失用于衡量分类的正确性:
Figure 52281DEST_PATH_IMAGE021
其中yi和pi 分别代表样本在真实情况和预测中属于类i的概率,C表示所有可能顺序的数量;
整体损失函数由式 (6) 和式 (10) 组合得到,其中λsup和λcross分别控制
Figure 297317DEST_PATH_IMAGE022
Figure 545896DEST_PATH_IMAGE023
的贡献,如下:
Figure 36045DEST_PATH_IMAGE024
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于注意力机制的跨模态特征融合***,其特征在于,包括:
音视频关联分析模块,用于对音频和视频RGB图像两个模态进行对齐;
有监督对比学习模块,用于音频和视频RGB图像两个模态提取模态的特征;
跨模态特征融合模块,用于利用模态之间的相关知识来学习全局上下文表示。
2.根据权利要求1所述的基于注意力机制的跨模态特征融合***,其特征在于,音视频关联分析模块从一段视频i中连续采集16帧RGB图像所产生的RGB片段vi作为RGB图像模态的输入;此时,一段视频中仅采样一个片段,为了充分利用一段视频中的有效音频信息,将整段视频i中所提取的音频转换为该段视频的梅尔频谱图ai作为音频模态的输入;其中,i=1,···,N。
3.根据权利要求2所述的基于注意力机制的跨模态特征融合***,其特征在于,有监督对比学习模块的具体处理过程是:
1)、模态特征提取:视频i的RGB片段vi经过以r3d为基础框架的3D卷积网络后提取的特征为
Figure 501130DEST_PATH_IMAGE001
,对应音频的梅尔频谱图ai经过音频的3D卷积网络后提取的特征为
Figure 489815DEST_PATH_IMAGE002
2)、自监督对比学习生成自监督对比损失;
3)、有监督对比学习生成有监督对比损失。
4.根据权利要求3所述的基于注意力机制的跨模态特征融合***,其特征在于,自监督对比学习生成自监督对比损失的具体过程是:
正对{
Figure 569766DEST_PATH_IMAGE001
,
Figure 188967DEST_PATH_IMAGE002
}i=1,···,N表示为:来源于同一个视频 i的RGB片段特征
Figure 721579DEST_PATH_IMAGE001
和对应音频所产生的梅尔频谱图特征
Figure 389321DEST_PATH_IMAGE002
;负对{
Figure 887561DEST_PATH_IMAGE001
,
Figure 349766DEST_PATH_IMAGE003
}i,j=1,···,N且i≠j∪{
Figure 369675DEST_PATH_IMAGE001
,
Figure 965741DEST_PATH_IMAGE002
}i,j=1,···,N且i≠j表示为:来源于视频 i产生的RGB片段特征
Figure 957968DEST_PATH_IMAGE001
,和所有来源于视频j(i≠j)所产生的RGB片段特征
Figure 450129DEST_PATH_IMAGE003
以及梅尔频谱图特征
Figure 160596DEST_PATH_IMAGE002
;视频的RGB图像模态的自监督对比损失表示为:
Figure 294774DEST_PATH_IMAGE004
其中,
Figure 938245DEST_PATH_IMAGE005
是标量温度参数,其中分子为所有正对样本距离和,分母为所有正对以及负对样本距离和;
同理,音频模态的自监督对比损失为:
Figure 742253DEST_PATH_IMAGE006
由公式(1) (2)得出整体自监督对比损失为:
Figure 294676DEST_PATH_IMAGE007
5.根据权利要求4所述的基于注意力机制的跨模态特征融合***,其特征在于,有监督对比学习生成有监督对比损失的具体过程是:
正对{
Figure 107911DEST_PATH_IMAGE001
,
Figure 933785DEST_PATH_IMAGE008
}i,j=1,···,N且yi=yj∪{
Figure 971011DEST_PATH_IMAGE001
,
Figure 390491DEST_PATH_IMAGE003
}i,j=1,···,N且i≠j且yi=yj表示为:
Figure 600893DEST_PATH_IMAGE001
和所有来源于同一类别的视频 i和视频j的RGB片段特征
Figure 422218DEST_PATH_IMAGE003
以及音频所产生的梅尔频谱图特征
Figure 958242DEST_PATH_IMAGE002
Figure 661755DEST_PATH_IMAGE008
;其余的都为负对;有监督对比损失公式如下:
视频的RGB图像模态的有监督对比损失表示为:
Figure 816793DEST_PATH_IMAGE009
其中,
Figure 853145DEST_PATH_IMAGE010
是标量温度参数,其中分子为所有正对样本距离和,分母为所有正对以及负对样本距离和;
同理,音频模态的有监督对比损失为:
Figure 435436DEST_PATH_IMAGE011
由公式(4) (5)得出整体有监督对比损失为:
Figure 626246DEST_PATH_IMAGE012
6.根据权利要求5所述的基于注意力机制的跨模态特征融合***,其特征在于,跨模态特征融合模块接收来自不同模态的特征并学习全局上下文嵌入,然后该嵌入用于重新校准来自不同片段的输入特征,使用从有监督对比学习框架中学习到的视频片段特征作为输入,将经过融合后的特征作为输出,通过交叉熵计算融合部分的损失函数。
7.根据权利要求6所述的基于注意力机制的跨模态特征融合***,其特征在于,跨模态特征融合模块的具体处理过程是:
一个视频i的两个模态分别为vi和ai,从有监督对比学习框架中经过三维卷积网络提取的特征是{
Figure 444029DEST_PATH_IMAGE001
,
Figure 239947DEST_PATH_IMAGE002
},为了利用这两个模态之间的相关性,连接这两个特征向量并通过全连接层获得联合表示:
Figure 586614DEST_PATH_IMAGE013
其中 [·,·] 表示连接操作,
Figure 467983DEST_PATH_IMAGE014
表示联合表示,Ws和bs是全连接层的权重和偏差;选择
Figure 761561DEST_PATH_IMAGE015
来限制模型容量并增加其泛化能力,为了利用在联合表示Zu中聚合的全局上下文信息,通过一个全连接层预测它的激励信号:
Figure 536619DEST_PATH_IMAGE016
其中We和be是全连接层的权重和偏差,在获得激励信号
Figure 195133DEST_PATH_IMAGE017
后,使用它通过简单的门控机制自适应地重新校准输入特征
Figure 924317DEST_PATH_IMAGE001
Figure 959269DEST_PATH_IMAGE002
Figure 526517DEST_PATH_IMAGE018
其中⊙是通道维度中每个元素的通道乘积运算,δ(·)是线性整流函数,通过这种方式,允许一个片段的特征重新校准另一个片段的特征,同时保持不同片段之间的相关性;
这两个细化的特征向量{
Figure 746145DEST_PATH_IMAGE019
,
Figure 70947DEST_PATH_IMAGE020
}被连接并输入到带有归一化指数函数soft-max的全连接层中作为分类输出,用交叉熵损失用于衡量分类的正确性:
Figure 34224DEST_PATH_IMAGE021
其中yi和pi 分别代表样本在真实情况和预测中属于类i的概率,C表示所有可能顺序的数量;
整体损失函数由式 (6) 和式 (10) 组合得到,其中λsup和λcross分别控制
Figure 455978DEST_PATH_IMAGE022
Figure 721875DEST_PATH_IMAGE023
的贡献,如下:
Figure 924186DEST_PATH_IMAGE024
8.根据权利要求1-7任一项所述的基于注意力机制的跨模态特征融合***,其特征在于,每个视频的片段由大小为
Figure 300941DEST_PATH_IMAGE025
的帧组成,其中c是通道数,l是帧数,h和w表示帧的高度和宽度。
9.根据权利要求8所述的基于注意力机制的跨模态特征融合***,其特征在于,3D卷积核的大小是t×d×d,其中t是时间长度,d是空间大小;将视频RGB图像序列定义为
Figure 140983DEST_PATH_IMAGE026
,其中vi为从一个视频 i (i=1,...,N)中连续采样 m帧产生的一个RGB片段。
10.根据权利要求9所述的基于注意力机制的跨模态特征融合***,其特征在于,音频模态为一段视频的整段音频通过短时傅里叶变换生成的梅尔频谱图;视频RGB图像的一个片段和整段视频生成的梅尔频谱图对齐作为输入;音频梅尔频谱图序列表示为
Figure 577780DEST_PATH_IMAGE027
,其中ai为从一个视频 i 中提取的音频所生成的一个梅尔频谱图。
CN202210256553.8A 2022-03-16 2022-03-16 一种基于注意力机制的跨模态特征融合*** Active CN114329036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210256553.8A CN114329036B (zh) 2022-03-16 2022-03-16 一种基于注意力机制的跨模态特征融合***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210256553.8A CN114329036B (zh) 2022-03-16 2022-03-16 一种基于注意力机制的跨模态特征融合***

Publications (2)

Publication Number Publication Date
CN114329036A true CN114329036A (zh) 2022-04-12
CN114329036B CN114329036B (zh) 2022-07-05

Family

ID=81033312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210256553.8A Active CN114329036B (zh) 2022-03-16 2022-03-16 一种基于注意力机制的跨模态特征融合***

Country Status (1)

Country Link
CN (1) CN114329036B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019397A (zh) * 2022-06-15 2022-09-06 北京大学深圳研究生院 一种基于时空信息聚合的对比自监督人体行为识别方法及***
CN115100390A (zh) * 2022-08-24 2022-09-23 华东交通大学 一种联合对比学习与自监督区域定位的图像情感预测方法
CN115116448A (zh) * 2022-08-29 2022-09-27 四川启睿克科技有限公司 语音提取方法、神经网络模型训练方法、装置及存储介质
CN115620110A (zh) * 2022-12-16 2023-01-17 华南理工大学 一种视频事件定位与识别方法、装置及存储介质
CN116824495A (zh) * 2023-06-26 2023-09-29 华东交通大学 危险行为识别方法、***、存储介质及计算机设备
CN117173394A (zh) * 2023-08-07 2023-12-05 山东大学 面向无人机视频数据的弱监督显著性目标检测方法及***
WO2024087337A1 (zh) * 2022-10-24 2024-05-02 深圳先进技术研究院 一种由舌部超声图像直接合成语音的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112820320A (zh) * 2020-12-31 2021-05-18 中国科学技术大学 跨模态注意力一致性网络自监督学习方法
US20210342646A1 (en) * 2020-04-30 2021-11-04 Arizona Board Of Regents On Behalf Of Arizona State University Systems, methods, and apparatuses for training a deep model to learn contrastive representations embedded within part-whole semantics via a self-supervised learning framework
CN114118200A (zh) * 2021-09-24 2022-03-01 杭州电子科技大学 一种基于注意力引导双向胶囊网络的多模态情感分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210342646A1 (en) * 2020-04-30 2021-11-04 Arizona Board Of Regents On Behalf Of Arizona State University Systems, methods, and apparatuses for training a deep model to learn contrastive representations embedded within part-whole semantics via a self-supervised learning framework
CN112820320A (zh) * 2020-12-31 2021-05-18 中国科学技术大学 跨模态注意力一致性网络自监督学习方法
CN114118200A (zh) * 2021-09-24 2022-03-01 杭州电子科技大学 一种基于注意力引导双向胶囊网络的多模态情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
檀华东: "面向视听觉数据的跨模态生成及同步判别研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019397A (zh) * 2022-06-15 2022-09-06 北京大学深圳研究生院 一种基于时空信息聚合的对比自监督人体行为识别方法及***
CN115019397B (zh) * 2022-06-15 2024-04-19 北京大学深圳研究生院 一种基于时空信息聚合的对比自监督人体行为识别方法及***
CN115100390A (zh) * 2022-08-24 2022-09-23 华东交通大学 一种联合对比学习与自监督区域定位的图像情感预测方法
CN115116448A (zh) * 2022-08-29 2022-09-27 四川启睿克科技有限公司 语音提取方法、神经网络模型训练方法、装置及存储介质
CN115116448B (zh) * 2022-08-29 2022-11-15 四川启睿克科技有限公司 语音提取方法、神经网络模型训练方法、装置及存储介质
WO2024087337A1 (zh) * 2022-10-24 2024-05-02 深圳先进技术研究院 一种由舌部超声图像直接合成语音的方法
CN115620110A (zh) * 2022-12-16 2023-01-17 华南理工大学 一种视频事件定位与识别方法、装置及存储介质
CN115620110B (zh) * 2022-12-16 2023-03-21 华南理工大学 一种视频事件定位与识别方法、装置及存储介质
CN116824495A (zh) * 2023-06-26 2023-09-29 华东交通大学 危险行为识别方法、***、存储介质及计算机设备
CN117173394A (zh) * 2023-08-07 2023-12-05 山东大学 面向无人机视频数据的弱监督显著性目标检测方法及***
CN117173394B (zh) * 2023-08-07 2024-04-02 山东大学 面向无人机视频数据的弱监督显著性目标检测方法及***

Also Published As

Publication number Publication date
CN114329036B (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
CN114329036B (zh) 一种基于注意力机制的跨模态特征融合***
Liu et al. Deep learning for generic object detection: A survey
WO2020177673A1 (zh) 一种视频序列选择的方法、计算机设备及存储介质
CN108804453B (zh) 一种视音频识别方法及装置
Lee et al. Multi-view automatic lip-reading using neural network
US10768887B2 (en) Electronic apparatus, document displaying method thereof and non-transitory computer readable recording medium
Lam et al. Evaluation of multiple features for violent scenes detection
CN113822125B (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN114519809A (zh) 一种基于多尺度语义网络的视听视频解析装置及方法
JP2023546173A (ja) 顔認識型人物再同定システム
Zong et al. Emotion recognition in the wild via sparse transductive transfer linear discriminant analysis
CN110991500A (zh) 一种基于嵌套式集成深度支持向量机的小样本多分类方法
CN115147641A (zh) 一种基于知识蒸馏和多模态融合的视频分类方法
Symeonidis et al. Neural attention-driven non-maximum suppression for person detection
CN112084887A (zh) 一种基于注意力机制的自适应视频分类方法及***
Aliakbarian et al. Deep action-and context-aware sequence learning for activity recognition and anticipation
Chen et al. Dual-bottleneck feature pyramid network for multiscale object detection
US20220086401A1 (en) System and method for language-guided video analytics at the edge
Liu et al. A multimodal approach for multiple-relation extraction in videos
de Souza et al. Building semantic understanding beyond deep learning from sound and vision
CN115222047A (zh) 一种模型训练方法、装置、设备及存储介质
Yi et al. STAN: spatiotemporal attention network for video-based facial expression recognition
CN114282094A (zh) 一种资源排序方法、装置、电子设备和存储介质
Hou et al. End-to-end bloody video recognition by audio-visual feature fusion
Shen et al. Pedestrian proposal and refining based on the shared pixel differential feature

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant