CN114329036A - 一种基于注意力机制的跨模态特征融合*** - Google Patents
一种基于注意力机制的跨模态特征融合*** Download PDFInfo
- Publication number
- CN114329036A CN114329036A CN202210256553.8A CN202210256553A CN114329036A CN 114329036 A CN114329036 A CN 114329036A CN 202210256553 A CN202210256553 A CN 202210256553A CN 114329036 A CN114329036 A CN 114329036A
- Authority
- CN
- China
- Prior art keywords
- video
- audio
- segment
- rgb
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 45
- 230000007246 mechanism Effects 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000006870 function Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000010219 correlation analysis Methods 0.000 claims description 8
- 230000005284 excitation Effects 0.000 claims description 8
- 239000000126 substance Substances 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 239000004576 sand Substances 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012098 association analyses Methods 0.000 abstract description 4
- 230000000295 complement effect Effects 0.000 abstract description 2
- 230000003287 optical effect Effects 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008909 emotion recognition Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供一种基于注意力机制的跨模态特征融合***,该***基于音频和视频图像两者信息的互补关系,提出了用有监督对比学习作为框架的方法来提取音视频两个模态的特征,同时构建了音视频关联分析模块,实现音视频对齐,并设计了一种基于注意力机制的跨模态特征融合模块,以实现音视频特征的融合。将音频和RGB图片作为输入来达到对视频表示进行学习的目的。
Description
技术领域
本发明涉及音、视频处理技术领域,更具体地,涉及一种基于注意力机制的跨模态特征融合***。
背景技术
对于视频表示学***面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。由于光流较好的包含了视频的运动信息,因此大部分的研究人员将光流作为一个模态来提升视频表示学习的性能。
尽管RGB图像包含了视频的静态信息,光流包含了视频的动态信息,然而,光流也是基于RGB图像生成的模态,并不完全独立于RGB图像模态;而在现有的3D卷积网络当中,对输入的图像片段也能较好的提取其中的动态信息。因此,光流模态的利用达到的瓶颈。而在视频中,除了丰富的图片信息以外,也存在大量有效的声音信息。比如在“砍树”这一行为中,往往也伴随着砍伐树木的声音;在“打棒球”这一行为中,同时也伴随着球棒敲击棒球的声音近的一些研究也证明了音频的有效性。在以往的相关工作中,多采用通过音视频是否对齐以及音视频是否属于同一样本来对网络进行训练。这样的方法虽然能够较好的进行模态之间的信息交互,但却不能解决类内样本差异大,而类间样本差异小的问题。这些方式虽然能学到较好的特征,但有一个不足是之处:没有考虑到属于同一个类别动作之间特征的相关性。
现有技术中公开了一种基于多模深度学习的双模态情感识别方法的专利,该方法分别获得音频和视频RGB图像三通道输入矩阵,获得音频数据样本和视频数据样本;构建音频深度卷积神经网络和视频深度卷积神经网络,获得高层次音频特征和获得高层次视频特征;建立由全连接层构成的融合网络,构建高层次音视频统一特征;将融合网络最后一层全连接层输出的音视频统一特征聚合成全局特征,将全局特征输入到分类器中,获得音视频情感识别分类结果;采用了全连接层构成的融合网络,实现对音视频情感信息的融合,构建高层次的音视频统一特征表示,有效地提高音视频情感识别性能。但是,此发明没有涉及任何有关将音频和RGB图片作为输入来达到对视频表示进行学习的技术内容。
发明内容
本发明提供一种基于注意力机制的跨模态特征融合***,该***实现音视频特征的融合,将音频和RGB图片作为输入来达到对视频表示进行学习。
为了达到上述技术效果,本发明的技术方案如下:
一种基于注意力机制的跨模态特征融合***,包括:
音视频关联分析模块,用于对音频和视频RGB图像两个模态进行对齐;
有监督对比学习模块,用于音频和视频RGB图像两个模态提取模态的特征;
跨模态特征融合模块,用于利用模态之间的相关知识来学习全局上下文表示。
进一步地,音视频关联分析模块从一段视频i中连续采集16帧RGB图像所产生的RGB片段vi作为RGB图像模态的输入;此时,一段视频中仅采样一个片段,为了充分利用一段视频中的有效音频信息,将整段视频i中所提取的音频转换为该段视频的梅尔频谱图ai作为音频模态的输入;其中,i=1,···,N。
进一步地,有监督对比学习模块的具体处理过程是:
2)、自监督对比学习生成自监督对比损失;
3)、有监督对比学习生成有监督对比损失。
进一步地,自监督对比学习生成自监督对比损失的具体过程是:
正对{,}i=1,···,N表示为:来源于同一个视频 i的RGB片段特征和对应音频所产生的梅尔频谱图特征;负对{,}i,j=1,···,N且i≠j∪{,}i,j=1,···,N且i≠j表示为:来源于视频 i产生的RGB片段特征,和所有来源于视频j(i≠j)所产生的RGB片段特征以及梅尔频谱图特征;视频的RGB图像模态的自监督对比损失表示为:
同理,音频模态的自监督对比损失为:
由公式(1) (2)得出整体自监督对比损失为:
进一步地,有监督对比学习生成有监督对比损失的具体过程是:
正对{,}i,j=1,···,N且yi=yj∪{,}i,j=1,···,N且i≠j且yi=yj表示为:和所有来源于同一类别的视频 i和视频j的RGB片段特征以及音频所产生的梅尔频谱图特征,;其余的都为负对;有监督对比损失公式如下:
视频的RGB图像模态的有监督对比损失表示为:
其中,
是标量温度参数,其中分子为所有正对样本距离和,分母为所有正对以及负对样本距离和;
同理,音频模态的有监督对比损失为:
由公式(4) (5)得出整体有监督对比损失为:
进一步地,跨模态特征融合模块接收来自不同模态的特征并学习全局上下文嵌入,然后该嵌入用于重新校准来自不同片段的输入特征,使用从有监督对比学习框架中学习到的视频片段特征作为输入,将经过融合后的特征作为输出,通过交叉熵计算融合部分的损失函数。
进一步地,跨模态特征融合模块的具体处理过程是:
其中⊙是通道维度中每个元素的通道乘积运算,δ(·)是线性整流函数,通过这种方式,允许一个片段的特征重新校准另一个片段的特征,同时保持不同片段之间的相关性;
其中yi和pi 分别代表样本在真实情况和预测中属于类i的概率,C表示所有可能顺序的数量;
进一步地,音频模态为一段视频的整段音频通过短时傅里叶变换生成的梅尔频谱图;视频RGB图像的一个片段和整段视频生成的梅尔频谱图对齐作为输入;音频梅尔频谱图序列表示为,其中ai为从一个视频 i 中提取的音频所生成的一个梅尔频谱图。
与现有技术相比,本发明技术方案的有益效果是:
本发明基于音频和视频图像两者信息的互补关系,提出了用有监督对比学习作为框架的方法来提取音视频两个模态的特征,同时构建了音视频关联分析模块,实现音视频对齐,并设计了一种基于注意力机制的跨模态特征融合模块,以实现音视频特征的融合。将音频和RGB图片作为输入来达到对视频表示进行学习的目的。
附图说明
图1为本发明***总体处理过程框图;
图2为本发明中音视频对比学习示例图;
图3为本发明中有监督对比学习(SCL)处理过程框架图;
图4为本发明中跨模态特征融合模块(MFAM) 处理过程框架图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于注意力机制的跨模态特征融合***,包括:
音视频关联分析模块,用于对音频和视频RGB图像两个模态进行对齐;
有监督对比学习模块,用于音频和视频RGB图像两个模态提取模态的特征;
跨模态特征融合模块,用于利用模态之间的相关知识来学习全局上下文表示。
音视频关联分析模块从一段视频i中连续采集16帧RGB图像所产生的RGB片段vi作为RGB图像模态的输入;此时,一段视频中仅采样一个片段,为了充分利用一段视频中的有效音频信息,将整段视频i中所提取的音频转换为该段视频的梅尔频谱图ai作为音频模态的输入;其中,i=1,···,N。
有监督对比学习模块的具体处理过程是:
2)、自监督对比学习生成自监督对比损失;
3)、有监督对比学习生成有监督对比损失。
通过音视频关联分析(AVCA)模块对音频和视频RGB图像两个模态进行对齐。该模块中,对于每个视频,分为视频RGB图像模态和音频模态两个部分作为输入。视频RGB图像模态为,一段视频随机采样连续的16帧为一个片段。音频模态为,一段视频的整段音频通过短时傅里叶变换生成的梅尔频谱图。此时视频RGB图像的一个片段和整段视频生成的梅尔频谱图对齐作为输入。
在有监督对比学习(SCL)模块中,分别利用两个不同的三维卷积神经网络(3DCNN)为视频RGB图像片段和音频梅尔频谱图提取时空特征,并且所有3D CNN共享相同的权重。然后,为两个模态所产生的特征设计有监督对比损失,以增强同类样本表示学习的判别能力。
在多模态融合中,引入基于注意力机制的跨模态特征融合模块(MFAM),从有监督对比学习框架中学习到的特征通过MFAM模块自适应传播,并自适应地重新校准通道特征。将校准后特征联接后通过交叉熵计算损失函数。
实施例2
如图1所示,一种基于注意力机制的跨模态特征融合***,包括:
音视频关联分析模块,用于对音频和视频RGB图像两个模态进行对齐;
有监督对比学习模块,用于音频和视频RGB图像两个模态提取模态的特征;
跨模态特征融合模块,用于利用模态之间的相关知识来学习全局上下文表示。
音视频关联分析模块从一段视频i中连续采集16帧RGB图像所产生的RGB片段vi作为RGB图像模态的输入;此时,一段视频中仅采样一个片段,为了充分利用一段视频中的有效音频信息,将整段视频i中所提取的音频转换为该段视频的梅尔频谱图ai作为音频模态的输入;其中,i=1,···,N。
有监督对比学习模块的具体处理过程是:
2)、自监督对比学习生成自监督对比损失;
3)、有监督对比学习生成有监督对比损失。
自监督对比学习生成自监督对比损失的具体过程是:
正对{,}i=1,···,N表示为:来源于同一个视频 i的RGB片段特征和对应音频所产生的梅尔频谱图特征;负对{,}i,j=1,···,N且i≠j∪{,}i,j=1,···,N且i≠j表示为:来源于视频 i产生的RGB片段特征,和所有来源于视频j(i≠j)所产生的RGB片段特征以及梅尔频谱图特征;视频的RGB图像模态的自监督对比损失表示为:
同理,音频模态的自监督对比损失为:
由公式(1) (2)得出整体自监督对比损失为:
有监督对比学习生成有监督对比损失的具体过程是:
正对{,}i,j=1,···,N且yi=yj∪{,}i,j=1,···,N且i≠j且yi=yj表示为:和所有来源于同一类别的视频 i和视频j的RGB片段特征以及音频所产生的梅尔频谱图特征,;其余的都为负对;有监督对比损失公式如下:
视频的RGB图像模态的有监督对比损失表示为:
其中,
是标量温度参数,其中分子为所有正对样本距离和,分母为所有正对以及负对样本距离和;
同理,音频模态的有监督对比损失为:
由公式(4) (5)得出整体有监督对比损失为:
跨模态特征融合模块接收来自不同模态的特征并学习全局上下文嵌入,然后该嵌入用于重新校准来自不同片段的输入特征,使用从有监督对比学习框架中学习到的视频片段特征作为输入,将经过融合后的特征作为输出,通过交叉熵计算融合部分的损失函数。
跨模态特征融合模块的具体处理过程是:
其中⊙是通道维度中每个元素的通道乘积运算,δ(·)是线性整流函数,通过这种方式,允许一个片段的特征重新校准另一个片段的特征,同时保持不同片段之间的相关性;
其中yi和pi 分别代表样本在真实情况和预测中属于类i的概率,C表示所有可能顺序的数量;
实施例3
为了方便描述每个模块,给定 N 个不同的视频,每个视频的片段由大小为的帧组成,其中c是通道数,l是帧数,h和w表示帧的高度和宽度。3D卷积核的大小是t×d×d,其中t是时间长度,d是空间大小;将视频RGB图像序列定义为,其中vi为从一个视频 i (i=1,...,N)中连续采样m 帧产生的一个RGB片段。音频模态为一段视频的整段音频通过短时傅里叶变换生成的梅尔频谱图;视频RGB图像的一个片段和整段视频生成的梅尔频谱图对齐作为输入;音频梅尔频谱图序列表示为,其中ai为从一个视频 i 中提取的音频所生成的一个梅尔频谱图。为视频 i 的类别标签。
1)、音视频关联分析(音视频对齐)
声音信号是一维信号,直观上只能看到时域信息,不能看到频域信息。而通过傅里叶变换(FT)可以将其变换到频域,但是丢失了时域信息,无法看到时频关系。为了解决这个问题,产生了很多方法,短时傅里叶变换,小波等都是很常用的时频分析方法。
短时傅里叶变换(STFT),就是对短时的信号做傅里叶变换。原理如下:对一段长语音信号,分帧、加窗,再对每一帧做傅里叶变换,之后把每一帧的结果沿另一维度堆叠,得到一张图(类似于二维信号),这张图就是声谱图。
由于得到的声谱图较大,为了得到合适大小的声音特征,通常将它通过梅尔尺度滤波器组(Mel-scale filter banks),变为梅尔频谱。
在以往的音视频对齐中,大部分采用的是一个RGB图像对应一定时间长度音频所产生的梅尔频谱图进行对齐。这种做法虽然能够将两个模态进行对齐,提取了视频的静态图像信息以及音频信息,但忽略了视频本身所包含的时序信息。
为了利用视频的时序信息,本发明将从一段视频i(i=1,...,N)中连续采集16帧RGB图像所产生的RGB片段vi作为RGB图像模态的输入。此时,一段视频中仅采样一个片段,为了充分利用一段视频中的有效音频信息,将整段视频i中所提取的音频转换为该段视频的梅尔频谱图ai作为音频模态的输入。
1.1)音视频对比学习
在图像领域中,自监督对比学习已经是一种较为常见的学习方法。它的核心思想是,将来源于同一个样本的数据特征之间的距离尽量靠近,而来源于不同样本的数据特征尽量远离。图像领域中通常是将一张图片通过翻转或者裁剪等操作进行数据的增广,这样产生的图片和原始图片之间形成了一个正对,其他所有图片和原始图片之间形成了负对。通过对比损失使得正对距离近,而负对距离远。
而为了让属于同类动作的特征也彼此接近,有研究者提出了一种新的对比学习方法:有监督对比学习。它的核心思想是,将来源于同一个类别的数据特征之间的距离尽量靠近,而来源于不同类别的数据特征尽量远离。此时正对扩展为了通过原始图片增广产生的图片以及和原始图片具有同一类别信息的图片,负对则为所有和原始图片不属于同一类别的图片。
虽然对比学习方法已经较为广泛的运用于图像学习领域中,也有部分学者将其引入到了视频表示学习当中,但在多模态领域中结合对比学习则是近几年才提出的。而在多模态领域中,大部分学者仅仅把RGB图像以及光流作为两个模态进行学习,将音频作为其中一个模态的更是少之又少。因此,本发明将有监督对比学习引入音视频多模态学习中,使得模型在能够更好的提取不同模态特征的同时,也能够更好地区分类内差异大,类间差异小的样本。
2)模态特征提取
3) 有监督对比学习
3.1)自监督对比学习
如图3所示,有监督对比学习(SCL)框架图:输入为一个视频的RGB图像片段和对应音频产生的梅尔频谱图,输出为经过卷积网络和对比学习之后产生的两个模态特征向量自监督对比学习的核心是,使来源于同一个样本的数据特征之间的距离尽量靠近,而来源于不同样本的数据特征尽量远离。
在本发明中,以视频i的RGB片段特征为例,正对{,}i=1,···,N表示为:来源于同一个视频 i的RGB片段特征和对应音频所产生的梅尔频谱图特征;负对{,}i,j=1,···,N且i≠j∪{,}i,j=1,···,N且i≠j表示为:来源于视频 i产生的RGB片段特征,和所有来源于视频j(i≠j)所产生的RGB片段特征以及梅尔频谱图特征。如图2所示。此时,视频的RGB图像模态的自监督对比损失表示为:
同理,音频模态的自监督对比损失为:
由公式(1) (2)得出整体自监督对比损失为:
3.2)有监督对比学习
虽然自监督对比学习能够学到较好的特征,但有一个不足是之处:没有考虑到属于同一个类别动作之间特征的相关性;为了让同类动作的特征彼此接近,采用了一种新的对比学习方法:有监督对比学。有监督对比学习的核心是,使来源于同一类别样本的数据特征之间的距离尽量靠近,而来源于不同类别的数据特征尽量远离。
在本发明中,以RGB片段特征为例,正对{,}i,j=1,···,N且yi=yj∪{,}i,j=1,···,N且i≠j且yi=yj表示为:和所有来源于同一类别的视频 i和视频j的RGB片段特征以及音频所产生的梅尔频谱图特征,;其余的都为负对;有监督对比损失公式如下:
视频的RGB图像模态的有监督对比损失表示为:
其中,
是标量温度参数,其中分子为所有正对样本距离和,分母为所有正对以及负对样本距离和;
同理,音频模态的有监督对比损失为:
由公式(4) (5)得出整体有监督对比损失为:
4)多模态融合
如图4所示,为了使不同模态之间的信息进行更好的融合,提出了一种基于注意力机制的跨模态特征融合(MFAM)模块。由于来自不同模态的特征是相关的,构建了一个跨模态特征融合模块,该模块接收来自不同模态的特征并学习全局上下文嵌入,然后该嵌入用于重新校准来自不同片段的输入特征,如图4所示。使用从有监督对比学习框架中学习到的视频片段特征作为输入,将经过融合后的特征作为输出,通过交叉熵计算融合部分的损失函数。
其中⊙是通道维度中每个元素的通道乘积运算,δ(·)是线性整流函数,通过这种方式,允许一个片段的特征重新校准另一个片段的特征,同时保持不同片段之间的相关性;
其中yi和pi 分别代表样本在真实情况和预测中属于类i的概率,C表示所有可能顺序的数量;
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于注意力机制的跨模态特征融合***,其特征在于,包括:
音视频关联分析模块,用于对音频和视频RGB图像两个模态进行对齐;
有监督对比学习模块,用于音频和视频RGB图像两个模态提取模态的特征;
跨模态特征融合模块,用于利用模态之间的相关知识来学习全局上下文表示。
2.根据权利要求1所述的基于注意力机制的跨模态特征融合***,其特征在于,音视频关联分析模块从一段视频i中连续采集16帧RGB图像所产生的RGB片段vi作为RGB图像模态的输入;此时,一段视频中仅采样一个片段,为了充分利用一段视频中的有效音频信息,将整段视频i中所提取的音频转换为该段视频的梅尔频谱图ai作为音频模态的输入;其中,i=1,···,N。
4.根据权利要求3所述的基于注意力机制的跨模态特征融合***,其特征在于,自监督对比学习生成自监督对比损失的具体过程是:
正对{,}i=1,···,N表示为:来源于同一个视频 i的RGB片段特征和对应音频所产生的梅尔频谱图特征;负对{,}i,j=1,···,N且i≠j∪{,}i,j=1,···,N且i≠j表示为:来源于视频 i产生的RGB片段特征,和所有来源于视频j(i≠j)所产生的RGB片段特征以及梅尔频谱图特征;视频的RGB图像模态的自监督对比损失表示为:
同理,音频模态的自监督对比损失为:
由公式(1) (2)得出整体自监督对比损失为:
6.根据权利要求5所述的基于注意力机制的跨模态特征融合***,其特征在于,跨模态特征融合模块接收来自不同模态的特征并学习全局上下文嵌入,然后该嵌入用于重新校准来自不同片段的输入特征,使用从有监督对比学习框架中学习到的视频片段特征作为输入,将经过融合后的特征作为输出,通过交叉熵计算融合部分的损失函数。
7.根据权利要求6所述的基于注意力机制的跨模态特征融合***,其特征在于,跨模态特征融合模块的具体处理过程是:
其中⊙是通道维度中每个元素的通道乘积运算,δ(·)是线性整流函数,通过这种方式,允许一个片段的特征重新校准另一个片段的特征,同时保持不同片段之间的相关性;
其中yi和pi 分别代表样本在真实情况和预测中属于类i的概率,C表示所有可能顺序的数量;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210256553.8A CN114329036B (zh) | 2022-03-16 | 2022-03-16 | 一种基于注意力机制的跨模态特征融合*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210256553.8A CN114329036B (zh) | 2022-03-16 | 2022-03-16 | 一种基于注意力机制的跨模态特征融合*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114329036A true CN114329036A (zh) | 2022-04-12 |
CN114329036B CN114329036B (zh) | 2022-07-05 |
Family
ID=81033312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210256553.8A Active CN114329036B (zh) | 2022-03-16 | 2022-03-16 | 一种基于注意力机制的跨模态特征融合*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114329036B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019397A (zh) * | 2022-06-15 | 2022-09-06 | 北京大学深圳研究生院 | 一种基于时空信息聚合的对比自监督人体行为识别方法及*** |
CN115100390A (zh) * | 2022-08-24 | 2022-09-23 | 华东交通大学 | 一种联合对比学习与自监督区域定位的图像情感预测方法 |
CN115116448A (zh) * | 2022-08-29 | 2022-09-27 | 四川启睿克科技有限公司 | 语音提取方法、神经网络模型训练方法、装置及存储介质 |
CN115620110A (zh) * | 2022-12-16 | 2023-01-17 | 华南理工大学 | 一种视频事件定位与识别方法、装置及存储介质 |
CN116824495A (zh) * | 2023-06-26 | 2023-09-29 | 华东交通大学 | 危险行为识别方法、***、存储介质及计算机设备 |
CN117173394A (zh) * | 2023-08-07 | 2023-12-05 | 山东大学 | 面向无人机视频数据的弱监督显著性目标检测方法及*** |
WO2024087337A1 (zh) * | 2022-10-24 | 2024-05-02 | 深圳先进技术研究院 | 一种由舌部超声图像直接合成语音的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112820320A (zh) * | 2020-12-31 | 2021-05-18 | 中国科学技术大学 | 跨模态注意力一致性网络自监督学习方法 |
US20210342646A1 (en) * | 2020-04-30 | 2021-11-04 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems, methods, and apparatuses for training a deep model to learn contrastive representations embedded within part-whole semantics via a self-supervised learning framework |
CN114118200A (zh) * | 2021-09-24 | 2022-03-01 | 杭州电子科技大学 | 一种基于注意力引导双向胶囊网络的多模态情感分类方法 |
-
2022
- 2022-03-16 CN CN202210256553.8A patent/CN114329036B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210342646A1 (en) * | 2020-04-30 | 2021-11-04 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems, methods, and apparatuses for training a deep model to learn contrastive representations embedded within part-whole semantics via a self-supervised learning framework |
CN112820320A (zh) * | 2020-12-31 | 2021-05-18 | 中国科学技术大学 | 跨模态注意力一致性网络自监督学习方法 |
CN114118200A (zh) * | 2021-09-24 | 2022-03-01 | 杭州电子科技大学 | 一种基于注意力引导双向胶囊网络的多模态情感分类方法 |
Non-Patent Citations (1)
Title |
---|
檀华东: "面向视听觉数据的跨模态生成及同步判别研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019397A (zh) * | 2022-06-15 | 2022-09-06 | 北京大学深圳研究生院 | 一种基于时空信息聚合的对比自监督人体行为识别方法及*** |
CN115019397B (zh) * | 2022-06-15 | 2024-04-19 | 北京大学深圳研究生院 | 一种基于时空信息聚合的对比自监督人体行为识别方法及*** |
CN115100390A (zh) * | 2022-08-24 | 2022-09-23 | 华东交通大学 | 一种联合对比学习与自监督区域定位的图像情感预测方法 |
CN115116448A (zh) * | 2022-08-29 | 2022-09-27 | 四川启睿克科技有限公司 | 语音提取方法、神经网络模型训练方法、装置及存储介质 |
CN115116448B (zh) * | 2022-08-29 | 2022-11-15 | 四川启睿克科技有限公司 | 语音提取方法、神经网络模型训练方法、装置及存储介质 |
WO2024087337A1 (zh) * | 2022-10-24 | 2024-05-02 | 深圳先进技术研究院 | 一种由舌部超声图像直接合成语音的方法 |
CN115620110A (zh) * | 2022-12-16 | 2023-01-17 | 华南理工大学 | 一种视频事件定位与识别方法、装置及存储介质 |
CN115620110B (zh) * | 2022-12-16 | 2023-03-21 | 华南理工大学 | 一种视频事件定位与识别方法、装置及存储介质 |
CN116824495A (zh) * | 2023-06-26 | 2023-09-29 | 华东交通大学 | 危险行为识别方法、***、存储介质及计算机设备 |
CN117173394A (zh) * | 2023-08-07 | 2023-12-05 | 山东大学 | 面向无人机视频数据的弱监督显著性目标检测方法及*** |
CN117173394B (zh) * | 2023-08-07 | 2024-04-02 | 山东大学 | 面向无人机视频数据的弱监督显著性目标检测方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN114329036B (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114329036B (zh) | 一种基于注意力机制的跨模态特征融合*** | |
Liu et al. | Deep learning for generic object detection: A survey | |
WO2020177673A1 (zh) | 一种视频序列选择的方法、计算机设备及存储介质 | |
CN108804453B (zh) | 一种视音频识别方法及装置 | |
Lee et al. | Multi-view automatic lip-reading using neural network | |
US10768887B2 (en) | Electronic apparatus, document displaying method thereof and non-transitory computer readable recording medium | |
Lam et al. | Evaluation of multiple features for violent scenes detection | |
CN113822125B (zh) | 唇语识别模型的处理方法、装置、计算机设备和存储介质 | |
CN114519809A (zh) | 一种基于多尺度语义网络的视听视频解析装置及方法 | |
JP2023546173A (ja) | 顔認識型人物再同定システム | |
Zong et al. | Emotion recognition in the wild via sparse transductive transfer linear discriminant analysis | |
CN110991500A (zh) | 一种基于嵌套式集成深度支持向量机的小样本多分类方法 | |
CN115147641A (zh) | 一种基于知识蒸馏和多模态融合的视频分类方法 | |
Symeonidis et al. | Neural attention-driven non-maximum suppression for person detection | |
CN112084887A (zh) | 一种基于注意力机制的自适应视频分类方法及*** | |
Aliakbarian et al. | Deep action-and context-aware sequence learning for activity recognition and anticipation | |
Chen et al. | Dual-bottleneck feature pyramid network for multiscale object detection | |
US20220086401A1 (en) | System and method for language-guided video analytics at the edge | |
Liu et al. | A multimodal approach for multiple-relation extraction in videos | |
de Souza et al. | Building semantic understanding beyond deep learning from sound and vision | |
CN115222047A (zh) | 一种模型训练方法、装置、设备及存储介质 | |
Yi et al. | STAN: spatiotemporal attention network for video-based facial expression recognition | |
CN114282094A (zh) | 一种资源排序方法、装置、电子设备和存储介质 | |
Hou et al. | End-to-end bloody video recognition by audio-visual feature fusion | |
Shen et al. | Pedestrian proposal and refining based on the shared pixel differential feature |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |