CN111325155B - 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法 - Google Patents

基于残差式3d cnn和多模态特征融合策略的视频动作识别方法 Download PDF

Info

Publication number
CN111325155B
CN111325155B CN202010107288.8A CN202010107288A CN111325155B CN 111325155 B CN111325155 B CN 111325155B CN 202010107288 A CN202010107288 A CN 202010107288A CN 111325155 B CN111325155 B CN 111325155B
Authority
CN
China
Prior art keywords
residual
network
model
space
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010107288.8A
Other languages
English (en)
Other versions
CN111325155A (zh
Inventor
张祖凡
吕宗明
甘臣权
张家波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010107288.8A priority Critical patent/CN111325155B/zh
Publication of CN111325155A publication Critical patent/CN111325155A/zh
Application granted granted Critical
Publication of CN111325155B publication Critical patent/CN111325155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于残差式3D CNN和多模态特征融合策略的视频动作识别方法,属于计算机视觉与深度学习领域。首先将传统C3D网络连接方式改为残差式连接;采用核分解技术将3D卷积核拆解,得到一个空间卷积核,与并行的多个不同时间尺度时间核,再在空间卷积核后***注意力模型,得到A3D残差模块并将其堆叠成的残差网络。搭建双流动作识别模型,将RGB图像特征和光流特征输入到空间流网络和时间流网络中,并提取出多级卷积特征层特征,再利用多级特征融合策略对两个网络进行融合,实现时空特征互补;最后将分数级融合后的全局视频动作描述子通过PCA降维,再用SVM分类器完成动作分类。

Description

基于残差式3D CNN和多模态特征融合策略的视频动作识别 方法
技术领域
本发明属于计算机视觉与深度学习领域,涉及一种基于残差式3D CNN和多模态特征融合策略的视频动作识别方法。
背景技术
今天的数字内容本质上是包含了文本、音频、图像、视频等等的多媒体信息。特别是图像和视频,随着传感器的盛行与移动设备的激增,通过视频动作传达信息作为交流的方式也逐渐流行起来,开始成为互联网用户之间的一种新的通信方式。为了更为深层次与智能化地去发掘与理解多媒体信息,科研领域越来越鼓励开发先进的视频理解技术。表征学***面捕获不同粒度的局部特征,随着层数加深,这些提取的显著特征被组合和压缩,不同特征层涵盖不同层次的视觉感知特征表达,因此,凭借其对视觉表观特征优越的学习能力,在表征学习领域得到了广泛的认可。卷积神经网络(CNN)取得的成功证明了卷积神经网络具有很高的学习视觉表象的能力。例如,残差网络在ImageNet测试集上top-5错误率达到了3.57%,刷新了人类之前已知的最好识别性能。然而,视频帧是一个时序图像,其间较大的动态变化以及处理的复杂性,使得速度模型学习到一个强大和通用的时空表征成为了难题。
目前,主要方法是将CNN的卷积核从2D扩展到3D,并训练出一种全新的3D CNN,通过在2D CNN的基础上扩增一个时间维度,这样网络不仅可以提取出每个视频图像中存在的视觉外观特征,而且可以捕获到连续帧之间的动态信息。但是,3D卷积核给模型性能带来提升的同时,网络训练中昂贵的计算成本也成为了一个待解决的问题。以一个广泛采用的11层3DCNN,即C3D网络为例,模型大小就达到了321MB,随着模型参数二次方式的增加,研究3D卷积核的有效替代势在必行。再者,当前的双流动作识别模型中,空间流网络与时间流网络在最后的决策融合之前缺少交互,积聚在多个网络层的表征能力未被充分开发,关于对如何融合双流网络多级特征有效实现空间特征与时间特征的互补的研究还相对较少。因此,怎样针对C3D模型参数多训练困难以及局限于浅层网络表征能力的缺陷来展开研究,有效提升3D卷积神经网络模型处理视频动作的能力与效率,以及怎样充分且有效实现双流网络融合互补,提升识别的性能,是一项非常重要的工作。
发明内容
有鉴于此,本发明的目的在于提供一种基于残差式3D CNN和多模态特征融合策略的视频动作识别方法。
为达到上述目的,本发明提供如下技术方案:
一种基于残差式3D CNN和多模态特征融合策略的视频动作识别方法,包括以下步骤:
S1:基于传统的卷积3D神经网络(Convolutional 3D Neural Networks,C3D),将各个卷积模块的连接方式改为残差式连接,引入恒等映射(Indentity mapping);
S2:在残差模块中,利用3D核分解技术,将原始的3D卷积核分解为空间核和多个并行的多尺度时间核(Multiscale temporal transform layers,MTTL),以减少模型参数,接着,嵌入注意力模型(Convolutional block attention module,CBAM),得到全新的残差模块(A3D block);
S3:通过堆叠A3D block以及池化层,调整各个模块的输入输出设置,完成最终的A3D残差网络的搭建;
S4:利用设计好的A3D卷积残差神经网络模型,搭建时空双流识别模型,分别将RGB视频图像和光流图像两种模态作为网络输入;
S5:联合利用多级特征融合与决策融合方法(multi-stage fusion methods),首先在特征层面融合时间网络和空间网络中不同层特征,再通过决策级权值融合策略权衡多个softmax分类器的类分数向量,实现分数级决策融合;
S6:再利用主成分分析(principal component analysis,PCA)降维算法,对融合后的特征描述子降维去相关,最后通过多分类的SVM分类器完成对视频动作的分类识别。
进一步,步骤S1中,将原始C3D中各个特征模块之间顺序直连的方式改为残差式连接,具体包括:
将特征模块的原始输入xn-1,即恒等映射Indentity mapping,与其输出的和作为新的输出yn,表示为yn=R*(xn-1,W)+xn-1,其中W表示残差模块中的可训练参数,通过残差映射R*结合原始输入xn-1,拟合网络训练中的可变残差值,R*+xn-1表示shortcut连接,保证前层信息在向网络更深层传播时不易丢失,避免梯度弥散与梯度***。
进一步,步骤S2中所述的3D核分解包括:
利用3D核分解技术,将3×3×3卷积核沿着空间维度和时间维度分解,得到一个1×3×3的空间卷积核,以及一个3×1×1的时间卷积核,减少模型参数;同时,为了解决模型处理时序帧图像特征信息时,时间抓取尺度单一的缺点,本发明丰富了时间核尺度,并入1×1×1以及2×1×1不同尺度时间核,设计出多尺度的时间转变层(Multiscale temporaltransform layers,MTTL)来提升模型对时间域中多粒度时间信息的提取能力。
进一步,步骤S2中所述在残差模块中引入注意力模块CBAM,CBAM分为通道注意力(Channel attention module,CAM)和空间注意力(Spatial attention module,SAM),其中
在通道注意力模型中,首先将输入特征F∈RC×W×H(其中C,W,H分别代表特征平面通道数、宽度与高度值)分别通过最大池化(maxpool)和平均池化(avgpool),压缩空间维度,再利用多层感知层(MLP)制取通道权重,最后相加,通过relu激活层,再映射到输入特征各个特征通道,实现对输入特征通道注意力分数的合理分配,过程计算表示为:Mc=relu{MLP(max pool(F))+MLP(avgpool(F))},Mc为CAM的输出,即通道加权后的显著性特征;
在空间注意力模型中,同样通过最大池化(maxpool)和平均池化(avgpool),压缩掉Mc的通道维度,通过串联两个特征描述子得到携带通道显著性的两通道特征,再利用一个卷积操作Conv计算Conv[max pool(F),avgpool(F)}得到空间权重,归一化后与Mc相加,得到空间显著性特征;由于CAM与SAM在空间关注上互补,使得CBAM能实现对特征空间信息的全方位筛选;在残差模块中,CBAM模型直接接收空间核的输出作为输入,赋予模型有效的特征筛选机制。
进一步,步骤S4中所述双流识别模型的搭建过程如下:
使用A3D卷积残差神经网络作为双流网络的基础模型,利用RGB图像特征以及对应的光流特征分别作为空间流和时间流网络的输入;其中光流特征的获取是通过利用空间金字塔模型(Spatial pyramid networks,SpyNet)导出,该模型直接接入到双流流网络中,通过梯度的反向传播与时间流网络以及空间网络一同参加训练,微调自身参数。不同于基于手工制作的方法提取光流信息,来自学习网络计算的光流更具有灵活性来表征现实场景中的动作分类。
进一步,步骤S5中所述多级特征融合与决策融合方法,具体包括:
分别从A3D卷积残差神经网络的不同特征层,包括A3D_2a、A3D_3a、A3D_5a以及softmax层,导出多级互补特征fi *,fi,其中fi *,fi分别表示来自时间流网络以及空间流网络的多级特征,接着对导出的特征采用加权求和的方式融合对应的时间流和空间流特征,用于权衡双流网络的贡献,即计算Fi=Wi[fi,fi *],其中Fi,Wi分别是第i层特征融合的输出和对应的权值融合参数矩阵,表示为αii;然后加权融合后的特征通过一个1×1×1的卷积层以及最大池化层,经过sofmax后得到由各层融合特征产生的决策分数,对各层的决策分数再进行一次分数级的权值融合,以制取具有强表征力的特征描述子。
本发明的有益效果在于:本发明提出的时空双流A3D卷积残差神经网络,相较于原始的C3D模型,本发明能在较少的在模型参数达到更高的识别效率,同时更深的网络模型在特征表征上获得进一步提升,能够进一步提高动作分类精度。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所述基于残差式3D CNN和多模态特征融合策略的视频动作识别方法流程图;
图2为C3D模型图;
图3为2D卷积和3D卷积操作示意图;
图4为CBAM结构图;
图5为A3D残差模块示意图;
图6为A3D卷积残差神经网络结构图;
图7为整体的双流动作识别模型图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1所示,本发明提供一种基于残差式3D CNN和多模态特征融合策略的视频动作识别方法,首先,本发明抽取视频中前20帧图像,并将全部输入帧裁剪为112×112尺寸大小,作为网络的输入,使用的Batchsize大小为20个视频。C3D卷积神经网络作为早期经典的3DCNN模型,包括5个卷积模快2层全连接层,一共11层的浅层模型,具体C3D模型结构见图2。训练时模型通过前层输出顺序接入后层的单一连接方式进行梯度的传播以及参数的更新,模型参数之大以及模型表征能力不足是本发明要改进的地方。接着,开始详细介绍本发明的具体步骤。
A3D卷积残差神经网络的搭建过程:
(1)建立残差连接:本发明将原始C3D中各个特征模块之间顺序直连的方式改为残差式连接,具体操作主要是将特征模块的原始输入xn-1(即是Indentity mapping)与其输出的和作为新的输出yn,具体流程表示为yn=R*(xn-1,W)+xn-1,其中W表示残差模块中的可训练参数,通过残差映射R*结合原始输入xn-1,拟合网络训练中的可变残差值,R*+xn-1,表示shortcut连接,保证前层信息在向网络更深层传播时不易丢失,避免梯度弥散与梯度***。
(2)3D核分解:2D卷积输出缺乏时间域信息,3D卷积则能同时捕获时间域与空间域信息,具体操作见图3。但是繁重的训练参数,降低了网络训练效率。本发明利用核分解技术,将3×3×3卷积核沿着空间维度和时间维度分解,得到一个1×3×3的空间卷积核,以及一个3×1×1的时间卷积核,减少模型参数。同时,为了解决模型处理时序帧图像特征信息时,时间抓取尺度单一的缺点,本发明丰富了时间核尺度,并入1×1×1以及2×1×1不同尺度时间核,设计出了多尺度的时间转变层(Multiscale temporal transform layers,MTTL)来提升对时间域中多粒度时间信息的提取能力。
(3)注意力模块的引入:接着上述流程,本发明再在残差模块中引入了注意力模型CBAM,CBAM主要分为通道注意力(Channel attention module,CAM)和空间注意力(Spatialattention module,SAM)。模型结构可见图4。①在通道注意力模型中,首先将输入特征F∈RC×W×H(其中C,W,H分别代表特征平面通道数、宽度与高度值)分别通过最大池化(maxpool)和平均池化(avgpool),压缩空间维度,再利用多层感知层(MLP)制取通道权重,最后相加,通过relu激活层,再映射到输入特征各个特征通道,实现对输入特征通道注意力分数的合理分配,过程计算表示为:Mc=relu{MLP(maxpool(F))+MLP(avgpool(F))},Mc为CAM的输出,即通道加权后的显著性特征。②在空间注意力中,同样是使用两种池化方式,压缩掉Mc的通道维度,通过串联两个特征描述子得到携带通道显著性的两通道特征,再利用一个卷积操作Conv计算Conv[maxpool(F),avgpool(F)}得到空间权重,归一化后与Mc相加,得到空间显著性特征。由于CAM与SAM在空间关注上互补,使得CBAM能实现对特征空间信息的全方位筛选。在残差模块中,CBAM模型直接接收空间核的输出作为输入,赋予模型有效的特征筛选机制。
(4)A3D残差模块:随着上述的铺垫,在发明的残差模块中我们使用了核分解技术减少模型参数,设计了MTTL丰富模型抓取的时间特征粒度,以及引入了有效的注意力模型提升模型鲁棒性,融合这些优点,得到了A3D残差模块,详细结构见图5。
(5)搭建A3D卷积残差神经网络:本发明将A3D模块替代原始C3D相应位置的卷积模块,并调整了相应的维度输出,旨在为保持与C3D各个卷积模块的输入输出维度一致。再通过堆叠A3D模块,最终我们得到层数更多的卷积神经网络结构,即A3D卷积残差神经网络见图6。
双流识别模型搭建过程:
(1)导出多模态特征:本发明使用A3D卷积残差神经网络作为双流网络的基础模型,同时利用RGB图像特征以及对应的光流特征分别作为空间流和时间流网络的输入。其中光流特征的获取是通过利用空间金字塔模型(Spatial pyramid networks,SpyNet)导出,该模型直接接入到双流流网络中,通过梯度的反向传播与时间流网络以及空间网络一同参加训练,微调自身参数。不同于基于手工制作的方法提取光流信息,来自学习网络计算的光流更具有灵活性来表征现实场景中的动作分类。
(2)多级特征融合与决策方法(multi-stage fusion methods):接着,在搭建好的双流识别网络中,本发明分别从A3D卷积残差神经网络的不同特征层(A3D_2a、A3D_3a、A3D_5a以及softmax层)导出多级互补特征fi *,fi,其中fi *,fi分别表示来自时间流网络以及空间流网络的多级特征,接着,对导出的特征采用加权求和的方式融合对应的时间流和空间流特征,旨在权衡双流网络的贡献,即计算Fi=Wi[fi,fi *],其中Fi,Wi分别是是第i层特征融合的输出和对应的权值融合参数矩阵(详细表示为αii)。然后,加权融合后的特征通过一个1×1×1的卷积层以及最大池化层,经过sofmax后得到由各层融合特征产生的决策分数,类似地,我们对各层的决策分数再进行一次分数级的权值融合,以制取具有强表征力的特征描述子。最后,通过PCA进行特征向量的去相关以及去冗余,得到的有效特征再进入一个多分类的SVM分类器完成最终的识别任务,整体的双流动作识别模型见图7。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种基于残差式3D CNN和多模态特征融合策略的视频动作识别方法,其特征在于:包括以下步骤:
S1:基于传统的卷积3D神经网络C3D,将各个卷积模块的连接方式改为残差式连接,引入恒等映射;
S2:在残差模块中,利用3D核分解技术,将原始的3D卷积核分解为空间核和多个并行的多尺度时间核MTTL,以减少模型参数,接着,嵌入注意力模型CBAM,得到全新的残差模块A3Dblock;
S3:通过堆叠A3D block以及池化层,调整各个模块的输入输出设置,完成最终的A3D残差网络的搭建;
S4:利用设计好的A3D卷积残差神经网络模型,搭建时空双流识别模型,分别将RGB视频图像和光流图像两种模态作为网络输入;
S5:联合利用多级特征融合与决策融合方法,首先在特征层面融合时间网络和空间网络中不同层特征,再通过决策级权值融合策略权衡多个softmax分类器的类分数向量,实现分数级决策融合;
S6:再利用主成分分析PCA降维算法,对融合后的特征描述子降维去相关,最后通过多分类的SVM分类器完成对视频动作的分类识别;
步骤S2中所述的3D核分解包括:
利用3D核分解技术,将3×3×3卷积核沿着空间维度和时间维度分解,得到一个1×3×3的空间卷积核,以及一个3×1×1的时间卷积核,减少模型参数;同时并入1×1×1以及2×1×1不同尺度时间核,设计出多尺度的时间转变层MTTL来提升对时间域中多粒度时间信息的提取能力;
步骤S2中所述在残差模块中引入注意力模块CBAM,CBAM分为通道注意力CAM和空间注意力SAM,其中
在通道注意力模型中,首先将输入特征F∈RC×W×H,其中C,W,H分别代表特征平面通道数、宽度与高度值,分别通过最大池化和平均池化,压缩空间维度,再利用多层感知层(MLP)制取通道权重,最后相加,通过relu激活层,再映射到输入特征各个特征通道,实现对输入特征通道注意力分数的合理分配,过程计算表示为:Mc=relu{MLP(maxpool(F))+MLP(avgpool(F))},Mc为CAM的输出,即通道加权后的显著性特征;
在空间注意力模型中,同样通过最大池化和平均池化,压缩掉Mc的通道维度,通过串联两个特征描述子得到携带通道显著性的两通道特征,再利用一个卷积操作Conv计算Conv[maxpool(F),avgpool(F)}得到空间权重,归一化后与Mc相加,得到空间显著性特征;由于CAM与SAM在空间关注上互补,使得CBAM能实现对特征空间信息的全方位筛选;在残差模块中,CBAM模型直接接收空间核的输出作为输入,赋予模型有效的特征筛选机制。
2.根据权利要求1所述的基于残差式3D CNN和多模态特征融合策略的视频动作识别方法,其特征在于:步骤S1中,将原始C3D中各个特征模块之间顺序直连的方式改为残差式连接,具体包括:
将特征模块的原始输入xn-1,即恒等映射,与其输出的和作为新的输出yn,表示为yn=R*(xn-1,W)+xn-1,其中W表示残差模块中的可训练参数,通过残差映射R*结合原始输入xn-1,拟合网络训练中的可变残差值,R*(xn-1,W)+xn-1表示shortcut连接,保证前层信息在向网络更深层传播时不易丢失,避免梯度弥散与梯度***。
3.根据权利要求1所述的基于残差式3D CNN和多模态特征融合策略的视频动作识别方法,其特征在于:步骤S4中所述双流识别模型的搭建过程如下:
使用A3D卷积残差神经网络作为双流网络的基础模型,利用RGB图像特征以及对应的光流特征分别作为空间流和时间流网络的输入;其中光流特征的获取是通过利用空间金字塔模型SpyNet导出,该模型直接接入到双流流网络中,通过梯度的反向传播与时间流网络以及空间网络一同参加训练,微调自身参数。
4.根据权利要求1所述的基于残差式3D CNN和多模态特征融合策略的视频动作识别方法,其特征在于:步骤S5中所述多级特征融合与决策融合方法,具体包括:
分别从A3D卷积残差神经网络的不同特征层,包括A3D_2a、A3D_3a、A3D_5a以及softmax层,导出多级互补特征fi *,fi,其中fi *,fi分别表示来自时间流网络以及空间流网络的多级特征,接着对导出的特征采用加权求和的方式融合对应的时间流和空间流特征,用于权衡双流网络的贡献,即计算Fi=Wi[fi,fi *],其中Fi,Wi分别是第i层特征融合的输出和对应的权值融合参数矩阵;然后加权融合后的特征通过一个1×1×1的卷积层以及最大池化层,经过sofmax后得到由各层融合特征产生的决策分数,对各层的决策分数再进行一次分数级的权值融合,以制取具有强表征力的特征描述子。
CN202010107288.8A 2020-02-21 2020-02-21 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法 Active CN111325155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010107288.8A CN111325155B (zh) 2020-02-21 2020-02-21 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010107288.8A CN111325155B (zh) 2020-02-21 2020-02-21 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法

Publications (2)

Publication Number Publication Date
CN111325155A CN111325155A (zh) 2020-06-23
CN111325155B true CN111325155B (zh) 2022-09-23

Family

ID=71171398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010107288.8A Active CN111325155B (zh) 2020-02-21 2020-02-21 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法

Country Status (1)

Country Link
CN (1) CN111325155B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021151047A1 (en) * 2020-01-23 2021-07-29 Impossible Objects, Inc. Camera-based monitoring system for 3-dimensional printing
CN111931602B (zh) * 2020-07-22 2023-08-08 北方工业大学 基于注意力机制的多流分段网络人体动作识别方法及***
CN112069884B (zh) * 2020-07-28 2024-03-12 中国传媒大学 一种暴力视频分类方法、***和存储介质
CN111985369B (zh) * 2020-08-07 2021-09-17 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN112084891B (zh) * 2020-08-21 2023-04-28 西安理工大学 基于多模态特征与对抗学习的跨域人体动作识别方法
CN112132089A (zh) * 2020-09-28 2020-12-25 天津天地伟业智能安全防范科技有限公司 一种基于3d卷积和光流的挖掘机行为分析方法
CN111898709B (zh) * 2020-09-30 2021-01-15 中国人民解放军国防科技大学 一种图像分类方法及设备
CN112288829A (zh) * 2020-11-03 2021-01-29 中山大学 一种针对图像复原卷积神经网络的压缩方法及装置
CN112329867B (zh) * 2020-11-10 2021-05-25 宁波大学 一种基于任务驱动的层次注意力网络的mri图像分类方法
CN112330644A (zh) * 2020-11-11 2021-02-05 复旦大学 基于深度学习的医疗影像诊断***
CN112507920B (zh) * 2020-12-16 2023-01-24 重庆交通大学 一种基于时间位移和注意力机制的考试异常行为识别方法
CN112784782B (zh) * 2021-01-28 2023-04-07 上海理工大学 一种基于多视角双注意网络的三维物体识别方法
CN112818843B (zh) * 2021-01-29 2022-08-26 山东大学 基于通道注意力导向时间建模的视频行为识别方法及***
CN113516133B (zh) * 2021-04-01 2022-06-17 中南大学 一种多模态图像分类方法及***
CN113052254B (zh) * 2021-04-06 2022-10-04 安徽理工大学 多重注意力幽灵残差融合分类模型及其分类方法
CN113128395B (zh) * 2021-04-16 2022-05-20 重庆邮电大学 基于混合卷积的多级特征融合模型的视频动作识别方法及***
CN113158964B (zh) * 2021-05-07 2024-05-28 北京工业大学 一种基于残差学习和多粒度特征融合的睡眠分期方法
CN114067435A (zh) * 2021-11-15 2022-02-18 山东大学 一种基于伪3d卷积网络与注意力机制的睡眠行为检测方法和***
CN115406852A (zh) * 2021-12-28 2022-11-29 中山小池科技有限公司 基于多标签卷积神经网络的织物纤维成分定性方法
CN115223250B (zh) * 2022-09-13 2023-01-17 东莞理工学院 基于多尺度时空分解卷积网络的上肢康复动作识别方法
CN115393779B (zh) * 2022-10-31 2023-03-24 济宁九德半导体科技有限公司 用于激光熔覆金属球制造的控制***及其控制方法
CN116778395B (zh) * 2023-08-21 2023-10-24 成都理工大学 基于深度学习的山洪漫流视频识别监测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320961A (zh) * 2015-10-16 2016-02-10 重庆邮电大学 基于卷积神经网络和支持向量机的手写数字识别方法
CN109214250A (zh) * 2017-07-05 2019-01-15 中南大学 一种基于多尺度卷积神经网络的静态手势识别方法
KR102028705B1 (ko) * 2017-12-28 2019-10-04 포항공과대학교 산학협력단 Cnn을 이용한 영상 수평 보정 방법 및 레지듀얼 네트워크 구조
CN109446923B (zh) * 2018-10-10 2021-09-24 北京理工大学 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN109670529A (zh) * 2018-11-14 2019-04-23 天津大学 一种用于快速语义分割的可分离分解残差模块设计方法
CN110070041A (zh) * 2019-04-23 2019-07-30 江西理工大学 一种时空压缩激励残差乘法网络的视频动作识别方法
CN110633683B (zh) * 2019-09-19 2022-03-25 华侨大学 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习框架的多模态动作识别;韩敏捷;《计算机与现代化》;20170731(第07期);48-52 *

Also Published As

Publication number Publication date
CN111325155A (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN111325155B (zh) 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法
CN108520535B (zh) 基于深度恢复信息的物体分类方法
CN110473141B (zh) 图像处理方法、装置、存储介质及电子设备
CN108764207B (zh) 一种基于多任务卷积神经网络的人脸表情识别方法
CN107766850B (zh) 基于结合人脸属性信息的人脸识别方法
CN110188239B (zh) 一种基于跨模态注意力机制的双流视频分类方法和装置
CN110223292B (zh) 图像评估方法、装置及计算机可读存储介质
CN112446476A (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
CN111652903B (zh) 一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN109376787B (zh) 流形学习网络及基于其的计算机视觉图像集分类方法
KR101910089B1 (ko) 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템
Ocquaye et al. Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition
CN113255602A (zh) 基于多模态数据的动态手势识别方法
CN115601282A (zh) 基于多判别器生成对抗网络的红外与可见光图像融合方法
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及***
CN111489405B (zh) 基于条件增强生成对抗网络的人脸草图合成***
CN114882234A (zh) 多尺度轻量级密集连目标检测网络的构建方法
CN111401116B (zh) 基于增强卷积和空时lstm网络的双模态情感识别方法
CN115116139A (zh) 基于图卷积网络的多粒度人体动作分类方法
CN114743162A (zh) 一种基于生成对抗网络的跨模态行人重识别方法
CN114360073A (zh) 一种图像识别方法及相关装置
CN110782503B (zh) 一种基于两分支深度相关网络的人脸图像合成方法和装置
CN109583406B (zh) 基于特征关注机制的人脸表情识别方法
Zhang et al. Hierarchical features fusion for image aesthetics assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant