CN111325155B

CN111325155B - 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法

Info

Publication number: CN111325155B
Application number: CN202010107288.8A
Authority: CN
Inventors: 张祖凡; 吕宗明; 甘臣权; 张家波
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2022-09-23
Anticipated expiration: 2040-02-21
Also published as: CN111325155A

Abstract

本发明涉及一种基于残差式3D CNN和多模态特征融合策略的视频动作识别方法，属于计算机视觉与深度学习领域。首先将传统C3D网络连接方式改为残差式连接；采用核分解技术将3D卷积核拆解，得到一个空间卷积核，与并行的多个不同时间尺度时间核，再在空间卷积核后***注意力模型，得到A3D残差模块并将其堆叠成的残差网络。搭建双流动作识别模型，将RGB图像特征和光流特征输入到空间流网络和时间流网络中，并提取出多级卷积特征层特征，再利用多级特征融合策略对两个网络进行融合，实现时空特征互补；最后将分数级融合后的全局视频动作描述子通过PCA降维，再用SVM分类器完成动作分类。

Description

基于残差式3D CNN和多模态特征融合策略的视频动作识别方法

技术领域

本发明属于计算机视觉与深度学习领域，涉及一种基于残差式3D CNN和多模态特征融合策略的视频动作识别方法。

背景技术

今天的数字内容本质上是包含了文本、音频、图像、视频等等的多媒体信息。特别是图像和视频，随着传感器的盛行与移动设备的激增，通过视频动作传达信息作为交流的方式也逐渐流行起来，开始成为互联网用户之间的一种新的通信方式。为了更为深层次与智能化地去发掘与理解多媒体信息，科研领域越来越鼓励开发先进的视频理解技术。表征学***面捕获不同粒度的局部特征，随着层数加深，这些提取的显著特征被组合和压缩，不同特征层涵盖不同层次的视觉感知特征表达，因此，凭借其对视觉表观特征优越的学习能力，在表征学习领域得到了广泛的认可。卷积神经网络(CNN)取得的成功证明了卷积神经网络具有很高的学习视觉表象的能力。例如，残差网络在ImageNet测试集上top-5错误率达到了3.57％，刷新了人类之前已知的最好识别性能。然而，视频帧是一个时序图像，其间较大的动态变化以及处理的复杂性，使得速度模型学习到一个强大和通用的时空表征成为了难题。

目前，主要方法是将CNN的卷积核从2D扩展到3D，并训练出一种全新的3D CNN，通过在2D CNN的基础上扩增一个时间维度，这样网络不仅可以提取出每个视频图像中存在的视觉外观特征，而且可以捕获到连续帧之间的动态信息。但是，3D卷积核给模型性能带来提升的同时，网络训练中昂贵的计算成本也成为了一个待解决的问题。以一个广泛采用的11层3DCNN，即C3D网络为例，模型大小就达到了321MB，随着模型参数二次方式的增加，研究3D卷积核的有效替代势在必行。再者，当前的双流动作识别模型中，空间流网络与时间流网络在最后的决策融合之前缺少交互，积聚在多个网络层的表征能力未被充分开发，关于对如何融合双流网络多级特征有效实现空间特征与时间特征的互补的研究还相对较少。因此，怎样针对C3D模型参数多训练困难以及局限于浅层网络表征能力的缺陷来展开研究，有效提升3D卷积神经网络模型处理视频动作的能力与效率，以及怎样充分且有效实现双流网络融合互补，提升识别的性能，是一项非常重要的工作。

发明内容

有鉴于此，本发明的目的在于提供一种基于残差式3D CNN和多模态特征融合策略的视频动作识别方法。

为达到上述目的，本发明提供如下技术方案：

一种基于残差式3D CNN和多模态特征融合策略的视频动作识别方法，包括以下步骤：

S1：基于传统的卷积3D神经网络(Convolutional 3D Neural Networks,C3D)，将各个卷积模块的连接方式改为残差式连接，引入恒等映射(Indentity mapping)；

S2：在残差模块中，利用3D核分解技术，将原始的3D卷积核分解为空间核和多个并行的多尺度时间核(Multiscale temporal transform layers,MTTL)，以减少模型参数，接着，嵌入注意力模型(Convolutional block attention module,CBAM)，得到全新的残差模块(A3D block)；

S3：通过堆叠A3D block以及池化层，调整各个模块的输入输出设置，完成最终的A3D残差网络的搭建；

S4：利用设计好的A3D卷积残差神经网络模型，搭建时空双流识别模型，分别将RGB视频图像和光流图像两种模态作为网络输入；

S5：联合利用多级特征融合与决策融合方法(multi-stage fusion methods)，首先在特征层面融合时间网络和空间网络中不同层特征，再通过决策级权值融合策略权衡多个softmax分类器的类分数向量，实现分数级决策融合；

S6：再利用主成分分析(principal component analysis,PCA)降维算法，对融合后的特征描述子降维去相关，最后通过多分类的SVM分类器完成对视频动作的分类识别。

进一步，步骤S1中，将原始C3D中各个特征模块之间顺序直连的方式改为残差式连接，具体包括：

将特征模块的原始输入x_n-1，即恒等映射Indentity mapping，与其输出的和作为新的输出y_n，表示为y_n＝R^*(x_n-1,W)+x_n-1，其中W表示残差模块中的可训练参数，通过残差映射R^*结合原始输入x_n-1，拟合网络训练中的可变残差值，R^*+x_n-1表示shortcut连接，保证前层信息在向网络更深层传播时不易丢失，避免梯度弥散与梯度***。

进一步，步骤S2中所述的3D核分解包括：

利用3D核分解技术，将3×3×3卷积核沿着空间维度和时间维度分解，得到一个1×3×3的空间卷积核，以及一个3×1×1的时间卷积核，减少模型参数；同时，为了解决模型处理时序帧图像特征信息时，时间抓取尺度单一的缺点，本发明丰富了时间核尺度，并入1×1×1以及2×1×1不同尺度时间核，设计出多尺度的时间转变层(Multiscale temporaltransform layers,MTTL)来提升模型对时间域中多粒度时间信息的提取能力。

进一步，步骤S2中所述在残差模块中引入注意力模块CBAM，CBAM分为通道注意力(Channel attention module,CAM)和空间注意力(Spatial attention module,SAM)，其中

在通道注意力模型中，首先将输入特征F∈R^C×W×H(其中C,W,H分别代表特征平面通道数、宽度与高度值)分别通过最大池化(maxpool)和平均池化(avgpool)，压缩空间维度，再利用多层感知层(MLP)制取通道权重，最后相加，通过relu激活层，再映射到输入特征各个特征通道，实现对输入特征通道注意力分数的合理分配，过程计算表示为：M_c＝relu{MLP(max pool(F))+MLP(avgpool(F))}，M_c为CAM的输出，即通道加权后的显著性特征；

在空间注意力模型中，同样通过最大池化(maxpool)和平均池化(avgpool)，压缩掉M_c的通道维度，通过串联两个特征描述子得到携带通道显著性的两通道特征，再利用一个卷积操作Conv计算Conv[max pool(F),avgpool(F)}得到空间权重，归一化后与M_c相加，得到空间显著性特征；由于CAM与SAM在空间关注上互补，使得CBAM能实现对特征空间信息的全方位筛选；在残差模块中，CBAM模型直接接收空间核的输出作为输入，赋予模型有效的特征筛选机制。

进一步，步骤S4中所述双流识别模型的搭建过程如下：

使用A3D卷积残差神经网络作为双流网络的基础模型，利用RGB图像特征以及对应的光流特征分别作为空间流和时间流网络的输入；其中光流特征的获取是通过利用空间金字塔模型(Spatial pyramid networks,SpyNet)导出，该模型直接接入到双流流网络中，通过梯度的反向传播与时间流网络以及空间网络一同参加训练，微调自身参数。不同于基于手工制作的方法提取光流信息，来自学习网络计算的光流更具有灵活性来表征现实场景中的动作分类。

进一步，步骤S5中所述多级特征融合与决策融合方法，具体包括：

分别从A3D卷积残差神经网络的不同特征层，包括A3D_2a、A3D_3a、A3D_5a以及softmax层，导出多级互补特征f_i ^*,f_i，其中f_i ^*,f_i分别表示来自时间流网络以及空间流网络的多级特征，接着对导出的特征采用加权求和的方式融合对应的时间流和空间流特征，用于权衡双流网络的贡献，即计算F_i＝W_i[f_i,f_i ^*]，其中F_i,W_i分别是第i层特征融合的输出和对应的权值融合参数矩阵，表示为α_i,β_i；然后加权融合后的特征通过一个1×1×1的卷积层以及最大池化层，经过sofmax后得到由各层融合特征产生的决策分数，对各层的决策分数再进行一次分数级的权值融合，以制取具有强表征力的特征描述子。

本发明的有益效果在于：本发明提出的时空双流A3D卷积残差神经网络，相较于原始的C3D模型，本发明能在较少的在模型参数达到更高的识别效率，同时更深的网络模型在特征表征上获得进一步提升，能够进一步提高动作分类精度。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述基于残差式3D CNN和多模态特征融合策略的视频动作识别方法流程图；

图2为C3D模型图；

图3为2D卷积和3D卷积操作示意图；

图4为CBAM结构图；

图5为A3D残差模块示意图；

图6为A3D卷积残差神经网络结构图；

图7为整体的双流动作识别模型图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1所示，本发明提供一种基于残差式3D CNN和多模态特征融合策略的视频动作识别方法，首先，本发明抽取视频中前20帧图像，并将全部输入帧裁剪为112×112尺寸大小，作为网络的输入，使用的Batchsize大小为20个视频。C3D卷积神经网络作为早期经典的3DCNN模型，包括5个卷积模快2层全连接层，一共11层的浅层模型，具体C3D模型结构见图2。训练时模型通过前层输出顺序接入后层的单一连接方式进行梯度的传播以及参数的更新，模型参数之大以及模型表征能力不足是本发明要改进的地方。接着，开始详细介绍本发明的具体步骤。

A3D卷积残差神经网络的搭建过程：

(1)建立残差连接：本发明将原始C3D中各个特征模块之间顺序直连的方式改为残差式连接，具体操作主要是将特征模块的原始输入x_n-1(即是Indentity mapping)与其输出的和作为新的输出y_n，具体流程表示为y_n＝R^*(x_n-1,W)+x_n-1，其中W表示残差模块中的可训练参数，通过残差映射R^*结合原始输入x_n-1，拟合网络训练中的可变残差值，R^*+x_n-1，表示shortcut连接，保证前层信息在向网络更深层传播时不易丢失，避免梯度弥散与梯度***。

(2)3D核分解：2D卷积输出缺乏时间域信息，3D卷积则能同时捕获时间域与空间域信息，具体操作见图3。但是繁重的训练参数，降低了网络训练效率。本发明利用核分解技术，将3×3×3卷积核沿着空间维度和时间维度分解，得到一个1×3×3的空间卷积核，以及一个3×1×1的时间卷积核，减少模型参数。同时，为了解决模型处理时序帧图像特征信息时，时间抓取尺度单一的缺点，本发明丰富了时间核尺度，并入1×1×1以及2×1×1不同尺度时间核，设计出了多尺度的时间转变层(Multiscale temporal transform layers,MTTL)来提升对时间域中多粒度时间信息的提取能力。

(3)注意力模块的引入：接着上述流程，本发明再在残差模块中引入了注意力模型CBAM，CBAM主要分为通道注意力(Channel attention module,CAM)和空间注意力(Spatialattention module,SAM)。模型结构可见图4。①在通道注意力模型中，首先将输入特征F∈R^C×W×H(其中C,W,H分别代表特征平面通道数、宽度与高度值)分别通过最大池化(maxpool)和平均池化(avgpool)，压缩空间维度，再利用多层感知层(MLP)制取通道权重，最后相加，通过relu激活层,再映射到输入特征各个特征通道，实现对输入特征通道注意力分数的合理分配，过程计算表示为：M_c＝relu{MLP(maxpool(F))+MLP(avgpool(F))}，M_c为CAM的输出，即通道加权后的显著性特征。②在空间注意力中，同样是使用两种池化方式，压缩掉M_c的通道维度，通过串联两个特征描述子得到携带通道显著性的两通道特征，再利用一个卷积操作Conv计算Conv[maxpool(F),avgpool(F)}得到空间权重，归一化后与M_c相加，得到空间显著性特征。由于CAM与SAM在空间关注上互补，使得CBAM能实现对特征空间信息的全方位筛选。在残差模块中，CBAM模型直接接收空间核的输出作为输入，赋予模型有效的特征筛选机制。

(4)A3D残差模块：随着上述的铺垫，在发明的残差模块中我们使用了核分解技术减少模型参数，设计了MTTL丰富模型抓取的时间特征粒度，以及引入了有效的注意力模型提升模型鲁棒性，融合这些优点，得到了A3D残差模块，详细结构见图5。

(5)搭建A3D卷积残差神经网络：本发明将A3D模块替代原始C3D相应位置的卷积模块，并调整了相应的维度输出，旨在为保持与C3D各个卷积模块的输入输出维度一致。再通过堆叠A3D模块，最终我们得到层数更多的卷积神经网络结构，即A3D卷积残差神经网络见图6。

双流识别模型搭建过程：

(1)导出多模态特征：本发明使用A3D卷积残差神经网络作为双流网络的基础模型，同时利用RGB图像特征以及对应的光流特征分别作为空间流和时间流网络的输入。其中光流特征的获取是通过利用空间金字塔模型(Spatial pyramid networks,SpyNet)导出，该模型直接接入到双流流网络中，通过梯度的反向传播与时间流网络以及空间网络一同参加训练，微调自身参数。不同于基于手工制作的方法提取光流信息，来自学习网络计算的光流更具有灵活性来表征现实场景中的动作分类。

(2)多级特征融合与决策方法(multi-stage fusion methods)：接着，在搭建好的双流识别网络中，本发明分别从A3D卷积残差神经网络的不同特征层(A3D_2a、A3D_3a、A3D_5a以及softmax层)导出多级互补特征f_i ^*,f_i，其中f_i ^*,f_i分别表示来自时间流网络以及空间流网络的多级特征，接着，对导出的特征采用加权求和的方式融合对应的时间流和空间流特征，旨在权衡双流网络的贡献，即计算F_i＝W_i[f_i,f_i ^*]，其中F_i,W_i分别是是第i层特征融合的输出和对应的权值融合参数矩阵(详细表示为α_i,β_i)。然后，加权融合后的特征通过一个1×1×1的卷积层以及最大池化层，经过sofmax后得到由各层融合特征产生的决策分数，类似地，我们对各层的决策分数再进行一次分数级的权值融合，以制取具有强表征力的特征描述子。最后，通过PCA进行特征向量的去相关以及去冗余，得到的有效特征再进入一个多分类的SVM分类器完成最终的识别任务，整体的双流动作识别模型见图7。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于残差式3D CNN和多模态特征融合策略的视频动作识别方法，其特征在于：包括以下步骤：

S1：基于传统的卷积3D神经网络C3D，将各个卷积模块的连接方式改为残差式连接，引入恒等映射；

S2：在残差模块中，利用3D核分解技术，将原始的3D卷积核分解为空间核和多个并行的多尺度时间核MTTL，以减少模型参数，接着，嵌入注意力模型CBAM，得到全新的残差模块A3Dblock；

S5：联合利用多级特征融合与决策融合方法，首先在特征层面融合时间网络和空间网络中不同层特征，再通过决策级权值融合策略权衡多个softmax分类器的类分数向量，实现分数级决策融合；

S6：再利用主成分分析PCA降维算法，对融合后的特征描述子降维去相关，最后通过多分类的SVM分类器完成对视频动作的分类识别；

步骤S2中所述的3D核分解包括：

利用3D核分解技术，将3×3×3卷积核沿着空间维度和时间维度分解，得到一个1×3×3的空间卷积核，以及一个3×1×1的时间卷积核，减少模型参数；同时并入1×1×1以及2×1×1不同尺度时间核，设计出多尺度的时间转变层MTTL来提升对时间域中多粒度时间信息的提取能力；

步骤S2中所述在残差模块中引入注意力模块CBAM，CBAM分为通道注意力CAM和空间注意力SAM，其中

在通道注意力模型中，首先将输入特征F∈R^C×W×H，其中C,W,H分别代表特征平面通道数、宽度与高度值，分别通过最大池化和平均池化，压缩空间维度，再利用多层感知层(MLP)制取通道权重，最后相加，通过relu激活层，再映射到输入特征各个特征通道，实现对输入特征通道注意力分数的合理分配，过程计算表示为：M_c＝relu{MLP(maxpool(F))+MLP(avgpool(F))}，M_c为CAM的输出，即通道加权后的显著性特征；

在空间注意力模型中，同样通过最大池化和平均池化，压缩掉M_c的通道维度，通过串联两个特征描述子得到携带通道显著性的两通道特征，再利用一个卷积操作Conv计算Conv[maxpool(F),avgpool(F)}得到空间权重，归一化后与M_c相加，得到空间显著性特征；由于CAM与SAM在空间关注上互补，使得CBAM能实现对特征空间信息的全方位筛选；在残差模块中，CBAM模型直接接收空间核的输出作为输入，赋予模型有效的特征筛选机制。

2.根据权利要求1所述的基于残差式3D CNN和多模态特征融合策略的视频动作识别方法，其特征在于：步骤S1中，将原始C3D中各个特征模块之间顺序直连的方式改为残差式连接，具体包括：

将特征模块的原始输入x_n-1，即恒等映射，与其输出的和作为新的输出y_n，表示为y_n＝R^*(x_n-1,W)+x_n-1，其中W表示残差模块中的可训练参数，通过残差映射R^*结合原始输入x_n-1，拟合网络训练中的可变残差值，R^*(x_n-1,W)+x_n-1表示shortcut连接，保证前层信息在向网络更深层传播时不易丢失，避免梯度弥散与梯度***。

3.根据权利要求1所述的基于残差式3D CNN和多模态特征融合策略的视频动作识别方法，其特征在于：步骤S4中所述双流识别模型的搭建过程如下：

使用A3D卷积残差神经网络作为双流网络的基础模型，利用RGB图像特征以及对应的光流特征分别作为空间流和时间流网络的输入；其中光流特征的获取是通过利用空间金字塔模型SpyNet导出，该模型直接接入到双流流网络中，通过梯度的反向传播与时间流网络以及空间网络一同参加训练，微调自身参数。

4.根据权利要求1所述的基于残差式3D CNN和多模态特征融合策略的视频动作识别方法，其特征在于：步骤S5中所述多级特征融合与决策融合方法，具体包括：

分别从A3D卷积残差神经网络的不同特征层，包括A3D_2a、A3D_3a、A3D_5a以及softmax层，导出多级互补特征f_i ^*,f_i，其中f_i ^*,f_i分别表示来自时间流网络以及空间流网络的多级特征，接着对导出的特征采用加权求和的方式融合对应的时间流和空间流特征，用于权衡双流网络的贡献，即计算F_i＝W_i[f_i,f_i ^*]，其中F_i,W_i分别是第i层特征融合的输出和对应的权值融合参数矩阵；然后加权融合后的特征通过一个1×1×1的卷积层以及最大池化层，经过sofmax后得到由各层融合特征产生的决策分数，对各层的决策分数再进行一次分数级的权值融合，以制取具有强表征力的特征描述子。