CN111832336A

CN111832336A - 一种基于改进的c3d视频行为检测方法

Info

Publication number: CN111832336A
Application number: CN201910302041.9A
Authority: CN
Inventors: 卿粼波; 李龙; 何小海; 李诗菁; 吴晓红; 滕奇志
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2020-10-27
Anticipated expiration: 2039-04-16
Also published as: CN111832336B

Abstract

本发明提供了一种基于改进的C3D视频行为检测方法，主要涉及卷积神经网络。在NVIDIA JetsonTX2上，采用改进的SqueezeNet与C3D相结合卷积神经网络，并引入BN层与short‑cut结构，最后将训练模型部署到NVIDIA JetsonTX2上，对视频行为进行分析、检测。实验结果表明，改进后的SqueezeNet‑C3D卷积神经网络相比于C3D神经网络在精度上提高了4.4％；改进后的SqueezeNet‑C3D网络与SqueezeNet‑C3D网络相比，参数量降低了15％，降低网络对计算机硬件的要求。可见本发明提出的网络具有精度高、参数量少的优点。

Description

一种基于改进的C3D视频行为检测方法

技术领域

本发明涉及深度学习领域中的行为检测问题，尤其是涉及一种基于改进的C3D视频行为检测方法。

背景技术

行为检测作为计算机视觉领域和图像处理中的一个重要的研究方向。在传统行为检测领域，DT算法是最经典的算法之一，它主要包括密集采样特征点，特征点轨迹跟踪以及基于轨迹的特征提取三个部分；2013年由IEAR实验室发表的iDT算法，对DT算法做了改进，主要改进在于对光流图像的优化，特征正则化方式的改进以及特征编码方式的改进，大大提升了算法的效果。自深度学习应用到行为检测领域后，使用基于深度学习的方法得到的效果已经明显超过了使用传统算法。

深度学习理论提出以来，研究人员发现应用深度学习去进行行为检测，可以有效提高检测效果和性能，因此深度学习在实时视频的行为检测开始广泛应用，到现在为止，其检测效率和精度已经有了很大提高。在深度学习理论中，Two-Stream是一个主流方法，它是由时间、空间两个网络组成，该方法提出对视频序列中每两帧计算密集光流，然后得到密集光流的序列。然后再对光流序列和图像序列分别训练卷积神经网络模型，然后再训练一个fusion网络进行融合图像序列和光流序列的网络；C3D(3-Dimensional Convolution)是另一个主流方法，在目前来看,使用C3D方法得到的效果要比Two-Stream方法略差些，但C3D网络结构简单，而且C3D运行时间短，处理速度快，所以仍然是当前研究热门。总之，使用基于深度学习的方法得到的效果已经明显超过了使用传统算法。

发明内容

本发明的目的是为提高检测精度的同时减少网络参数量，本发明基于深度学习，提出了一种基于改进的C3D视频行为检测方法，相比C3D神经网络，本发明的方法提高了检测的准确度，大大减小网络的参数量。

为了方便说明，首先引入如下概念：

卷积神经网络(Convolutional Neural Network,CNN)：受视觉神经机制的启发而设计，是一种多层前馈神经网络，每层由多个二维平面或三维平面组成，平面上的每个神经元独立工作，卷积神经网络主要包括特征提取层和特征映射层。

C3D(3-Dimensional Convolution)卷积神经网络：该网络采用三维卷积对视频连续帧进行操作，相比于二维卷积更能简单有效地处理时间信息。如图1所示，C3D一共进行了8次卷积、5次池化和2次全连接操作，具有较高的准确度，是一种简单、高效、通用、快速的行为识别卷积神经网络。

SqueezeNet：主要是为了降低卷积神经网络模型参数数量而设计的，如图2所示，将原本为一层的卷积分解为两层：squeeze层和expand层，每层都有一个激活层，squeeze层里都是1*1的卷积，数量为s1；expand层里有1*1和3*3两种卷积核，数量分别为e1、e3，在数量上4*s1＝e1＝e3。expand层之后将1*1和3*3卷积后得到的feature map进行拼接，然后把这两层封装为一个Fire_Module。Fire_Module输入的feature map为H*W*C，输出的featuremap为H*W*(e1+e3)，可以看到feature map的分辨率是不变的，变化的是通道的数量。

本发明具体采用如下技术方案：

本发明的基本思想是以C3D网络为基础，结合ResNet的short-cut结构以及改进的SqueezeNet来进行网络结构调整，并将网络部署到NVIDIA JetsonTX2上进行行为检测，如图3所示。

本发明对SqueezeNet提出如下两种修订，以应用到C3D网络中：

(1)因为所用网络使用的是三维卷积，所以将Fire_Module中的1*1和3*3卷积改为使用三维卷积1*1*1和3*3*3。为提高准确度，借鉴Inception V1结构，在Fire_Module的expand层中增加一个数量为e5的5*5*5卷积支路，如图4，输出大小为H*W*(e1+e3+e5)，这样不仅增加了网络的宽度，而且改进后的Fire_Module包含了3种不同尺寸的卷积，同时也增加了网络对不同尺度的适应性，从而提高准确度。而网络越到后面，特征也越抽象，每个特征所涉及的感受野也更大，因此随着网络深度的增加，3*3*3和5*5*5的卷积比例也会增加。

(2)如果将网络中的卷积全部应用为上述改进后的Fire_Module V1，因为5*5*5卷积所需的计算量太大，会造成特征图厚度增大，网络参数量也会随着增加。为减少网络参数量，借鉴Inception V3结构，提出另一种方法，将Fire_Module中的3*3*3卷积替换为3*1*3卷积，在不影响网络性能的情况下，大大减小参数量，如图5所示。

本文在C3D网络基础上，对网络结构进行调整，首先，紧跟着卷积层引入BN(BatchNormalization)层，在神经网络层的中间，它起到预处理的功能，也就是对上一层的输入进行归一化后，再送到网络的下一层，这样做可以有效防止梯度弥散，也可以在网络训练过程中加快网络收敛速度，加速网络训练。其次，将网络中的卷积层替换为Fire_Module V1、Fire_Module V2，如果全部使用Fire_Module V1，会造成网络参数量增大，经多次实验得出，Fire_Module V1、Fire_Module V2按图6所示进行卷积层替换，参数量会大大减小。最后，替换后的网络深度变深，为防止训练时出现梯度退化问题以及提高精度，在Fire_Module V2通道数量相同的模块之间，添加short-cut结构，如图7。

本文采用改进的SqueezeNet与C3D相结合的卷积神经网络，引入BN层，随着网络深度的增加采用了ResNet的short-cut结构，对走路、跑步、打架、摔倒、坐、等动作进行检测识别，取得较好的检测结果，得到以下结论：

(1)本文提出的网络提升了检测的准确度，具有较好的识别率。

(2)本文提出的网络参数量减少很多，降低对硬件的要求，使得C3D网络性能在嵌入式平台如NVIDIA JetsonTX2上进一步提高。

附图说明

图1为C3D网络结构；

图2为Fire_Module结构；

图3为为本发明总体结构图；

图4为基于InceptionV1的Fire_Module V1；

图5为基于InceptionV3的Fire_Module V2；

图6为整体网络结构图；

图7为Short-cut结构。

具体实施方式

下面对本发明作进一步的详细说明，有必要指出的是，以下的实施例只用于对本发明做进一步的说明，不能理解为对本发明保护范围的限制，所属领域技术熟悉人员根据上述发明内容，对本发明做出一些非本质的改进和调整进行具体实施，应仍属于本发明的保护范围。

基于改进的C3D视频行为检测方法，主要包括以下步骤：

(1)本专利使用的数据集为UCF101数据集，该数据集共有13320个视频，每个视频大小为320*240，包含动作101类，并为每个动作贴上相应的名称。

(2)将数据集中的视频转换为图片格式；按照3:1的比例将数据集分为训练集、测试集。

(3)训练：训练平台配置：Intel(R)Core(TM)i7-6700 3.4GHz处理器；显卡为显存12GB的NVIDIA Titan X；Ubuntu 16.04 64位操作***；训练采用的深度学习框架为Keras。将改进的网络在服务器上采用GPU模式进行网络训练。

(4)对训练得到的模型进行评估。

Claims

1.一种基于改进的C3D视频行为检测方法，其特征在于主要包括以下过程步骤：

(1)本发明以C3D网络为基本网络进行网络改进，首先，引入BN(Batch Normalization)层，防止梯度弥散，加快网络收敛速度；

(2)SqueezeNet网络主要是由多个输出通道数相同或不同的Fire_Module模块组成，能够有效简化网络复杂度，本发明对SqueezeNet网络进行如下改进以应用到C3D网络中，因为C3D为三维卷积网络，所以将SqueezeNet的Fire_Module中的1*1和3*3卷积改为三维卷积1*1*1和3*3*3，本发明借鉴InceptionV1的设计思路对SqueezeNet进行改进，在Fire_Module的expand层中增加一个数量为e₅的5*5*5卷积支路，输出通道大小为H*W*(e₁+e₃+e₅)，这样不仅增加了网络的宽度，而且改进后的SqueezeNet包含了3种不同尺寸的卷积，同时也增加了网络对不同尺度的适应性，从而提高准确度，然后将它封装，称为Fire_Module V1，但这种改进会增加网络的参数量；

(3)为降低网络的参数量，本发明借鉴Inception V3的设计思路将Fire_Module的expand层中的3*3*3卷积改为3*1*3卷积，数量为e₃，进行封装，称为Fire_Module V2，这种改进相比于Fire_Module和Fire_Module V1参数量降低很多；

(4)然后将网络中的卷积层使用改进后的Fire_Module替换，如果全部使用Fire_Module V1，会造成网络参数量增大，经多次实验得出，当网络第二、三个卷积层使用Fire_Module V1替代，其余部分(除第一个和最后一个卷积层)使用Fire_Module V2替代时，准确度会得到明显提高，参数量会大大减小；

(5)最后在输出通道数量相同的Fire_Module V2模块之间，添加ResNet的short-cut结构，将训练得到的网络模型进行行为检测。