CN111832336A - 一种基于改进的c3d视频行为检测方法 - Google Patents
一种基于改进的c3d视频行为检测方法 Download PDFInfo
- Publication number
- CN111832336A CN111832336A CN201910302041.9A CN201910302041A CN111832336A CN 111832336 A CN111832336 A CN 111832336A CN 201910302041 A CN201910302041 A CN 201910302041A CN 111832336 A CN111832336 A CN 111832336A
- Authority
- CN
- China
- Prior art keywords
- network
- module
- fire
- improved
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Fire-Detection Mechanisms (AREA)
Abstract
本发明提供了一种基于改进的C3D视频行为检测方法,主要涉及卷积神经网络。在NVIDIA JetsonTX2上,采用改进的SqueezeNet与C3D相结合卷积神经网络,并引入BN层与short‑cut结构,最后将训练模型部署到NVIDIA JetsonTX2上,对视频行为进行分析、检测。实验结果表明,改进后的SqueezeNet‑C3D卷积神经网络相比于C3D神经网络在精度上提高了4.4%;改进后的SqueezeNet‑C3D网络与SqueezeNet‑C3D网络相比,参数量降低了15%,降低网络对计算机硬件的要求。可见本发明提出的网络具有精度高、参数量少的优点。
Description
技术领域
本发明涉及深度学习领域中的行为检测问题,尤其是涉及一种基于改进的C3D视频行为检测方法。
背景技术
行为检测作为计算机视觉领域和图像处理中的一个重要的研究方向。在传统行为检测领域,DT算法是最经典的算法之一,它主要包括密集采样特征点,特征点轨迹跟踪以及基于轨迹的特征提取三个部分;2013年由IEAR实验室发表的iDT算法,对DT算法做了改进,主要改进在于对光流图像的优化,特征正则化方式的改进以及特征编码方式的改进,大大提升了算法的效果。自深度学习应用到行为检测领域后,使用基于深度学习的方法得到的效果已经明显超过了使用传统算法。
深度学习理论提出以来,研究人员发现应用深度学习去进行行为检测,可以有效提高检测效果和性能,因此深度学习在实时视频的行为检测开始广泛应用,到现在为止,其检测效率和精度已经有了很大提高。在深度学习理论中,Two-Stream是一个主流方法,它是由时间、空间两个网络组成,该方法提出对视频序列中每两帧计算密集光流,然后得到密集光流的序列。然后再对光流序列和图像序列分别训练卷积神经网络模型,然后再训练一个fusion网络进行融合图像序列和光流序列的网络;C3D(3-Dimensional Convolution)是另一个主流方法,在目前来看,使用C3D方法得到的效果要比Two-Stream方法略差些,但C3D网络结构简单,而且C3D运行时间短,处理速度快,所以仍然是当前研究热门。总之,使用基于深度学习的方法得到的效果已经明显超过了使用传统算法。
发明内容
本发明的目的是为提高检测精度的同时减少网络参数量,本发明基于深度学习,提出了一种基于改进的C3D视频行为检测方法,相比C3D神经网络,本发明的方法提高了检测的准确度,大大减小网络的参数量。
为了方便说明,首先引入如下概念:
卷积神经网络(Convolutional Neural Network,CNN):受视觉神经机制的启发而设计,是一种多层前馈神经网络,每层由多个二维平面或三维平面组成,平面上的每个神经元独立工作,卷积神经网络主要包括特征提取层和特征映射层。
C3D(3-Dimensional Convolution)卷积神经网络:该网络采用三维卷积对视频连续帧进行操作,相比于二维卷积更能简单有效地处理时间信息。如图1所示,C3D一共进行了8次卷积、5次池化和2次全连接操作,具有较高的准确度,是一种简单、高效、通用、快速的行为识别卷积神经网络。
SqueezeNet:主要是为了降低卷积神经网络模型参数数量而设计的,如图2所示,将原本为一层的卷积分解为两层:squeeze层和expand层,每层都有一个激活层,squeeze层里都是1*1的卷积,数量为s1;expand层里有1*1和3*3两种卷积核,数量分别为e1、e3,在数量上4*s1=e1=e3。expand层之后将1*1和3*3卷积后得到的feature map进行拼接,然后把这两层封装为一个Fire_Module。Fire_Module输入的feature map为H*W*C,输出的featuremap为H*W*(e1+e3),可以看到feature map的分辨率是不变的,变化的是通道的数量。
本发明具体采用如下技术方案:
本发明的基本思想是以C3D网络为基础,结合ResNet的short-cut结构以及改进的SqueezeNet来进行网络结构调整,并将网络部署到NVIDIA JetsonTX2上进行行为检测,如图3所示。
本发明对SqueezeNet提出如下两种修订,以应用到C3D网络中:
(1)因为所用网络使用的是三维卷积,所以将Fire_Module中的1*1和3*3卷积改为使用三维卷积1*1*1和3*3*3。为提高准确度,借鉴Inception V1结构,在Fire_Module的expand层中增加一个数量为e5的5*5*5卷积支路,如图4,输出大小为H*W*(e1+e3+e5),这样不仅增加了网络的宽度,而且改进后的Fire_Module包含了3种不同尺寸的卷积,同时也增加了网络对不同尺度的适应性,从而提高准确度。而网络越到后面,特征也越抽象,每个特征所涉及的感受野也更大,因此随着网络深度的增加,3*3*3和5*5*5的卷积比例也会增加。
(2)如果将网络中的卷积全部应用为上述改进后的Fire_Module V1,因为5*5*5卷积所需的计算量太大,会造成特征图厚度增大,网络参数量也会随着增加。为减少网络参数量,借鉴Inception V3结构,提出另一种方法,将Fire_Module中的3*3*3卷积替换为3*1*3卷积,在不影响网络性能的情况下,大大减小参数量,如图5所示。
本文在C3D网络基础上,对网络结构进行调整,首先,紧跟着卷积层引入BN(BatchNormalization)层,在神经网络层的中间,它起到预处理的功能,也就是对上一层的输入进行归一化后,再送到网络的下一层,这样做可以有效防止梯度弥散,也可以在网络训练过程中加快网络收敛速度,加速网络训练。其次,将网络中的卷积层替换为Fire_Module V1、Fire_Module V2,如果全部使用Fire_Module V1,会造成网络参数量增大,经多次实验得出,Fire_Module V1、Fire_Module V2按图6所示进行卷积层替换,参数量会大大减小。最后,替换后的网络深度变深,为防止训练时出现梯度退化问题以及提高精度,在Fire_Module V2通道数量相同的模块之间,添加short-cut结构,如图7。
本文采用改进的SqueezeNet与C3D相结合的卷积神经网络,引入BN层,随着网络深度的增加采用了ResNet的short-cut结构,对走路、跑步、打架、摔倒、坐、等动作进行检测识别,取得较好的检测结果,得到以下结论:
(1)本文提出的网络提升了检测的准确度,具有较好的识别率。
(2)本文提出的网络参数量减少很多,降低对硬件的要求,使得C3D网络性能在嵌入式平台如NVIDIA JetsonTX2上进一步提高。
附图说明
图1为C3D网络结构;
图2为Fire_Module结构;
图3为为本发明总体结构图;
图4为基于InceptionV1的Fire_Module V1;
图5为基于InceptionV3的Fire_Module V2;
图6为整体网络结构图;
图7为Short-cut结构。
具体实施方式
下面对本发明作进一步的详细说明,有必要指出的是,以下的实施例只用于对本发明做进一步的说明,不能理解为对本发明保护范围的限制,所属领域技术熟悉人员根据上述发明内容,对本发明做出一些非本质的改进和调整进行具体实施,应仍属于本发明的保护范围。
基于改进的C3D视频行为检测方法,主要包括以下步骤:
(1)本专利使用的数据集为UCF101数据集,该数据集共有13320个视频,每个视频大小为320*240,包含动作101类,并为每个动作贴上相应的名称。
(2)将数据集中的视频转换为图片格式;按照3:1的比例将数据集分为训练集、测试集。
(3)训练:训练平台配置:Intel(R)Core(TM)i7-6700 3.4GHz处理器;显卡为显存12GB的NVIDIA Titan X;Ubuntu 16.04 64位操作***;训练采用的深度学习框架为Keras。将改进的网络在服务器上采用GPU模式进行网络训练。
(4)对训练得到的模型进行评估。
Claims (1)
1.一种基于改进的C3D视频行为检测方法,其特征在于主要包括以下过程步骤:
(1)本发明以C3D网络为基本网络进行网络改进,首先,引入BN(Batch Normalization)层,防止梯度弥散,加快网络收敛速度;
(2)SqueezeNet网络主要是由多个输出通道数相同或不同的Fire_Module模块组成,能够有效简化网络复杂度,本发明对SqueezeNet网络进行如下改进以应用到C3D网络中,因为C3D为三维卷积网络,所以将SqueezeNet的Fire_Module中的1*1和3*3卷积改为三维卷积1*1*1和3*3*3,本发明借鉴InceptionV1的设计思路对SqueezeNet进行改进,在Fire_Module的expand层中增加一个数量为e5的5*5*5卷积支路,输出通道大小为H*W*(e1+e3+e5),这样不仅增加了网络的宽度,而且改进后的SqueezeNet包含了3种不同尺寸的卷积,同时也增加了网络对不同尺度的适应性,从而提高准确度,然后将它封装,称为Fire_Module V1,但这种改进会增加网络的参数量;
(3)为降低网络的参数量,本发明借鉴Inception V3的设计思路将Fire_Module的expand层中的3*3*3卷积改为3*1*3卷积,数量为e3,进行封装,称为Fire_Module V2,这种改进相比于Fire_Module和Fire_Module V1参数量降低很多;
(4)然后将网络中的卷积层使用改进后的Fire_Module替换,如果全部使用Fire_Module V1,会造成网络参数量增大,经多次实验得出,当网络第二、三个卷积层使用Fire_Module V1替代,其余部分(除第一个和最后一个卷积层)使用Fire_Module V2替代时,准确度会得到明显提高,参数量会大大减小;
(5)最后在输出通道数量相同的Fire_Module V2模块之间,添加ResNet的short-cut结构,将训练得到的网络模型进行行为检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910302041.9A CN111832336B (zh) | 2019-04-16 | 2019-04-16 | 一种基于改进的c3d视频行为检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910302041.9A CN111832336B (zh) | 2019-04-16 | 2019-04-16 | 一种基于改进的c3d视频行为检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111832336A true CN111832336A (zh) | 2020-10-27 |
CN111832336B CN111832336B (zh) | 2022-09-02 |
Family
ID=72914599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910302041.9A Active CN111832336B (zh) | 2019-04-16 | 2019-04-16 | 一种基于改进的c3d视频行为检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111832336B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113361417A (zh) * | 2021-06-09 | 2021-09-07 | 陕西理工大学 | 一种基于可变时序的人体行为识别方法 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2014262199A1 (en) * | 2003-10-20 | 2014-11-27 | Bgc Partners, Inc. | System for providing futures contracts in a financial market environment |
CN106407903A (zh) * | 2016-08-31 | 2017-02-15 | 四川瞳知科技有限公司 | 基于多尺度卷积神经网络的实时人体异常行为识别方法 |
CN106815596A (zh) * | 2016-12-08 | 2017-06-09 | ***股份有限公司 | 一种图像分类器建立方法及装置 |
CN107506712A (zh) * | 2017-08-15 | 2017-12-22 | 成都考拉悠然科技有限公司 | 一种基于3d深度卷积网络的人类行为识别的方法 |
CN108510012A (zh) * | 2018-05-04 | 2018-09-07 | 四川大学 | 一种基于多尺度特征图的目标快速检测方法 |
WO2018171109A1 (zh) * | 2017-03-23 | 2018-09-27 | 北京大学深圳研究生院 | 基于卷积神经网络的视频动作检测方法 |
CN108596030A (zh) * | 2018-03-20 | 2018-09-28 | 杭州电子科技大学 | 基于Faster R-CNN的声呐目标检测方法 |
CN108921007A (zh) * | 2018-05-08 | 2018-11-30 | 河海大学常州校区 | 一种基于SqueezeNet的手写体数字识别方法 |
CN108960059A (zh) * | 2018-06-01 | 2018-12-07 | 众安信息技术服务有限公司 | 一种视频动作识别方法及装置 |
CN108985314A (zh) * | 2018-05-24 | 2018-12-11 | 北京飞搜科技有限公司 | 目标检测方法及设备 |
CN109035779A (zh) * | 2018-08-30 | 2018-12-18 | 南京邮电大学 | 基于DenseNet的高速公路交通流预测方法 |
CN109214399A (zh) * | 2018-10-12 | 2019-01-15 | 清华大学深圳研究生院 | 一种嵌入SENet结构的改进YOLOV3目标识别算法 |
WO2019010950A1 (zh) * | 2017-07-13 | 2019-01-17 | 北京大学深圳研究生院 | 用于图像或视频中行人重识别的深度判别网络模型方法 |
CN109241946A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 异常行为监控方法、装置、计算机设备及存储介质 |
CN109272107A (zh) * | 2018-08-10 | 2019-01-25 | 广东工业大学 | 一种改进深层卷积神经网络的参数个数的方法 |
CN109299733A (zh) * | 2018-09-12 | 2019-02-01 | 江南大学 | 利用紧凑型深度卷积神经网络进行图像识别的方法 |
CN109376572A (zh) * | 2018-08-09 | 2019-02-22 | 同济大学 | 基于深度学习的交通视频中实时车辆检测与轨迹跟踪方法 |
CN109544510A (zh) * | 2018-10-24 | 2019-03-29 | 广州大学 | 一种基于卷积神经网络的三维肺结节识别方法 |
CN109559297A (zh) * | 2018-11-15 | 2019-04-02 | 大连大学 | 一种基于三维区域生成网络的肺结节检测的方法 |
-
2019
- 2019-04-16 CN CN201910302041.9A patent/CN111832336B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2014262199A1 (en) * | 2003-10-20 | 2014-11-27 | Bgc Partners, Inc. | System for providing futures contracts in a financial market environment |
CN106407903A (zh) * | 2016-08-31 | 2017-02-15 | 四川瞳知科技有限公司 | 基于多尺度卷积神经网络的实时人体异常行为识别方法 |
CN106815596A (zh) * | 2016-12-08 | 2017-06-09 | ***股份有限公司 | 一种图像分类器建立方法及装置 |
WO2018171109A1 (zh) * | 2017-03-23 | 2018-09-27 | 北京大学深圳研究生院 | 基于卷积神经网络的视频动作检测方法 |
WO2019010950A1 (zh) * | 2017-07-13 | 2019-01-17 | 北京大学深圳研究生院 | 用于图像或视频中行人重识别的深度判别网络模型方法 |
CN107506712A (zh) * | 2017-08-15 | 2017-12-22 | 成都考拉悠然科技有限公司 | 一种基于3d深度卷积网络的人类行为识别的方法 |
CN108596030A (zh) * | 2018-03-20 | 2018-09-28 | 杭州电子科技大学 | 基于Faster R-CNN的声呐目标检测方法 |
CN108510012A (zh) * | 2018-05-04 | 2018-09-07 | 四川大学 | 一种基于多尺度特征图的目标快速检测方法 |
CN108921007A (zh) * | 2018-05-08 | 2018-11-30 | 河海大学常州校区 | 一种基于SqueezeNet的手写体数字识别方法 |
CN108985314A (zh) * | 2018-05-24 | 2018-12-11 | 北京飞搜科技有限公司 | 目标检测方法及设备 |
CN108960059A (zh) * | 2018-06-01 | 2018-12-07 | 众安信息技术服务有限公司 | 一种视频动作识别方法及装置 |
CN109376572A (zh) * | 2018-08-09 | 2019-02-22 | 同济大学 | 基于深度学习的交通视频中实时车辆检测与轨迹跟踪方法 |
CN109272107A (zh) * | 2018-08-10 | 2019-01-25 | 广东工业大学 | 一种改进深层卷积神经网络的参数个数的方法 |
CN109035779A (zh) * | 2018-08-30 | 2018-12-18 | 南京邮电大学 | 基于DenseNet的高速公路交通流预测方法 |
CN109299733A (zh) * | 2018-09-12 | 2019-02-01 | 江南大学 | 利用紧凑型深度卷积神经网络进行图像识别的方法 |
CN109241946A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 异常行为监控方法、装置、计算机设备及存储介质 |
CN109214399A (zh) * | 2018-10-12 | 2019-01-15 | 清华大学深圳研究生院 | 一种嵌入SENet结构的改进YOLOV3目标识别算法 |
CN109544510A (zh) * | 2018-10-24 | 2019-03-29 | 广州大学 | 一种基于卷积神经网络的三维肺结节识别方法 |
CN109559297A (zh) * | 2018-11-15 | 2019-04-02 | 大连大学 | 一种基于三维区域生成网络的肺结节检测的方法 |
Non-Patent Citations (8)
Title |
---|
HONGDOU YAO等: ""Automatic Segmentation of Brain Tumor Using 3D SE-Inception Networks with Residual Connections"", 《INTERNATIONAL MICCAI BRAINLESION WORKSHOP》 * |
IANDOLA F N等: ""SqueezeNet:AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size"", 《ARXIV》 * |
JAVIER RUIZ-DEL-SOLAR等: ""using Convolutional Neural Networks in Robots with Limited Computational Resources:Detecting NAO Robots While Playing Soccer"", 《ROBOT WORLD CUP》 * |
XU H等: ""R-C3D:Region convolutional 3D network for temporal activity detection"", 《PROCEEDINGS OF INTERNATIONAL CONFERENCE ON COMPUTER VISION》 * |
吴进等: ""紧凑型深度卷积神经网络在图像识别中的应用"", 《计算机科学与探索》 * |
周智等: ""基于3D-CNN的暴力行为检测"", 《计算机***应用》 * |
廖小东等: ""基于改进型C3D神经网络的动作识别技术"", 《计算机与现代化》 * |
黄跃珍等: ""基于改进型MobileNet网络的车型识别方法"", 《电子技术与软件工程》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113361417A (zh) * | 2021-06-09 | 2021-09-07 | 陕西理工大学 | 一种基于可变时序的人体行为识别方法 |
CN113361417B (zh) * | 2021-06-09 | 2023-10-31 | 陕西理工大学 | 一种基于可变时序的人体行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111832336B (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091045B (zh) | 一种基于时空注意力机制的手语识别方法 | |
CN111144329B (zh) | 一种基于多标签的轻量快速人群计数方法 | |
US20220215227A1 (en) | Neural Architecture Search Method, Image Processing Method And Apparatus, And Storage Medium | |
CN108764072B (zh) | 一种基于多尺度融合的血细胞亚型图像分类方法 | |
EP4099220A1 (en) | Processing apparatus, method and storage medium | |
KR20190062304A (ko) | 컨볼루션 신경망에서 컨볼루션 층들의 연산을 수행하기 위한 방법 및 장치 | |
CN111091130A (zh) | 基于轻量级卷积神经网络的实时图像语义分割方法及*** | |
CN111242844B (zh) | 图像处理方法、装置、服务器和存储介质 | |
CN110717527A (zh) | 结合空洞空间金字塔结构的目标检测模型确定方法 | |
CN111340814A (zh) | 一种基于多模态自适应卷积的rgb-d图像语义分割方法 | |
CN112529146B (zh) | 神经网络模型训练的方法和装置 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
KR20220130630A (ko) | 이미지 처리 방법, 안면 인식 모델 훈련 방법, 장치 및 기기 | |
CN112906718A (zh) | 一种基于卷积神经网络的多目标检测方法 | |
CN107292458A (zh) | 一种应用于神经网络芯片的预测方法和预测装置 | |
CN108664993B (zh) | 一种密集权重连接的卷积神经网络图像分类方法 | |
CN112036475A (zh) | 融合模块和多尺度特征融合卷积神经网络及图像识别方法 | |
US20220215617A1 (en) | Viewpoint image processing method and related device | |
CN115171052B (zh) | 基于高分辨率上下文网络的拥挤人群姿态估计方法 | |
CN112183649A (zh) | 一种用于对金字塔特征图进行预测的算法 | |
CN111832336B (zh) | 一种基于改进的c3d视频行为检测方法 | |
CN112132207A (zh) | 基于多分支特征映射目标检测神经网络构建方法 | |
CN113554104B (zh) | 一种基于深度学习模型的图像分类方法 | |
Cheng et al. | Exploit the potential of multi-column architecture for crowd counting | |
CN112541469B (zh) | 基于自适应分类的人群计数方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |