CN110110812B - 一种用于视频动作识别的串流深度网络模型构建方法 - Google Patents
一种用于视频动作识别的串流深度网络模型构建方法 Download PDFInfo
- Publication number
- CN110110812B CN110110812B CN201910418398.3A CN201910418398A CN110110812B CN 110110812 B CN110110812 B CN 110110812B CN 201910418398 A CN201910418398 A CN 201910418398A CN 110110812 B CN110110812 B CN 110110812B
- Authority
- CN
- China
- Prior art keywords
- flow
- model
- network
- video
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于视频动作识别的串流深度网络模型构建方法,视频中动作识别研究从传统方法到深度学习方法,深度学习方法中结合空间信息和时间信息的双流方法是当前动作识别领域最主流的方法。本发明基于双流方法进行改进,在空间流上采用迭代交互训练的方式得到一个效果更佳的空间流模型,在时间流上提出一个基于残差网络改进的新型时间特征提取网络,最后联合空间流和时间流各自的分类优势,将训练好的空间流和时间流采用多层分类的方式组成一个整体串流分类模型。该模型构建方法在UCF101数据集上进行测试,在单个空间流上较原始方法提升了1.21%,在时间流上较原始方法提升了1.42%,在最终模型上较单个的空间流和时间流获得了6%左右的大额提升。
Description
技术领域
本发明属于计算机视觉领域,特别涉及一种用于视频动作识别的串流深度网络模型构建方法。
背景技术
视频中的动作识别是当前计算机视觉领域一个非常活跃和具有挑战性的研究热点。不同于静止的图像分类,一个视频中的动作识别要考虑的不仅有空间信息还有时间信息。
虽然在现实生活中也可以看到动作识别的一些实际应用,但只停留在一些比较浅显的应用层次上。目前即使是最好的动作识别方法在面临实际复杂场景的时候,其性能也还远远达不到人们的预期效果。早期的动作识别方法是基于手工特征提取的,随着深度学习、卷积神经网络的兴起,同计算机视觉的其他领域一样,动作识别的研究也渐渐从传统方法转向深度学习方法。然而与计算机视觉的其他领域(图像分类,人脸识别,姿态估计)不同的是:目前深度学习方法在动作识别方向的研究并没有取得突破性的进展,其识别效果也只比传统方法稍胜一筹。同时为了取得更高的准确率,动作识别的深度学习方法扩展出更多的视频特征流,然后通过结合多种特征流提高识别准确率,而其中以视频帧为空间信息的空间流和以描述视频帧之间光流信息的光流图片为时间信息的时间流是识别视频动作效果最好的特征流,为此,我们提出一种用于视频动作识别的串流深度网络模型构建方法。
发明内容
本发明的主要目的在于提供一种用于视频动作识别的串流深度网络模型构建方法,可以有效解决背景技术中的问题。
为实现上述目的,本发明采取的技术方案为:
一种用于视频动作识别的串流深度网络模型构建方法,包括以下步骤:
步骤(1):将视频分成视频帧,计算帧与帧之间的光流信息,生成水平和垂直方向的两种光流图片;
步骤(2):将视频帧进行翻转切割等数据扩增方法后输入空间流网络进行训练得到空间流网络模型,将水平和垂直方向上的光流图片各10张共20张光流图片堆叠成一组再进行翻转切割,然后输入时间流网络进行训练得到时间流网络模型;
步骤(3):将空间流模型作为串流模型的第一层分类器,时间流模型作为串流模型的第二层分类器,如此组成串流深度网络模型;
步骤(4):通过实验设置阈值将两个分类器串联起来,当第一层分类器分类得分大于阈值直接输出分类结果,小于阈值则进入第二层分类器,当第二层分类器得分大于阈值输出分类结果,少于阈值时将第一层分类器和第二层分类器的得分进行相加融合输出分类结果;
步骤(5):测试阶段,将测试视频分成视频帧,计算光流信息得出光流图片,随机从一个视频中抽取25帧以及25段光流图片集进行测试,对视频帧进行翻转切割最终得到250张视频帧和250个光流图片集,输入串流模型平均得分输出最终的分类结果。
与现有技术相比,本发明具有如下有益效果:本发明对视频动作进行分类识别时,不仅提取空间特征也提取时间特征。不同于以往联合时空特征的并联多流模型,本发明提出以空间流和时间流为基础的串流网络模型构建方法,在空间流上采用效果更好的迭代交替训练方式,在时间流上对残差网络进行改进提出一个基于ResNet50改进的cccp-ResNet50网络模型,使其能提取到更加充分的时间特征。然后选择空间流作为第一层的分类模型,时间流作为第二层的分类。在这样一个新的串流网络模型中,通过选择合适的阈值,当第一层的模型分类得分大于阈值时输出分类结果,小于阈值时就进入第二层的模型进行分类,当两个流的分类得分都少于这个阈值时再选择两者的得分进行相加融合输出分类结果。如此,串流深度网络模型构建方法的识别***比其它动作识别***在单个流上准确率更高,同时大部分情况第一层的分类模型就可以完成分类,相对其他双流或是多流的动作识别***其效率更高,更具有现实意义,因此其具有重要的实际应用价值。
附图说明
图1为本发明空间流迭代训练网络结构图。
图2为本发明空间流具体训练步骤图。
图3为本发明时间流cccp-ResNet50网络结构图。
图4为本发明时间流cccp层1*1卷积操作示意图。
图5为本发明时间流cccp块网络结构图。
图6为本发明整体串流深度网络模型构建方法图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
如图1-6所示,一种用于视频动作识别的串流深度网络模型构建方法,包括以下步骤:将视频分成视频帧,计算帧与帧之间的光流信息,生成水平和垂直方向的两种光流图片;将视频帧进行翻转切割等数据扩增方法后输入空间流网络进行训练得到空间流网络模型,将水平和垂直方向上的光流图片各10张共20张光流图片堆叠成一组再进行翻转切割,然后输入时间流网络进行训练得到时间流网络模型;将空间流模型作为串流模型的第一层分类器,时间流模型作为串流模型的第二层分类器,如此组成串流深度网络模型;通过实验设置阈值将两个分类器串联起来,当第一层分类器分类得分大于阈值直接输出分类结果,小于阈值则进入第二层分类器,当第二层分类器得分大于阈值输出分类结果,少于阈值时将第一层分类器和第二层分类器的得分进行相加融合输出分类结果;测试阶段,将测试视频分成视频帧,计算光流信息得出光流图片,随机从一个视频中抽取25帧以及25段光流图片集进行测试,对视频帧进行翻转切割最终得到250张视频帧和250个光流图片集,输入串流模型平均得分输出最终的分类结果。
1.数据预处理
将视频切分成视频帧,每帧图片通过切割翻转进行数据扩增可以生成10张图片,然后作为空间流模型的输入;
计算视频帧之间的光流信息生成水平方向和垂直方向的光流图片,将20张光流图片打包成一组,每组图片再进行切割翻转数据扩增可以生成10组图片,最后以此作为时间流的输入。
2.训练空间流模型
如图1所示,以ResNet50网络为基础构建迭代训练网络结构图;
loss_S1为S1网络的损失,loss_Fuse为融合网络的损失,loss_S2为S2网络的损失;
第一次训练时,固定S2网络(学习率置为0),训练S1网络,此时的损失函数:
loss1=λ*loss_S1+loss_Fuse,
第二次训练的时候,固定S1网络(学习率置为0),训练S2网络,此时的损失函数:
loss2=λ*loss_S2+loss_Fuse,
如此反复迭代训练直至loss1和loss2都趋于稳定。再以训练好的S1
S2网络为基础对整体网络进行微调,完成空间流模型的训练,此时的损失函数:
loss=λ*loss_S1+λ*loss_S2+loss_Fuse。
以上三个损失函数中的λ都取0.3。
如图2所示,在微调分类器部分时,微调训练方式的选择如下。
表1空间流迭代融合阶段不同微调训练方法分类结果比较
从表1中,可以看出在所有微调方法中微调第五层残差块和全连接层的训练方法获得了最好的效果,它比只微调全连接层的训练方法高0.67%,比微调第四、五层残差块和全连接层的训练方法高1.04%,比最原始的ResNet50网络训练方法高1.21%。只微调全连接层可能对交替训练阶段所得互补特征的整合存在欠缺,而微调训练第四、五层残差块和全连接层可能因为微调太多层损失了较多高层语义互补特征,所以效果比只微调全连接层更差。微调第五层残差块和全连接层因为其在互补特征的整合上提供了更多的反馈,获得了最好的效果。所以在最终空间流模型的选取上,本发明选择了只微调第五层残差块和全连接层的空间流训练模型。
3.训练时间流模型
如图3所示,在基础卷积网络ResNet50前加了两个包含cccp层的cccp块。cccp层是卷积核大小为1*1的卷积层,通过对输入的每个通道特征图乘以一个可学习的系数将多通道特征叠加成一张特征图,实现跨通道信息的整合。构建一个更有利于提取时序特征的时间流网络;
以新构建的时间流网络为基础将数据预处理阶段处理好的光流图片组作为输入进行时间流的训练,得到时间流的训练模型。
本发明时间流cccp层卷积核个数的选择。
表2时间流实验结果
从表2的实验结果可以看出,cccp-ResNet50网络随着cccp层卷积核个数的增加,分类测试的准确率也在不断增加,当设定为128个时,整个网络的效果是最好的,较原始ResNet50网络的时间流模型在UCF101数据集第一种划分下精度提升了1.42%。而继续增加到256个时,可能因为模型过于复杂出现了过拟合,效果开始变差。所以在最终时间流模型的选取上,本发明选择设定cccp层卷积核个数为128。
4.组建串流深度网络模型
如图4所示,构建串流深度网络模型,将训练好的空间流模型作为基础分类模型(第一层),时间流模型作为次级分类模型(第二层),通过设置阈值的方法,判断是否存在空间特征模糊情况,然后选择是否进入第二层的时间流分类模型,否则直接根据空间流得分进行最后的动作分类。同样的,视频光流信息输入到时间流时,也根据时间流模型的分类得分进行融合的选择,如果进入时间流的视频分类得分也小于阈值时,表明待分类的这个视频时间特征和空间特征都不明显,这个时候则进入得分融合模型将空间流和时间流的得分进行相加再分类,否则直接根据时间流分类得分进行分类。
构建好串流深度网络模型后,就可以进行实际应用测试,将待分类的视频经过数据预处理阶段得到视频帧或是光流图片组,将之输入搭建好的串流模型进行最终的视频动作分类。
本发明最终模型与其他方法比较。
表3本发明方法与其他先进方法分类结果比较
本发明提出的方法与动作识别领域的其他先进方法的分类效果比较如表3所示,在UCF101数据集上进行测试,单流的逐层融合网络模型和三维卷积网络模型效果最差,双流网络模型也较本发明方法略差,联合三种特征的三流网络模型效果最佳。三流方法除了使用视频帧和光流图片作为输入的空间流和时间流外,还使用了以运动叠加差分图像作为输入的全局时间流,但是本发明提出的方法只使用了空间流和时间流,甚至在有些情况下只使用了单流信息,分类效率较高,本发明较同样使用视频帧和光流图片作为输入的双流网络模型效果更好、测试效率更高。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (1)
1.一种用于视频动作识别的串流深度网络模型构建方法,包括以下步骤:
步骤(1):将视频分成视频帧,计算帧与帧之间的光流信息,生成水平和垂直方向的两种光流图片;
步骤(2):将视频帧进行翻转切割数据扩增方法后输入到空间流网络进行训练,训练空间流网络时,以两个ResNet50网络S1和S2为基础进行融合构建迭代训练网络,迭代交替训练S1和S2之后再微调训练得到空间流网络模型;将水平和垂直方向上的光流图片各10张共20张光流图片堆叠成一组再进行翻转切割,然后输入时间流网络进行训练,训练时间流网络时,在ResNet50网络前增加两个包含1*1卷积核大小的卷积层cccp块作为训练网络进行训练得到时间流网络模型;
步骤(3):将空间流模型作为串流模型的第一层分类器,时间流模型作为串流模型的第二层分类器,如此组成串流深度网络模型;
步骤(4):通过实验设置阈值将两个分类器串联起来,当第一层分类器分类得分大于阈值直接输出分类结果,小于阈值则进入第二层分类器,当第二层分类器得分大于阈值输出分类结果,少于阈值时将第一层分类器和第二层分类器的得分进行相加融合输出分类结果;
步骤(5):测试阶段,将测试视频分成视频帧,计算光流信息得出光流图片,随机从一个视频中抽取25帧以及25段光流图片集进行测试,对视频帧进行翻转切割最终得到250张视频帧和250个光流图片集,输入串流模型平均得分输出最终的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910418398.3A CN110110812B (zh) | 2019-05-20 | 2019-05-20 | 一种用于视频动作识别的串流深度网络模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910418398.3A CN110110812B (zh) | 2019-05-20 | 2019-05-20 | 一种用于视频动作识别的串流深度网络模型构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110110812A CN110110812A (zh) | 2019-08-09 |
CN110110812B true CN110110812B (zh) | 2022-08-19 |
Family
ID=67491170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910418398.3A Active CN110110812B (zh) | 2019-05-20 | 2019-05-20 | 一种用于视频动作识别的串流深度网络模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110110812B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010735B (zh) * | 2019-12-20 | 2024-03-08 | 北京金山云网络技术有限公司 | 一种视频分类方法、装置、电子设备及存储介质 |
CN111368739A (zh) * | 2020-03-05 | 2020-07-03 | 东北大学 | 一种基于双流卷积神经网络的暴力行为识别方法 |
CN111639571B (zh) * | 2020-05-20 | 2023-05-23 | 浙江工商大学 | 基于轮廓卷积神经网络的视频动作识别方法 |
CN113255761A (zh) * | 2021-05-21 | 2021-08-13 | 深圳共形咨询企业(有限合伙) | 反馈神经网络***及其训练方法、装置及计算机设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103065326A (zh) * | 2012-12-26 | 2013-04-24 | 西安理工大学 | 基于时-空多尺度运动注意力分析的目标检测方法 |
CN107563345A (zh) * | 2017-09-19 | 2018-01-09 | 桂林安维科技有限公司 | 一种基于时空显著性区域检测的人体行为分析方法 |
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN107862376A (zh) * | 2017-10-30 | 2018-03-30 | 中山大学 | 一种基于双流神经网络的人体图像动作识别方法 |
CN108229280A (zh) * | 2017-04-20 | 2018-06-29 | 北京市商汤科技开发有限公司 | 时域动作检测方法和***、电子设备、计算机存储介质 |
CN108288035A (zh) * | 2018-01-11 | 2018-07-17 | 华南理工大学 | 基于深度学习的多通道图像特征融合的人体动作识别方法 |
CN108830252A (zh) * | 2018-06-26 | 2018-11-16 | 哈尔滨工业大学 | 一种融合全局时空特征的卷积神经网络人体动作识别方法 |
WO2018210796A1 (en) * | 2017-05-15 | 2018-11-22 | Deepmind Technologies Limited | Neural network systems for action recognition in videos |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106462747B (zh) * | 2014-06-17 | 2020-03-17 | 河谷控股Ip有限责任公司 | 活动识别***和方法 |
US10242266B2 (en) * | 2016-03-02 | 2019-03-26 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for detecting actions in videos |
-
2019
- 2019-05-20 CN CN201910418398.3A patent/CN110110812B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103065326A (zh) * | 2012-12-26 | 2013-04-24 | 西安理工大学 | 基于时-空多尺度运动注意力分析的目标检测方法 |
CN108229280A (zh) * | 2017-04-20 | 2018-06-29 | 北京市商汤科技开发有限公司 | 时域动作检测方法和***、电子设备、计算机存储介质 |
WO2018210796A1 (en) * | 2017-05-15 | 2018-11-22 | Deepmind Technologies Limited | Neural network systems for action recognition in videos |
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN107563345A (zh) * | 2017-09-19 | 2018-01-09 | 桂林安维科技有限公司 | 一种基于时空显著性区域检测的人体行为分析方法 |
CN107862376A (zh) * | 2017-10-30 | 2018-03-30 | 中山大学 | 一种基于双流神经网络的人体图像动作识别方法 |
CN108288035A (zh) * | 2018-01-11 | 2018-07-17 | 华南理工大学 | 基于深度学习的多通道图像特征融合的人体动作识别方法 |
CN108830252A (zh) * | 2018-06-26 | 2018-11-16 | 哈尔滨工业大学 | 一种融合全局时空特征的卷积神经网络人体动作识别方法 |
Non-Patent Citations (8)
Title |
---|
" Spatiotemporal Multiplier Networks for Video Action Recognition";Feichtenhofer C等;《 Computer Vision and Pattern Recognition》;20171109;7445-7454 * |
"Convolutional two-stream network fusion for video action recognition";Feichtenhofer,Christoph 等;《 IEEE》;20161231;1-7 * |
"DualNet: Learn Complementary Features for Image Recognition";Hou S 等;《International Conference on Computer Vision》;20171231;502-510 * |
"Fusing multiple features and spatial information for image classification via codebook ensemble";Huilan Luo等;《International Journal of Embedded Systems (IJES)》;20170626;第 9卷(第3期);229-240 * |
"Network In Network";Lin M 等;《International Conference on Learning Representations》;20140304;325-335 * |
"RGB-D视频中连续动作识别";白栋天 等;《中国科技论文》;20160123;第11卷(第02期);168-172+178 * |
"一种基于深度图去噪与时空特征提取的动作识别方法";黄晓晖 等;《现代工业经济和信息化》;20171231;第7卷(第5期);64-68 * |
"跨层融合与多模型投票的动作识别";罗会兰 等;《电子与信息学报 网络首发 》;20181114;第41卷(第3期);649-655 * |
Also Published As
Publication number | Publication date |
---|---|
CN110110812A (zh) | 2019-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110812B (zh) | 一种用于视频动作识别的串流深度网络模型构建方法 | |
CN111325155B (zh) | 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法 | |
CN108830252B (zh) | 一种融合全局时空特征的卷积神经网络人体动作识别方法 | |
CN110555434B (zh) | 一种局部对比和全局指导的立体图像视觉显著性检测方法 | |
CN110909658A (zh) | 一种基于双流卷积网络的视频中人体行为识别方法 | |
Tran et al. | Two-stream flow-guided convolutional attention networks for action recognition | |
CN110419049A (zh) | 房间布局估计方法和技术 | |
CN103400145A (zh) | 基于线索神经网络的语音-视觉融合情感识别方法 | |
CN110889375B (zh) | 用于行为识别的隐双流协作学习网络及方法 | |
CN110458038A (zh) | 基于双链深度双流网络的小数据跨域动作识别方法 | |
JP2020126624A (ja) | ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識し、極度の状況でフォールトトレランス及びフラクチュエーションロバスト性を向上させる方法 | |
CN111460979A (zh) | 一种基于多层时空框架的关键镜头视频摘要方法 | |
CN111582230A (zh) | 基于空时特征的视频行为分类方法 | |
CN110351548B (zh) | 一种深度学习及视差图加权指导的立体图像质量评价方法 | |
Mademlis et al. | Multimodal stereoscopic movie summarization conforming to narrative characteristics | |
CN112906853A (zh) | 模型自动优化的方法及装置、设备、存储介质 | |
CN112329861A (zh) | 一种面向移动机器人多目标检测的分层特征融合方法 | |
CN110807369B (zh) | 基于深度学习和注意力机制的短视频内容智能分类方法 | |
CN111401116A (zh) | 基于增强卷积和空时lstm网络的双模态情感识别方法 | |
CN113705384A (zh) | 一种考虑局部时空特性和全局时序线索的面部表情识别方法 | |
CN112906549A (zh) | 一种基于时空胶囊网络的视频行为检测方法 | |
CN113132737A (zh) | 基于泰勒解耦和记忆单元校正的视频预测方法 | |
CN115527275A (zh) | 基于P2CS_3DNet的行为识别方法 | |
CN115620238A (zh) | 一种基于多元信息融合的园区行人属性识别方法 | |
CN109815911B (zh) | 基于深度融合网络的视频运动物体检测***、方法及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |