CN110110812B

CN110110812B - 一种用于视频动作识别的串流深度网络模型构建方法

Info

Publication number: CN110110812B
Application number: CN201910418398.3A
Authority: CN
Inventors: 罗会兰; 文彪
Original assignee: Jiangxi University of Science and Technology
Current assignee: Jiangxi University of Science and Technology
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2022-08-19
Anticipated expiration: 2039-05-20
Also published as: CN110110812A

Abstract

本发明公开了一种用于视频动作识别的串流深度网络模型构建方法，视频中动作识别研究从传统方法到深度学习方法，深度学习方法中结合空间信息和时间信息的双流方法是当前动作识别领域最主流的方法。本发明基于双流方法进行改进，在空间流上采用迭代交互训练的方式得到一个效果更佳的空间流模型，在时间流上提出一个基于残差网络改进的新型时间特征提取网络，最后联合空间流和时间流各自的分类优势，将训练好的空间流和时间流采用多层分类的方式组成一个整体串流分类模型。该模型构建方法在UCF101数据集上进行测试，在单个空间流上较原始方法提升了1.21％，在时间流上较原始方法提升了1.42％，在最终模型上较单个的空间流和时间流获得了6％左右的大额提升。

Description

一种用于视频动作识别的串流深度网络模型构建方法

技术领域

本发明属于计算机视觉领域，特别涉及一种用于视频动作识别的串流深度网络模型构建方法。

背景技术

视频中的动作识别是当前计算机视觉领域一个非常活跃和具有挑战性的研究热点。不同于静止的图像分类，一个视频中的动作识别要考虑的不仅有空间信息还有时间信息。

虽然在现实生活中也可以看到动作识别的一些实际应用，但只停留在一些比较浅显的应用层次上。目前即使是最好的动作识别方法在面临实际复杂场景的时候，其性能也还远远达不到人们的预期效果。早期的动作识别方法是基于手工特征提取的，随着深度学习、卷积神经网络的兴起，同计算机视觉的其他领域一样，动作识别的研究也渐渐从传统方法转向深度学习方法。然而与计算机视觉的其他领域(图像分类，人脸识别，姿态估计)不同的是：目前深度学习方法在动作识别方向的研究并没有取得突破性的进展，其识别效果也只比传统方法稍胜一筹。同时为了取得更高的准确率，动作识别的深度学习方法扩展出更多的视频特征流，然后通过结合多种特征流提高识别准确率，而其中以视频帧为空间信息的空间流和以描述视频帧之间光流信息的光流图片为时间信息的时间流是识别视频动作效果最好的特征流，为此，我们提出一种用于视频动作识别的串流深度网络模型构建方法。

发明内容

本发明的主要目的在于提供一种用于视频动作识别的串流深度网络模型构建方法，可以有效解决背景技术中的问题。

为实现上述目的，本发明采取的技术方案为：

一种用于视频动作识别的串流深度网络模型构建方法，包括以下步骤：

步骤(1)：将视频分成视频帧，计算帧与帧之间的光流信息，生成水平和垂直方向的两种光流图片；

步骤(2)：将视频帧进行翻转切割等数据扩增方法后输入空间流网络进行训练得到空间流网络模型，将水平和垂直方向上的光流图片各10张共20张光流图片堆叠成一组再进行翻转切割，然后输入时间流网络进行训练得到时间流网络模型；

步骤(3)：将空间流模型作为串流模型的第一层分类器，时间流模型作为串流模型的第二层分类器，如此组成串流深度网络模型；

步骤(4)：通过实验设置阈值将两个分类器串联起来，当第一层分类器分类得分大于阈值直接输出分类结果，小于阈值则进入第二层分类器，当第二层分类器得分大于阈值输出分类结果，少于阈值时将第一层分类器和第二层分类器的得分进行相加融合输出分类结果；

步骤(5)：测试阶段，将测试视频分成视频帧，计算光流信息得出光流图片，随机从一个视频中抽取25帧以及25段光流图片集进行测试，对视频帧进行翻转切割最终得到250张视频帧和250个光流图片集，输入串流模型平均得分输出最终的分类结果。

与现有技术相比，本发明具有如下有益效果：本发明对视频动作进行分类识别时，不仅提取空间特征也提取时间特征。不同于以往联合时空特征的并联多流模型，本发明提出以空间流和时间流为基础的串流网络模型构建方法，在空间流上采用效果更好的迭代交替训练方式，在时间流上对残差网络进行改进提出一个基于ResNet50改进的cccp-ResNet50网络模型，使其能提取到更加充分的时间特征。然后选择空间流作为第一层的分类模型，时间流作为第二层的分类。在这样一个新的串流网络模型中，通过选择合适的阈值，当第一层的模型分类得分大于阈值时输出分类结果，小于阈值时就进入第二层的模型进行分类，当两个流的分类得分都少于这个阈值时再选择两者的得分进行相加融合输出分类结果。如此，串流深度网络模型构建方法的识别***比其它动作识别***在单个流上准确率更高，同时大部分情况第一层的分类模型就可以完成分类，相对其他双流或是多流的动作识别***其效率更高，更具有现实意义，因此其具有重要的实际应用价值。

附图说明

图1为本发明空间流迭代训练网络结构图。

图2为本发明空间流具体训练步骤图。

图3为本发明时间流cccp-ResNet50网络结构图。

图4为本发明时间流cccp层1*1卷积操作示意图。

图5为本发明时间流cccp块网络结构图。

图6为本发明整体串流深度网络模型构建方法图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

如图1-6所示，一种用于视频动作识别的串流深度网络模型构建方法，包括以下步骤：将视频分成视频帧，计算帧与帧之间的光流信息，生成水平和垂直方向的两种光流图片；将视频帧进行翻转切割等数据扩增方法后输入空间流网络进行训练得到空间流网络模型，将水平和垂直方向上的光流图片各10张共20张光流图片堆叠成一组再进行翻转切割，然后输入时间流网络进行训练得到时间流网络模型；将空间流模型作为串流模型的第一层分类器，时间流模型作为串流模型的第二层分类器，如此组成串流深度网络模型；通过实验设置阈值将两个分类器串联起来，当第一层分类器分类得分大于阈值直接输出分类结果，小于阈值则进入第二层分类器，当第二层分类器得分大于阈值输出分类结果，少于阈值时将第一层分类器和第二层分类器的得分进行相加融合输出分类结果；测试阶段，将测试视频分成视频帧，计算光流信息得出光流图片，随机从一个视频中抽取25帧以及25段光流图片集进行测试，对视频帧进行翻转切割最终得到250张视频帧和250个光流图片集，输入串流模型平均得分输出最终的分类结果。

1.数据预处理

将视频切分成视频帧，每帧图片通过切割翻转进行数据扩增可以生成10张图片，然后作为空间流模型的输入；

计算视频帧之间的光流信息生成水平方向和垂直方向的光流图片，将20张光流图片打包成一组，每组图片再进行切割翻转数据扩增可以生成10组图片，最后以此作为时间流的输入。

2.训练空间流模型

如图1所示，以ResNet50网络为基础构建迭代训练网络结构图；

loss_S1为S1网络的损失，loss_Fuse为融合网络的损失，loss_S2为S2网络的损失；

第一次训练时，固定S2网络(学习率置为0)，训练S1网络，此时的损失函数：

loss1＝λ*loss_S1+loss_Fuse，

第二次训练的时候，固定S1网络(学习率置为0)，训练S2网络，此时的损失函数：

loss2＝λ*loss_S2+loss_Fuse，

如此反复迭代训练直至loss1和loss2都趋于稳定。再以训练好的S1

S2网络为基础对整体网络进行微调，完成空间流模型的训练，此时的损失函数：

loss＝λ*loss_S1+λ*loss_S2+loss_Fuse。

以上三个损失函数中的λ都取0.3。

如图2所示，在微调分类器部分时，微调训练方式的选择如下。

表1空间流迭代融合阶段不同微调训练方法分类结果比较

从表1中，可以看出在所有微调方法中微调第五层残差块和全连接层的训练方法获得了最好的效果，它比只微调全连接层的训练方法高0.67％，比微调第四、五层残差块和全连接层的训练方法高1.04％，比最原始的ResNet50网络训练方法高1.21％。只微调全连接层可能对交替训练阶段所得互补特征的整合存在欠缺，而微调训练第四、五层残差块和全连接层可能因为微调太多层损失了较多高层语义互补特征，所以效果比只微调全连接层更差。微调第五层残差块和全连接层因为其在互补特征的整合上提供了更多的反馈，获得了最好的效果。所以在最终空间流模型的选取上，本发明选择了只微调第五层残差块和全连接层的空间流训练模型。

3.训练时间流模型

如图3所示，在基础卷积网络ResNet50前加了两个包含cccp层的cccp块。cccp层是卷积核大小为1*1的卷积层，通过对输入的每个通道特征图乘以一个可学习的系数将多通道特征叠加成一张特征图，实现跨通道信息的整合。构建一个更有利于提取时序特征的时间流网络；

以新构建的时间流网络为基础将数据预处理阶段处理好的光流图片组作为输入进行时间流的训练，得到时间流的训练模型。

本发明时间流cccp层卷积核个数的选择。

表2时间流实验结果

从表2的实验结果可以看出，cccp-ResNet50网络随着cccp层卷积核个数的增加，分类测试的准确率也在不断增加，当设定为128个时，整个网络的效果是最好的，较原始ResNet50网络的时间流模型在UCF101数据集第一种划分下精度提升了1.42％。而继续增加到256个时，可能因为模型过于复杂出现了过拟合，效果开始变差。所以在最终时间流模型的选取上，本发明选择设定cccp层卷积核个数为128。

4.组建串流深度网络模型

如图4所示，构建串流深度网络模型，将训练好的空间流模型作为基础分类模型(第一层)，时间流模型作为次级分类模型(第二层)，通过设置阈值的方法，判断是否存在空间特征模糊情况，然后选择是否进入第二层的时间流分类模型，否则直接根据空间流得分进行最后的动作分类。同样的，视频光流信息输入到时间流时，也根据时间流模型的分类得分进行融合的选择，如果进入时间流的视频分类得分也小于阈值时，表明待分类的这个视频时间特征和空间特征都不明显，这个时候则进入得分融合模型将空间流和时间流的得分进行相加再分类，否则直接根据时间流分类得分进行分类。

构建好串流深度网络模型后，就可以进行实际应用测试，将待分类的视频经过数据预处理阶段得到视频帧或是光流图片组，将之输入搭建好的串流模型进行最终的视频动作分类。

本发明最终模型与其他方法比较。

表3本发明方法与其他先进方法分类结果比较

本发明提出的方法与动作识别领域的其他先进方法的分类效果比较如表3所示，在UCF101数据集上进行测试，单流的逐层融合网络模型和三维卷积网络模型效果最差，双流网络模型也较本发明方法略差，联合三种特征的三流网络模型效果最佳。三流方法除了使用视频帧和光流图片作为输入的空间流和时间流外，还使用了以运动叠加差分图像作为输入的全局时间流,但是本发明提出的方法只使用了空间流和时间流，甚至在有些情况下只使用了单流信息，分类效率较高，本发明较同样使用视频帧和光流图片作为输入的双流网络模型效果更好、测试效率更高。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种用于视频动作识别的串流深度网络模型构建方法，包括以下步骤：

步骤(2)：将视频帧进行翻转切割数据扩增方法后输入到空间流网络进行训练，训练空间流网络时，以两个ResNet50网络S1和S2为基础进行融合构建迭代训练网络，迭代交替训练S1和S2之后再微调训练得到空间流网络模型；将水平和垂直方向上的光流图片各10张共20张光流图片堆叠成一组再进行翻转切割，然后输入时间流网络进行训练，训练时间流网络时，在ResNet50网络前增加两个包含1*1卷积核大小的卷积层cccp块作为训练网络进行训练得到时间流网络模型；