CN113139467A

CN113139467A - 基于分级式结构的细粒度视频动作识别方法

Info

Publication number: CN113139467A
Application number: CN202110444382.7A
Authority: CN
Inventors: 杨旸; 杨文涛
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-20
Anticipated expiration: 2041-04-23
Also published as: CN113139467B

Abstract

基于分级式结构的细粒度视频动作识别方法，目标是实现视频中的细粒度动作识别，具体为双阶段过程：第一阶段识别某长时序视频中动作所属的大类类别，在此基础上第二阶段识别细粒度动作；具体步骤如下：第一步，数据分级处理及特征提取；第二步，视频表征特征提取；第三步，段间融合、双流融合及预测；第四步，细粒度动作特征提取；第五步，细粒度动作预测分类。本发明应用于细粒度动作分类中，能够有效地对细粒度视频动作完成识别分类。

Description

基于分级式结构的细粒度视频动作识别方法

技术领域

本发明涉及行为识别领域，具体涉及一种基于分级式结构的细粒度视频动作识别方法。

背景技术

行为识别算法是计算机视觉领域的一个基本的研究问题，其主要内容是分析视频中人类的行为，一般是对给定视频中人的动作进行分类。行为识别已应用于生活诸多方面，如社会监控、公共安全、人机交互以及智能家居等。目前已提出了许多行为识别算法，但如何获得更好的视频表征及更细致的细粒度动作识别，依旧是一个具有挑战性的工作。

在深度学习进入行为识别领域之前，表现最好的算法是密集轨迹法DT(DenseTrajectories)[1]和改进密集轨迹法iDT(improved Dense Trajectories)[2]。深度学习应用于行为识别领域的标志性工作是two stream(双流网络)[3]的提出。双流网络将视频处理为空间流(表征目标)和时序流(表征动作)，最后对双流融合得到分类结果。TSN(Temporal Segment Networks)[4]网络也是基于空间流时序流双流融合的方式，但它是多个网络并行运行的，最后进行段之间的融合及双流融合。除去双流思想外，3D网络也应用于行为识别中。如C3D(Convolutional 3D)网络[5]提出用3D ConvNets在大规模视频数据集训练来学习视频的时空特征，选取最佳的卷积核的尺寸3*3*3。使用C3D可以同时对外观和运动信息进行建模。另外还有基于骨架的行为识别方法，如利用时空图卷积网络进行行为识别[6]。此算法基于人类关节位置的时间序列表示而对动态骨骼建模，并将图卷积扩展为时空图卷积网络捕捉这种时空的变化关系。而细粒度动作由于在场景、服饰及姿态上都存在较高相似性，上述算法适用性不强，同时细粒度动作分类的算法相对较少。

[1]Heng Wang,Alexander

Cordelia Schmid,et al.Action Recognitionby Dense Trajectories.The IEEE Conference on Computer Vision and PatternRecognition(CVPR),2011,Colorado Springs,United States.pp.3169-3176.

[2]Wang H,Schmid C.Action Recognition with ImprovedTrajectories.Proceedings of the 2013 IEEE International Conference onComputer Vision.IEEE,2013.

[3]Simonyan K,Zisserman A.Two Stream Convolutional Networks forAction Recognition in Videos,Advances in neural information processingsystems,2014.

[4]Wang L,Xiong Y,Wang Z,et al.Temporal Segment Networks:Towards GoodPractices for Deep Action Recognition European Conference on Computer Vision2016.

[5]Tran D,Bourdev L,Fergus R,et al.Learning Spatio temporal Featureswith 3D Convolutional Networks.2015IEEE International Conference on ComputerVision(ICCV).

[6]Yan S,Xiong Y,Lin D.Spatial Temporal Graph Convolutional Networksfor Skeleton-Based Action Recognition.The IEEE Conference on Computer Visionand Pattern Recognition(CVPR),2018.

发明内容

为了解决上述细粒度行为识别中现有技术存在的问题，本发明提出了一种基于分级式结构的细粒度视频动作识别方法，视频数据首先分级式处理，随后通过提取的视频特征识别细粒度动作所属的大类类别，此过程中赋予空间流有更高的权重，最后在已知大类类别基础上完成细粒度动作识别，此过程赋予时序流更高的权重。

为达到以上目的，本发明采用如下技术方案：

基于分级式结构的细粒度视频动作识别方法，第一步，将长时序视频分级式数据处理，长时序视频分段后每段提取一帧RGB图像以及提取帧附近的光流信息；第二步，将长时序视频的多个视频帧及光流特征送入多个并行的双流网络进行特征提取，每个双流网络由空间流和时序流构成；第三步，多个并行网络进行段之间的融合，随后对空间流和时序流进行融合，融合时赋予空间流较高权重，融合信息经过预测函数输出视频动作的大类类别；第四步，完成大类动识别后对分级式数据处理得到的细粒度动作进行识别，在已知细粒度动作所属大类类别基础上，每段细粒度动作提取一帧图像及帧间光流信息输入双流网络；第五步，双流网络输出进行双流融合，融合时赋予时序流较高权重，经预测函数进行视频细粒度动作识别；双阶段的第一阶段包括第一步到第三步，第二阶段包括第四步到第五步。

所述将长时序视频分级式数据处理，其具体实施过程为：原始输入视频的数据处理是分级式的，某个完整动作的长时序视频采样多帧信息作为该视频的表征，包括多帧图像及帧间光流信息；随后将长时序动作视频分割为多个细粒度动作片段，每个视频片段包括一段细粒度动作，每段细粒度动作视频采样一帧信息作为当前细粒度动作视频片段的表征。

所述长时序视频的多个视频帧及光流特征送入多个并行的双流网络进行特征提取，其具体实施过程为：视频特征处理结构是分层次双阶段的，其中第一阶段处理长时序视频采样得到的多帧RGB图像及帧间光流信息，多个双流网络并行进行特征提取。

所述每段细粒度动作提取一帧图像及帧间光流信息输入双流网络，其具体实施过程为：视频特征处理结构是分层次双阶段的，其中第二阶段处理细粒度动作视频采样的一帧图像及光流信息，用单个网络进行特征提取。

所述多个并行网络进行段之间的融合，随后对空间流和时序流进行融合，融合时赋予空间流较高权重，其具体实施过程为：双阶段的空间时序融合时处理权重不同，第一阶段进行大类识别时多个并行网络段间融合后，空间特征相对时序特征在大类识别中占主要地位，对空间流时序流采用加权融合时空间流较时序流有更高权重。

所述双流网络输出进行双流融合，融合时赋予时序流较高权重，其具体实施过程为：双阶段的空间时序融合时处理权重不同，第二阶段进行细粒度动作识别时，由于空间信息相近，时序特征相对空间特征在细粒度动作识别中占主要地位，在空间流时序流采用加权融合过程中时序流较空间流有更高权重。

本发明与现有技术相比创新点如下：

由于细粒度人体动作往往在场景、服饰、姿态甚至运动轨迹上存在较高的相似性，传统的视频行为识别算法对细粒度动作分类效果并不理想。本发明提出了一种新的分级式双阶段的细粒度行为识别方法，在分级式数据处理及双阶段特征处理结构的基础上，第一阶段通过提取的视频特征识别细粒度动作所属的大类类别，此过程中赋予空间流有更高的权重；第二阶段在已知大类类别基础上完成细粒度动作识别，此过程赋予时序流更高的权重。相比于传统的行为识别算法用于细粒度动作识别，本发明能够达到更好的识别效果。

附图说明

图1为本发明双流网络的细粒度视频动作识别的方法流程图。

图2(a)表示提取某段视频的RGB帧，图2(b)为当前帧光流信息的水平分量，图2(c)为当前帧光流信息的垂直分量。

图3为分级式细粒度动作识别方法的双阶段的结构图。

图4为第一阶段大类类别识别的基本流程。

图5为第二阶段细粒度动作识别的基本流程。

具体实施方式

以下结合附图及具体实施对本发明作进一步的详细描述：

如图1所示，本发明基于分级式结构的细粒度视频动作识别方法，具体实现为双阶段过程：第一阶段识别某长时序视频中动作所属的大类类别，如射箭；在此基础上第二阶段识别细粒度动作，如射箭运动中的细粒度动作拉弓的过程。具体步骤如下：第一步，将长时序视频分级式数据处理，长时序视频分段后每段提取一帧RGB图像以及提取帧附近的光流信息；第二步，多个视频帧及光流特征送入多个并行的双流网络进行特征提取，每个双流网络由空间流和时序流构成；第三步，多个并行网络进行段之间的融合，随后对空间流和时序流进行融合，融合时赋予空间流较高权重，融合信息经过预测函数输出视频动作的大类类别；第四步，完成大类动识别后对分级式数据处理得到的细粒度动作进行识别，在已知细粒度动作所属大类类别基础上，每段细粒度动作提取一帧图像及帧间光流信息输入双流网络；第五步，双流网络输出进行双流融合，融合时赋予时序流较高权重，经预测函数进行视频细粒度动作识别。

本发明基于分级式结构的细粒度视频动作识别方法整体双阶段过程如图3所示。第一阶段包括第一步到第三步，具体框架结构如图4所示；第二阶段包括第四步到第五步，具体框架如图5所示。以下详细介绍每一步的具体过程。

第一步：数据分级处理及特征提取

首先视频数据分级处理，对长时序视频进行细粒度划分得到构成长时序视频的各个细粒度动作片段。在对长时序视频建模采样特征帧时，太小的采样率会使得提取的特征不能完全包含行为识别所需要的信息，过大的采样率会导致特征信息冗余，提高计算复杂度。因此采用稀疏采样的方法，将视频按时长等分为几个独立的视频片段，具体而言将一段视频分为K个片段，记为{S₁,S₂,…,S_k}，对每个片段随机采样得到RGB帧，以此表征视频的空间信息；基于上述采样得到的视频帧获得当前帧及其附近帧的光流信息，以此表征视频的运动信息。对所有K个片段处理后得到每段视频的表征，记为{T₁,T₂,…,T_k}，每个元素包含该段视频的空间特征和时序运动特征。图2(a)、图2(b)和图2(c)即为提取到的视频表征，其中图2(a)表示提取的RGB帧，图2(b)为光流信息的水平分量，图2(c)为光流信息的垂直分量。

第二步：视频表征特征提取

将步骤1提取到的视频表征输入到多个并行的双流网络，每个双流网络由时序流和空间流两条分支构成。其中视频的空间特征，即RGB帧信息输入空间流进行特征提取；视频的时序特征，即光流信息输入时序流进行特征提取。具体表示为：将具有参数为w的网络作用于片段T_k后输出网络的分数，记为F(T_k,w)。

第三步：段间融合、双流融合及预测

经步骤2得到多个视频片段提取到的特征后，采用聚合函数将多个片段间的网络预测分数进行融合，具体表示为：

G＝G(F(T₁,w),F(T₂,w),…,F(T_k,w)) (1)

其中G为多个视频段之间的聚合函数，具体形式采用平均池化函数，对分属于同一类的网络输出分数取平均作为当前类的最后网络得分。同时网络采用变体交叉熵损失函数，定义为：

其中，y为真值，G为多个视频段之间的聚合函数，C为类别数，下标i,j为类别索引。

得到空间流和时序流分别的类别预测分数后进行双流融合，以此得到每个大类的类别预测分数具体采用加权平均的形式，由于此步骤旨在进行大类识别，为实现不同大类之间区分采用给予空间流较高权重的策略，具体表示为空间流比时序流权重为2:1。在得到类别预测分数基础上采用预测函数H对每个类进行概率预测，H的形式具体采用通用的softmax函数。

第四步：细粒度动作特征提取

在步骤3已经得到细粒度动作所属大类类别的条件下，对数据分级处理得到的细粒度动作进行类似操作，提取细粒度动作片段的单一视频帧及帧间光流，以此表征空间目标信息及时序运动信息，输入双流网络进行特征提取。基础特征提取网络为BN-Inception块，以此加快收敛及抑制过拟合，同时引入dropout操作；为解决细粒度动作数据量相对少的情况采用了数据扩充的操作，包括随机裁剪、水平翻转、边角裁剪和多尺度裁剪。

第五步：细粒度动作预测分类

经过步骤4得到细粒度动作的双流网络输出后进行双流间的融合，考虑到细粒度动作在空间背景及目标外观特征相似的情况下，时序流包含的运动信息是区分细粒度动作的关键，因此对双流融合进行加权平均是给予时序流更高的权重，具体为空间流比时序流权重为1:2。双流融合后由预测函数softmax进行概率预测，以此输出最终细粒度动作类别。

Claims

1.基于分级式结构的细粒度视频动作识别方法，其特征在于：细粒度动作识别由双阶段构成，第一阶段识别大类类别，第二阶段在第一阶段基础上识别细粒度动作；具体为：第一步，将长时序视频分级式数据处理，长时序视频分段后每段提取一帧RGB图像以及提取帧附近的光流信息；第二步，将长时序视频的多个视频帧及光流特征送入多个并行的双流网络进行特征提取，每个双流网络由空间流和时序流构成；第三步，多个并行网络进行段之间的融合，随后对空间流和时序流进行融合，融合时赋予空间流较高权重，融合信息经过预测函数输出视频动作的大类类别；第四步，完成大类动识别后对分级式数据处理得到的细粒度动作进行识别，在已知细粒度动作所属大类类别基础上，每段细粒度动作提取一帧图像及帧间光流信息输入双流网络；第五步，双流网络输出进行双流融合，融合时赋予时序流较高权重，经预测函数进行视频细粒度动作识别；双阶段的第一阶段包括第一步到第三步，第二阶段包括第四步到第五步。

2.根据权利要求1所述的基于分级式结构的细粒度视频动作识别方法，其特征在于：第一步中所述将长时序视频分级式数据处理，具体为：原始输入视频的数据处理是分级式的，某个完整动作的长时序视频采样多帧信息作为该视频的表征，包括多帧图像及帧间光流信息；随后将长时序动作视频分割为多个细粒度动作片段，每个视频片段包括一段细粒度动作，每段细粒度动作视频采样一帧信息作为当前细粒度动作视频片段的表征。

3.根据权利要求1所述的基于分级式结构的细粒度视频动作识别方法，其特征在于：第二步中所述将长时序视频的多个视频帧及光流特征送入多个并行的双流网络进行特征提取，具体为：视频特征处理结构是分层次双阶段的，其中第一阶段处理长时序视频采样得到的多帧RGB图像及帧间光流信息，多个双流网络并行进行特征提取。

4.根据权利要求1所述的基于分级式结构的细粒度视频动作识别方法，其特征在于：第四步中所述每段细粒度动作提取一帧图像及帧间光流信息输入双流网络，具体为：视频特征处理结构是分层次双阶段的，其中第二阶段处理细粒度动作视频采样的一帧图像及光流信息，用单个网络进行特征提取。

5.根据权利要求1所述的基于分级式结构的细粒度视频动作识别方法，其特征在于：第三步中所述多个并行网络进行段之间的融合，随后对空间流和时序流进行融合，融合时赋予空间流较高权重，具体为：双阶段的空间时序融合时处理权重不同，第一阶段进行大类识别时多个并行网络段间融合后，空间特征相对时序特征在大类识别中占主要地位，对空间流时序流加权融合时空间流较时序流有更高权重。

6.根据权利要求1所述的基于分级式结构的细粒度视频动作识别方法，其特征在于：第五步中所述双流网络输出进行双流融合，融合时赋予时序流较高权重，具体为：双阶段的空间时序融合时处理权重不同，第二阶段进行细粒度动作识别时，由于空间信息相近，时序特征相对空间特征在细粒度动作识别中占主要地位，在空间流时序流采用加权融合过程中时序流较空间流有更高权重。