CN111626178B

CN111626178B - 一种基于新时空特征流的压缩域视频动作识别方法和***

Info

Publication number: CN111626178B
Application number: CN202010445471.9A
Authority: CN
Inventors: 丁昊; 江凯华; 江小平; 石鸿凌; 李成华
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2020-05-24
Filing date: 2020-05-24
Publication date: 2020-12-01
Anticipated expiration: 2040-05-24
Also published as: CN111626178A

Abstract

本发明公开了一种利用新时空特征流的压缩域视频动作识别方法，包括：提取压缩视频序列中的I帧数据、P帧中的运动矢量数据和残差数据，并对该运动矢量数据和残差数据进行预处理。将预处理后运动矢量的双通道数据和预处理后残差的单通道数据分别作为R/G/B通道融合构建新时空特征图像并输入CNN卷积神经网络模型中训练和测试，以得到动作的识别种类分数。对于提取到的I帧数据和预处理后的运动矢量数据分别输入CNN卷积神经网络模型中训练和测试，以得到动作的识别种类分数，最后以比例2:1:1融合这三种数据的动作的识别种类分数得到最终的动作识别结果。本发明能解决现有视频动作识别方法中存在的识别准确率不高、计算过程繁杂的技术问题。

Description

一种基于新时空特征流的压缩域视频动作识别方法和***

技术领域

本发明属于深度学习和模式识别技术领域，更具体地，涉及一种基于新时空特征流的压缩域视频动作识别方法和***。

背景技术

伴随着人们对人工智能需求的不断增加，视频动作识别技术已成为计算机视觉的重要问题，其广泛地推动了人工智能的发展。

现有的视频动作识别方法主要包括以下四种，第一种是基于人工特征的视频动作识别，其主要是密集地提取和追踪光流中每个像素特征，对其编码后进行分类；第二种是基于双流的神经网络，其将视频分成空间和时间两个部分，分别将RGB图像和光流图像送入两支神经网络，并融合得到最终分类结果；第三种是基于三维卷积的神经网络，其针对视频将神经网络优化为三维卷积神经网络，以此来捕捉更多的时间和空间信息，并且得到了比较好的识别效果；第四种是基于压缩域的运动矢量数据和离散余弦变换(Discrete CosineTransform，简称DCT),系数，以梯度直方图、光流直方图和密集轨迹等方式构建简便的数学模型，最终得出预测结果。

然而，上述视频动作识别方法均存在一些不可忽略的技术问题，针对上述第一种方法而言，其对于小数据集和特定动作有一定的效果，但在处理大规模数据集时，密集轨迹的特征缺乏一定的灵活性和可扩展性，因此无法实现更实时、有效的分类；在上述第二种方法中，如果不使用光流，则其识别精度不高，如果使用光流，则其计算开销很大；在上述第三种方法中，三维卷积神经网络的数据计算量远远大于二维卷积神经网络的数据计算量，因而极大地占用了计算资源；上述第四种方法对于特定动作有识别效果，但是其普适性太低，且不能处理尺度变化问题，因此无法达到在一定的识别精度保障下正确识别多种动作的基本要求。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于新时空特征流的压缩域视频动作识别方法和***，其目的在于，解决现有视频动作识别方法中存在的上述技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于新时空特征流的压缩域视频动作识别方法，包括以下步骤：

(1)从压缩视频码流中随机获取多个I帧和P帧，并对所有I帧进行解码处理，以得到I帧流，即原始RGB帧集合；

(2)将步骤(1)得到的I帧流输入训练好的Resnet-152 2D卷积神经网络模型中，以得到该I帧流中每一个I帧对应动作的预判分数。提取步骤(1)得到的每一个P帧中的运动矢量和残差，所有P帧中的运动矢量和残差分别构成运动矢量流和残差流，并对每一个P帧中的运动矢量进行运动目标预提取，以得到该P帧对应的运动目标；

(3)使用累计算法对步骤(2)中得到的运动矢量流和残差流分别做累计处理，以分别得到累计运动矢量流和累计残差流。

(4)对步骤(3)得到的累计运动矢量流先后进行空间滤波处理和时间滤波处理，以得到预处理后的累计运动矢量流；

(5)使用步骤(3)得到的累计残差流和步骤(4)得到的预处理后的累计运动矢量流创建新时空特征流；

(6)将步骤(4)得到的预处理后的累计运动矢量流和步骤(5)创建的新时空特征流输入训练好的Densenet-121 2D卷积神经网络中，以分别得到预处理后的累计运动矢量流中每一个累计运动矢量对应动作的预判分数、以及新时空特征流中每一个时空特征对应动作的预判分数。

(7)将步骤(2)中得到的I帧流中每一个I帧对应动作的预判分数、该动作在步骤(6)得到的预处理后的累计运动矢量流中对应的预判分数、以及该动作在步骤(6)得到的新时空特征流中对应的预判分数按照其比例进行分数相加，从而得到每一个动作的最后得分，将最后得分中最高的动作作为最终识别的动作。

优选地，步骤(2)中使用的Resnet-152 2D卷积神经网络模型是通过以下过程训练得到的：

(a)获取公开的动作识别数据集HMDB-51和/或数据集UCF-101，并按照数据集的要求来划分训练集和测试集；

(b)根据训练集的标签，随机选取训练集中的一个视频，并将该视频的全部I帧以RGB图像的形式重新裁剪为256x340尺寸大小，并将裁剪后的全部I帧输入卷积神经网络；

(c)使用反向传播算法对卷积神经网络中每层的权重参数和偏置参数进行更新和优化，以得到更新后的卷积神经网络；

(d)对步骤(a)更新后的卷积神经网络进行迭代训练，直到该卷积神经网络的损失函数达到最小为止；

(e)使用步骤(a)得到的数据集中的测试集对迭代训练后的卷积神经网络进行迭代验证，直到得到的分类精度达到最优为止，从而得到训练好的卷积神经网络。

优选地，步骤(2)中，对每一个P帧中的运动矢量进行运动目标预提取，以得到该P帧对应的运动目标这一过程具体为：

首先，获取该P帧中的非边缘宏块(即该P帧中除了最上方、最下方、最左方、以及最右方以外的宏块)作为当前宏块，并设置一个N×N宏块大小的搜索窗口，其中N为正整数；

然后，计算搜索窗口中该当前宏块的运动矢量MV_Cur的模和与该当前宏块相邻的N²-1个宏块中每一个的运动矢量MV_i的模之间差的绝对值，然后将所有得到的绝对值相加并取均值，从而得到搜索窗口的阈值θ；

随后，统计上述得到的所有绝对值中小于θ的绝对值的总数α，以及该当前宏块相邻的(N²-1)个宏块中运动矢量不为零的宏块总数β，当α大于β/2，并且当前宏块运动矢量的模不为零时，将该中心宏块标记为运动目标；

然后，针对该P帧中的每一个剩余宏块，重复以上操作，直到该P帧的所有宏块都被处理完毕为止。

优选地，步骤(5)包括以下子步骤：

(5-1)对步骤(3)得到的累计残差流中每一帧的残差进行最大值灰度化处理，以得到该帧对应的灰度残差，累计残差流中所有帧的灰度残差构成灰度残差流；

(5-2)获取灰度残差流中一帧对应的灰度残差和步骤(4)预处理后的累计运动矢量流中该帧对应的运动矢量进行通道融合，以得到该帧对应的三通道新时空特；

(5-3)针对灰度残差流中剩余帧对应的灰度残差，重复上述步骤(5-2)，直至灰度残差流中的所有帧都被处理完毕为止，得到的所有三通道新时空特征组成新时空特征流。

优选地，三通道新时空特征

其中MV表示该帧的运动矢量，

表示该帧经过步骤(4)预处理后的累计运动矢量的大小，H表示该帧经过步骤(4)预处理后的累计运动矢量的高度，W表示该帧经过步骤(4)预处理后的累计运动矢量的宽度，GrayR表示该帧对应的灰度残差。

优选地，步骤(6)中使用的Densenet-121 2D卷积神经网络模型是通过以下过程训练得到的：

(a)采用公开的动作识别数据集HMDB-51和/或数据集UCF-101，并按照数据集的要求来划分训练集和测试集；

(b)根据训练集的标签，随机选取一个视频，并将对应视频重新裁剪为256x340尺寸大小后，输入卷积神经网络；

(c)使用密集连接算法对卷积神经网络中每层的权重参数和偏置参数进行更新和优化，以得到更新后的卷积神经网络；

按照本发明的另一方面，提供了一种基于新时空特征流的压缩域视频动作识别***，包括：

第一模块，用于从压缩视频码流中随机获取多个I帧和P帧，并对所有I帧进行解码处理，以得到I帧流，即原始RGB帧集合；

第二模块，用于将第一模块得到的I帧流输入训练好的Resnet-152 2D卷积神经网络模型中，以得到该I帧流中每一个I帧对应动作的预判分数。提取第一模块得到的每一个P帧中的运动矢量和残差，所有P帧中的运动矢量和残差分别构成运动矢量流和残差流，并对每一个P帧中的运动矢量进行运动目标预提取，以得到该P帧对应的运动目标；

第三模块，用于使用累计算法对第二模块得到的运动矢量流和残差流分别做累计处理，以分别得到累计运动矢量流和累计残差流。

第四模块，用于对第三模块得到的累计运动矢量流先后进行空间滤波处理和时间滤波处理，以得到预处理后的累计运动矢量流；

第五模块，用于使用第三模块得到的累计残差流和第四模块得到的预处理后的累计运动矢量流创建新时空特征流；

第六模块，用于将第四模块得到的预处理后的累计运动矢量流和第五模块创建的新时空特征流输入训练好的Densenet-121 2D卷积神经网络中，以分别得到预处理后的累计运动矢量流中每一个累计运动矢量对应动作的预判分数、以及新时空特征流中每一个时空特征对应动作的预判分数。

第七模块，用于将第二模块得到的I帧流中每一个I帧对应动作的预判分数、该动作在第六模块得到的预处理后的累计运动矢量流中对应的预判分数、以及该动作在第六模块得到的新时空特征流中对应的预判分数按照其比例进行分数相加，从而得到每一个动作的最后得分，将最后得分中最高的动作作为最终识别的动作。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)由于本发明采用了步骤(2)和步骤(5)，即在特征送入网络之前，对特征进行详细地特征预处理步骤，因此卷积神经网络对该特征的辨识度更高。

(2)由于本发明采用了步骤(2)的视频压缩域标准，其特征具有信息密度大、信息关联度高等特点，因此能够解决现有视频动作识别方法存在的不使用光流，则其识别精度不高，如果使用光流，则其计算开销很大的技术问题；

(3)由于本发明的方法中采用了步骤(3)、步骤(4)和步骤(5)，其运动矢量残差数据具有普适性，因此该方法可广泛适用于各类动作的基本识别；

(4)由于本发明的方法中采用了步骤(4)，其利用压缩视频中图像帧的运动矢量时间相关性和空间相关性，从而提升本发明对于利用若干图像帧完成动作识别的精度；

(5)本发明提取运动矢量和残差以及解码I帧都是在压缩域处理，采用的是部分解码操作，避免了视频完全解码和重构，这样可以提高***的处理效率，便于实时应用。

(6)本发明采样现有的神经网络模型，因此模型训练简单，且本发明方法在数据集HMDB-51和UCF-101上的实验结果比现有视频动作识别方法的实验结果更好。

附图说明

图1是本发明基于新时空特征流的压缩域视频动作识别方法的流程图；

图2是本发明方法的步骤(1)中得到的原始RGB帧；

图3是本发明方法的步骤(1)得到的每一个P帧中的运动矢量；

图4是本发明方法的步骤(1)得到的每一个P帧中的残差；

图5是本发明方法的步骤(5-1)处理后得到的帧对应的灰度残差；

图6是本发明方法的步骤(5-2)处理后得到的三通道新时空特征。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出了基于新时空特征流压缩域视频动作识别方法，其将计算机视觉和压缩域视频进行结合，提出了将传统压缩域预处理方法运用于深度学习，并创造了压缩域新时空特征流，使用较小参量的卷积神级网络模型作为分类器进行训练。

如图1所示，本发明提供了一种基于新时空特征流的压缩域视频动作识别方法，包括以下步骤：

(1)从压缩视频码流中随机获取多个I帧和P帧，并对所有I帧进行解码处理，以得到I帧流，即原始RGB帧集合(如图2所示)；

具体而言，本发明中的视频码流是MPEG4编解标准的视频码流。

(2)将步骤(1)得到的I帧流输入训练好的Resnet-152 2D卷积神经网络模型中，以得到该I帧流中每一个I帧对应动作的预判分数。提取步骤(1)得到的每一个P帧中的运动矢量(如图3所示)和残差(如图4所示)，所有P帧中的运动矢量和残差分别构成运动矢量流和残差流，并对每一个P帧中的运动矢量进行运动目标预提取，以得到该P帧对应的运动目标；

具体而言，I帧流对数据集的预判分数为训练好的Resnet-152 2D卷积神经网络模型对I帧流中每一个I帧对应的动作打多个预判分数，如数据集是HMDB51，则为每一个动作分别给出一个分数，每一个I帧对应的动作共有51个预判分数；如数据集是UCF101，则为每一个动作分别给出一个分数，每一个I帧对应的动作共有101个预判分数。

本步骤中使用的Resnet-152 2D卷积神经网络模型是通过以下过程训练得到的：

卷积神经网络的损失函数为标准分类交叉熵损失函数。

本步骤中，对每一个P帧中的运动矢量进行运动目标预提取，以得到该P帧对应的运动目标这一过程具体为，首先，获取该P帧中的非边缘宏块(即该P帧中除了最上方、最下方、最左方、以及最右方以外的宏块)作为当前宏块，并设置一个N×N宏块大小的搜索窗口，其中N为正整数(在本实施方式中，N＝3)；

然后，计算搜索窗口中该当前宏块的运动矢量(MV_Cur)的模和与该当前宏块相邻的N²-1个宏块中每一个的运动矢量(MV_i)的模之间差的绝对值，然后将所有得到的绝对值相加并取均值，从而得到搜索窗口的阈值θ，如以下公式(1)所示：

θ＝(∑(|MV_i|-|MV_Cur|))/(N²-1) (1)

然后，针对该P帧中的每一个剩余宏块，重复以上操作，一直到该P帧的所有宏块都被处理完毕为止。

对于运动矢量流中的非运动目标块，我们将其运动矢量值除以2；对于运动矢量流中的运动目标块，我们将其运动矢量值乘以2。本步骤获取运动目标的目的在于利用运动矢量的空间相关性，发现运动矢量流中哪些块是运动目标，那些块是运动干扰，减轻运动矢量流的部分噪声干扰。

具体而言，本步骤中使用的累计算法是2018年发表于《计算机视觉顶级会议》(即CVPR)中的论文“Compressed Video Action Recognition”(Chao-Yuan Wu,ManzilZaheer,Hexiang Hu and R.Manmatha等著)所公开的。

具体而言，本步骤中的空间滤波处理过程和时间滤波处理过程在基于“HEVC压缩视频监控的实时运动目标分割与分类的视频目标预处理方法”(即Real-Time MovingObject Segmentation and Classification from HEVC Compressed SurveillanceVideo.Liang Zhao,Zhihai He.In IEEE Transactions on Circuits and Systems forVideo Technology，DOI 10.1109/TCSVT.2016.2645616)一文中予以披露，在此不再赘述。

具体而言，本步骤包括以下子步骤：

(5-1)对步骤(3)得到的累计残差流中每一帧的残差进行最大值灰度化处理，以得到该帧对应的灰度残差(如图5所示)，累计残差流中所有帧的灰度残差构成灰度残差流；

(5-2)获取灰度残差流中一帧对应的灰度残差和步骤(4)预处理后的累计运动矢量流中该帧对应的运动矢量进行通道融合，以得到该帧对应的三通道新时空特征(如图6所示)；

具体而言，三通道新时空特征

其中MV表示该帧的运动矢量，

表示该帧经过步骤(4)预处理后的累计运动矢量的大小，H表示该帧经过步骤(4)预处理后的累计运动矢量的高度，W表示该帧经过步骤(4)预处理后的累计运动矢量的宽度，2表示其为双通道，GrayR表示该帧对应的灰度残差。

上述预处理后的累计运动矢量流中每一个累计运动矢量对应动作的预判分数以及新时空特征流中每一个时空特征对应动作的预判分数，与步骤(2)中I帧流对应的每一个测试视频的若干个预判分数预判分数的形式一样，在此不再赘述。

本步骤中使用的Densenet-121 2D卷积神经网络模型是通过以下过程训练得到的：

具体而言，卷积神经网络的损失函数为标准分类交叉熵损失函数。

(7)将步骤(2)中得到的I帧流中每一个I帧对应动作的预判分数、该动作在步骤(6)得到的预处理后的累计运动矢量流中对应的预判分数、以及该动作在步骤(6)得到的新时空特征流中对应的预判分数以比例2：1：1的方式进行分数相加(即I帧流的预判分数*2+预处理后的累计运动矢量流的预判分数*1+新时空特征流的预判分数*1)，从而得到每一个动作的最后得分，将最后得分中最高的动作作为最终识别的动作。

测试结果

将数据集HMDB-51、UCF-101分别输入到本方法训练好的卷积神经网络中，网络自动识别负载类别并给出识别结果。如下列表1和2所示，可以看出与本发明“背景技术”中提到的本领域常用的动作识别方法比较，本发明的识别准确率更高或者计算量更小。

其中CoViAR、DMC-Net(ResNet-18)以及DTMV-CNN是与本发明同属一类的方法，SSCV是本文背景技术中提到的第一种方法，ResNet-50、ResNet-152和Two-stream+Flow是本文背景技术中提到的第二种方法，Res3D和C3D是本文背景技术中提到的第三种方法，HOF+MBH是本文背景技术中提到的第四种方法。

将数据集HMDB-51、UCF-101分别输入到本方法训练好的卷积神经网络中，网络自动识别负载类别并给出识别结果。如上面的表1和表2所示，可以看出与本发明“背景技术”中提到的本领域常用的动作识别方法比较，本发明的识别准确率更高，计算量更小。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于新时空特征流的压缩域视频动作识别方法，其特征在于，包括以下步骤：

(2)将步骤(1)得到的I帧流输入训练好的Resnet-152 2D卷积神经网络模型中，以得到该I帧流中每一个I帧对应动作的预判分数；提取步骤(1)得到的每一个P帧中的运动矢量和残差，所有P帧中的运动矢量和残差分别构成运动矢量流和残差流，并对每一个P帧中的运动矢量进行运动目标预提取，以得到该P帧对应的运动目标；

(3)使用累计算法对步骤(2)中得到的运动矢量流和残差流分别做累计处理，以分别得到累计运动矢量流和累计残差流；

(5)使用步骤(3)得到的累计残差流和步骤(4)得到的预处理后的累计运动矢量流创建新时空特征流；步骤(5)包括以下子步骤：

(5-2)获取灰度残差流中一帧对应的灰度残差和步骤(4)预处理后的累计运动矢量流中该帧对应的运动矢量进行通道融合，以得到该帧对应的三通道新时空特征；

(5-3)针对灰度残差流中剩余帧对应的灰度残差，重复上述步骤(5-2)，直至灰度残差流中的所有帧都被处理完毕为止，得到的所有三通道新时空特征组成新时空特征流；

(6)将步骤(4)得到的预处理后的累计运动矢量流和步骤(5)创建的新时空特征流输入训练好的Densenet-121 2D卷积神经网络中，以分别得到预处理后的累计运动矢量流中每一个累计运动矢量对应动作的预判分数、以及新时空特征流中每一个时空特征对应动作的预判分数；

2.根据权利要求1所述的基于新时空特征流的压缩域视频动作识别方法，其特征在于，步骤(2)中使用的Resnet-152 2D卷积神经网络模型是通过以下过程训练得到的：

3.根据权利要求1所述的基于新时空特征流的压缩域视频动作识别方法，其特征在于，步骤(2)中，对每一个P帧中的运动矢量进行运动目标预提取，以得到该P帧对应的运动目标这一过程具体为：

随后，统计上述得到的所有绝对值中小于θ的绝对值的总数α，以及该当前宏块相邻的(N²-1)个宏块中运动矢量不为零的宏块总数β，当α大于β/2，并且当前宏块运动矢量的模不为零时，将该当前宏块标记为运动目标；

4.根据权利要求1所述的基于新时空特征流的压缩域视频动作识别方法，其特征在于，三通道新时空特征

其中MV表示该帧的运动矢量，

5.根据权利要求1所述的基于新时空特征流的压缩域视频动作识别方法，其特征在于，步骤(6)中使用的Densenet-121 2D卷积神经网络模型是通过以下过程训练得到的：

6.一种基于新时空特征流的压缩域视频动作识别***，其特征在于，包括：

第二模块，用于将第一模块得到的I帧流输入训练好的Resnet-152 2D卷积神经网络模型中，以得到该I帧流中每一个I帧对应动作的预判分数；提取第一模块得到的每一个P帧中的运动矢量和残差，所有P帧中的运动矢量和残差分别构成运动矢量流和残差流，并对每一个P帧中的运动矢量进行运动目标预提取，以得到该P帧对应的运动目标；

第三模块，用于使用累计算法对第二模块得到的运动矢量流和残差流分别做累计处理，以分别得到累计运动矢量流和累计残差流；

第五模块，用于使用第三模块得到的累计残差流和第四模块得到的预处理后的累计运动矢量流创建新时空特征流；第五模块包括：

第一子模块，用于对第三模块得到的累计残差流中每一帧的残差进行最大值灰度化处理，以得到该帧对应的灰度残差，累计残差流中所有帧的灰度残差构成灰度残差流；

第二子模块，用于获取灰度残差流中一帧对应的灰度残差和第四模块预处理后的累计运动矢量流中该帧对应的运动矢量进行通道融合，以得到该帧对应的三通道新时空特征；

第三子模块，用于针对灰度残差流中剩余帧对应的灰度残差，重复上述第二子模块，直至灰度残差流中的所有帧都被处理完毕为止，得到的所有三通道新时空特征组成新时空特征流；

第六模块，用于将第四模块得到的预处理后的累计运动矢量流和第五模块创建的新时空特征流输入训练好的Densenet-121 2D卷积神经网络中，以分别得到预处理后的累计运动矢量流中每一个累计运动矢量对应动作的预判分数、以及新时空特征流中每一个时空特征对应动作的预判分数；