CN109829443B

CN109829443B - 基于图像增强与3d卷积神经网络的视频行为识别方法

Info

Publication number: CN109829443B
Application number: CN201910134439.6A
Authority: CN
Inventors: 黄江平; 袁德森; 袁书伟; 黄啸锐; 刘婉莹
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-02-23
Filing date: 2019-02-23
Publication date: 2020-08-14
Anticipated expiration: 2039-02-23
Also published as: CN109829443A

Abstract

本发明属于图像处理技术领域，具体涉及基于图像增强和3D卷积神经网络的视频行为识别方法，包括将输入的原始视频序列切分成帧，对各个帧图片进行预处理，并将其分别划分至训练集与测试集；将训练集图片输入行为区域增强网络进行训练，获得相应的掩码处理后图片；使用掩码处理后的图片序列训练3D卷积神经网络；输入测试集图片，获得该分支网络的测试集分类概率；将训练集图片输入3D卷积神经网络进行训练；输入测试集图片，得到该分支网络的测试集分类概率；将两分支网络的分类概率进行支持向量机模型训练，并得到最终的测试集检测结果。本发明能够准确并实时识别出视频中人物的行为，且更加充分的利用图像信息，提高视频中行为识别的准确率。

Description

基于图像增强与3D卷积神经网络的视频行为识别方法

技术领域

本发明属于多媒体与计算机视觉技术领域，涉及一种基于图像增强与3D卷积神经网络的视频行为识别方法。

背景技术

行为识别是近年来计算机视觉和多媒体领域的研究热点和基石，在安防，人机交互，智能家居和虚拟现实等领域均有广泛的应用前景。在实际情况中，行为识别往往是以实时的视频或监控为载体，提供实时的人物行为的识别检测，这在给人们带来便捷的同时，也对识别的精确度和实时性速率提出了更高的要求。目前，行为识别的难点主要有两个：光流计算复杂导致实时性较差，行为识别的精确度有待提高。

目前，行为识别技术的主流方法有两种，分别是双流法和3D卷积神经网络方法。其中，双流法需要计算复杂的光流信息作为预先训练的数据样本，往往需要长达一天的计算时间和大量的硬盘存储空间，同时还需要提取视频的红R、绿G、蓝B的RGB信息。因此，双流法的计算需求导致不能达成实时性的识别需要。而3D卷积神经网络的方法在直接使用视频的RGB信息进行训练的前提下，往往效果会比双流法差一点。原始的视频所携带的RGB信息在未经处理的情况下，可能会导致无法采集行为识别所需要的部分显著性特征，一些行为实体的细粒度纹理信息不能很好的进行提取利用。

发明内容

有鉴于此，由于输入的视频同时具有时间和空间信息，经过神经网络和计算之后，特征会分别得到不同的增强。因此，同样的原始视频，在经过光流法提取后和直接使用原始视频进行训练的效果是不同的。因此，视频的细节信息和色彩信息对于行为识别技术是极为关键的特征。因而，申请人提供了一种基于图像增强与3D卷积神经网络的视频行为识别方法，图像增强过后的视频可以很好地描述人物实体行为特征，局部色彩特征信息是识别人物动作重要纹理特征；结合图像增强方法和3D卷积神经网络来达到高准确性，实时地实现行为识别。

为达到上述目的，本发明提供如下技术方案：

基于图像增强与3D卷积神经网络视频行为识别方法，包括以下步骤：

S1：将输入的原始视频序列切分成帧，对各个帧图片进行预处理，并将其分别划分至训练集与测试集；

S2：将训练集图片输入行为区域增强网络进行训练，获得相应的掩码处理后图片，从而得到人物行为信息增强的图像；

S3：使用掩码处理后的图片序列训练3D卷积神经网络；输入测试集图片，获得该分支网络的测试集分类概率；

S4：将训练集图片输入3D卷积神经网络进行训练；输入测试集图片，得到该分支网络的测试集分类概率；

S5：将所得到的两分支网络的分类概率进行支持向量机模型训练，并得到最终的测试集检测结果。

进一步的，步骤S1所述视频或图像预处理，具体包括：

将原始视频序列按照时间顺序切分成帧，即切分为时间上连续分布的图片序列；将切分好的图片序列调整为适合3D卷积神经网络训练的统一图片格式。

进一步的，步骤S2训练特征提取卷积神经网络，具体包括：

对图片序列中的人物行为区域进行掩码处理，增强图片中的行为动作信息；将图片序列当中的动作区域进行识别，并进行像素级标注处理，利用图像处理方法得到目标图片；将切分完成的原始视频帧图片序列输入行为区域增强网络进行训练，以最小化行为区域增强网络的损失函数为目标，进行像素级的分类和掩码处理，获得相应的掩码处理后图片，从而得到人物行为信息增强的图像。

所述行为区域增强网络的损失函数计算包括：

Loss＝L_cls+L_seg

其中，Loss表示总损失函数，L_cls表示分类的损失函数，L_seg表示切分的损失函数，CE(θ)表示交叉熵损失函数，y_i表示第i个训练集图片的标签，N表示训练集图像的总数；

表示估计值，即预测出的标签。

进一步的，步骤S3训练3D卷积神经网络，具体包括：

输入的掩码图片序列色彩空间为红R、绿G、蓝B，其中掩码部分的颜色为统一的颜色。将掩码图片序列按照输入格式统一标准化处理，并输入到3D卷积神经网络中，进行训练，获取该图片序列在时间序列上和空间序列的双重信息。通过3D卷积与3D池化，经过全连接层和Softmax层，搭建得到分类网络，从而得到各行为分类概率。

进一步的，训练另一支3D卷积神经网络，步骤S4具体包括：

将训练集图片直接输入进3D卷积神经网络并训练该卷积神经网络，依次经过3D卷积，3D池化，全连接层和Softmax层，得到其特征图和在时间序列上和空间序列的双重信息；输入测试集图片，得到测试集的分类概率；其中，该3D卷积神经网络中第I层卷积核表示为W_I×H_I×X_I，X_I为第I层中输入的图片序列数，W_I×H_I对应为第I层空间中的长宽大小。

进一步的，步骤S5具体包括：

步骤S5具体包括获取两分支神经网络的训练后测试集分类概率，总神经网络的两分支依次为经过图像增强的3D卷积神经网络和原始图片训练而得的3D卷积神经网络；将分类的概率进行支持向量机模型的训练；支持向量机模型通过各个分类概率与对应标签进行学习，得到最优权重，最终识别概率计算方式包括：

其中：P为样本的最终预测概率，

为第I个样本在第一分支上的概率，

为第I个样本在第二分支上的概率，w₁和w₂分别为训练支持向量机模型得到的最优权重；取输出概率最大的类别作为每个样本的最终识别结果。

可选的，所述最优权重的获取方式还包括根据权重融合获取最终概率，其中，权重融合的方法包括最大值融合，最小值融合和平均值融合。

通过上述方法，取输出概率最大的类别作为每个样本图像的最终识别结果。

本发明的有益效果在于：

1)本发明提出一种基于图像增强和3D卷积神经网络的视频行为识别算法，该方法能够准确并实时识别出视频中人物的行为。

2)本方法同时对原始视频的图像色彩特征进行增强并提取行为信息，更加充分的利用图像信息，提高视频中行为识别的准确率。

3)本发明通过采用支持向量机模型，对各个分类概率与对应标签进行学习，得到最优权重，从而获取最终的识别结果；该过程具有良好的鲁棒性。

附图说明

图1为本发明整体流程示意图；

图2为本发明中行为区域增强网络结构示意图；

图3为本发明中采用的3D卷积神经网络结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

如图1所示，本发明基于图像增强和3D卷积神经网络的视频行为识别方法具体包括以下步骤：

实施例1

本实施例将结合具体数据对本发明进行进一步的说明，本实施例使用的数据集共有133200段视频，包含共计101种动作，视频总时长达数十小时，每段视频的长度在10s左右。

S11：对所有输入的133200段视频进行切分成帧，按照输入规格进行图片格式预处理，并划分训练集与测试集；

所述预处理是指从133200段视频序列中按时间顺序对视频逐帧进行切分，并按照输入格式的长宽进行重新规范化处理，例如要求每一帧图片均为“jpg”格式，其长宽为128乘以171；裁剪出每一帧的图片。

S21：对将切分完成的原始视频帧图片序列输入行为区域增强网络进行训练，获得相应的掩码处理后图片，从而得到人物行为信息增强的图像；

图像掩码主要用于对图片或视频当中局部信息进行特殊化处理，可以实现对图像信息的局部增强或屏蔽。本发明中使用掩码信息来对视频中的人物实体动作进行局部的信息增强，并提取不规则的感兴趣区域。

进一步的，作为一种优选方式，本实施例中所采用的是二值掩码图，一种8位的单通道图像。其中，在掩码图片的编码中某个位置被编码为0，则在此位置的操作将会被屏蔽，被编码为1的部分则会被增强。

进一步的，本实施例中使用的行为区域增强网络模型如图2所示，共有14个卷积层，5个全连接层，1个上采样层以及6个池化层和1个反池化层。行为区域增强网络能很好的提取行为部分的特征，对于行为识别信息的细纹理特征有很好的辅助作用。

S31：使用处理后的掩码视频帧图片序列训练3D卷积神经网络，获得该分支网络的测试集分类概率；

输入的掩码图片序列色彩空间为红R、绿G、蓝B，其中掩码部分的颜色为统一的颜色。将掩码图片序列按照输入格式统一处理，并输入到3D卷积神经网络中，进行训练，获取图片序列在时间序列上和空间的双重信息。通过3D卷积与3D池化，经过全连接层和Softmax层，构建分类网络，从而得到各行为分类的概率。

作为一种可选方式，本实施例使用的3D卷积神经网络模型如图3所示，共有8个卷积层，6个池化层和1个全连接层以及Softmax层。该网络模型的输入为处理后的视频帧序列，输出为行为识别的分类概率。

S41：将切分完成的原始视频帧图片序列输入3D卷积神经网络进行训练，并得到该分支网络的测试集分类概率；

将原始的图片序列直接输入进3D卷积神经网络并训练该神经网络，依次经过卷积，池化，全连接层和Softmax层，得到特征图和时间空间信息，并得到测试集的分类概率。该3D卷积神经网络中第I层卷积核表示为W_I×H_I×X_I，X_I为第I层中输入的图片序列数，W_I×H_I对应为第I层空间中的长宽大小。此处的3D卷积神经网络模型具体结构见图3。

S51：将所得到的两分支网络的分类概率进行SVM模型训练，并得到最终的测试集检测结果。

获取两分支神经网络的训练后测试集分类概率，总神经网络的两分支依次为经过图像增强的3D卷积神经网络和原始训练集图片训练而得的3D卷积神经网络。将分类的概率进行SVM模型的训练或权重融合来获取最终概率，其中，权重融合的方法类似有最大融合，最小融合和平均值融合等。

本实施例中，通过采用SVM模型的训练，获得最终概率；SVM模型法通过分类概率与对应标签进行学习，得到最优权重，最终识别概率计算方式为：

其中：P为样本的最终预测概率，

为第I个样本在第一分支上的概率，

为第I个样本在第二分支上的概率，w₁和w₂分别为训练SVM模型得到的最优权重。通过上述方法，取输出概率最大的类别作为每个样本的最终识别结果。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于图像增强和3D卷积神经网络的视频行为识别方法，其特征在于，包括以下步骤：

S3：使用掩码处理后的图片序列训练第一3D卷积神经网络；输入测试集图片，获得第一分支网络的测试集分类概率；

S4：将训练集图片输入第二3D卷积神经网络进行训练；输入测试集图片，得到该第二分支网络的测试集分类概率；

2.根据权利要求1所述的基于图像增强和3D卷积神经网络的视频行为识别方法，其特征在于：步骤S1包括将原始视频序列按照时间顺序切分成帧，即切分为时间上连续分布的图片序列；将切分好的图片序列调整为适合3D卷积神经网络训练的统一图片格式。

3.根据权利要求1所述的基于图像增强和3D卷积神经网络的视频行为识别方法，其特征在于：步骤S2具体包括对图片序列中的人物行为区域进行掩码处理，增强图片中的行为动作信息；将图片序列当中的动作区域进行识别，并进行像素级标注处理，利用图像处理方法得到目标图片；将切分完成的原始视频帧图片序列输入行为区域增强网络进行训练，以最小化行为区域增强网络的损失函数为目标，进行像素级的分类和掩码处理，获得相应的掩码处理后图片，从而得到人物行为信息增强的图像。

4.根据权利要求3所述的基于图像增强和3D卷积神经网络的视频行为识别方法，其特征在于：所述行为区域增强网络的损失函数计算包括：

Loss＝L_cls+L_seg

表示估计值，即预测出的标签。

5.根据权利要求1所述的基于图像增强和3D卷积神经网络的视频行为识别方法，其特征在于：步骤S3具体包括输入的掩码图片序列色彩空间为红R、绿G、蓝B，其中掩码部分的颜色为统一的颜色；将掩码图片序列按照输入格式统一标准化处理，并输入到3D卷积神经网络中，进行训练，获取该图片序列在时间序列上和空间序列的双重信息；通过3D卷积与3D池化，经过全连接层和Softmax层，构建分类网络，从而得到各行为分类的概率。

6.根据权利要求1所述的基于图像增强和3D卷积神经网络的视频行为识别方法，其特征在于：步骤S4具体包括将训练集图片直接输入进3D卷积神经网络并训练该卷积神经网络，依次经过3D卷积，3D池化，全连接层和Softmax层，得到其特征图和在时间序列上和空间序列的双重信息；输入测试集图片，得到测试集的分类概率；其中，该3D卷积神经网络中第I层卷积核表示为W_I×H_I×X_I，X_I为第I层中输入的图片序列数，W_I×H_I对应为第I层空间中的长宽大小。

7.根据权利要求1所述的基于图像增强和3D卷积神经网络的视频行为识别方法，其特征在于：步骤S5具体包括获取两分支神经网络训练后的测试集分类概率，总神经网络的两分支依次为经过图像增强的3D卷积神经网络和原始图片训练而得的3D卷积神经网络；将分类的概率进行支持向量机模型的训练或根据权重融合来获取最终概率；所述权重融合的方法包括最大值融合，最小值融合和平均值融合；支持向量机模型法通过各个分类概率与对应标签进行学习，得到最优权重，最终识别概率计算方式包括为：

其中，P为样本的最终预测概率，

为第I个样本在第一分支上的概率，即使用掩码处理后的图片序列训练3D卷积神经网络分支；

为第I个样本在第二分支上的概率，即使用训练集图片训练3D卷积神经网络分支；w₁和w₂分别为训练支持向量机模型得到的最优权重；取输出概率最大的类别作为每个样本的最终识别结果。