CN105160310A

CN105160310A - 基于3d卷积神经网络的人体行为识别方法

Info

Publication number: CN105160310A
Application number: CN201510527937.9A
Authority: CN
Inventors: 韩红; 焦李成; 叶旭庆; 张鼎; 王伟; 李阳阳; 马文萍; 王爽
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2015-08-25
Filing date: 2015-08-25
Publication date: 2015-12-16

Abstract

本发明公开了一种基于3D卷积神经网络的人体行为识别方法，主要用于解决计算机视觉和模式识别领域具体的人体行为的识别问题。其实现步骤为：(1)视频输入；(2)预处理，得到训练样本集和测试样本集；(3)构造3D卷积神经网络；(4)提取特征向量；(5)进行分类训练；(6)输出测试结果。本发明利用光流法实现对人体检测和运动估计，能够在不知道场景的任何信息的情况下，检测出运动对象。本发明在网络的输入为多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程，使得对人体行为的识别更加准确。

Description

基于3D卷积神经网络的人体行为识别方法

技术领域

本发明属于图像处理技术领域，更进一步涉及计算机视觉技术领域中的一种基于3D卷积神经网络的人类行为识别方法。本发明可用于智能监控***识别环境中人体的异常行为，本发明还可以用于体育训练中规范运动员动作。

背景技术

以前的人体行为识别方法都是基于一些对应用场景苛刻的假设上的，例如目标小的尺度变化和小的视觉改变等。但这在现实世界中是很难满足的。

目前，在这方面，大部分当前的方法都是遵循两个步骤：(1)在原始的输入中提取复杂的人工特征；(2)在获取的特征上学习分类器。

现实世界的场景中，几乎很难知道对于一个具体的任务什么样的特征才是重要的，因为特征的选择与具体的问题高度依赖。特别是行为识别上，不同的运动类型在外观和运动模型上都呈现出非常大的不同。

而卷积神经网络是人工神经网络的一种已成为当前语音分析和图像识别领域的研究热点，它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。

传统的卷积神经网络是为了识别二维形状而设计的多层感知器，无法对三维的运动图像进行多层感知，无法满足现在的要求。

青岛科技大学申请的专利“一种人体异常行为识别方法”(专利申请号201210254343，公开号CN102799873A)中公开了一种人体异常行为识别方法。该方法包括利用训练样本集获得分类器和分类模板的训练过程及利用分类器和分类模板识别测试样本的识别过程。首先对训练视频流逐帧计算每帧灰度图像中每个像素点的Hessian矩阵响应，然后根据矩阵响应确定特征点，用多维向量对特征点进行描述、获得描述符，并且对描述符进行聚类获得分类器，最后利用概率值向量获得异常行为模板。该专利申请公开的方法存在的不足是：当灰度图像序列对比度较低时，阈值难以选取，影响前景目标的分割结果；区域灰度值变化较为平坦时，容易在人体二值图像内产生空洞现象，给后续的目标分类、跟踪和识别造成不便；对于图像模糊、噪声等比较敏感，对环境要求高。

江南大学申请的专利“基于图像深度信息的3D高斯空间人体行为识别方法”(专利申请号201410009445，公开号CN103810496A)中公开了一种基于图像深度信息的3D高斯空间人体行为识别方法。该专利首先提取深度信息中的人体骨骼3D坐标并对其进行归一化操作，过滤对人体行为识别率低的关节及冗余关节，并针对各个行为构建兴趣关节群，基于高斯距离核对人体动作空间特征进行AP聚类，获得行为特征单词表并对其进行数据清理，从而构建人体行为条件随机场识别模型，据此实现对人体行为的分类。该专利申请公开的方法存在的不足是：在原始输入中提取的人工特征过于复杂，计算分析数据慢；模型的更新较为复杂，实时性较差。

Davis在其发表的论文“Therecognitionofhumanmovementusingtemporaltemplates.”(PatternAnalysisandMachineIntelligence,IEEETransactionson23(3):257-267)中提出了采用轮廓来描述人体的运动信息的方法。该方法用MEI和MHI两个模板来保存对应的一个动作信息，然后用马氏距离分类器来进行识别。MEI为运动能量图，用来指示运动在哪些部位发生过，MHI为运动历史图，除了体现运动发生的空间位置外还体现了运动的时间先后顺序。这两种特征都是从背景减图中获取的。该方法存在的不足之处是：数据比较大，计算量大；对于快速运动的物体或者形变较大的情况，跟踪效果不够理想。

发明内容

本发明的目的是克服上述现有技术中存在的不足，提出一种基于3D卷积神经网络的人体行为识别方法。本发明通过采用3D卷积神经网络技术解决人体行为的识别问题。将3D卷积神经网络模型用于运动识别。该模型可以从空间和时间的维度提取特征，进行3D卷积，以捕捉从多个连续帧得到的运动信息。

为实现上述目的，本发明具体实现步骤包括如下：

(1)视频输入：

将数据集的视频图像输入计算机，逐帧读取视频图像，得到图像信息；

(2)预处理：

(2a)从图像信息中筛选人体行为特征明显的图像，保存筛选后的图像；

(2b)将筛选后的图像大小统一到120×160像素中，得到统一大小后的图像；

(2c)分类标记图像信息，将统一大小后的图像均分为5份，1-4份作为训练样本集，第5份作为测试样本集，得到标记后的图像；

(3)构造3D卷积神经网络：

(3a)对标记后的图像，分别提取灰度、x和y方向的梯度、x和y方向的光流共计五个通道信息，得到图像提取后的灰度值；

(3b)按照下式，计算标记后的图像在x和y方向的梯度：

G＝dx(x,y)+dy(x,y)

其中，G表示标记后的图像在x和y方向上的梯度，dx表示在x方向上导数操作，dy表示在y方向上导数操作，(x,y)表示标记后的图像中像素点的坐标；

(3c)按照下式，计算图像提取后的灰度值的变化率：

\begin{matrix} I_{x} = \frac{\partial I}{\partial x}, & I_{y} = \frac{\partial I}{\partial y}, & I_{t} = \frac{\partial I}{\partial t} \end{matrix}

其中，I_x表示图像提取后的灰度值沿x方向的变化率，I_y表示图像提取后的灰度值沿y方向的变化率，I_t表示图像提取后的灰度值沿时间t方向的变化率，表示偏导数操作；

(3d)按照下式，计算标记后的图像在x和y方向的光流：

U = \frac{- I_{t}}{{(I_{x}, I_{y})}^{T}}

其中，U表示标记后的图像在x和y方向的光流，I_t表示图像提取后的灰度值沿时间t方向的变化率，I_x表示图像提取后的灰度值沿x方向的变化率，I_y表示图像提取后的灰度值沿y方向的变化率，T表示转置操作；

(3e)赋予标记后图像中的每一个像素点一个速度矢量，形成一个标记后图像运动场，在人体运动的时刻，标记后图像上的各个像素点与三维物体上的点一一对应；根据标记后图像上的各个像素点的速度矢量特征，对标记后图像进行动态分析，如果标记后图像中没有人体运动，则光流矢量在整个图像区域是连续变化的，当标记后图像中有人体运动时，目标和图像背景存在相对运动，从人体运动所形成不同的速度矢量和邻域背景速度矢量，检测出人体运动的位置；

(3f)对五个通道信息中的每个通道分离进行卷积和下采样操作，得到每一层卷积层和下采样层的特征图maps的大小；

(4)提取特征向量：

(4a)在第二层采样层中得到的64张大小为12×17像素的特征图maps，将每一张特征图map拉伸成一个向量，得到向量的维数为13056维的神经元；

(4b)通过普通神经网络进行降维，设定第一层全连接层的神经元个数为6528，则第二层全连接层的神经元个数为1000，得到的第二层神经元为图像的特征值；

(5)连接分类器，对特征向量进行分类训练：

(5a)采用线性分类器，对特征向量进行分类；

(5b)采用反向传播BP算法，对训练样本集进行在线训练，得到训练文件；

(6)输出测试结果：

将测试样本集在训练文件中进行测试，输出测试结果。

本发明与现有技术相比，具有以下优点：

第一，本发明通过3D卷积操作核去提取视频数据的时间和空间特征。这些3D特征提取器在空间和时间维度上操作，克服了现有技术中在原始输入中提取的人工特征过于复杂，计算分析数据慢的不足，使得本发明具有提取特征代表性性高和提取速度快的优点。

第二，本发明利用3D卷积特征提取器构造3D卷积神经网络。这个架构可以从连续视频帧中产生多通道的信息，克服了现有技术中区域灰度值变化较为平坦时，容易在人体二值图像内产生空洞现象的不足，使得本发明具有对环境的抗干扰性强的优点。

附图说明

图1是本发明的流程图；

图2是本发明3D卷积神经网络的架构图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步详细的描述。

结合附图1对本发明的具体步骤描述如下：

步骤1，视频输入。

将KTH数据集中walking,jogging,running,boxing,handwaving,handclapping六个视频文件中的视频图像输入计算机，逐帧读取视频图像，得到图像信息。

步骤2，预处理。

第1步，从图像信息中筛选人体行为特征明显的图像，保存筛选后的图像。观察每一种人体行为图像信息，手动删除没有人体出现的空白图像和出现人体的肢体少于人体整体三分之二的图像。

第2步，将筛选后的图像大小统一到120×160像素中，得到统一大小后的图像。

第3步，分类标记图像信息，将不同行为的图像所在文件夹分别用数字按顺序表示，将每个文件夹中的图片每连续10张图片作为一个动作的样本，将所有样本随机均分成5份，1-4份作为训练样本集，第5份作为测试样本集，得到标记后的图像。

步骤3，构造3D卷积神经网络。

第1步，对标记后的图像，分别提取灰度、x和y方向的梯度、x和y方向的光流共计五个通道信息，得到图像提取后的灰度值。

第2步，按照下式，计算标记后的图像在x和y方向的梯度：

G＝dx(x,y)+dy(x,y)

其中，G表示标记后的图像在x和y方向上的梯度，dx表示在x方向上导数操作，dy表示在y方向上导数操作，(x,y)表示标记后的图像中像素点的坐标。

第3步，按照下式，计算图像提取后的灰度值的变化率：

\begin{matrix} I_{x} = \frac{\partial I}{\partial x}, & I_{y} = \frac{\partial I}{\partial y}, & I_{t} = \frac{\partial I}{\partial t} \end{matrix}

其中，I_x表示图像提取后的灰度值沿x方向的变化率，I_y表示图像提取后的灰度值沿y方向的变化率，I_t表示图像提取后的灰度值沿时间t方向的变化率，表示偏导数操作。

第4步，按照下式，计算标记后的图像在x和y方向的光流：

U = \frac{- I_{t}}{{(I_{x}, I_{y})}^{T}}

其中，U表示标记后的图像在x和y方向的光流，I_t表示图像提取后的灰度值沿时间t方向的变化率，I_x表示图像提取后的灰度值沿x方向的变化率，I_y表示图像提取后的灰度值沿y方向的变化率，T表示转置操作。

第5步，通过计算得到的光流来检测人体的运动情况，具体操作步骤如下：

赋予标记后图像中的每一个像素点一个速度矢量，形成一个标记后图像运动场，在人体运动的时刻，标记后图像上的各个像素点与三维物体上的点一一对应；

根据标记后图像上的各个像素点的速度矢量特征，对标记后图像进行动态分析，如果标记后图像中没有人体运动，则光流矢量在整个图像区域是连续变化的，当标记后图像中有人体运动时，目标和图像背景存在相对运动，从人体运动所形成不同的速度矢量和邻域背景速度矢量，检测出人体运动的位置。

第6步，对五个通道信息中的每个通道分离进行卷积和下采样操作。

参照附图2，本发明对五个通道信息中的每个通道分离进行卷积和下采样具体步骤描述如下：

在图2中所标示第一层卷积层中，标记后的图像输入到一个大小为9×9×10像素的滤波器得到了一个特征图map，一个滤波器产生一张112×152像素的特征图map，用64个滤波器进行卷积，产生64张特征图maps。

在图2中所标示第一层采样层中，将上一层卷积层的特征图maps用2×2像素窗口进行采样操作，得到的特征图maps大小变为56×76×64像素；

在图2中所标示第二层卷积层中，将第一层采样层得到的特征经过64个大小为9×9×64像素的滤波器滤波得到64张大小为48×68×64像素的特征图maps；

在图2中所标示第二层采样层中，将第二层卷积层的特征图maps用4×4像素窗口进行采样操作，得到64张大小为12×17像素的特征图maps。

步骤4，提取特征向量。

第1步，在第二层采样层中得到的64张大小为12×17像素的特征图maps，将每一张特征图map拉伸成一个向量，得到向量的维数为13056维的神经元。

第2步，通过普通神经网络进行降维，设定第一层全连接层的神经元个数为6528，则第二层全连接层的神经元个数为1000，得到的第二层神经元为图像的特征值。

步骤5，对特征向量进行分类训练。

在步骤四得到图片的特征值后，需要连接一个分类器，此处的分类器为softmax分类器，可以实现多分类，一共含有6种运动图像，最终的输出神经元为6。采用反向传播BP算法，对训练样本集进行在线训练，得到训练文件。

BP算法的基本流程如下：随机初始化初始化网络权值和神经元的阈值；前向传播：按照公式一层一层的计算隐层神经元和输出层神经元的输入和输出；后向传播：根据公式修正权值和阈值；直到满足终止条件。

步骤6，输出测试结果。

将测试样本集在训练文件中进行测试，输出测试结果。将输出的测试结果与一些基准方法得到的测试结果进行比较，验证本方法的有效性。

Claims

1.一种基于3D卷积神经网络的人体行为识别方法，包括如下步骤：

(1)视频输入：

(2)预处理：

(3)构造3D卷积神经网络：

(3b)按照下式，计算标记后的图像在x和y方向的梯度：

G＝dx(x,y)+dy(x,y)

(3c)按照下式，计算图像提取后的灰度值的变化率：

\begin{matrix} I_{x} = \frac{\partial I}{\partial x}, & I_{y} = \frac{\partial I}{\partial y}, & I_{t} = \frac{\partial I}{\partial t} \end{matrix}

(3d)按照下式，计算标记后的图像在x和y方向的光流矢量：

U = \frac{- I_{t}}{{(I_{x}, I_{y})}^{T}}

其中，U表示标记后的图像在x和y方向的光流矢量，I_t表示图像提取后的灰度值沿时间t方向的变化率，I_x表示图像提取后的灰度值沿x方向的变化率，I_y表示图像提取后的灰度值沿y方向的变化率，T表示转置操作；

(3f)对五个通道信息中的每个通道分离进行卷积和下采样操作，得到每一层卷积层和采样层的特征图maps的大小；

(4)提取特征向量：

(5)进行分类训练：

(5a)采用线性分类器，对特征向量进行分类；

(6)输出测试结果：

将测试样本集在训练文件中进行测试，输出测试结果。

2.根据权利要求1所述的基于3D卷积神经网络的人体行为识别方法，其特征在于：步骤(2a)中所述的从图像信息中筛选人体行为特征明显的图像是指，观察每一种人体行为图像信息，手动删除没有人体出现的空白图像和出现人体的肢体少于人体整体三分之二的图像。

3.根据权利要求1所述的基于3D卷积神经网络的人体行为识别方法，其特征在于：步骤(2c)中所述的分类标记图像信息是指，将不同行为的图像所在文件夹分别用数字按顺序表示，每个文件夹中的图片每连续10张图片作为一个动作的样本。

4.根据权利要求1所述的基于3D卷积神经网络的人体行为识别方法，其特征在于：步骤(3f)中所述对五个通道信息中的每个通道分离进行卷积和下采样操作的具体步骤如下：

第1步，在第一层卷积层中，标记后的图像经过一个大小为9×9×10像素的滤波器得到了一个特征图map，一个滤波器产生一张112×152像素的特征图map，用64个滤波器进行卷积，产生64张特征图maps；

第2步，在第一层采样层中，将上一层卷积层的特征图maps用2×2像素窗口进行采样操作，得到的特征图maps大小变为56×76×64像素；

第3步，在第二层卷积层中，将第一层采样层得到的特征经过64个大小为9×9×64像素的滤波器滤波得到64张大小为48×68×64像素的特征图maps；

第4步，在第二层采样层中，将第二层卷积层的特征图maps用4×4像素窗口进行采样操作，得到64张大小为12×17像素的特征图maps。