CN110598598A

CN110598598A - 基于有限样本集的双流卷积神经网络人体行为识别方法

Info

Publication number: CN110598598A
Application number: CN201910812117.2A
Authority: CN
Inventors: 赵明华; 周童童; 董博源; 石争浩; 胡静
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-12-20

Abstract

本发明公开了一种基于有限样本集的双流卷积神经网络人体行为识别方法，首先建立取样样本；对样本进行划分和预处理，得到即将处理的单帧视频片段和视频帧彩色光流图，然后改进双流卷积神经网络，将单帧原始图像输入到空间流卷积神经网络，用于学习视频中物体的空间特征；再将多帧光流图堆叠在一起输入到时间流卷积神经网络，用于学习视频中行为的时间特征；最后对其进行网络训练和测试；从而分别得到空间流卷积神经网络和时间流卷积神经网络对当前行为的预测标签概率特征，然后进行空间和时间的得分特征融合，最后通过综合特征判断输出识别结果。本发明解决了现有技术中存在的人体行为识别技术人力、物力耗费量大，且识别结果差的问题。

Description

基于有限样本集的双流卷积神经网络人体行为识别方法

技术领域

本发明属于图像处理方法技术领域，具体涉及一种基于有限样本集的双流卷积神经网络人体行为识别方法。

背景技术

从古至今，人体行为动作在人们的交谈过程中扮演重要组成部分，通过他人的行为动作可以更加清楚的理解他人的信息反馈。随着计算机技术的迅猛发展及监控设备的飞速普及，促使人体行为识别技术发挥着越来越重要的作用。现有的传统人体行为识别技术不仅需要耗费大量的人力、物力，而且识别结果往往不尽人意。

鉴于以上种种原因，如何精确的完成特征提取，并且将其适当划分类别，从而得到好的识别效果，成为当前急需解决的一个问题。

发明内容

本发明的目的是提供一种基于有限样本集的双流卷积神经网络人体行为识别方法，解决了现有技术中存在的人体行为识别技术人力、物力耗费量大，且识别结果差的问题。

本发明所采用的技术方案是，基于有限样本集的双流卷积神经网络人体行为识别方法，具体按照以下步骤实施：

步骤1、建立取样样本；

步骤2、对步骤1中的样本进行划分和预处理，得到即将处理的单帧视频片段和视频帧彩色光流图。

步骤3、改进双流卷积神经网络，双流卷积神经网络是由空间流卷积神经网络和时间流卷积神经网络组成，它们具有相似的结构，将步骤2中得到的单帧原始图像输入到空间流卷积神经网络，用于学习视频中物体的空间特征；再将步骤2中得到的多帧光流图堆叠在一起输入到时间流卷积神经网络，用于学习视频中行为的时间特征；

步骤4、对双流卷积神经网络做出改进后，对其进行网络训练和测试；从而分别得到空间流卷积神经网络和时间流卷积神经网络对当前行为的预测标签概率特征，然后进行空间和时间的得分特征融合，最后通过综合特征判断输出识别结果。

本发明的特点还在于，

步骤1具体如下：

样本共采集25人，累计600个视频序列，600个视频序列分别包含6个类别，每个类别4种情境，其中3种室外情境，1种室内情境，视频规格为：160*120，25fps。

步骤2具体如下：

将步骤1中每条视频均分割为3～4个完整片段，总计2391个行为片段，随机抽取其中16人的行为片段组成训练集，其余9人组成测试集，依次求得每个视频片段的帧图像，再利用Horn-Schunck光流法获得视频帧的彩色光流图，并且将图片的尺寸调整为80×60大小。

步骤3具体按照以下步骤实施：

步骤3.1、使用Maxout函数替换原来双流卷积神经网络中的ReLU函数，此时在神经网络的隐含层之间加入一个“内置隐含层”，从而增加k个节点，计算当前隐含层中第i个神经元值，公式表示为(1)所示：

其中，h_i(x)的值表示当前隐含层中第i个神经元的值，k值表示当前隐含层中的节点个数，当前隐含层中的第i个神经元对应k个节点，所以z_ij表示内置隐含层中第i个神经元的第j个节点，其计算表达式如公式(2)所示：

z_ij＝XW_...ij+b_ij (2)

其中，X表示大小为1×d的输入矩阵，W表示大小为d×m×k三维矩阵，b表示大小为m×k的偏置值矩阵，d为前一隐含层中神经元的个数，m为当前隐含层中神经元的个数，k为内置隐含层中节点的个数，W_...ij表示前一隐含层到当前隐含层中第i个神经元所对应的内置隐含层中第j个节点的一组权值，b_ij表示当前层的第i个神经元所对应的内置隐含层中第j个节点上的偏置值；

步骤3.2、使用Stochastic Pooling池化方法代替原来的MaxPooling池化方法，为步骤2中所得的单帧图像和光流图的每个像素值计算对应的概率值并以此值设定池化窗口，概率值的计算如公式(3)所示：

其中，value(i,j)表示第i行第j列的像素值，M、N表示池化窗口覆盖区域的尺寸；

步骤3.3、利用上述(3)式计算出步骤2中所有单帧视频片段和视频帧彩色光流图的特征图中待池化区域的概率值，最终计算出池化窗口当前停留区域的池化值。

双流卷积神经网络训练采用误差反向传播算法，包括前向传播过程和反向传播过程，在前向传播过程中，首先随机初始化双流卷积网络中所有的权重和偏置值；然后将图像样本分别输入到空间流卷积神经网络和时间流卷积神经网络，通过卷积层操作和步骤3.2中的池化层操作计算每层隐藏层的输出；其次选用Softmax分类器分别计算时间流卷积神经网络和空间流卷积神经网络的概率输出；最后将空间流卷积神经网络和时间流卷积神经网络的Softmax输出进行融合得到双流网络的最终概率输出。

反向传播过程具体如下：

使用预测向量和真实向量之间的交叉熵作为双流卷积神经网络的损失函数，记为L(θ)，用于评判预测向量和真实向量之间的接近程度，其中，预测向量表示改进后双流卷积神经网络对视频样本的预测值，真实向量表示视频样本的实际值，从而计算网络的损失值即误差值，计算表达式如公式(4)所示：

其中，m表示样本个数，θ表示双流卷积神经网络中需要学习的参数，j是输入样本x⁽ⁱ⁾属于每种行为类型的所有概率值，j取值范围为1，...，k，x⁽ⁱ⁾表示输入样本，y⁽ⁱ⁾表示输出向量，y⁽ⁱ⁾中有k个值，每个值的范围均在(0，1)区间内且所有值相加和为1，使用Softmax分类器得到具有k维向量的y⁽ⁱ⁾，作为对行为识别分类的得分特征或概率特征，其中每个数值表示输入样本属于某类行为的概率；

然后使用梯度下降算法最小化损失函数，在优化过程中损失函数对权值参数求偏导，如公式(5)所示：

使用式(5)计算损失函数对权值参数的梯度，从而反向更新双流卷积神经网络参数θ，如公式(6)所示：

其中，α为学习率，进行如上操作后网络模型的识别性能会随着损失函数值的下降而提高，以此类推，利用更新后权值和偏置值再次计算网络输出值，并与步骤2中的样本数据所得到的真实数据做比较，再次计算当前网络损失函数值，进而继续更新网络参数，直到网络输出的损失函数值稳定不变或网络学习次数达到上限，训练结束。

步骤4中双流卷积神经网络测试过程具体如下：

测试过程将全部测试集输入到训练好的双流卷积神经网络中，对比预测结果与真实结果，并统计得到网络的正识别率，其中，在测试阶段将网络的Dropout丢弃率设置为1，对于某段行为视频的最终概率输出为P＝(p₁,...,p_k)^T，选取其中概率最大的预测类型即为最终类别预测结果，如公式(7)所示：

y′_k＝arg max(P) (7)

其中，y′_k为某段视频的预测行为标签，则最终双流网络模型的识别率为：

式(8)中，M为测试时使用的视频段总个数，y_k为其中某段视频的实际行为标签。

步骤4中进行空间和时间的得分特征融合，最后通过综合特征来判断输出识别结果，具体如下：

首先根据所述步骤2分别提取其中的一个时间流视频单帧特征和一个空间流视频单帧特征，从而得到一个完整的视频单帧时空特征，然后按照此方法得到所有视频帧的时空特征，并且将其融合提取得到视频时空特征，从而形成最终的双流卷积神经网络，最后取出步骤1中的人体行为数据集，将其输入到最终的双流卷积神经网络上以得出识别结果。

本发明的有益效果是，基于双流卷积神经网络进行人体行为识别技术，从而识别出基本的人体行为，为基于深度学习的人体行为识别技术做出了有益贡献。通过改进它的激活函数和池化方法，最终改善了网络收敛速度慢和网络过拟合问题。通过双结构的多任务学习，既可扩充数据，也提高了网络的识别能力，使最终实验结果达到最优。

附图说明

图1是基于有限样本集的双流卷积神经网络人体行为识别方法中的流程图；

图2是改进激活函数后的双流卷积神经网络结构图；

图3是使用了Maxout激活函数的神经网络结构图；

图4是改进池化方法后双流网络中的卷积神经网络结构；

图5是特征图中待池化区域元素值图；

图6是特征图对应的概率矩阵图；

图7是使用Stochastic Pooling池化方法得到的特征图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

如图1所示，本发明基于有限样本集的双流卷积神经网络人体行为识别方法，具体按照以下步骤实施：

步骤1、建立取样样本，具体如下：

步骤2、对步骤1中的样本进行划分和预处理，得到即将处理的单帧视频片段和视频帧彩色光流图，具体如下：

将步骤1中每条视频均分割为3～4个完整片段，总计2391个行为片段，随机抽取其中16人的行为片段组成训练集，其余9人组成测试集，依次求得每个视频片段的帧图像，再利用Horn-Schunck光流法获得视频帧的彩色光流图，并且将图片的尺寸调整为80×60大小。详细划分情况如表1所示：

表1 KTH数据集详细划分表

步骤3、改进双流卷积神经网络，双流卷积神经网络是由空间流卷积神经网络和时间流卷积神经网络组成，它们具有相似的结构，将步骤2中得到的单帧原始图像输入到空间流卷积神经网络，用于学习视频中物体的空间特征；再将步骤2中得到的多帧光流图堆叠在一起输入到时间流卷积神经网络，用于学习视频中行为的时间特征，具体按照以下步骤实施：

步骤3.1、使用Maxout函数替换原来双流卷积神经网络中的ReLU函数，改进激活函数后的双流卷积神经网络结构图如图2所示，此时在神经网络的隐含层之间加入一个“内置隐含层”，从而增加k个节点，计算当前隐含层中第i个神经元值，公式表示为(1)所示：

z_ij＝XW_...ij+b_ij (2)

其中，X表示大小为1×d的输入矩阵，W表示大小为d×m×k三维矩阵，b表示大小为m×k的偏置值矩阵，d为前一隐含层中神经元的个数，m为当前隐含层中神经元的个数，k为内置隐含层中节点的个数，W_...ij表示前一隐含层到当前隐含层中第i个神经元所对应的内置隐含层中第j个节点的一组权值，b_ij表示当前层的第i个神经元所对应的内置隐含层中第j个节点上的偏置值；使用Maxout激活函数的神经网络局部结构详解图如图3所示。

步骤3.2、使用Stochastic Pooling池化方法代替原来的MaxPooling池化方法，改进池化方法后双流网络中的卷积神经网络结构如图4所示，为步骤2中所得的单帧图像和光流图的每个像素值计算对应的概率值并以此值设定池化窗口，概率值的计算如公式(3)所示：

其中，value(i,j)表示第i行第j列的像素值，M、N表示池化窗口覆盖区域的尺寸；假设特征图中待池化区域元素值如图5所示；

步骤3.3、利用上述(3)式计算出步骤2中所有单帧视频片段和视频帧彩色光流图的特征图中待池化区域的概率值，结果如图6所示，使用图6得到的结果最终计算出池化窗口当前停留区域的池化值，结果如图7所示。

反向传播过程具体如下：

其中，α为学习率，进行如上操作后网络模型的识别性能会随着损失函数值的下降而提高，以此类推，利用更新后权值和偏置值再次计算网络输出值，并与步骤2中的样本数据所得到的真实数据做比较，再次计算当前网络损失函数值，进而继续更新网络参数，直到网络输出的损失函数值稳定不变或网络学习次数达到上限，训练结束。在训练网络时各项超参数的设定如表2所示：

表2各项超参数的设定

步骤4中双流卷积神经网络测试过程具体如下：

y′_k＝arg max(P) (7)

Claims

1.基于有限样本集的双流卷积神经网络人体行为识别方法，其特征在于，具体按照以下步骤实施：

步骤1、建立取样样本；

步骤2、对步骤1中的样本进行划分和预处理，得到即将处理的单帧视频片段和视频帧彩色光流图；

2.根据权利要求1所述的基于有限样本集的双流卷积神经网络人体行为识别方法，其特征在于，所述步骤1具体如下：

3.根据权利要求2所述的基于有限样本集的双流卷积神经网络人体行为识别方法，其特征在于，所述步骤2具体如下：

4.根据权利要求3所述的基于有限样本集的双流卷积神经网络人体行为识别方法，其特征在于，所述步骤3具体按照以下步骤实施：

z_ij＝XW_...ij+b_ij (2)

5.根据权利要求4所述的基于有限样本集的双流卷积神经网络人体行为识别方法，其特征在于，双流卷积神经网络训练采用误差反向传播算法，包括前向传播过程和反向传播过程，在前向传播过程中，首先随机初始化双流卷积网络中所有的权重和偏置值；然后将图像样本分别输入到空间流卷积神经网络和时间流卷积神经网络，通过卷积层操作和步骤3.2中的池化层操作计算每层隐藏层的输出；其次选用Softmax分类器分别计算时间流卷积神经网络和空间流卷积神经网络的概率输出；最后将空间流卷积神经网络和时间流卷积神经网络的Softmax输出进行融合得到双流网络的最终概率输出。

6.根据权利要求5所述的基于有限样本集的双流卷积神经网络人体行为识别方法，其特征在于，反向传播过程具体如下：

其中，m表示样本个数，θ表示双流卷积神经网络中需要学习的参数，j是输入样本x⁽ⁱ⁾属于每种行为类型的所有概率值，j取值范围为1,…,k，x⁽ⁱ⁾表示输入样本，y⁽ⁱ⁾表示输出向量，y⁽ⁱ⁾中有k个值，每个值的范围均在(0，1)区间内且所有值相加和为1，使用Softmax分类器得到具有k维向量的y⁽ⁱ⁾，作为对行为识别分类的得分特征或概率特征，其中每个数值表示输入样本属于某类行为的概率；

7.根据权利要求6所述的基于有限样本集的双流卷积神经网络人体行为识别方法，其特征在于，所述步骤4中双流卷积神经网络测试过程具体如下：

y′_k＝arg max(P) (7)

其中，y’_k为某段视频的预测行为标签，则最终双流网络模型的识别率为：

8.根据权利要求7所述的基于有限样本集的双流卷积神经网络人体行为识别方法，其特征在于，所述步骤4中进行空间和时间的得分特征融合，最后通过综合特征来判断输出识别结果，具体如下：