CN105760835B

CN105760835B - 一种基于深度学习的步态分割与步态识别一体化方法

Info

Publication number: CN105760835B
Application number: CN201610087973.2A
Authority: CN
Inventors: 黄永祯; 谭铁牛; 王亮; 宋纯锋
Original assignee: Watrix Technology Beijing Co Ltd
Current assignee: Watrix Technology Beijing Co Ltd
Priority date: 2016-02-17
Filing date: 2016-02-17
Publication date: 2018-03-06
Anticipated expiration: 2036-02-17
Also published as: CN105760835A

Abstract

本发明公开一种基于深度学习的步态分割与步态识别一体化方法，该方法利用多通道神经网络分割模型对输入的一段步态视频中的多幅步态图像进行人形轮廓分割，获得一段步态视频中的多个步态图像的人形轮廓分割；然后将获得的人形轮廓通过分类卷积神经网络模型进行身份识别，输出身份识别结果。该方法对场景变化、着装变化、图像视频的角度、行走状态都有很强的鲁棒性，特别适合解决动态背景下的步态识别，可在实际的步态识别中达到非常高的识别精度；由于采用了分割与识别一体化框架，该方法同时具有非常快的识别速度，适合于实际监控下的实时步态识别。

Description

一种基于深度学习的步态分割与步态识别一体化方法

技术领域

本发明涉及计算机视觉、模式识别及步态识别技术领域，特别是涉及一种基于深度学习的步态分割与步态识别一体化方法。

背景技术

在步态识别方法中，绝大部分方法都需要分为步态图像分割、特征提取和步态识别三个步骤，其中特征提取主要是基于步态能量图(Gait Energy Image,GEI)再进行特征变化，计算复杂度较高，速度相对较慢，且依赖于精确的分割结果。如果步态图像分割结果较差，则无法实现后续的识别。因此，大多数传统算法要求背景静止或者背景简单，在真实监控环境中的复杂的动态的背景条件下无法得到理想的人形分割结果。深度卷积神经网络具有极强的自主学习能力和高度的非线性映射，这为设计复杂的高精度高速度人形分割模型和步态识别模型提供了可能性。

发明内容

本发明的目的是针对现有技术在真实场景下步态识别遇到的问题，提出一种能够适应复杂背景和多种着装条件，且能够直接识别步态身份的步态分割与步态识别一体化方法。

本发明是这样实现的，一种基于深度学习的步态分割与步态识别一体化方法，所述方法包括：

将人形分割数据库中用于人形分割训练的图像以及对应的人形分割标注图像归一化到相同像素大小，得到用于分割训练的图像与人形分割标注图像的成对样本；

每次将N对所述图像及对应的人形分割标注图像送入一个N通道全卷积神经网络，得到与人形分割标注尺寸相同的N个表示人形轮廓分割预测结果的图像表达一；采用反向传播算法和随机梯度下降法减小该图像表达一与对应的人形分割标注图像比较得到的预测误差以训练该N通道全卷积神经网络，经过多次迭代训练得到用于步态分割的N通道分割卷积神经网络模型，并将该N通道分割卷积神经网络模型复制保存，作为一个固定的分割标注生成器；

每次从选定的每段步态视频中随机选取N张步态图像，送入所述N通道分割卷积神经网络模型得到N张表示人形轮廓预测分割结果的图像表达二，每段步态视频对应一个身份序号用于识别；

将得到的所述N张图像表达二作为输入，并以所述选定每段步态视频的身份序号作为输出，采用反向传播算法和随机梯度下降法减小预测步态身份与实际步态身份间的误差来迭代训练用于步态识别的分类卷积神经网络模型直到模型停止收敛；

将训练好的所述N通道分割卷积神经网络模型的输出端和分类卷积神经网络模型的输入端连接，组成一个输出为步态身份预测结果的步态分割与步态识别的一体化模型；

每次从选定的每段步态视频中随机选取N张步态图像送入所述N通道分割卷积神经网络模型得到对应人形轮廓预测分割图像的生成标注信息；同时利用该N张步态图像为输入，对应的人形轮廓预测分割图像和身份序号为监督信息，采用反向传播算法和随机梯度下降法联合训练所述步态分割与步态识别的一体化模型直到该一体化模型收敛停止；

测试时，随机选取一段步态视频中N张图像送入训练好的所述步态分割与步态识别的一体化模型，在所述步态分割与步态识别的一体化模型的soft-max分类器得到最大响应所在的节点序号，作为身份序号的预测结果。

其中，所述N通道全卷积神经网络模型的每一通道均包括有配置相同的多层卷积层与连接所述多层卷积层的最后一层的一层反卷积层。

其中，所述分类卷积神经网络模型包括多层卷积层以及连接最后一层卷积层的至少一层全连接层，所述全连接层的最后一层连接输出层----soft-max分类器。

本发明首先利用带有人形分割标记图像的人形图像训练基于多层卷积神经网络的N通道分割卷积神经网络模型；然后利用该N通道分割卷积神经网络模型将一段步态视频随机取多帧图像进行步态分割，并利用得到的人形轮廓分割结果训练一个分类卷积神经网络模型进行身份识别；最后将N通道分割卷积神经网络模型与分类卷积神经网络模型联合学习，得到更精确的步态分割与步态识别的一体化模型，从而实现了利用该一体化模型直接进行从步态到身份的识别。

本发明所提出的步态分割与步态识别一体化模型能够联合学习可以实现同时更新N通道分割卷积神经网络模型和分类卷积神经网络模型，获得更准确的步态识别结果。

本发明基于卷积神经网络的N通道分割卷积神经网络模型通过大量复杂背景下的人形分割标注图像样本训练，可以实现在各种不同背景下的精确的人形轮廓分割，解决了实际环境中复杂动态背景下的步态分割问题，而这些精确的分割结果又可进一步通过分类卷积神经网络模型构成的分类器直接识别步态身份，分割与识别一体化学习将极大地加速步态识别的速度。

附图说明

图1是本发明提供的基于深度学习的步态分割与步态识别一体化方法的一体化模型的训练流程图；

图2所示为利用步态分割与步态识别的一体化模型进行测试时的流程图。

具体实施方式

下面，通过附图和实施例，对本发明的技术方案作进一步的详细描述。

本发明提供的基于深度学习的步态分割与步态识别一体化方法，采用深度学习技术联合训练N通道分割卷积神经网络模型(步态分割模型)和分类卷积神经网络模型(步态识别模型)，首先训练多通道步态分割模型，然后训练步态识别模型，最后进行联合训练，从而实现了在真实场景中的步态识别任务上取得了非常高的精度和速度。

下面，以某大型步态识别数据库为例进行说明，该大型步态识别数据库包含138人步态视频序列，每人约36段视频，包括不同视角、背景和着装，用于步态分割模型初始化的人形分割数据库包含约5000张图像及对应的人形分割标注图像。

如图1所示，本发明基于深度学习的步态分割与步态识别一体化方法，包括有一体化模型训练步骤以及运用训练好的一体化模型进行测试的测试步骤；(其中步骤S1—S10为一体化模型训练步骤，S11为运用训练好的一体化模型进行测试的测试步骤)，具体步骤如下：

步骤S1，将人形分割数据库中用于训练的5000张图像归一化到相同像素大小(如48*48像素)，对应的人形分割标注图像(也叫作前背景分割图像，即标注图像中的人形轮廓)也进行对应的操作，归一化至48*48像素大小，这样就得到了用于训练的图像与人形分割标注图像的成对的样本，共5000对；

步骤S2，每次随机选取3对图像样本，即3张用于训练的图像以及3张对应的人形分割标注图像，依次送入一个3通道的分割全卷积神经网络模型，经过数层卷积层与反卷积层，在最后一层得到与人形分割标注图像的尺寸相同的图像表达一(即分割预测图像)，并与对应的人形分割标注图像进行比较得到预测误差；

例如，一个典型的3通道4层全卷积神经网络某一通道的参数配置为：前3层为卷积层，其中第一层有64个5×5的卷积核，步长为1，带有3×3且步长为2的空间局基层；第二层有64个5×5的卷积核，步长为1，带有3×3且步长为2的空间局基层；第三层有64个3×3的卷积核，步长为1；第4层为反卷积层，含有1个48×48的反卷积核，步长为1，经过最后的反卷积层可以得到一张分割预测图像(大小为48*48)。另外的2个通道配置与该通道相同，该网络可以同时输入3张图像并得到3张分割预测图像，即图像表达一。

需要说明的是，所述分割全卷积神经网络模型可以是3通道，也可以是4通道，或其它数量的通道，具体不限。对应的，当所述分割全卷积神经网络模型的通道为其它数量的通道时，随机选取多对图像样本的数量与该分割全卷积神经网络模型的通道数量一致；

步骤S3，采用反向传播算法和随机梯度下降法来减小所述的图像表达一与对应的人形分割标注图像进行比较得到预测误差，以训练分割全卷积神经网络模型，经过多次迭代训练直到该预测误差不再下降为止，即可得到3通道分割卷积神经网络模型(即3通道步态分割模型)；

步骤S4，将S3中的3通道分割卷积神经网络模型复制保存，作为一个固定的分割标注生成器；

步骤S5，每次从所有步态视频中随机选取一段，并以该视频对应的身份序号作为分类号，如选取第26人的视频，该身份序号即为26。对应138人的步态视频，共有138个序号。在选中的第26人的视频中随机选取3张步态图像，送入S3中形成的3通道分割卷积神经网络模型得到3张图像表达二，即人形轮廓分割结果(也可以称为分割预测图像)；

步骤S6，将S5得到的3张人形轮廓分割结果作为输入，并以S5中选定视频的步态身份序号(26)作为分类输出，迭代训练一个分类卷积神经网络模型用于步态识别，输出步态身份预测的结果，该分类卷积神经网络模型输出层为soft-max分类器，输出响应最大的节点序号与身份序号相对应；

具体实现上，该分类卷积神经网络模型可以是5层，如包含3层卷积层用于提取特征，之后连接2层全连接层构成分类器，最后一层连接soft-max分类器得到步态身份预测的结果，输出响应最大的节点序号与身份序号相对应；

该分类卷积神经网络的结构如可以是：输入为3通道48*48大小的图像；第一层有64个5×5的卷积核，步长为1，带有3×3且步长为2的空间局基层；第二层有64个5×5的卷积核，步长为1，带有3×3且步长为2的空间局基层；第三层有64个3×3的卷积核，步长为1；第4层和第5层分别是含有1000和138个节点的全连接层，第5层后接soft-max分类器得到对应的138个响应，并取最大响应所在的节点号作为身份预测。例如，第26个节点响应值最大，则预测该步态是第26人。

步骤S7，采用反向传播算法和随机梯度下降法，来减小预测步态身份与实际步态身份之间的误差以训练该分类卷积神经网络，经过多次迭代训练直到误差不再下降为止，得到分类卷积神经网络模型(即步态识别模型)；

步骤S8，将训练好的S3中的用于步态分割的3通道分割卷积神经网络模型的输出端和S6中的用于步态识别的分类卷积神经网络模型的输入端连接，组成一个步态分割与步态识别的一体化模型；该模型包含3个通道，共9层，输入为3张48*48大小的步态图像，输出为步态身份预测结果。

步骤S9，每次从所有步态视频中随机选取一段，并以该视频对应的身份序号作为分类号，如选取第26人的视频，该身份序号即为26。对应138人的步态视频，共有138个序号。在选中的第26人的视频中随机选取3张步态图像送入S4中的分割卷积神经网络模型(分割标注生成器)得到对应人形轮廓的生成标注信息。

步骤S10，利用S9中的3张步态图像为输入，将S9中对应的人形轮廓预测分割图像(即图像表达二)和身份序号为监督信息，采用反向传播算法和随机梯度下降法联合训练S8中的步态分割与步态识别一体化模型，直到模型收敛停止；

具体的，在步态身份标注(表现为步态身份序号)与步态身份预测之间有2处误差，分别用于校正所述分类卷积神经网络模型和分割卷积神经网络模型；同时，在S9通过分割卷积神经网络模型(分割标注生成器)产生的生成标注信息与预测分割图像之间有1处误差，用于校正分割卷积神经网络。这样，共有3处误差反传共同校正该步态分割与步态识别一体化模型。

步骤S11，参见图2所示，测试时在138人的所有视频中随机选取一段步态视频(如第10人的视频)，从中随机选取3张图像，将图像送入训练好的一体化模型，在类卷积神经网络模型的soft-max分类器可以得到138维的输出，得出最大响应所在的节点序号在第10维，即可把10号作为身份序号的预测结果，这样就完成了从步态视频到身份识别的一体化的过程。

步骤S11具体的过程为，先利用多通道神经网络分割模型对输入的一段步态视频中的多幅步态图像进行人形轮廓分割，获得一段步态视频中的多个步态图像的人形轮廓分割；然后将获得的人形轮廓通过分类卷积神经网络模型进行身份识别，通过类卷积神经网络模型的soft-max分类器输出身份识别结果。

该方法对场景变化、着装变化、图像视频的角度、行走状态都有很强的鲁棒性，特别适合解决动态背景下的步态识别，可在实际的步态识别中达到非常高的识别精度；由于采用了分割与识别一体化框架，该方法同时具有非常快的识别速度，适合于实际监控下的实时步态识别。

本发明通过利用多通道分割卷积神经网络模型，同时获得一段步态视频中的多个步态图像的人形轮廓分割结果；然后将获得的人形轮廓结果通过一个分类卷积神经网络模型进行身份识别。该多通道分割卷积神经网络模型的多通道分割与用于识别的分类卷积神经网络模型可以在一个框架下联合学习，组成了输入为多幅步态图像，输出为身份识别结果的一体化框架。

本发明方法对场景变化、着装变化、图像视频的角度、行走状态都有很强的鲁棒性，特别适合解决动态背景下的步态识别，因而可以在实际的步态识别中达到非常高的识别精度；由于采用了分割与识别一体化的框架，因此该方法同时具有非常快的识别速度，适合于实际监控下的实时步态识别。该方法可以被广泛应用于视频监控场景，如机场及海关的安全监控、人员识别、公司考勤、罪犯检测等。

Claims

1.一种基于深度学习的步态分割与步态识别一体化方法，其特征在于，所述方法包括：

2.根据权利要求1所述基于深度学习的步态分割与步态识别一体化方法，其特征在于，所述N通道全卷积神经网络模型的每一通道均包括有配置相同的多层卷积层与连接所述多层卷积层的最后一层的一层反卷积层。

3.根据权利要求1所述基于深度学习的步态分割与步态识别一体化方法，其特征在于，所述分类卷积神经网络模型包括多层卷积层以及连接最后一层卷积层的至少一层全连接层，所述全连接层的最后一层连接输出层----soft-max分类器。