CN111401303B

CN111401303B - 一种身份与视角特征分离的跨视角步态识别方法

Info

Publication number: CN111401303B
Application number: CN202010267353.3A
Authority: CN
Inventors: 贲晛烨; 翟鑫亮; 陈雷; 李玉军; 魏文辉; 袁嫡伽
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2022-06-14
Anticipated expiration: 2040-04-08
Also published as: CN111401303A

Abstract

本发明提供了一种身份与视角特征分离的跨视角步态识别方法，包括：A、搭建步态身份特征和视角特征分离网络：包括视角编码器、身份编码器以及步态解码器；B、构建跨视角训练数据列表：根据步态能量图的标签，离线地选择三元组来构建跨视角训练数据列表；C、训练步态身份特征和视角特征分离网络：根据步态身份特征和视角特征分离网络及跨视角训练数据列表，获取损失函数，优化步态身份特征和视角特征分离网络；D、识别跨视角步态：根据训练好的步态身份特征和视角特征分离网络，取出身份编码器，进行步态识别。本发明解决了步态识别中的视角变化所引起的识别率低的问题，提升了步态识别的精度。

Description

一种身份与视角特征分离的跨视角步态识别方法

技术领域

本发明涉及一种身份与视角特征分离的跨视角步态识别方法，属于深度学习和生物特征识别技术领域。

背景技术

基于生物特征的身份识别和身份验证技术在日常生活中的需求量越来越大，这是因为这项技术在公共安全和安防***中的重要性日益凸显。近年来，许多生物识别技术(如：人脸识别、指纹识别等)已经大规模应用到日常生活中的身份认证以及身份识别环节。但是，现有的这些生物识别技术，诸如：指纹、静脉、虹膜、人脸等都需要在接触式或近距离配合的情况下才能发挥作用，无法进行远距离的身份识别。

步态识别作为一种新兴的生物特征识别技术，是利用人的走路姿势来区分不同个体。与现有的成熟的生物识别技术(如：人脸识别、指纹识别、虹膜识别等等)不同，步态识别技术可以在目标无意识且无需主动配合的情况下工作，并且可以在100米范围内的远距离情况下进行身份识别。然而，步态识别的准确率受视角变化的影响巨大，当在识别过程中，同一个行人的视角跨度较大时，步态识别的有效性将大大降低。

为了解决视角变化时的步态识别问题，现有的方法一般分为两类：一类是基于模型的方法，另一类是基于运动的方法。基于模型的方法的目的是提取鲁棒的步态特征，此类方法的模型建立和匹配识别过程非常复杂，这限制了其推广应用。基于运动的方法避免了复杂的模型建立过程，这类方法直接提取行人的运动特征而无需拟合任何参数。但是，基于运动的方法对视角变化非常敏感，视角差异越大识别率越低，所以如何提取视角不变性特征是此类方法的关键。

发明内容

针对现有技术的不足，本发明提供了一种身份与视角特征分离的跨视角步态识别方法。

发明概述：

一种身份与视角特征分离的跨视角步态识别方法，包括步态身份特征和视角特征分离网络搭建、构建跨视角训练数据列表、步态身份特征和视角特征分离网络训练以及跨视角步态识别四个阶段。

为了对步态样本的身份步态信息和视角特征进行分离，搭建步态身份特征和视角特征分离网络。为了优化步态身份特征和视角特征分离网络，离线选择三元组来构建跨视角训练数据列表并设计了多种损失函数来指导网络训练。本发明解决了步态识别中的视角变化所引起的识别率低的问题，提升了步态识别的精度。

术语解释：

1、步态能量图(Gait Energy Image,GEI)：是将一个步态周期的图像序列对应像素点取平均后得到的图像，如图1所示，由于其具有提取方法简单以及能很好的表现步态的速度、形态等优点，成为了步态识别中常用的特征。

2、ResNet-18网络:是ResNet神经网络模型中含有17个卷积层和1个全连接层的版本，ResNet是2015年所提出的一种残差神经网络，由于其在图像识别领域表现优秀，目前已成为常用的神经网络模型；另外，ResNet神经网络在ImageNet数据集上进行了训练，可供图像识别等任务使用。

3、梯度下降：是迭代优化算法的一种,通过计算误差函数对参数的偏导数来确定优化方向，目前是深度器学习算法中用来优化模型参数最常采用的算法。

4、反向传播：是建立在梯度下降算法基础上的一种神经网络学习算法，它能够将误差反向依次传递神经网的每一层以进行参数更新，其本质上是链式求导。

5、注册数据集：是指提前录入的已知标签的样本所构成的数据集，用来与查询样本进行比对，并把该查询样本识别为与注册数据集中最相似的那个样本的标签。

本发明的技术方案如下：

一种身份与视角特征分离的跨视角步态识别方法，包括步骤如下：

A、搭建步态身份特征和视角特征分离网络

为了达到视角特征和身份特征分离的目的，将步态身份特征和视角特征分离网络设计成两个编码器即视角编码器和身份编码器以及一个步态解码器的形式。所述步态身份特征和视角特征分离网络包括视角编码器、身份编码器以及步态解码器，所述视角编码器用来编码输入步态能量图的视角特征，视角特征是指步态能量图来源的视角；所述身份编码器则用来编码输入步态能量图的身份特征，身份特征是指步态能量图来源的身份；将所述视角编码器及所述身份编码器的特征输出进行拼接，再送入所述步态解码器用来恢复出原始输入；

B、构建跨视角训练数据列表

根据步态能量图的标签即该步态能量图属于哪个视角的标签和属于哪个身份的标签，离线地选择三元组来构建跨视角训练数据列表；

C、训练步态身份特征和视角特征分离网络

根据步骤A搭建的步态身份特征和视角特征分离网络以及步骤B构建的跨视角训练数据列表，获取步态身份特征和视角特征分离网络训练的损失函数，优化步态身份特征和视角特征分离网络；

D、识别跨视角步态

根据训练好的步态身份特征和视角特征分离网络，取出身份编码器，将查询样本和与查询样本视角不同的注册数据集送入该身份编码器当中得到特征表达，将查询样本的特征与注册数据集的所有特征进行比对，得到的识别结果。

根据本发明优选的，步骤A，搭建步态身份特征和视角特征分离网络，包括：

a、搭建所述视角编码器：基于现有的ResNet-18网络，去掉ResNet-18网络的第5个残差模块，将第4个残差模块(Conv4_x)的输出经一个平均池化和一个1×1卷积操作，最后的输出作为所述视角编码器输出的视角特征，输入步态能量图至所述视角编码器，得到d维视角特征，d∈[512,1024]；

b、搭建所述身份编码器：基于现有的ResNet-18网络，去掉ResNet-18网络的第5个残差模块，将第4个残差模块(Conv4_x)的输出经一个平均池化和一个1×1卷积操作，最后的输出作为所述身份编码器输出的身份特征；输入步态能量图至所述身份编码器，得到d维身份特征；

c、搭建所述步态解码器：为了恢复原始大小的图像，采用五层转置卷积层进行上采样操作；将步骤a所得到的视角特征和步骤b得到的身份特征进行拼接，输入到所述步态解码器进行上采样恢复，输出一幅二维图像。

根据本发明优选的，所述步骤B，构建跨视角训练数据列表，包括：

d、读取共包含N个人的步态能量图作为训练数据集，随机选取一张步态能量图作为锚样本，遍历与锚样本身份特征相同的所有步态能量图，随机选取一张作为正样本；遍历与锚样本身份特征不同但视角特征相同的所有步态能量图，随机选取一张将作为负样本；将这三个样本的路径分别添加到跨视角训练数据列表当中；

e、将步骤d重复M次，得到容量为3*M个的训练数据的跨视角训练数据列表。

根据本发明优选的，步骤C，训练步态身份特征和视角特征分离网络，包括：

f、初始化步骤A中构建的步态身份特征和视角特征分离网络的网络参数：即采用ResNet-18网络在ImageNet上预训练的参数初始化身份编码器和视角编码器的参数，以高斯分布随机初始化步态解码器的参数；

根据步骤e所产生的跨视角训练数据列表，得到3*M个的训练数据，即{x_i,i＝1,2,…,3*M}，x_i指跨视角训练数据列表中的第i张步态能量图；将{x_i,i＝1,2,…,3*M}分别输入到步骤a、步骤b搭建的视角编码器、身份编码器中，分别得到3*M个视角特征{f_i ^v,i＝1,2,…,3*M}和3*M个身份特征{f_i ^s,i＝1,2,…,3*M}；f_i ^v是指x_i的d维视角特征；f_i ^s是指x_i的d维身份特征；将每个训练数据得到的视角特征和身份特征进行拼接，即将视角特征的尾部和身份特征的头部连接在一起，构成一个2d维的向量，将此2d维的向量送入到步骤c所述的步态解码器中，得到3*M张输出图像{x_i′,i＝1,2,…,3*M}；

g、分别计算如下损失函数，包括重构损失

视角回归损失

身份模糊损失

身份分类损失

三元组损失

分别如式(I)、(II)、(Ⅲ)、(Ⅳ)、(Ⅴ)所示：

式(II)中，

表示二维视角标签，

θ_i是样本x_i所对应的角度值(以弧度表示)，W₁是一个可学习的维度为2×d的映射矩阵；

式(Ⅲ)和(Ⅳ)中，W₂是一个可学习的维度为N×d的映射矩阵，softmax()表示柔性最大函数，

式(Ⅴ)中，

和

分别表示锚样本、正样本和负样本，α表示余量(Margin)；

将上述5种损失加在一起，得到最终的损失函数，即步态身份特征和视角特征分离网络训练的损失函数

如式(VI)所示：

根据式(VI)计算得到的损失函数，采用梯度下降和反向传播算法优化步态身份特征和视角特征分离网络的网络参数；

h、重复步骤f至步骤g，直到式(VI)得到的

收敛为止，得到训练好的步态身份特征和视角特征分离网络。

根据本发明优选的，步骤D，识别跨视角步态，包括：

i、根据训练好的步态身份特征和视角特征分离网络，取出身份编码器，将查询样本和与查询样本视角不同的注册数据集送入该身份编码器当中得到对应的特征表达；

j、将查询样本的特征表达和步骤i的所述注册数据集中的每个特征表达进行欧氏距离计算，得到与查询样本特征表达欧氏距离最小的所述注册数据集中的特征表达，输出该特征表达的身份标签作为查询样本的标签，得到识别结果。

本发明的有益效果为：

1、本发明所涉及的一种身份与视角特征分离的跨视角步态识别方法，能够将步态特征中的视角特征和身份特征进行分离，仅用只包含身份特征的特征进行识别，大大提升了跨视角步态识别的精度。

2、本发明所涉及的一种身份与视角特征分离的跨视角步态识别方法，能够将身份特征中所包含的视角特征进行去除，得到不包含视角特征的身份特征，提高了抗视角干扰能力。

附图说明

图1是本发明步态能量图的示意图；

图2是本发明一种身份与视角特征分离的跨视角步态识别方法的流程示意图；

图3为本发明视角编码器或身份编码器的网络结构示意图；

图4为本发明步态解码器的网络结构示意图；

图5是在查询视角为0°、注册视角为54°情况下本发明方法与现有的步态识别方法识别率对比图；

图6是在查询视角为0°、注册视角为90°情况下本发明方法与现有的步态识别方法识别率对比图；

图7是在查询视角为72°、注册视角为144°情况下本发明方法与现有的步态识别方法识别率对比图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种身份与视角特征分离的跨视角步态识别方法，如图2所示，包括步骤如下：

A、搭建步态身份特征和视角特征分离网络

为了达到视角特征和身份特征分离的目的，将步态身份特征和视角特征分离网络设计成两个编码器即视角编码器和身份编码器以及一个步态解码器的形式。步态身份特征和视角特征分离网络包括视角编码器、身份编码器以及步态解码器，视角编码器用来编码输入步态能量图的视角特征，视角特征是指步态能量图来源的视角；身份编码器则用来编码输入步态能量图的身份特征，身份特征是指步态能量图来源的身份；将视角编码器及所述身份编码器的特征输出进行拼接，再送入所述步态解码器用来恢复出原始输入；

B、构建跨视角训练数据列表

C、训练步态身份特征和视角特征分离网络

D、识别跨视角步态

实施例2

根据实施例1所述的一种身份与视角特征分离的跨视角步态识别方法，其区别在于：

步骤A，搭建步态身份特征和视角特征分离网络，包括：

a、搭建视角编码器：基于现有的ResNet-18网络，去掉ResNet-18网络的第5个残差模块，将第4个残差模块(Conv4_x)的输出经一个平均池化和一个1×1卷积操作，最后的输出作为视角编码器输出的视角特征，输入步态能量图至视角编码器，得到d维视角特征，d∈[512,1024]；

b、搭建身份编码器：基于现有的ResNet-18网络，去掉ResNet-18网络的第5个残差模块，将第4个残差模块(Conv4_x)的输出经一个平均池化和一个1×1卷积操作，最后的输出作为身份编码器输出的身份特征；输入步态能量图至身份编码器，得到d维身份特征；

视角编码器或身份编码器的网络结构如图3所示。图3中，Basic Block指构成ResNet-18的基础残差模块，由两个核为3x3的卷积层(Conv)构成，每个卷积层后面会经过一个批量归一化层(BatchNorm)和一个激活层(Relu)。基础残差模块当中第一个卷积层的输入会通过一条捷径(Shortcut)直接连接到第二激活层之前并相加在一起。基于ResNet-18的视角编码器和身份编码器都是先经过一个7x7卷积层、批量归一化层和激活层，再经过一系列基础残差模块后，最后接一个平均池化层(AvgPool)和1x1卷积层。

c、搭建步态解码器：为了恢复原始大小的图像，采用五层转置卷积层进行上采样操作；步态解码器的网络结构如图4所示，图4中，ConvTrans是指用于上采样的转置卷积层。步态解码器是由5个转置卷积层构成，除了最后一个转置卷积层外，其它转置卷积层后面都会经过一个批量归一化层(BatchNorm)和一个激活层(Relu)。

由于具体网络参数受步骤a和步骤b的输入步态能量图的大小影响，当输入步态能量图的大小为64*44时步态解码器的网络参数如表1所示。

表1

名称	核大小	步幅	填充	输出填充	输出通道数
						ConvTran1	5×4	2	1	1	512
ConvTran2	3×3	2	1	1	256
						ConvTran3	3×2	2	1	1	64
ConvTran4	3×2	2	1	1	32
						ConvTran5	2×2	2	0	0	1

将步骤a所得到的视角特征和步骤b得到的身份特征进行拼接，输入到步态解码器进行上采样恢复，输出一幅二维图像。

步骤B，构建跨视角训练数据列表，包括：

步骤C，训练步态身份特征和视角特征分离网络，包括：

根据步骤e所产生的跨视角训练数据列表，得到3*M个的训练数据，即{x_i,i＝1,2,…,3*M}，x_i指跨视角训练数据列表中的第i张步态能量图；将{x_i,i＝1,2,…,3*M}分别输入到步骤a、步骤b搭建的视角编码器、身份编码器中，分别得到3*M个视角特征{f_i ^v,i＝1,2,…,3*M}和3*M个身份特征{f_i ^s,i＝1,2,…,3*M}；f_i ^v是指x_i的d维视角特征；f_i ^s是指x_i的d维身份特征；将每个训练数据得到的视角特征和身份特征进行拼接，即将视角特征的尾部和身份特征的头部连接在一起，构成一个2d维的向量，将此2d维的向量送入到步骤c步态解码器中，得到3*M张输出图像{x_i′,i＝1,2,…,3*M}；

g、分别计算如下损失函数，包括重构损失

视角回归损失

身份模糊损失

身份分类损失

三元组损失

分别如式(I)、(II)、(Ⅲ)、(Ⅳ)、(Ⅴ)所示：

式(II)中，

表示二维视角标签，

式(Ⅴ)中，

和

分别表示锚样本、正样本和负样本，α表示余量(Margin)；

如式(VI)所示：

h、重复步骤f至步骤g，直到式(VI)得到的

步骤D，识别跨视角步态，包括：

j、将查询样本的特征表达和步骤i的注册数据集中的每个特征表达进行欧氏距离计算，得到与查询样本特征表达欧氏距离最小的注册数据集中的特征表达，输出该特征表达的身份标签作为查询样本的标签，得到识别结果。

在CASIA-B数据库上的实验设置为：输入步态能量图大小为64*44,优化器采用Adam，其学习率设置为1e-4，使用pytorch实现，批量M设置为64，在一块NVIDIA GTX 2080Ti显卡上训练了50K次。

本实施例方法在查询视角为0°、注册视角为54°情况下与现有的步态识别方法识别率对比图如图5所示，本实施例方法在查询视角为0°、注册视角为90°情况下与现有的步态识别方法识别率对比图如图6所示，本实施例方法在查询视角为72°、注册视角为144°情况下与现有的步态识别方法识别率对比图如图7所示，图5、图6和图7都是在CASIA-B数据库上的实验结果。

表2是本实施例在CASIA-B数据库上的跨视角识别结果。

表2

由图5、图6、图7及表2可知，与现有的步态识别方法相比，本发明方法大大提升了跨视角步态识别的精度。

Claims

1.一种身份与视角特征分离的跨视角步态识别方法，其特征在于，包括步骤如下：

A、搭建步态身份特征和视角特征分离网络

所述步态身份特征和视角特征分离网络包括视角编码器、身份编码器以及步态解码器，所述视角编码器用来编码输入步态能量图的视角特征，视角特征是指步态能量图来源的视角；所述身份编码器则用来编码输入步态能量图的身份特征，身份特征是指步态能量图来源的身份；将所述视角编码器及所述身份编码器的特征输出进行拼接，再送入所述步态解码器用来恢复出原始输入；

B、构建跨视角训练数据列表

根据步态能量图的标签即该步态能量图属于哪个视角的标签和属于哪个身份的标签，离线地选择三元组来构建跨视角训练数据列表；包括：

e、将步骤d重复M次，得到容量为3*M个的训练数据的跨视角训练数据列表；

C、训练步态身份特征和视角特征分离网络

D、识别跨视角步态

2.根据权利要求1所述的一种身份与视角特征分离的跨视角步态识别方法，其特征在于，步骤A，搭建步态身份特征和视角特征分离网络，包括：

a、搭建所述视角编码器：基于ResNet-18网络，去掉ResNet-18网络的第5个残差模块，将第4个残差模块的输出经一个平均池化和一个1×1卷积操作，最后的输出作为所述视角编码器输出的视角特征，输入步态能量图至所述视角编码器，得到d维视角特征，d∈[512,1024]；

b、搭建所述身份编码器：基于ResNet-18网络，去掉ResNet-18网络的第5个残差模块，将第4个残差模块的输出经一个平均池化和一个1×1卷积操作，最后的输出作为所述身份编码器输出的身份特征；输入步态能量图至所述身份编码器，得到d维身份特征；

c、搭建所述步态解码器：采用五层转置卷积层进行上采样操作；将步骤a所得到的视角特征和步骤b得到的身份特征进行拼接，输入到所述步态解码器进行上采样恢复，输出一幅二维图像。

3.根据权利要求2所述的一种身份与视角特征分离的跨视角步态识别方法，其特征在于，步骤C，训练步态身份特征和视角特征分离网络，包括：