CN112580445B

CN112580445B - 基于生成对抗网络的人体步态图像视角转化方法

Info

Publication number: CN112580445B
Application number: CN202011406087.4A
Authority: CN
Inventors: 刘欣刚; 孙睿成; 韩硕; 江浩杨; 曾昕; 代成
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2022-10-11
Anticipated expiration: 2040-12-03
Also published as: CN112580445A

Abstract

本发明属于步态识别技术领域，具体提供一种基于生成对抗网络的人体步态图像视角转化方法。本发明通过在训练过程中引入多种不同类型的判别器，并通过合理设置训练策略，从而使得该视角转化方法可以将输入视角下步态图像转化到多个不同目标视角，并且在转化的过程中有效避免身份信息的丢失。该视角转化方法可以被有效应用在跨视角步态识别场景中，通过将不同视角的步态图像转化到多个统一的视角，一方面，消除了视角差异对于步态识别准确率的影响，另一方面，相比于其他方法只转化到一个统一视角，本方法通过转化到多个统一视角，为后续身份识别提供了更加丰富的数据，可以有效提升跨视角步态识别准确率。

Description

基于生成对抗网络的人体步态图像视角转化方法

技术领域

本发明属于步态识别技术领域，具体涉及一种基于生成对抗网络的人体步态图像视角转化方法。

背景技术

随着现代社会的快速发展，信息化和智能化已经逐渐深入社会建设的各个方面；而运用信息技术和智能技术保障社会安全，降低各类违法犯罪率，提升人民生活的安全感和幸福感是社会建设中的重要一环；在这当中，对于用户进行身份识别是保障公民个人信息安全和公共安全的有效手段之一。相比于传统的人体身份识别特征诸如人脸、指纹、DNA等，人体步态特征的获取无需受测者的配合，无需侵入受测者体内，识别距离较远，能够在受测者未察觉的情况下获取身份特征，从而难以对识别***进行误导和欺骗；与此同时，相比于DNA等需要进行化学提取和分析的生物特征，步态特征可以通过监控摄像头直接获取并进行识别，其实时性较高。因此，步态识别作为一种生物特征识别技术，具有重要潜在应用价值。

然而，步态识别技术在发展的过程中，也面临着一些棘手的问题，其中，跨视角问题是最具有代表性的一类；由于人体行走方向的不确定性，摄像头与人体往往形成一定的角度，在不同角度下得到的具有相同身份的人体步态图像具有显著差别。根据相关文献和资料，在步态识别的应用场景中，当获取到的需要识别的步态图像集(验证集)的视角与用于比对的步态图像集(注册集)的视角差别较大时，步态身份识别的准确率会出现断崖式地下降；这也成为了步态识别走向大规模应用的一大障碍。

传统的基于图像特征提取的步态识别方法由于在视角跨度较大的情形下难以有效提取与角度无关的人体步态特征，故识别率受视角变化的影响较为严重。而近些年来，随着机器学习技术和深度学习技术的不断发展，有研究人员开始尝试将不同视角下的步态图像转化到统一视角，以此来消除视角差异对于步态识别的影响，并且已经取得了一定的研究成果，被学术界和工业界认为是解决跨视角步态识别问题的一种有效思路。而步态图像视角转化作为这一过程的核心技术，其方法性能的优劣对于能否有效提升跨视角步态识别准确率来说至关重要。然而，就目前的研究及应用状况来说，现有的人体步态图像视角转化方法往往只是相对粗糙地对人体行走轮廓进行角度转化，在转化过程中丢失了许多不同人体步态图像所独有的身份信息，因此得到的转化后图像往往存在着失真、与原图像差异过大、不同类别间差异不明显等情况，会严重影响后续步态识别的准确率。除此之外，现有的步态图像视角转化方法往往只能将不同视角下的步态图像转化到某一固定的视角，比如统一转化到90度视角下的步态图像；然而，对于步态身份识别任务来说，某一固定视角下的步态图像含有的身份信息往往较为有限，例如90度视角下的步态图像无法反映测试者正面的身材、走路时身体的左右摇晃等信息；而0度视角下的步态图像无法反映测试者行走时四肢的摆动，身体的前后摇晃和形体姿态(如驼背)等信息，而上述这些信息都可以作为判断受测者身份的重要依据；可见，只将步态图像转化至某一固定视角，可能会造成某些对识别来说重要的身份信息在这一视角下无法表现出来，从而对身份的识别造成局限。

这对以上问题，我们对人体步态图像的视角转化方法展开研究，并且提出一种新型的基于生成对抗网络的人体步态图像视角转化方法，从而利用某一个体在某一视角下的步态图像，得到该个体其他不同视角的清晰准确的步态图像，对于提升跨视角步态识别的准确率，推动步态识别尽快走向实际应用具有重要意义。

发明内容

本发明的目的在于针对步态图像视角转化过程中存在的问题，提供了一种基于生成对抗网络的人体步态图像视角转化方法；不同于以往方法中只能将步态图像转化至某一固定视角，本发明能够由某一视角下的步态图像，直接一次性得到该个体在所有视角下对应的步态图像，并且在转化过程中避免其身份信息发生丢失。利用此视角转化模型，一方面能够消除注册集和验证集之间步态图像视角差异对于步态识别任务造成的影响，另一方面，利用得到的不同视角下的步态图像，能够获取到反映该个体身份的更加丰富的特征，从而有效提高跨视角步态身份识别的准确性。

为实现上述目的，本发明采用的技术方案为：

一种基于生成对抗网络的人体步态图像视角转化方法，包括以下步骤：

步骤1：基于高斯背景模型对步态视频序列进行背景建模，通过背景提取得到二值化的步态前景轮廓图；对步态前景图轮廓图进行范围归一化处理，随后利用图像形态学操作对轮廓图进行进一步处理，消除轮廓图中存在的空洞和噪声，最后对以上处理过后且位于单位步态周期的步态轮廓图进行平均处理，得到步态图像；

步骤2：根据预设目标角度，将步态图像与目标视角输入视角转化网络，视角转化网络输出目标视角下步态图像；

所述视角转化网络为具有多个判别器的生成对抗网络，包括：图像生成器G、图像真假判别器D_rf、步态图像视角判别器D_view、跨视角身份保持判别器D_cr与同视角身份保持判别器D_ca；

所述图像生成器G由相互对称的CNN网络(卷积神经网络)和TCNN网络(转置卷积神经网络)组成，且CNN网络和TCNN网络中对称层短路连接；其中，CNN网络和TCNN网络均包括4层卷积层；

进一步的，所述图像生成器G中，CNN网络和TCNN网络的每层卷积层的卷积核大小为4、步长为2；所述CNN网络中第1层卷积层的输入通道数为1，第1层～第4层卷积层的输出通道数依次为96、192、384、768；所述TCNN网络与CNN网络对称设置。

所述图像真假判别器D_rf由CNN网络和FC网络组成；其中，CNN网络包括5层卷积层，FC网络包括4层全连接层；

进一步的，所述图像真假判别器D_rf中，CNN网络的每层卷积层的卷积核大小为3，第1层～第4层卷积层的步长为2、第5层的卷积层的步长为1，第1层卷积层的输入通道数为1，第1层～第5层卷积层的输出通道数依次为32、64、128、256、512；FC网络的第1层全连接层的输入通道数为512，第1层～第4层全连接层的输出通道数依次为100、50、10、1。

所述步态图像视角判别器D_view由CNN网络和FC网络组成，其中，CNN网络与图像真假判别器D_rf中CNN网络相同，FC网络包括3层全连接层；

进一步的，所述步态图像视角判别器D_view中，FC网络的第1层全连接层的输入通道数为512，第1层～第3层全连接层的输出通道数依次为100、50、Q，Q表示步态图像视角总数。

所述跨视角身份保持判别器D_cr与同视角身份保持判别器D_ca结构相同、均由局部信息判别分支和全局信息判别分支构成，为了方便表述，将D_cr和D_ca的全局信息判别分支分别令为D_crg和D_cag，局部信息判别分支分别令为D_crl和D_cal。其中，局部信息判别分支由CNN网络组成、包括4层卷积层；全局信息判别分支由CNN网络和FC网络组成，CNN网络包括5层卷积层，FC网络与图像真假判别器D_rf中FC网络结构相同；

进一步的，所述跨视角身份保持判别器D_cr中，局部信息判别分支中CNN网络的每层卷积层的步长为2，第1层～第3层卷积层的卷积核大小为2、第4层卷积层的卷积核大小为1，第1层卷积层的输入通道数为2，第1层～第4层卷积层的输出通道数依次为32、64、128、1；

全局信息判别分支中CNN网络的每层卷积层的卷积核大小为3，第1层～第4层卷积层的步长为2、第五层的卷积层的步长为1，第1层卷积层的输入通道数为2，第1层～第5层卷积层的输出通道数依次为32、64、128、256、512。

进一步的，所述视角转化网络的训练过程如下：

S1：构建训练集，采用与步骤1相同的数据预处理得到步态图像，并按照(步态图像，视角，身份标签)构建训练样本，进而构成训练集；

S2：从训练集中随机抽取一定数量的训练样本、作为本次训练迭代过程的输入图像集合I_v,i，再通过随机数的方式确定本次训练迭代过程中视角转化的目标视角v_t，并从训练集中选取具有该目标视角且与集合I_v,i中步态图像身份标签相对应的图像，作为本次训练迭代过程的真值图像集合

从训练集中再次抽取一定数量的训练样本，构成步态图像集合为

所述步态图像集合

中步态图像的视角均为v_t、且其对应的身份标签与集合I_v,i中任意一张步态图像的身份标签都不相同；

从集合I_v,i中选取三组图像子集，分别记为I_v,a、I_v,p和I_v,n，其中，集合I_v,a和I_v,p中对应步态图像应具有相同的身份标签；集合I_v,a和I_v,n中对应的步态图像应具有不同的身份标签；

S3：更新图像真假判别器D_rf的网络参数；设置损失函数L_rf，采用反向传播算法和梯度下降法更新网络参数，所述损失函数L_rf为：

其中，

代表期望；D_rf(x)代表以图像x作为输入时判别器D_rf的输出；G(y,v_t)代表以图像y作为输入、v_t作为目标视角时图像生成器G的输出；

将更新后图像真假判别器D_rf中CNN网络的参数共享复用于步态图像视角判别器D_view中CNN网络中；

S4：更新步态图像视角判别器D_view的网络参数；设置损失函数L_view，采用反向传播算法和梯度下降法更新网络参数，所述损失函数L_view为：

其中，L_CE(·)代表交叉熵损失函数D_rf(x)代表以图像x作为输入时判别器D_view的输出；

将更新后步态图像视角判别器D_view中CNN网络的参数反向共享复用于图像真假判别器D_rf中CNN网络中；

S5：更新跨视角身份保持判别器D_cr的网络参数；设置损失函数L_cr，采用反向传播算法和梯度下降法更新网络参数，所述损失函数L_cr为：

L_cr＝(L_crg+L_crl)/2

其中，D_crg(x,y)表示图像对(x,y)作为输入时跨视角身份保持判别器D_cr中全局信息判别分支D_crg的输出，相似地，D_crl(x,y)表示图像对(x,y)作为输入时跨视角身份保持判别器D_cr中局部信息判别分支D_crl的输出；

S6：更新同视角身份保持判别器D_ca的网络参数；设置损失函数L_ca，采用反向传播算法和梯度下降法更新网络参数，所述损失函数L_ca为：

L_ca＝(L_cag+L_cal)/2

其中，D_cag(x,y)表示图像对(x,y)作为输入时同视角身份保持判别器D_ca中全局信息判别分支D_cag的输出，相似地，D_cal(x,y)表示图像对(x,y)作为输入时同视角身份保持判别器D_ca中局部信息判别分支D_cal的输出；

S7：更新图像生成器G的网络参数；设置损失函数L_G，采用反向传播算法和梯度下降法更新网络参数，所述损失函数L_G为：

其中，α、β和m为超参数，d(·,·)代表两图像之间的欧式距离；

S8：再次更新图像生成器G的网络参数θ_G；设置损失函数

采用反向传播算法和梯度下降法更新网络参数，所述损失函数

为：

其中，γ、η和k均为超参数，且γ＝α、η＝β、k＝m；

S9：循环重复步骤S2到S8，直到以上所有损失函数趋于稳定，完成训练。

本发明的有益效果在于：

首先，该方法通过引入步态图像视角判别器D_view加入训练过程，从而使训练完成后的视角转化模型具有将输入步态图像转化至任意视角的能力，即相比于其他视角转化方法只能将输入步态图像转化至某一固定视角(该视角无法在使用过程中随意设置和更改)，本方法可以由用户指定某一输入步态图像需要转化到的目标视角，随后图像生成器G便可以准确生成该目标视角下的步态图像。对于步态图像视角转化模型来说，拥有此能力可以帮助有效提升跨视角步态识别的准确率；具体地说，在利用人体步态进行身份识别的过程中，对于注册集步态图像和验证集步态图像视角有差异的情况，可以将以上步态图像输入本发明的步态图像视角转化模型，从而生成在各个视角下的注册集和验证集步态图像。例如，假设注册集步态图像A位于18度视角，验证集步态图像B位于144度视角，利用该视角转化模型，可以将A分别转化至0度，36度，90度，144度和180度，将B也同时转化至以上五个角度，随后利用A和B转化后的相同视角的对应图像进行身份相似度计算，得到A和B在该五种视角下相似度值，最后利用相关数据融合算法将这五个相似度值进行融合，从而得出A和B具有相同身份的概率；由于五种相似度值的计算都是在视角相同的情况下，因此身份判别的难度较视角不同时大大降低，与此同时，由于A和B在各个视角下的图像被充分利用，不同视角下所反映出的更加丰富的身份信息会有助于提升身份识别的准确率，而以上识别过程的核心技术便是本发明提出的视角转化模型；

其次，本发明通过引入身份判别器D_cr和D_ca以及损失值

和

加入训练过程，可以确保训练完成后的视角转化模型在视角转化的过程中不丢失身份信息；从而使得视角转化后的步态图像仍能准确反映步态的身份，避免视角转化过程出现图像失真、模式坍塌等现象。不对视角转化后对于步态图像的身份识别产生消极影响。

附图说明

图1为本发明实施例中图像生成器G网络结构示意图。

图2为本发明实施例中图像真假判别器D_rf网络结构示意图。

图3为本发明实施例中步态图像视角判别器D_view网络结构示意图。

图4为本发明实施例中跨视角身份保持判别器D_cr网络结构示意图。

图5为本发明实施例中同视角身份保持判别器D_ca网络结构示意图。

图6为本发明实施例中基于生成对抗网络的人体步态图像视角转化方法的流程图。

图7为本发明实施例中视角转化效果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施例和附图，对本发明作进一步地详细描述。

本实施例提供一种基于生成对抗网络的人体步态图像视角转化方法，具体包括如下步骤：

步骤1：提取步态视频的视频图像的人体轮廓，获取各视频图像的步态能量图：

基于高斯背景模型对步态视频序列进行背景建模，通过前背景分离得到二值化的步态前景轮廓图；

随后，对步态前景图轮廓图进行范围归一化处理，将图像的灰度值归一化到[0,255]的区间范围内，并利用图像形态学操作处理轮廓图；再对单位步态周期的二值化步态轮廓进行平均处理，得到步态能量图；为了方便叙述，下文中所述“步态图像”均指步态能量图；

步骤2：根据应用场景的实际情况，确定视角转化的目标角度，将步态图像通过视角转化网络，转化到对应目标视角下的步态图像。

具体表现为首先构建视角转化网络并基于对应的训练集进行网络训练，随后利用训练好的网络对测试环境下输入的步态图像进行视角转化，从而得到目标视角下的步态图像：

所述视角转化网络的构建具体为：视角转化网络是指具有多个判别器的生成对抗网络，用以将任意视角下的步态图像转化成目标视角下对应的步态图像；

所述视角转化网络包括：1个图像生成器G和4个判别器，4个判别器分别为图像真假判别器D_rf、步态图像视角判别器D_view、跨视角身份保持判别器D_cr与同视角身份保持判别器D_ca。更为具体的讲：

1)所述图像生成器G用于将输入的任意视角下的步态图像转化成目标视角下的步态图像；其本质是一个拥有对称结构的自编码器，输入为需要进行视角转化的步态图像及其需要转化的目标视角，输出为其对应的目标视角下的步态图像。其具体网络结构如图1所示，主要由相互对称的卷积神经网络(Convolutional Neural Network，以下简称CNN网络)和转置卷积神经网络(TransposeConvolutional Neural Network，以下简称TCNN网络)组成；其中，CNN网络用于对输入图像提取特征，而TCNN网络则利用前述特征生成步态图像。因为在视角转换任务中，生成的步态图像需要与输入的步态图像保持相同的分辨率，为了达到这个目的，CNN网络的层数需要与TCNN网络的保持一致，整个网络结构呈相互对称的关系；具体网络参数设置如表一所示：

表一：图像生成器网络参数

值得注意的是，为了充分利用CNN网络由低到高每一层的特征信息，在G中使用了跳跃连接的结构，即将生成器G中CNN网络和TCNN网络对应层使用元素相加的方法短路连接起来，例如在上表中将CNN网络第三层的输出与TCNN网络中第二层的输入相加，形成短路连接；

2)所述图像真假判别器D_rf主要用于判断输入图像是来源于图像生成器G生成图像(以下简称为假图像)还是来源于训练集中真实存在的图像(以下简称为真图像)；其本质是一个二分类器，输入为图像数据，输出为判决结果；其中，输出1代表判决为真图像，输出0代表判决为假图像。其具体网络结构如图2所示，由CNN网络和全连接层(Fully ConnectedLayer，以下简称FC网络)组成；其中，具体网络参数设置如表二所示：

表二：真假判决器网络参数

层序	输入通道数/维度	输出通道数/维度	卷积核大小	步长
					CNN-1	1	32	3	2
CNN-2	32	64	3	2
					CNN-3	64	128	3	2
CNN-4	128	256	3	2
					CNN-5	256	512	3	1
FC-1	512	100	-	-
					FC-2	100	50	-	-
FC-3	50	10	-	-
					FC-4	10	1	-	-

3)与此同时，为了实现非固定目标视角的步态图像视角转换功能，本发明引入了步态图像视角判别器D_view，其目的在于判断输入的步态图像所处的视角；其本质为一个多分类器，输入为步态能量图，输出为该步态能量图所处的视角。其具体网络结构如图3所示，从图3可以看出，其具体结构与图像真假判别器相似，均是由CNN网络和FC网络构成，分别用于对输入图像提取特征及降维；不同之处在于FC网络的层数及最终网络输出的维度有所差异，具体网络参数如表三所示：

表三：步态图像视角判别器参数

层序	输入通道数/维度	输出通道数/维度	卷积核大小	步长
					CNN-1	1	32	3	2
CNN-2	32	64	3	2
					CNN-3	64	128	3	2
CNN-4	128	256	3	2
					CNN-5	256	512	3	1
FC-1	512	100	-	-
					FC-2	100	50	-	-
FC-3	50	步态图像视角数量	-	-

4)最后，对于步态图像视角转化任务来说，仅仅获取粗糙的人体步态行走轮廓显然是不够的，视角转化后的步态图像应该具有与输入步态图像相同的身份信息，因此，在此基础上跨视角身份保持判别器D_cr和同视角身份保持判别器D_ca用于监督帮助图像生成器在步态图像视角转化的过程中身份信息不发生丢失；跨视角身份保持判别器D_cr和同视角身份保持判别器D_ca的结构分别如图5和6所示，其输入均为一图像对，输出为该图像对是否具有相同身份标签的判决结果，其中，1代表图像对具有相同身份标签，0代表图像对具有不同身份标签。跨视角身份保持判别器D_cr和同视角身份保持判别器D_ca均由CNN网络和FC网络构成，并包含两个不同的网络分支，在每个分支中使用不同大小的卷积核对输入图像对进行特征提取，并且两个网络分支的卷积层数也有所不同，这么设计的目的在于分别从全局特征层面和局部特征层面判断输入图像对的特征信息。为了方便表示，将跨视角身份保持判别器D_cr和同视角身份保持判别器D_ca中的两个网络分支分别表示为：全局信息判别分支D_crg和D_cag、局部信息判别分支D_crl和D_cal；其中，两个判别器的局部信息判别分支D_crl和D_cal仅由CNN层组成，将最后一层CNN输出的特征图通过sigmoid激活函数得到范围在0和1之间的数值，代表特征图上每一个像素点所对应的原图像对感受野部分的身份信息判决结果，是在局部区域对图像的身份信息进行判别；全局信息判别分支D_crg和D_cag则依旧由CNN网络和FC网络构成，输出为范围在0和1之间的一个数值，是在全局特征的角度对输入图像对进行身份判别。跨视角身份保持判别器D_cr和同视角身份保持判别器D_ca在结构上唯一的不同之处在于：D_cr将输入图像所处视角下的步态图像与目标视角下的步态图像进行对比判别，判断输入的图像对是否具有相同的身份标签，即输入的图像对处在不同的视角下；而D_ca则是在目标视角下对输入的图像对进行对比判别，输入的图像处在相同的视角下；由于跨视角身份保持判别器D_cr和同视角身份保持判别器D_ca在网络结构中使用相同的网络结构参数，具体网络结构参数如表四所示：

表四：身份保持判别器网络参数

所述视角转化网络的训练与测试如图6所示，具体过程如下：

S1：图像预处理，利用高斯混合模型进行背景建模，进而提取人体轮廓，并通过归一化操作、图像形态学操作及平均操作得到步态能量图；由于该步骤相关技术较为成熟，且不是本发明的核心内容，故在此不再详细赘述；

S2：根据所使用步态数据库或实际应用场景相关情况，划分模型训练所用训练集；一般来说，训练集应包含充足的步态图像样本数量和拍摄视角，从而防止模型出现欠拟合或过拟合现象；

S3：将训练集中经过预处理后的步态图像，输入基于生成对抗网络的人体步态图像视角转化网络中进行网络训练：

S3-1：构建训练集，所述训练集中每个样本为(步态图像，视角，身份标签)；从训练集中随机抽取一定数量的步态图像，作为本次训练迭代过程的输入图像集合；为了方便下文的叙述表示,这里统一令I_v,i为某次迭代中的输入图像集合，其中，v代表集合中图像所对应的视角集合，i代表集合中图像所对应的身份标签的集合；随后通过随机数的方式确定本次训练迭代过程中视角转化的目标视角，并从训练集中选取具有该目标视角且与集合I_v,i中步态图像身份信息相对应的图像，作为本次训练迭代过程的真值图像集合，记做

其中，v_t为目标视角；从上面的表示中可以看出，集合I_v,i和

中对应图像拥有相同的身份标签；

S3-2：利用集合I_v,i和

中图像对真假判别器D_rf的参数进行更新；令

为D_rf网络中相关的可训练参数集合，其中主要包括CNN网络卷积核的权重、FC网络的权重等；利用如下函数对D_rf的输出计算损失值：

其中，

代表期望；D_rf(x)代表以图像x作为输入时真假判别器D_rf的输出；G(y,v_t)代表以图像y作为输入、v_t作为目标视角时图像生成器G的输出，相似的表示在后面的公式中以此类推；

计算此损失函数的目的在于通过得出损失值L_rf后，对

的值进行更新，从而提升D_rf判断输入图像真实性的能力，即能够准确判断出输入图像是来源于真实存在图像还是来源于G网络合成的图像；在得到损失值后，利用反向传播算法和梯度下降法计算梯度并更新

S3-3：设角度判别器D_view网络的可训练参数集合为

将真假判别器D_rf参数集合

中的CNN层的参数共享复制到角度判别器参数集合

中CNN层对应位置的参数中；

S3-4：利用步骤S3-1中图像集合

对角度判别器D_view的参数

进行更新，利用如下公式计算损失值L_view：

其中，L_CE(·)代表交叉熵损失函数、是一种在深度学习领域常用的损失函数，D_rf(x)代表以图像x作为输入时角度判别器D_view的输出；

计算此损失函数的目的在于通过调整D_view网络的参数

提升D_view网络判断输入步态图像所处视角的能力；在得出损失值L_view后，利用反向传播算法和梯度下降法计算梯度并更新

将训练完成后的角度判别器参数集合

中CNN层的参数共享复制到真假判别器D_rf参数集合

中CNN层对应位置的参数中，即实现反向共享；

S3-5：从训练集中再次抽取一定数量的步态图像，具体地，这些步态图像的视角均为v_t、且其对应的身份标签与集合I_v,i中任意一张步态图像的身份标签都不相同，令此步态图像集合为

其中，irr代表

中步态图像的身份标签集合；

设置跨视角身份保持判别器D_cr中可训练参数集合为

利用集合I_v,i、

和

中图像对跨视角身份保持判别器D_cr中参数

进行更新；利用如下公式计算损失值L_cr：

L_cr＝(L_crg+L_crl)/2

其中，

其中，D_crg(x,y)表示图像对(x,y)作为输入时跨视角身份保持判别器D_cr中全局信息判别分支D_crg的输出，相似地，D_crl(x,y)表示图像对(x,y)作为输入时跨视角身份保持判别器D_cr中局部信息判别分支D_crl的输出，在得到L_crg和L_crl的值后，将他们求平均即可得到L_cr的值；

在得出损失值L_cr后，利用反向传播算法和梯度下降算法计算梯度并更新

S3-6：设同视角身份保持判别器D_ca中可训练参数集合为

利用集合I_v,i、

和

中图像对同视角身份保持判别器D_ca中参数

进行更新；利用如下公式计算损失值L_ca：

L_ca＝(L_cag+L_cal)/2

其中，

其中，D_cag(x,y)表示图像对(x,y)作为输入时同视角身份保持判别器D_ca中全局信息判别分支D_cag的输出，相似地，D_cal(x,y)表示图像对(x,y)作为输入时同视角身份保持判别器D_ca中局部信息判别分支D_cal的输出，在得到L_cag和L_cal的值后，将他们求平均即可得到L_ca的值；

在得出损失值L_ca后，利用反向传播算法和梯度下降算法计算梯度并更新

计算步骤S3-5和S3-6中损失值L_cr和L_ca的目的在于，通过更新

和

的值，提升判别器D_cr和D_ca判断输入图像对是否具有相同身份标签的能力；

S3-7：设图像生成器G中的可训练参数集合为θ_G，利用集合

和

中图像对图像生成器G中参数θ_G进行更新；值得注意的是，在执行这一步骤前，需要另从集合I_v,i中选取三组图像子集，分别记为I_v,a、I_v,p和I_v,n，其中集合I_v,a和I_v,p中对应步态图像应具有相同的身份标签；集合I_v,a和I_v,n中对应的步态图像应具有不同的身份标签；随后，利用如下公式计算损失值L_G：

其中，损失值

的计算利用如下公式：

其具体意义在于通过对图像生成器G网络参数的训练使得G生成的图像与训练集中的真实步态图像满足相似的数据分布，从而尽可能让图像真假判别器D_rf错误地将图像生成器G生成图像的判断为真实图像；

损失值

的计算利用如下公式：

其具体意义在于通过此损失函数的计算从而对G网络进行训练，使得生成步态图像的视角尽可能接近在输入时指定的目标视角v_t；

损失值

和

的计算分别利用如下公式：

具体意义在于通过这两个损失函数的计算对G网络进行训练，使得步态图像在视角转化的过程尽可能保存其身份特征，从而尽可能让判别器D_cr和D_ca将以上公式中输入的图像对判断为具有一致的身份标签；

损失值

的计算满足以下公式：

其中，α为超参数、由用户根据应用场景的实际情况自行确定(一般建议取1000)，计算此损失函数的目的在于通过直接计算真值图像和G网络生成图像之间的像素域差别，进一步增强生成步态图像的准确性，同时也保证图像生成网络G生成多样性图像的能力，避免生成对抗网络出现模式坍塌现象；

损失值

使用如下公式进行计算：

其中，d(·,·)代表两图像之间的欧式距离，β和m为超参数、由用户根据实际应用场景自行确定(一般建议β取100、m取0.3)；计算此损失函数的目的在于通过对G网络的参数进行训练，使得G网络输出的视角转化后的步态图像的身份信息更加清晰明显，即身份标签相同的步态图像之间的差异较小，身份标签不同的步态图像之间的差异较大，这么做有助于提升后续步态身份识别的准确率。

在得出上述不同损失函数的值后，计算得出L_G的值，利用反向传播算法和梯度下降算法计算梯度并更新θ_G；

S3-8：利用集合I_v,i中图像再次对图像生成器G中参数θ_G进行更新，利用如下公式计算损失值：

其中，

在上面两个公式中，γ、η和k均为超参数、在训练的过程中，应保持γ、η和k的值分别与步骤S3-7中α、β和m的值一一对应相等；

从此步骤的公式中可以发现，损失值

和

在计算形式上与步骤S38中损失值

和

相似，唯一的不同之处在于，

和

的计算是在目标视角v_t下对图像生成器G生成的图像计算损失值；相比之下，

和

的计算则是将生成器G生成的图像结合图像视角转化前的视角v重新输入进G中，又得到转化前视角下的步态图像从而进一步计算该损失值；这么做的目的在于通过

和

更新优化θ_G，使得视角转化后生成的步态图像能够再通过图像生成器G准确还原回视角转化前的步态图像，从而增强视角转化前后步态图像的一一对应关系，增加其在高层身份信息上的相似度，提升步态图像视角转化的准确性；

S3-9：循环重复步骤S3-1到S3-8，直到以上所有损失值趋于稳定为止；可以发现，在执行步骤S3-1到S3-8的过程中，所有的判别网络(包括D_rf、D_view、D_cr、D_ca)和图像生成网络G在各自参数学习更新的过程中相互对抗，相互博弈，从而使得判别网络的判别能力和图像生成网络的图像生成能力在训练过程中共同提升，从而最终得到满足本发明应用场景要求的视角转化网络；

S4：待模型训练完成后，将图像生成器G网络的参数θ_G存储起来，其余网络的参数可丢弃，从而节省存储空间；将数据库中的测试集或实际应用场景中需要进行视角转化的步态图像，结合用户指定的目标角度，输入图像生成器中，进行步态图像视角的转化；其中，对于有携带物、穿衣等复杂行走状态下的步态图像，同样可以直接输入到视角转化网络中转化成目标视角下正常行走的步态图像；利用本发明进行步态图像视角转化的部分效果示意图如图7所示，由图可见，本发明所提出的步态图像视角转化方法可以将输入的某一步态图像转化至多个目标视角，在视角转化完成后，可以对生成的步态图像进行身份识别等进一步处理。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.基于生成对抗网络的人体步态图像视角转化方法，包括以下步骤：

步骤1：基于高斯背景模型对步态视频序列进行背景建模，通过背景提取得到二值化的步态前景轮廓图；对步态前景图轮廓图进行范围归一化处理，随后利用图像形态学操作对轮廓图进行进一步处理，最后对处理后且位于单位步态周期的步态轮廓图进行平均处理，得到步态图像；

所述跨视角身份保持判别器D_cr与同视角身份保持判别器D_ca结构相同、均由局部信息判别分支和全局信息判别分支构成，为了方便表述，将D_cr和D_ca的全局信息判别分支分别令为D_crg和D_cag，局部信息判别分支分别令为D_crl和D_cal；其中，局部信息判别分支由CNN网络组成、包括4层卷积层；全局信息判别分支由CNN网络和FC网络组成，CNN网络包括5层卷积层，FC网络与图像真假判别器D_rf中FC网络结构相同；

所述视角转化网络的训练过程如下：

S2：从训练集中随机抽取一定数量的训练样本、作为本次训练迭代过程的输入图像集合I_v,i，再通过随机数的方式确定本次训练迭代过程中视角转化的目标视角v_t，并从训练集中选取具有该目标视角且与集合I_v,i中步态图像身份标签相对应的图像、作为本次训练迭代过程的真值图像集合I_vt,i；

从训练集中再次抽取一定数量的训练样本，构成步态图像集合为I_vt,irr，所述步态图像集合为I_vt,irr中步态图像的视角均为v_t、且其对应的身份标签与集合I_v,i中任意一张步态图像的身份标签都不相同；

其中，

其中，L_CE(·)代表交叉熵损失函数，D_view(x)代表以图像x作为输入时判别器D_view的输出；

L_cr＝(L_crg+L_crl)/2

L_ca＝(L_cag+L_cal)/2

S8：再次更新图像生成器G的网络参数θ_G；设置损失函数

为：

其中，γ、η和k均为超参数，且γ＝α、η＝β、k＝m；

2.按权利要求1所述基于生成对抗网络的人体步态图像视角转化方法，其特征在于，所述图像生成器G中，CNN网络和TCNN网络的每层卷积层的卷积核大小为4、步长为2；所述CNN网络中第1层卷积层的输入通道数为1，第1层～第4层卷积层的输出通道数依次为96、192、384、768；所述TCNN网络与CNN网络对称设置。

3.按权利要求1所述基于生成对抗网络的人体步态图像视角转化方法，其特征在于，所述图像真假判别器D_rf中，CNN网络的每层卷积层的卷积核大小为3，第1层～第4层卷积层的步长为2、第5层的卷积层的步长为1，第1层卷积层的输入通道数为1，第1层～第5层卷积层的输出通道数依次为32、64、128、256、512；FC网络的第1层全连接层的输入通道数为512，第1层～第4层全连接层的输出通道数依次为100、50、10、1。

4.按权利要求1所述基于生成对抗网络的人体步态图像视角转化方法，其特征在于，所述步态图像视角判别器D_view中，FC网络的第1层全连接层的输入通道数为512，第1层～第3层全连接层的输出通道数依次为100、50、Q，Q表示步态图像视角总数。

5.按权利要求1所述基于生成对抗网络的人体步态图像视角转化方法，其特征在于，所述跨视角身份保持判别器D_cr中，局部信息判别分支中CNN网络的每层卷积层的步长为2，第1层～第3层卷积层的卷积核大小为2、第4层卷积层的卷积核大小为1，第1层卷积层的输入通道数为2，第1层～第4层卷积层的输出通道数依次为32、64、128、1；