CN112580445B - 基于生成对抗网络的人体步态图像视角转化方法 - Google Patents
基于生成对抗网络的人体步态图像视角转化方法 Download PDFInfo
- Publication number
- CN112580445B CN112580445B CN202011406087.4A CN202011406087A CN112580445B CN 112580445 B CN112580445 B CN 112580445B CN 202011406087 A CN202011406087 A CN 202011406087A CN 112580445 B CN112580445 B CN 112580445B
- Authority
- CN
- China
- Prior art keywords
- network
- image
- gait
- discriminator
- visual angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
- G06V40/25—Recognition of walking or running movements, e.g. gait recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明属于步态识别技术领域,具体提供一种基于生成对抗网络的人体步态图像视角转化方法。本发明通过在训练过程中引入多种不同类型的判别器,并通过合理设置训练策略,从而使得该视角转化方法可以将输入视角下步态图像转化到多个不同目标视角,并且在转化的过程中有效避免身份信息的丢失。该视角转化方法可以被有效应用在跨视角步态识别场景中,通过将不同视角的步态图像转化到多个统一的视角,一方面,消除了视角差异对于步态识别准确率的影响,另一方面,相比于其他方法只转化到一个统一视角,本方法通过转化到多个统一视角,为后续身份识别提供了更加丰富的数据,可以有效提升跨视角步态识别准确率。
Description
技术领域
本发明属于步态识别技术领域,具体涉及一种基于生成对抗网络的人体步态图像视角转化方法。
背景技术
随着现代社会的快速发展,信息化和智能化已经逐渐深入社会建设的各个方面;而运用信息技术和智能技术保障社会安全,降低各类违法犯罪率,提升人民生活的安全感和幸福感是社会建设中的重要一环;在这当中,对于用户进行身份识别是保障公民个人信息安全和公共安全的有效手段之一。相比于传统的人体身份识别特征诸如人脸、指纹、DNA等,人体步态特征的获取无需受测者的配合,无需侵入受测者体内,识别距离较远,能够在受测者未察觉的情况下获取身份特征,从而难以对识别***进行误导和欺骗;与此同时,相比于DNA等需要进行化学提取和分析的生物特征,步态特征可以通过监控摄像头直接获取并进行识别,其实时性较高。因此,步态识别作为一种生物特征识别技术,具有重要潜在应用价值。
然而,步态识别技术在发展的过程中,也面临着一些棘手的问题,其中,跨视角问题是最具有代表性的一类;由于人体行走方向的不确定性,摄像头与人体往往形成一定的角度,在不同角度下得到的具有相同身份的人体步态图像具有显著差别。根据相关文献和资料,在步态识别的应用场景中,当获取到的需要识别的步态图像集(验证集)的视角与用于比对的步态图像集(注册集)的视角差别较大时,步态身份识别的准确率会出现断崖式地下降;这也成为了步态识别走向大规模应用的一大障碍。
传统的基于图像特征提取的步态识别方法由于在视角跨度较大的情形下难以有效提取与角度无关的人体步态特征,故识别率受视角变化的影响较为严重。而近些年来,随着机器学习技术和深度学习技术的不断发展,有研究人员开始尝试将不同视角下的步态图像转化到统一视角,以此来消除视角差异对于步态识别的影响,并且已经取得了一定的研究成果,被学术界和工业界认为是解决跨视角步态识别问题的一种有效思路。而步态图像视角转化作为这一过程的核心技术,其方法性能的优劣对于能否有效提升跨视角步态识别准确率来说至关重要。然而,就目前的研究及应用状况来说,现有的人体步态图像视角转化方法往往只是相对粗糙地对人体行走轮廓进行角度转化,在转化过程中丢失了许多不同人体步态图像所独有的身份信息,因此得到的转化后图像往往存在着失真、与原图像差异过大、不同类别间差异不明显等情况,会严重影响后续步态识别的准确率。除此之外,现有的步态图像视角转化方法往往只能将不同视角下的步态图像转化到某一固定的视角,比如统一转化到90度视角下的步态图像;然而,对于步态身份识别任务来说,某一固定视角下的步态图像含有的身份信息往往较为有限,例如90度视角下的步态图像无法反映测试者正面的身材、走路时身体的左右摇晃等信息;而0度视角下的步态图像无法反映测试者行走时四肢的摆动,身体的前后摇晃和形体姿态(如驼背)等信息,而上述这些信息都可以作为判断受测者身份的重要依据;可见,只将步态图像转化至某一固定视角,可能会造成某些对识别来说重要的身份信息在这一视角下无法表现出来,从而对身份的识别造成局限。
这对以上问题,我们对人体步态图像的视角转化方法展开研究,并且提出一种新型的基于生成对抗网络的人体步态图像视角转化方法,从而利用某一个体在某一视角下的步态图像,得到该个体其他不同视角的清晰准确的步态图像,对于提升跨视角步态识别的准确率,推动步态识别尽快走向实际应用具有重要意义。
发明内容
本发明的目的在于针对步态图像视角转化过程中存在的问题,提供了一种基于生成对抗网络的人体步态图像视角转化方法;不同于以往方法中只能将步态图像转化至某一固定视角,本发明能够由某一视角下的步态图像,直接一次性得到该个体在所有视角下对应的步态图像,并且在转化过程中避免其身份信息发生丢失。利用此视角转化模型,一方面能够消除注册集和验证集之间步态图像视角差异对于步态识别任务造成的影响,另一方面,利用得到的不同视角下的步态图像,能够获取到反映该个体身份的更加丰富的特征,从而有效提高跨视角步态身份识别的准确性。
为实现上述目的,本发明采用的技术方案为:
一种基于生成对抗网络的人体步态图像视角转化方法,包括以下步骤:
步骤1:基于高斯背景模型对步态视频序列进行背景建模,通过背景提取得到二值化的步态前景轮廓图;对步态前景图轮廓图进行范围归一化处理,随后利用图像形态学操作对轮廓图进行进一步处理,消除轮廓图中存在的空洞和噪声,最后对以上处理过后且位于单位步态周期的步态轮廓图进行平均处理,得到步态图像;
步骤2:根据预设目标角度,将步态图像与目标视角输入视角转化网络,视角转化网络输出目标视角下步态图像;
所述视角转化网络为具有多个判别器的生成对抗网络,包括:图像生成器G、图像真假判别器Drf、步态图像视角判别器Dview、跨视角身份保持判别器Dcr与同视角身份保持判别器Dca;
所述图像生成器G由相互对称的CNN网络(卷积神经网络)和TCNN网络(转置卷积神经网络)组成,且CNN网络和TCNN网络中对称层短路连接;其中,CNN网络和TCNN网络均包括4层卷积层;
进一步的,所述图像生成器G中,CNN网络和TCNN网络的每层卷积层的卷积核大小为4、步长为2;所述CNN网络中第1层卷积层的输入通道数为1,第1层~第4层卷积层的输出通道数依次为96、192、384、768;所述TCNN网络与CNN网络对称设置。
所述图像真假判别器Drf由CNN网络和FC网络组成;其中,CNN网络包括5层卷积层,FC网络包括4层全连接层;
进一步的,所述图像真假判别器Drf中,CNN网络的每层卷积层的卷积核大小为3,第1层~第4层卷积层的步长为2、第5层的卷积层的步长为1,第1层卷积层的输入通道数为1,第1层~第5层卷积层的输出通道数依次为32、64、128、256、512;FC网络的第1层全连接层的输入通道数为512,第1层~第4层全连接层的输出通道数依次为100、50、10、1。
所述步态图像视角判别器Dview由CNN网络和FC网络组成,其中,CNN网络与图像真假判别器Drf中CNN网络相同,FC网络包括3层全连接层;
进一步的,所述步态图像视角判别器Dview中,FC网络的第1层全连接层的输入通道数为512,第1层~第3层全连接层的输出通道数依次为100、50、Q,Q表示步态图像视角总数。
所述跨视角身份保持判别器Dcr与同视角身份保持判别器Dca结构相同、均由局部信息判别分支和全局信息判别分支构成,为了方便表述,将Dcr和Dca的全局信息判别分支分别令为Dcrg和Dcag,局部信息判别分支分别令为Dcrl和Dcal。其中,局部信息判别分支由CNN网络组成、包括4层卷积层;全局信息判别分支由CNN网络和FC网络组成,CNN网络包括5层卷积层,FC网络与图像真假判别器Drf中FC网络结构相同;
进一步的,所述跨视角身份保持判别器Dcr中,局部信息判别分支中CNN网络的每层卷积层的步长为2,第1层~第3层卷积层的卷积核大小为2、第4层卷积层的卷积核大小为1,第1层卷积层的输入通道数为2,第1层~第4层卷积层的输出通道数依次为32、64、128、1;
全局信息判别分支中CNN网络的每层卷积层的卷积核大小为3,第1层~第4层卷积层的步长为2、第五层的卷积层的步长为1,第1层卷积层的输入通道数为2,第1层~第5层卷积层的输出通道数依次为32、64、128、256、512。
进一步的,所述视角转化网络的训练过程如下:
S1:构建训练集,采用与步骤1相同的数据预处理得到步态图像,并按照(步态图像,视角,身份标签)构建训练样本,进而构成训练集;
S2:从训练集中随机抽取一定数量的训练样本、作为本次训练迭代过程的输入图像集合Iv,i,再通过随机数的方式确定本次训练迭代过程中视角转化的目标视角vt,并从训练集中选取具有该目标视角且与集合Iv,i中步态图像身份标签相对应的图像,作为本次训练迭代过程的真值图像集合
从集合Iv,i中选取三组图像子集,分别记为Iv,a、Iv,p和Iv,n,其中,集合Iv,a和Iv,p中对应步态图像应具有相同的身份标签;集合Iv,a和Iv,n中对应的步态图像应具有不同的身份标签;
S3:更新图像真假判别器Drf的网络参数;设置损失函数Lrf,采用反向传播算法和梯度下降法更新网络参数,所述损失函数Lrf为:
将更新后图像真假判别器Drf中CNN网络的参数共享复用于步态图像视角判别器Dview中CNN网络中;
S4:更新步态图像视角判别器Dview的网络参数;设置损失函数Lview,采用反向传播算法和梯度下降法更新网络参数,所述损失函数Lview为:
其中,LCE(·)代表交叉熵损失函数Drf(x)代表以图像x作为输入时判别器Dview的输出;
将更新后步态图像视角判别器Dview中CNN网络的参数反向共享复用于图像真假判别器Drf中CNN网络中;
S5:更新跨视角身份保持判别器Dcr的网络参数;设置损失函数Lcr,采用反向传播算法和梯度下降法更新网络参数,所述损失函数Lcr为:
Lcr=(Lcrg+Lcrl)/2
其中,Dcrg(x,y)表示图像对(x,y)作为输入时跨视角身份保持判别器Dcr中全局信息判别分支Dcrg的输出,相似地,Dcrl(x,y)表示图像对(x,y)作为输入时跨视角身份保持判别器Dcr中局部信息判别分支Dcrl的输出;
S6:更新同视角身份保持判别器Dca的网络参数;设置损失函数Lca,采用反向传播算法和梯度下降法更新网络参数,所述损失函数Lca为:
Lca=(Lcag+Lcal)/2
其中,Dcag(x,y)表示图像对(x,y)作为输入时同视角身份保持判别器Dca中全局信息判别分支Dcag的输出,相似地,Dcal(x,y)表示图像对(x,y)作为输入时同视角身份保持判别器Dca中局部信息判别分支Dcal的输出;
S7:更新图像生成器G的网络参数;设置损失函数LG,采用反向传播算法和梯度下降法更新网络参数,所述损失函数LG为:
其中,α、β和m为超参数,d(·,·)代表两图像之间的欧式距离;
其中,γ、η和k均为超参数,且γ=α、η=β、k=m;
S9:循环重复步骤S2到S8,直到以上所有损失函数趋于稳定,完成训练。
本发明的有益效果在于:
首先,该方法通过引入步态图像视角判别器Dview加入训练过程,从而使训练完成后的视角转化模型具有将输入步态图像转化至任意视角的能力,即相比于其他视角转化方法只能将输入步态图像转化至某一固定视角(该视角无法在使用过程中随意设置和更改),本方法可以由用户指定某一输入步态图像需要转化到的目标视角,随后图像生成器G便可以准确生成该目标视角下的步态图像。对于步态图像视角转化模型来说,拥有此能力可以帮助有效提升跨视角步态识别的准确率;具体地说,在利用人体步态进行身份识别的过程中,对于注册集步态图像和验证集步态图像视角有差异的情况,可以将以上步态图像输入本发明的步态图像视角转化模型,从而生成在各个视角下的注册集和验证集步态图像。例如,假设注册集步态图像A位于18度视角,验证集步态图像B位于144度视角,利用该视角转化模型,可以将A分别转化至0度,36度,90度,144度和180度,将B也同时转化至以上五个角度,随后利用A和B转化后的相同视角的对应图像进行身份相似度计算,得到A和B在该五种视角下相似度值,最后利用相关数据融合算法将这五个相似度值进行融合,从而得出A和B具有相同身份的概率;由于五种相似度值的计算都是在视角相同的情况下,因此身份判别的难度较视角不同时大大降低,与此同时,由于A和B在各个视角下的图像被充分利用,不同视角下所反映出的更加丰富的身份信息会有助于提升身份识别的准确率,而以上识别过程的核心技术便是本发明提出的视角转化模型;
附图说明
图1为本发明实施例中图像生成器G网络结构示意图。
图2为本发明实施例中图像真假判别器Drf网络结构示意图。
图3为本发明实施例中步态图像视角判别器Dview网络结构示意图。
图4为本发明实施例中跨视角身份保持判别器Dcr网络结构示意图。
图5为本发明实施例中同视角身份保持判别器Dca网络结构示意图。
图6为本发明实施例中基于生成对抗网络的人体步态图像视角转化方法的流程图。
图7为本发明实施例中视角转化效果示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施例和附图,对本发明作进一步地详细描述。
本实施例提供一种基于生成对抗网络的人体步态图像视角转化方法,具体包括如下步骤:
步骤1:提取步态视频的视频图像的人体轮廓,获取各视频图像的步态能量图:
基于高斯背景模型对步态视频序列进行背景建模,通过前背景分离得到二值化的步态前景轮廓图;
随后,对步态前景图轮廓图进行范围归一化处理,将图像的灰度值归一化到[0,255]的区间范围内,并利用图像形态学操作处理轮廓图;再对单位步态周期的二值化步态轮廓进行平均处理,得到步态能量图;为了方便叙述,下文中所述“步态图像”均指步态能量图;
步骤2:根据应用场景的实际情况,确定视角转化的目标角度,将步态图像通过视角转化网络,转化到对应目标视角下的步态图像。
具体表现为首先构建视角转化网络并基于对应的训练集进行网络训练,随后利用训练好的网络对测试环境下输入的步态图像进行视角转化,从而得到目标视角下的步态图像:
所述视角转化网络的构建具体为:视角转化网络是指具有多个判别器的生成对抗网络,用以将任意视角下的步态图像转化成目标视角下对应的步态图像;
所述视角转化网络包括:1个图像生成器G和4个判别器,4个判别器分别为图像真假判别器Drf、步态图像视角判别器Dview、跨视角身份保持判别器Dcr与同视角身份保持判别器Dca。更为具体的讲:
1)所述图像生成器G用于将输入的任意视角下的步态图像转化成目标视角下的步态图像;其本质是一个拥有对称结构的自编码器,输入为需要进行视角转化的步态图像及其需要转化的目标视角,输出为其对应的目标视角下的步态图像。其具体网络结构如图1所示,主要由相互对称的卷积神经网络(Convolutional Neural Network,以下简称CNN网络)和转置卷积神经网络(TransposeConvolutional Neural Network,以下简称TCNN网络)组成;其中,CNN网络用于对输入图像提取特征,而TCNN网络则利用前述特征生成步态图像。因为在视角转换任务中,生成的步态图像需要与输入的步态图像保持相同的分辨率,为了达到这个目的,CNN网络的层数需要与TCNN网络的保持一致,整个网络结构呈相互对称的关系;具体网络参数设置如表一所示:
表一:图像生成器网络参数
值得注意的是,为了充分利用CNN网络由低到高每一层的特征信息,在G中使用了跳跃连接的结构,即将生成器G中CNN网络和TCNN网络对应层使用元素相加的方法短路连接起来,例如在上表中将CNN网络第三层的输出与TCNN网络中第二层的输入相加,形成短路连接;
2)所述图像真假判别器Drf主要用于判断输入图像是来源于图像生成器G生成图像(以下简称为假图像)还是来源于训练集中真实存在的图像(以下简称为真图像);其本质是一个二分类器,输入为图像数据,输出为判决结果;其中,输出1代表判决为真图像,输出0代表判决为假图像。其具体网络结构如图2所示,由CNN网络和全连接层(Fully ConnectedLayer,以下简称FC网络)组成;其中,具体网络参数设置如表二所示:
表二:真假判决器网络参数
层序 | 输入通道数/维度 | 输出通道数/维度 | 卷积核大小 | 步长 |
CNN-1 | 1 | 32 | 3 | 2 |
CNN-2 | 32 | 64 | 3 | 2 |
CNN-3 | 64 | 128 | 3 | 2 |
CNN-4 | 128 | 256 | 3 | 2 |
CNN-5 | 256 | 512 | 3 | 1 |
FC-1 | 512 | 100 | - | - |
FC-2 | 100 | 50 | - | - |
FC-3 | 50 | 10 | - | - |
FC-4 | 10 | 1 | - | - |
3)与此同时,为了实现非固定目标视角的步态图像视角转换功能,本发明引入了步态图像视角判别器Dview,其目的在于判断输入的步态图像所处的视角;其本质为一个多分类器,输入为步态能量图,输出为该步态能量图所处的视角。其具体网络结构如图3所示,从图3可以看出,其具体结构与图像真假判别器相似,均是由CNN网络和FC网络构成,分别用于对输入图像提取特征及降维;不同之处在于FC网络的层数及最终网络输出的维度有所差异,具体网络参数如表三所示:
表三:步态图像视角判别器参数
层序 | 输入通道数/维度 | 输出通道数/维度 | 卷积核大小 | 步长 |
CNN-1 | 1 | 32 | 3 | 2 |
CNN-2 | 32 | 64 | 3 | 2 |
CNN-3 | 64 | 128 | 3 | 2 |
CNN-4 | 128 | 256 | 3 | 2 |
CNN-5 | 256 | 512 | 3 | 1 |
FC-1 | 512 | 100 | - | - |
FC-2 | 100 | 50 | - | - |
FC-3 | 50 | 步态图像视角数量 | - | - |
4)最后,对于步态图像视角转化任务来说,仅仅获取粗糙的人体步态行走轮廓显然是不够的,视角转化后的步态图像应该具有与输入步态图像相同的身份信息,因此,在此基础上跨视角身份保持判别器Dcr和同视角身份保持判别器Dca用于监督帮助图像生成器在步态图像视角转化的过程中身份信息不发生丢失;跨视角身份保持判别器Dcr和同视角身份保持判别器Dca的结构分别如图5和6所示,其输入均为一图像对,输出为该图像对是否具有相同身份标签的判决结果,其中,1代表图像对具有相同身份标签,0代表图像对具有不同身份标签。跨视角身份保持判别器Dcr和同视角身份保持判别器Dca均由CNN网络和FC网络构成,并包含两个不同的网络分支,在每个分支中使用不同大小的卷积核对输入图像对进行特征提取,并且两个网络分支的卷积层数也有所不同,这么设计的目的在于分别从全局特征层面和局部特征层面判断输入图像对的特征信息。为了方便表示,将跨视角身份保持判别器Dcr和同视角身份保持判别器Dca中的两个网络分支分别表示为:全局信息判别分支Dcrg和Dcag、局部信息判别分支Dcrl和Dcal;其中,两个判别器的局部信息判别分支Dcrl和Dcal仅由CNN层组成,将最后一层CNN输出的特征图通过sigmoid激活函数得到范围在0和1之间的数值,代表特征图上每一个像素点所对应的原图像对感受野部分的身份信息判决结果,是在局部区域对图像的身份信息进行判别;全局信息判别分支Dcrg和Dcag则依旧由CNN网络和FC网络构成,输出为范围在0和1之间的一个数值,是在全局特征的角度对输入图像对进行身份判别。跨视角身份保持判别器Dcr和同视角身份保持判别器Dca在结构上唯一的不同之处在于:Dcr将输入图像所处视角下的步态图像与目标视角下的步态图像进行对比判别,判断输入的图像对是否具有相同的身份标签,即输入的图像对处在不同的视角下;而Dca则是在目标视角下对输入的图像对进行对比判别,输入的图像处在相同的视角下;由于跨视角身份保持判别器Dcr和同视角身份保持判别器Dca在网络结构中使用相同的网络结构参数,具体网络结构参数如表四所示:
表四:身份保持判别器网络参数
所述视角转化网络的训练与测试如图6所示,具体过程如下:
S1:图像预处理,利用高斯混合模型进行背景建模,进而提取人体轮廓,并通过归一化操作、图像形态学操作及平均操作得到步态能量图;由于该步骤相关技术较为成熟,且不是本发明的核心内容,故在此不再详细赘述;
S2:根据所使用步态数据库或实际应用场景相关情况,划分模型训练所用训练集;一般来说,训练集应包含充足的步态图像样本数量和拍摄视角,从而防止模型出现欠拟合或过拟合现象;
S3:将训练集中经过预处理后的步态图像,输入基于生成对抗网络的人体步态图像视角转化网络中进行网络训练:
S3-1:构建训练集,所述训练集中每个样本为(步态图像,视角,身份标签);从训练集中随机抽取一定数量的步态图像,作为本次训练迭代过程的输入图像集合;为了方便下文的叙述表示,这里统一令Iv,i为某次迭代中的输入图像集合,其中,v代表集合中图像所对应的视角集合,i代表集合中图像所对应的身份标签的集合;随后通过随机数的方式确定本次训练迭代过程中视角转化的目标视角,并从训练集中选取具有该目标视角且与集合Iv,i中步态图像身份信息相对应的图像,作为本次训练迭代过程的真值图像集合,记做其中,vt为目标视角;从上面的表示中可以看出,集合Iv,i和中对应图像拥有相同的身份标签;
计算此损失函数的目的在于通过得出损失值Lrf后,对的值进行更新,从而提升Drf判断输入图像真实性的能力,即能够准确判断出输入图像是来源于真实存在图像还是来源于G网络合成的图像;在得到损失值后,利用反向传播算法和梯度下降法计算梯度并更新
其中,LCE(·)代表交叉熵损失函数、是一种在深度学习领域常用的损失函数,Drf(x)代表以图像x作为输入时角度判别器Dview的输出;
计算此损失函数的目的在于通过调整Dview网络的参数提升Dview网络判断输入步态图像所处视角的能力;在得出损失值Lview后,利用反向传播算法和梯度下降法计算梯度并更新将训练完成后的角度判别器参数集合中CNN层的参数共享复制到真假判别器Drf参数集合中CNN层对应位置的参数中,即实现反向共享;
S3-5:从训练集中再次抽取一定数量的步态图像,具体地,这些步态图像的视角均为vt、且其对应的身份标签与集合Iv,i中任意一张步态图像的身份标签都不相同,令此步态图像集合为其中,irr代表中步态图像的身份标签集合;
Lcr=(Lcrg+Lcrl)/2
其中,
其中,Dcrg(x,y)表示图像对(x,y)作为输入时跨视角身份保持判别器Dcr中全局信息判别分支Dcrg的输出,相似地,Dcrl(x,y)表示图像对(x,y)作为输入时跨视角身份保持判别器Dcr中局部信息判别分支Dcrl的输出,在得到Lcrg和Lcrl的值后,将他们求平均即可得到Lcr的值;
Lca=(Lcag+Lcal)/2
其中,
其中,Dcag(x,y)表示图像对(x,y)作为输入时同视角身份保持判别器Dca中全局信息判别分支Dcag的输出,相似地,Dcal(x,y)表示图像对(x,y)作为输入时同视角身份保持判别器Dca中局部信息判别分支Dcal的输出,在得到Lcag和Lcal的值后,将他们求平均即可得到Lca的值;
S3-7:设图像生成器G中的可训练参数集合为θG,利用集合和中图像对图像生成器G中参数θG进行更新;值得注意的是,在执行这一步骤前,需要另从集合Iv,i中选取三组图像子集,分别记为Iv,a、Iv,p和Iv,n,其中集合Iv,a和Iv,p中对应步态图像应具有相同的身份标签;集合Iv,a和Iv,n中对应的步态图像应具有不同的身份标签;随后,利用如下公式计算损失值LG:
其具体意义在于通过对图像生成器G网络参数的训练使得G生成的图像与训练集中的真实步态图像满足相似的数据分布,从而尽可能让图像真假判别器Drf错误地将图像生成器G生成图像的判断为真实图像;
其具体意义在于通过此损失函数的计算从而对G网络进行训练,使得生成步态图像的视角尽可能接近在输入时指定的目标视角vt;
具体意义在于通过这两个损失函数的计算对G网络进行训练,使得步态图像在视角转化的过程尽可能保存其身份特征,从而尽可能让判别器Dcr和Dca将以上公式中输入的图像对判断为具有一致的身份标签;
其中,α为超参数、由用户根据应用场景的实际情况自行确定(一般建议取1000),计算此损失函数的目的在于通过直接计算真值图像和G网络生成图像之间的像素域差别,进一步增强生成步态图像的准确性,同时也保证图像生成网络G生成多样性图像的能力,避免生成对抗网络出现模式坍塌现象;
其中,d(·,·)代表两图像之间的欧式距离,β和m为超参数、由用户根据实际应用场景自行确定(一般建议β取100、m取0.3);计算此损失函数的目的在于通过对G网络的参数进行训练,使得G网络输出的视角转化后的步态图像的身份信息更加清晰明显,即身份标签相同的步态图像之间的差异较小,身份标签不同的步态图像之间的差异较大,这么做有助于提升后续步态身份识别的准确率。
在得出上述不同损失函数的值后,计算得出LG的值,利用反向传播算法和梯度下降算法计算梯度并更新θG;
S3-8:利用集合Iv,i中图像再次对图像生成器G中参数θG进行更新,利用如下公式计算损失值:
其中,
在上面两个公式中,γ、η和k均为超参数、在训练的过程中,应保持γ、η和k的值分别与步骤S3-7中α、β和m的值一一对应相等;
从此步骤的公式中可以发现,损失值和在计算形式上与步骤S38中损失值和相似,唯一的不同之处在于,和的计算是在目标视角vt下对图像生成器G生成的图像计算损失值;相比之下,和的计算则是将生成器G生成的图像结合图像视角转化前的视角v重新输入进G中,又得到转化前视角下的步态图像从而进一步计算该损失值;这么做的目的在于通过和更新优化θG,使得视角转化后生成的步态图像能够再通过图像生成器G准确还原回视角转化前的步态图像,从而增强视角转化前后步态图像的一一对应关系,增加其在高层身份信息上的相似度,提升步态图像视角转化的准确性;
S3-9:循环重复步骤S3-1到S3-8,直到以上所有损失值趋于稳定为止;可以发现,在执行步骤S3-1到S3-8的过程中,所有的判别网络(包括Drf、Dview、Dcr、Dca)和图像生成网络G在各自参数学习更新的过程中相互对抗,相互博弈,从而使得判别网络的判别能力和图像生成网络的图像生成能力在训练过程中共同提升,从而最终得到满足本发明应用场景要求的视角转化网络;
S4:待模型训练完成后,将图像生成器G网络的参数θG存储起来,其余网络的参数可丢弃,从而节省存储空间;将数据库中的测试集或实际应用场景中需要进行视角转化的步态图像,结合用户指定的目标角度,输入图像生成器中,进行步态图像视角的转化;其中,对于有携带物、穿衣等复杂行走状态下的步态图像,同样可以直接输入到视角转化网络中转化成目标视角下正常行走的步态图像;利用本发明进行步态图像视角转化的部分效果示意图如图7所示,由图可见,本发明所提出的步态图像视角转化方法可以将输入的某一步态图像转化至多个目标视角,在视角转化完成后,可以对生成的步态图像进行身份识别等进一步处理。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (5)
1.基于生成对抗网络的人体步态图像视角转化方法,包括以下步骤:
步骤1:基于高斯背景模型对步态视频序列进行背景建模,通过背景提取得到二值化的步态前景轮廓图;对步态前景图轮廓图进行范围归一化处理,随后利用图像形态学操作对轮廓图进行进一步处理,最后对处理后且位于单位步态周期的步态轮廓图进行平均处理,得到步态图像;
步骤2:根据预设目标角度,将步态图像与目标视角输入视角转化网络,视角转化网络输出目标视角下步态图像;
所述视角转化网络为具有多个判别器的生成对抗网络,包括:图像生成器G、图像真假判别器Drf、步态图像视角判别器Dview、跨视角身份保持判别器Dcr与同视角身份保持判别器Dca;
所述图像生成器G由相互对称的CNN网络(卷积神经网络)和TCNN网络(转置卷积神经网络)组成,且CNN网络和TCNN网络中对称层短路连接;其中,CNN网络和TCNN网络均包括4层卷积层;
所述图像真假判别器Drf由CNN网络和FC网络组成;其中,CNN网络包括5层卷积层,FC网络包括4层全连接层;
所述步态图像视角判别器Dview由CNN网络和FC网络组成,其中,CNN网络与图像真假判别器Drf中CNN网络相同,FC网络包括3层全连接层;
所述跨视角身份保持判别器Dcr与同视角身份保持判别器Dca结构相同、均由局部信息判别分支和全局信息判别分支构成,为了方便表述,将Dcr和Dca的全局信息判别分支分别令为Dcrg和Dcag,局部信息判别分支分别令为Dcrl和Dcal;其中,局部信息判别分支由CNN网络组成、包括4层卷积层;全局信息判别分支由CNN网络和FC网络组成,CNN网络包括5层卷积层,FC网络与图像真假判别器Drf中FC网络结构相同;
所述视角转化网络的训练过程如下:
S1:构建训练集,采用与步骤1相同的数据预处理得到步态图像,并按照(步态图像,视角,身份标签)构建训练样本,进而构成训练集;
S2:从训练集中随机抽取一定数量的训练样本、作为本次训练迭代过程的输入图像集合Iv,i,再通过随机数的方式确定本次训练迭代过程中视角转化的目标视角vt,并从训练集中选取具有该目标视角且与集合Iv,i中步态图像身份标签相对应的图像、作为本次训练迭代过程的真值图像集合Ivt,i;
从训练集中再次抽取一定数量的训练样本,构成步态图像集合为Ivt,irr,所述步态图像集合为Ivt,irr中步态图像的视角均为vt、且其对应的身份标签与集合Iv,i中任意一张步态图像的身份标签都不相同;
从集合Iv,i中选取三组图像子集,分别记为Iv,a、Iv,p和Iv,n,其中,集合Iv,a和Iv,p中对应步态图像应具有相同的身份标签;集合Iv,a和Iv,n中对应的步态图像应具有不同的身份标签;
S3:更新图像真假判别器Drf的网络参数;设置损失函数Lrf,采用反向传播算法和梯度下降法更新网络参数,所述损失函数Lrf为:
将更新后图像真假判别器Drf中CNN网络的参数共享复用于步态图像视角判别器Dview中CNN网络中;
S4:更新步态图像视角判别器Dview的网络参数;设置损失函数Lview,采用反向传播算法和梯度下降法更新网络参数,所述损失函数Lview为:
其中,LCE(·)代表交叉熵损失函数,Dview(x)代表以图像x作为输入时判别器Dview的输出;
将更新后步态图像视角判别器Dview中CNN网络的参数反向共享复用于图像真假判别器Drf中CNN网络中;
S5:更新跨视角身份保持判别器Dcr的网络参数;设置损失函数Lcr,采用反向传播算法和梯度下降法更新网络参数,所述损失函数Lcr为:
Lcr=(Lcrg+Lcrl)/2
其中,Dcrg(x,y)表示图像对(x,y)作为输入时跨视角身份保持判别器Dcr中全局信息判别分支Dcrg的输出,相似地,Dcrl(x,y)表示图像对(x,y)作为输入时跨视角身份保持判别器Dcr中局部信息判别分支Dcrl的输出;
S6:更新同视角身份保持判别器Dca的网络参数;设置损失函数Lca,采用反向传播算法和梯度下降法更新网络参数,所述损失函数Lca为:
Lca=(Lcag+Lcal)/2
其中,Dcag(x,y)表示图像对(x,y)作为输入时同视角身份保持判别器Dca中全局信息判别分支Dcag的输出,相似地,Dcal(x,y)表示图像对(x,y)作为输入时同视角身份保持判别器Dca中局部信息判别分支Dcal的输出;
S7:更新图像生成器G的网络参数;设置损失函数LG,采用反向传播算法和梯度下降法更新网络参数,所述损失函数LG为:
其中,α、β和m为超参数,d(·,·)代表两图像之间的欧式距离;
其中,γ、η和k均为超参数,且γ=α、η=β、k=m;
S9:循环重复步骤S2到S8,直到以上所有损失函数趋于稳定,完成训练。
2.按权利要求1所述基于生成对抗网络的人体步态图像视角转化方法,其特征在于,所述图像生成器G中,CNN网络和TCNN网络的每层卷积层的卷积核大小为4、步长为2;所述CNN网络中第1层卷积层的输入通道数为1,第1层~第4层卷积层的输出通道数依次为96、192、384、768;所述TCNN网络与CNN网络对称设置。
3.按权利要求1所述基于生成对抗网络的人体步态图像视角转化方法,其特征在于,所述图像真假判别器Drf中,CNN网络的每层卷积层的卷积核大小为3,第1层~第4层卷积层的步长为2、第5层的卷积层的步长为1,第1层卷积层的输入通道数为1,第1层~第5层卷积层的输出通道数依次为32、64、128、256、512;FC网络的第1层全连接层的输入通道数为512,第1层~第4层全连接层的输出通道数依次为100、50、10、1。
4.按权利要求1所述基于生成对抗网络的人体步态图像视角转化方法,其特征在于,所述步态图像视角判别器Dview中,FC网络的第1层全连接层的输入通道数为512,第1层~第3层全连接层的输出通道数依次为100、50、Q,Q表示步态图像视角总数。
5.按权利要求1所述基于生成对抗网络的人体步态图像视角转化方法,其特征在于,所述跨视角身份保持判别器Dcr中,局部信息判别分支中CNN网络的每层卷积层的步长为2,第1层~第3层卷积层的卷积核大小为2、第4层卷积层的卷积核大小为1,第1层卷积层的输入通道数为2,第1层~第4层卷积层的输出通道数依次为32、64、128、1;
全局信息判别分支中CNN网络的每层卷积层的卷积核大小为3,第1层~第4层卷积层的步长为2、第五层的卷积层的步长为1,第1层卷积层的输入通道数为2,第1层~第5层卷积层的输出通道数依次为32、64、128、256、512。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011406087.4A CN112580445B (zh) | 2020-12-03 | 2020-12-03 | 基于生成对抗网络的人体步态图像视角转化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011406087.4A CN112580445B (zh) | 2020-12-03 | 2020-12-03 | 基于生成对抗网络的人体步态图像视角转化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112580445A CN112580445A (zh) | 2021-03-30 |
CN112580445B true CN112580445B (zh) | 2022-10-11 |
Family
ID=75127186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011406087.4A Active CN112580445B (zh) | 2020-12-03 | 2020-12-03 | 基于生成对抗网络的人体步态图像视角转化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580445B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111797B (zh) * | 2021-04-19 | 2024-02-13 | 杭州电子科技大学 | 一种结合自编码器与视角变换模型的跨视角步态识别方法 |
CN113420737B (zh) * | 2021-08-23 | 2022-01-25 | 成都飞机工业(集团)有限责任公司 | 一种基于卷积神经网络的3d打印图形识别方法 |
CN113887315B (zh) * | 2021-09-06 | 2024-06-11 | 广东工业大学 | 一种基于多分类器协同的步态识别方法及*** |
CN114140883A (zh) * | 2021-12-10 | 2022-03-04 | 沈阳康泰电子科技股份有限公司 | 步态识别方法和装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104134077B (zh) * | 2014-07-10 | 2017-10-20 | 华南理工大学 | 一种基于确定学习理论的与视角无关的步态识别方法 |
US10223582B2 (en) * | 2014-10-28 | 2019-03-05 | Watrix Technology | Gait recognition method based on deep learning |
CN106056050B (zh) * | 2016-05-23 | 2020-01-21 | 武汉盈力科技有限公司 | 一种基于自适应三维人体运动统计模型的多视角步态识别方法 |
CN108596026B (zh) * | 2018-03-16 | 2020-06-30 | 中国科学院自动化研究所 | 基于双流生成对抗网络的跨视角步态识别装置及训练方法 |
CN108681689B (zh) * | 2018-04-02 | 2021-06-04 | 中国科学院自动化研究所 | 基于生成对抗网络的帧率增强步态识别方法及装置 |
CN109726654A (zh) * | 2018-12-19 | 2019-05-07 | 河海大学 | 一种基于生成对抗网络的步态识别方法 |
CN109753935A (zh) * | 2019-01-09 | 2019-05-14 | 中南大学 | 一种基于生成对抗图像补全网络的步态识别方法 |
CN110688898B (zh) * | 2019-08-26 | 2023-03-31 | 东华大学 | 基于时空双流卷积神经网络的跨视角步态识别方法 |
-
2020
- 2020-12-03 CN CN202011406087.4A patent/CN112580445B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112580445A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112580445B (zh) | 基于生成对抗网络的人体步态图像视角转化方法 | |
Cui et al. | Identifying materials of photographic images and photorealistic computer generated graphics based on deep CNNs. | |
CN110084156B (zh) | 一种步态特征提取方法及基于步态特征的行人身份识别方法 | |
CN110458844B (zh) | 一种低光照场景的语义分割方法 | |
CN107194341B (zh) | Maxout多卷积神经网络融合人脸识别方法和*** | |
CN111523462B (zh) | 基于自注意增强cnn的视频序列表情识别***及方法 | |
Chen et al. | The application of a convolution neural network on face and license plate detection | |
CN103605972B (zh) | 一种基于分块深度神经网络的非限制环境人脸验证方法 | |
CN106650806A (zh) | 一种用于行人检测的协同式深度网络模型方法 | |
Yao et al. | Robust CNN-based gait verification and identification using skeleton gait energy image | |
Yadav et al. | Synthesizing iris images using RaSGAN with application in presentation attack detection | |
CN105184260B (zh) | 一种图像特征提取方法及行人检测方法及装置 | |
CN113221655A (zh) | 基于特征空间约束的人脸欺骗检测方法 | |
Zhuang et al. | Skin lesion analysis towards melanoma detection using deep neural network ensemble | |
CN106203373B (zh) | 一种基于深度视觉词袋模型的人脸活体检测方法 | |
Chin et al. | Dorsal hand vein authentication system using artificial neural network | |
Bali et al. | Comparison of affine and DCGAN-based data augmentation techniques for chest X-ray classification | |
Lee et al. | Fast object localization using a CNN feature map based multi-scale search | |
CN114429646A (zh) | 基于深度自注意力变换网络的步态识别方法 | |
CN106886771A (zh) | 基于模块化pca的图像主信息提取方法及人脸识别方法 | |
Diarra et al. | Study of deep learning methods for fingerprint recognition | |
Matsui et al. | Feature selection by genetic algorithm for MRI segmentation | |
CN114360058B (zh) | 一种基于行走视角预测的跨视角步态识别方法 | |
Diqi et al. | Implementation of CNN for plant leaf classification | |
Liu et al. | A novel high-resolution fingerprint representation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |