CN113553895A

CN113553895A - 一种基于人脸正面化的多姿态人脸识别方法

Info

Publication number: CN113553895A
Application number: CN202110292442.8A
Authority: CN
Inventors: 江游; 胡瑞敏; 王晓晨; 刘洋
Original assignee: SHENZHEN XINYIDAI INSTITUTE OF INFORMATION TECHNOLOGY; Shenzhen Research Institute of Wuhan University
Current assignee: SHENZHEN XINYIDAI INSTITUTE OF INFORMATION TECHNOLOGY; Shenzhen Research Institute of Wuhan University
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-10-26

Abstract

本发明公开了一种基于人脸正面化的多姿态人脸识别方法，针对实际应用中的人脸姿态变化问题，提出了一种合成正面人脸图像的新方法。本发明利用编码器和解码器构成的生成器提取特征并合成正面人脸图像；利用特征判别器和图像判别器判断特征域和图像真假；利用特征提取器提取合成正脸图像和目标合成图像的特征；通过设计的损失函数，交替训练基于生成对抗网络设计的网络，直到损失函数的值稳定收敛。本发明可以将各种姿态的人脸图像校正为正脸图像，有助于减少人脸姿态变换给人脸识别带来的不利影响，有利于人脸识别在非限制条件下的实际应用。

Description

一种基于人脸正面化的多姿态人脸识别方法

技术领域

本发明属于人脸识别技术领域，具体涉及一种基于人脸正面化的多姿态人脸识别方法。

背景技术

人脸识别技术具有非接触性，易于获取且获取过程不会造成强烈的侵略性等优点，在各个领域都得到了广泛地应用，社区管理中的刷脸门禁，手机移动端的刷脸解锁，超市商场中的刷脸支付，生活中处处可见人脸识别技术的影子。。近年来，，基于深度神经网络的人脸识别***的性能已经显著地超过了基于手工设计特征的人脸识别***。因此，研究基于深度学习的人脸识别***符合当前的研究趋势，具有良好的应用前景。

在理想的实验条件下，正面人脸识别技术获得了较高的识别精度，但这种技术的应用通常是在被识别人员的配合下完成的。随着人脸识别技术的不断成熟，人们希望人脸识别技术能更好地应用于非受控环境中。在非受控环境下，采集到的人脸图像具有不确定性，大概率具有一定的头部旋转。在这种情况下，直接利用采集到的人脸图像提取特征进行识别，人脸识别准确率会大幅度下降。。针对人脸识别中的姿态问题，现有的处理方法通常可以分为两类。一种方法如文献[1,2]等是直接从非正面人脸图像中学习具有鲁棒性的特征，但在偏转角度较大时提取鲁棒性特征很困难。另一种方法如文献[3,4,5]等是人脸正面化，即利用非正面人脸图像合成同一身份的正面人脸图像，然后利用合成图像进行人脸识别。这种方法一般可以处理偏转较小角度的侧面人脸，但当偏转角度逐渐增大时，超过60°的侧脸合成正面人脸存在严重变形并且可能丢失身份特征，导致后续人脸识别准确率的下降。

相比于其他基于生成对抗网络的多姿态人脸识别方法，本发明利用生成对抗网络进行了人脸转正，采用了不同的网络结构和损失函数。即使输入偏转角度较大的人脸图像，本发明也能够合成逼真的人脸正面图像并且保留更多的人物身份信息，大幅度提高了后续人脸识别工作的效率

[1]Chen D,Cao X,Wen F,et al.Blessing of dimensionality:High-dimensional feature and its efficient compression for face verification[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2013:3025-3032.

[2]Schroff F,Kalenichenko D,Philbin J.Facenet:A unified embedding forface recognition and clustering[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition.2015:815-823.

[3]Zhu Z,Luo P,Wang X,et al.Multi-view perceptron:a deep model forlearning face identity and view representations[C]//Advances in NeuralInformation Processing Systems.2014:217-225.

[4]Yin X,Yu X,Sohn K,et al.Towards large-pose face frontalization inthe wild[C]//Proceedings of the IEEE international conference on computervision.2017:3990-3999.

[5]Hu Y,Wu X,Yu B,et al.Pose-guided photorealistic face rotation[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2018:8398-8406.

发明内容

针对现有技术存在的不足，本发明提供了一种基于生成对抗网络的人脸正面化方法，通过深度学习技术解决由于面部偏转无法获取正面人脸的问题，所实现的***应当在不同面部角度偏转的情况下实现正面人脸的合成，并保留原始身份

本发明所采用的技术方案是：

一种基于人脸正面化的多姿态人脸识别方法，步骤1，收集各个姿态的人脸图像作为训练集，包括非正面人脸图像集

和正面人脸图像集

和

分别代表第i个人的非正面人脸图像和正面人脸图像，并且已知X_P和X_F对应的身份集为

和

步骤2，在训练阶段，把训练集中的非正面人脸图像X_P和正面人脸图像X_F分别输入到编码器E，得到姿态不变的特征f_P和f_F；将特征f_P和f_F输入到解码器G，得到合成的正面人脸图像

分别为

和

将合成的正面人脸图像输入到编码器E，到正面人脸特征g；

步骤3，将特征f_P和f_F输入特征空间的判别器D_f，判断输入的特征是来自非正面人脸图像X_P还是正面人脸图像X_F；将合成的正面人脸图像

和对应身份的真实正脸Y输入到图像空间的判别器D_g，判断这些输入图像的是合成图像还是非合成图像；

步骤4，将合成的正面人脸图像

和对应身份的真实正脸Y输入特征提取器F提取特征，通过损失约束合成正脸保持身份一致性；

步骤5，将步骤3的判别结果、步骤4提取的特征、合成的正面人脸图像

真实正面人脸图像Y带入到预先设计好的损失函数中，交替训练由编码器E、解码器G、特征判别器D_f、图像判别器D_g、特征提取器F构成的模型，直至训练完成；

步骤6，在测试阶段，把任意姿态的非正面人脸图像X_P输入到训练完成的模型，得到合成的正面人脸图像

可以用以后续的人脸识别工作。

优选地，在步骤1中，所有人脸图像皆来自数据集Multi-PIE；该数据集的图像数目超过75万张，包含337人的在20张光照下15姿态6种表情的图像，非正面人脸图像为包含13种姿态20种光照的200人的图像，记作X_P；正面人脸图像为包含正面姿态20种光照的200人的图像，记作X_F。

优选地，在步骤2中，编码器E采用VGG-19网络结构提取特征f_P和f_F，f_P和f_F大小分别为h×w×d，在编码器和解码器之间利用了skip connection，解码器每个上采样层concatenate到对应的编码器卷积得到的特征层，从而实现对每层特征图都有效使用。

优选地，在步骤3中，所述判别器D_f是一个以卷积神经网络为基础的二分类器，判断输入的特征f_P和f_F是来自非正面人脸图像X_P还是正脸人脸图像X_F，图像判别器D_g是一个以ResNet18结构为基础的分类器，判断输入图像

和Y是合成图像还是真实图像。

优选地，在步骤4中，特征提取器F是预训练的的VGG-Face网络，训练过程中参数固定不进行更新。

优选地，在步骤5中，所述损失函数的目标是最小化合成的正脸图像和非合成的正脸图像之间的差异，从而使合成的正脸图像能够保留更多输入人脸图像的身份信息；步骤5中用到的损失函数包括重建损失函数、对称损失函数和对抗损失函数，还包括了感知损失；

首先是重建损失函数，它计算的是合成的正面人脸图像与的非合成的正面人脸图像ground-truth的损失，重建损失的公式定义如下：

其中，图像x_p对应的ground-truth图像为y_p，图像x_F对应的ground-truth图像为y_F；重建损失利用L1范数计算保证图像清晰度，正面人脸图像和非正面人脸图像在训练过程中会打乱，因此没必要同时观察相同身份不同偏转角度的图像；

然后是对称损失，鉴于人脸具有对称的特点，合成的正脸图像

应该和它经过左右翻转后得到的图像尽可能接近，对称损失函数公式如下：

其中，f_F＝E(x_F)和f_P＝E(x_P)分别代表正面人脸图像和非正面人脸图像编码得到的特征，G(f_F)和G(f_P)表示f_P和f_F经过合成的正脸图像，G(f_F)^sym和G(f_P)^sym代表合成的正脸图像经过左右翻转后得到的图像；

接着是对抗损失，对抗损失分为特征对抗损失

和图像对抗损失

特征对抗损失的目标是使非正面人脸图像提取的特征能够欺骗特征判别器，从而让特征更接近正面人脸图像的特征，以鼓励编码器E提取出姿态不变的特征。特征对抗损失的公式如下：

其中，f_F＝E(x_F)和f_P＝E(x_P)分别代表正面人脸图像和非正面人脸图像编码得到的特征；

图像对抗损失的目标是使合成的正面人脸图像能够混淆图像判别器，从而让合成的图像更加接近真实图像，增强了合成图像的逼真程度。图像对抗损失的公式如下：

其中，x_F为非合成的正面人脸图像，G(f_P)和G(f_F)是合成的人脸图像；

合成的正脸图片与目标正脸除了在像素级相似外，在特征空间也要相似。利用感知损失L_ff_eat可以达到这个目的；

其中，

指正脸合成的正脸图片，

指侧脸合成的正脸图片，y_F和y_P指他们对应的身份的ground-truth；

解码器的目标不是简单地恢复输入的非正面人脸图像中丢失的细节，也要使恢复的正面人脸图像有助于后续的人脸识别任务，也就是说，恢复的正面人脸图像需要与原始的非正面人脸图像具有相同的身份。具体实现方法是添加身份损失；

总体的损失函数为：

其中，L_id、

L_rec、

L_sym和L_feat分别代表身份损失、特征对抗损失、重建损失、图像对抗损失、对称损失和感知损失，λ_id、λ_tri、

λ_rec、

和λ_sym和λ_feat代表控制对应损失重要性的权重；

优选地，在步骤5中交替地训练模型中各模块能够使其在对抗中互相优化提升，训练完成后，生成的图像清晰并且接近原始图像数据。

本发明与现有技术相比，具有如下优点与有益效果：

(1)本发明采用基于生成对抗网络的网络模块能够通过输入的非正面人脸图像合成出对应身份的正脸图像，可直接用于人脸识别等后续任务

(2)本发明在输入的人脸图像偏转角超过60°的时候，也可以生成清晰逼真的正脸图像，并且不会产生形变。

(3)本发明合成的正脸图像能够保留输入人脸图片的身份信息，有助于减少人脸姿态变换给人脸识别带来的不利影响，为后续的人脸身份识别工作带来便利。

附图说明

图1是本发明方法的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，本实施例所提供的基于生成对抗网络进行人脸正面化的多姿态人脸识别方法，包括以下步骤：

步骤1，所用数据集的图像来源于Multi-PIE人脸数据集，数据集中的图片数目超过75万，包含了337个人的20种光照和15种姿态6种表情下的图像；图片的光照由光照标号01到20从暗变亮，其中光照标号07为标准光照条件；实验选取偏转角90°以内的13种姿态，所有光照条件下的标准表情人脸图像作为数据集。将实验数据集所有非正面人脸图像标记为X_P，对每一张图像X_P，找到同一人的、偏转角度为0°的标准表情图像记为X_F。数据集在使用前利用MTCNN算法进行人脸检测和截取人脸等预处理。将实验数据前200人的图像划分为训练集，剩余137人的图像划分为测试集。对训练集所有图像进行归一化处理。归一化是指把图像的所有像素的值除以255，使图像所有像素的取值范围为[0,1]。同时对训练集中的图像进行随机剪切和随机左右翻转，来缓解模型过拟合的情况。

步骤2，在训练阶段，把多种姿态的人脸图像X_P和X_F分别输入到编码器E得到特征f_P和f_F，这两个特征通过解码器G恢复为正面人脸图像。恢复的正面人脸图像通过编码器E提取出正面人脸特征g。其中，编码器E均采用了预训练过的VGG-19网络结构，值得注意的是，在编码器和解码器之间利用了skip connection，采用类似U-net的网络结构来增强网络的稳定性，这将有助于图像重建的过程，允许更有效的梯度传播。

步骤3，将特征f_P和f_F输入特征空间的判别器D_f，判断输入的特征是来自非正面人脸图像X_P还是正面人脸图像X_F。将合成的正面人脸图像

和对应身份的真实正脸Y输入到图像空间的判别器D_g，判断这些输入图像的是合成图像还是真实图像。

D_f是一个以卷积神经网络为基础的二分类器，有3个卷积层，核是4x4，步幅是2，通道数量是64,128,1，除了最后一层每一个卷积层后面都有一个LeakyRelu。它的作用是判断输入的特征f来自正面人脸图像还X_F是侧面人脸图像X_P。判别网络的最终输出一个值，用来表示输入特征来源于正面人脸图像的可能性，这个值越大说明输入图像来源于正面人脸图像的可能性越大。

D_g是一个以ResNet18结构为基础的分类器，判断输入图像

和X_F的是合成图像还是非合成图像，输出的值越大说明输入图像来源于真实人脸图像X_F的可能性越大。

步骤4，特征提取器F是预训练的的VGG-Face网络，训练过程中参数固定不进行更新。

真实正面人脸图像Y带入到预先设计好的损失函数中，交替训练由编码器E、解码器G、特征判别器D_f、图像判别器D_g、特征提取器F构成的模型，直至训练完成。

步骤5中用到的损失函数除了同类型方法常用的重建损失函数、对称损失函数和对抗损失函数，还包括了感知损失函数。

其中，图像x_p对应的ground-truth图像为y_p，图像x_F对应的ground-truth图像为y_F。重建损失利用L1范数计算保证图像清晰度。正面人脸图像和非正面人脸图像在训练过程中会打乱，因此没必要同时观察相同身份不同偏转角度的图像。

其中，f_F＝E(x_F)和f_P＝E(x_P)分别代表正面人脸图像和非正面人脸图像编码得到的特征，G(f_F)和G(f_P)表示f_P和f_F经过合成的正脸图像，G(f_F)^sym和G(f_P)^sym代表合成的正脸图像经过左右翻转后得到的图像。

接着是对抗损失，对抗损失分为特征对抗损失

和图像对抗损失

其中，f_F＝E(x_F)和f_P＝E(x_P)分别代表正面人脸图像和非正面人脸图像编码得到的特征。

其中，x_F为非合成的正面人脸图像，G(f_P)和G(f_F)是合成的人脸图像。

合成的正脸图片与目标正脸除了在像素级相似外，在特征空间也要相似。利用感知损失L_ff_eat可以达到这个目的。

其中。

指正脸合成的正脸图片，

指侧脸合成的正脸图片，y_F和y_P指他们对应的身份的ground-truth。

解码器的目标不是简单地恢复输入的非正面人脸图像中丢失的细节，也要使恢复的正面人脸图像有助于后续的人脸识别任务，也就是说，恢复的正面人脸图像需要与原始的非正面人脸图像具有相同的身份。具体实现方法是添加身份损失。

总体的损失函数为：

其中，L_id、

L_rec、

λ_rec、

和λ_sym和λ_feat代表控制对应损失重要性的权重。

通过大量实验经验，各个损失函数的权重λ_id、

λ_rec、

λ_sym、和L_feat分别被设置为0.003、0.001、1、0.001、0.3、0.003。

交替地训练网络各模块能够使其在对抗中互相优化提升。在初始阶段，提取的特征不具有判别性，生成的人脸图像模糊不清，判别器能够轻易判断输入特征和图像的来源，鼓励编码器提取更具鲁棒性的特征，解码器生成更加清晰的图像。在后续阶段，编码器提取的特征更接近正面人脸图像的特征，生成的图像比较清晰并且接近原始图像数据了，鼓励判别器对输入特征和图像做出更加精确的判断，提高判别器的判别能力。

步骤6，在测试阶段，有定性测试和定量测试两种方法验证模型的效果。

定性测试中，把任意姿态的非正面人脸图像X_P输入到训练完成的模型，得到一张合成的正面人脸图像

而后通过直接观测合成的正脸图像的质量可以验证本发明的效果。

定量测试中，把任意姿态的非正面人脸图像X_P输入到训练完成的模型，得到一张合成的正面人脸图像

通过基于欧几里得距离的近邻搜索得到最相似的gallery图像，计算probe图像第一次成功搜索到正确gallery图像的概率，得到Rank-1，Rank-1越大，说明模型效果越好。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于人脸正面化的多姿态人脸识别方法，其特征在于：步骤1，收集各个姿态的人脸图像作为训练集，包括非正面人脸图像集

和正面人脸图像集

和

和

分别为

和

将合成的正面人脸图像输入到编码器E，到正面人脸特征g；

步骤4，将合成的正面人脸图像

可以用以后续的人脸识别工作。

2.根据权利要求1所述的一种基于人脸正面化的多姿态人脸识别方法，其特征在于：在步骤1中，所有人脸图像皆来自数据集Multi-PIE；该数据集的图像数目超过75万张，包含337人的在20张光照下15姿态6种表情的图像，非正面人脸图像为包含13种姿态20种光照的200人的图像，记作X_P；正面人脸图像为包含正面姿态20种光照的200人的图像，记作X_F。

3.根据权利要求1所述的一种基于生成对抗网络的人脸正面化方法，其特征在于：在步骤2中，编码器E采用VGG-19网络结构提取特征f_P和f_F，f_P和f_F大小分别为h×w×d，在编码器和解码器之间利用了skip connection，解码器每个上采样层concatenate到对应的编码器卷积得到的特征层，从而实现对每层特征图都有效使用。

4.根据权利要求1所述的一种基于生成对抗网络的人脸正面化方法，其特征在于：在步骤3中，所述判别器D_f是一个以卷积神经网络为基础的二分类器，判断输入的特征f_P和f_F是来自非正面人脸图像X_P还是正脸人脸图像X_F，图像判别器D_g是一个以ResNet18结构为基础的分类器，判断输入图像