CN111932444B

CN111932444B - 基于生成对抗网络的人脸属性编辑方法及信息处理终端

Info

Publication number: CN111932444B
Application number: CN202010686434.7A
Authority: CN
Inventors: 邵明文; 张文龙; 宋晓霞
Original assignee: Shandong To Letter Information Science And Technology Ltd; China University of Petroleum East China
Current assignee: Shandong To Letter Information Science And Technology Ltd; China University of Petroleum East China
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2023-09-19
Anticipated expiration: 2040-07-16
Also published as: CN111932444A

Abstract

本发明属于人脸属性编辑技术领域，公开了一种基于生成对抗网络的人脸属性编辑方法及及信息处理终端，构建生成对抗网络和自编码器相结合的人脸属性编辑模型。自编码器作为生成器，模型的输入为图片和属性；使用WGAN‑GP对GAN损失进行优化，实现使用单个生成器进行多个属性编辑的任务；使用属性分类器使生成的图像正确拥有预期的属性；采用多尺度判别器指导生成器生成细节，在原图上捕捉细节信息；将重建损失，属性分类损失和多尺度的GAN损失结合用于人脸属性编辑中。CelebA数据集上的实验表明，本发明在正确地拥有预期属性的基础上生成了高质量的人脸图像，在单属性人脸编辑、多属性人脸编辑和属性强度控制方面都具有较好的表现。

Description

基于生成对抗网络的人脸属性编辑方法及信息处理终端

技术领域

本发明属于人脸属性编辑技术领域，尤其涉及一种基于生成对抗网络的人脸属性编辑方法及信息处理终端。

背景技术

目前，人脸属性编辑，就是在保持人脸身份的条件下通过修改单个或多个属性来编辑面部图像。人脸属性编辑是将人脸图像改变为给定属性(例如，头发颜色，表情，胡子和年龄等)的任务，同时要保证人脸身份信息和属性无关区域的不变性，生成具有期望属性且保留细节的新人脸图像，相关研究已被广泛应用于娱乐、社交、面部动画、表情识别等领域，比如对人像的美白、减龄、微笑等，另外也应用在人脸识别领域关于人脸数据库的增广，近年来受到越来越多的关注。

2014年，Goodfellow等提出了生成对抗网络(GAN)。近年来，GAN在图像生成和图像超分辨率等方面取得了很大进展。使用GAN进行人脸属性编辑也取得了很多成果，GAN将面部属性编辑视为不成对的图像到图像转换任务。人脸属性编辑的其中一类方法是生成对抗网络和自编码器的组合变体。在这些模型中，自编码器(AutoEncoder)充当了GAN中生成器的角色。利用编码器-解码器架构，自编码器的编码器(encoder)将原始图片编码为潜在表示，方便不同方法在潜在表示上做不同的操作，解码器(decoder)通过以预期属性为条件对潜在表示进行解码生成新的图片，从而实现了人脸属性编辑。条件GAN(CGAN)在原始GAN的基础上增加了条件约束，通过使用额外信息对模型增加条件，从而指导生成具有给定属性的特定图像。此外，可逆条件GAN(IcGAN)是编码器和CGAN的组合，是一种多阶段训练算法，先训练CGAN然后训练编码器，编码器将输入面部图像映射为潜在表示和属性矢量，CGAN把改变的属性向量作为条件来生成具有新属性的面部图像。VAE/GAN将VAE和GAN组合成一个无监督生成模型，它将每个属性表示为向量，编码器将图像编码为潜在表示，然后通过将属性向量添加到潜在表示，解码器(也是生成器)解码修改了潜在表示的面部图像来生成拥有输入属性的新图像，利用判别器中的学习特征表示作为VAE重建目标的基础，从而结合了GAN和VAE的优点，但是VAE/GAN中具有高度相关的属性向量，在进行属性编辑时可能会改变其他属性，比如在训练集中大多数的金发都是女性角色，因此当进行金发属性编辑的时候也会产生性别的改变。在Fader Networks中，使用了编码器-解码器结构和判别器，并学习学习关于属性不变的潜在表示，但是属性描述了图像的特征，因此属性和潜在表示之间的关系是高度相关和复杂的，所以对潜在表示使用属性无关约束会造成丢失细粒度的细节、产生几何伪影等问题，不利于属性编辑。AttGAN针对上述三种方法在潜在表示和属性的关系之间建模的不足，提出了一种新方法，AttGAN删除了属性无关约束，提出属性分类约束来保证属性的正确编辑。pix2pixHD使用了一个新的多尺度生成器-判别器结构来有效地帮助提升生成图片的质量，生成了高分辨率的逼真图像。

通过上述分析，现有技术存在的问题及缺陷为：在Fader Networks中，使用了编码器-解码器结构和判别器，并学习学习关于属性不变的潜在表示，但是属性描述了图像的特征，因此属性和潜在表示之间的关系是高度相关和复杂的，所以对潜在表示使用属性无关约束会造成丢失细粒度的细节、产生几何伪影等问题，不利于属性编辑。

解决以上问题及缺陷的难度为：

解决以上问题及缺陷的难度为：较难(单个判别器的感受野非常有限，尤其是当训练图片的尺寸变大时，这将影响信息的提取)。

解决以上问题及缺陷的意义为：

采用多尺度判别器来指导生成器生成更好的细节，多尺度判别器可以在原图上捕捉很多细节信息，并能够宏观把握生成图片的全局信息，获取更大感受野信息。在CelebA数据集上的实验表明，我们的模型在正确地拥有预期属性的基础上生成了高质量的人脸图像。

发明内容

针对现有技术存在的问题，本发明提供了一种基于生成对抗网络的人脸属性编辑方法及信息处理终端。

本发明是这样实现的，一种基于生成对抗网络的人脸属性编辑方法，包括以下步骤：

步骤一，构建生成对抗网络和自编码器相结合的人脸属性编辑模型。自编码器作为生成器，所述模型的输入为图片和属性。

步骤二，使用WGAN-GP对GAN损失进行优化，实现使用单个生成器进行多个属性编辑的任务。

步骤三，使用属性分类器使生成的图像正确拥有预期的属性。采用多尺度判别器指导生成器生成细节，在原图上捕捉细节信息。采用2个尺度的判别器，两者网络结构完全相同，但是输入图片的大小有所区别。D_1的输入是128×128的原图像，表示处理更大分辨率图片的判别器，而D_2的输入是原图经过下采样缩小之后的64×64的图像，表示处理更小分辨率图片的判别器。D_1在原图上能捕捉很多细节信息，从而有利于指导编码器和解码器生成更好的细节，D_2在原图上能获取更大感受野的信息，因此能够宏观把握生成图片的全局信息。

步骤四，将重建损失，属性分类损失和多尺度的GAN损失结合用于人脸属性编辑中。重建学习要求生成图像近似于原图像。为了保证属性编辑后的图像保留其输入图像的内容，同时仅改变输入的属性相关的部分，将循环一致性损失应用于生成器。

进一步，步骤一中，所述人脸属性编辑模型的数据集由图像和具有n个二进制属性的标签组成；网络结构包含四个组成部分：编码器Enc，解码器Dec，属性分类器C，以及多尺度判别器D1和D2。

进一步，所述人脸属性编辑模型采用U-Net的结构，在编码器和解码器之间使用对称跳过连接。

进一步，所述人脸属性编辑模型由Adam优化器(β₁＝0.5；β₂＝0.999)训练，batchsize设置为32，学习率设置为0.0002。

所述人脸属性编辑模型的训练过程如下：

设置n_d＝5表示生成器更新一次而判别器更新五次。第一阶段模型训练判别器网络{D₁，D₂}和属性分类器C，利用对抗损失和属性分类损失来更新判别器和属性分类器。第二阶段对生成器(即编码器-解码器)网络进行训练。整个训练过程是通过反向传播完成的。编码器的输入为128×128的人脸图像，多尺度判别器的输入分别为D1是128×128的原始图像、D2是64×64的图像。

进一步，所述人脸属性编辑模型的网络结构具体包括：

(1)所述编码器的作用是将具有n个二进制属性a的真实输入图像X_a映射为一种潜在表示z：

z＝Enc(X_a)#(3)。

所述编码器Enc使用五层卷积，每层卷积后面紧跟BN(批量标准化)和Leaky ReLU，解码器Dec使用五层反卷积，前四层的反卷积后面紧跟BN(批量标准化)和ReLU，第五层的反卷积后面为Tanh。

(2)所述解码器将潜在表示z和另一个n个二进制属性b进行解码，从而实现属性编辑，生成具有预期属性b的生成图像X_b：

X_b＝Dec(z，b)#(4)；

所述解码器将属性a和潜在表示z进行解码来实现重建原图的作用，生成真实图像X_a的重建图像X_a′，重建图像和原图要尽可能的相似：

X_a′＝Dec(z，a)#(5)。

(3)所述属性分类器使真实图像X_a生成的图像X_b正确地拥有预期的属性b，对生成图像进行正确地属性操作：

b’_C＝(X_b)#(6)；

生成图像X_b通过属性分类器得到的属性b’应该近似于b。

(4)所述多尺度判别器用于对抗训练，区分生成的图像和真实的图像，判别图像真伪。采用2个尺度的判别器，两者网络结构完全相同，但是输入图片的大小有所区别。D1的输入是128×128的原图像，表示处理更大分辨率图片的判别器，而D2的输入是原图经过下采样缩小之后的64×64的图像，表示处理更小分辨率图片的判别器。

进一步，所述多尺度判别器和属性分类器共享五层卷积层，后面分别是不同的全连接层。每层卷积后面紧跟LN/IN和Leaky ReLU，其中LN是层标准化，IN是实例标准化。

进一步，步骤二中，所述损失函数包括以下三种类型的损失：(1)GAN损失，目的是使生成的图像与真实图像无法区分，使生成的图像尽可能逼真；(2)重建损失，目的是测量在编码和解码之后原始输入图像被重建得有多好。(3)属性分类损失，目的是约束模型对生成的图像进行正确地属性操作。

进一步，所述损失函数具体包括：

(1)GAN损失，使用WGAN所提出的损失函数，生成器(包括编码器Enc和解码器Dec)和多尺度判别器之间的对抗关系可以表述为以下损失函数：

其中，p_data和p_attr表示真实图像的分布和属性的分布，X_a为原始输入图像，b为二进制属性。

(2)重建损失，所述重建学习要求生成图像近似于原图像，将循环一致性损失应用于生成器，定义为：

其中，X_a为原始输入图像，X_a′是潜在表示z和原始属性a的重建图像，本发明采用L1损失作为我们的重建损失。

(3)属性分类损失，对于给定的输入图像X_a和目标属性b，所述目标是将X_a转换为拥有目标属性b的输出图像X_b，并保持X_a的身份，因此将生成图像X_b通过属性分类器得到的属性b′应该近似于b，所以编码器-解码器的损失函数为：

-(1-b_i)log(1-C_i(X_b))#(13)；

其中，C_i(X_b)表示属性分类器对图像X_b的第i属性的预测，l_g(X_a，b)表示所有属性的二元交叉熵损失的总和。

将原始图像X_a通过属性分类器得到的属性a′应该近似于a，所以属性分类器C的损失函数为：

-(1-a_i)log(1-C_i(X_a))#(15)；

其中，C_i(X_a)表示属性分类器对图像X_a的第i属性的预测。

进一步，所述优化编码器和解码器的目标函数如下：

优化多尺度判别器D1、D2和属性分类器C的目标函数如下：

其中，λ₁～λ₇表示用于平衡损失的超参数。

进一步，步骤二中，使用WGAN-GP进行优化GAN损失，将方程(7)和方程(9)中的目标函数重新表述为：

其中，是沿着生成图像和真实图像之间的直线均匀地采样，λ_gp是梯度惩罚的系数，根据经验设定为λ_gp＝10。

本发明的另一目的在于提供一种实施所述基于生成对抗网络的人脸属性编辑方法的应用于娱乐、社交、面部动画、表情识别的信息处理终端。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

构建生成对抗网络和自编码器相结合的人脸属性编辑模型；自编码器作为生成器，所述模型的输入为图片和属性；

使用WGAN-GP对GAN损失进行优化，实现使用单个生成器进行多个属性编辑的任务；

使用属性分类器使生成的图像正确拥有预期的属性；采用多尺度判别器指导生成器生成细节，在原图上捕捉细节信息；

将重建损失，属性分类损失和多尺度的GAN损失结合用于人脸属性编辑中。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的基于生成对抗网络的人脸属性编辑方法，提出了一种条件生成模型，使用条件生成对抗网络(CGAN)，以属性作为条件输入生成器；使用生成对抗网络(GAN)和编码器-解码器结构与U-Net相结合进行人脸属性编辑，增加属性分类器使生成的图像正确拥有预期的属性，生成了高视觉质量的图像。本发明首先介绍了编码器-解码器结构、生成对抗网络和人脸属性编辑的相关工作和研究进展，进而提出了模型，包括使用条件生成对抗网络CGAN，模型的输入为人脸图像和二进制属性，使用编码器-解码器结构作为生成器，并与U-Net相结合，使用属性分类器来保证正确地改变属性，采用多尺度判别器来生成更好的细节。CelebA数据集上的实验表明，本发明提供的方法在正确地拥有预期属性的基础上生成了高质量的人脸图像，在单属性人脸编辑、多属性人脸编辑和属性强度控制方面都具有较好的表现。

由于单个判别器的感受野是非常有限的，尤其是当训练图片的尺寸变大之后，为了解决此问题，本发明采用多尺度的判别器(Multi-scale discriminators)，指导生成器生成更好的细节，可以在原图上捕捉很多细节信息，并能够宏观把握生成图片的全局信息，获取更大感受野信息。在CelebA数据集上的实验显示：面部细节保存完好，提高了生成图像的逼真度，并具有更好的灵活性和通用性.实验表明，本发明提供的方法对现实世界数据的有效性。

本发明提供的多尺度判别器(Multi-scale discriminators)有利于指导生成器生成更好的细节，不仅在原图上能够捕捉很多细节信息，而且能够宏观把握生成图片的全局信息，获取更大感受野的信息。本发明采用2个尺度的判别器。D1在原图上能捕捉很多细节信息，从而有利于指导编码器和解码器生成更好的细节，D2在原图上能获取更大感受野的信息，因此能够宏观把握生成图片的全局信息。

对比的技术效果或者实验效果有：

与其它经典方法在PSNR和SSIM指标的对比结果：

几种方法的重建质量(越高越好)

其它主要方法对比实验效果请看图3-图7。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于生成对抗网络的人脸属性编辑方法流程图。

图2是本发明实施例提供的网络架构示意图。

图3是本发明实施例提供的与IcGAN方法的比较结果示意图。

图4是本发明实施例提供的与Fader Networks方法的比较结果示意图。

图5是本发明实施例提供的单属性人脸编辑结果示意图。

图6是本发明实施例提供的多属性人脸编辑结果示意图。

图7是本发明实施例提供的属性强度控制的结果示意图。

图8是本发明实施例提供的人脸属性编辑示例图；

图中：左边为输入人脸图像，右边为分别进行闭嘴和加眼镜的属性编辑的期望结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于生成对抗网络的人脸属性编辑方法及信息处理终端，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的基于生成对抗网络的人脸属性编辑方法包括以下步骤：

S101，构建生成对抗网络和自编码器相结合的人脸属性编辑模型。自编码器作为生成器，所述模型的输入为图片和属性。

S102，使用WGAN-GP对GAN损失进行优化，实现使用单个生成器进行多个属性编辑的任务。

S103，使用属性分类器使生成的图像正确拥有预期的属性。采用多尺度判别器来指导生成器生成细节，在原图上捕捉细节信息。

S104，将重建损失，属性分类损失和多尺度的GAN损失结合用于人脸属性编辑中。

下面结合实施例对本发明作进一步描述。

1、方法概括

本发明提出的方法主要受到了基于编码器-解码器方法的启发，结合了AttGAN和pix2pixHD各自的优点，提出了一种结合生成对抗网络和自编码器对人脸图像进行属性编辑的方法，可以通过精细的面部细节产生视觉上更令人愉悦的结果。简而言之，本发明的工作可以概括为三个方面：

(1)提出了一种生成对抗网络和自编码器相结合的人脸属性编辑模型。自编码器作为生成器，模型的输入为图片和属性，并使用WGAN-GP对GAN损失进行优化，实现使用单个生成器进行多个属性编辑的任务。

(2)使用属性分类器使生成的图像正确拥有预期的属性。采用多尺度判别器(Multi-scale discriminators)来指导生成器生成更好的细节，在原图上捕捉更多细节信息。

(3)将重建损失，属性分类损失和多尺度的GAN损失结合用于人脸属性编辑中，CelebA数据集上的实验表明，本发明的方法在单属性人脸编辑、多属性人脸编辑和属性强度控制方面都具有较好的表现。

2、相关工作

2.1编码器-解码器架构

1994年，Hinton和Zemel提出了一个自动编码器(Autoencoder，AE)网络，自动编码器由编码器和解码器组成，将input输入到编码器得到一个潜在代码，然后通过解码器再重构回去从潜在代码中恢复原始信息。后来，提出了去噪自动编码器(DenoisingAutoencoder，DAE)来学习叠加噪声的原始数据，并且学习学习到的特征更具有鲁棒性。2013年，Kingma和Welling提出了一种变分自动编码器(Variational Autoencoder，VAE)，它使用随机反向传播来训练，VAE作为突出的生成模型，它验证了编码器-解码器架构生成unseen图像的可行性。跳跃连接(Skip connections)有助于向后传播梯度到底层，并将图像细节传递到顶层，解决了当网络很深时反卷积无法完成图像细节的恢复和反向传播梯度消失等问题，同时也会加快收敛速度，在编码器和解码器层之间增加对称跳过连接，有益于提高生成图像的训练稳定性和视觉质量。

2.2生成对抗网络

生成对抗网络(GAN)是一个对抗博弈的游戏，通过训练一个生成器G和一个判别器D，让两者进行零和博弈，即极小极大(min-max)的博弈，经过博弈后，双方将达到一种纳什均衡，即判别器D无法区分生成的样本是由生成器生成的假样本还是真实世界中的真样本。判别器学习区分真假样本，而生成器学习生成与真样本无法区分的假样本。

GAN模型的优化过程是一个“二元极小极大博弈(mini-max two-player game)”问题：

其中，生成器G隐式地定义了一个概率分布p_z，本发明希望p_z收敛到数据真实分布p_data。论文证明了这个极小化极大博弈当且仅当p_z＝p_data时存在最优解，即达到纳什均衡，此时生成器G恢复了训练数据的分布，判别器D的准确率等于50％。

GAN具有训练不稳定、模式崩溃、梯度消失和梯度***等问题。DCGAN提出了一个比较稳定的网络结构，将GAN和卷积网络结合起来以解决GAN训练不稳定的问题，并且DCGAN在生成器和判别器中使用Batch Normalization来帮助模型收敛。WGAN在判别器最后一层去掉sigmoid换成受限的1-Lipschitz来实现一个类似sigmoid的“范围限制”功能，使用Wasserstein距离可以提供有意义的梯度，WGAN提出的损失函数可以避免模式崩溃问题，提高训练稳定性：

此外，WGAN-GP是WGAN之后的改进版，主要还是改进了连续性限制的条件，提出使用梯度惩罚(gradient penalty)的方式以满足Lipschitz连续性条件。

2017年，Isola等提出了一个统一的pix2pix框架，使用的是CGAN并增加了一个额外的损失，将对抗性损失与L1损失相结合，实现了从成对数据中学习图像到图像的转换。对于不成对的图像到图像的转换，通过使用例如循环一致性和共享潜在空间等附加约束来来改善图像转换的问题。在pix2pix的基础上开发了改进的网络架构pix2pixHD，采用多尺度的判别器和coarse2fine的生成器来有效帮助提升生成图像的视觉质量，生成高分辨率、高质量的图像。所谓多尺度的判别器就是指多个判别器，分别判别不同分辨率的真假图像。比如采用3个尺度的判别器，分别判别256×256，128×128，64×64分辨率的图像。不同分辨率的图像是通过对图像直接进行pooling下采样获得。

生成对抗网络的各种变体：条件生成对抗网络(Conditional GenerativeAdversarialNets，CGAN)、深度卷积生成对抗网络(Deep Convolutional GenerativeAdversarial Networks，DCGAN)、Wasserstein生成对抗网络(Wasserstein GAN，WGAN)等，上述模型具有里程碑意义。GAN方法将原始面部图像作为输入并生成编辑面部图像，然而，这种不需要预先建模的方法缺点是太过自由了，对于较大的图片，较多的pixel的情形，基于简单GAN的方式就不太可控了。条件GAN(CGAN)作为GAN的扩展，其允许在给定条件信号的情况下生成特定图像。本发明主要以CGAN为基础，采用了DCGAN的卷积架构，将编码器-解码器架构作为生成器，判别器使用了多尺度判别器，使用WGAN提出的损失作为对抗损失，并用WGAN-GP进行优化。

2.3人脸属性编辑

目前已经提出了几种使用GAN进行人脸属性编辑的方法。IcGAN分别训练CGAN和编码器，利用一个编码器网络，对输入图像提取得到一个特征向量(潜在表示)，将特征向量和需要转换的目标属性向量串联输入生成网络解码得到生成图像来执行属性编辑。在VAE/GAN中，将VAE和GAN组合成一个无监督的生成模型，将潜在表示修改为拥有期望属性信息的潜在表示，然后解码它来实现属性编辑。Fader Networks依赖于编码器-解码器结构，在属性方面强制潜在空间的不变性，通过对潜在空间进行对抗性训练来学习属性不变性潜在表示。然后，解码器将这种表示和任意属性向量作为输入以生成编辑结果。但是，IcGAN和Fader Networks中对潜在表示使用属性无关约束是过度的，因为属性无关约束损害了表示能力并且可能造成信息丢失，导致所生成图像的效果不好。GeneGAN中编码器将图像分解为背景特征部分和目标特征部分，解码器将背景特征和对象特征进行组合以生成图像，编码器在给定的两张图像之间交换目标特征来得到交换属性的新图像。DNA-GAN可以被视为GeneGAN的扩展，用于多种属性。在给定的一对图像之间交换属性相关的潜在块以制作“杂交”图像。但DNA-GAN存在训练不稳定的问题，尤其是在高分辨率的图片上训练时，训练不容易成功。ELEGANT在给定编码器的情况下将图片的隐层编码作为图片唯一的标识，与DNA-GAN相比，ELEGANT不再需要nulling loss和零化(annihilating)操作。SaGAN将空间注意机制引入到GAN框架中，形成了面部属性编辑的端到端生成模型，只改变属性特定区域并保持其余的无关区域不变。StarGAN仅使用单个模型(单个生成器和判别器)对多个域执行图像到图像的转换。StarGAN将图像和域信息作为输入，使用域分类损失和循环一致性损失来训练网络。AttGAN中没有循环过程或使用循环一致性损失，AttGAN使用了编码器-解码器架构，将属性分类约束、重建学习和对抗性学习应用于网络训练。以上方法中，GeneGAN、DNA-GAN和ELEGANT模型的输入都是两个集合的未配对图像，通过交换两个图像的属性来生成新的图像；而VAE/GAN、IcGAN、Fader Networks、SaGAN、StarGAN和AttGAN则是使用一个模型进行多个面部属性编辑。

3、方法

本发明提出的人脸属性编辑模型的方法概述如图2所示，对于给定的输入图像X_a和属性值b，人脸属性编辑的目标是将X_a转换为新的图像X_b，生成图像应该是逼真的、具有属性b并且保持身份与输入图像相同。

3.1模型

数据集由图像和具有n个二进制属性的标签组成(本发明中设置属性数目为n＝13，将在第5节进行详细介绍)。例如，在具有三个属性标签[Bangs，Eyeglasses，Smiling]的情况下，其标签为a＝[1，0，1]表示面部图像是有刘海、没有眼镜的笑脸。

模型的网络结构包含四个组成部分：编码器Enc，解码器Dec，属性分类器C，以及多尺度判别器D1和D2。

3.1.1编码器和解码器

编码器的作用是将具有n个二进制属性a的真实输入图像X_a映射为一种潜在表示z：

z＝Enc(X_a)#(3)；

解码器将潜在表示z和另一个n个二进制属性b进行解码，从而实现属性编辑，生成具有预期属性b的生成图像X_b：

X_b＝Dec(z，b)#(4)；

另一方面，解码器将属性a和潜在表示z进行解码来实现重建原图的作用，生成真实图像X_a的重建图像X_a′，重建图像和原图要尽可能的相似：

X_a′＝Dec(z，a)#(5)；

3.1.2属性分类器

为了使真实图像X_a生成的图像X_b正确地拥有预期的属性b，使用属性分类器C来保证对生成图像进行正确地属性操作：

b′＝C(X_b)#(6)；

生成图像X_b通过属性分类器得到的属性b′应该近似于b。

3.1.3多尺度判别器

本发明中编码器和解码器一起扮演了对抗生成网络中生成器(generator)的角色。为了使得整个模型有效，还需要引入判别器(discriminator)用于对抗训练.判别器用于区分生成的图像和真实的图像，判别图像真伪。

多尺度判别器(Multi-scale discriminators)有利于指导生成器生成更好的细节，不仅在原图上能够捕捉很多细节信息，而且能够宏观把握生成图片的全局信息，获取更大感受野的信息。本发明采用2个尺度的判别器，两者网络结构完全相同，但是输入图片的大小有所区别。D1的输入是128×128的原图像，表示处理更大分辨率图片的判别器，而D2的输入是原图经过下采样缩小之后的64×64的图像，表示处理更小分辨率图片的判别器。D1在原图上能捕捉很多细节信息，从而有利于指导编码器和解码器生成更好的细节，D2在原图上能获取更大感受野的信息，因此能够宏观把握生成图片的全局信息。

3.2损失函数

本发明的损失函数包括以下三种类型的损失：(1)GAN损失，目的是使生成的图像与真实图像无法区分，使生成的图像尽可能逼真；(2)重建损失，目的是测量在编码和解码之后原始输入图像被重建得有多好。(3)属性分类损失，目的是约束模型对生成的图像进行正确地属性操作。

3.2.1GAN损失

为了避免模式崩溃和训练不稳定问题，本发明使用WGAN所提出的损失函数，生成器(包括编码器Enc和解码器Dec)和多尺度判别器之间的对抗关系可以表述为以下损失函数：

/>

3.2.2重建损失

重建学习要求生成图像近似于原图像。为了保证属性编辑后的图像保留其输入图像的内容，同时仅改变输入的属性相关的部分，将循环一致性损失应用于生成器，定义为：

3.2.3属性分类损失

对于给定的输入图像X_a和目标属性b，本发明的目标是将X_a转换为拥有目标属性b的输出图像X_b，并保持X_a的身份，因此将生成图像X_b通过属性分类器得到的属性b′应该近似于b，所以编码器-解码器的损失函数为：

-(1-b_i)log(1-C_i(X_b))#(13)；

其中，C_i(X_b)表示属性分类器对图像X_b的第i属性的预测，l_g(Xa_，b)表示所有属性的二元交叉熵损失的总和。

-(1-a_i)log(1-C_i(X_a))#(15)；

其中，C_i(X_a)表示属性分类器对图像X_a的第i属性的预测。

3.2.4总体目标函数

最后，优化编码器和解码器的目标函数如下：

优化多尺度判别器D1、D2和属性分类器C的目标函数如下：

其中，λ₁～λ₇表示用于平衡损失的超参数。

4、实施细节

4.1优化

为了稳定训练过程并且生成更高质量的图像，本发明使用WGAN-GP进行优化GAN损失。所以将方程(7)和方程(9)中的目标函数重新表述为：

4.2网络结构

生成器的详细架构如表1和表2所示。其中，编码器Enc使用五层卷积，每层卷积后面紧跟BN(批量标准化)和Leaky ReLU，解码器Dec使用五层反卷积，前四层的反卷积后面紧跟BN(批量标准化)和ReLU，第五层的反卷积后面为Tanh。除此之外，模型采用U-Net的结构，在编码器和解码器之间使用对称跳过连接，它可以在图像转换任务中生成更好效果的图片。

表1编码器Enc网络结构

表2解码器Dec网络结构

多尺度判别器和属性分类器的详细架构如表3所示。多尺度判别器和属性分类器共享五层卷积层，后面分别是不同的全连接层。每层卷积后面紧跟LN/IN和Leaky ReLU，其中LN是层标准化，IN是实例标准化。表3中FC(D1,D2)表示多尺度判别器的全连接层，其中第一层全连接层紧跟LN/IN和Leaky ReLU。而FC(C)表示属性分类器C的全连接层，其中第一层全连接后紧跟LN/IN和Leaky ReLU，第二层全连接后紧跟Sigmoid。

表3多尺度判别器和属性分类器的网络结构

4.3算法流程

人脸属性编辑网络的训练过程如算法1所示。其中，本发明设置n_d＝5表示生成器更新一次而判别器更新五次。第一阶段模型训练判别器网络{D₁，D₂}和属性分类器C，利用对抗损失和属性分类损失来更新判别器和属性分类器。第二阶段对生成器(即编码器-解码器)网络进行训练。整个训练过程是通过反向传播完成的。编码器的输入为128×128的人脸图像，多尺度判别器的输入分别为D1是128×128的原始图像、D2是64×64的图像。

4.4训练设置

本发明提出的模型由Adam优化器(β₁＝0.5；β₂＝0.999)训练，batch size设置为32，学习率设置为0.0002。

5、下面结合实验数据对本发明作进一步描述。

本发明的实验使用的是在Pytorch深度学习框架，在具有Intel(R)Xeon(R)CPUE5-2678 [email protected]和Nvidia RTX 2080Ti-11G GPU图形处理单元的Ubuntu 16.04操作***上完成。

5.1数据集

CelebFaces Attributes(CelebA)数据集是一个大型人脸属性数据集，包含202599张10177个身份的面部图像，每个图像有40个二进制属性(有/无)的注释和5个标志性位置，地标位置可用于在空间上对齐面部。CelebA分为训练集，验证集和测试集。本发明使用训练集和验证集来训练模型，使用测试集进行评估。本发明使用以下13个属性进行实验：Bald，Bangs，Black_Hair，Blond_Hair，Brown_Hair，Bushy_Eyebrows，Eyeglasses，Male，Mouth_Slightly_Open，Mustache，No_Beard，Pale_Skin，Young。

5.2定性评估

5.2.1单属性人脸编辑

本节将本发明提出的人脸属性编辑方法与IcGAN和Fader Networks进行了定性比较，实验结果如图3和图4所示，从图中可以看出使用本发明提出的方法进行人脸属性编辑的实验结果具有明显的改善和提高。图5展示了本发明提出的方法在单属性人脸编辑的实验结果。

从图3可以看出，IcGAN所生成图像产生了失真和面部身份更改的现象，这是因为IcGAN中潜在表示的属性无关约束和正态分布约束是过度的，损害了模型的表示能力并且导致了细节信息的丢失。在图4中，Fader Networks在准确编辑属性方面的表现比IcGAN好，但是由于Fader Networks对于潜在表示也进行了强制属性不变的操作，所以从实验结果可以看出很多生成图像是模糊的，产生了伪影和细节丢失，另外值得注意的是，当本发明将头发颜色改为金发时，图4中Fader Networks的男性变为了女性，因为训练集中大多数的金发是女性角色，所以金发和女性这两个属性是高度相关的。与IcGAN和Fader Networks相比，本发明提出的方法使用了属性分类约束而不是属性无关约束，从而保证了属性的正确更改，准确地编辑了面部属性。

5.2.2多属性人脸编辑

本发明提出的方法可以同时编辑多个属性，图6中列出了同时编辑两个属性的四组实验结果，其中每一组的第一列为原图，第二列为多属性编辑的结果图。可以看出，本发明的方法在多属性组合的情况下依然表现良好，这是由于属性和潜在表示之间的适当建模。

5.2.3属性强度控制

图7展示了进行属性强度控制实验的结果，其中第一列为原图像，第一行表示从“No Pale Skin”到“Pale Skin”生成图像逐渐变化的结果，第二行则表示从“Female”到“Male”逐渐变化的结果。可以看出，图像的生成是很自然且平滑的。

5.3定量评估

属性编辑的性能可以从图像质量方面进行评价。在图像质量方面，本发明保持目标属性向量与源属性向量相同，也就是将重建图像和原图像进行对比测试，重建图像和原图像对比实验的PSNR/SSIM结果如表4所示。

PSNR(Peak Signal to Noise Ratio，峰值信噪比)和SSIM(StructuralSimilarity，结构相似性)是两种常用的全参考图像质量评价指标。PSNR用来评价生成图像和原图像相比质量的好坏，一般取值范围为20～40dB，值越高则表示生成图像和原图像越接近。PSNR主要定义了两个值，一个是均方差MSE，另一个是峰值信噪比PSNR，公式如下：

其中，X和Y表示两张对比的图像，H、W分别代表图像的高度和宽度，n为每像素的比特数，一般取8。

SSIM是一种衡量两幅图像相似度的指标，计算稍复杂，其值可以较好地反映人眼主观感受。一般取值范围为0～1，最大为1。其值越大，表示生成图像和原图像之间的差距越小、越相似，公式如下：

其中，μ_X和σ_X分别代表X图像的平均值和标准差，μ_Y和σ_Y分别代表Y图像的平均值和标准差，σ_XY代表X图像和Y图像的协方差，c₁和c₂是为了避免分母为0而设置的常数。

由表4可以看出，由于训练过程的限制，IcGAN的重建能力是非常有限的。与AttGAN相比，本发明的方法通过使用多尺度判别器，有利于生成器生成更好的细节，并能够宏观把握生成图片的全局信息，获取更大感受野的信息，从而更好地实现了重构。

表4面部属性编辑任务中几种方法的重建质量

Method	IcGAN	StarGAN	AttGAN	Ours
					PSNR	15.28	22.80	24.07	25.26
SSIM	0.430	0.819	0.841	0.854

在本发明中，提出了一种条件生成模型：使用生成对抗网络(GAN)和编码器-解码器结构进行人脸属性编辑，生成了高视觉质量的图像。本发明首先介绍了编码器-解码器结构、生成对抗网络和人脸属性编辑的相关工作和研究进展，进而提出了本发明的模型，包括使用条件生成对抗网络CGAN，模型的输入为人脸图像和二进制属性，使用编码器-解码器结构作为生成器，并与U-Net相结合，使用属性分类器来保证正确地改变属性，采用多尺度判别器来生成更好的细节。在CelebA数据集上的实验表明，本发明的模型在正确地拥有预期属性的基础上生成了高质量的人脸图像。在下一步的工作中，本发明将尝试将模型应用于一般的图像编辑任务，并且将研究更复杂的模型来实现进一步提高训练的稳定性和图像生成质量。

图8是本发明实施例提供的人脸属性编辑示例图；

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于生成对抗网络的人脸属性编辑方法，其特征在于，所述基于生成对抗网络的人脸属性编辑方法包括以下步骤：

将重建损失，属性分类损失和多尺度的GAN损失结合用于人脸属性编辑中；

所述损失函数包括以下三种类型的损失：

(1)GAN损失，使生成的图像与真实图像无法区分，使生成的图像尽可能逼真；

(2)重建损失，测量在编码和解码之后原始输入图像被重建；

(3)属性分类损失，约束模型对生成的图像进行正确地属性操作；

所述损失函数具体包括：

(1)GAN损失，使用WGAN所提出的损失函数，生成器和多尺度判别器之间的对抗关系表述为以下损失函数：

其中，p_data和p_attr表示真实图像的分布和属性的分布，X_a为原始输入图像，b为二进制属性；

(2)重建损失，所述重建学习要求生成图像近似于原图像，将循环一致性损失应用于生成器，为：

其中，X_a为原始输入图像，X_a'是潜在表示z和原始属性a的重建图像，采用L1损失作为重建损失；

(3)属性分类损失，对于给定的输入图像X_a和目标属性b，所述目标是将X_a转换为拥有目标属性b的输出图像X_b，并保持X_a的身份，因此将生成图像X_b通过属性分类器得到的属性b'应该近似于b，所以编码器-解码器的损失函数为：

其中，C_i(X_b)表示属性分类器对图像X_b的第i属性的预测，l_g(X_a,b)表示所有属性的二元交叉熵损失的总和；

将原始图像X_a通过属性分类器得到的属性a'应该近似于a，所以属性分类器C的损失函数为：

其中，C_i(X_a)表示属性分类器对图像X_a的第i属性的预测。

2.如权利要求1所述的基于生成对抗网络的人脸属性编辑方法，其特征在于，所述人脸属性编辑模型的数据集由图像和具有n个二进制属性的标签组成；网络结构包括：编码器Enc，解码器Dec，属性分类器C，以及多尺度判别器D1和D2；

所述人脸属性编辑模型采用U-Net的结构，在编码器和解码器之间使用对称跳过连接。

3.如权利要求2所述的基于生成对抗网络的人脸属性编辑方法，其特征在于，所述人脸属性编辑模型由Adam优化器训练，batch size设置为32，学习率设置为0.0002；

所述人脸属性编辑模型的训练过程如下：

设置n_d＝5表示生成器更新一次而判别器更新五次；第一阶段模型训练判别器网络{D₁，D₂}和属性分类器C，利用对抗损失和属性分类损失来更新判别器和属性分类器；第二阶段对生成器网络进行训练；整个训练过程是通过反向传播完成的；编码器的输入为128×128的人脸图像，多尺度判别器的输入分别为D1是128×128的原始图像、D2是64×64的图像。

4.如权利要求2所述的基于生成对抗网络的人脸属性编辑方法，其特征在于，所述人脸属性编辑模型的网络结构具体包括：

(1)所述编码器将具有n个二进制属性a的真实输入图像X_a映射为一种潜在表示_z：

z＝Enc(Xa)#(3)；

所述编码器Enc使用五层卷积，每层卷积后面紧跟BN和Leaky ReLU，解码器Dec使用五层反卷积，前四层的反卷积后面紧跟BN和ReLU，第五层的反卷积后面为Tanh；

(2)所述解码器将潜在表示_z和另一个n个二进制属性b进行解码，从而实现属性编辑，生成具有预期属性b的生成图像X_b：

X_b＝Dec(z,b)#(4)；

所述解码器将属性a和潜在表示z进行解码来实现重建原图的作用，生成真实图像X_a的重建图像X_a'，重建图像和原图要尽可能的相似：

X_a'＝Dec(z,a)#(5)；

b′＝C(X_b)#(6)；

生成图像X_b通过属性分类器得到的属性b'应该近似于b；

(4)所述多尺度判别器用于对抗训练，区分生成的图像和真实的图像，判别图像真伪；采用2个尺度的判别器，两者网络结构完全相同，但是输入图片的大小有所区别；D1的输入是128×128的原图像，表示处理更大分辨率图片的判别器，而D2的输入是原图经过下采样缩小之后的64×64的图像，表示处理更小分辨率图片的判别器。

5.如权利要求2所述的基于生成对抗网络的人脸属性编辑方法，其特征在于，所述多尺度判别器和属性分类器共享五层卷积层，后面分别是不同的全连接层；每层卷积后面紧跟LN/IN和Leaky ReLU，其中LN是层标准化，IN是实例标准化；

优化编码器和解码器的目标函数如下：

优化多尺度判别器D1、D2和属性分类器C的目标函数如下：

其中，λ₁～λ₇表示用于平衡损失的超参数。

6.如权利要求1所述的基于生成对抗网络的人脸属性编辑方法，其特征在于，使用WGAN-GP进行优化GAN损失，目标函数重新表述为：

7.一种实施权利要求1～6任意一项所述基于生成对抗网络的人脸属性编辑方法的应用于娱乐、社交、面部动画、表情识别的信息处理终端。

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1～6任意一项所述基于生成对抗网络的人脸属性编辑方法。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1～6任意一项所述基于生成对抗网络的人脸属性编辑方法。