CN114359423A

CN114359423A - 一种基于深度对抗生成网络的文本生成人脸方法

Info

Publication number: CN114359423A
Application number: CN202011099710.6A
Authority: CN
Inventors: 何小海; 罗晓东; 张津; 刘露平; 卿粼波; 吴小强; 滕奇志
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2022-04-15
Anticipated expiration: 2040-10-13
Also published as: CN114359423B

Abstract

针对从文本描述生成人脸图像，本发明设计了一种基于深度对抗生成网络的文本生成人脸方法。主要涉及从文本描述生成图像领域的应用，尤其涉及社会公共安全领域中根据目击者对目标人物的描述进行画像的应用。本方法包含数据集制作，网络模型设计，网络模型参数训练，网络模型性能测试四个部分。本发明充分发挥对抗生成网络在图像生成方面的优越性，设计了从文本生成人脸的一套优良解决方案，在公共安全、人脸图像修复、影视传媒和考古研究等领域具有较为广阔的应用前景。

Description

一种基于深度对抗生成网络的文本生成人脸方法

技术领域

本发明涉及计算机视觉领域，具体涉及基于深度学习的文本到图像生成、人脸生成领域的应用，尤其涉及一种基于深度学习的从文本描述生成人脸图像的应用。

背景技术

近年来，基于深度学习的图像生成技术发展迅速，该技术已经应用到了社会的各个领域中，比如影视媒体、相机美颜、计算机辅助修图、换脸、考古研究和图像修复等。其中从文本描述到图像生成的技术也越来越成熟，出现了AttnGAN、DM-GAN、KT-GAN等技术在文本描述到图像生成方面取得了较大的突破，这些技术将会逐渐地应用到相关的各个领域。在社会公共安全领域，在对犯罪份子进行追捕时，往往会从目击者对目标人物的描述中获取到面貌的关键信息，甚至需要专业人员根据目击者的描述进行人脸画像。为此，研究从文本描述到人脸的生成技术，不但在公共安全领域有着较大的应用前景，在人脸图像修复、影视娱乐和考古研究等领域都有着较大的应用前景。

目前文本到图像的生成技术研究已经越来越成熟，但专注于文本到人脸生成方面的研究非常的少，还处于起步阶段。当前，只根据文本描述要生成与原始人脸相似的人脸图像技术难度高，还需要在技术上不断进步，本发明在该领域进行了创新和取得了一定的突破。

发明内容

本发明针对从文本描述到图像生成领域，尤其是从文本描述到人脸生成方面的问题，提供了一种基于深度对抗生成网络的文本生成人脸方法。该方法采用三级对抗生成网络，分别生成64×64、128×128和256×256三种分辨率大小的人脸图像，其中第一级生成人脸质量的好坏直接影响到最后生成人脸的质量，人脸生成任务要尽量做到生成人脸与原始人脸的语义一致性，为此本发明将第一级设计成双通道，一个通道输入为高斯噪声N(0～1)～和文本描述组合的特征向量，另一通道输入为文本描述的特征向量，有效地提升了生成人脸图像的质量。同时，引入感知损失函数(Perceptual Loss)来引导网络模型根据文本生成更加接近原始人脸的人脸图像，本发明提出了图1所示深度对抗生成网络模型的总体原理框架图。

本发明通过以下技术方案来实现上述目的：

一种基于深度对抗生成网络的文本生成人脸方法，包括以下步骤：

步骤一：数据集制作，在公开人脸数据集上选取人脸图像并对其进行文本描述，然后将描述完成的人脸图像和文本描述数据拆分为训练集和测试集；

步骤二：网络模型设计，提出的深度对抗网络采用双通道(Dual-channelGenerative Adversarial Network,DualGAN)模型，同时引入感知损失函数(PerceptualLoss)来引导网络模型根据文本生成更加逼真的人脸图像；

步骤三：网络模型参数训练，将步骤一中的训练数据集输入到步骤二中模型中进行训练，并根据中间结果不断对网络超参数进行调整和优化；

步骤四：网络模型性能测试，将步骤一中的测试数据集输入到步骤三训练好的模型中进行人脸生成测试，引入人脸相似度(Face Similarity Score,FSS)和人脸相似度距离(Face Similarity Distance,FSD)来对生成的人脸图像进行评价。

作为步骤一中数据集制作说明如下：

目前为止还没有公开的从文本描述生成人脸的数据集，为此要完成该任务，首先需要构建相应的数据集供网络模型训练和测试。本发明从公开人脸数据集LFW和CelebA中选择1000个人脸图像，首先截取出人脸部分图像，除去多余的背景图案，重置分辨率大小为256×256，然后通过人工对每个人脸图像分别用5句话进行描述，文本生成人脸的数据集样例如图2所示。

作为步骤二中的双通道对抗生成网络(Dual-channel Generative AdversarialNetwork,DualGAN)模型，其说明如下：

从文本描述生成人脸的网络采用的是三级对抗生成网络(GenerativeAdversarial Network,GAN)，第一级GAN生成的人脸图像分辨率大小为64×64，第二级GAN生成的人脸图像分辨率大小128×128，第三级GAN生成的人脸图像分辨率大小为256×256。其中，最关键的是第一级GAN生成人脸图像质量的好坏，将直接影响到最后生成人脸图像的质量。为此本发明创新地在第一级GAN采用双通道对抗生成网络(Dual-channelGenerative Adversarial Network,DualGAN)来提升生成的人脸图像质量，从而有效地提升后面两级GAN生成人脸图像的质量。为了使得生成人脸图像更加逼近原始人脸图像，将第三级GAN生成的人脸图像和对应的原始人通过图像编码器进行编码转化成特征向量，计算它们的欧式距离(Euclidean Metric)也即感知损失(Perceptual Loss)，其计算方法如公式1所示，并将该损失函数反向传播到网络中，通过计算梯度下降来引导模型训练，最终有效地提升了生成的人脸图像与原始图像的相似度。

其中m为训练batch-size的值，

为原始人脸图像的特征图谱，

为生成人脸图像的特征图谱。

作为步骤三网络模型参数训练，其说明如下：

DualGAN网络模型在训练过程中，需要对总损失函数和学习率等的超参数进行调整，通过实验不断地验证和调整，最后得到相对较优的超参数。

作为步骤四网络模型性能测试，其说明如下：

为了验证模型的性能，需要对生成的人脸进行定量和定性的评价。由于从文本生成人脸目前还没有公开的定量评价指标，根据该任务的特点，引入人脸相似度(FaceSimilarity Score,FSS)和人脸相似度距离(Face Similarity Distance,FSD)来对生成的人脸进行定量评价。同时对生成的人脸与公开方法生成的人脸做了对比，其生成人脸对比结果如图3所示。

附图说明

图1是本发明的深度对抗生成网络模型的总体原理框架图。

图2是本发明的文本生成人脸的数据集样例。

图3是本发明提出方法与其他方法生成人脸的对比结果。

具体实施方式

基于基于深度对抗生成网络的文本生成人脸，主要分为四个步骤进行：数据集制作，网络模型设计，网络模型参数训练，网络模型性能测试。

在数据集制作中，本发明基于公开人脸数据集LFW和CelebA中选取1000张人脸，对其进行预处理裁减掉背景，并提取出人脸部分的图像，然后由5个不同人的对其进行独立描述，然后将这个5个描述便为该人脸的文本描述，最终分为训练集800张，测试集200张，其样例如图2所示。

将准备好的训练数据集800张人脸及对应的文本描述输入到设计的网络模型进行训练，在训练过程不断调整总损失函数的超参数和学习率，如公式2的超参数，通过大量的实验证明，当超参数λ₁＝1.0,λ₂＝0.2和生成器的学习率为LR＝0.00001时模型的性能相对较优。

L_G＝L_g1+L_g2+L_g3+λ₁L_DAMSM+λ₂PL (2)

其中，L_G为总的损失函数，L_g1为第一级生成器的损失函数，L_g2为第二级生成器的损失函数，L_g3为第三级生成器的损失函数，L_DAMSM为Deep Attentional MultimodalSimilarity Model模型计算的损失函数，PL为感知损失函数，λ₁和λ₂为超参数。

网络模型训练好后，将测试数据集200张人脸的文本描述输入到网络模型中进行人脸生成的测试，其直观定性的对比结果如图3所示，本发明设计网络模型的性能要优于其他算法，定量客观的对比结果如表1所示，与StackGAN++,AttnGAN,FTGAN,DM-GAN四种现有的算法相比，本发明提出的Dual-GAN在Fréchet Inception Distance(FID),FSD,FSS三个评价指标上都达到了当前最优。

表1生成人脸评价指标对比

Claims

1.一种基于深度对抗生成网络的文本生成人脸方法，其特征在于包括以下步骤：

步骤一：数据集制作，在公开人脸数据集上选取人脸图像并对其进行文本描述，然后将描述完成的人脸图像和文本描述数据随机拆分为训练集和测试集；

步骤二：网络模型设计，提出双通道对抗生成网络(Dual-channel GenerativeAdversarial Network,DualGAN)模型，同时引入感知损失函数(Perceptual Loss)来引导网络模型根据文本描述生成更逼真的人脸图像；

步骤三：网络模型参数训练，将步骤一中的训练数据集输入到步骤二中的模型进行训练，并根据中间结果不断对网络模型参数进行调整和优化；

步骤四：网络模型性能测试，将步骤一中的测试数据集输入到步骤三训练好的网络模型中进行人脸生成测试，并引入人脸相似度(Face Similarity Score,FSS)和人脸相似度距离(Face Similarity Distance,FSD)来对生成的人脸图像进行评价。

2.根据权利要求1所述的基于深度对抗生成网络的文本生成人脸方法，其特征在于步骤二中的网络模型，采用的是三级对抗生成网络，第一级生成的人脸图像分辨率大小为64×64，第二级生成的人脸图像分辨率大小为128×128，第三级生成的人脸图像分辨率大小为256×256，第一级采用双通道对抗生成网络(Dual-channel Generative AdversarialNetwork,DualGAN)模型。

3.根据权利要求1所述的基于深度对抗生成网络的文本生成人脸方法，其特征在于步骤二中将第三级对抗生成网络生成的人脸图像和对应的原始人脸图像编码转化成特征向量，并计算它们的欧式距离(Euclidean Eetric)也即感知损失(Perceptual Loss)，将该损失函数反向传播到网络中，通过梯度下降来引导模型训练，最终提升生成的人脸图像与原始图像相似度。

4.根据权利要求1所述的基于深度对抗生成网络的文本生成人脸方法，其特征在于步骤四为了定量的评价提出网络模型生成人脸图像的质量，引入人脸相似度(FaceSimilarity Score,FSS)和人脸相似度距离(Face Similarity Distance,FSD)两个评价指标来对生成的人脸图像进行定量客观的评价。