CN113361489B - 基于解耦表示的人脸正面化模型构建方法和训练方法 - Google Patents

基于解耦表示的人脸正面化模型构建方法和训练方法 Download PDF

Info

Publication number
CN113361489B
CN113361489B CN202110780387.7A CN202110780387A CN113361489B CN 113361489 B CN113361489 B CN 113361489B CN 202110780387 A CN202110780387 A CN 202110780387A CN 113361489 B CN113361489 B CN 113361489B
Authority
CN
China
Prior art keywords
face
face image
frontal
image
decoupling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110780387.7A
Other languages
English (en)
Other versions
CN113361489A (zh
Inventor
刘艳飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN202110780387.7A priority Critical patent/CN113361489B/zh
Publication of CN113361489A publication Critical patent/CN113361489A/zh
Application granted granted Critical
Publication of CN113361489B publication Critical patent/CN113361489B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种人脸正面化领域,特别涉及基于解耦表示的人脸正面化模型构建方法和训练方法;所述构建方法中对正面人脸图像和非正面人脸图像构建出至少包括两个生成器、两个判别器和两个特征提取网络的循环生成对抗网络;对所述循环生成对抗网络中的非正面人脸图像特征提取网络进行特征解耦处理,构建出基于解耦表示的循环生成对抗网络;从所述基于解耦表示的循环生成对抗网络提取出正面人脸生成器,从而完成人脸正面化模型的构建;本发明训练该模型可以加入非约束环境下的数据进行训练从而提高模型在非约束环境下的泛化能力;本发明还能够促使该网络生成真实的、高质量的、保持身份信息的正面人脸图片,从而进一步提升后续人脸识别的性能。

Description

基于解耦表示的人脸正面化模型构建方法和训练方法
技术领域
本发明涉及一种人脸正面化领域,特别涉及基于解耦表示的人脸正面化模型构建方法和训练方法。
背景技术
人脸正面化是指将所有人脸图片转换到正面人脸以去除角度对人脸识别的影响,是解决多角度人脸识别的一种重要手段。随着大数据和高性能计算的出现以及深度学习技术的进步,人脸识别技术得到了飞速的发展,在一定条件下已经达到了可以实用的程度。但在一些极端的非约束环境(用户不配合、采集条件不理想)下,如大角度、极端光照、大面积的遮挡等条件下,特别是极端角度下,人脸识别仍然存在很大的挑战。人脸正面化,作为实现角度不变人脸识别的一种手段,仍是人脸识别领域研究的热点。
近年来,基于深度学习的人脸正面化方法大大提高了人脸正面化及人脸识别的性能。特别是,生成对抗网络(General Adversarial Network,GAN)由于其利用生成器与判别器的对抗能够生成更加真实的图片,在正面人脸生成即人脸正面化应用中取得了良好的表现。典型的具有代表性的基于GAN的人脸正面化方法包括:Huang等人在2017年ICCV会议发表的论文《Beyond Face Rotation:Global and Local Perception GAN forPhotorealistic and Identity Preserving Frontal View Synthesis》中提出的双路生成对抗网络(Two-Pathway Generative Adversarial Network,TP-GAN)、Hu等人在2018年CVPR会议发表的论文《Pose-Guided Photorealistic Face Rotation》中提出的双判别器角度引导的生成对抗网络模型(Couple-Agent Pose-Guided Generative AdversarialNetwork,CACP-GAN)、Qian等人在2019年CVPR会议发表的论文《Unsupervised FaceNormalization With Extreme Pose and Expression in the Wild》中提出的人脸正规化模型(Face Normalization Modle,FNM)、Yin等人于2020年发表的论文《Dual-AttentionGAN for Large-Pose Face Frontalization》中提出的双阶段注意力机制生成对抗网络(Dual-Attention GAN,DA-GAN)等。
然而,这些模型通常需要大量成对的人脸数据(即某人的非正面人脸与正面人脸图片)进行监督训练,现实情况下获取这样的数据往往花费巨大,难以实现。现有的人脸正面化模型通常采用具有成对数据的约束环境下的数据库MultiPIE数据库进行训练,但在约束环境下进行训练的模型在非约束环境下的泛化能力弱,对于非约束环境下的实际应用具有局限性。
发明内容
有鉴于此,本发明的目的在于提供一种基于解耦表示的人脸正面化模型构建方法和训练方法,该方法通过对身份特征与角度特征进行解耦的方式构成非监督的循环生成对抗网络,在不需要成对数据进行监督训练的情况下即非监督的情况下,能够生成真实的、保持身份信息的正面人脸图片。本发明首先构建基于解耦表示的循环生成对抗网络,并通过非监督方式对其进行训练,然后通过该循环生成对抗网络生成正面人脸图片用于进行角度不变的人脸识别。
在本发明的第一方面,本发明提供了一种基于解耦表示的人脸正面化模型构建方法,所述方法包括:
对正面人脸图像和非正面人脸图像构建出至少包括两个生成器、两个判别器和两个特征提取网络的循环生成对抗网络;
对所述循环生成对抗网络中的非正面人脸图像特征提取网络进行特征解耦处理,构建出基于解耦表示的循环生成对抗网络;
对所述基于解耦表示的循环生成对抗网络进行预训练,从预训练好的基于解耦表示的循环生成对抗网络中提取出正面人脸生成器,从而完成人脸正面化模型的构建。
在本发明的第二方面,本发明还提供了第一方面模型的训练方法,即一种基于解耦表示的人脸正面化模型训练方法,包括:
获取一系列的人脸样本图像,将所述正面人脸图像和所述非正面人脸图像输入到基于解耦表示的循环生成对抗网络中;其中所述人脸样本图像包括正面人脸图像和非正面人脸图像;
通过正面人脸图像特征提取网络提取出正面人脸图像的身份特征;通过非正面人脸图像特征提取网络以解耦表示的方式提取出非正面人脸图像的身份特征和角度特征;
通过正面人脸生成器对非正面人脸图像的身份特征和角度特征进行处理,生成其对应的正面人脸图像;通过非正面人脸生成器对正面人脸图像的身份特征和非正面人脸图像的角度特征进行处理,生成其对应的非正面人脸图像;
通过非正面人脸图像特征提取网络提取出生成的非正面人脸图像的身份特征和角度特征,并利用正面人脸生成器重建出人脸正面图像;通过正面人脸图像特征提取网络提取出生成的正面人脸图像的身份特征,结合所述角度特征利用非正面人脸生成器重建出非正面人脸图像;
通过正面人脸图像判别器对输入的正面人脸图像和重建出的正面人脸图像进行判别;通过非正面人脸图像判别器对输入的非正面人脸图像和重建出的非正面人脸图像进行判别;
对所述基于解耦表示的循环生成对抗网络进行对抗训练、语义级循环一致性训练、身份保持训练以及KL散度训练,得到训练后的正面人脸生成器,从而完成人脸正面化模型的训练。
在本发明的第三方面,本发明还针对本发明的第一方面和第二方面提供了一种电子设备,包括:
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明第一方面所述的一种基于解耦表示的人脸正面化模型构建方法或者实现如本发明第二方面所述的一种基于解耦表示的人脸正面化模型训练方法中任一项方法。
本发明的有益效果在于:
本发明提出基于解耦表示的人脸正面化模型构建方法和训练方法,通过可以非监督训练的基于解耦表示的循环生成对抗网络生成真实的、保持身份信息的正面人脸图片,有效解决了有监督网络容易因为大量非约束环境下的成对数据获取困难而训练效果差的问题,为实现角度不变的人脸识别提供手段。
本发明主要具有以下优点:
1)基于解耦表示的循环生成对抗网络通过身份特征与角度特征的解耦联合循环生成对抗网络能实现非监督的训练用以生成正面人脸图片,即训练该模型不需要成对的数据,可以加入非约束环境下的数据进行训练从而提高模型在非约束环境下的泛化能力。
2)本发明提出了语义级循环一致性损失并引入身份保持损失函数等到网络中,能够促使该网络生成真实的、高质量的、保持身份信息的正面人脸图片,从而进一步提升后续人脸识别的性能。
附图说明
图1是本发明实施例中的一种基于解耦表示的人脸正面化模型构建方法流程图;
图2是本发明实施例中的基于解耦表示的循环生成对抗网络结构图;
图3是本发明实施例中的一种基于解耦表示的人脸正面化模型训练方法流程图;
图4是本发明实施例中的身份特征编码器与角度特征编码器网络结构图;
图5是本发明实施例中的一种电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例中一种基于解耦表示的人脸正面化模型构建方法,如图1所示,所述模型构建方法包括:
101、对正面人脸图像和非正面人脸图像构建出至少包括两个生成器、两个判别器和两个特征提取网络的循环生成对抗网络;
循环生成对抗网络(Cycle generative adversarial network,CycleGAN)是传统生成对抗网络(generative adversarial network,GAN)的特殊变体。本发明的循环生成对抗网络可以创建新的数据样本,并且通过转换输入的正面人脸图像样本和非正面人脸图像样本来实现,因此可以从两个图像样本中转换数据。
在本发明实施例中,本发明对现有的循环生成对抗网络进行了一些调整,与传统的CycleGAN相比,本发明的循环生成对抗网络不需要对角度信息进行编码,能够避免CycleGAN中常采用的one-hot编码所存在的编码不连续问题所导致的角度缺失。
其中,两个生成器分别是正面人脸图像生成器和非正面人脸图像生成器,两个判别器分别是正面人脸图像判别器和非正面人脸图像判别器;两个特征提取网络分别是正面人脸图像特征提取网络和非正面人脸图像特征提取网络。
102、对所述循环生成对抗网络中的非正面人脸图像特征提取网络进行特征解耦处理,构建出基于解耦表示的循环生成对抗网络;
本实施例中将非正面人脸图像特征提取网络所采用的特征解耦处理,也即是对非正面人脸图像的身份特征和角度特征进行解耦处理,即通过身份特征编码器
Figure BDA0003156546530000051
和角度特征编码器EP来提取出非正面人脸图像的身份特征和角度特征。
图2是本发明实施例中的基于解耦表示的循环生成对抗网络结构图,如图2所示,所述基于解耦表示的循环生成对抗网络结构中,主要包括以下几个部分:
(1)正面人脸图像的身份特征编码器
Figure BDA0003156546530000052
与非正面人脸图像的身份特征编码器
Figure BDA0003156546530000053
分别对应于正面人脸域与非正面人脸域,用于对正面人脸与非正面人脸进行身份特征提取;
(2)正面人脸生成器GF与非正面人脸生成器GN,分别用于生成正面人脸和非正面人脸;
(3)非正面人脸图像的角度特征编码器EP,用于提取角度特征;
(4)正面人脸判别器DF与非正面人脸判别器DN,分别用于区分真假正面人脸(即真实的正面人脸与生成的正面人脸)与真假非正面人脸。
可以理解的是,由于篇幅有限,图2中未示出正面人脸判别器DF与非正面人脸判别器DN,正面人脸判别器DF分别连接输入的正面人脸图像和重建出的正面人脸图像;非正面人脸判别器DN分别连接输入的非正面人脸图像和重建出的非正面人脸图像。
103、对基于解耦表示的循环生成对抗网络进行预训练,从预训练好的基于解耦表示的循环生成对抗网络中提取出正面人脸生成器,从而完成人脸正面化模型的构建。
其中,在一些实施例中,对基于解耦表示的循环生成对抗网络进行预训练可以包括:
多次从各个人脸图像样本集合中抽取出一批人脸图像,并得到多批次的第一人脸样本图像集合;
按批次从所述第一人脸样本图像集合中获取人脸图像及其对应的人脸标签信息,其中所述人脸标签信息包括正面人脸标签或者非正面人脸标签;
将从所述第一人脸样本图像集合中获取的人脸图像输入至基于解耦表示的循环生成对抗网络中,获得生成正面人脸图像;
获得第一人脸样本图像集合所对应的生成正面人脸图像的预测损失值,根据所述预测损失值对基于解耦表示的循环生成对抗网络进行预训练。
更进一步的,根据所述预测损失值对待基于解耦表示的循环生成对抗网络进行预训练之后还包括:
若预训练后的基于解耦表示的循环生成对抗网络不满足第一收敛条件,则将所述预训练后的基于解耦表示的循环生成对抗网络重新作为待训练的基于解耦表示的循环生成对抗网络,并跳转至将从所述第一人脸样本图像集合中获取的人脸图像输入至基于解耦表示的循环生成对抗网络中,获得生成正面人脸图像,得到各个批次对应的第一人脸样本图像集合对应的基于解耦表示的循环生成对抗网络;
若预训练后的基于解耦表示的循环生成对抗网络满足第一收敛条件,则输出当前预训练完成的基于解耦表示的循环生成对抗网络。
另一方面,显然,非正面人脸生成器GN为正面人脸生成器GF的逆变换,非正面人脸生成器GN的存在是为了使模型能够进行非监督的训练,由于本发明是为了获取人脸正面化模型,因此本发明最终需要的人脸正面化模型为GF,其它模型均只在训练阶段使用。
图3是本发明实施例中的一种基于解耦表示的人脸正面化模型训练方法,如图3所示,所述模型训练方法包括:
201、获取一系列的人脸样本图像,将所述正面人脸图像和所述非正面人脸图像输入到基于解耦表示的循环生成对抗网络中;其中所述人脸样本图像包括正面人脸图像和非正面人脸图像;
所述人脸图像可以通过设备拍摄得到,如行车记录仪、摄像头等具有拍摄功能的设备,并通过固定的相机获取目标人脸在不同偏转角度下的人脸图像或者通过安装于不同角度的相机分别获取目标人脸的人脸图像;所述人脸图像还可以从视频帧中截取,该视频帧也可以由上述设备拍摄得到;所述人脸图像还可以从数据库或网络中获取,也就是可以从公开数据集中获取不同人脸的正面图像和非正面图像。一般而言,设备从人脸的正面拍摄得到人脸的正脸图像,从人脸的侧面拍摄得到人脸的侧脸图像;相对于正脸图像,侧脸图像可以具有多种侧脸角度、如30度、45度、60度、75度等。通常,侧脸图像与正脸图像相比,脸型轮廓会发生变化、五官的形状、相对位置关系会发生变化,另外还可能遗失被遮挡一侧的特征,如被遮挡一侧的脸部眼睛、眉毛等。
在获取人脸图像之前中,通常先判断人脸图像中是否能够检测到人脸特征,该人脸特征可以为局部人脸特征,如眼睛、鼻子、嘴巴中的一种或多种;如果能够从待识别图像中检测到人脸特征,则说明该待识别图像中存在人脸;进而再检测该人脸是否是侧脸。在检测该人脸是否是侧脸的过程中,可以预设侧脸条件,该侧脸条件可以根据五官的位置关系、左右脸的比例、缺少的脸部特征等设置,如果检测到的人脸满足上述侧脸条件,则可以确定上述待识别图像中包含有侧脸图像。
可以理解的是,本发明中的基于解耦表示的循环生成对抗网络属于非监督模型,因此该模型不需要成对训练数据,所以本发明中的正面人脸图像和非正面人脸图像可以从一些非成对数据集中采样而来,并且可能属于不同的身份,即不属于同一人脸对象。
其中,所述基于解耦表示的循环生成对抗网络仍然可以参考图2所示,给定训练数据IF∈F为正面人脸域中训练样本,IN∈N为非正面人脸域中训练样本,正面人脸图像IF和非正面人脸图像IN分别输入到基于解耦表示的循环生成对抗网络中,并通过其中的特征编码器进行后续处理。
202、通过正面人脸图像特征提取网络提取出正面人脸图像的身份特征;通过非正面人脸图像特征提取网络以解耦表示的方式提取出非正面人脸图像的身份特征和角度特征;
在本步骤中,正面人脸图像仅仅只具有身份特征,不具有角度特征;而非正面人脸图像不仅具有身份特征,还具有角度特征;因此,身份特征编码器
Figure BDA0003156546530000081
Figure BDA0003156546530000082
从对应的正面人脸图像与非正面人脸图像中分别提取出身份特征,角度特征编码器EP估计出非正面人脸图像的角度特征。
由于正面人脸图片仅含有身份信息而没有角度信息,那么正面人脸的身份特征编码器
Figure BDA0003156546530000083
应该是一个完美的身份特征提取器。本发明令
Figure BDA0003156546530000084
Figure BDA0003156546530000085
最后一层共享参数以引导
Figure BDA0003156546530000086
学习如何有效从非正面人脸图片中提取身份特征。
角度特征编码器EP应该只编码角度信息。为了达到这个目的,本发明采用两种策略来帮助EP抑制尽可能多的身份特征。首先,本发明将EP(IN)与
Figure BDA0003156546530000087
一起输入给GN用于生成非正面人脸
Figure BDA0003156546530000091
由于
Figure BDA0003156546530000092
是正面人脸IF的非正面人脸结果,它不含有IN的身份信息,因此,这个结构有利于使得EP(IN)不编码IN的身份信息。同样,本发明将
Figure BDA0003156546530000093
Figure BDA0003156546530000094
一起输入给GN用于生成非正面人脸
Figure BDA0003156546530000095
而由于
Figure BDA0003156546530000096
中不含有
Figure BDA0003156546530000097
的身份信息所以
Figure BDA0003156546530000098
也不会编码
Figure BDA0003156546530000099
的身份信息而倾向于只编码角度信息。其次,本发明采用KL散度损失以规范化角度特征接近于正态分布。KL散度损失能够进一步抑制EP所包含的身份特征信息。
在本发明实施例中,本申请提出的基于解耦表示的循环生成对抗网络中的身份特征编码器、角度特征编码器、生成器及判别器的具体结构可以参考现有基于GAN的人脸正面化的方法中采用的模型结构设定。
作为一种可实现方式,身份特征编码器与角度特征编码器可以采用K.Simonyan与A.Zisserman于2014年在论文《Very Deep Convolutional Networks for Large-ScaleImage Recognition》中提出的VGG-16网络结构。假设输入图片大小为224×224×3,身份特征编码器与角度特征编码器的网络结构如图4所示。生成器的结构与身份特征编码器是对称的,即为逆向VGG-16结构,亦即用上采样层代替VGG-16中的池化层,用反卷积层代替VGG-16中的卷积层。
203、通过正面人脸生成器对非正面人脸图像的身份特征和角度特征进行处理,生成其对应的正面人脸图像;通过非正面人脸生成器对正面人脸图像的身份特征和非正面人脸图像的角度特征进行处理,生成其对应的非正面人脸图像;
在本步骤中,非正面人脸生成器GN根据身份特征编码器
Figure BDA00031565465300000910
与角度特征编码器EP的结果生成非正面人脸图像
Figure BDA00031565465300000911
正面人脸生成器GF根据身份特征编码器
Figure BDA00031565465300000912
与角度特征编码器EP的结果生成正面人脸图像
Figure BDA00031565465300000913
Figure BDA00031565465300000914
其中,
Figure BDA00031565465300000915
表示生成的非正面人脸图像,
Figure BDA00031565465300000916
表示生成的正面人脸图像,
Figure BDA00031565465300000917
表示对非正面人脸图像采用身份特征编码器
Figure BDA00031565465300000918
提取出身份特征,EP(IN)表示对非正面人脸图像采用角度特征编码器EP提取出角度特征;
Figure BDA00031565465300000919
表示对正面人脸图像采用身份特征编码器
Figure BDA00031565465300000920
提取出身份特征。
204、通过非正面人脸图像特征提取网络提取出生成的非正面人脸图像的身份特征和角度特征,并利用正面人脸生成器重建出人脸正面图像;通过正面人脸图像特征提取网络提取出生成的正面人脸图像的身份特征,结合所述角度特征利用非正面人脸生成器重建出非正面人脸图像;
身份特征编码器
Figure BDA0003156546530000101
与角度特征编码器EP对生成的非正面人脸图像
Figure BDA0003156546530000102
进行处理,提取出生成的非正面人脸图像
Figure BDA0003156546530000103
的身份特征和角度特征;并再次利用正面人脸生成器GF对生成的非正面人脸图像
Figure BDA0003156546530000104
的身份特征和角度特征重建出正面人脸图像
Figure BDA0003156546530000105
身份特征编码器
Figure BDA0003156546530000106
对生成的正面人脸图像
Figure BDA0003156546530000107
进行处理,提取出生成的正面人脸图像
Figure BDA0003156546530000108
的身份特征;结合前面提取出的非正面人脸图像
Figure BDA0003156546530000109
的角度特征,再次利用非正面人脸生成器GN对生成的正面人脸图像
Figure BDA00031565465300001010
的身份特征和非正面人脸图像
Figure BDA00031565465300001011
的角度特征重建出非正面人脸图像
Figure BDA00031565465300001012
205、通过正面人脸图像判别器对输入的正面人脸图像和重建出的正面人脸图像进行判别;通过非正面人脸图像判别器对输入的非正面人脸图像和重建出的非正面人脸图像进行判别;
由于空间关系,判别器DF与DN在图2中未示出,其用于区分生成人脸与真实人脸。
正面人脸图像判别器DF对输入的正面人脸图像IF和重建出的正面人脸图像
Figure BDA00031565465300001013
进行判别;非正面人脸图像判别器DN对输入的非正面人脸图像IN和重建出的非正面人脸图像
Figure BDA00031565465300001014
进行判别。
在一些优选实施例中,本发明的判别器可以采用Phillip Isola等在2017CVPR会议上发表的论文《Image-to-Image Translation with Conditional AdversarialNetworks》中提出的PatchGAN结构,Andrew L.Maas等于2013年在发表于ICML Workshop onDeep Learning for Audio,Speech and Language Processing的论文《Rectifiernonlinearities improve neural network acoustic models》中提出的LeakyReLU作为激活函数用于每层卷积层(Conv0、Conv1、Conv2、Conv3)之后,S.Ioffe等人于2015年在论文《Batch Normalization:Accelerating Deep Network Training by Reducing InternalCovariate Shift》中提出的批标准化(Batch Normalization,BN)用于除输入层以外的每层卷积层之后以加速训练过程,最后一层卷积层Conv4后跟Sigmoid函数用于映射出一个1维的输出结果。
假设输入的人脸图像大小为224×224×3,则判别器的详细网络结构如表1所示。
表1判别器网络结构
Figure BDA0003156546530000111
206、对所述基于解耦表示的循环生成对抗网络进行对抗训练、语义级循环一致性训练、身份保持训练以及KL散度训练,得到训练后的正面人脸生成器,从而完成人脸正面化模型的训练。
本发明涉及到的训练损失函数包括对抗损失Ladv、语义级循环一致损失Lc、身份保持损失Lid以及KL散度损失LKL
对抗损失:本专利采用对抗损失以生成更真实的人脸图片。对于正面人脸域,对抗损失可以定义为:
Figure BDA0003156546530000112
其中,
Figure BDA0003156546530000113
表示数学期望;DF试图最大化区分生成的正面人脸图片与真实正面人脸图片的目标函数,而GF则试图最小化使正面人脸看起来类似于F域的真实样本的损失函数。类似地,非正面人脸域的对抗损失可以定义为:
Figure BDA0003156546530000114
则最终的对抗损失函数为
Figure BDA0003156546530000115
语义级循环一致性损失:由于缺乏对齐的成对数据进行直接监督,一般的循环生成对抗网络CycleGAN通常采用循环一致性损失作为直接监督源以引导训练。
为达到监督目的,本申请所提出的非监督模型也需要像CycleGAN中采用的循环一致性损失一样的损失函数进行约束。但原CycleGAN采用l1损失函数来衡量循环重建的图片与原图片像素级上的相似性,而这样的像素级规范化并不适合像人脸正面化这样的任务,特别是对那些在非约束环境下获取的人脸图片。因为人脸图片中的语义结构会随着人头部的转动而发生变化。在非约束环境下获取的人脸图片通常包含一定比例的复杂自然背景结构。一般来说,人脸角度越大,则包含的背景区域就越大。而如果将一个非正面人脸转换为正面人脸,一部分背景区域就会被正面人脸所覆盖。然而,这样被遮挡的背景区域在相反过程(即将正面人脸转换回非正面人脸)则无法被准确地恢复。因此,在用于非正面-正面人脸转换的循环一致性损失中,像素是不对等的。直觉上可以看出,非正面-正面人脸转换的规范化应该将重点放在人脸区域而非背景区域。为达到该目的,本专利提出语义级循环一致性损失以代替像素级的l1损失函数。与像素级损失衡量两张图片中的像素级区别不同,语义级循环一致性损失衡量两张图片中的高阶语义特征区别。可以采用预先训练好的人脸识别网络(如ResNet、Light CNN等)来从人脸图片中提取特征表示。语义级循环一致性损失定义如下:
Figure BDA0003156546530000121
Figure BDA0003156546530000122
其中,
Figure BDA0003156546530000123
表示正面人脸图像的语义级循环一致性损失;
Figure BDA0003156546530000124
表示非正面人脸图像的语义级循环一致性损失;φi,j表示从预先训练的人脸识别网络获取的第j层卷积第i块上的特征图;‖‖2表示二范数。由于高层特征包含更多的语义信息,本发明实施例可以取最后两层卷积层的特征。因此,最终的基于解耦表示的循环生成对抗网络的语义级循环一致性损失为
Figure BDA0003156546530000125
身份保持损失:为了实现适用于人脸识别的人脸正面化,保持生成的正面人脸的身份是非常重要的。为计算身份保持损失,本专利采用与计算语义级循环一致性损失时采用的同一个预训练好的人脸识别网络从输入人脸图片与生成的人脸图片中提取特征表示,并需要这两个特征表示一致。身份保持损失定义如下:
Figure BDA0003156546530000131
Figure BDA0003156546530000132
其中,
Figure BDA0003156546530000133
表示正面人脸图像的身份保持损失;
Figure BDA0003156546530000134
表示非正面人脸图像的身份保持损失;φ-1表示预训练的人脸识别网络的最后一层提取出的特征图。值得注意的是,计算身份保持损失使用的是从预训练人脸识别网络的最后一层提取出来的最抽象的特征。该特征是从一个通常经过了平均全局池化操作之后的全连接层中提取出来的。因此,尽管原始人脸与生成人脸可能具有不同的人脸角度,但它们的几何结构信息将被全局池化操作去掉,只留下不含有人脸角度信息的抽象特征。最终的基于解耦表示的循环生成对抗网络的身份保持损失为
Figure BDA0003156546530000135
KL散度损失:为了使角度特征编码器能够学出更好的特征表示,本专利引入了KL散度损失以将角度特征向量
Figure BDA0003156546530000136
Figure BDA0003156546530000137
规范化到一个合适的先验分布p(z)~N(0,1)上。KL散度损失定义如下:
Figure BDA0003156546530000138
Figure BDA0003156546530000139
最小化该KL散度等同于最小化以下损失:
Figure BDA00031565465300001310
Figure BDA00031565465300001311
其中,
Figure BDA00031565465300001312
表示人脸样本图像中非正面人脸图像的KL散度损失;
Figure BDA00031565465300001313
表示生成的非正面人脸图像的KL散度损失;σ1i表示
Figure BDA00031565465300001314
在第i个维度的标准差;μ1i表示
Figure BDA00031565465300001315
在第i个维度的均值;μ2i表示
Figure BDA00031565465300001316
在第i个维度的均值;σ2i表示
Figure BDA00031565465300001317
在第i个维度的标准差;N1与N2分别为
Figure BDA00031565465300001417
Figure BDA0003156546530000141
的维度。
Figure BDA0003156546530000142
可以采样为
Figure BDA0003156546530000143
Figure BDA0003156546530000144
可以采样为
Figure BDA0003156546530000145
其中p(z)~N(0,1),
Figure BDA0003156546530000146
表示element-wise乘法。因此,最终的基于解耦表示的循环生成对抗网络的KL散度损失为
Figure BDA0003156546530000147
则基于解耦表示的循环生成对抗网络模型最终的损失函数可表示为:
L=λadvLadvcLcidLidKLLKL (11)
其中,λadv,λc,λid,λKL为控制各项之间平衡的参数。则本专利所提出的网络模型的目的即为解决以下问题:
Figure BDA0003156546530000148
在上述内容的基础上,再参考图2,可以看出,原始的正面人脸图像与重建出的正面人脸图像之间的损失为
Figure BDA0003156546530000149
原始的正面人脸图像与生成的非正面人脸图像之间的损失为
Figure BDA00031565465300001410
原始的非正面人脸图像与重建出的正面人脸图像之间的损失为
Figure BDA00031565465300001411
原始的非正面人脸图像与生成的正面人脸图像之间的损失为
Figure BDA00031565465300001412
生成的正面人脸图像和生成的非正面人脸图像之间的损失为
Figure BDA00031565465300001413
Figure BDA00031565465300001414
对于原始的非正面人脸图像的角度特征,还需要KL散度损失
Figure BDA00031565465300001415
对角度特征编码器生成的角度特征进行规范;而对于生成的非正面的人脸图像也需要KL散度损失
Figure BDA00031565465300001416
对角度特征编码器生成的角度特征进行规范。
通过上述训练过程,能够完成对基于解耦表示的循环生成对抗网络的训练,将训练完成的正面人脸生成器单独输出,利用该正面人脸生成器能够对检测阶段输入的非正面人脸图像正面化。
图5是本发明实施例中的一种电子设备的结构图,如图5所示,所述电子设备包括存储器330和处理器310,存储器330与处理器310之间通过总线320连接;该存储器330中存储有计算机程序,该处理器310被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
对正面人脸图像和非正面人脸图像构建出至少包括两个生成器、两个判别器和两个特征提取网络的循环生成对抗网络;
对所述循环生成对抗网络中的非正面人脸图像特征提取网络进行特征解耦处理,构建出基于解耦表示的循环生成对抗网络;
从所述基于解耦表示的循环生成对抗网络提取出正面人脸生成器,从而完成人脸正面化模型的构建。
可选地,在本实施例中,上述处理器还可以被设置为通过计算机程序执行以下步骤:
获取一系列的人脸样本图像,将所述正面人脸图像和所述非正面人脸图像输入到基于解耦表示的循环生成对抗网络中;其中所述人脸样本图像包括正面人脸图像和非正面人脸图像;
通过正面人脸图像特征提取网络提取出正面人脸图像的身份特征;通过非正面人脸图像特征提取网络以解耦表示的方式提取出非正面人脸图像的身份特征和角度特征;
通过正面人脸生成器对非正面人脸图像的身份特征和角度特征进行处理,生成其对应的正面人脸图像;通过非正面人脸生成器对正面人脸图像的身份特征和非正面人脸图像的角度特征进行处理,生成其对应的非正面人脸图像;
通过非正面人脸图像特征提取网络提取出生成的非正面人脸图像的身份特征和角度特征,并利用正面人脸生成器重建出人脸正面图像;通过正面人脸图像特征提取网络提取出生成的正面人脸图像的身份特征,结合所述角度特征利用非正面人脸生成器重建出非正面人脸图像;
通过正面人脸图像判别器对输入的正面人脸图像和重建出的正面人脸图像进行判别;通过非正面人脸图像判别器对输入的非正面人脸图像和重建出的非正面人脸图像进行判别;
对所述基于解耦表示的循环生成对抗网络进行对抗训练、语义级循环一致性训练、身份保持训练以及KL散度训练,得到训练后的正面人脸生成器,从而完成人脸正面化模型的训练。
可选地,本领域普通技术人员可以理解,图5所示的结构仅为示意,电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图5其并不对上述电子装置电子设备的结构造成限定。例如,电子设备还可包括比图5中所示更多或者更少的组件(如网络接口等),或者具有与图5所示不同的配置。
其中,存储器330可用于存储软件程序以及模块,如本发明实施例中的基于解耦表示的人脸正面化模型构建方法以及训练方法和装置对应的程序指令/模块,处理器310通过运行存储在存储器330内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的基于解耦表示的人脸正面化模型构建方法以及训练方法。存储器330可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器330可进一步包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器330具体可以但不限于用于存储基于解耦表示的循环生成对抗网络的参数等信息。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于解耦表示的人脸正面化模型训练方法,其特征在于,包括:
获取一系列的人脸样本图像,将正面人脸图像和非正面人脸图像输入到预训练后的基于解耦表示的循环生成对抗网络中;
通过正面人脸图像特征提取网络提取出正面人脸图像的身份特征;通过非正面人脸图像特征提取网络以解耦表示的方式提取出非正面人脸图像的身份特征和角度特征;
通过正面人脸生成器对非正面人脸图像的身份特征和角度特征进行处理,生成其对应的正面人脸图像;通过非正面人脸生成器对正面人脸图像的身份特征和非正面人脸图像的角度特征进行处理,生成其对应的非正面人脸图像;
通过非正面人脸图像特征提取网络提取出生成的非正面人脸图像的身份特征和角度特征,并利用正面人脸生成器重建出人脸正面图像;通过正面人脸图像特征提取网络提取出生成的正面人脸图像的身份特征,结合所述角度特征利用非正面人脸生成器重建出非正面人脸图像;
通过正面人脸图像判别器对输入的正面人脸图像和重建出的正面人脸图像进行判别;通过非正面人脸图像判别器对输入的非正面人脸图像和重建出的非正面人脸图像进行判别;
对所述基于解耦表示的循环生成对抗网络进行对抗训练、语义级循环一致性训练、身份保持训练以及KL散度训练,得到训练后的正面人脸生成器,从而完成人脸正面化模型的训练;
其中,对所述基于解耦表示的循环生成对抗网络采用的语义级循环一致性训练的损失函数表示为:
Figure FDA0003781702590000011
Figure FDA0003781702590000012
Figure FDA0003781702590000013
其中,Lc表示基于解耦表示的循环生成对抗网络的语义级循环一致性损失;
Figure FDA0003781702590000021
表示正面人脸图像的语义级循环一致性损失;
Figure FDA0003781702590000022
表示非正面人脸图像的语义级循环一致性损失;
Figure FDA00037817025900000216
表示数学期望;IN表示人脸样本图像中的非正面人脸图像,IF表示人脸样本图像中的正面人脸图像;φi,j表示从预先训练的人脸识别网络获取的第j层卷积第i块上的特征图,
Figure FDA0003781702590000023
表示重建的正面人脸图像,
Figure FDA0003781702590000024
表示重建的非正面人脸图像;‖‖2表示二范数。
2.根据权利要求1所述的一种基于解耦表示的人脸正面化模型训练方法,其特征在于,所述获取一系列的人脸样本图像包括随机从非成对的人脸图像数据集中采样,分别获得一系列的正面人脸图像和非正面人脸图像。
3.根据权利要求1所述的一种基于解耦表示的人脸正面化模型训练方法,其特征在于,所述正面人脸图像特征提取网络包括身份特征编码器
Figure FDA0003781702590000025
所述非正面人脸图像特征提取网络包括身份特征编码器
Figure FDA0003781702590000026
和角度特征编码器EP;将身份特征编码器
Figure FDA0003781702590000027
和身份特征编码器
Figure FDA0003781702590000028
最后一层的网络参数共享。
4.根据权利要求1所述的一种基于解耦表示的人脸正面化模型训练方法,其特征在于,对所述基于解耦表示的循环生成对抗网络采用的身份保持训练的损失函数表示为:
Figure FDA0003781702590000029
Figure FDA00037817025900000210
Figure FDA00037817025900000211
其中,Lid表示基于解耦表示的循环生成对抗网络的身份保持损失;
Figure FDA00037817025900000212
表示正面人脸图像的身份保持损失;
Figure FDA00037817025900000213
表示非正面人脸图像的身份保持损失;φ-1表示预先训练的人脸识别网络的最后一层提取出的特征图;
Figure FDA00037817025900000217
表示数学期望;IN表示人脸样本图像中的非正面人脸图像,IF表示人脸样本图像中的正面人脸图像;
Figure FDA00037817025900000214
表示生成的非正面人脸图像,
Figure FDA00037817025900000215
表示生成的正面人脸图像;‖‖2表示二范数。
5.一种基于解耦表示的人脸正面化模型构建方法,其用于实现如权利要求1~4任一所述的一种基于解耦表示的人脸正面化模型训练方法,其特征在于,所述模型构建方法包括:
对正面人脸图像和非正面人脸图像构建出至少包括两个生成器、两个判别器和两个特征提取网络的循环生成对抗网络;
对所述循环生成对抗网络中的非正面人脸图像特征提取网络进行特征解耦处理,构建出基于解耦表示的循环生成对抗网络;
对所述基于解耦表示的循环生成对抗网络进行预训练,从预训练好的基于解耦表示的循环生成对抗网络中提取出正面人脸生成器,从而完成人脸正面化模型的构建。
6.根据权利要求5所述的一种基于解耦表示的人脸正面化模型构建方法,其特征在于,非正面人脸图像特征提取网络所采用的特征解耦处理包括对非正面人脸图像的身份特征和角度特征进行解耦处理,即通过身份特征编码器
Figure FDA0003781702590000031
和角度特征编码器EP来提取出非正面人脸图像的身份特征和角度特征。
7.根据权利要求5所述的一种基于解耦表示的人脸正面化模型构建方法,其特征在于,对所述基于解耦表示的循环生成对抗网络进行预训练包括:
多次从各个人脸图像样本集合中抽取出一批人脸图像,并得到多批次的第一人脸样本图像集合;
按批次从所述第一人脸样本图像集合中获取人脸图像及其对应的人脸标签信息,其中所述人脸标签信息包括正面人脸标签或者非正面人脸标签;
将从所述第一人脸样本图像集合中获取的人脸图像输入至基于解耦表示的循环生成对抗网络中,获得生成正面人脸图像;
获得第一人脸样本图像集合所对应的生成正面人脸图像的预测损失值,根据所述预测损失值对基于解耦表示的循环生成对抗网络进行预训练。
8.根据权利要求7所述的一种基于解耦表示的人脸正面化模型构建方法,其特征在于,根据所述预测损失值对待基于解耦表示的循环生成对抗网络进行预训练之后还包括:
若预训练后的基于解耦表示的循环生成对抗网络不满足第一收敛条件,则将所述预训练后的基于解耦表示的循环生成对抗网络重新作为待训练的基于解耦表示的循环生成对抗网络,并跳转至将从所述第一人脸样本图像集合中获取的人脸图像输入至基于解耦表示的循环生成对抗网络中,获得生成正面人脸图像,得到各个批次对应的第一人脸样本图像集合对应的基于解耦表示的循环生成对抗网络;
若预训练后的基于解耦表示的循环生成对抗网络满足第一收敛条件,则输出当前预训练完成的基于解耦表示的循环生成对抗网络。
9.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1~4所述的一种基于解耦表示的人脸正面化模型训练方法或者实现如权利要求5~8所述的一种基于解耦表示的人脸正面化模型构建方法中任一项方法。
CN202110780387.7A 2021-07-09 2021-07-09 基于解耦表示的人脸正面化模型构建方法和训练方法 Active CN113361489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110780387.7A CN113361489B (zh) 2021-07-09 2021-07-09 基于解耦表示的人脸正面化模型构建方法和训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110780387.7A CN113361489B (zh) 2021-07-09 2021-07-09 基于解耦表示的人脸正面化模型构建方法和训练方法

Publications (2)

Publication Number Publication Date
CN113361489A CN113361489A (zh) 2021-09-07
CN113361489B true CN113361489B (zh) 2022-09-16

Family

ID=77538971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110780387.7A Active CN113361489B (zh) 2021-07-09 2021-07-09 基于解耦表示的人脸正面化模型构建方法和训练方法

Country Status (1)

Country Link
CN (1) CN113361489B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120412B (zh) * 2021-11-29 2022-12-09 北京百度网讯科技有限公司 图像处理方法和装置
CN115222752B (zh) * 2022-09-19 2023-01-24 之江实验室 基于特征解耦的病理图像特征提取器训练方法及装置
CN116579917B (zh) * 2023-05-16 2023-09-26 山东大学 基于级联双生成器的人脸正面化方法及***

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474880B2 (en) * 2017-03-15 2019-11-12 Nec Corporation Face recognition using larger pose face frontalization
CN108510061B (zh) * 2018-03-19 2022-03-29 华南理工大学 基于条件生成对抗网络的多监控视频人脸合成正脸的方法
CN109508669B (zh) * 2018-11-09 2021-07-23 厦门大学 一种基于生成式对抗网络的人脸表情识别方法
CN109934116B (zh) * 2019-02-19 2020-11-24 华南理工大学 一种基于生成对抗机制与注意力机制的标准人脸生成方法
CN110188667B (zh) * 2019-05-28 2020-10-30 复旦大学 一种基于三方对抗生成网络的人脸摆正方法
CN110543846B (zh) * 2019-08-29 2021-12-17 华南理工大学 一种基于生成对抗网络的多姿态人脸图像正面化方法
CN110751098B (zh) * 2019-10-22 2022-06-14 中山大学 一种基于光照、姿态生成对抗网络的人脸识别方法
CN111489287B (zh) * 2020-04-10 2024-02-09 腾讯科技(深圳)有限公司 图像转换方法、装置、计算机设备和存储介质
CN111652827B (zh) * 2020-04-24 2023-04-18 山东大学 一种基于生成对抗网络的正面人脸合成方法及***
CN111860151B (zh) * 2020-06-12 2022-08-26 南京邮电大学 一种无监督跨角度面部表情图像识别方法
CN112418041B (zh) * 2020-11-16 2022-04-15 武汉大学 一种基于人脸正面化的多姿态人脸识别方法
CN112699799B (zh) * 2020-12-30 2024-07-16 杭州趣链科技有限公司 基于区块链的人脸识别方法、装置、设备和存储介质
CN112990078B (zh) * 2021-04-02 2022-05-10 深圳先进技术研究院 一种基于生成式对抗网络的人脸表情生成方法

Also Published As

Publication number Publication date
CN113361489A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
TWI753327B (zh) 圖像處理方法、處理器、電子設備與電腦可讀存儲介質
CN113361489B (zh) 基于解耦表示的人脸正面化模型构建方法和训练方法
CN109522818B (zh) 一种表情识别的方法、装置、终端设备及存储介质
CN110348330B (zh) 基于vae-acgan的人脸姿态虚拟视图生成方法
Ning et al. Multi‐view frontal face image generation: a survey
Hong et al. Multimodal deep autoencoder for human pose recovery
CN112766217B (zh) 基于解纠缠和特征级差异学习的跨模态行人重识别方法
Sun et al. Speech2Talking-Face: Inferring and Driving a Face with Synchronized Audio-Visual Representation.
CN113361646A (zh) 基于语义信息保留的广义零样本图像识别方法及模型
CN111488810A (zh) 人脸识别方法、装置、终端设备及计算机可读介质
Pang et al. DisP+ V: A unified framework for disentangling prototype and variation from single sample per person
An Pedestrian Re‐Recognition Algorithm Based on Optimization Deep Learning‐Sequence Memory Model
Lomnitz et al. Multimodal approach for deepfake detection
Ma et al. Cascade transformer decoder based occluded pedestrian detection with dynamic deformable convolution and Gaussian projection channel attention mechanism
Park et al. 3D face reconstruction from stereo video
CN113689527A (zh) 一种人脸转换模型的训练方法、人脸图像转换方法
Chen et al. Texture deformation based generative adversarial networks for face editing
Teng et al. Unimodal face classification with multimodal training
Talafha et al. Attentional adversarial variational video generation via decomposing motion and content
CN111539263B (zh) 一种基于聚合对抗网络的视频人脸识别方法
Tang et al. Facial expression translation using landmark guided gans
Mao et al. Enhancing style-guided image-to-image translation via self-supervised metric learning
Xu et al. Human face cartoon image generation based on CycleGAN
Zhang et al. Micro-expression recognition using micro-variation boosted heat areas
Molnár et al. Variational autoencoders for 3D data processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant