CN114581612B - 混合动作表示的高保真人脸重现方法 - Google Patents
混合动作表示的高保真人脸重现方法 Download PDFInfo
- Publication number
- CN114581612B CN114581612B CN202210459830.5A CN202210459830A CN114581612B CN 114581612 B CN114581612 B CN 114581612B CN 202210459830 A CN202210459830 A CN 202210459830A CN 114581612 B CN114581612 B CN 114581612B
- Authority
- CN
- China
- Prior art keywords
- face
- key point
- source
- point information
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明公开了一种混合动作表示的高保真人脸重现方法,属于深度人脸伪造领域。包括提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息;利用关键点转换模块根据驱动人脸的动作单元和姿态信息转换源人脸的关键点信息;使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域;将动作单元和转换过的关键点信息,以及人脸区域输入重现网络,生成目标人脸;将目标人脸和背景区域输入到背景融合模块,生成最终结果。本发明混合多种动作表示作为人脸重现的指引信号,并利用空间自适应正则化***动作特征,使重现过程能更好地保持语义特征;同时结合背景分离技术,进一步提高生成人脸的真实性和帧间连续性,实现高保真的人脸重现。
Description
技术领域
本发明涉及深度人脸伪造,特别是一种混合动作表示的高保真人脸重现方法。
背景技术
人脸重现是根据驱动人脸的动作(姿势和表情)为源人脸生成动画的过程,在电影制作、增强现实等领域有广泛应用前景。一般来说,该过程包括三个主要步骤:
1)创建源人脸身份的表示,
2)提取和编码驱动人脸的动作,
3)结合身份和动作表示生成伪造的源人脸。每个步骤都对生成质量有重大影响。
目前人脸重现技术主要可以分为基于传统3D模型的合成方法和基于生成对抗网络(GANs)的生成方法。在基于3D人脸模型的方法中,首先使用3D模型参数编码身份和动作特征。然后使用源人脸的身份参数和驱动人脸的动作参数渲染重现人脸。虽然这种方法可以获得高质量的输出,但需要付出大量努力才能获得人脸的真实3D表示。基于GANs的方法按人脸动作表示的不同,可以分为基于人脸关键点(landmarks)的方法、基于自监督学习的方法和基于动作单元(AUs)的方法。基于人脸关键点的方法面临身份泄露问题,因为人脸关键点在提供表情和姿态信息的同时还包含了人脸形状特征。基于自监督的方法同样难以区分身份和动作。基于AUs的方法对人脸形状约束较弱,难以生成高质量的重现结果。
发明内容
本发明解决的技术问题:提供一种混合多种动作表示的高保真人脸重现方法。
技术方案:为了解决上述技术问题,本发明采用的技术方案如下:
一种混合动作表示的高保真人脸重现方法,主要包括如下步骤:
步骤1:提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息;
步骤2:将提取到的人脸的动作单元和源人脸的关键点信息输入到关键点转换模块,得到转换后的源人脸关键点信息;
步骤3:使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域;
步骤4:将步骤1中的人脸的动作单元,步骤2中转换后的源人脸关键点信息,以及步骤3中的人脸区域输入重现网络,生成目标人脸;
步骤5:将步骤4中的目标人脸和步骤3中的背景区域输入到背景融合模块,生成最终结果。
作为优选,步骤1中,提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息,方法如下:
作为优选,步骤2中,将提取到的动作单元和源人脸的关键点信息输入到关键点转换模块,得到转换后的源人脸关键点信息,方法如下:
步骤2.1:关键点转换模块包含两个编码器和一个解码器,两个编码器分别用于提
取驱动人脸的动作单元和源人脸的关键点信息的特征,解码器用于预测源人脸的关键点信
息的偏移量,最终转换后的源人脸关键点信息为 ;
步骤2.2:所述关键点转换模块采用像素级L1损失、两个对抗损失这三种损失函数进行训练。
作为优选,其中像素级L1损失函数的具体内容为:训练时源人脸图片和驱动人
脸图片取自同一身份的同一条视频,因此驱动人脸图片的关键点信息作为
转换后的源人脸关键点信息的真值,表示关键点所在的线性空间,212x1表示关键
点的维度信息;损失函数如下:
对抗损失使用两个鉴别器TDr和TD来使关键点转换器准确和稳健,其中TDr用于判
断转换后的源人脸关键点信息的真假,TD用于评估转换后的源人脸关键点信息和转换
前的源人脸关键点信息的身份相似度,二者的损失函数定义如下:
最终关键点转换模块完整的损失函数为以上三者的线性组合:
作为优选,步骤3中,使用预训练的分割网络将源人脸图片分离为人脸区域和背景
区域,方法如下:使用预训练的基于BiSeNet的人脸分割网络处理源人脸图片,得到人脸
区域掩膜,分别将掩膜区域和掩膜以外区域填充0像素,获得源人脸的人脸区域和背景区
域两张图片。
作为优选,步骤4中,将步骤1中生成目标人脸的方法如下:
步骤4.1:将步骤2中转换过的源人脸关键点信息映射为一张三通道的图片,并
与驱动人脸的动作单元和姿态信息AU∈R 20×1 拼接得到动作表示M d ∈R 23×H×W ,R 23×H×W 表示图
片所在的线性空间,23xHxW表示图片的维度信息,H和W分别表示图片的高度和宽度;M d 与源
人脸的人脸区域共同构成重现网络的输入;
步骤4.3:训练时,重现网络采用以下3种损失函数进行训练:像素级L1损失、对抗损失和感知损失。
重现网络最终的完整损失函数为:
作为优选,步骤5中的实现方法如下:
有益效果:与现有技术相比,本发明具有以下优点:
(1)本发明融合关键点信息和驱动人脸的动作单元两种特征表示作为人脸重现的指引信号,能够实现在保持人脸身份的同时保留更多面部细节。
(2)本发明通过空间自适应正则化***动作特征,减少了重现过程中的语义信息丢失,进一步提高了生成结果的真实性。
(3)本发明利用背景分离技术,使得重现网络能够专注于生成更锐利的人脸,同时更好的保持背景信息,实现了高保真的人脸重现。
附图说明
图1是本发明混合动作表示的高保真人脸重现方法的流程示意图。
图2是方法中重现网络的模型结构图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
本发明的混合动作表示的高保真人脸重现方法,首先提取驱动人脸的动作单元(Action Units, AUs)和姿态信息以及源人脸的关键点(landmarks)信息;利用关键点转换模块根据驱动人脸的动作单元和姿态信息转换源人脸的关键点信息;然后,使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域;将动作单元、转换过的关键点信息,以及人脸区域输入重现网络,生成目标人脸;最后,使用背景融合网络将目标人脸和背景区域进行融合,生成最终结果。本发明的具体实施步骤如图1所示,主要包括如下步骤1-步骤5共五大步骤:
步骤1:提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息;具体方法如下:
步骤1.2:使用人脸行为分析工具OpenFace提取驱动人脸的动作单元和姿态信息,
其中人脸的动作单元包括17个动作单元的强度,姿态信息包含沿pitch, yaw, roll 这3个
轴的旋转角度,将二者拼接得到20维的向量;表示该向量所在的线性空间,
20x1表示向量的维度信息;
步骤2:将提取到的人脸的动作单元和源人脸的关键点信息输入到关键点转换模块,得到转换后的源人脸关键点信息;方法如下:
步骤2.1:关键点转换模块包含两个编码器和一个解码器,两个编码器分别用于提
取驱动人脸的动作单元和源人脸的关键点信息的特征,解码器用于预测源人脸的关键点信
息的偏移量,最终转换后的源人脸关键点信息为 ;
步骤2.2:关键点转换模块采用像素级L1损失、两个对抗损失这三种损失函数进行训练。
其中像素级L1损失函数的具体内容为:训练时源人脸图片和驱动人脸图片取
自同一身份的同一条视频,因此驱动人脸图片的关键点信息作为转换后的源
人脸关键点信息的真值,表示关键点所在的线性空间,212x1表示关键点的维度信
息;损失函数如下:
对抗损失使用两个鉴别器TDr和TD来使关键点转换器准确和稳健,其中TDr用于判
断转换后的源人脸关键点信息的真假,TD用于评估转换后的源人脸关键点信息和转换
前的源人脸关键点信息的身份相似度,二者的损失函数定义如下:
最终关键点转换模块完整的损失函数为以上三者的线性组合:
步骤3:使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域;方法如下:
步骤4:将步骤1中的人脸的动作单元,步骤2中转换后的源人脸关键点信息,以及步骤3中的人脸区域输入图2所示的重现网络中,生成目标人脸;方法如下:
步骤4.1:将步骤2中转换过的源人脸关键点信息映射为一张三通道的图片,并
与驱动人脸的动作单元和姿态信息AU∈R 20×1 拼接得到动作表示,表示
图片所在的线性空间,表示图片的维度信息,分别表示图片的高度和宽度;M d 与源人脸的人脸区域共同构成重现网络的输入;
步骤4.2:如图2所示,重现网络采用基于Pix2Pix的网络框架,该网络包含3组
ResBlock残差块,预测时将源人脸的人脸区域作为网络的输入,并采用一个动作编码器
用于提取动作表示M d 的特征,然后利用空间正则化(SPADE)模块将提取到的特征***重现
网络3组ResBlock的输出中,该模块主要用于减少生成过程中的语义丢失,最终得到重现人
脸。
步骤4.3:训练时,重现网络采用以下3种损失函数进行训练:像素级L1损失、对抗损失和感知损失。
重现网络最终的完整损失函数为:
步骤5:将步骤4中的目标人脸和步骤3中的背景区域输入到背景融合模块,生成最终结果。方法如下:
通过以下实验验证本发明的方法有效性和效率:
评估标准为结构相似度(SSIM)和弗雷歇感知距离(FID)。SSIM评估生成图像和真值间的低级相似度,值越大越好。FID使用预训练的Inception V3网络评估生成图像和真实图像间的感知距离,值越小越好。
实验采用VoxCeleb1数据集,该数据集包括1251个不同身份的累计24997段真实视频。数据集提供按1帧每秒提取并裁剪的人脸图片。实验使用了平均分辨率大于300x300的视频段,共得到29891张训练图片,4284张测试图片。并将这些图片缩放至256x256,然后使用HyperLandmark提取106点的关键点信息,使用OpenFace提取AUs和姿态信息。
分别与FreeNet和ICface两种方法生成的结果进行对比,其中FreeNet为基于landmarks的方法,ICface为基于AUs的方法。三种方法在两种评价指标上的实验结果如表1所示:
表1本发明方法在VoxCeleb1数据集上的测试结果
表1的结果表示,对比只基于关键点信息(landmarks)和只基于动作单元(AUs)的方法,本发明方法都取得了更好的效果。具体来说,对于SSIM指标,本发明的背景分离技术更好地保留了背景,从而提高了生成结果与原始图像间的低级相似度;对于FID指标,本发明融合两种特征表示更好地保留了源人脸的细节,从而降低了生成结果与原始图像间的感知距离。结果表明,本发明融合两种特征表示和对背景的分离表现出一定的有效性。总体而言,本发明方法能够充分保留人脸语义特征,生成更真实的人脸和背景。根据上面提到的结果,利用混合动作表示的人脸重现方法创建了高保真的人脸伪造工具。
本发明混合多种动作表示作为人脸重现的指引信号,并利用空间自适应正则化***动作特征,使重现过程能更好地保持语义特征。同时结合背景分离技术,进一步提高生成人脸的真实性和帧间连续性,实现高保真的人脸重现。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种混合动作表示的高保真人脸重现方法,其特征在于,主要包括如下步骤:
步骤1:提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息;
步骤2:将提取到的人脸的动作单元和源人脸的关键点信息输入到关键点转换模块,得到转换后的源人脸关键点信息;方法如下:
步骤2.1:关键点转换模块包含两个编码器和一个解码器,两个编码器分别用于提取驱动人脸的动作单元和源人脸的关键点信息的特征,解码器用于预测源人脸的关键点信息l s 的偏移量l shift ,最终转换后的源人脸关键点信息为l t =l s +l shift ;
步骤2.2:所述关键点转换模块采用像素级L1损失、两个对抗损失这三种损失函数进行训练;
其中像素级L1损失函数的具体内容为:训练时源人脸图片I s 和驱动人脸图片I d 取自同一身份的同一条视频,因此驱动人脸图片I d 的关键点信息l d ∈R 212×1 作为转换后的源人脸关键点信息l t 的真值,损失函数如下:
对抗损失使用两个鉴别器TD r 和TD来使关键点转换器准确和稳健,其中TD r 用于判断转换后的源人脸关键点信息l t 的真假,TD用于评估转换后的源人脸关键点信息l t 和转换前的源人脸关键点信息l s 的身份相似度,鉴别器TD r 和TD的损失函数定义如下:
最终关键点转换模块完整的损失函数为像素级L1损失、鉴别器TD r 和TD三者损失函数的线性组合:
式中,λ t1 ,λ t2 和λ t3 分别表示三个损失函数的权重;
步骤3:使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域;
步骤4:将步骤1中的人脸的动作单元,步骤2中转换后的源人脸关键点信息,以及步骤3中的人脸区域输入重现网络,生成目标人脸;
步骤5:将步骤4中的目标人脸和步骤3中的背景区域输入到背景融合模块,生成最终结果;实现方法如下:
将步骤4中的重现人脸I fr 和步骤3中源人脸的背景区域I bs 进行拼接作为背景融合网络的输入,网络生成一张图片Ic和一个单通道掩膜M,最终的融合结果通过下式获得:
通过这种方式,融合结果将保留输入的重现人脸I fr 图片的像素内容,训练时,该模块在最终的融合结果I r 上采用L2损失和对抗损失:
最终背景融合模块完整的损失函数为L2损失和对抗损失二者的线性组合:
式中,λ b1 和λ b2 分别表示两个损失函数的权重。
2.根据权利要求1所述的混合动作表示的高保真人脸重现方法,其特征在于,步骤1中,提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息,方法如下:
步骤1.1:设驱动人脸图片为I d ∈R 3×H×W ,源人脸图片为I s ∈R 3×H×W ;
步骤1.2:提取驱动人脸的动作单元和姿态信息,将驱动人脸的动作单元和姿态信息拼接得到20维的向量AU∈R 20×1 ;
步骤1.3:提取源人脸的106点关键点信息,并调整形状为l s ∈R 212×1 。
3.根据权利要求1所述的混合动作表示的高保真人脸重现方法,其特征在于,步骤3中,使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域,方法如下:使用预训练的基于BiSeNet的人脸分割网络处理源人脸图片I s ,得到人脸区域掩膜,分别将掩膜区域和掩膜以外区域填充0像素,获得源人脸的人脸区域I fs 和背景区域I bs 两张图片。
4.根据权利要求1所述的混合动作表示的高保真人脸重现方法,其特征在于,步骤4中,将步骤1中生成目标人脸的方法如下:
步骤4.1:将步骤2中转换过的源人脸关键点信息l t 映射为一张三通道的图片, 并与驱动人脸的动作单元和姿态信息AU∈R 20×1 拼接得到动作表示M d ∈R 23×H×W ,M d 与源人脸的人脸区域I fs 共同构成重现网络的输入;
步骤4.2:预测时将源人脸的人脸区域I fs 作为网络的输入,并采用一个动作编码器用于提取动作表示M d 的特征,然后将提取到的特征***重现网络3组ResBlock的输出中,得到重现人脸I fr ;
步骤4.3:训练时,重现网络采用以下3种损失函数进行训练:像素级L1损失、对抗损失和感知损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210459830.5A CN114581612B (zh) | 2022-04-28 | 2022-04-28 | 混合动作表示的高保真人脸重现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210459830.5A CN114581612B (zh) | 2022-04-28 | 2022-04-28 | 混合动作表示的高保真人脸重现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114581612A CN114581612A (zh) | 2022-06-03 |
CN114581612B true CN114581612B (zh) | 2022-08-02 |
Family
ID=81785017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210459830.5A Active CN114581612B (zh) | 2022-04-28 | 2022-04-28 | 混合动作表示的高保真人脸重现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114581612B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112233012A (zh) * | 2020-08-10 | 2021-01-15 | 上海交通大学 | 一种人脸生成***及方法 |
CN112734634A (zh) * | 2021-03-30 | 2021-04-30 | 中国科学院自动化研究所 | 换脸方法、装置、电子设备和存储介质 |
CN113343878A (zh) * | 2021-06-18 | 2021-09-03 | 北京邮电大学 | 基于生成对抗网络的高保真人脸隐私保护方法和*** |
CN113762147A (zh) * | 2021-09-06 | 2021-12-07 | 网易(杭州)网络有限公司 | 人脸表情迁移方法、装置、电子设备及存储介质 |
CN113807265A (zh) * | 2021-09-18 | 2021-12-17 | 山东财经大学 | 一种多样化的人脸图像合成方法及*** |
-
2022
- 2022-04-28 CN CN202210459830.5A patent/CN114581612B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112233012A (zh) * | 2020-08-10 | 2021-01-15 | 上海交通大学 | 一种人脸生成***及方法 |
CN112734634A (zh) * | 2021-03-30 | 2021-04-30 | 中国科学院自动化研究所 | 换脸方法、装置、电子设备和存储介质 |
CN113343878A (zh) * | 2021-06-18 | 2021-09-03 | 北京邮电大学 | 基于生成对抗网络的高保真人脸隐私保护方法和*** |
CN113762147A (zh) * | 2021-09-06 | 2021-12-07 | 网易(杭州)网络有限公司 | 人脸表情迁移方法、装置、电子设备及存储介质 |
CN113807265A (zh) * | 2021-09-18 | 2021-12-17 | 山东财经大学 | 一种多样化的人脸图像合成方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN114581612A (zh) | 2022-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113194348B (zh) | 一种虚拟人讲课视频生成方法、***、装置及存储介质 | |
Cao et al. | Semi-automatic 2D-to-3D conversion using disparity propagation | |
Pearson | Developments in model-based video coding | |
CN111489287A (zh) | 图像转换方法、装置、计算机设备和存储介质 | |
JP2023548921A (ja) | 画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN111401216A (zh) | 图像处理、模型训练方法、装置、计算机设备和存储介质 | |
Ye et al. | Audio-driven talking face video generation with dynamic convolution kernels | |
CN113112416B (zh) | 一种语义引导的人脸图像修复方法 | |
CN111242238A (zh) | 一种rgb-d图像显著性目标获取的方法 | |
Zhou et al. | An image-based visual speech animation system | |
CN112861671A (zh) | 一种对深度伪造人脸图像和视频的鉴别方法 | |
CN115527276A (zh) | 基于面部光流场与纹理特性融合的深伪视频检测方法 | |
CN115546461A (zh) | 一种基于掩膜去噪和特征选择的人脸属性编辑方法 | |
CN115908789A (zh) | 跨模态特征融合及渐近解码的显著性目标检测方法及装置 | |
CN114581612B (zh) | 混合动作表示的高保真人脸重现方法 | |
CN117671764A (zh) | 基于Transformer的动态说话人脸图像生成***及方法 | |
CN116233567B (zh) | 一种基于音频情感感知的说话人脸视频生成方法及*** | |
CN116721320A (zh) | 基于多尺度特征融合的通用图像篡改取证方法及*** | |
CN115908661A (zh) | 一种基于gan网络将戏剧人物图片生成演唱视频的方法 | |
CN113673567B (zh) | 基于多角度子区域自适应的全景图情感识别方法及*** | |
Gowda et al. | From pixels to portraits: A comprehensive survey of talking head generation techniques and applications | |
CN115424310A (zh) | 一种面向人脸重演中表情分离任务的弱标注学习方法 | |
CN106023120B (zh) | 基于耦合近邻索引的人脸画像合成方法 | |
Gao et al. | RGBD semantic segmentation based on global convolutional network | |
CN113657190A (zh) | 人脸图片的驱动方法及相关模型的训练方法、相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |