CN114581612A - 混合动作表示的高保真人脸重现方法 - Google Patents

混合动作表示的高保真人脸重现方法 Download PDF

Info

Publication number
CN114581612A
CN114581612A CN202210459830.5A CN202210459830A CN114581612A CN 114581612 A CN114581612 A CN 114581612A CN 202210459830 A CN202210459830 A CN 202210459830A CN 114581612 A CN114581612 A CN 114581612A
Authority
CN
China
Prior art keywords
face
key point
source
point information
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210459830.5A
Other languages
English (en)
Other versions
CN114581612B (zh
Inventor
邵长乐
耿嘉仪
练智超
韦志辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202210459830.5A priority Critical patent/CN114581612B/zh
Publication of CN114581612A publication Critical patent/CN114581612A/zh
Application granted granted Critical
Publication of CN114581612B publication Critical patent/CN114581612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开了一种混合动作表示的高保真人脸重现方法,属于深度人脸伪造领域。包括提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息;利用关键点转换模块根据驱动人脸的动作单元和姿态信息转换源人脸的关键点信息;使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域;将动作单元和转换过的关键点信息,以及人脸区域输入重现网络,生成目标人脸;将目标人脸和背景区域输入到背景融合模块,生成最终结果。本发明混合多种动作表示作为人脸重现的指引信号,并利用空间自适应正则化***动作特征,使重现过程能更好地保持语义特征;同时结合背景分离技术,进一步提高生成人脸的真实性和帧间连续性,实现高保真的人脸重现。

Description

混合动作表示的高保真人脸重现方法
技术领域
本发明涉及深度人脸伪造,特别是一种混合动作表示的高保真人脸重现方法。
背景技术
人脸重现是根据驱动人脸的动作(姿势和表情)为源人脸生成动画的过程,在电影制作、增强现实等领域有广泛应用前景。一般来说,该过程包括三个主要步骤:
1)创建源人脸身份的表示,
2)提取和编码驱动人脸的动作,
3)结合身份和动作表示生成伪造的源人脸。每个步骤都对生成质量有重大影响。
目前人脸重现技术主要可以分为基于传统3D模型的合成方法和基于生成对抗网络(GANs)的生成方法。在基于3D人脸模型的方法中,首先使用3D模型参数编码身份和动作特征。然后使用源人脸的身份参数和驱动人脸的动作参数渲染重现人脸。虽然这种方法可以获得高质量的输出,但需要付出大量努力才能获得人脸的真实3D表示。基于GANs的方法按人脸动作表示的不同,可以分为基于人脸关键点(landmarks)的方法、基于自监督学习的方法和基于动作单元(AUs)的方法。基于人脸关键点的方法面临身份泄露问题,因为人脸关键点在提供表情和姿态信息的同时还包含了人脸形状特征。基于自监督的方法同样难以区分身份和动作。基于AUs的方法对人脸形状约束较弱,难以生成高质量的重现结果。
发明内容
本发明解决的技术问题:提供一种混合多种动作表示的高保真人脸重现方法。
技术方案:为了解决上述技术问题,本发明采用的技术方案如下:
一种混合动作表示的高保真人脸重现方法,主要包括如下步骤:
步骤1:提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息;
步骤2:将提取到的人脸的动作单元和源人脸的关键点信息输入到关键点转换模块,得到转换后的源人脸关键点信息;
步骤3:使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域;
步骤4:将步骤1中的人脸的动作单元,步骤2中转换后的源人脸关键点信息,以及步骤3中的人脸区域输入重现网络,生成目标人脸;
步骤5:将步骤4中的目标人脸和步骤3中的背景区域输入到背景融合模块,生成最终结果。
作为优选,步骤1中,提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息,方法如下:
步骤1.1:设驱动人脸图片为
Figure 409036DEST_PATH_IMAGE001
,源人脸图片为
Figure 311264DEST_PATH_IMAGE002
Figure 371624DEST_PATH_IMAGE003
表示图片所在的线性空间,
Figure 924965DEST_PATH_IMAGE004
表示图片的维度信息,
Figure 45368DEST_PATH_IMAGE005
分别表示 图片的高度和宽度;
步骤1.2:提取驱动人脸的动作单元和姿态信息,将二者拼接得到20维的向量
Figure 166383DEST_PATH_IMAGE006
Figure 30434DEST_PATH_IMAGE007
表示该向量所在的线性空间,20x1表示向量的维度信息;
步骤1.3:提取源人脸的106点关键点信息,并调整形状为
Figure 438281DEST_PATH_IMAGE008
Figure 729586DEST_PATH_IMAGE009
表示关键点所在的线性空间,212x1表示关键点的维度信息。
作为优选,步骤2中,将提取到的动作单元和源人脸的关键点信息输入到关键点转换模块,得到转换后的源人脸关键点信息,方法如下:
步骤2.1:关键点转换模块包含两个编码器和一个解码器,两个编码器分别用于提 取驱动人脸的动作单元和源人脸的关键点信息的特征,解码器用于预测源人脸的关键点信 息
Figure 75247DEST_PATH_IMAGE010
的偏移量
Figure 602044DEST_PATH_IMAGE011
,最终转换后的源人脸关键点信息为
Figure 5343DEST_PATH_IMAGE012
步骤2.2:所述关键点转换模块采用像素级L1损失、两个对抗损失这三种损失函数进行训练。
作为优选,其中像素级L1损失函数的具体内容为:训练时源人脸图片
Figure 342915DEST_PATH_IMAGE013
和驱动人 脸图片
Figure 566086DEST_PATH_IMAGE014
取自同一身份的同一条视频,因此驱动人脸图片
Figure 162152DEST_PATH_IMAGE014
的关键点信息
Figure 154379DEST_PATH_IMAGE015
作为转换后的源人脸关键点信息
Figure 662852DEST_PATH_IMAGE016
的真值,
Figure 373319DEST_PATH_IMAGE017
表示关键点所在的线性空间,212x1 表示关键点的维度信息;损失函数如下:
Figure 507497DEST_PATH_IMAGE018
对抗损失使用两个鉴别器TDr和TD来使关键点转换器准确和稳健,其中TDr用于判 断转换后的源人脸关键点信息
Figure 619809DEST_PATH_IMAGE019
的真假,TD用于评估转换后的源人脸关键点信息
Figure 689397DEST_PATH_IMAGE019
和转 换前的源人脸关键点信息
Figure 499876DEST_PATH_IMAGE020
的身份相似度,二者的损失函数定义如下:
Figure 313112DEST_PATH_IMAGE021
其中,
Figure 138985DEST_PATH_IMAGE022
表示驱动人脸的关键点信息
Figure 379474DEST_PATH_IMAGE023
的分布函数的期望值,
Figure 674320DEST_PATH_IMAGE024
表示转换后的源人脸关键点信息
Figure 884721DEST_PATH_IMAGE019
的分布函数的期望值,
Figure 971626DEST_PATH_IMAGE025
表示转换前的源人脸关键点信息
Figure 383016DEST_PATH_IMAGE020
和驱动人脸的关键点信息
Figure 165158DEST_PATH_IMAGE023
的分布函 数的期望值,
Figure 320196DEST_PATH_IMAGE026
表示转换前的源人脸关键点信息
Figure 120662DEST_PATH_IMAGE020
和转换后的源人脸关键点信息
Figure 702953DEST_PATH_IMAGE019
的分 布函数的期望值;
Figure 972391DEST_PATH_IMAGE027
表示鉴别器TD r 对驱动人脸的关键点信息
Figure 665541DEST_PATH_IMAGE023
的真实性的鉴别结果,
Figure 586092DEST_PATH_IMAGE028
表示鉴别器TD r 对转换后的源人脸关键点信息
Figure 339285DEST_PATH_IMAGE019
的真实性的鉴别结 果,
Figure 93089DEST_PATH_IMAGE029
表示鉴别器TD对转换前的源人脸关键点信息
Figure 589930DEST_PATH_IMAGE020
和驱动人脸的关键 点信息
Figure 364988DEST_PATH_IMAGE023
间的身份相似度的鉴别结果,
Figure 289081DEST_PATH_IMAGE030
表示鉴别器TD对转换前的源人脸关键点信息
Figure 267533DEST_PATH_IMAGE020
和转换后的源人 脸关键点信息
Figure 302485DEST_PATH_IMAGE019
间的身份相似度的鉴别结果;
最终关键点转换模块完整的损失函数为以上三者的线性组合:
Figure 197629DEST_PATH_IMAGE031
式中,
Figure 292624DEST_PATH_IMAGE032
分别表示三个损失函数的权重。
作为优选,步骤3中,使用预训练的分割网络将源人脸图片分离为人脸区域和背景 区域,方法如下:使用预训练的基于BiSeNet的人脸分割网络处理源人脸图片
Figure 758371DEST_PATH_IMAGE013
,得到人脸 区域掩膜,分别将掩膜区域和掩膜以外区域填充0像素,获得源人脸的人脸区域
Figure 862593DEST_PATH_IMAGE033
和背景 区域
Figure 487610DEST_PATH_IMAGE034
两张图片。
作为优选,步骤4中,将步骤1中生成目标人脸的方法如下:
步骤4.1:将步骤2中转换过的源人脸关键点信息
Figure 878140DEST_PATH_IMAGE016
映射为一张三通道的图片,并 与驱动人脸的动作单元和姿态信息AU∈R 20×1 拼接得到动作表示M d ∈R 23×H×W R 23×H×W 表示图 片所在的线性空间,23xHxW表示图片的维度信息,HW分别表示图片的高度和宽度;M d 与源 人脸的人脸区域
Figure 955817DEST_PATH_IMAGE035
共同构成重现网络的输入;
步骤4.2:预测时将源人脸的人脸区域
Figure 207938DEST_PATH_IMAGE035
作为网络的输入,并采用一个动作编码器 用于提取动作表示M d 的特征,然后将提取到的特征***重现网络3组ResBlock的输出中,得 到重现人脸
Figure 687461DEST_PATH_IMAGE036
步骤4.3:训练时,重现网络采用以下3种损失函数进行训练:像素级L1损失、对抗损失和感知损失。
作为优选,像素级L1损失:训练时采用驱动人脸的人脸区域
Figure 248892DEST_PATH_IMAGE037
作为重现人脸
Figure 414864DEST_PATH_IMAGE038
的真值,损失函数如下:
Figure 595309DEST_PATH_IMAGE039
作为优选,对抗损失:采用两个鉴别器GDGD m 来提高生成结果的真实性,其中GD 用于判断重现人脸
Figure 53973DEST_PATH_IMAGE038
的真假,GD m 用于评估驱动动作M d 和重现人脸
Figure 661672DEST_PATH_IMAGE038
之间的相关性,损失 函数定义如下:
Figure 589307DEST_PATH_IMAGE040
式中,
Figure 573444DEST_PATH_IMAGE041
表示源人脸的人脸区域
Figure 886614DEST_PATH_IMAGE035
的分布函数的期望值,
Figure 930793DEST_PATH_IMAGE042
表示重现人脸
Figure 470359DEST_PATH_IMAGE038
的分布函数的期望值,
Figure 867973DEST_PATH_IMAGE043
表示驱动动作M d 和驱动人脸的人脸区域
Figure 176595DEST_PATH_IMAGE037
的分布函数的期望值,
Figure 250730DEST_PATH_IMAGE044
表示驱动动作M d 和重现人脸
Figure 277592DEST_PATH_IMAGE038
的分布函数的期望值,
Figure 213318DEST_PATH_IMAGE045
表示鉴别器GD对源人脸的人脸区域
Figure 376446DEST_PATH_IMAGE035
的真实性的鉴别结果,
Figure 887062DEST_PATH_IMAGE046
表示鉴别器GD对重现人脸
Figure 135640DEST_PATH_IMAGE038
的真实性的鉴别结果,
Figure 872128DEST_PATH_IMAGE047
表示鉴别器GD m 对驱动动作M d 和驱动人脸的人脸区域
Figure 155342DEST_PATH_IMAGE037
间的相 关性的鉴别结果,
Figure 571279DEST_PATH_IMAGE048
表示鉴别器GD m 对驱动动作M d 和重现人脸
Figure 307154DEST_PATH_IMAGE038
间的相关性的鉴 别结果。
作为优选,对感知损失:用于最小化重现人脸
Figure 850262DEST_PATH_IMAGE038
和其真值
Figure 987982DEST_PATH_IMAGE037
间的语义距离,损 失函数定义如下,其中V代表VGG-16模型的特征提取操作:
Figure 574822DEST_PATH_IMAGE049
重现网络最终的完整损失函数为:
Figure 797993DEST_PATH_IMAGE050
式中,
Figure 879212DEST_PATH_IMAGE051
分别表示三种损失函数的权重。
作为优选,步骤5中的实现方法如下:
将步骤4中的重现人脸
Figure 871439DEST_PATH_IMAGE038
和步骤3中源人脸的背景区域
Figure 160338DEST_PATH_IMAGE034
进行拼接作为背景融 合网络的输入,网络生成一张图片
Figure 870805DEST_PATH_IMAGE052
和一个单通道掩膜M,最终的融合结果通过下式获得:
Figure 490136DEST_PATH_IMAGE053
通过这种方式,融合结果将保留输入的重现人脸
Figure 602449DEST_PATH_IMAGE054
图片的像素内容,训练时,该 模块在最终的融合结果
Figure 531090DEST_PATH_IMAGE055
上采用L2损失和对抗损失:
Figure 728854DEST_PATH_IMAGE056
式中:
Figure 154805DEST_PATH_IMAGE057
表示源人脸图片
Figure 121624DEST_PATH_IMAGE013
的分布函数的期望值,
Figure 486747DEST_PATH_IMAGE058
表示融合结果
Figure 906227DEST_PATH_IMAGE055
的分布函数的期望值,
Figure 132940DEST_PATH_IMAGE059
表示鉴别器D对源人脸图片
Figure 954265DEST_PATH_IMAGE060
的真实性的鉴别结果,
Figure 490289DEST_PATH_IMAGE061
表示鉴别器D对融合结果
Figure 397065DEST_PATH_IMAGE055
的真实性的鉴别结果;最终背景融合模块完整 的损失函数为以上二者的线性组合:
Figure 161890DEST_PATH_IMAGE062
式中,
Figure 103301DEST_PATH_IMAGE063
分别表示两个损失函数的权重。
有益效果:与现有技术相比,本发明具有以下优点:
(1)本发明融合关键点信息和驱动人脸的动作单元两种特征表示作为人脸重现的指引信号,能够实现在保持人脸身份的同时保留更多面部细节。
(2)本发明通过空间自适应正则化***动作特征,减少了重现过程中的语义信息丢失,进一步提高了生成结果的真实性。
(3)本发明利用背景分离技术,使得重现网络能够专注于生成更锐利的人脸,同时更好的保持背景信息,实现了高保真的人脸重现。
附图说明
图1是本发明混合动作表示的高保真人脸重现方法的流程示意图。
图2是方法中重现网络的模型结构图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
本发明的混合动作表示的高保真人脸重现方法,首先提取驱动人脸的动作单元(Action Units, AUs)和姿态信息以及源人脸的关键点(landmarks)信息;利用关键点转换模块根据驱动人脸的动作单元和姿态信息转换源人脸的关键点信息;然后,使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域;将动作单元、转换过的关键点信息,以及人脸区域输入重现网络,生成目标人脸;最后,使用背景融合网络将目标人脸和背景区域进行融合,生成最终结果。本发明的具体实施步骤如图1所示,主要包括如下步骤1-步骤5共五大步骤:
步骤1:提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息;具体方法如下:
步骤1.1:设驱动人脸图片为
Figure 810226DEST_PATH_IMAGE001
,源人脸图片为
Figure 204298DEST_PATH_IMAGE002
Figure 772814DEST_PATH_IMAGE003
表示图片所在的线性空间,
Figure 303152DEST_PATH_IMAGE004
表示图片的维度信息,
Figure 321924DEST_PATH_IMAGE005
分别表示 图片的高度和宽度;
步骤1.2:使用人脸行为分析工具OpenFace提取驱动人脸的动作单元和姿态信息, 其中人脸的动作单元包括17个动作单元的强度,姿态信息包含沿pitch, yaw, roll 这3个 轴的旋转角度,将二者拼接得到20维的向量
Figure 327926DEST_PATH_IMAGE006
Figure 824766DEST_PATH_IMAGE007
表示该向量所在的线性 空间,20x1表示向量的维度信息;
步骤1.3:使用人脸关键点检测方法HyperLandmark提取源人脸的106点关键点信 息,并调整形状为
Figure 347627DEST_PATH_IMAGE008
Figure 6142DEST_PATH_IMAGE009
表示关键点所在的线性空间,212x1表示关键点 的维度信息。
步骤2:将提取到的人脸的动作单元和源人脸的关键点信息输入到关键点转换模块,得到转换后的源人脸关键点信息;方法如下:
步骤2.1:关键点转换模块包含两个编码器和一个解码器,两个编码器分别用于提 取驱动人脸的动作单元和源人脸的关键点信息的特征,解码器用于预测源人脸的关键点信 息
Figure 578068DEST_PATH_IMAGE010
的偏移量
Figure 940917DEST_PATH_IMAGE011
,最终转换后的源人脸关键点信息为
Figure 711426DEST_PATH_IMAGE012
步骤2.2:关键点转换模块采用像素级L1损失、两个对抗损失这三种损失函数进行训练。
其中像素级L1损失函数的具体内容为:训练时源人脸图片
Figure 416208DEST_PATH_IMAGE013
和驱动人脸图片
Figure 272169DEST_PATH_IMAGE014
取自同一身份的同一条视频,因此驱动人脸图片
Figure 235446DEST_PATH_IMAGE014
的关键点信息
Figure 594883DEST_PATH_IMAGE015
作为转换 后的源人脸关键点信息
Figure 736145DEST_PATH_IMAGE016
的真值,
Figure 79402DEST_PATH_IMAGE017
表示关键点所在的线性空间,212x1表示关键 点的维度信息;损失函数如下:
Figure 846370DEST_PATH_IMAGE018
对抗损失使用两个鉴别器TDr和TD来使关键点转换器准确和稳健,其中TDr用于判 断转换后的源人脸关键点信息
Figure 325893DEST_PATH_IMAGE019
的真假,TD用于评估转换后的源人脸关键点信息
Figure 652705DEST_PATH_IMAGE019
和转 换前的源人脸关键点信息
Figure 217678DEST_PATH_IMAGE020
的身份相似度,二者的损失函数定义如下:
Figure 522758DEST_PATH_IMAGE064
其中,
Figure 856787DEST_PATH_IMAGE022
表示驱动人脸的关键点信息
Figure 339852DEST_PATH_IMAGE023
的分布函数的期望值,
Figure 392122DEST_PATH_IMAGE024
表示转换后的源人脸关键点信息
Figure 235313DEST_PATH_IMAGE019
的分布函数的期望值,
Figure 689428DEST_PATH_IMAGE025
表示转换前的源人脸关键点信息
Figure 733607DEST_PATH_IMAGE020
和驱动人脸的关键点信息
Figure 148539DEST_PATH_IMAGE023
的分布函 数的期望值,
Figure 670788DEST_PATH_IMAGE026
表示转换前的源人脸关键点信息
Figure 104043DEST_PATH_IMAGE020
和转换后的源人脸关键点信息
Figure 53544DEST_PATH_IMAGE019
的分 布函数的期望值;
Figure 690193DEST_PATH_IMAGE027
表示鉴别器TD r 对驱动人脸的关键点信息
Figure 16132DEST_PATH_IMAGE023
的真实性的鉴别结果,
Figure 303894DEST_PATH_IMAGE028
表示鉴别器TD r 对转换后的源人脸关键点信息
Figure 424297DEST_PATH_IMAGE019
的真实性的鉴别结 果,
Figure 810891DEST_PATH_IMAGE029
表示鉴别器TD对转换前的源人脸关键点信息
Figure 674942DEST_PATH_IMAGE020
和驱动人脸的关键 点信息
Figure 817211DEST_PATH_IMAGE023
间的身份相似度的鉴别结果,
Figure 374094DEST_PATH_IMAGE030
表示鉴别器TD对转换前的源人脸关键点信息
Figure 985335DEST_PATH_IMAGE020
和转换后的源人 脸关键点信息
Figure 653077DEST_PATH_IMAGE019
间的身份相似度的鉴别结果;
最终关键点转换模块完整的损失函数为以上三者的线性组合:
Figure 649852DEST_PATH_IMAGE031
式中,
Figure 377636DEST_PATH_IMAGE032
分别表示三个损失函数的权重。
步骤3:使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域;方法如下:
使用预训练的基于BiSeNet的人脸分割网络处理源人脸图片
Figure 476173DEST_PATH_IMAGE013
,得到人脸区域掩 膜,分别将掩膜区域和掩膜以外区域填充0像素,获得源人脸的人脸区域
Figure 682027DEST_PATH_IMAGE033
和背景区域
Figure 798887DEST_PATH_IMAGE034
两张图片。
步骤4:将步骤1中的人脸的动作单元,步骤2中转换后的源人脸关键点信息,以及步骤3中的人脸区域输入图2所示的重现网络中,生成目标人脸;方法如下:
步骤4.1:将步骤2中转换过的源人脸关键点信息
Figure 697573DEST_PATH_IMAGE016
映射为一张三通道的图片,并 与驱动人脸的动作单元和姿态信息AU∈R 20×1 拼接得到动作表示
Figure 17827DEST_PATH_IMAGE065
Figure 292951DEST_PATH_IMAGE066
表示图片所在的线性空间,
Figure 529897DEST_PATH_IMAGE067
表示图片的维度信息,
Figure 333905DEST_PATH_IMAGE068
分别表 示图片的高度和宽度;M d 与源人脸的人脸区域
Figure 409964DEST_PATH_IMAGE035
共同构成重现网络的输入;
步骤4.2:如图2所示,重现网络采用基于Pix2Pix的网络框架,该网络包含3组 ResBlock残差块,预测时将源人脸的人脸区域
Figure 957620DEST_PATH_IMAGE035
作为网络的输入,并采用一个动作编码器 用于提取动作表示M d 的特征,然后利用空间正则化(SPADE)模块将提取到的特征***重现 网络3组ResBlock的输出中,该模块主要用于减少生成过程中的语义丢失,最终得到重现人 脸
Figure 49073DEST_PATH_IMAGE038
步骤4.3:训练时,重现网络采用以下3种损失函数进行训练:像素级L1损失、对抗损失和感知损失。
像素级L1损失:与关键点转换模块类似,训练时采用驱动人脸的人脸区域
Figure 23982DEST_PATH_IMAGE037
作 为重现人脸
Figure 584407DEST_PATH_IMAGE038
的真值,损失函数如下:
Figure 935754DEST_PATH_IMAGE039
对抗损失:采用两个鉴别器GDGD m 来提高生成结果的真实性,其中GD用于判断重 现人脸
Figure 881714DEST_PATH_IMAGE038
的真假,GD m 用于评估驱动动作M d 和重现人脸
Figure 293103DEST_PATH_IMAGE069
之间的相关性,损失函数定义如 下:
Figure 75246DEST_PATH_IMAGE040
式中,
Figure 964704DEST_PATH_IMAGE070
表示源人脸的人脸区域
Figure 30749DEST_PATH_IMAGE035
的分布函数的期望值,
Figure 347461DEST_PATH_IMAGE042
表示重现人脸
Figure 616900DEST_PATH_IMAGE038
的分布函数的期望值,
Figure 310049DEST_PATH_IMAGE043
表示驱动动作M d 和驱动人脸的人脸区域
Figure 230601DEST_PATH_IMAGE037
的分布函数的期望值,
Figure 983793DEST_PATH_IMAGE044
表示驱动动作M d 和重现人脸
Figure 737598DEST_PATH_IMAGE038
的分布函数的期望值,
Figure 968859DEST_PATH_IMAGE045
表示鉴别器GD对源人脸的人脸区域
Figure 743917DEST_PATH_IMAGE035
的真实性的鉴别结果,
Figure 933590DEST_PATH_IMAGE046
表示鉴别器GD对重现人脸
Figure 302254DEST_PATH_IMAGE038
的真实性的鉴别结果,
Figure 212573DEST_PATH_IMAGE047
表示鉴别器GD m 对驱动动作M d 和驱动人脸的人脸区域
Figure 717503DEST_PATH_IMAGE037
间的相 关性的鉴别结果,
Figure 937132DEST_PATH_IMAGE048
表示鉴别器GD m 对驱动动作M d 和重现人脸
Figure 793093DEST_PATH_IMAGE038
间的相关性的鉴 别结果。
感知损失:用于最小化重现人脸
Figure 241523DEST_PATH_IMAGE038
和其真值
Figure 866539DEST_PATH_IMAGE037
间的语义距离,损失函数定义如 下,其中V代表VGG-16模型的特征提取操作:
Figure 257069DEST_PATH_IMAGE049
重现网络最终的完整损失函数为:
Figure 334746DEST_PATH_IMAGE050
式中,
Figure 852447DEST_PATH_IMAGE051
分别表示三种损失函数的权重。
步骤5:将步骤4中的目标人脸和步骤3中的背景区域输入到背景融合模块,生成最终结果。方法如下:
将步骤4中的重现人脸
Figure 597549DEST_PATH_IMAGE038
和步骤3中源人脸的背景区域
Figure 158980DEST_PATH_IMAGE034
进行拼接作为背景融 合网络的输入,网络生成一张图片
Figure 458374DEST_PATH_IMAGE052
和一个单通道掩膜M,最终的融合结果通过下式获得:
Figure 239818DEST_PATH_IMAGE053
通过这种方式,融合结果将保留输入的重现人脸
Figure 839426DEST_PATH_IMAGE054
图片的像素内容,训练时,该 模块在最终的融合结果
Figure 571759DEST_PATH_IMAGE055
上采用L2损失和对抗损失:
Figure 889608DEST_PATH_IMAGE056
式中:
Figure 483531DEST_PATH_IMAGE057
表示源人脸图片
Figure 937647DEST_PATH_IMAGE013
的分布函数的期望值,
Figure 840881DEST_PATH_IMAGE058
表示融合结果
Figure 380446DEST_PATH_IMAGE055
的分布函数的期望值,
Figure 778061DEST_PATH_IMAGE059
表示鉴别器D对源人脸图片
Figure 86682DEST_PATH_IMAGE060
的真实性的鉴别结果,
Figure 160818DEST_PATH_IMAGE061
表示鉴别器D对融合结果
Figure 922100DEST_PATH_IMAGE055
的真实性的鉴别结果;最终背景融合模块完整 的损失函数为以上二者的线性组合:
Figure 123405DEST_PATH_IMAGE071
式中,
Figure 286534DEST_PATH_IMAGE063
分别表示两个损失函数的权重。
通过以下实验验证本发明的方法有效性和效率:
评估标准为结构相似度(SSIM)和弗雷歇感知距离(FID)。SSIM评估生成图像和真值间的低级相似度,值越大越好。FID使用预训练的Inception V3网络评估生成图像和真实图像间的感知距离,值越小越好。
实验采用VoxCeleb1数据集,该数据集包括1251个不同身份的累计24997段真实视频。数据集提供按1帧每秒提取并裁剪的人脸图片。实验使用了平均分辨率大于300x300的视频段,共得到29891张训练图片,4284张测试图片。并将这些图片缩放至256x256,然后使用HyperLandmark提取106点的关键点信息,使用OpenFace提取AUs和姿态信息。
分别与FreeNet和ICface两种方法生成的结果进行对比,其中FreeNet为基于landmarks的方法,ICface为基于AUs的方法。三种方法在两种评价指标上的实验结果如表1所示:
表1本发明方法在VoxCeleb1数据集上的测试结果
Figure 531570DEST_PATH_IMAGE072
表1的结果表示,对比只基于关键点信息(landmarks)和只基于动作单元(AUs)的方法,本发明方法都取得了更好的效果。具体来说,对于SSIM指标,本发明的背景分离技术更好地保留了背景,从而提高了生成结果与原始图像间的低级相似度;对于FID指标,本发明融合两种特征表示更好地保留了源人脸的细节,从而降低了生成结果与原始图像间的感知距离。结果表明,本发明融合两种特征表示和对背景的分离表现出一定的有效性。总体而言,本发明方法能够充分保留人脸语义特征,生成更真实的人脸和背景。根据上面提到的结果,利用混合动作表示的人脸重现方法创建了高保真的人脸伪造工具。
本发明混合多种动作表示作为人脸重现的指引信号,并利用空间自适应正则化***动作特征,使重现过程能更好地保持语义特征。同时结合背景分离技术,进一步提高生成人脸的真实性和帧间连续性,实现高保真的人脸重现。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种混合动作表示的高保真人脸重现方法,其特征在于,主要包括如下步骤:
步骤1:提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息;
步骤2:将提取到的人脸的动作单元和源人脸的关键点信息输入到关键点转换模块,得到转换后的源人脸关键点信息;
步骤3:使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域;
步骤4:将步骤1中的人脸的动作单元,步骤2中转换后的源人脸关键点信息,以及步骤3中的人脸区域输入重现网络,生成目标人脸;
步骤5:将步骤4中的目标人脸和步骤3中的背景区域输入到背景融合模块,生成最终结果。
2.根据权利要求1所述的混合动作表示的高保真人脸重现方法,其特征在于,步骤1中,提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息,方法如下:
步骤1.1:设驱动人脸图片为
Figure 979376DEST_PATH_IMAGE001
,源人脸图片为
Figure 732568DEST_PATH_IMAGE002
Figure 378051DEST_PATH_IMAGE003
表示图片所在的线性空间,
Figure 874892DEST_PATH_IMAGE004
表示图片的维度信息,
Figure 790895DEST_PATH_IMAGE005
分别表示 图片的高度和宽度;
步骤1.2:提取驱动人脸的动作单元和姿态信息,将二者拼接得到20维的向量
Figure 714989DEST_PATH_IMAGE006
Figure 83653DEST_PATH_IMAGE007
表示该向量所在的线性空间,20x1表示向量的维度信息;
步骤1.3:提取源人脸的106点关键点信息,并调整形状为
Figure 384184DEST_PATH_IMAGE008
Figure 154694DEST_PATH_IMAGE009
表示 关键点所在的线性空间,212x1表示关键点的维度信息。
3.根据权利要求1所述的混合动作表示的高保真人脸重现方法,其特征在于,步骤2中,将提取到的动作单元和源人脸的关键点信息输入到关键点转换模块,得到转换后的源人脸关键点信息,方法如下:
步骤2.1:关键点转换模块包含两个编码器和一个解码器,两个编码器分别用于提取驱 动人脸的动作单元和源人脸的关键点信息的特征,解码器用于预测源人脸的关键点信息
Figure 249689DEST_PATH_IMAGE010
的偏移量
Figure 371229DEST_PATH_IMAGE011
,最终转换后的源人脸关键点信息为
Figure 209872DEST_PATH_IMAGE012
步骤2.2:所述关键点转换模块采用像素级L1损失、两个对抗损失这三种损失函数进行训练。
4.根据权利要求3所述的混合动作表示的高保真人脸重现方法,其特征在于,其中像素 级L1损失函数的具体内容为:训练时源人脸图片
Figure 834888DEST_PATH_IMAGE013
和驱动人脸图片
Figure 366364DEST_PATH_IMAGE014
取自同一身份的同 一条视频,因此驱动人脸图片
Figure 945506DEST_PATH_IMAGE014
的关键点信息
Figure 853419DEST_PATH_IMAGE015
作为转换后的源人脸关键点 信息
Figure 332942DEST_PATH_IMAGE016
的真值,
Figure 35319DEST_PATH_IMAGE017
表示关键点所在的线性空间,212x1表示关键点的维度信息;损失 函数如下:
Figure 865872DEST_PATH_IMAGE018
对抗损失使用两个鉴别器TDr和TD来使关键点转换器准确和稳健,其中TDr用于判断转 换后的源人脸关键点信息
Figure 311897DEST_PATH_IMAGE019
的真假,TD用于评估转换后的源人脸关键点信息
Figure 645926DEST_PATH_IMAGE019
和转换前 的源人脸关键点信息
Figure 519204DEST_PATH_IMAGE020
的身份相似度,二者的损失函数定义如下:
Figure 837053DEST_PATH_IMAGE021
其中,
Figure 555610DEST_PATH_IMAGE022
表示驱动人脸的关键点信息
Figure 275304DEST_PATH_IMAGE023
的分布函数的期望值,
Figure 319484DEST_PATH_IMAGE024
表示转换后的源人脸关键点信息
Figure 623164DEST_PATH_IMAGE019
的分布函数的期望值,
Figure 145412DEST_PATH_IMAGE025
表示转换前的源人脸关键点信息
Figure 719613DEST_PATH_IMAGE020
和驱动人脸的关键点信息
Figure 934694DEST_PATH_IMAGE023
的分布函数的 期望值,
Figure 695976DEST_PATH_IMAGE026
表示转换前的源人脸关键点信息
Figure 287495DEST_PATH_IMAGE020
和转换后的源人脸关键点信息
Figure 450623DEST_PATH_IMAGE019
的分布函 数的期望值;
Figure 836605DEST_PATH_IMAGE027
表示鉴别器TD r 对驱动人脸的关键点信息
Figure 616342DEST_PATH_IMAGE023
的真实性的鉴别结果,
Figure 745972DEST_PATH_IMAGE028
表示鉴别器TD r 对转换后的源人脸关键点信息
Figure 763606DEST_PATH_IMAGE019
的真实性的鉴别结果,
Figure 586069DEST_PATH_IMAGE029
表示鉴别器TD对转换前的源人脸关键点信息
Figure 811690DEST_PATH_IMAGE020
和驱动人脸的关键点信 息
Figure 745011DEST_PATH_IMAGE023
间的身份相似度的鉴别结果,
Figure 882731DEST_PATH_IMAGE030
表示鉴别器TD对转换前的源人脸关键点信息
Figure 876095DEST_PATH_IMAGE020
和转换后的源人脸关键 点信息
Figure 99266DEST_PATH_IMAGE019
间的身份相似度的鉴别结果;
最终关键点转换模块完整的损失函数为以上三者的线性组合:
Figure 570698DEST_PATH_IMAGE031
式中,
Figure 828505DEST_PATH_IMAGE032
分别表示三个损失函数的权重。
5.根据权利要求1所述的混合动作表示的高保真人脸重现方法,其特征在于,步骤3中, 使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域,方法如下:使用预训练 的基于BiSeNet的人脸分割网络处理源人脸图片
Figure 727190DEST_PATH_IMAGE013
,得到人脸区域掩膜,分别将掩膜区域 和掩膜以外区域填充0像素,获得源人脸的人脸区域
Figure 437657DEST_PATH_IMAGE033
和背景区域
Figure 712781DEST_PATH_IMAGE034
两张图片。
6.根据权利要求1所述的混合动作表示的高保真人脸重现方法,其特征在于,步骤4中,将步骤1中生成目标人脸的方法如下:
步骤4.1:将步骤2中转换过的源人脸关键点信息
Figure 825093DEST_PATH_IMAGE016
映射为一张三通道的图片,并与驱 动人脸的动作单元和姿态信息AU∈R 20×1 拼接得到动作表示M d ∈R 23×H×W R 23×H×W 表示图片所 在的线性空间,23xHxW表示图片的维度信息,HW分别表示图片的高度和宽度;M d 与源人脸 的人脸区域
Figure 894681DEST_PATH_IMAGE035
共同构成重现网络的输入;
步骤4.2:预测时将源人脸的人脸区域
Figure 856558DEST_PATH_IMAGE035
作为网络的输入,并采用一个动作编码器用于 提取动作表示M d 的特征,然后将提取到的特征***重现网络3组ResBlock的输出中,得到重 现人脸
Figure 669793DEST_PATH_IMAGE036
步骤4.3:训练时,重现网络采用以下3种损失函数进行训练:像素级L1损失、对抗损失和感知损失。
7.根据权利要求6所述的混合动作表示的高保真人脸重现方法,其特征在于,像素级L1 损失:训练时采用驱动人脸的人脸区域
Figure 636612DEST_PATH_IMAGE037
作为重现人脸
Figure 877101DEST_PATH_IMAGE038
的真值,损失函数如下:
Figure 562160DEST_PATH_IMAGE039
8.根据权利要求6所述的混合动作表示的高保真人脸重现方法,其特征在于,对抗损 失:采用两个鉴别器GDGD m 来提高生成结果的真实性,其中GD用于判断重现人脸
Figure 179086DEST_PATH_IMAGE040
的真 假,GD m 用于评估驱动动作M d 和重现人脸
Figure 265991DEST_PATH_IMAGE038
之间的相关性,损失函数定义如下:
Figure 677381DEST_PATH_IMAGE041
式中,
Figure 849736DEST_PATH_IMAGE042
表示源人脸的人脸区域
Figure 4774DEST_PATH_IMAGE035
的分布函数的期望值,
Figure 211764DEST_PATH_IMAGE043
表示重现人脸
Figure 528476DEST_PATH_IMAGE038
的分布函数的期望值,
Figure 689592DEST_PATH_IMAGE044
表示驱动动作M d 和驱动人脸的人脸区域
Figure 648321DEST_PATH_IMAGE037
的分布函数的期望值,
Figure 444239DEST_PATH_IMAGE045
表示驱动动作M d 和重现人脸
Figure 463010DEST_PATH_IMAGE038
的分布函数的期望值,
Figure 609958DEST_PATH_IMAGE046
表示鉴别器GD对源人脸的人脸区域
Figure 106798DEST_PATH_IMAGE035
的真实性的鉴别结果,
Figure 757223DEST_PATH_IMAGE047
表示鉴别器GD对重现人脸
Figure 946895DEST_PATH_IMAGE038
的真实性的鉴别结果,
Figure 581139DEST_PATH_IMAGE048
表示鉴别器GD m 对驱动动作M d 和驱动人脸的人脸区域
Figure 616091DEST_PATH_IMAGE037
间的相关性 的鉴别结果,
Figure 386601DEST_PATH_IMAGE049
表示鉴别器GD m 对驱动动作M d 和重现人脸
Figure 747175DEST_PATH_IMAGE038
间的相关性的鉴别结 果。
9.根据权利要求6所述的混合动作表示的高保真人脸重现方法,其特征在于,对感知损 失:用于最小化重现人脸
Figure 101671DEST_PATH_IMAGE038
和其真值
Figure 940314DEST_PATH_IMAGE037
间的语义距离,损失函数定义如下,其中V代表 VGG-16模型的特征提取操作:
Figure 830910DEST_PATH_IMAGE050
重现网络最终的完整损失函数为:
Figure 362385DEST_PATH_IMAGE051
式中,
Figure 440063DEST_PATH_IMAGE052
分别表示三种损失函数的权重。
10.根据权利要求1所述的混合动作表示的高保真人脸重现方法,其特征在于,步骤5中的实现方法如下:
将步骤4中的重现人脸
Figure 347976DEST_PATH_IMAGE038
和步骤3中源人脸的背景区域
Figure 827499DEST_PATH_IMAGE034
进行拼接作为背景融合网 络的输入,网络生成一张图片
Figure 529875DEST_PATH_IMAGE053
和一个单通道掩膜M,最终的融合结果通过下式获得:
Figure 360428DEST_PATH_IMAGE054
通过这种方式,融合结果将保留输入的重现人脸
Figure 275295DEST_PATH_IMAGE055
图片的像素内容,训练时,该模块在 最终的融合结果
Figure 140482DEST_PATH_IMAGE056
上采用L2损失和对抗损失:
Figure 13760DEST_PATH_IMAGE057
式中:
Figure 331609DEST_PATH_IMAGE058
表示源人脸图片
Figure 551631DEST_PATH_IMAGE013
的分布函数的期望值,
Figure 271326DEST_PATH_IMAGE059
表示融合结果
Figure 315505DEST_PATH_IMAGE056
的分布函数的期望值,
Figure 855071DEST_PATH_IMAGE060
表示鉴别器D对源人脸图片
Figure 642898DEST_PATH_IMAGE061
的真实性的鉴别结果,
Figure 217099DEST_PATH_IMAGE062
表示鉴别器D对融合结果
Figure 432180DEST_PATH_IMAGE056
的真实性的鉴别结果;最终背景融合模块完整的损失 函数为以上二者的线性组合:
Figure 193462DEST_PATH_IMAGE063
式中,
Figure 784981DEST_PATH_IMAGE064
分别表示两个损失函数的权重。
CN202210459830.5A 2022-04-28 2022-04-28 混合动作表示的高保真人脸重现方法 Active CN114581612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210459830.5A CN114581612B (zh) 2022-04-28 2022-04-28 混合动作表示的高保真人脸重现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210459830.5A CN114581612B (zh) 2022-04-28 2022-04-28 混合动作表示的高保真人脸重现方法

Publications (2)

Publication Number Publication Date
CN114581612A true CN114581612A (zh) 2022-06-03
CN114581612B CN114581612B (zh) 2022-08-02

Family

ID=81785017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210459830.5A Active CN114581612B (zh) 2022-04-28 2022-04-28 混合动作表示的高保真人脸重现方法

Country Status (1)

Country Link
CN (1) CN114581612B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233012A (zh) * 2020-08-10 2021-01-15 上海交通大学 一种人脸生成***及方法
CN112734634A (zh) * 2021-03-30 2021-04-30 中国科学院自动化研究所 换脸方法、装置、电子设备和存储介质
CN113343878A (zh) * 2021-06-18 2021-09-03 北京邮电大学 基于生成对抗网络的高保真人脸隐私保护方法和***
CN113762147A (zh) * 2021-09-06 2021-12-07 网易(杭州)网络有限公司 人脸表情迁移方法、装置、电子设备及存储介质
CN113807265A (zh) * 2021-09-18 2021-12-17 山东财经大学 一种多样化的人脸图像合成方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233012A (zh) * 2020-08-10 2021-01-15 上海交通大学 一种人脸生成***及方法
CN112734634A (zh) * 2021-03-30 2021-04-30 中国科学院自动化研究所 换脸方法、装置、电子设备和存储介质
CN113343878A (zh) * 2021-06-18 2021-09-03 北京邮电大学 基于生成对抗网络的高保真人脸隐私保护方法和***
CN113762147A (zh) * 2021-09-06 2021-12-07 网易(杭州)网络有限公司 人脸表情迁移方法、装置、电子设备及存储介质
CN113807265A (zh) * 2021-09-18 2021-12-17 山东财经大学 一种多样化的人脸图像合成方法及***

Also Published As

Publication number Publication date
CN114581612B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN113194348B (zh) 一种虚拟人讲课视频生成方法、***、装置及存储介质
Cao et al. Semi-automatic 2D-to-3D conversion using disparity propagation
CN111489287A (zh) 图像转换方法、装置、计算机设备和存储介质
Ye et al. Audio-driven talking face video generation with dynamic convolution kernels
CN113112416B (zh) 一种语义引导的人脸图像修复方法
CN115908659A (zh) 一种基于生成对抗网络的说话人脸合成方法和装置
CN115527276A (zh) 基于面部光流场与纹理特性融合的深伪视频检测方法
CN115908789A (zh) 跨模态特征融合及渐近解码的显著性目标检测方法及装置
CN114581612B (zh) 混合动作表示的高保真人脸重现方法
CN114119694A (zh) 一种基于改进U-Net的自监督单目深度估计算法
CN113989709A (zh) 目标检测方法及装置、存储介质、电子设备
CN117671764A (zh) 基于Transformer的动态说话人脸图像生成***及方法
CN117152283A (zh) 一种利用扩散模型的语音驱动人脸图像生成方法及***
CN115908661A (zh) 一种基于gan网络将戏剧人物图片生成演唱视频的方法
CN116721320A (zh) 基于多尺度特征融合的通用图像篡改取证方法及***
CN115424310A (zh) 一种面向人脸重演中表情分离任务的弱标注学习方法
CN113673567B (zh) 基于多角度子区域自适应的全景图情感识别方法及***
CN115345781A (zh) 一种基于深度学习的多视点视频拼接方法
CN106023120B (zh) 基于耦合近邻索引的人脸画像合成方法
Gao et al. RGBD semantic segmentation based on global convolutional network
CN113657190A (zh) 人脸图片的驱动方法及相关模型的训练方法、相关装置
Xiao et al. Multi-modal weights sharing and hierarchical feature fusion for RGBD salient object detection
CN107770511A (zh) 一种多视点视频的编解码方法、装置和相关设备
CN114693565B (zh) 一种基于跳跃连接多尺度融合的gan图像修复方法
Xu et al. Multi-modal learning with text merging for textvqa

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant