CN114581612B

CN114581612B - 混合动作表示的高保真人脸重现方法

Info

Publication number: CN114581612B
Application number: CN202210459830.5A
Authority: CN
Inventors: 邵长乐; 耿嘉仪; 练智超; 韦志辉
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-08-02
Anticipated expiration: 2042-04-28
Also published as: CN114581612A

Abstract

本发明公开了一种混合动作表示的高保真人脸重现方法，属于深度人脸伪造领域。包括提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息；利用关键点转换模块根据驱动人脸的动作单元和姿态信息转换源人脸的关键点信息；使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域；将动作单元和转换过的关键点信息，以及人脸区域输入重现网络，生成目标人脸；将目标人脸和背景区域输入到背景融合模块，生成最终结果。本发明混合多种动作表示作为人脸重现的指引信号，并利用空间自适应正则化***动作特征，使重现过程能更好地保持语义特征；同时结合背景分离技术，进一步提高生成人脸的真实性和帧间连续性，实现高保真的人脸重现。

Description

混合动作表示的高保真人脸重现方法

技术领域

本发明涉及深度人脸伪造，特别是一种混合动作表示的高保真人脸重现方法。

背景技术

人脸重现是根据驱动人脸的动作（姿势和表情）为源人脸生成动画的过程，在电影制作、增强现实等领域有广泛应用前景。一般来说，该过程包括三个主要步骤：

1）创建源人脸身份的表示，

2）提取和编码驱动人脸的动作，

3）结合身份和动作表示生成伪造的源人脸。每个步骤都对生成质量有重大影响。

目前人脸重现技术主要可以分为基于传统3D模型的合成方法和基于生成对抗网络(GANs)的生成方法。在基于3D人脸模型的方法中，首先使用3D模型参数编码身份和动作特征。然后使用源人脸的身份参数和驱动人脸的动作参数渲染重现人脸。虽然这种方法可以获得高质量的输出，但需要付出大量努力才能获得人脸的真实3D表示。基于GANs的方法按人脸动作表示的不同，可以分为基于人脸关键点(landmarks)的方法、基于自监督学习的方法和基于动作单元(AUs)的方法。基于人脸关键点的方法面临身份泄露问题，因为人脸关键点在提供表情和姿态信息的同时还包含了人脸形状特征。基于自监督的方法同样难以区分身份和动作。基于AUs的方法对人脸形状约束较弱，难以生成高质量的重现结果。

发明内容

本发明解决的技术问题：提供一种混合多种动作表示的高保真人脸重现方法。

技术方案：为了解决上述技术问题，本发明采用的技术方案如下：

一种混合动作表示的高保真人脸重现方法，主要包括如下步骤：

步骤1：提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息；

步骤2：将提取到的人脸的动作单元和源人脸的关键点信息输入到关键点转换模块，得到转换后的源人脸关键点信息；

步骤3：使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域；

步骤4：将步骤1中的人脸的动作单元，步骤2中转换后的源人脸关键点信息，以及步骤3中的人脸区域输入重现网络，生成目标人脸；

步骤5：将步骤4中的目标人脸和步骤3中的背景区域输入到背景融合模块，生成最终结果。

作为优选，步骤1中，提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息，方法如下：

步骤1.1：设驱动人脸图片为

，源人脸图片为

；

表示图片所在的线性空间，

表示图片的维度信息，

分别表示图片的高度和宽度；

步骤1.2：提取驱动人脸的动作单元和姿态信息，将二者拼接得到20维的向量

；

表示该向量所在的线性空间，20x1表示向量的维度信息；

步骤1.3：提取源人脸的106点关键点信息，并调整形状为

；

表示关键点所在的线性空间，212x1表示关键点的维度信息。

作为优选，步骤2中，将提取到的动作单元和源人脸的关键点信息输入到关键点转换模块，得到转换后的源人脸关键点信息，方法如下：

步骤2.1：关键点转换模块包含两个编码器和一个解码器，两个编码器分别用于提取驱动人脸的动作单元和源人脸的关键点信息的特征，解码器用于预测源人脸的关键点信息

的偏移量

，最终转换后的源人脸关键点信息为

；

步骤2.2：所述关键点转换模块采用像素级L1损失、两个对抗损失这三种损失函数进行训练。

作为优选，其中像素级L1损失函数的具体内容为：训练时源人脸图片

和驱动人脸图片

取自同一身份的同一条视频，因此驱动人脸图片

的关键点信息

作为转换后的源人脸关键点信息

的真值，

表示关键点所在的线性空间，212x1表示关键点的维度信息；损失函数如下：

对抗损失使用两个鉴别器TD_r和TD来使关键点转换器准确和稳健，其中TDr用于判断转换后的源人脸关键点信息

的真假，TD用于评估转换后的源人脸关键点信息

和转换前的源人脸关键点信息

的身份相似度，二者的损失函数定义如下：

其中，

表示驱动人脸的关键点信息

的分布函数的期望值，

表示转换后的源人脸关键点信息

的分布函数的期望值，

表示转换前的源人脸关键点信息

和驱动人脸的关键点信息

的分布函数的期望值，

表示转换前的源人脸关键点信息

和转换后的源人脸关键点信息

的分布函数的期望值；

表示鉴别器TD _r对驱动人脸的关键点信息

的真实性的鉴别结果，

表示鉴别器TD _r对转换后的源人脸关键点信息

的真实性的鉴别结果，

表示鉴别器TD对转换前的源人脸关键点信息

和驱动人脸的关键点信息

间的身份相似度的鉴别结果，

表示鉴别器TD对转换前的源人脸关键点信息

和转换后的源人脸关键点信息

间的身份相似度的鉴别结果；

最终关键点转换模块完整的损失函数为以上三者的线性组合：

式中，

分别表示三个损失函数的权重。

作为优选，步骤3中，使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域，方法如下：使用预训练的基于BiSeNet的人脸分割网络处理源人脸图片

，得到人脸区域掩膜，分别将掩膜区域和掩膜以外区域填充0像素，获得源人脸的人脸区域

和背景区域

两张图片。

作为优选，步骤4中，将步骤1中生成目标人脸的方法如下：

步骤4.1：将步骤2中转换过的源人脸关键点信息

映射为一张三通道的图片，并与驱动人脸的动作单元和姿态信息AU∈R ^20×1拼接得到动作表示M _d ∈R ^23×H×W，R ^23×H×W表示图片所在的线性空间，23xHxW表示图片的维度信息，H和W分别表示图片的高度和宽度；M _d与源人脸的人脸区域

共同构成重现网络的输入；

步骤4.2：预测时将源人脸的人脸区域

作为网络的输入，并采用一个动作编码器用于提取动作表示M _d的特征，然后将提取到的特征***重现网络3组ResBlock的输出中，得到重现人脸

；

步骤4.3：训练时，重现网络采用以下3种损失函数进行训练：像素级L1损失、对抗损失和感知损失。

作为优选，像素级L1损失：训练时采用驱动人脸的人脸区域

作为重现人脸

的真值，损失函数如下：

。

作为优选，对抗损失：采用两个鉴别器GD和GD _m来提高生成结果的真实性，其中GD 用于判断重现人脸

的真假，GD _m用于评估驱动动作M _d和重现人脸

之间的相关性，损失函数定义如下：

式中，

表示源人脸的人脸区域

的分布函数的期望值，

表示重现人脸

的分布函数的期望值，

表示驱动动作M _d和驱动人脸的人脸区域

的分布函数的期望值，

表示驱动动作M _d和重现人脸

的分布函数的期望值，

表示鉴别器GD对源人脸的人脸区域

的真实性的鉴别结果，

表示鉴别器GD对重现人脸

的真实性的鉴别结果，

表示鉴别器GD _m对驱动动作M _d和驱动人脸的人脸区域

间的相关性的鉴别结果，

表示鉴别器GD _m对驱动动作M _d和重现人脸

间的相关性的鉴别结果。

作为优选，对感知损失：用于最小化重现人脸

和其真值

间的语义距离，损失函数定义如下，其中V代表VGG-16模型的特征提取操作：

重现网络最终的完整损失函数为：

式中，

分别表示三种损失函数的权重。

作为优选，步骤5中的实现方法如下：

将步骤4中的重现人脸

和步骤3中源人脸的背景区域

进行拼接作为背景融合网络的输入，网络生成一张图片

和一个单通道掩膜M，最终的融合结果通过下式获得：

通过这种方式，融合结果将保留输入的重现人脸

图片的像素内容，训练时，该模块在最终的融合结果

上采用L2损失和对抗损失：

式中：

表示源人脸图片

的分布函数的期望值，

表示融合结果

的分布函数的期望值，

表示鉴别器D对源人脸图片

的真实性的鉴别结果，

表示鉴别器D对融合结果

的真实性的鉴别结果；最终背景融合模块完整的损失函数为以上二者的线性组合：

式中，

分别表示两个损失函数的权重。

有益效果：与现有技术相比，本发明具有以下优点：

（1）本发明融合关键点信息和驱动人脸的动作单元两种特征表示作为人脸重现的指引信号，能够实现在保持人脸身份的同时保留更多面部细节。

（2）本发明通过空间自适应正则化***动作特征，减少了重现过程中的语义信息丢失，进一步提高了生成结果的真实性。

（3）本发明利用背景分离技术，使得重现网络能够专注于生成更锐利的人脸，同时更好的保持背景信息，实现了高保真的人脸重现。

附图说明

图1是本发明混合动作表示的高保真人脸重现方法的流程示意图。

图2是方法中重现网络的模型结构图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，实施例在以本发明技术方案为前提下进行实施，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。

本发明的混合动作表示的高保真人脸重现方法，首先提取驱动人脸的动作单元(Action Units, AUs)和姿态信息以及源人脸的关键点(landmarks)信息；利用关键点转换模块根据驱动人脸的动作单元和姿态信息转换源人脸的关键点信息；然后，使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域；将动作单元、转换过的关键点信息，以及人脸区域输入重现网络，生成目标人脸；最后，使用背景融合网络将目标人脸和背景区域进行融合，生成最终结果。本发明的具体实施步骤如图1所示，主要包括如下步骤1-步骤5共五大步骤：

步骤1：提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息；具体方法如下：

步骤1.1：设驱动人脸图片为

，源人脸图片为

；

表示图片所在的线性空间，

表示图片的维度信息，

分别表示图片的高度和宽度；

步骤1.2：使用人脸行为分析工具OpenFace提取驱动人脸的动作单元和姿态信息，其中人脸的动作单元包括17个动作单元的强度，姿态信息包含沿pitch, yaw, roll 这3个轴的旋转角度，将二者拼接得到20维的向量

；

表示该向量所在的线性空间， 20x1表示向量的维度信息；

步骤1.3：使用人脸关键点检测方法HyperLandmark提取源人脸的106点关键点信息，并调整形状为

；

表示关键点所在的线性空间，212x1表示关键点的维度信息。

步骤2：将提取到的人脸的动作单元和源人脸的关键点信息输入到关键点转换模块，得到转换后的源人脸关键点信息；方法如下：

的偏移量

，最终转换后的源人脸关键点信息为

；

步骤2.2：关键点转换模块采用像素级L1损失、两个对抗损失这三种损失函数进行训练。

其中像素级L1损失函数的具体内容为：训练时源人脸图片

和驱动人脸图片

取自同一身份的同一条视频，因此驱动人脸图片

的关键点信息

作为转换后的源人脸关键点信息

的真值，

的真假，TD用于评估转换后的源人脸关键点信息

和转换前的源人脸关键点信息

的身份相似度，二者的损失函数定义如下：

其中，

表示驱动人脸的关键点信息

的分布函数的期望值，

表示转换后的源人脸关键点信息

的分布函数的期望值，

表示转换前的源人脸关键点信息

和驱动人脸的关键点信息

的分布函数的期望值，

表示转换前的源人脸关键点信息

和转换后的源人脸关键点信息

的分布函数的期望值；

表示鉴别器TD _r对驱动人脸的关键点信息

的真实性的鉴别结果，

表示鉴别器TD _r对转换后的源人脸关键点信息

的真实性的鉴别结果，

表示鉴别器TD对转换前的源人脸关键点信息

和驱动人脸的关键点信息

间的身份相似度的鉴别结果，

表示鉴别器TD对转换前的源人脸关键点信息

和转换后的源人脸关键点信息

间的身份相似度的鉴别结果；

式中，

分别表示三个损失函数的权重。

步骤3：使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域；方法如下：

使用预训练的基于BiSeNet的人脸分割网络处理源人脸图片

和背景区域

两张图片。

步骤4：将步骤1中的人脸的动作单元，步骤2中转换后的源人脸关键点信息，以及步骤3中的人脸区域输入图2所示的重现网络中，生成目标人脸；方法如下：

步骤4.1：将步骤2中转换过的源人脸关键点信息

映射为一张三通道的图片，并与驱动人脸的动作单元和姿态信息AU∈R ^20×1拼接得到动作表示

，

表示图片所在的线性空间，

表示图片的维度信息，

分别表示图片的高度和宽度；M _d与源人脸的人脸区域

共同构成重现网络的输入；

步骤4.2：如图2所示，重现网络采用基于Pix2Pix的网络框架，该网络包含3组 ResBlock残差块,预测时将源人脸的人脸区域

作为网络的输入，并采用一个动作编码器用于提取动作表示M _d的特征，然后利用空间正则化(SPADE)模块将提取到的特征***重现网络3组ResBlock的输出中，该模块主要用于减少生成过程中的语义丢失，最终得到重现人脸

。

像素级L1损失：与关键点转换模块类似，训练时采用驱动人脸的人脸区域

作为重现人脸

的真值，损失函数如下：

。

对抗损失：采用两个鉴别器GD和GD _m来提高生成结果的真实性，其中GD用于判断重现人脸

的真假，GD _m用于评估驱动动作M _d和重现人脸

之间的相关性，损失函数定义如下：

式中，

表示源人脸的人脸区域

的分布函数的期望值，

表示重现人脸

的分布函数的期望值，

表示驱动动作M _d和驱动人脸的人脸区域

的分布函数的期望值，

表示驱动动作M _d和重现人脸

的分布函数的期望值，

表示鉴别器GD对源人脸的人脸区域

的真实性的鉴别结果，

表示鉴别器GD对重现人脸

的真实性的鉴别结果，

表示鉴别器GD _m对驱动动作M _d和驱动人脸的人脸区域

间的相关性的鉴别结果，

表示鉴别器GD _m对驱动动作M _d和重现人脸

间的相关性的鉴别结果。

感知损失：用于最小化重现人脸

和其真值

重现网络最终的完整损失函数为：

式中，

分别表示三种损失函数的权重。

步骤5：将步骤4中的目标人脸和步骤3中的背景区域输入到背景融合模块，生成最终结果。方法如下：

将步骤4中的重现人脸

和步骤3中源人脸的背景区域

进行拼接作为背景融合网络的输入，网络生成一张图片

和一个单通道掩膜M，最终的融合结果通过下式获得：

通过这种方式，融合结果将保留输入的重现人脸

图片的像素内容，训练时，该模块在最终的融合结果

上采用L2损失和对抗损失：

式中：

表示源人脸图片

的分布函数的期望值，

表示融合结果

的分布函数的期望值，

表示鉴别器D对源人脸图片

的真实性的鉴别结果，

表示鉴别器D对融合结果

式中，

分别表示两个损失函数的权重。

通过以下实验验证本发明的方法有效性和效率：

评估标准为结构相似度(SSIM)和弗雷歇感知距离(FID)。SSIM评估生成图像和真值间的低级相似度，值越大越好。FID使用预训练的Inception V3网络评估生成图像和真实图像间的感知距离，值越小越好。

实验采用VoxCeleb1数据集，该数据集包括1251个不同身份的累计24997段真实视频。数据集提供按1帧每秒提取并裁剪的人脸图片。实验使用了平均分辨率大于300x300的视频段，共得到29891张训练图片，4284张测试图片。并将这些图片缩放至256x256，然后使用HyperLandmark提取106点的关键点信息，使用OpenFace提取AUs和姿态信息。

分别与FreeNet和ICface两种方法生成的结果进行对比，其中FreeNet为基于landmarks的方法，ICface为基于AUs的方法。三种方法在两种评价指标上的实验结果如表1所示：

表1本发明方法在VoxCeleb1数据集上的测试结果

表1的结果表示，对比只基于关键点信息（landmarks）和只基于动作单元（AUs）的方法，本发明方法都取得了更好的效果。具体来说，对于SSIM指标，本发明的背景分离技术更好地保留了背景，从而提高了生成结果与原始图像间的低级相似度；对于FID指标，本发明融合两种特征表示更好地保留了源人脸的细节，从而降低了生成结果与原始图像间的感知距离。结果表明，本发明融合两种特征表示和对背景的分离表现出一定的有效性。总体而言，本发明方法能够充分保留人脸语义特征，生成更真实的人脸和背景。根据上面提到的结果，利用混合动作表示的人脸重现方法创建了高保真的人脸伪造工具。

本发明混合多种动作表示作为人脸重现的指引信号，并利用空间自适应正则化***动作特征，使重现过程能更好地保持语义特征。同时结合背景分离技术，进一步提高生成人脸的真实性和帧间连续性，实现高保真的人脸重现。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种混合动作表示的高保真人脸重现方法，其特征在于，主要包括如下步骤：

步骤2.1：关键点转换模块包含两个编码器和一个解码器，两个编码器分别用于提取驱动人脸的动作单元和源人脸的关键点信息的特征，解码器用于预测源人脸的关键点信息l _s的偏移量l _shift，最终转换后的源人脸关键点信息为l _t =l _s +l _shift；

步骤2.2：所述关键点转换模块采用像素级L1损失、两个对抗损失这三种损失函数进行训练；

其中像素级L1损失函数的具体内容为：训练时源人脸图片I _s和驱动人脸图片I _d取自同一身份的同一条视频，因此驱动人脸图片I _d的关键点信息l _d ∈R ^212×1作为转换后的源人脸关键点信息l _t的真值，损失函数如下：

对抗损失使用两个鉴别器TD _r和TD来使关键点转换器准确和稳健，其中TD _r用于判断转换后的源人脸关键点信息l _t的真假，TD用于评估转换后的源人脸关键点信息l _t和转换前的源人脸关键点信息l _s的身份相似度，鉴别器TD _r和TD的损失函数定义如下：

最终关键点转换模块完整的损失函数为像素级L1损失、鉴别器TD _r和TD三者损失函数的线性组合：

式中，λ _t1，λ _t2和λ _t3分别表示三个损失函数的权重；

步骤5：将步骤4中的目标人脸和步骤3中的背景区域输入到背景融合模块，生成最终结果；实现方法如下：

将步骤4中的重现人脸I _fr和步骤3中源人脸的背景区域I _bs进行拼接作为背景融合网络的输入，网络生成一张图片Ic和一个单通道掩膜M，最终的融合结果通过下式获得：

通过这种方式，融合结果将保留输入的重现人脸I _fr图片的像素内容，训练时，该模块在最终的融合结果I _r上采用L2损失和对抗损失：

最终背景融合模块完整的损失函数为L2损失和对抗损失二者的线性组合：

式中，λ _b1和λ _b2分别表示两个损失函数的权重。

2.根据权利要求1所述的混合动作表示的高保真人脸重现方法，其特征在于，步骤1中，提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息，方法如下：

步骤1.1：设驱动人脸图片为I _d ∈R ^3×H×W，源人脸图片为I _s ∈R ^3×H×W；

步骤1.2：提取驱动人脸的动作单元和姿态信息，将驱动人脸的动作单元和姿态信息拼接得到20维的向量AU∈R ^20×1；

步骤1.3：提取源人脸的106点关键点信息，并调整形状为l _s ∈R ^212×1。

3.根据权利要求1所述的混合动作表示的高保真人脸重现方法，其特征在于，步骤3中，使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域，方法如下：使用预训练的基于BiSeNet的人脸分割网络处理源人脸图片I _s，得到人脸区域掩膜，分别将掩膜区域和掩膜以外区域填充0像素，获得源人脸的人脸区域I _fs和背景区域I _bs两张图片。

4.根据权利要求1所述的混合动作表示的高保真人脸重现方法，其特征在于，步骤4中，将步骤1中生成目标人脸的方法如下：

步骤4.1：将步骤2中转换过的源人脸关键点信息l _t映射为一张三通道的图片，并与驱动人脸的动作单元和姿态信息AU∈R ^20×1拼接得到动作表示M _d ∈R ^23×H×W，M _d与源人脸的人脸区域I _fs共同构成重现网络的输入；

步骤4.2：预测时将源人脸的人脸区域I _fs作为网络的输入，并采用一个动作编码器用于提取动作表示M _d的特征，然后将提取到的特征***重现网络3组ResBlock的输出中，得到重现人脸I _fr；

5.根据权利要求4所述的混合动作表示的高保真人脸重现方法，其特征在于，像素级L1损失：训练时采用驱动人脸的人脸区域I _fd作为重现人脸I _fr的真值，损失函数如下：

。

6.根据权利要求4所述的混合动作表示的高保真人脸重现方法，其特征在于，对抗损失：采用两个鉴别器GD和GD _m来提高生成结果的真实性，其中GD用于判断重现人脸I _fr的真假，GD _m用于评估驱动动作M _d和重现人脸I _fr之间的相关性，损失函数定义如下：

。

7.根据权利要求4所述的混合动作表示的高保真人脸重现方法，其特征在于，对感知损失：用于最小化重现人脸I _fr和其真值I _fd间的语义距离，损失函数定义如下，其中V代表VGG-16模型的特征提取操作：

重现网络最终的完整损失函数为：

式中，λ _pix，λ _adv和λ _per分别表示三种损失函数的权重。