CN115424310A

CN115424310A - 一种面向人脸重演中表情分离任务的弱标注学习方法

Info

Publication number: CN115424310A
Application number: CN202210853247.2A
Authority: CN
Inventors: 程塨; 孙绪祥; 仝慧紫; 蔡晓妍; 韩军伟; 郭雷
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2022-12-02

Abstract

本发明涉及一种面向人脸重演中表情分离任务的弱标注学习方法，本发明设计了一个人脸重演框架，包含一个面部网络，一个身份编码器，一个运动特征提取器，一个AdaAttN模块和两个判别器(图像质量判别器和身份判别器)。其中，面部网络和身份编码器需要通过预训练分别实现编码给定图像的面部信息和身份信息。此外，本发明使用多尺度的驱动图像的面部信息特征减去身份信息特征得到对应尺度的驱动图像的面部运动特征，并迁移图像翻译任务中的AdaAttN模块，以融合驱动图像的多尺度面部运动特征，并将其作为弱标注指导重演图像的生成。本发明能够在无需附加面部信息标注(如面部标志点、轮廓线等)的同时，解决运动特征的解耦问题，实现高质量的人脸重演。

Description

一种面向人脸重演中表情分离任务的弱标注学习方法

技术领域

本发明属于图像处理技术领域，涉及一种面向人脸重演中表情分离任务的弱标注学习方法，能够在无需附加面部信息标注的同时，实现高质量的人脸重演。

背景技术

人脸重演，旨在通过驱动人脸的运动(姿势和表情)来制作源人脸视频。对于生成的视频，我们需要保存源人脸的面部身份特征并执行驱动人脸的运动(姿势和表情)。因其巨大的应用价值(如面部动画、人机交互等)与潜在的安全隐患(如通过恶意篡改国家政要、明星等公众人物的视频来散播虚假内容、侵蚀社会信任度)，人脸重演逐渐成为计算机视觉领域一个引人注目的研究课题。

目前，基于深度学习的人脸重演技术大致分为两类。一类是基于直接扭曲的方法将驱动图像到源图像的运动(姿势和表情)以域转换的方式进行直接扭曲，另一类是利用面部附加信息来指导合成的图像学习驱动图像的面部动作(姿势和表情)。就合成的真实性而言，在现阶段的方法中，利用面部附加信息来进行人脸重演的技术占据主导地位。

应用于人脸重演的附加面部信息大致分为三类：第一类使用面部标志点或轮廓线；第二类是学习面部的像素运动；第三类是提取面部的身份、表情、姿态的参数。面部标志点或轮廓线可以保存人脸的结构信息，同时也存在一些缺点：许多面部标志点注释缺乏一些重要信息(比如瞳孔)且面部标志点是特定于个人的，包含身份信息，常出现身份泄露的问题。因此，这种方法一般不能被直接用于生成重演的面部图像输出，需要设计额外的网络对其进行处理。学习面部的像素运动一般是学习人脸的光流(Optical Flow)或位移场(Displacement Field)。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧与当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。位移场是学习源图像像素(u,v)的流向量(δu,δv),即变换后原像素(u,v)将被移动到重演图像中的位置(u+δu,v+δv)。而对于第三类方法，现有方法在对面部特征解耦时通常使用编码器分别提取身份特征和表情特征，但是人脸重演所需转移的表情与姿态(后面统称为运动)是多元且复杂的，很难通过一个或多个属性定义，因此运动特征的提取效果一般抽象且难以衡量。

综上所述，如何有效的提取人脸图像中的运动特征，同时尽可能去除这些信息中所含有的身份信息，是提升人脸重演技术效果的关键。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种面向人脸重演中表情分离任务的弱标注学习方法。概括来说，本发明设计了一个人脸重演框架，包含一个面部网络(包括面部编码器和面部解码器)，一个身份编码器，一个运动特征提取器，一个AdaAttN模块和两个判别器(图像质量判别器和身份判别器)。其中，面部网络和身份编码器需要通过预训练分别实现编码给定图像的面部信息和身份信息。此外，本发明使用多尺度的驱动图像的面部信息特征减去身份信息特征得到对应尺度的驱动图像的面部运动特征，并迁移图像翻译任务中的AdaAttN模块，以融合驱动图像的多尺度面部运动特征，并将其作为弱标注指导重演图像的生成。本发明能够在无需附加面部信息标注(如面部标志点、轮廓线等)的同时，解决运动特征的解耦问题，实现高质量的人脸重演。

技术方案

一种面向人脸重演中表情分离任务的弱标注学习方法，其特征在于步骤如下：

步骤1、构建并训练面部重构网络：由一个面部编码器和一个面部解码器串联而成，其中：面部编码器的网络结构由4个下采样模块和4个残差块串接为以E_face，面部解码器由4个上采样模块连接构成为D_face；

训练方式如下：将任意一张图片I输入面部编码器得到编码的面部特征，再将面部特征输入面部解码器得到I的重构图片I_rec，对I和I_rec做L₁度量，并以此作为损失函数对面部网络进行训练；

使用一个多尺度的PatchGAN判别器D₁与面部重构网络进行对抗训练，用于评定生成图像的真实性，网络结构如下：首先连接2个下采样模块，然后分三个分支，第一个分支继续连接一个全局自适应最大池化层和一个全连接层为输出一个标量，第二个分支连接两个下采样模块和一个用于调整通道数的卷积模块为输出尺度为1×30×30，第三个分支连接4个下采样模块和一个用于调整通道数的卷积模块为输出尺度为1×6×6；训练判别器D₁时，分别输入生成图像和真实图像，对得到的三个尺度的输出特征分别计算损失后相加，优化函数如下：

其中，i表示判别器D₁的第i个分支，

表示对其输入求数学期望，log(·)表示对其输入求以10为底的对数；

训练面部重构网络的总损失函数为：

其中，

是判别器提供的对抗损失，用于衡量面部网络重构图像的质量；

是I和I_rec之间的L₁损失；

其中，||·||₁表示L₁距离；

步骤2、构建并训练身份编码器：由4个下采样模块和4个残差块连接组成为E_id，具有双生网络结构；

对身份匹配器E_id进行训练：将一组图像I₁和I₂分别输入身份编码器，得到对应的身份编码向量z₁和z₂，计算z₁和z₂之间的L₂距离；当I₁和I₂来自同一个身份时，它们之间距离越小越好；当I₁和I₂来自不同身份时，它们之间距离越大越好；

训练身份编码器的损失函数为：

其中，||·||₂表示L₂距离；max{·,·}²表示取两者较大值的平方；N表示批处理大小；Y为两个样本是否匹配的标签，Y＝0表示I₁和I₂来自不同身份，Y＝1表示I₁和I₂来自同一个身份；m＝1为设定的阈值；

步骤3、构建面向人脸重演中表情分离任务的弱标注学习框架：包括步骤1中的面部重构网络，一个身份编码器，一个运动特征提取器和一个AdaAttN模块；

所述运动特征提取器由四个下采样模块串联组成；

所述AdaAttN模块是一个注意力模块，用于融合源图像的身份信息与驱动图像的面部运动特征；

步骤4、训练面向人脸重演中表情分离任务的弱标注学习框架：训练过程中需要训练额外两个判别器，分别为图像质量判别器为D₂和身份判别器为D₃；

所述图像质量判别器使用与步骤1的判别器D₁具有相同架构的多尺度判别器，用于评定生成图像的真实性；

所述身份判别器采用双生的ResNeXt50结构，用于判断输入的真实人脸和生成人脸是否具有相同的身份；

在训练整体网络时，对步骤1和步骤2预训练好的面部网络和身份编码器进行微调；采用自监督的训练方式，即在训练阶段，驱动图像和源图像是来自同一个视频的不同帧，驱动图像作为重演图像的真值；以生成对抗网络经典的交替训练的方式端到端地训练整个网络；

训练图像质量判别器D₂，分别输入生成图像和源图像，对得到的三个尺度的输出特征分别计算损失后相加得到最终损失，优化函数如下：

其中，i表示判别器D₂的第i个分支；

对于身份判别器D₃，其训练的优化函数如下：

其中，m＝1为设定的阈值，I_ss表示与源图像I_s具有相同身份的图片；

总体损失函数为：

其中，

是图像质量判别器D₂提供的对抗损失；

是身份判别器D₃提供的对抗损失；

是重演图片与真值即即驱动图像之间的L₁距离损失；

是重演图片的面部特征与真值即即驱动图像的面部特征之间的L₁距离损失；

是重演图片的身份特征与真值即即驱动图像的身份特征之间的L₁距离损失；

步骤5、完成人脸重演：对于任意一张驱动图像和源图像，使用步骤4训练好的面向人脸重演中表情分离任务的弱标注学习框架生成重演图片，由此，即完成人脸重演任务。

所述面向人脸重演中表情分离任务的弱标注学习框架以数据流动方式的形式阐述，串行步骤所示：

步骤a：将驱动图像I_d输入面部编码器的四个下采样块得到编码的面部特征

再将驱动图像I_d输入身份编码器的四个下采样块得到编码的身份特征

步骤b：类似步骤a，将源图像I_s分别输入面部编码器和身份编码器，得到编码的源图像面部特征

和身份特征

步骤c：将驱动图像的面部特征F_d和身份特征D_d输入运动特征提取器，相同尺度的面部特征减去身份特征得到对应尺度的运动特征，再经过一个3×3的卷积层下采样后与深层特征沿着通道维度拼接，最终得到不同尺度的运动特征

其中，

表达式如下所示：

步骤d：将源图像的身份特征D_d视为风格特征，驱动图像的运动特征

视为内容特征，用AdaAttN进行融合得到源图像的运动热图H_s；

步骤e：将源图像的运动热图H_s和源图像面部特征

沿着通道连接，输入面部解码器得到重演图像I_t。

所述

尺度为64×256×256，所述

尺度为128×128×128，所述

尺度为256×64×64，所述

尺度为512×32×32。

所述编码的身份特征

尺度为64×256×256，

尺度为128×128×128，

尺度为256×64×64，

尺度为512×32×32。

有益效果

本发明提出的一种面向人脸重演中表情分离任务的弱标注学习方法，本发明设计了一个人脸重演框架，包含一个面部网络(包括面部编码器和面部解码器)，一个身份编码器，一个运动特征提取器，一个AdaAttN模块和两个判别器(图像质量判别器和身份判别器)。其中，面部网络和身份编码器需要通过预训练分别实现编码给定图像的面部信息和身份信息。此外，本发明使用多尺度的驱动图像的面部信息特征减去身份信息特征得到对应尺度的驱动图像的面部运动特征，并迁移图像翻译任务中的AdaAttN模块，以融合驱动图像的多尺度面部运动特征，并将其作为弱标注指导重演图像的生成。本发明能够在无需附加面部信息标注(如面部标志点、轮廓线等)的同时，解决运动特征的解耦问题，实现高质量的人脸重演。

附图说明

图1是本发明面向人脸重演中表情分离任务的弱标注学习算法的训练流程示意图；

图2是本发明方法中面部编码器结构示意图；

图3是本发明方法中面部解码器结构示意图；

图4是采用本发明方法进行人脸重演的结果图像；

图中，第一行表示驱动图像序列，展示了从驱动视频中挑选的不同姿态的具有代表性的帧；第一列表示驱动图像；第二行从第二张图片开始表示重演图像序列。

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本实施例运行环境：10卡思腾合力GPU服务器(CPU为Intel Xeon E5-2698，GPU为12G的RTX 2080Ti)，服务器的操作***为Ubuntu 16.04.5 LTS，实验代码基于Pytorch深度学习框架开发。实验中训练时使用300VW数据集，它包含114个视频及对应每个视频帧中人脸面部标志点的文件。

本发明的具体实施过程如下：

1、面部网络的构建、预训练

面部重构网络由一个面部编码器和一个面部解码器串联而成。其中，面部编码器的网络结构由4个下采样模块和4个残差块串接组成(以E_face表示)，面部解码器由4个上采样模块连接构成(以D_face表示)。具体的训练方式如下：将任意一张图片I输入面部编码器，得到编码的面部特征，再将面部特征输入面部解码器得到I的重构图片I_rec，对I和I_rec做L₁度量，并以此作为损失函数对面部网络进行训练。

此外，使用一个判别器(以D₁表示)与面部重构网络进行对抗训练，D₁采用多尺度的PatchGAN判别器结构，用于评定生成图像的真实性。网络结构如下：首先连接2个下采样模块，然后分三个分支，第一个分支继续连接一个全局自适应最大池化层和一个全连接层(输出一个标量)，第二个分支连接两个下采样模块和一个用于调整通道数的卷积模块(输出尺度为1×30×30)，第三个分支连接4个下采样模块和一个用于调整通道数的卷积模块(输出尺度为1×6×6)。训练判别器D₁时，分别输入生成图像和真实图像，对得到的三个尺度的输出特征分别计算损失后相加得到最终损失，优化函数如下：

其中，i表示判别器D₁的第i个分支，

表示对其输入求数学期望，log(·)表示对其输入求以10为底的对数。PatchGAN的判别器网络见文献“Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei A Efros.Image-to-image translation with conditionaladversarial networks.In Proceedings of the IEEE International Conference onComputer Vision,pages 1125–1134,2017.”。

训练面部重构网络的总损失函数为：

其中，

是判别器提供的对抗损失，用于衡量面部网络重构图像的质量。其表达式如下所示：

是I和I_rec之间的L₁损失，其表达式如下所示：

其中，||·||₁表示L₁距离。

2、身份编码器的构建、预训练

身份编码器由4个下采样模块和4个残差块连接组成(以E_id表示)，具有双生网络结构。采用以下方式对身份匹配器E_id进行训练：将一组图像I₁和I₂分别输入身份编码器，得到对应的身份编码向量z₁和z₂，计算z₁和z₂之间的L₂距离。当I₁和I₂来自同一个身份时，它们之间距离越小越好；当I₁和I₂来自不同身份时，它们之间距离越大越好。总体来说，训练身份编码器的损失函数为：

其中，||·||₂表示L₂距离；max{·,·}²表示取两者较大值的平方；N表示批处理大小；Y为两个样本是否匹配的标签，Y＝0表示I₁和I₂来自不同身份，Y＝1表示I₁和I₂来自同一个身份；m＝1为设定的阈值。

3、面向人脸重演中表情分离任务的弱标注学习框架的构建、训练

面向人脸重演中表情分离任务的弱标注学习框架包括步骤1中的面部重构网络，一个身份编码器，一个运动特征提取器和一个AdaAttN模块。其中，运动特征提取器由四个下采样模块串联组成；AdaAttN模块是一个注意力模块，用于融合源图像的身份信息与驱动图像的面部运动特征。

整个网络的具体处理过程如下：

(1)将驱动图像I_d输入面部编码器的四个下采样块得到编码的面部特征

(尺度为64×256×256)，

(尺度为128×128×128)，

(尺度为256×64×64)，

(尺度为512×32×32)；再将驱动图像I_d输入身份编码器的四个下采样块得到编码的身份特征

(尺度为64×256×256)，

(尺度为128×128×128)，

(尺度为256×64×64)，

(尺度为512×32×32)；

(2)类似步骤a，将源图像I_s分别输入面部编码器和身份编码器，得到编码的源图像面部特征

和身份特征

(3)将驱动图像的面部特征F_d和身份特征D_d输入运动特征提取器，相同尺度的面部特征减去身份特征得到对应尺度的运动特征，再经过一个3×3的卷积层下采样后与深层特征沿着通道维度拼接，最终得到不同尺度的运动特征

其中，

表达式如下所示：

(4)将源图像的身份特征D_d视为风格特征，驱动图像的运动特征

视为内容特征，用AdaAttN进行融合得到源图像的运动热图H_s；AdaAttN的具体操作见文献“Songhua Liu,Tianwei Lin,Dongliang He,Fu Li and Meiling Wang.Adaattn:Revisit attentionmechanism in arbitrary neural style transfer.In Proceedings of the IEEE/CVFInternational Conference on Computer Vision.2021.”。

(5)将源图像的运动热图H_s和源图像面部特征

沿着通道连接，输入面部解码器得到重演图像I_t。

在训练整体网络时，需要训练额外两个判别器，分别为图像质量判别器(以D₂表示)和身份判别器(以D₃表示)。图像质量判别器使用与步骤1的判别器D₁具有相同架构的多尺度判别器，用于评定生成图像的真实性。身份判别器采用双生的ResNeXt50网络，用于判断输入的真实人脸和生成人脸是否具有相同的身份。在训练整体网络时，对步骤1和步骤2预训练好的面部网络和身份编码器进行微调。采用自监督的训练方式，即在训练阶段，驱动图像和源图像是来自同一个视频的不同帧，驱动图像可作为重演图像的真值。以生成对抗网络经典的交替训练的方式端到端地训练整个网络。

其中，i表示判别器D₂的第i个分支。

对于身份判别器D₃，其训练的优化函数如下：

算法总体损失函数为：

其中，

是图像质量判别器D₂提供的对抗损失，其表达式如下所示：

是身份判别器D₃提供的对抗损失，其表达式如下所示：

是重演图片与真值(即驱动图像)之间的L₁距离损失，其表达式如下所示：

是重演图片的面部特征与真值(即驱动图像)的面部特征之间的L₁距离损失，其表达式如下所示：

是重演图片的身份特征与真值(即驱动图像)的身份特征之间的L₁距离损失，其表达式如下所示：

4、完成人脸重演

对于任意一张驱动图像和源图像，使用步骤3训练好的面向人脸重演中表情分离任务的弱标注学习框架生成重演图片。由此，即可完成人脸重演任务。

采用本发明方法进行人脸重演的结果见图3。

选用结构相似性(Structural Similarity,以下简称SSIM)对本发明方法的有效性进定量评估。结构相似性衡量两幅重演前后视频图像帧之间的感知差异。它能够描述结构信息的变化。给定两幅图像x和y，其结构相似性为

其中，μ_x是x的平均值，μ_y是y的平均值，

是y的方差，σ_xy是x和y的方差，c₁＝(k₁L)²和c₂＝(k₂L)²是用来维持稳定的常数，L是像素值的动态范围，k₁＝0.01，k₂＝0.03。SSIM的取值范围在0到1，分数越高生成的图片质量越好。

将本发明方法与其他基于附加面部信息的人脸重演算法进行了对比，结果如表1所示。可以看出本发明能够获得较高的结构相似性。

表1

方法	SSIM
		Few-shot	0.5236
Monkey-Net	0.5587
		本发明方法	0.5723