CN113343878A

CN113343878A - 基于生成对抗网络的高保真人脸隐私保护方法和***

Info

Publication number: CN113343878A
Application number: CN202110681374.4A
Authority: CN
Inventors: 杨辉华; 张隆昊; 李灵巧; 许亦博; 李忠明
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-09-03

Abstract

本发明提供一种基于生成对抗网络的高保真人脸隐私保护方法和***，所述方法包括：对源人脸图像进行人脸识别，获取源人脸的多尺度身份特征；基于输入的目标人脸图像，至少获得目标人脸边界框和人脸关键点信息；提取获得的人脸关键点中姿态和/或表情相关的特定关键点，基于提取的特定关键点获得人脸关键点连线图；基于生成对抗网络GAN获得保真人脸隐私保护图像，包括：以目标人脸图像和源人脸的多尺度身份特征作为输入，利用Unet神经网络结构生成具有源人脸的身份和目标人脸的属性的保真人脸隐私保护图像；将保真人脸隐私保护图像和人脸关键点连线图作为共同输入来判别保真人脸隐私保护图像的识别结果，并基于识别结果优化Unet神经网络结构。

Description

基于生成对抗网络的高保真人脸隐私保护方法和***

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于生成对抗网络的高保真人脸隐私保护方法和***。

背景技术

目前人脸合成与替换技术作为一种新的计算机视觉技术受到越来越多的关注，其在娱乐、虚拟现实、隐私保护、视频聊天和其他视觉技术方面具有很大的应用价值。当前主流的人脸合成与替换技术模型较为复杂，对硬件要求高且推理时间长。此外，由于每帧的生成人脸不能很好地保留该帧目标人脸的属性(例如：姿态、表情、肤色、光照、妆容等)，导致出现时域上的不连续、不稳定等问题，其在视频应用上效果较差，同时导致在满足隐私保护的情况下往往使得目标人脸图像失真严重，目前难以做到在人脸高保真状态下良好的隐私保护效果。

因此，如何实现目标人脸高保真状态下良好的隐私保护，是一个有待解决的问题。

发明内容

鉴于此，本发明提出了一种基于生成对抗网络的高保真人脸隐私保护方法和***，以消除或改善现有技术中存在的一个或更多个缺陷。

根据本发明的一方面，提出了一种基于生成对抗网络的高保真人脸隐私保护方法，该方法包括以下步骤：

源人脸身份编码步骤，用于对源人脸图像进行人脸识别，获取源人脸的多尺度身份特征；

人脸及关键点检测步骤，用于基于输入的目标人脸图像，至少获得目标人脸边界框和人脸关键点信息；

关键点连线图获取步骤，用于提取获得的人脸关键点中姿态和/或表情相关的特定关键点，并基于提取的特定关键点获得人脸关键点连线图；

基于生成对抗网络GAN获得保真人脸隐私保护图像，包括：

图像生成步骤，用于以目标人脸图像和源人脸的多尺度身份特征作为输入，利用Unet神经网络结构合成具有源人脸的身份和目标人脸的属性的保真人脸隐私保护图像；

判别步骤，用于将所述保真人脸隐私保护图像和所述人脸关键点连线图作为共同输入来判别所述保真人脸隐私保护图像的识别结果，并基于识别结果优化所述Unet神经网络结构。

在本发明一些实施例中，所述身份编码步骤包括：采用k-shot策略来获取源人脸的多尺度身份特征；所述采用k-shot策略来获取源人脸的多尺度身份特征包括：基于k张源人脸图像获得k个身份特征，对得到的k个身份特征求平均来得到最终身份特征；基于所述最终身份特征获得源人脸多尺度身份特征。

在本发明一些实施例中，所述图像生成步骤包括：身份迁移步骤，通过源人脸图像的实例归一化处理、层归一化处理和基于源人脸多尺度身份特征的深度学习，得到源人脸图像的第一自适应输出特征；姿态表情控制步骤，基于目标人脸图像的实例归一化处理、层归一化处理和基于人脸关键点连线图的深度学习，得到目标人脸图像的第二自适应输出特征；基于所述第一自适应输出特征和第一自适应输出特征利用Unet神经网络结构生成具有源人脸的身份和目标人员的属性的保真人脸隐私保护图像。

在本发明一些实施例中，所述第一自适应输出特征符合以下公式：

所述第二自适应输出特征符合以下公式：

其中，

M∈R^H×W×C；

其中，M为输入图像的特征，R表示实数域；H和W分别代表特征图的高和宽，C代表特征通道数；μ_IN和σ_IN是用于实例归一化的均值和标准差，

和

分别表示每个实例在第c个通道的均值和方差，μ_LN和σ_LN是用于层归一化的均值和标准差；γ_ID和β_ID是通过多尺度身份特征学习到的参数；γ_PE和β_PE是通过关键点连线图B_t学习到的参数，

为M_IN第c个通道位置(x,y)的值，

为M_LN第c个通道位置(x,y)的值，

为LN在第c个通道的均值。

在本发明一些实施例中，所述方法还包括：基于获得的目标人脸边界框确定人脸区域，并计算仿射变换矩阵进行人脸对齐；融合步骤，使用镜像Sigmoid掩膜调整生成的保真人脸隐私保护图像，将合成的保真人脸隐私保护图像与目标图像进行融合，使得生成的人脸的外边缘像素主要使用目标人脸的像素，而内部则保留生成人脸的像素；利用所述仿射变换矩阵将调整后的保真人脸隐私保护图像贴回目标图像或视频对应位置。

在本发明一些实施例中，所述方法还包括：所述判别模块利用对抗损失函数、感知损失函数、身份损失函数和重建损失函数来优化Unet神经网络。

在本发明一些实施例中，所述对抗损失函数满足：

所述身份损失函数表示为：

所述重建损失函数表示为：

所述感知损失函数表示为：

其中，G代表生成器的生成结果，D_i代表判别器的第i个判别结果，n表示判别结果个数，F_t代表目标人脸图像，F_s代表源人脸图像，B_t代表人脸关键点连线图，

代表求期望值，Y代表生成的人脸图像，₁代表权重值，可设为0.1，H和W分别代表特征图的高和宽，C代表特征通道数，F^s和Y^s分别是F_t和Y在s层的特征,m表示层数，C^s、H^s和W^s分别代表s层的通道数、宽和高，FG^s和YG^s是F^s和Y^s的Gram矩阵，

代表F_t在第s层的特征的Gram矩阵第i行第k列的值，

代表F_t在第s层的特征的Gram矩阵第j行第k列的值，

代表Y在第s层的特征的Gram矩阵第i行第k列的值，

代表Y在第s层的特征的Gram矩阵第j行第k列的值。

在本发明一些实施例中，所述源人脸图像或目标人脸图像包括静态图像或动态图像，所述动态图像包括视频帧；所述目标人脸的属性包括以下属性中的至少一种：目标人脸的姿态、表情、肤色、光照和妆容；所述方法还包括：将不同分辨率的合成的保真人脸隐私保护图像输入到多个具有相同网络结构的判别模块，基于判别结果来优化所述生成模块的Unet神经网络结构。

根据本发明的另一方面，还提供了一种基于生成对抗网络的高保真人脸隐私保护***，该***包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。

本发明的又一方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前所述方法的步骤。

本发明实施例的基于生成对抗网络的高保真人脸隐私保护方法和***，可以很好地合成整个人脸区域、头发和背景，因此可以很容易地将其融合到目标帧中，此外，本发明可以很好地保留人脸属性从而能够获得更高的逼真度。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为本发明一实施例中基于生成对抗网络的高保真人脸隐私保护方法的流程示意图。

图2本发明一实施例中高保真人脸隐私保护方法的***模块结构示意图。

图3本发明一实施例中身份迁移模块的示意性结构图。

图4本发明一实施例中姿态表情控制模块的示意性结构图。

图5本发明另一实施例中高保真人脸隐私保护方法的流程示意图。

图6a、图6b和图6c分别为发明一实施例中镜像sigmoid掩膜及其2D和3D可视化的示意图。

图7为本发明的方法与现有方法的对比效果图。

图8为本发明另一实施例中高保真人脸隐私保护方法的实施流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

为了得到高保真的又充分保护人脸隐私的图像，本发明提出了一种基于生成对抗网络的高保真人脸隐私保护方法，本方法基于生成对抗网络实现人脸合成与替换，旨在将目标图像/视频中的人脸身份替换成指定的人脸身份，用于娱乐或隐私保护。

图1为本发明一实施例中基于生成对抗网络的高保真人脸隐私保护方法的流程示意图。如图1所示，该方法包括以下步骤：

源人脸身份编码步骤S110，该步骤对源人脸图像进行人脸识别，获取源人脸的多尺度身份特征。

本方法中实现该步骤的模块可以称为身份编码模块，身份编码模块利用预先训练的人脸识别网络对源人脸图像进行人脸识别，从源人脸中提取多尺度身份特征。

作为示例，所采用的人脸识别网络为目前流行的ArcFace。多尺度身份特征可以是多种分辨率尺度的身份特征。

人脸及关键点检测步骤S120，该步骤基于输入的目标人脸图像，至少获得目标人脸边界框和人脸关键点信息。

本方法中实现该步骤的模块可以称为人脸及关键点检测模块，更具体地，该人脸及关键点检测模块可采用预先训练好的目前主流的SFD算法进行人脸关键点的检测，此外还可使用目前主流的2D-FAN算法进行人脸边界框的检测。这些模型参数量小，推理时间短，且对显存的要求比较低。

关键点连线图获取步骤S130，该步骤提取步骤S120中获得的目标人脸关键点中姿态和/或表情相关的特定关键点，并基于提取的特定关键点获得人脸关键点连线图。

例如，通过对与姿态和/或表情相关的特定关键点进行连线可得到人脸关键点连线图B_t，该人脸关键点连线图同样与姿态和/或表情相关。

因为姿态和表情可以认为主要由眼睛的开闭、眼球的位置、鼻梁的方向和口型来描述，因此本发明实施例选择的与姿态和表情密切相关的关键点例如包括：眼睛、眼球、嘴和鼻梁等较少的关键点，选择较少的关键点可以尽量较少对人脸身份的影响。

步骤S140，基于生成对抗网络(Generative Adversarial Nets，GAN)获得保真人脸隐私保护图像。

生成对抗网络GAN是通过生成器G(Generator)和判别器D(Discriminator)不断博弈，进而使生成器G学***衡，整个训练过程结束。

基于生成对抗网络的原理，在本发明实施例中，基于GAN获得保真人脸隐私保护图像的步骤S140包括图像生成步骤S141和判别步骤S142。

图像生成步骤S141可由生成对抗网络的生成器(生成模块)来实现，本步骤中，以目标人脸图像F_t和源人脸F_s的多尺度身份特征作为输入，利用Unet神经网络结构生成(合成)保真人脸图像，该保真人脸图像具有源人脸的身份和目标人脸的属性，因此用保真人脸来替换目标人脸，可以保护目标人脸的因此，因此生成的保真人脸也可以称为保真人脸隐私保护图像。

Unet神经网络是在全卷积网络(Fully Convolution Networks，FCN)的基础上做出改进而得到的一种语义分割网络，其网络结构包括两个对称部分：前面部分网络使用了3x3的卷积和池化下采样，能够抓住图像中的上下文信息(也即像素间的关系)；后面部分网络则是与前面基本对称，使用的是3x3卷积和上采样，以达到输出图像分割的目的。Unet神经网络中还用到了特征融合，将前面部分下采样网络的特征与后面上采样部分的特征进行了融合以获得更准确的上下文信息，达到更好的分割效果。Unet神经网络模型既简单轻便又紧凑，相比现有的用于人脸替换的模型能够降低人脸生成的复杂度。

目标人脸的属性至少包括以下属性中的至少一种：目标人脸的姿态、表情、肤色、光照和妆容。

在判别步骤S142中，将步骤S141中合成的保真人脸隐私保护图像和人脸关键点连线图作为共同输入来判别保真人脸隐私保护图像的识别结果，并基于识别结果优化Unet神经网络结构。

判别步骤S142可由生成对抗网络的判别器(判别模块)来实现，本步骤中，判别模块可通过步骤S141中生成的保真人脸隐私保护图像与人脸关键点连线图进行拼接作为输入来实现对目标人脸姿态和/或表情的感知。也即，判别模块除了判别生成模块生成的图像的真假之外还将注意到合成的人脸的诸如五官位置等的姿态和/或表情等是否与目标人脸的一致，从而实现对人脸姿态和表情的显式的监督。

在基于生成对抗网络(Generative Adversarial Nets，GAN)合成保真人脸隐私保护图像之后，可以将合成的人脸图像替换目标图像中的目标人脸。

在本发明一些实施例中，为了便于实现人脸的替换，在执行步骤S140之前，还可包括人脸区域裁剪步骤。该步骤可基于人脸及关键点检测模块获得的目标人脸边界框裁剪出人脸区域，后面的图像生成步骤可基于裁剪出的人脸区域进行人脸图像合成。

人脸及关键点检测模块还用于检测源人脸边界框以裁剪出源人脸图像的人脸区域，以使得图像生成模块基于裁剪出的源人脸区域和目标人脸区域进行人脸图像合成。

此外，在实际应用中，目标人脸图像有可能具有一定的倾斜度，与源人脸不能很好的对齐，此时，为了提高合成的人脸的保真度，本发明在执行生成步骤之前，还对裁剪出的目标人脸区域利用仿射变换矩阵AM进行人脸对齐。

本发明的基于生成对抗网络的高保真人脸隐私保护方法，生成的人脸既高保真地保留了目标人脸的包括姿态和表情等在内的属性，又具有源人脸的身份，用该方法生成的人脸来替换掉视频或图片中的目标人脸，实现简单，且可以有效保护目标人脸的隐私信息。

本发明实施例中，源人脸身份编码步骤S110可进一步包括：采用k-shot策略来获取源人脸的多尺度身份特征。

该采用k-shot策略来获取源人脸的多尺度身份特征的步骤可包括：

(1)基于k张源人脸图像获得k个身份特征，对得到的k个身份特征求平均来得到最终身份特征。

这k张源人脸图像可以是静态源人脸图像，也可以是源人脸视频帧。将k张源图像或源视频帧同时输入到身份编码模块中可得到k个身份特征，然后通过求平均的方式可得到最终身份特征。

(2)基于最终身份特征获得源人脸多尺度身份特征。

在此，多尺度身份特征可以是指不同分辨率尺度的身份特征。根据最终身份特征可以通过分级降低分辨率来得到不同分辨率的多尺度身份特征。

采用k-shot策略求平均的方式获得源人脸的身份特征可以进一步提升身份编码的准确性和全面性。k-shot策略可以有效地避免单张图或单个视频帧中存在的某些极端情况对身份提取带来的干扰和缺陷，并利用了更加丰富的人脸身份信息，可以提高静态图像或视频的换脸效果。

此外，在本发明实施例中，为了进一步提高人脸转换的准确性并保证合成后人脸的高保真性，本发明还在保证准确转换身份的同时，对生成人脸的姿态和/或表情进行约束，对此，图像生成步骤S141可进一步包括采用了自适应归一化技术的身份迁移步骤和姿态表情控制步骤。

在身份迁移步骤中，不仅对源人脸图像进行实例归一化(InstanceNormalization，IN)处理，还对源人脸图像进行与特征通道数有关的层归一化(LayerNormalizaiton，LN)处理，一并输入基于源人脸的多尺度身份特征进行学习，来得到修正后的源人脸身份特征输出。本发明的生成模块中实现该身份迁移步骤的模块可称为身份迁移模块。

在姿态表情控制步骤中，不仅对目标人脸图像进行实例归一化处理，还对目标人脸图像进行与特征通道数有关的层归一化处理，一并输入基于人脸关键点连线图进行学习，来得到基于人脸的姿态和表情修正后的目标人脸特征。本发明的生成模块中实现该姿态表情控制步骤的模块可称为姿态表情控制模块。

在身份迁移模块和姿态表情控制模块中，令M∈R^H×W×C代表输入图像的特征，其中，H和W分别代表特征图的高和宽，C代表特征通道数，R为实数域。如图3和图4所示，首先分别让M通过实例归一化(IN)层和层归一化(LN)层，得到M_IN和M_LN：

实例归一化表示的是仅在(H,W)维度上，对每个实例的每个通道计算均值和方差，而层归一化表示的是在(C,H,W)维度上，对每个实例(每张图)计算均值和方差。

如上公式中，μ_IN和σ_IN表示的分别是IN的均值和标准差，μ_LN和σ_LN表示的分别是LN的均值和标准差，

和

分别表示每个实例在第c个通道的均值和方差，

为M_IN第c个通道位置(x,y)的值，

为M_LN第c个通道位置(x,y)的值，

为LN在第c个通道的均值。随后，使用一个可学习的参数ρ将两个输出M_IN和M_LN结合起来并使用参数γ和β来实现自适应归一化：

更具体地，对于身份迁移模块，得到的输出特征为：

对于姿态表情控制模块，得到的输出特征为：

身份迁移模块的γ_ID和β_ID是通过多尺度身份特征学***均池化，Linear表示连接层。

本发明实施例中，如上面所描述，实例归一化为逐通道计算，忽略了通道之间的相关性，而层归一化没有忽略通道之间的相关性，通过同时引入实例归一化和层归一化，身份迁移模块可实现精准的身份转换，姿态表情控制模块利用人脸关键点信息对合成人脸的姿态和表情进行校正，使其与目标人脸的一致。本发明实施例中，通过在生成步骤中引入了层归一化处理，可以大大改善或消除生成步骤中合成后的人脸图像不对称的问题。

图2本发明一实施例中实现高保真人脸隐私保护方法的***模块结构示意图。图2中，每个ID块对应图3所示的身份迁移模块的处理，不同层级的ID块对应不同ID分辨率特征尺度，每个PE块对应图4所示的姿态表情控制模块的处理，不同层级的PE块对应不同分辨率的五官关键点连线图。身份迁移模块应用在生成模块中较高的层级，而姿态表情控制模块应用于较低的层级。可以认为，身份特征包含了更抽象和更丰富的语义信息，因此更应该在更高的特征层级(低分辨率的特征图)上使用来塑造身份；而人脸关键点及其连线图更应该在低一些特征层级(高分辨率的特征图)上使用来纠正轮廓细节。

如图2所示，判别模块可以感知姿态和/或表情，其通过将人脸关键点连线图B_t和生成模块合成的人脸图像作为共同输入来判别合成图像是合成图像还是原始图像，基于识别结果优化Unet神经网络结构，来对生成人脸的姿态和表情进行弱监督。

进一步地，本发明实施例中，判别模块可以采用多尺度的结构设计。将不同尺度(不同分辨率)的合成的人脸图像输入到多个具有相同网络结构的判别模块，基于各个判别结果来优化生成模块的Unet神经网络结构。输入大尺度图像的判别模块具有更大的感受野和更全局的视角，从而可以指引生成模块生成全局一致的图像；另一方面，输入小尺度图像的判别模块可用于指引生成模块生成更好的图像细节。

进一步地，判别模块还可利用多尺度特征辅助保留目标人脸的肤色、光照、妆容和遮挡等属性。

更具体地，判别模块利用感知损失函数来在不影响身份转换的情况下保留目标人脸的属性，如：肤色、照明、妆容和遮挡。感知损失函数包含遮挡感知部分和风格感知部分，利用判别模块的多尺度特征辅助保留目标人脸的肤色、光照、妆容和遮挡等属性。

本发明实施例中，感知损失函数被定义为：

其中，H和W分别代表特征图的高和宽，C代表特征通道数，F^s和Y^s分别是F_t和Y在s层的特征，m表示层数，C^s、H^s和W^s分别代表s层的通道数、宽和高，FG^s和YG^s是F^s和Y^s的格拉姆(Gram)矩阵，

代表F_t在第s层的特征的格拉姆矩阵第i行第k列的值，

代表F_t在第s层的特征的格拉姆矩阵第j行第k列的值，

代表Y在第s层的特征的格拉姆矩阵第i行第k列的值，

代表Y在第s层的特征的格拉姆矩阵第j行第k列的值。

此外，在本发明优选实施例中，判别模块还利用对抗损失函数来实现“二元极小极大博弈”，对抗损失函数被定义为：

其中，G代表生成器的生成结果，D_i代表判别器的第i个判别结果，n表示判别结果数，F_t代表目标人脸图像，F_s代表源人脸图像，B_t代表五官关键点连线图，E代表求期望值。

此外，判别模块还利用身份损失函数精确地将生成人脸身份转化为源人脸身份，身份损失函数公式表示为：

其中，cos(·,·)表示两个身份特征的cosine相似度；IDEnc(Y)表示生成模块生成的合成人脸Y的身份特征，IDEnc(F_s)表示源人脸的身份特征，合成人脸Y和源人脸F_s的身份特征都是使用身份编码器(身份编码模块)提取得到的。

此外，判别模块还利用重建损失函数帮助保留目标人脸的头发和一部分面部遮挡。重建损失函数被定义为目标人脸与生成人脸的欧氏距离的平方：

其中，

为重建损失值，λ₁为权重值，可设为0.1。

本发明实施例中，判别模块通过引入对抗损失、身份损失、重建损失、感知损失等多种损失函数，可以在不影响身份转换的情况下保留目标人脸的各种属性。

此外，为了消除人脸替换后合成的人脸的外边缘和内边缘之间的明显边界，本发明实施例的方法还包括图像融合步骤，即进一步利用镜像Sigmoid掩膜来调整合成的保真人脸隐私保护图像，使得生成的人脸的外边缘像素主要使用目标人脸的像素，而内部则保留生成人脸的像素。

更具体地，采用的掩膜公式如下：

其中，x表示合成的人脸像素的横坐标，y表示合成的人脸像素的纵坐标，mid代表图像的一半大小,α用来控制函数的斜率，作为示例，α可设置为0.08，θ表示变化因子，作为示例，θ可设置为0.7，但本发明并不限于此。

利用镜像Sigmoid掩膜对生成的人脸像素进行处理后，可以直接将其贴在目标图像或视频帧对应位置上，或者，可利用前面计算的目标人脸的仿射变换矩阵AM对合成的人脸进行变换后直接贴回目标图像或视频帧对应位置上。掩膜处理的可视化效果如图6所示。图6a、图6b、图6c分别表示镜像Sigmoid掩膜、其2D可视化表示以及其3D可视化表示。图像融合后，合成的人脸外边缘和内边缘之间平滑过渡，不会出现明显的边界。

图5为本发明另一实施例中高保真人脸隐私保护方法的流程示意图，如图5所示，该实施例的方法包括以下步骤：

步骤S1，通过人脸及关键点检测模块分别获得目标图像(静态图像或视频帧)的人脸边界框和人脸关键点，裁剪出目标人脸区域，获得目标人脸位置信息和目标人脸关键点信息，并进一步使用OpenCV函数计算仿射变换矩阵AM进行目标人脸对齐。

步骤S2，分别将目标人脸关键点中的眼、口、鼻梁的点相连得到目标人脸关键点连线图B_t。

步骤S3，对经识别过的源人脸图像进行人脸身份特征编码，获取源人脸的多尺度身份特征。

例如可以通过k-shot策略来从k张源图像或视频帧中提取源人脸的多尺度身份特征。

步骤S4，将目标人脸、关键点连线图和源人脸的多尺度身份特征送入生成模块中，得到合成的人脸图像。

步骤S5，合成的人脸图像和人脸关键点连线图作为共同输入来判别保真人脸隐私保护图像是合成图像还是原始图像，基于识别结果优化Unet神经网络结构。

该步骤仅在训练阶段存在，在实际应用阶段不存在该步骤。

步骤S6，使用镜像sigmoid掩膜调整生成人脸的像素值，将合成人脸与目标视频帧进行融合，使得生成人脸的外边缘像素主要使用目标人脸的像素，而内部则保留生成人脸的像素。

步骤S7，可以利用S1中计算的目标人脸的仿射变换矩阵AM直接将处理后的生成人脸直接贴回目标图像或视频帧对应位置上。

图8示出了对应方法的实施流程示意图。如图8所示，基于目标帧得到目标人脸属性特征和人脸关键点连线图，并通过计算仿射变换矩阵AM进行人脸像素对齐。然后基于多张源人脸视频帧通过求平均得到最终人脸身份特征，基于得到的人脸身份特征、目标人脸属性特征和人脸关键点连线图利用生成对抗网络合成高保真人脸，进一步通过图像融合来提高换脸后图像的连续性和一致性。

本发明的如上基于生成对抗网络的高保真人脸隐私保护方法，可以很好地合成整个人脸区域、头发和背景，因此可以很容易地将其融合到目标帧中，此外，本发明可以很好地保留人脸属性从而能够获得更高的逼真度。

为了验证本发明的效果，在FaceForensics++数据集上比较了本发明与其它开源的人脸合成与替换方法的换脸效果。效果对比如图7所示。由于FaceSwap和DeepFakes都遵循先合成内部人脸区域，然后将其混合到目标人脸中的策略，因此它们会遇到混合不一致的问题(blending inconsistency)。然而，本发明可以很好地合成整个人脸区域、头发和背景，因此可以很容易地将其融合到目标帧中。另外，现有的方法不能保留目标人脸中的属性(如姿态、表情、肤色、光照、妆容等)。此外，生成人脸与目标人脸姿态和表情的不一致降低了结果的时间连续性(temporal continuity)，而光线、肤色和妆容的偏差则降低了结果的时间稳定性(temporal stability)和真实性。而本发明可以很好地保留人脸属性从而能够获得更高的逼真度。表1展示了本发明与其他最先进方法(Nirkin、IP-GAN、FaceShifter、DeepFakes、FaceSwap和FS-GAN)的定量比较。定量比较使用了以下常用的指标：身份检索(id)、领域不变感知距离(DIPD)、姿态距离(pose)、表情距离(exp)、结构相似性(SSIM)、平均端点误差(AEE)和流扭曲误差(FWE)。

表1.与其他人脸交换方法的定量比较(↑表示数字越大越好，↓表示数字越小越好)。

从图7和表1可以明显地看出，本发明在身份转换、属性保持、真实性和时间连续性及稳定性等方面优于现有的其他方法。

与前述方法相应地，还提供一种基于生成对抗网络的高保真人脸隐私保护***，该***包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该***实现如前所述方法的步骤。

作为另一实施例，本发明的基于生成对抗网络的高保真人脸隐私保护***可包括：

目标人脸输入单元，其中采用视频或静态图片的形式，输入目标人脸图像信息；

源人脸输入单元，其中采用视频或静态图片的形式，输入源人脸图像信息；

高保真人脸隐私保护单元，其用于输入目标人脸信息和源人脸信息，依据基于生成对抗网络的高保真人脸隐私保护方法，合成一张人脸，该人脸既高保真地保留了目标人脸的所有属性，又具有源人脸的身份，并用该生成人脸，替换掉视频或图片中的目标人脸，以此来保护目标人脸的隐私信息。该高保真人脸隐私保护单元可包括：

源人脸身份编码模块，用于执行源人脸身份编码步骤；

人脸及关键点检测模块，用于执行人脸及关键点检测步骤；

关键点连线图获取模块，用于执行关键点连线图获取步骤；

图像生成模块，用于执行图像生成步骤；

判别模块，用于执行判别步骤。

此外，高保真人脸隐私保护单元还可包括融合模块，用于执行融合步骤，镜像Sigmoid掩膜调整生成的保真人脸隐私保护图像，将合成人脸与目标视频帧进行融合。

实现本发明实施例的软件可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的有形存储介质中。

相应地，本公开还涉及如上存储介质，其上可以存储有计算机程序代码，当程序代码被执行时可以实现本发明的方法的各种实施例。

需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述了一些方法或***。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于生成对抗网络的高保真人脸隐私保护方法，其特征在于，该方法包括以下步骤：

基于生成对抗网络GAN获得保真人脸隐私保护图像，包括：

2.根据权利要求1所述的方法，其特征在于，所述身份编码步骤包括：采用k-shot策略来获取源人脸的多尺度身份特征；所述采用k-shot策略来获取源人脸的多尺度身份特征包括：

基于k张源人脸图像获得k个身份特征，对得到的k个身份特征求平均来得到最终身份特征；

基于所述最终身份特征获得源人脸多尺度身份特征。

3.根据权利要求1所述的方法，其特征在于，所述图像生成步骤包括：

身份迁移步骤，通过源人脸图像的实例归一化处理、层归一化处理和基于源人脸多尺度身份特征的深度学习，得到源人脸图像的第一自适应输出特征；

姿态表情控制步骤，基于目标人脸图像的实例归一化处理、层归一化处理和基于人脸关键点连线图的深度学习，得到目标人脸图像的第二自适应输出特征；

基于所述第一自适应输出特征和第一自适应输出特征利用Unet神经网络结构生成具有源人脸的身份和目标人员的属性的保真人脸隐私保护图像。

4.根据权利要求3所述的方法，其特征在于，

所述第一自适应输出特征符合以下公式：

所述第二自适应输出特征符合以下公式：

其中，

M∈R^H×W×C；

和

为M_IN第c个通道位置(x,y)的值，

为M_LN第c个通道位置(x,y)的值，

为LN在第c个通道的均值。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于获得的目标人脸边界框确定人脸区域，并计算仿射变换矩阵进行人脸对齐；

融合步骤，使用镜像Sigmoid掩膜调整生成的保真人脸隐私保护图像，将合成的保真人脸隐私保护图像与目标图像进行融合，使得生成的人脸的外边缘像素主要使用目标人脸的像素，而内部则保留生成人脸的像素；

利用所述仿射变换矩阵将调整后的保真人脸隐私保护图像贴回目标图像或视频对应位置。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述判别模块利用对抗损失函数、感知损失函数、身份损失函数和重建损失函数来优化Unet神经网络。

7.根据权利要求6所述的方法，其特征在于，

所述对抗损失函数满足：

所述身份损失函数表示为：

所述重建损失函数表示为：

所述感知损失函数表示为：

代表求期望值，Y代表生成的人脸图像，λ₁代表权重值，H和W分别代表特征图的高和宽，C代表特征通道数，F^s和Y^s分别是F_t和Y在s层的特征,m表示层数，C^s、H^s和W^s分别代表s层的通道数、宽和高，FG^s和YG^s是F^s和Y^s的格拉姆矩阵，

代表F_t在第s层的特征的格拉姆矩阵第i行第k列的值，

代表F_t在第s层的特征的格拉姆矩阵第j行第k列的值，

代表Y在第s层的特征的格拉姆矩阵第i行第k列的值，

代表Y在第s层的特征的格拉姆矩阵第j行第k列的值。

8.根据权利要求1所述的方法，其特征在于，所述源人脸图像或目标人脸图像包括静态图像或动态图像，所述动态图像包括视频帧；

所述目标人脸的属性包括以下属性中的至少一种：目标人脸的姿态、表情、肤色、光照和妆容；

所述方法还包括：将不同分辨率的合成的保真人脸隐私保护图像输入到多个具有相同网络结构的判别模块，基于判别结果来优化所述生成模块的Unet神经网络结构。

9.一种基于生成对抗网络的高保真人脸隐私保护***，该***包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现权利要求1-8中任意一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任意一项所述方法的步骤。