CN115713680B

CN115713680B - 一种基于语义引导的人脸图像身份合成方法

Info

Publication number: CN115713680B
Application number: CN202211451581.1A
Authority: CN
Inventors: 刘瑞霞; 李子安; 舒明雷; 陈长芳; 单珂
Original assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Current assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2023-07-25
Anticipated expiration: 2042-11-18
Also published as: CN115713680A

Abstract

一种基于语义引导的人脸图像身份合成方法，对每张图像提取身份信息、属性信息和背景信息，继而通过特征融合方式将信息融合，最终将融合信息通过图像生成方式得到最终的结果。该方法引入了特征关键点，用于引导脸型变化。同时训练过程中加入的背景信息使得生成出来的图片脸型发生变化且质量稳定的人脸图像。

Description

一种基于语义引导的人脸图像身份合成方法

技术领域

本发明涉及图像级深度伪造领域，具体涉及一种基于语义引导的人脸图像身份合成方法。

背景技术

近年来，随着机器学习和图形学技术的突破性发展，深度伪造领域同样得到长足的进步，该领域子方向中的人脸身份合成方向也获得了飞速的发展，导致越来越多的伪造图像和视频出现在网络上。具体来说，人脸身份合成技术是指将源人脸的身份信息通过合理的技术转化到到目标人脸上，同时不破坏图像中目标人脸的属性信息(背景，姿态和光照等信息)。目前人脸身份合成在信息保护、影视行业、虚拟娱乐等各个领域中得到了大量的应用，影视行业中利用先进的设备来重建演员的面部模型，并重建场景的照明条件，可以获得逼真效果。相较于深度伪造领域中的属性编辑和图像修复等方向，人脸身份合成更加开放，同时还涉及到更多生成模型中的革新技术。

传统的人脸身份合成方向的研究主要基于图像编辑的方式，这种方法可以可以分为两小类，一是人脸图像剖析和融合方式，二是3D人脸建模方式。第一种传统的图像编辑的方式需要手动剖析脸部区域，并通过渲染，形变等方式进行脸部融合，这种方式效率不高，同时会耗费大量的时间和精力。第二种方式需要获取人脸图像的3D人脸图像，结合深度学习技术进行生成图像，会造成光照和背景缺失的问题。另外，这些生成方法很少关注人脸的结构，导致生成的人脸图像存在脸型问题。

发明内容

本发明为了克服以上技术的不足，提供了一种首先用于语义引导脸型变化的特征关键点，然后对图像提取身份信息、属性信息和背景信息，继而通过特征融合方式将信息融合，最终将融合信息进行图像生成的人脸图像身份合成方法。

本发明克服其技术问题所采用的技术方案是：

一种基于语义引导的人脸图像身份合成方法，包括如下步骤：

a)对CelebA人脸图像数据集中所有人脸图像提取出人脸图像的关键点；

b)建立PET关键点调整网络，将人脸图像的关键点输入到PET关键点调整网络中得到特征关键点lm_fake，对特征关键点lm_fake进行迭代，得到优化后的特征关键点lm_fake；

c)建立人脸图像特征提取网络，将CelebA人脸图像数据集中源图像Pic_s和目标图像Pic_t输入到人脸图像特征提取网络中，分别输出得到身份特征F_id及属性特征F_attr；

d)建立背景特征提取网络，将目标图像Pic_t输入到背景特征提取网络中，得到背景特征信息F_bg；

e)建立生成网络，将身份特征F_id、属性特征F_attr、背景特征信息F_bg及优化后的特征关键点lm_fake输入到生成网络中，得到人脸图像Pic_fake，对图像Pic_fake进行迭代，得到优化后的人脸图像Pic_fake；

f)重复步骤b)至步骤e)，得到真实且脸部轮廓发生改变的人脸图像Pic_fake。

进一步的，步骤a)包括如下步骤：

a-1)使用人脸关键点检测算法H3R检测CelebA人脸图像数据集中所有人脸图像的关键点，从CelebA人脸图像数据集中的源图像Pic_s中提取的关键点表示为源关键点lm_s，从CelebA人脸图像数据集中的目标图像Pic_t中提取的关键点表示为源关键点lm_t。

进一步的，步骤b)包括如下步骤：

b-1)建立由源编码器E_lms、目标编码器E_lmt、关键点生成器G_lm、相似度判别器D_S及真假判别器D_TF构成的PET关键点调整网络；

b-2)源编码器E_lms由第一下采样卷积层、第二下采样卷积层、第三下采样卷积层、第四下采样卷积层及第五采样卷积层构成，将源关键点lm_s输入到源编码器E_lms的第一下采样卷积层中，输出得到特征信息将特征信息/>输入到第二下采样卷积层中，输出得到特征信息/>将特征信息/>输入到第三下采样卷积层中，输出得到特征信息/>将特征信息/>输入到第四下采样卷积层中中，输出得到特征信息/>将特征信息/>输入到第五下采样卷积层中，输出得到特征信息/>b-3)目标编码器E_lmt由第一全连接层、第二全连接层、第三全连接层、第四全连接层及第五全连接层构成，将源关键点lm_t输入到目标编码器E_lmt的第一全连接层中，输出得到特征信息/>将特征信息/>输入到第二全连接层中，输出得到特征信息/>将特征信息/>输入到第三全连接层中，输出得到特征信息/>将特征信息/>输入到第四全连接层中，输出得到特征信息/>将特征信息/>输入到第五连接层中，输出得到特征信息/>b-4)使用torch.cat()函数将特征信息/>和特征信息/>堆叠得到特征向量/>

b-5)关键点生成器G_lm由第一上采样卷积层、第二上采样卷积层、第三上采样卷积层、第四上采样卷积层及第五上采样卷积层构成，将特征向量输入到关键点生成器G_lm的第一上采样卷积层中，输出得到特征关键点/>将特征关键点/>输入到第二上采样卷积层中，输出得到特征关键点/>将特征关键点/>输入到第三上采样卷积层中，输出得到特征关键点/>将特征关键点/>输入到第四上采样卷积层中，输出得到特征关键点/>将特征关键点/>输入到第五上采样卷积层中，输出得到特征关键点lm_fake；

b-6)相似度判别器D_S由Layer_s模块、Layer_fake模块、Layer_c模块构成，Layer_fake模块由第一全连接层、第二全连接层、第三全连接层、第四全连接层构成，将特征关键点lm_fake输入到Layer_fake模块的第一全连接层中，输出得到特征信息将特征信息/>输入到Layer_fake模块的第二全连接层中，输出得到特征信息/>将特征信息/>输入到Layer_fake模块的第三全连接层中，输出得到特征信息/>将特征信息/>输入到Layer_fake模块的第四全连接层中，输出得到特征信息/>Layer_s模块由第一全连接层、第二全连接层、第三全连接层、第四全连接层构成，将源关键点lm_s输入到Layer_s模块由第一全连接层中，输出得到特征信息/>将特征信息/>输入到Layer_s模块由第二全连接层中，输出得到特征信息/>将特征信息/>输入到Layer_s模块由第三全连接层中，输出得到特征信息/>将特征信息/>输入到Layer_s模块由第四全连接层中，输出得到特征信息使用torch.cat()函数将特征信息/>和特征信息/>堆叠得到特征向量/>Layer_c模块由第一全连接层、第二全连接层、第三全连接层、第四全连接层构成，将特征向量/>输入到Layer_c模块的第一全连接层中，输出得到相似度特征Fscore1，将相似度特征Fscore1输入到Layer_c模块的第二全连接层中，输出得到相似度特征Fscore2，将相似度特征Fscore2输入到Layer_c模块的第三全连接层中，输出得到相似度特征Fscore3，将相似度特征Fscore3输入到Layer_c模块的第四全连接层中，输出得到相似度得分score；

b-7)真假判别器D_TF由第一全连接层、第二全连接层、第三全连接层、第四全连接层、第五全连接层、第六全连接层构成，将特征关键点lm_fake输入到真假判别器D_TF的第一全连接层中，输出得到特征将特征/>输入到第二全连接层，输出得到特征/>将特征/>输入到第三全连接层，输出得到特征/>将特征/>输入到第四全连接层，输出得到特征/>将特征/>输入到第五全连接层，输出得到特征/>特征/>输入到第六全连接层，输出得到1通道的数值/>

b-8)通过公式loss_L1＝||lm_fake-lm_s||²计算得到逐点损失loss_L1，式中||·||²为平均平方误差，loss_Cycle＝||lm_fake-lm_t||²计算得到重建损失loss_Cycle，通过公式计算得到真假损失loss_DTF，通过公式计算得到相似度损失loss_DS，通过反向传播法利用逐点损失loss_L1、重建损失loss_Cycle、真假损失loss_DTF、相似度损失loss_DS迭代优化特征关键点lm_fake。

步骤b-2)中第一下采样卷积层、第二下采样卷积层、第三下采样卷积层、第四下采样卷积层及第五采样卷积层的卷积核均为1，步长均为1，填充均为0；步

骤b-5)中第一上采样卷积层、第二上采样卷积层、第三上采样卷积层、第四上采样卷积层及第五上采样卷积层的卷积核均为1，步长均为1，填充均为0。

进一步的，步骤c)包括如下步骤：

c-1)建立由身份编码器E_id和属性编码器E_attr构成的人脸图像特征提取网络；

c-2)身份编码器E_id由Arcface算法构成，将源图像Pic_s输入到身份编码器E_id中，通过interpolate()函数将源图像Pic_s调整为112*112分辨率，将112*112分辨率的图像输入到Arcface算法中，输出得到身份向量其中b为训练批次，c为通道数，h为图像高度，w为图像宽度，将身份向量/>依次输入到填充层和正则化层中，输出得到身份特征F_id；

c-3)属性编码器E_attr由第一下采样残差块、第二下采样残差块、第三下采样残差块、第四下采样残差块、第五下采样残差块、第一瓶颈残差块、第二瓶颈残差块构成，第一下采样残差块、第二下采样残差块、第三下采样残差块、第四下采样残差块、第五下采样残差块均依次由第一归一化层、第二归一化层、第一ReLU激活层、第二ReLU激活层、第一卷积层、第二卷积层、下采样层、残差连接层构成，第一瓶颈残差块、第二瓶颈残差块均依次由第一归一化层、第二归一化层、第一ReLU激活层、第二ReLU激活层、第一卷积层、第二卷积层、残差连接层构成，将目标图像Pic_t输入到属性编码器E_attr的第一下采样残差块中，输出得到属性特征将属性特征/>输入到第二下采样残差块中，输出得到属性特征/>将属性特征/>输入到第三下采样残差块中，输出得到属性特征/>将属性特征/>输入到第四下采样残差块中，输出得到属性特征/>将属性特征/>输入到第五下采样残差块中，输出得到属性特征/>将属性特征/>输入到第一瓶颈残差块中，输出得到属性特征/>将属性特征/>输入到第二瓶颈残差块中，输出得到属性特征F_attr。

步骤c-3)中第一下采样残差块、第二下采样残差块、第三下采样残差块、第四下采样残差块、第五下采样残差块中的第一归一化层及第二归一化层均采用BatchNorm2d；步骤c-3)中第一下采样残差块、第二下采样残差块、第三下采样残差块、第四下采样残差块、第五下采样残差块中的第一卷积层及第二卷积层的卷积核均为3，填充和步长均为1。

进一步的，步骤d)包括如下步骤：

d-1)建立由人脸解析模块和背景信息编码器E_bg构成的背景特征提取网络；

d-2)人脸解析模块由人脸解析算法BiSeNet构成，将目标图像Pic_t输入到人脸解析模块中，经解析得到人脸各部位，将解析出的人脸各部位填充颜色，得到仅保留背景区域的图像Pic_bg；

d-3)背景信息编码器E_bg由第一自注意力模块、第二自注意力模块、第三自注意力模块、第四自注意力模块、第五自注意力模块构成，第一自注意力模块、第二自注意力模块、第三自注意力模块、第四自注意力模块、第五自注意力模块均依次由下采样卷积层、自注意力层和ReLU激活层构成，将图像Pic_bg输入到背景信息编码器E_bg的第一自注意力模块中，输出得到背景特征将背景特征/>输入到第二自注意力模块中，输出得到背景特征将背景特征/>输入到第三自注意力模块中，输出得到背景特征/>将背景特征输入到第四自注意力模块中，输出得到背景特征/>将背景特征/>输入到第四自注意力模块中，输出得到背景特征F_bg。

步骤d-3)中第一自注意力模块、第二自注意力模块、第三自注意力模块、第四自注意力模块、第五自注意力模块的下采样卷积层的卷积核均为3，步长均为0，填充均为0。

进一步的，步骤e)包括如下步骤：

e-1)建立由融合模块、上采样模块、判别器模块构成的生成网络；

e-2)融合模块由第一融合块、第二融合块、第三融合块、第四融合块、第五融合块、第六融合块构成，第一融合块、第二融合块、第三融合块、第四融合块、第五融合块、第六融合块均依次由第一卷积层、第一自适应实例归一化层、ReLU激活层、第二卷积层及第二自适应实例归一化层构成，将属性特征F_attr输入到融合模块由第一融合块中，经过第一融合块的第一卷积层后，得到属性特征将身份特征F_id和属性特征/>输入到第一自适应实例归一化层中，通过公式/>计算得到融合特征/>式中σ_id为身份特征F_id的标准差，/>为属性特征/>的通道平均值，μ(·)为求通道平均值操作，σ(·)为求标准差操作，将融合特征/>输入到ReLU激活层中，得到特征/>将特征/>输入到第二卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第二自适应实例归一化层中，通过公式/>计算得到融合特征/>式中为属性特征/>的通道平均值；

e-3)将融合特征输入到融合模块由第二融合块中，经过第二融合块的第一卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第一自适应实例归一化层中，通过公式/>计算得到融合特征/>式中/>为属性特征/>的通道平均值，将融合特征/>输入到ReLU激活层中，得到特征/>将特征/>输入到第二卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第二自适应实例归一化层中，通过公式/>计算得到融合特征/>式中为属性特征/>的通道平均值；

e-4)将融合特征输入到融合模块由第三融合块中，经过第三融合块的第一卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第一自适应实例归一化层中，通过公式/>计算得到融合特征/>式中/>为属性特征/>的通道平均值，将融合特征/>输入到ReLU激活层中，得到特征/>将特征/>输入到第二卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第二自适应实例归一化层中，通过公式/>计算得到融合特征/>式中为属性特征/>的通道平均值；

e-5)将融合特征输入到融合模块由第四融合块中，经过第四融合块的第一卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第一自适应实例归一化层中，通过公式/>计算得到融合特征/>式中/>为属性特征/>的通道平均值，将融合特征/>输入到ReLU激活层中，得到特征/>将特征/>输入到第二卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第二自适应实例归一化层中，通过公式/>计算得到融合特征/>式中为属性特征/>的通道平均值；

e-6)将融合特征输入到融合模块由第五融合块中，经过第五融合块的第一卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第一自适应实例归一化层中，通过公式/>计算得到融合特征/>式中/>为属性特征/>的通道平均值，将融合特征/>输入到ReLU激活层中，得到特征/>将特征/>输入到第二卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第二自适应实例归一化层中，通过公式/>计算得到融合特征/>式中为属性特征/>的通道平均值；

e-7)将融合特征输入到融合模块由第六融合块中，经过第六融合块的第一卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第一自适应实例归一化层中，通过公式/>计算得到融合特征/>式中/>为属性特征/>的通道平均值，将融合特征/>输入到ReLU激活层中，得到特征/>将特征/>输入到第二卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第二自适应实例归一化层中，通过公式/>计算得到融合特征/>式中/>为属性特征/>的通道平均值；

e-8)将优化后的特征关键点lm_fake分别输入两个卷积层，分别得到特征F_gamma和特征F_beta，通过公式计算得到融合向量F_fuse；

e-9)上采样模块由第一上采样层、第二上采样层、第三上采样层、第四上采样层、第五上采样层构成，将背景特征和融合向量F_fuse输入到上采样模块的第一上采样层中，输出得到特征/>将特征/>和背景特征/>一起输入到第二上采样层中，输出得到特征将特征/>和背景特征/>一起输入到第三上采样层中，输出得到特征/>将特征和背景特征/>一起输入到第四上采样层中，输出得到特征/>将特征/>和背景特征F_bg一起输入到第五上采样层中，输出得到人脸图像Pic_fake；

e-10)判别器模块由第一下采样卷积层、第二下采样卷积层、第三下采样卷积层、第四下采样卷积层、第五下采样卷积层、第六下采样卷积层、Sigmoid函数层构成，将人脸图像Pic_fake输入到第一下采样卷积层后，输出而得到特征将特征/>输入到第二下采样卷积层后，输出而得到特征/>将特征/>输入到第三下采样卷积层后，输出而得到特征/>将特征/>输入到第四下采样卷积层后，输出而得到特征将特征/>输入到第五下采样卷积层后，输出而得到特征/>将特征输入到第六下采样卷积层后，输出而得到特征/>将特征/>输入到Sigmoid函数层后，输出得到数值/>将目标图像Pic_t输入到第一下采样卷积层后，输出而得到特征/>将特征/>输入到第二下采样卷积层后，输出而得到特征/>将特征输入到第三下采样卷积层后，输出而得到特征/>将特征/>输入到第四下采样卷积层后，输出而得到特征/>将特征/>输入到第五下采样卷积层后，输出而得到特征将特征/>输入到第六下采样卷积层后，输出而得到特征/>将特征/>输入到Sigmoid函数层后，输出得到数值/>e-11)通过公式/>计算得到身份丢失损失l1，通过公式l2＝||Pic_fake-Pic_t||²计算得到重建损失l2，通过公式计算得到属性丢失损失l3，通过反向传播法利用身份丢失损失l1、重建损失l2、属性丢失损失l3迭代优化人脸图像Pic_fake。

进一步的，步骤e-2)中第一融合块、第二融合块、第三融合块、第四融合块、第五融合块、第六融合块的第一卷积层及第二卷积层的卷积核均为3，步长均为1，填充均为0；步骤e-8)中两个卷积层的卷积核均为1，步长均为1，填充均为0；步骤e-9)中第一上采样层、第二上采样层、第三上采样层、第四上采样层的卷积核均为3，步长均为1，填充均为1，第五上采样层的卷积核为7，步长为1，填充为0；e-10)中第一下采样卷积层、第二下采样卷积层、第三下采样卷积层的卷积核均为4*4，步长均为2，填充均为1，第四下采样卷积层、第五下采样卷积层、第六下采样卷积层的卷积核均为4*4，步长均为1，填充均为1。

本发明的有益效果是：对每张图像提取身份信息、属性信息和背景信息，继而通过特征融合方式将信息融合，最终将融合信息通过图像生成方式得到最终的结果。该方法引入了特征关键点，用于引导脸型变化。同时训练过程中加入的背景信息使得生成出来的图片脸型发生变化且质量稳定的人脸图像。

附图说明

图1为本发明的方法流程图；

图2为本发明的关键点提取和调整结构图；

图3为本发明的关键点判别器网络结构图；

图4为本发明的属性提取结构图和下采样结构图；

图5为本发明的空间自适应实例归一化结构图；

图6为本发明的语义解析及背景信息提取结构图。

具体实施方式

下面结合附图1至附图6对本发明做进一步说明。

a)对CelebA人脸图像数据集中所有人脸图像提取出人脸图像的关键点。

b)建立PET关键点调整网络，将人脸图像的关键点输入到PET关键点调整网络中得到特征关键点lm_fake，对特征关键点lm_fake进行迭代，得到优化后的特征关键点lm_fake。

c)建立人脸图像特征提取网络，将CelebA人脸图像数据集中源图像Pic_s和目标图像Pic_t输入到人脸图像特征提取网络中，分别输出得到身份特征F_id及属性特征F_attr。

d)建立背景特征提取网络，将目标图像Pic_t输入到背景特征提取网络中，得到背景特征信息F_bg。

e)建立生成网络，将身份特征F_id、属性特征F_attr、背景特征信息F_bg及优化后的特征关键点lm_fake输入到生成网络中，得到人脸图像Pic_fake，对图像Pic_fake进行迭代，得到优化后的人脸图像Pic_fake。

f)重复步骤b)至步骤e)，得到真实且脸部轮廓发生改变的人脸图像Pic_fake。提供了一种用于语义引导脸型变化的特征关键点，然后对每张图像提取身份信息、属性信息和背景信息，继而通过特征融合方式将信息融合，最终将融合信息通过图像生成方式得到最终的结果。该方法引入了特征关键点，用于引导脸型变化。同时训练过程中加入的背景信息使得生成出来的图片脸型发生变化且质量稳定的人脸图像。

实施例1：

步骤a)包括如下步骤：

a-1)使用人脸关键点检测算法H3R检测CelebA人脸图像数据集中所有人脸图像的关键点，从CelebA人脸图像数据集中的源图像Pic_s中提取的关键点表示为源关键点lm_s，从CelebA人脸图像数据集中的目标图像Pic_t中提取的关键点表示为源关键点lm_t。CelebA人脸图像数据集由30000张不同身份的人脸图像组成，每张图像的分辨率512*512，源图像Pic_s和目标图像Pic_t都是CelebA数据集中的图像。

实施例2：

步骤b)包括如下步骤：

b-1)建立由源编码器E_lms、目标编码器E_lmt、关键点生成器G_lm、相似度判别器D_S及真假判别器D_TF构成的PET关键点调整网络。

b-2)源编码器E_lms由第一下采样卷积层、第二下采样卷积层、第三下采样卷积层、第四下采样卷积层及第五采样卷积层构成，将源关键点lm_s输入到源编码器E_lms的第一下采样卷积层中，输出得到特征信息将特征信息/>输入到第二下采样卷积层中，输出得到特征信息/>将特征信息/>输入到第三下采样卷积层中，输出得到特征信息/>将特征信息/>输入到第四下采样卷积层中中，输出得到特征信息/>将特征信息/>输入到第五下采样卷积层中，输出得到特征信息/>b-3)目标编码器E_lmt由第一全连接层、第二全连接层、第三全连接层、第四全连接层及第五全连接层构成，将源关键点lm_t输入到目标编码器E_lmt的第一全连接层中，输出得到特征信息/>将特征信息/>输入到第二全连接层中，输出得到特征信息/>将特征信息/>输入到第三全连接层中，输出得到特征信息/>将特征信息/>输入到第四全连接层中，输出得到特征信息/>将特征信息输入到第五连接层中，输出得到特征信息/>b-4)使用torch.cat()函数将特征信息和特征信息/>堆叠得到特征向量/>

b-5)关键点生成器G_lm由第一上采样卷积层、第二上采样卷积层、第三上采样卷积层、第四上采样卷积层及第五上采样卷积层构成，将特征向量输入到关键点生成器G_lm的第一上采样卷积层中，输出得到特征关键点/>将特征关键点/>输入到第二上采样卷积层中，输出得到特征关键点/>将特征关键点/>输入到第三上采样卷积层中，输出得到特征关键点/>将特征关键点/>输入到第四上采样卷积层中，输出得到特征关键点/>将特征关键点/>输入到第五上采样卷积层中，输出得到特征关键点lm_fake，其维度是1*212。

b-6)相似度判别器D_S由Layer_s模块、Layer_fake模块、Layer_c模块构成，Layer_fake模块由第一全连接层、第二全连接层、第三全连接层、第四全连接层构成，将特征关键点lm_fake输入到Layer_fake模块的第一全连接层中，输出得到特征信息将特征信息/>输入到Layer_fake模块的第二全连接层中，输出得到特征信息/>将特征信息/>输入到Layer_fake模块的第三全连接层中，输出得到特征信息/>将特征信息/>输入到Layer_fake模块的第四全连接层中，输出得到特征信息/>Layer_s模块由第一全连接层、第二全连接层、第三全连接层、第四全连接层构成，将源关键点lm_s输入到Layer_s模块由第一全连接层中，输出得到特征信息/>将特征信息/>输入到Layer_s模块由第二全连接层中，输出得到特征信息/>将特征信息/>输入到Layer_s模块由第三全连接层中，输出得到特征信息/>将特征信息/>输入到Layer_s模块由第四全连接层中，输出得到特征信息使用torch.cat()函数将特征信息/>和特征信息/>堆叠得到特征向量/>Layer_c模块由第一全连接层、第二全连接层、第三全连接层、第四全连接层构成，将特征向量/>输入到Layer_c模块的第一全连接层中，输出得到相似度特征Fscore1，将相似度特征Fscore1输入到Layer_c模块的第二全连接层中，输出得到相似度特征Fscore2，将相似度特征Fscore2输入到Layer_c模块的第三全连接层中，输出得到相似度特征Fscore3，将相似度特征Fscore3输入到Layer_c模块的第四全连接层中，输出得到相似度得分score。

b-8)通过公式loss_L1＝||lm_fake-lm_s||²计算得到逐点损失loss_L1，式中||·||²为平均平方误差，loss_Cycle＝||lm_fake-lm_t||²计算得到重建损失loss_Cycle，通过公式计算得到真假损失loss_DTF，通过公式/>计算得到相似度损失loss_DS，通过反向传播法利用逐点损失loss_L1、重建损失loss_Cycle、真假损失loss_DTF、相似度损失loss_DS迭代优化特征关键点lm_fake。

实施例3：

步骤b-2)中第一下采样卷积层、第二下采样卷积层、第三下采样卷积层、第四下采样卷积层及第五采样卷积层的卷积核均为1，步长均为1，填充均为0；步骤b-5)中第一上采样卷积层、第二上采样卷积层、第三上采样卷积层、第四上采样卷积层及第五上采样卷积层的卷积核均为1，步长均为1，填充均为0。

实施例4：

步骤c)包括如下步骤：

c-1)建立由身份编码器E_id和属性编码器E_attr构成的人脸图像特征提取网络；c-2)身份编码器E_id由Arcface算法构成，将源图像Pic_s输入到身份编码器E_id中，通过interpolate()函数将源图像Pic_s调整为112*112分辨率，将112*112分辨率的图像输入到Arcface算法中，输出得到身份向量其中b为训练批次，c为通道数，h为图像高度，w为图像宽度，将身份向量/>依次输入到填充层和正则化层中，输出得到身份特征F_id；

实施例5：

实施例6：

步骤d)包括如下步骤：

实施例7：

实施例8：

步骤e)包括如下步骤：

e-2)融合模块由第一融合块、第二融合块、第三融合块、第四融合块、第五融合块、第六融合块构成，第一融合块、第二融合块、第三融合块、第四融合块、第五融合块、第六融合块均依次由第一卷积层、第一自适应实例归一化层、ReLU激活层、第二卷积层及第二自适应实例归一化层构成，将属性特征F_attr输入到融合模块由第一融合块中，经过第一融合块的第一卷积层后，得到属性特征将身份特征F_id和属性特征/>输入到第一自适应实例归一化层中，通过公式/>计算得到融合特征/>式中σ_id为身份特征F_id的标准差，/>为属性特征/>的通道平均值，μ(·)为求通道平均值操作，σ(·)为求标准差操作，将融合特征/>输入到ReLU激活层中，得到特征/>将特征/>输入到第二卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第二自适应实例归一化层中，通过公式/>计算得到融合特征/>式中为属性特征/>的通道平均值；/>

e-5)将融合特征输入到融合模块由第四融合块中，经过第四融合块的第一卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第一自适应实例归一化层中，通过公式/>计算得到融合特征/>式中/>为属性特征/>的通道平均值，将融合特征/>输入到ReLU激活层中，得到特征/>将特征/>输入到第二卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第二自适应实例归一化层中，通过公式/>计算得到融合特征/>式中为属性特征/>的通道平均值；/>

实施例9：

步骤e-2)中第一融合块、第二融合块、第三融合块、第四融合块、第五融合块、第六融合块的第一卷积层及第二卷积层的卷积核均为3，步长均为1，填充均为0；步骤e-8)中两个卷积层的卷积核均为1，步长均为1，填充均为0；步骤e-9)中第一上采样层、第二上采样层、第三上采样层、第四上采样层的卷积核均为3，步长均为1，填充均为1，第五上采样层的卷积核为7，步长为1，填充为0；e-10)中第一下采样卷积层、第二下采样卷积层、第三下采样卷积层的卷积核均为4*4，步长均为2，填充均为1，第四下采样卷积层、第五下采样卷积层、第六下采样卷积层的卷积核均为4*4，步长均为1，填充均为1。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语义引导的人脸图像身份合成方法，其特征在于，包括如下步骤：

f)重复步骤b)至步骤e)，得到真实且脸部轮廓发生改变的人脸图像Pic_fake；

步骤b)包括如下步骤：

b-2)源编码器E_lms由第一下采样卷积层、第二下采样卷积层、第三下采样卷积层、第四下采样卷积层及第五采样卷积层构成，将源关键点lm_s输入到源编码器E_lms的第一下采样卷积层中，输出得到特征信息将特征信息/>输入到第二下采样卷积层中，输出得到特征信息/>将特征信息/>输入到第三下采样卷积层中，输出得到特征信息/>将特征信息/>输入到第四下采样卷积层中中，输出得到特征信息/>将特征信息/>输入到第五下采样卷积层中，输出得到特征信息/>

b-3)目标编码器E_lmt由第一全连接层、第二全连接层、第三全连接层、第四全连接层及第五全连接层构成，将源关键点lm_t输入到目标编码器E_lmt的第一全连接层中，输出得到特征信息将特征信息/>输入到第二全连接层中，输出得到特征信息/>将特征信息输入到第三全连接层中，输出得到特征信息/>将特征信息/>输入到第四全连接层中，输出得到特征信息/>将特征信息/>输入到第五连接层中，输出得到特征信息

b-4)使用torch.cat()函数将特征信息和特征信息/>堆叠得到特征向量/>

b-5)关键点生成器G_lm由第一上采样卷积层、第二上采样卷积层、第三上采样卷积层、第四上采样卷积层及第五上采样卷积层构成，将特征向量输入到关键点生成器G_lm的第一上采样卷积层中，输出得到特征关键点/>将特征关键点/>输入到第二上采样卷积层中，输出得到特征关键点/>将特征关键点/>输入到第三上采样卷积层中，输出得到特征关键点/>将特征关键点/>输入到第四上采样卷积层中，输出得到特征关键点将特征关键点/>输入到第五上采样卷积层中，输出得到特征关键点lm_fake；

b-7)真假判别器D_TF由第一全连接层、第二全连接层、第三全连接层、第四全连接层、第五全连接层、第六全连接层构成，将特征关键点lm_fake输入到真假判别器D_TF的第一全连接层中，输出得到特征将特征/>输入到第二全连接层，输出得到特征/>将特征输入到第三全连接层，输出得到特征/>将特征/>输入到第四全连接层，输出得到特征/>将特征/>输入到第五全连接层，输出得到特征/>特征/>输入到第六全连接层，输出得到1通道的数值/>

b-8)通过公式loss_L1＝||lm_fake-lm_s||²计算得到逐点损失loss_L1，式中||·||²为平均平方误差，loss_Cycle＝||lm_fake-lm_t||²计算得到重建损失loss_Cycle，通过公式计算得到真假损失loss_DTF，通过公式计算得到相似度损失loss_DS，通过反向传播法利用逐点损失loss_L1、重建损失loss_Cycle、真假损失loss_DTF、相似度损失loss_DS迭代优化特征关键点lm_fake；

步骤c)包括如下步骤：

c-3)属性编码器E_attr由第一下采样残差块、第二下采样残差块、第三下采样残差块、第四下采样残差块、第五下采样残差块、第一瓶颈残差块、第二瓶颈残差块构成，第一下采样残差块、第二下采样残差块、第三下采样残差块、第四下采样残差块、第五下采样残差块均依次由第一归一化层、第二归一化层、第一ReLU激活层、第二ReLU激活层、第一卷积层、第二卷积层、下采样层、残差连接层构成，第一瓶颈残差块、第二瓶颈残差块均依次由第一归一化层、第二归一化层、第一ReLU激活层、第二ReLU激活层、第一卷积层、第二卷积层、残差连接层构成，将目标图像Pic_t输入到属性编码器E_attr的第一下采样残差块中，输出得到属性特征将属性特征/>输入到第二下采样残差块中，输出得到属性特征/>将属性特征/>输入到第三下采样残差块中，输出得到属性特征/>将属性特征/>输入到第四下采样残差块中，输出得到属性特征/>将属性特征/>输入到第五下采样残差块中，输出得到属性特征/>将属性特征/>输入到第一瓶颈残差块中，输出得到属性特征将属性特征/>输入到第二瓶颈残差块中，输出得到属性特征F_attr。

2.根据权利要求1所述的基于语义引导的人脸图像身份合成方法，其特征在于，步骤a)包括如下步骤：

3.根据权利要求1所述的基于语义引导的人脸图像身份合成方法，其特征在于：步骤b-2)中第一下采样卷积层、第二下采样卷积层、第三下采样卷积层、第四下采样卷积层及第五采样卷积层的卷积核均为1，步长均为1，填充均为0；步骤b-5)中第一上采样卷积层、第二上采样卷积层、第三上采样卷积层、第四上采样卷积层及第五上采样卷积层的卷积核均为1，步长均为1，填充均为0。

4.根据权利要求1所述的基于语义引导的人脸图像身份合成方法，其特征在于：步骤c-3)中第一下采样残差块、第二下采样残差块、第三下采样残差块、第四下采样残差块、第五下采样残差块中的第一归一化层及第二归一化层均采用BatchNorm2d；步骤c-3)中第一下采样残差块、第二下采样残差块、第三下采样残差块、第四下采样残差块、第五下采样残差块中的第一卷积层及第二卷积层的卷积核均为3，填充和步长均为1。

5.根据权利要求1所述的基于语义引导的人脸图像身份合成方法，其特征在于，步骤d)包括如下步骤：

d-3)背景信息编码器E_bg由第一自注意力模块、第二自注意力模块、第三自注意力模块、第四自注意力模块、第五自注意力模块构成，第一自注意力模块、第二自注意力模块、第三自注意力模块、第四自注意力模块、第五自注意力模块均依次由下采样卷积层、自注意力层和ReLU激活层构成，将图像Pic_bg输入到背景信息编码器E_bg的第一自注意力模块中，输出得到背景特征将背景特征/>输入到第二自注意力模块中，输出得到背景特征/>将背景特征/>输入到第三自注意力模块中，输出得到背景特征/>将背景特征/>输入到第四自注意力模块中，输出得到背景特征/>将背景特征/>输入到第四自注意力模块中，输出得到背景特征F_bg。

6.根据权利要求5所述的基于语义引导的人脸图像身份合成方法，其特征在于：步骤d-3)中第一自注意力模块、第二自注意力模块、第三自注意力模块、第四自注意力模块、第五自注意力模块的下采样卷积层的卷积核均为3，步长均为0，填充均为0。

7.根据权利要求1所述的基于语义引导的人脸图像身份合成方法，其特征在于，步骤e)包括如下步骤：

e-2)融合模块由第一融合块、第二融合块、第三融合块、第四融合块、第五融合块、第六融合块构成，第一融合块、第二融合块、第三融合块、第四融合块、第五融合块、第六融合块均依次由第一卷积层、第一自适应实例归一化层、ReLU激活层、第二卷积层及第二自适应实例归一化层构成，将属性特征F_attr输入到融合模块由第一融合块中，经过第一融合块的第一卷积层后，得到属性特征将身份特征F_id和属性特征/>输入到第一自适应实例归一化层中，通过公式/>计算得到融合特征/>式中σ_id为身份特征F_id的标准差，/>为属性特征/>的通道平均值，μ(·)为求通道平均值操作，σ(·)为求标准差操作，将融合特征/>输入到ReLU激活层中，得到特征/>将特征/>输入到第二卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第二自适应实例归一化层中，通过公式/>计算得到融合特征/>式中/>为属性特征/>的通道平均值；

e-3)将融合特征输入到融合模块由第二融合块中，经过第二融合块的第一卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第一自适应实例归一化层中，通过公式/>计算得到融合特征/>式中/>为属性特征的通道平均值，将融合特征/>输入到ReLU激活层中，得到特征/>将特征/>输入到第二卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第二自适应实例归一化层中，通过公式/>计算得到融合特征/>式中为属性特征/>的通道平均值；

e-4)将融合特征输入到融合模块由第三融合块中，经过第三融合块的第一卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第一自适应实例归一化层中，通过公式/>计算得到融合特征/>式中/>为属性特征的通道平均值，将融合特征/>输入到ReLU激活层中，得到特征/>将特征/>输入到第二卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第二自适应实例归一化层中，通过公式/>计算得到融合特征/>式中为属性特征/>的通道平均值；

e-5)将融合特征输入到融合模块由第四融合块中，经过第四融合块的第一卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第一自适应实例归一化层中，通过公式/>计算得到融合特征/>式中/>为属性特征的通道平均值，将融合特征/>输入到ReLU激活层中，得到特征/>将特征/>输入到第二卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第二自适应实例归一化层中，通过公式/>计算得到融合特征/>式中为属性特征/>的通道平均值；

e-6)将融合特征输入到融合模块由第五融合块中，经过第五融合块的第一卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第一自适应实例归一化层中，通过公式/>计算得到融合特征/>式中/>为属性特征的通道平均值，将融合特征/>输入到ReLU激活层中，得到特征/>将特征/>输入到第二卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第二自适应实例归一化层中，通过公式/>计算得到融合特征/>式中为属性特征/>的通道平均值；

e-7)将融合特征输入到融合模块由第六融合块中，经过第六融合块的第一卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第一自适应实例归一化层中，通过公式/>计算得到融合特征/>式中/>为属性特征的通道平均值，将融合特征/>输入到ReLU激活层中，得到特征/>将特征/>输入到第二卷积层后，得到属性特征/>将身份特征F_id和属性特征/>输入到第二自适应实例归一化层中，通过公式/>计算得到融合特征/>式中为属性特征/>的通道平均值；

e-10)判别器模块由第一下采样卷积层、第二下采样卷积层、第三下采样卷积层、第四下采样卷积层、第五下采样卷积层、第六下采样卷积层、Sigmoid函数层构成，将人脸图像Pic_fake输入到第一下采样卷积层后，输出而得到特征将特征/>输入到第二下采样卷积层后，输出而得到特征/>将特征/>输入到第三下采样卷积层后，输出而得到特征/>将特征/>输入到第四下采样卷积层后，输出而得到特征/>将特征/>输入到第五下采样卷积层后，输出而得到特征/>将特征/>输入到第六下采样卷积层后，输出而得到特征/>将特征/>输入到Sigmoid函数层后，输出得到数值/>将目标图像Pic_t输入到第一下采样卷积层后，输出而得到特征/>将特征/>输入到第二下采样卷积层后，输出而得到特征/>将特征/>输入到第三下采样卷积层后，输出而得到特征/>将特征/>输入到第四下采样卷积层后，输出而得到特征/>将特征/>输入到第五下采样卷积层后，输出而得到特征/>将特征/>输入到第六下采样卷积层后，输出而得到特征/>将特征/>输入到Sigmoid函数层后，输出得到数值/>

e-11)通过公式计算得到身份丢失损失l1，通过公式l2＝||Pic_fake-Pic_t||²计算得到重建损失l2，通过公式/>计算得到属性丢失损失l3，通过反向传播法利用身份丢失损失l1、重建损失l2、属性丢失损失l3迭代优化人脸图像Pic_fake。

8.根据权利要求7所述的基于语义引导的人脸图像身份合成方法，其特征在于：步骤e-2)中第一融合块、第二融合块、第三融合块、第四融合块、第五融合块、第六融合块的第一卷积层及第二卷积层的卷积核均为3，步长均为1，填充均为0；步骤e-8)中两个卷积层的卷积核均为1，步长均为1，填充均为0；步骤e-9)中第一上采样层、第二上采样层、第三上采样层、第四上采样层的卷积核均为3，步长均为1，填充均为1，第五上采样层的卷积核为7，步长为1，填充为0；e-10)中第一下采样卷积层、第二下采样卷积层、第三下采样卷积层的卷积核均为4*4，步长均为2，填充均为1，第四下采样卷积层、第五下采样卷积层、第六下采样卷积层的卷积核均为4*4，步长均为1，填充均为1。