CN116386122B - 高保真换脸方法、***、设备及存储介质 - Google Patents
高保真换脸方法、***、设备及存储介质 Download PDFInfo
- Publication number
- CN116386122B CN116386122B CN202310648162.5A CN202310648162A CN116386122B CN 116386122 B CN116386122 B CN 116386122B CN 202310648162 A CN202310648162 A CN 202310648162A CN 116386122 B CN116386122 B CN 116386122B
- Authority
- CN
- China
- Prior art keywords
- face image
- face
- self
- semantic
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000004927 fusion Effects 0.000 claims abstract description 62
- 238000012512 characterization method Methods 0.000 claims abstract description 35
- 238000005516 engineering process Methods 0.000 claims abstract description 11
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 10
- 238000007499 fusion processing Methods 0.000 claims description 32
- 230000003044 adaptive effect Effects 0.000 claims description 29
- 230000001815 facial effect Effects 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 28
- 238000004458 analytical method Methods 0.000 claims description 25
- 238000010606 normalization Methods 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000009877 rendering Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 230000008485 antagonism Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 210000003128 head Anatomy 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 210000000697 sensory organ Anatomy 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- -1 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Image Processing (AREA)
- Collating Specific Patterns (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种高保真换脸方法、***、设备及存储介质,它们是一一对应的方案,方案中:提取源人脸图像的全局身份表征;对源人脸图像与目标人脸图像各自进行解析与特征提取,并通过空间语义广播技术生成合成人脸图像的理想语义特征图;对源人脸图像与目标人脸图像,各自提取出相应的结构表征并生成合成人脸图像的理想结构信息;基于提取的源人脸图像的全局身份表征、合成人脸图像的理想语义特征图与合成人脸图像的理想结构信息,通过自适应融合的方式并经过解码后获得合成人脸图像;上述方案同时利用了人脸的局部语义信息和人脸中的结构性信息,可以取得较好的换脸效果,并且,还保留了源人脸的身份信息,可以更好的实现高保真换脸。
Description
技术领域
本发明涉及图像合成技术领域,尤其涉及一种高保真换脸方法、***、设备及存储介质。
背景技术
换脸即身份替换,是近年来计算机视觉和图形学领域一个非常热门的研究课题,它致力于合成具有高真实感的面部图像或视频,其中合成人脸的身份和源人脸保持一致,而其他与身份无关的属性,如头部姿态、表情和背景等,则需要与目标人脸一致。
根据以上机制,从源人脸和目标人脸中提取理想的身份和属性表征是至关重要的。许多的现有换脸方法依赖于全局性的身份和属性特征交互,借助于全局表征虽然能以相对简单的结构实现换脸,然而,全局的身份和属性表征并不能实现充分解耦,这同时限制了身份迁移和属性保留性能。最近,已有研究表明人脸局部信息和脸型等结构性信息对于表征人脸身份和属性的重要作用,因此,充分挖掘人脸局部表征和头部结构先验是值得探索且更有前景的方向。
有鉴于此,特提出本发明。
发明内容
本发明的目的是提供一种高保真换脸方法、***、设备及存储介质,可以利用人脸局部语义信息和结构性信息来实现高保真换脸。
本发明的目的是通过以下技术方案实现的:
一种高保真换脸方法,包括:
步骤1、从源人脸图像中提取源人脸图像的全局身份表征;
步骤2、对于源人脸图像与目标人脸图像,各自进行人脸语义解析后进行特征提取,获得两部分局域语义特征,结合解析目标人脸图像获得的解析图与两部分局域语义特征通过空间语义广播技术生成合成人脸图像的理想语义特征图;
步骤3、对于源人脸图像与目标人脸图像,各自提取出相应的结构表征,获得两部分结构表征语义特征,结合两部分结构表征生成合成人脸图像的理想结构信息;
步骤4、利用源人脸图像的全局身份表征、合成人脸图像的理想语义特征图与合成人脸图像的理想结构信息,通过自适应融合的方式并经过解码后获得合成人脸图像。
一种高保真换脸***,包括:由全局身份信息建模模块、人脸局部语义增强模块、头部结构建模模块与自适应特征融合模块组成的合成人脸图像生成器;其中:
全局身份信息建模模块,用于从源人脸图像中提取源人脸图像的全局身份表征;
人脸局部语义增强模块,用于对于源人脸图像与目标人脸图像,各自进行人脸语义解析后进行特征提取,获得两部分局域语义特征,结合解析目标人脸图像获得的解析图与两部分局域语义特征通过空间语义广播技术生成合成人脸图像的理想语义特征图;
头部结构建模模块,用于对于源人脸图像与目标人脸图像,各自提取出相应的结构表征,获得两部分结构表征语义特征,结合两部分结构表征生成合成人脸图像的理想结构信息;
自适应特征融合模块,用于利用源人脸图像的全局身份表征、合成人脸图像的理想语义特征图与合成人脸图像的理想结构信息,通过自适应融合的方式并经过解码后获得合成人脸图像。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,同时利用了人脸的局部语义信息和人脸中的结构性信息,可以取得较好的换脸效果,并且,还保留了源人脸的身份信息,可以更好的实现高保真换脸。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种高保真换脸方法的流程图;
图2为本发明实施例提供的一种高保真换脸方法的框架图;
图3为本发明实施例提供的自适应特征融合模块的示意图;
图4为本发明实施例提供的一种高保真换脸***的示意图;
图5为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
下面对本发明所提供的一种高保真换脸方法、***、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
本发明实施例提供一种高保真换脸方法,如图1所示,其主要包括如下步骤:
步骤1、从源人脸图像中提取源人脸图像的全局身份表征。
步骤2、对于源人脸图像与目标人脸图像,各自进行人脸语义解析后进行特征提取,获得两部分局域语义特征,结合解析目标人脸图像获得的解析图与两部分局域语义特征通过空间语义广播技术生成合成人脸图像的理想语义特征图。
本步骤的优选实施方式如下:
(1)通过人脸解析网络分别对源人脸图像与目标人脸图像进行人脸语义解析,获得两个解析图。
(2)将每一解析图分别划分为多个语义区域,并分别进行特征提取,获得两部分局域语义特征。
(3)对两部分局域语义特征分别单独进行归一化,获得两部分局部语义特征向量组。
(4)从源人脸图像的局部语义特征向量组中选取身份相关的局部语义特征向量,从目标人脸图像的局部语义特征向量组中选取属性相关的局部语义特征向量,并按照设定顺序重组为合成人脸图像的理想人脸语义表征。
(5)结合目标人脸图像的解析图与合成人脸图像的理想人脸语义表征通过空间语义广播技术生成合成人脸图像的理想语义特征图。
步骤3、对于源人脸图像与目标人脸图像,各自提取出相应的结构表征,获得两部分结构表征语义特征,结合两部分结构表征生成合成人脸图像的理想结构信息。
本步骤的优选实施方式如下:
(1)通过结构预测器分别从源人脸图像与目标人脸图像中提取相应的结构表征。
(2)选出源人脸图像的结构表征中身份相关的表征,以及目标人脸图像的结构表征中属性相关的表征,并重组为合成人脸图像的结构表征。
(3)对所述合成人脸图像的结构表征进行渲染,获得合成人脸图像的理想结构信息。
需要说明的是,前述的步骤1、步骤2、步骤3之间不区分执行的先后顺序,三个步骤可以同步执行,也可以按照任意顺序先后执行。
步骤4、利用源人脸图像的全局身份表征、合成人脸图像的理想语义特征图与合成人脸图像的理想结构信息,通过自适应融合的方式并经过解码后获得合成人脸图像。
本发明实施例中,执行多组自适应融合过程,每一组自适应融合过程内部执行若干次自适应融合,且每一组自适应融合过程内添加有跳跃连接,即将输入的特征图与最后一次自适应融合的输出相加,获得自适应融合人脸图像的特征图;第一组自适应融合过程中输入的特征图为目标人脸图像的特征图,输出自适应融合人脸图像的特征图,其中,目标人脸图像的特征图通过编码器提取;后一组自适应融合过程中输入的特征图为前一组自适应融合过程输出的自适应融合人脸图像的特征图,最后一组自适应融合过程输出的自适应融合人脸图像的特征图经过解码后获得合成人脸图像。
每一组自适应融合过程中执行的所有自适应融合的流程相同,当前组自适应融合流程如下:执行第一次自适应融合时,对于合成人脸图像的理想语义特征图与合成人脸图像的理想结构信息,采用自学习的方式计算出加权的归一化参数,利用加权的归一化参数对输入的人脸图像的特征图进行调制,获得调制后的人脸图像的特征图,其中,当前组为第一组时,输入的人脸图像的特征图为目标人脸图像的特征图,当前组不为第一组时,输入的人脸图像的特征图为前一组自适应融合过程输出的自适应融合人脸图像的特征图;具体的:可以通过卷积操作从合成人脸图像的理想语义特征图和合成人脸图像的理想结构信息中分别提取出归一化参数,获得两部分归一化参数;定义一组自学习的特征融合权重,并对两部分归一化参数进行加权,获得加权后的归一化参数。将源人脸图像的全局身份表征嵌入至输入的人脸图像的特征图,再与所述调制后的目标人脸图像的特征图拼接,获得第一次自适应融合输出的中间特征图。之后,每一次自适应融合都采用第一次自适应融合过程中的方式执行,区别仅在于,加权的归一化参数的调制对象与全局身份表征嵌入对象为上一次自适应融合输出的中间特征图,最后一次自适应融合输出的中间特征图与输入的人脸图像的特征图相加,作为当前组输出的自适应融合人脸图像的特征图。
本发明实施例中,步骤1通过全局身份信息建模模块实现,步骤2通过人脸局部语义增强模块实现,步骤3通过头部结构建模模块实现,步骤4中的自适应融合过程通过自适应特征融合模块实现,将四个模块作为一个合成人脸图像生成器,并对合成人脸图像生成器进行训练。
引入一个鉴别器与所述合成人脸图像生成器形成生成对抗网络,通过鉴别器来鉴别生成器合成人脸图像的真伪,用以计算生成对抗网络的对抗损失函数;训练阶段总损失函数包括:生成对抗网络的对抗损失函数,利用合成人脸图像的全局身份表征与源人脸图像的全局身份表征计算的身份损失函数,利用合成人脸图像的属性表征与目标人脸图像的属性表征计算的属性损失函数,以及利用合成人脸图像与目标人脸图像的身份对标识符计算的重构损失函数;其中,合成人脸图像的属性表征与目标人脸图像的属性表征为通过鉴别器分别从合成人脸图像与目标人脸图像中提取的属性特征图。
其中,所述鉴别器的数目为多个,不同鉴别器工作在不同分辨率下,利用所有鉴别器的鉴别结果计算对抗网络的对抗损失函数。
本发明实施例提供的高保真换脸方案可以应用于娱乐、影视制作、网络隐私保护(身份匿名化)等场景,也可以应用于科研方面,例如,利用本发明获得的合成人脸图像来验证现有伪造人脸检测器的检测性能,又例如,将本发明获得的合成人脸图像作为训练图像来训练现有伪造人脸检测器,以提升检测性能等;但本发明并不对后续具体应用方向做出限制。
与现有方法相比,本发明基于生成对抗网络进行训练,同时有效利用了人脸的局部语义信息和脸型的结构性信息,可以取得较好的换脸效果,其中,身份一致性指标显著提升,在FaceForensics++数据集达到了97.13%的检索精度。此外,训练完成后可以对输入的任意人脸图像实现高保真换脸,从而适用于大规模的视频平台、社交平台等。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的方法进行详细描述。
一、数据收集与预处理。
本发明实施例中,需要收集足够多的高质量人脸图像,示例性的,可选取高质量人脸数据集FFHQ、CelebA-HQ和VoxCeleb-v2,其中,FFHQ和CelebA-HQ为图像数据集,VoxCeleb-v2为视频数据集,对于视频数据,需要先将其解码成帧图像,并要求其中的大多数帧包含人脸区域。然后对所有图像数据使用常用的人脸检测器,如MTCNN(Multi-taskCascaded Convolutional Networks,多任务级联卷积网络)等,裁剪和对齐图像中的人脸区域并保存,人工删除异常帧和低质量人脸图像后,得到最终的数据集,用于网络训练。
二、构建神经网络。
本发明实施例中,所述神经网络主要是生成对抗网络,如图2所示,包含前述四个模块组成的合成人脸图像生成器以及多个鉴别器。考虑到鉴别器用于训练阶段,且它的工作原理可参照常规技术实现,故不做赘述。下面主要针对合成人脸图像生成器中的四个模块做详细的介绍。
1、全局身份信息建模模块。
全局身份信息建模模块负责建模源人脸图像的全局身份表征,示例性的,源人脸图像的全局身份表征可以由通用的身份识别网络(ArcFace)提取得到,记为,它用于实现基本的源身份迁移。
2、人脸局部语义增强模块。
人脸局部语义增强模块负责对人脸的各个细分语义区域进行特征建模,主要包括:
(1)利用人脸解析网络(BiseNet)提取人脸解析图,提取对象包含源人脸图像与目标人脸图像。
(2)根据解析图将人脸划分为多个(例如,划分为19个)语义区域,然后利用预训练的人脸语义编码器(SEAN)进行特征提取,得到源人脸图像的局域语义特征与目标人脸图像的局域语义特征/>,/>,/>为实数集符号,H、W分别为特征的高度、宽度,C为通道数目;示例性的,可以设置H=W=24, C=512。
(3)在相应解析图的参考作用下,分别对和/>的局部语义特征进行归一化,得到对应的局部语义特征向量组/>,K为语义区域数目,示例性的,可以设置K=19。
(4)选取源人脸图像的身份相关的局部语义特征向量组(例如,五官区域,包括眉毛、眼、鼻、嘴等),同时选取目标人脸图像的属性相关的局部语义特征向量组(非五官区域,例如皮肤、头发、背景等),并把以上两组特征按既定的语义顺序重组为合成人脸图像的理想人脸语义表征。
(5)根据目标人脸的解析图把/>按空间语义广播为合成人脸图像的理想语义特征图,具体计算公式如下:
;
其中,表示合成人脸图像的理想语义特征图。
3、头部结构建模模块。
头部结构建模模块可以利用预训练的结构预测器(3DDFA_v2)分别提取源人脸图像和目标人脸图像的结构表征,例如,可以提取三维脸型以及表情、姿态等系数,形成结构表征;将源人脸图像结构表征记为:/>,其中,/>、/>、/>依次为源人脸图像中提取的三维脸型、表情、姿态;将目标人脸图像的结构表征/>记为,其中,/>、/>、/>依次为目标人脸图像中提取的三维脸型、表情、姿态。
之后,重组源人脸身份相关的脸型系数和目标人脸属性相关的表情、姿态系数,得到合成人脸图像的结构表征。
为了实现对合成人脸结构的精准控制,可以从抽象的渲染出更为直观的RGB(红绿蓝)人脸轮廓图,该过程可建模如下:
;
其中,为渲染获得的合成人脸图像的理想结构信息,/>指代从三维系数重构人脸角点和面片以及抽取部分关键点形成RGB人脸轮廓表征的过程,该过程由头部结构建模模块自动完成。
4、自适应特征融合模块。
在得到源人脸图像的全局身份表征、合成人脸图像的理想语义特征图与合成人脸图像的理想结构信息之后,自适应特征融合模块用来对三类信息进行融合。自适应融合过程会执行多组,每一组中会执行若干次自适应融合,也就是说,设有多个依次连接自适应特征融合模块,例如,4个。每个自适应特征融合模块内部会执行若干次自适应融合,图3展示了执行两次自适应融合过程时的自适应特征融合模块的结构示例。
自适应融合过程中,首先考虑语义和结构信息的融合,由于难以衡量语义和结构信息对于表征人脸的重要性,该自适应融合过程以自学习的方式实现,该过程记为语义结构自适应归一化(Semantic-Structural Adaptive Normalization,SSAN)。具体地,考虑到语义和结构信息都具有空间意义,SPADE归一化(空间自适应归一化)方法被用于完成两种监督信息的有效嵌入。通过卷积操作分别从合成人脸图像的理想语义特征图和合成人脸图像的理想结构信息/>中提取SPADE方法需要的归一化参数/>和/>,其中/>和/>分别指代带有空间信息的缩放和偏置参数,下标se代表相应归一化参数提取合成人脸图像的理想自语义特征图,下标sk代表相应归一化参数提取自合成人脸图像的理想结构信息。随后定义一组自学习的特征融合权重/>,/>表示/>的自学习融合权重,/>表示/>的自学习融合权重。以自适应的方式对语义和结构信息加权,加权后的归一化参数的计算公式如下:
;
其中,加权后的归一化参数被用于SPADE模块以调制目标人脸图像的特征图,通过自适应有效嵌入局部语义细节和结构信息来提升换脸图像的高保真度,/>表示加权后的有空间信息的缩放参数,/>表示加权后的有空间信息的偏置参数;目标人脸图像的特征图通过图2中自适应特征融合模块左侧的编码器提取得到。此外,源人脸图像的全局身份表征/>通过AdaIN(风格迁移算法)层嵌入到目标人脸图像的特征图,实现全局身份迁移。最后,通过以上两部分处理后的目标人脸图像的特征图在通道维拼接,实现全局身份、局部语义以及头部结构三种信息流的融合。
上述是以第一组自适应融合过程中的第一次自适应融合为例进行的介绍,在之后的自适应融合过程中,将调制对象与源人脸图像的全局身份表征嵌入对象由目标人脸图像的特征图改为上一次自适应融合过程输出的人脸图像的特征图即可,如图3所示,最后一次自适应融合过程输出的人脸图像的特征图与目标人脸图像的特征图相加后作为第一组输出的自适应融合人脸图像的特征图。图3中的Conv表示卷积层,IN(InstanceNormalization)表示实例正则化,ReLU表示修正线性单元,表示拼接,/>表示相加。
三、网络阶段。
全局身份信息建模模块、人脸局部语义增强模块和头部结构建模模块涉及到的特征提取器均采用预训练的参数进行初始化,不参与训练。自适应特征融合模块、其左右两端编解码器以及鉴别器需要同时进行训练。训练阶段总损失函数为:
;
其中,L为总损失函数,为生成对抗网络的对抗损失函数,/>为身份损失函数,/>为属性损失函数,/>为重构损失函数,/>、/>与/>均为超参数,示例性的,可以设定/>。
1、生成对抗网络的对抗损失函数。
生成对抗网络的对抗损失函数为基本的损失函数,利用多个工作在不同分辨率的鉴别器可以提升合成人脸的全局真实性,生成对抗网络的对抗损失函数写为:
;
其中,M为鉴别器的数目,示例性的,可以设置M=2;为期望符号;/>表示合成人脸图像生成器G利用源人脸图像/>与目标人脸图像/>获得的合成人脸图像/>的过程,表示第i个鉴别器/>对输入的合成人脸图像的鉴别结果,/>表示第i个鉴别器/>对输入的目标人脸图像/>与合成人脸图像的鉴别结果。
2、身份损失函数。
本发明实施例中,对换脸结果的身份一致性限制,身份损失函数可以写为:
;
其中,和/>分别为合成人脸图像/>和源人脸图像/>的全局身份表征,可通过全局身份信息建模模块获得。
3、属性损失函数。
本发明实施例中,通过鉴别器分别提取目标人脸图像与合成人脸图像的属性特征图,对属性进行一致性限制,属性损失函数可以写为:
;
其中,j的取值范围为[t,T]对应于鉴别器D的第t层至第T层,表示鉴别器D的第j层特征图对应的元素总数;/>表示第i个鉴别器/>对于合成人脸图像/>提取的第j层特征图;同理,/>表示第i个鉴别器/>对于目标人脸图像/>提取的第j层特征图。
4、重构损失函数。
重构损失被用于同身份的人脸图像对以增强合成人脸的真实性,重构损失函数可以写为:
;
其中,为范数符号,/>为同身份图像对标识符,图像对身份相同时值为1,否则为0。
本发明实施例中,同身份人脸图像对仅在模型训练阶段引入,在训练阶段,引入同身份的人脸图像对进行换脸可以增强本发明对于身份和属性信息的解耦能力,能有更好的合成效果。
四、网络推断阶段。
网络推断阶段中,直接执行前述步骤1~步骤4,即利用输入的源人脸图像图像与目标人脸图像,在人脸局部语义和结构信息的监督下,将源人脸图像的身份有效迁移至目标人脸,最终输出具有源人脸图像身份和目标人脸图像属性的高保真换脸结果(合成人脸图像)。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例二
本发明还提供一种高保真换脸***,其主要用于实现前述实施例提供的方法,如图4所示,该***主要包括:由全局身份信息建模模块、人脸局部语义增强模块、头部结构建模模块与自适应特征融合模块组成的合成人脸图像生成器;其中:
全局身份信息建模模块,用于从源人脸图像中提取源人脸图像的全局身份表征;
人脸局部语义增强模块,用于对于源人脸图像与目标人脸图像,各自进行人脸语义解析后进行特征提取,获得两部分局域语义特征,结合解析目标人脸图像获得的解析图与两部分局域语义特征通过空间语义广播技术生成合成人脸图像的理想语义特征图;
头部结构建模模块,用于对于源人脸图像与目标人脸图像,各自提取出相应的结构表征,获得两部分结构表征语义特征,结合两部分结构表征生成合成人脸图像的理想结构信息;
自适应特征融合模块,用于利用源人脸图像的全局身份表征、合成人脸图像的理想语义特征图与合成人脸图像的理想结构信息,通过自适应融合的方式并经过解码后获得合成人脸图像。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将***的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例三
本发明还提供一种处理设备,如图5所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (7)
1.一种高保真换脸方法,其特征在于,包括:
步骤1、从源人脸图像中提取源人脸图像的全局身份表征;
步骤2、对于源人脸图像与目标人脸图像,各自进行人脸语义解析后进行特征提取,获得两部分局域语义特征,结合解析目标人脸图像获得的解析图与两部分局域语义特征通过空间语义广播技术生成合成人脸图像的理想语义特征图;
步骤3、对于源人脸图像与目标人脸图像,各自提取出相应的结构表征,获得两部分结构表征语义特征,结合两部分结构表征生成合成人脸图像的理想结构信息;
步骤4、利用源人脸图像的全局身份表征、合成人脸图像的理想语义特征图与合成人脸图像的理想结构信息,通过自适应融合的方式并经过解码后获得合成人脸图像;
所述对于源人脸图像与目标人脸图像,各自进行人脸语义解析后进行特征提取,获得两部分局域语义特征,结合解析目标人脸图像获得的解析图与两部分局域语义特征通过空间语义广播技术生成合成人脸图像的理想语义特征图包括:
通过人脸解析网络分别对源人脸图像与目标人脸图像进行解析,获得两个解析图;
将每一解析图分别划分为多个语义区域,并分别进行特征提取,获得两部分局域语义特征;
对两部分局域语义特征分别单独进行归一化,获得两部分局部语义特征向量组;
从源人脸图像的局部语义特征向量组中选取身份相关的局部语义特征向量,从目标人脸图像的局部语义特征向量组中选取属性相关的局部语义特征向量,并按照设定顺序重组为合成人脸图像的理想人脸语义表征;
结合目标人脸图像的解析图与合成人脸图像的理想人脸语义表征通过空间语义广播技术生成合成人脸图像的理想语义特征图,表示为:
;
其中,表示合成人脸图像的理想语义特征图,/>表示目标人脸的解析图,/>表示合成人脸图像的理想人脸语义表征;
所述对于源人脸图像与目标人脸图像,各自提取出相应的结构表征,获得两部分结构表征语义特征,结合两部分结构表征生成合成人脸图像的理想结构信息包括:
通过结构预测器分别从源人脸图像与目标人脸图像中提取相应的结构表征;
选出源人脸图像的结构表征中身份相关的表征,以及目标人脸图像的结构表征中属性相关的表征,并重组为合成人脸图像的结构表征;
对所述合成人脸图像的结构表征进行渲染,获得合成人脸图像的理想结构信息,表示为:
;
其中,为渲染获得的合成人脸图像的理想结构信息,/>指代从三维系数重构人脸角点和面片以及抽取部分关键点形成RGB人脸轮廓表征的过程,/>为合成人脸图像的结构表征。
2.根据权利要求1所述的一种高保真换脸方法,其特征在于,所述利用源人脸图像的全局身份表征、合成人脸图像的理想语义特征图与合成人脸图像的理想结构信息,通过自适应融合的方式并经过解码后获得合成人脸图像包括:
执行多组自适应融合过程,每一组自适应融合过程内部执行若干次自适应融合,且每一组自适应融合过程内添加有跳跃连接,即将输入的特征图与最后一次自适应融合的输出相加,获得自适应融合人脸图像的特征图;第一组自适应融合过程中输入的特征图为目标人脸图像的特征图,输出自适应融合人脸图像的特征图,其中,目标人脸图像的特征图通过编码器提取;后一组自适应融合过程中输入的特征图为前一组自适应融合过程输出的自适应融合人脸图像的特征图,最后一组自适应融合过程输出的自适应融合人脸图像的特征图经过解码后获得合成人脸图像;
每一组自适应融合过程中执行的所有自适应融合的流程相同,当前组自适应融合流程如下:执行第一次自适应融合时,对于合成人脸图像的理想语义特征图与合成人脸图像的理想结构信息,采用自学习的方式计算出加权的归一化参数,利用加权的归一化参数对输入的人脸图像的特征图进行调制,获得调制后的人脸图像的特征图,其中,当前组为第一组时,输入的人脸图像的特征图为目标人脸图像的特征图,当前组不为第一组时,输入的人脸图像的特征图为前一组自适应融合过程输出的自适应融合人脸图像的特征图;将源人脸图像的全局身份表征嵌入至输入的人脸图像的特征图,再与所述调制后的人脸图像的特征图拼接,获得第一次自适应融合输出的中间特征图;之后,每一次自适应融合都采用第一次自适应融合过程中的方式执行,加权的归一化参数的调制对象与全局身份表征嵌入对象为上一次自适应融合输出的中间特征图,最后一次自适应融合输出的中间特征图与输入的人脸图像的特征图相加,作为当前组输出的自适应融合人脸图像的特征图。
3.根据权利要求2所述的一种高保真换脸方法,其特征在于,所述对于合成人脸图像的理想语义特征图与合成人脸图像的理想结构信息,采用自学习的方式计算出加权的归一化参数包括:
通过卷积操作从合成人脸图像的理想语义特征图和合成人脸图像的理想结构信息中分别提取出归一化参数,获得两部分归一化参数;
定义一组自学习的特征融合权重,并对两部分归一化参数进行加权,获得加权后的归一化参数。
4.根据权利要求1所述的一种高保真换脸方法,其特征在于,该方法还包括:
步骤1通过全局身份信息建模模块实现,步骤2通过人脸局部语义增强模块实现,步骤3通过头部结构建模模块实现,步骤4中的自适应融合过程通过自适应特征融合模块实现,将四个模块作为一个合成人脸图像生成器,并对合成人脸图像生成器进行训练;其中,自适应特征融合模块的数目为多个,且依次连接;
引入一个鉴别器与所述合成人脸图像生成器形成生成对抗网络,通过鉴别器来鉴别生成器合成人脸图像的真伪,用以计算生成对抗网络的对抗损失函数;训练阶段总损失函数包括:生成对抗网络的对抗损失函数,利用合成人脸图像的全局身份表征与源人脸图像的全局身份表征计算的身份损失函数,利用合成人脸图像的属性表征与目标人脸图像的属性表征计算的属性损失函数,以及利用合成人脸图像与目标人脸图像的身份对标识符计算的重构损失函数,身份相同时身份对标识符值为1,否则为0;其中,合成人脸图像的属性表征与目标人脸图像的属性表征为通过鉴别器分别从合成人脸图像与目标人脸图像中提取的属性特征图;
其中,所述鉴别器的数目为多个,不同鉴别器工作在不同分辨率下,利用所有鉴别器的鉴别结果计算对抗网络的对抗损失函数。
5.一种高保真换脸***,其特征在于,用于实现权利要求1~4任一项所述的方法,该***包括:由全局身份信息建模模块、人脸局部语义增强模块、头部结构建模模块与自适应特征融合模块组成的合成人脸图像生成器;其中:
全局身份信息建模模块,用于从源人脸图像中提取源人脸图像的全局身份表征;
人脸局部语义增强模块,用于对于源人脸图像与目标人脸图像,各自进行人脸语义解析后进行特征提取,获得两部分局域语义特征,结合解析目标人脸图像获得的解析图与两部分局域语义特征通过空间语义广播技术生成合成人脸图像的理想语义特征图;
头部结构建模模块,用于对于源人脸图像与目标人脸图像,各自提取出相应的结构表征,获得两部分结构表征语义特征,结合两部分结构表征生成合成人脸图像的理想结构信息;
自适应特征融合模块,用于利用源人脸图像的全局身份表征、合成人脸图像的理想语义特征图与合成人脸图像的理想结构信息,通过自适应融合的方式并经过解码后获得合成人脸图像。
6.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~4任一项所述的方法。
7.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310648162.5A CN116386122B (zh) | 2023-06-02 | 2023-06-02 | 高保真换脸方法、***、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310648162.5A CN116386122B (zh) | 2023-06-02 | 2023-06-02 | 高保真换脸方法、***、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116386122A CN116386122A (zh) | 2023-07-04 |
CN116386122B true CN116386122B (zh) | 2023-08-29 |
Family
ID=86971428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310648162.5A Active CN116386122B (zh) | 2023-06-02 | 2023-06-02 | 高保真换脸方法、***、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116386122B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182657A (zh) * | 2018-01-26 | 2018-06-19 | 深圳市唯特视科技有限公司 | 一种基于循环生成对抗网络的面部图像转换方法 |
CN109063658A (zh) * | 2018-08-08 | 2018-12-21 | 吴培希 | 一种利用深度学习在多移动终端视频人物换脸的方法 |
CN110458752A (zh) * | 2019-07-18 | 2019-11-15 | 西北工业大学 | 一种基于局部遮挡条件下的图像换脸方法 |
CN111368796A (zh) * | 2020-03-20 | 2020-07-03 | 北京达佳互联信息技术有限公司 | 人脸图像的处理方法、装置、电子设备及存储介质 |
WO2022173814A1 (en) * | 2021-02-15 | 2022-08-18 | Carnegie Mellon University | System and method for photorealistic image synthesis using unsupervised semantic feature disentanglement |
CN116152878A (zh) * | 2022-09-02 | 2023-05-23 | 马上消费金融股份有限公司 | 图像处理方法、装置、设备与存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3859681A4 (en) * | 2018-09-29 | 2021-12-15 | Zhejiang University | METHOD FOR GENERATING FACIAL ANIMATION FROM AN INDIVIDUAL IMAGE |
-
2023
- 2023-06-02 CN CN202310648162.5A patent/CN116386122B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182657A (zh) * | 2018-01-26 | 2018-06-19 | 深圳市唯特视科技有限公司 | 一种基于循环生成对抗网络的面部图像转换方法 |
CN109063658A (zh) * | 2018-08-08 | 2018-12-21 | 吴培希 | 一种利用深度学习在多移动终端视频人物换脸的方法 |
CN110458752A (zh) * | 2019-07-18 | 2019-11-15 | 西北工业大学 | 一种基于局部遮挡条件下的图像换脸方法 |
CN111368796A (zh) * | 2020-03-20 | 2020-07-03 | 北京达佳互联信息技术有限公司 | 人脸图像的处理方法、装置、电子设备及存储介质 |
WO2022173814A1 (en) * | 2021-02-15 | 2022-08-18 | Carnegie Mellon University | System and method for photorealistic image synthesis using unsupervised semantic feature disentanglement |
CN116152878A (zh) * | 2022-09-02 | 2023-05-23 | 马上消费金融股份有限公司 | 图像处理方法、装置、设备与存储介质 |
Non-Patent Citations (1)
Title |
---|
融合局部语义与全局信息的人脸表情识别;潘海鹏;《光光 电 子 · 激 光》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116386122A (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376582B (zh) | 一种基于生成对抗网络的交互式人脸卡通方法 | |
Quan et al. | Image inpainting with local and global refinement | |
CN111696028A (zh) | 真实场景图像卡通化的处理方法、装置、计算机设备和存储介质 | |
Tolosana et al. | DeepFakes detection across generations: Analysis of facial regions, fusion, and performance evaluation | |
Li et al. | Micro-expression action unit detection with spatial and channel attention | |
Singh et al. | Neural style transfer: A critical review | |
CN110008846B (zh) | 一种图像处理方法 | |
Afzal et al. | Visualization and visual analytics approaches for image and video datasets: A survey | |
CN110796593A (zh) | 基于人工智能的图像处理方法、装置、介质及电子设备 | |
CN113362422B (zh) | 一种阴影鲁棒的基于解耦表示的妆容迁移***及方法 | |
Chen et al. | Attentive semantic exploring for manipulated face detection | |
CN111489405B (zh) | 基于条件增强生成对抗网络的人脸草图合成*** | |
WO2024109374A1 (zh) | 换脸模型的训练方法、装置、设备、存储介质和程序产品 | |
CN115187706B (zh) | 一种人脸风格迁移的轻量化方法、***、存储介质和电子设备 | |
Gao et al. | DCDR-GAN: A densely connected disentangled representation generative adversarial network for infrared and visible image fusion | |
Yu et al. | Augmented multi-scale spatiotemporal inconsistency magnifier for generalized deepfake detection | |
CN110415261B (zh) | 一种分区域训练的表情动画转换方法及*** | |
CN116229531A (zh) | 一种协作渐进生成对抗网络的人脸正面图像合成方法 | |
Yang et al. | A multi-domain and multi-modal representation disentangler for cross-domain image manipulation and classification | |
CN113947520A (zh) | 一种基于生成对抗网络实现人脸妆容转换的方法 | |
Chen et al. | Facial attribute editing using semantic segmentation | |
CN113762022A (zh) | 人脸图像的融合方法和装置 | |
CN116386122B (zh) | 高保真换脸方法、***、设备及存储介质 | |
Li et al. | Facial image attributes transformation via conditional recycle generative adversarial networks | |
CN116152926A (zh) | 基于视觉和骨架信息融合的手语识别方法、装置及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |