CN115424310A - 一种面向人脸重演中表情分离任务的弱标注学习方法 - Google Patents
一种面向人脸重演中表情分离任务的弱标注学习方法 Download PDFInfo
- Publication number
- CN115424310A CN115424310A CN202210853247.2A CN202210853247A CN115424310A CN 115424310 A CN115424310 A CN 115424310A CN 202210853247 A CN202210853247 A CN 202210853247A CN 115424310 A CN115424310 A CN 115424310A
- Authority
- CN
- China
- Prior art keywords
- face
- image
- identity
- training
- discriminator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000014509 gene expression Effects 0.000 title claims abstract description 37
- 238000000926 separation method Methods 0.000 title claims abstract description 23
- 230000001815 facial effect Effects 0.000 claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 52
- 230000033001 locomotion Effects 0.000 claims abstract description 51
- 230000006870 function Effects 0.000 claims description 21
- 238000005070 sampling Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 8
- 239000000126 substance Substances 0.000 claims description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 235000009508 confectionery Nutrition 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 abstract description 4
- 238000010276 construction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种面向人脸重演中表情分离任务的弱标注学习方法,本发明设计了一个人脸重演框架,包含一个面部网络,一个身份编码器,一个运动特征提取器,一个AdaAttN模块和两个判别器(图像质量判别器和身份判别器)。其中,面部网络和身份编码器需要通过预训练分别实现编码给定图像的面部信息和身份信息。此外,本发明使用多尺度的驱动图像的面部信息特征减去身份信息特征得到对应尺度的驱动图像的面部运动特征,并迁移图像翻译任务中的AdaAttN模块,以融合驱动图像的多尺度面部运动特征,并将其作为弱标注指导重演图像的生成。本发明能够在无需附加面部信息标注(如面部标志点、轮廓线等)的同时,解决运动特征的解耦问题,实现高质量的人脸重演。
Description
技术领域
本发明属于图像处理技术领域,涉及一种面向人脸重演中表情分离任务的弱标注学习方法,能够在无需附加面部信息标注的同时,实现高质量的人脸重演。
背景技术
人脸重演,旨在通过驱动人脸的运动(姿势和表情)来制作源人脸视频。对于生成的视频,我们需要保存源人脸的面部身份特征并执行驱动人脸的运动(姿势和表情)。因其巨大的应用价值(如面部动画、人机交互等)与潜在的安全隐患(如通过恶意篡改国家政要、明星等公众人物的视频来散播虚假内容、侵蚀社会信任度),人脸重演逐渐成为计算机视觉领域一个引人注目的研究课题。
目前,基于深度学习的人脸重演技术大致分为两类。一类是基于直接扭曲的方法将驱动图像到源图像的运动(姿势和表情)以域转换的方式进行直接扭曲,另一类是利用面部附加信息来指导合成的图像学习驱动图像的面部动作(姿势和表情)。就合成的真实性而言,在现阶段的方法中,利用面部附加信息来进行人脸重演的技术占据主导地位。
应用于人脸重演的附加面部信息大致分为三类:第一类使用面部标志点或轮廓线;第二类是学习面部的像素运动;第三类是提取面部的身份、表情、姿态的参数。面部标志点或轮廓线可以保存人脸的结构信息,同时也存在一些缺点:许多面部标志点注释缺乏一些重要信息(比如瞳孔)且面部标志点是特定于个人的,包含身份信息,常出现身份泄露的问题。因此,这种方法一般不能被直接用于生成重演的面部图像输出,需要设计额外的网络对其进行处理。学习面部的像素运动一般是学习人脸的光流(Optical Flow)或位移场(Displacement Field)。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧与当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。位移场是学习源图像像素(u,v)的流向量(δu,δv),即变换后原像素(u,v)将被移动到重演图像中的位置(u+δu,v+δv)。而对于第三类方法,现有方法在对面部特征解耦时通常使用编码器分别提取身份特征和表情特征,但是人脸重演所需转移的表情与姿态(后面统称为运动)是多元且复杂的,很难通过一个或多个属性定义,因此运动特征的提取效果一般抽象且难以衡量。
综上所述,如何有效的提取人脸图像中的运动特征,同时尽可能去除这些信息中所含有的身份信息,是提升人脸重演技术效果的关键。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种面向人脸重演中表情分离任务的弱标注学习方法。概括来说,本发明设计了一个人脸重演框架,包含一个面部网络(包括面部编码器和面部解码器),一个身份编码器,一个运动特征提取器,一个AdaAttN模块和两个判别器(图像质量判别器和身份判别器)。其中,面部网络和身份编码器需要通过预训练分别实现编码给定图像的面部信息和身份信息。此外,本发明使用多尺度的驱动图像的面部信息特征减去身份信息特征得到对应尺度的驱动图像的面部运动特征,并迁移图像翻译任务中的AdaAttN模块,以融合驱动图像的多尺度面部运动特征,并将其作为弱标注指导重演图像的生成。本发明能够在无需附加面部信息标注(如面部标志点、轮廓线等)的同时,解决运动特征的解耦问题,实现高质量的人脸重演。
技术方案
一种面向人脸重演中表情分离任务的弱标注学习方法,其特征在于步骤如下:
步骤1、构建并训练面部重构网络:由一个面部编码器和一个面部解码器串联而成,其中:面部编码器的网络结构由4个下采样模块和4个残差块串接为以Eface,面部解码器由4个上采样模块连接构成为Dface;
训练方式如下:将任意一张图片I输入面部编码器得到编码的面部特征,再将面部特征输入面部解码器得到I的重构图片Irec,对I和Irec做L1度量,并以此作为损失函数对面部网络进行训练;
使用一个多尺度的PatchGAN判别器D1与面部重构网络进行对抗训练,用于评定生成图像的真实性,网络结构如下:首先连接2个下采样模块,然后分三个分支,第一个分支继续连接一个全局自适应最大池化层和一个全连接层为输出一个标量,第二个分支连接两个下采样模块和一个用于调整通道数的卷积模块为输出尺度为1×30×30,第三个分支连接4个下采样模块和一个用于调整通道数的卷积模块为输出尺度为1×6×6;训练判别器D1时,分别输入生成图像和真实图像,对得到的三个尺度的输出特征分别计算损失后相加,优化函数如下:
训练面部重构网络的总损失函数为:
其中,||·||1表示L1距离;
步骤2、构建并训练身份编码器:由4个下采样模块和4个残差块连接组成为Eid,具有双生网络结构;
对身份匹配器Eid进行训练:将一组图像I1和I2分别输入身份编码器,得到对应的身份编码向量z1和z2,计算z1和z2之间的L2距离;当I1和I2来自同一个身份时,它们之间距离越小越好;当I1和I2来自不同身份时,它们之间距离越大越好;
训练身份编码器的损失函数为:
其中,||·||2表示L2距离;max{·,·}2表示取两者较大值的平方;N表示批处理大小;Y为两个样本是否匹配的标签,Y=0表示I1和I2来自不同身份,Y=1表示I1和I2来自同一个身份;m=1为设定的阈值;
步骤3、构建面向人脸重演中表情分离任务的弱标注学习框架:包括步骤1中的面部重构网络,一个身份编码器,一个运动特征提取器和一个AdaAttN模块;
所述运动特征提取器由四个下采样模块串联组成;
所述AdaAttN模块是一个注意力模块,用于融合源图像的身份信息与驱动图像的面部运动特征;
步骤4、训练面向人脸重演中表情分离任务的弱标注学习框架:训练过程中需要训练额外两个判别器,分别为图像质量判别器为D2和身份判别器为D3;
所述图像质量判别器使用与步骤1的判别器D1具有相同架构的多尺度判别器,用于评定生成图像的真实性;
所述身份判别器采用双生的ResNeXt50结构,用于判断输入的真实人脸和生成人脸是否具有相同的身份;
在训练整体网络时,对步骤1和步骤2预训练好的面部网络和身份编码器进行微调;采用自监督的训练方式,即在训练阶段,驱动图像和源图像是来自同一个视频的不同帧,驱动图像作为重演图像的真值;以生成对抗网络经典的交替训练的方式端到端地训练整个网络;
训练图像质量判别器D2,分别输入生成图像和源图像,对得到的三个尺度的输出特征分别计算损失后相加得到最终损失,优化函数如下:
其中,i表示判别器D2的第i个分支;
对于身份判别器D3,其训练的优化函数如下:
其中,m=1为设定的阈值,Iss表示与源图像Is具有相同身份的图片;
总体损失函数为:
步骤5、完成人脸重演:对于任意一张驱动图像和源图像,使用步骤4训练好的面向人脸重演中表情分离任务的弱标注学习框架生成重演图片,由此,即完成人脸重演任务。
所述面向人脸重演中表情分离任务的弱标注学习框架以数据流动方式的形式阐述,串行步骤所示:
步骤c:将驱动图像的面部特征Fd和身份特征Dd输入运动特征提取器,相同尺度的面部特征减去身份特征得到对应尺度的运动特征,再经过一个3×3的卷积层下采样后与深层特征沿着通道维度拼接,最终得到不同尺度的运动特征其中, 表达式如下所示:
有益效果
本发明提出的一种面向人脸重演中表情分离任务的弱标注学习方法,本发明设计了一个人脸重演框架,包含一个面部网络(包括面部编码器和面部解码器),一个身份编码器,一个运动特征提取器,一个AdaAttN模块和两个判别器(图像质量判别器和身份判别器)。其中,面部网络和身份编码器需要通过预训练分别实现编码给定图像的面部信息和身份信息。此外,本发明使用多尺度的驱动图像的面部信息特征减去身份信息特征得到对应尺度的驱动图像的面部运动特征,并迁移图像翻译任务中的AdaAttN模块,以融合驱动图像的多尺度面部运动特征,并将其作为弱标注指导重演图像的生成。本发明能够在无需附加面部信息标注(如面部标志点、轮廓线等)的同时,解决运动特征的解耦问题,实现高质量的人脸重演。
附图说明
图1是本发明面向人脸重演中表情分离任务的弱标注学习算法的训练流程示意图;
图2是本发明方法中面部编码器结构示意图;
图3是本发明方法中面部解码器结构示意图;
图4是采用本发明方法进行人脸重演的结果图像;
图中,第一行表示驱动图像序列,展示了从驱动视频中挑选的不同姿态的具有代表性的帧;第一列表示驱动图像;第二行从第二张图片开始表示重演图像序列。
具体实施方式
现结合实施例、附图对本发明作进一步描述:
本实施例运行环境:10卡思腾合力GPU服务器(CPU为Intel Xeon E5-2698,GPU为12G的RTX 2080Ti),服务器的操作***为Ubuntu 16.04.5 LTS,实验代码基于Pytorch深度学习框架开发。实验中训练时使用300VW数据集,它包含114个视频及对应每个视频帧中人脸面部标志点的文件。
本发明的具体实施过程如下:
1、面部网络的构建、预训练
面部重构网络由一个面部编码器和一个面部解码器串联而成。其中,面部编码器的网络结构由4个下采样模块和4个残差块串接组成(以Eface表示),面部解码器由4个上采样模块连接构成(以Dface表示)。具体的训练方式如下:将任意一张图片I输入面部编码器,得到编码的面部特征,再将面部特征输入面部解码器得到I的重构图片Irec,对I和Irec做L1度量,并以此作为损失函数对面部网络进行训练。
此外,使用一个判别器(以D1表示)与面部重构网络进行对抗训练,D1采用多尺度的PatchGAN判别器结构,用于评定生成图像的真实性。网络结构如下:首先连接2个下采样模块,然后分三个分支,第一个分支继续连接一个全局自适应最大池化层和一个全连接层(输出一个标量),第二个分支连接两个下采样模块和一个用于调整通道数的卷积模块(输出尺度为1×30×30),第三个分支连接4个下采样模块和一个用于调整通道数的卷积模块(输出尺度为1×6×6)。训练判别器D1时,分别输入生成图像和真实图像,对得到的三个尺度的输出特征分别计算损失后相加得到最终损失,优化函数如下:
其中,i表示判别器D1的第i个分支,表示对其输入求数学期望,log(·)表示对其输入求以10为底的对数。PatchGAN的判别器网络见文献“Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei A Efros.Image-to-image translation with conditionaladversarial networks.In Proceedings of the IEEE International Conference onComputer Vision,pages 1125–1134,2017.”。
训练面部重构网络的总损失函数为:
其中,||·||1表示L1距离。
2、身份编码器的构建、预训练
身份编码器由4个下采样模块和4个残差块连接组成(以Eid表示),具有双生网络结构。采用以下方式对身份匹配器Eid进行训练:将一组图像I1和I2分别输入身份编码器,得到对应的身份编码向量z1和z2,计算z1和z2之间的L2距离。当I1和I2来自同一个身份时,它们之间距离越小越好;当I1和I2来自不同身份时,它们之间距离越大越好。总体来说,训练身份编码器的损失函数为:
其中,||·||2表示L2距离;max{·,·}2表示取两者较大值的平方;N表示批处理大小;Y为两个样本是否匹配的标签,Y=0表示I1和I2来自不同身份,Y=1表示I1和I2来自同一个身份;m=1为设定的阈值。
3、面向人脸重演中表情分离任务的弱标注学习框架的构建、训练
面向人脸重演中表情分离任务的弱标注学习框架包括步骤1中的面部重构网络,一个身份编码器,一个运动特征提取器和一个AdaAttN模块。其中,运动特征提取器由四个下采样模块串联组成;AdaAttN模块是一个注意力模块,用于融合源图像的身份信息与驱动图像的面部运动特征。
整个网络的具体处理过程如下:
(1)将驱动图像Id输入面部编码器的四个下采样块得到编码的面部特征(尺度为64×256×256),(尺度为128×128×128),(尺度为256×64×64),(尺度为512×32×32);再将驱动图像Id输入身份编码器的四个下采样块得到编码的身份特征(尺度为64×256×256),(尺度为128×128×128),(尺度为256×64×64),(尺度为512×32×32);
(3)将驱动图像的面部特征Fd和身份特征Dd输入运动特征提取器,相同尺度的面部特征减去身份特征得到对应尺度的运动特征,再经过一个3×3的卷积层下采样后与深层特征沿着通道维度拼接,最终得到不同尺度的运动特征其中, 表达式如下所示:
(4)将源图像的身份特征Dd视为风格特征,驱动图像的运动特征视为内容特征,用AdaAttN进行融合得到源图像的运动热图Hs;AdaAttN的具体操作见文献“Songhua Liu,Tianwei Lin,Dongliang He,Fu Li and Meiling Wang.Adaattn:Revisit attentionmechanism in arbitrary neural style transfer.In Proceedings of the IEEE/CVFInternational Conference on Computer Vision.2021.”。
在训练整体网络时,需要训练额外两个判别器,分别为图像质量判别器(以D2表示)和身份判别器(以D3表示)。图像质量判别器使用与步骤1的判别器D1具有相同架构的多尺度判别器,用于评定生成图像的真实性。身份判别器采用双生的ResNeXt50网络,用于判断输入的真实人脸和生成人脸是否具有相同的身份。在训练整体网络时,对步骤1和步骤2预训练好的面部网络和身份编码器进行微调。采用自监督的训练方式,即在训练阶段,驱动图像和源图像是来自同一个视频的不同帧,驱动图像可作为重演图像的真值。以生成对抗网络经典的交替训练的方式端到端地训练整个网络。
训练图像质量判别器D2,分别输入生成图像和源图像,对得到的三个尺度的输出特征分别计算损失后相加得到最终损失,优化函数如下:
其中,i表示判别器D2的第i个分支。
对于身份判别器D3,其训练的优化函数如下:
其中,m=1为设定的阈值,Iss表示与源图像Is具有相同身份的图片;
算法总体损失函数为:
4、完成人脸重演
对于任意一张驱动图像和源图像,使用步骤3训练好的面向人脸重演中表情分离任务的弱标注学习框架生成重演图片。由此,即可完成人脸重演任务。
采用本发明方法进行人脸重演的结果见图3。
选用结构相似性(Structural Similarity,以下简称SSIM)对本发明方法的有效性进定量评估。结构相似性衡量两幅重演前后视频图像帧之间的感知差异。它能够描述结构信息的变化。给定两幅图像x和y,其结构相似性为
其中,μx是x的平均值,μy是y的平均值,是y的方差,σxy是x和y的方差,c1=(k1L)2和c2=(k2L)2是用来维持稳定的常数,L是像素值的动态范围,k1=0.01,k2=0.03。SSIM的取值范围在0到1,分数越高生成的图片质量越好。
将本发明方法与其他基于附加面部信息的人脸重演算法进行了对比,结果如表1所示。可以看出本发明能够获得较高的结构相似性。
表1
方法 | SSIM |
Few-shot | 0.5236 |
Monkey-Net | 0.5587 |
本发明方法 | 0.5723 |
Claims (4)
1.一种面向人脸重演中表情分离任务的弱标注学习方法,其特征在于步骤如下:
步骤1、构建并训练面部重构网络:由一个面部编码器和一个面部解码器串联而成,其中:面部编码器的网络结构由4个下采样模块和4个残差块串接为以Eface,面部解码器由4个上采样模块连接构成为Dface;
训练方式如下:将任意一张图片I输入面部编码器得到编码的面部特征,再将面部特征输入面部解码器得到I的重构图片Irec,对I和Irec做L1度量,并以此作为损失函数对面部网络进行训练;
使用一个多尺度的PatchGAN判别器D1与面部重构网络进行对抗训练,用于评定生成图像的真实性,网络结构如下:首先连接2个下采样模块,然后分三个分支,第一个分支继续连接一个全局自适应最大池化层和一个全连接层为输出一个标量,第二个分支连接两个下采样模块和一个用于调整通道数的卷积模块为输出尺度为1×30×30,第三个分支连接4个下采样模块和一个用于调整通道数的卷积模块为输出尺度为1×6×6;训练判别器D1时,分别输入生成图像和真实图像,对得到的三个尺度的输出特征分别计算损失后相加,优化函数如下:
训练面部重构网络的总损失函数为:
其中,||·||1表示L1距离;
步骤2、构建并训练身份编码器:由4个下采样模块和4个残差块连接组成为Eid,具有双生网络结构;
对身份匹配器Eid进行训练:将一组图像I1和I2分别输入身份编码器,得到对应的身份编码向量z1和z2,计算z1和z2之间的L2距离;当I1和I2来自同一个身份时,它们之间距离越小越好;当I1和I2来自不同身份时,它们之间距离越大越好;
训练身份编码器的损失函数为:
其中,||·||2表示L2距离;max{·,·}2表示取两者较大值的平方;N表示批处理大小;Y为两个样本是否匹配的标签,Y=0表示I1和I2来自不同身份,Y=1表示I1和I2来自同一个身份;m=1为设定的阈值;
步骤3、构建面向人脸重演中表情分离任务的弱标注学习框架:包括步骤1中的面部重构网络,一个身份编码器,一个运动特征提取器和一个AdaAttN模块;
所述运动特征提取器由四个下采样模块串联组成;
所述AdaAttN模块是一个注意力模块,用于融合源图像的身份信息与驱动图像的面部运动特征;
步骤4、训练面向人脸重演中表情分离任务的弱标注学习框架:训练过程中需要训练额外两个判别器,分别为图像质量判别器为D2和身份判别器为D3;
所述图像质量判别器使用与步骤1的判别器D1具有相同架构的多尺度判别器,用于评定生成图像的真实性;
所述身份判别器采用双生的ResNeXt50结构,用于判断输入的真实人脸和生成人脸是否具有相同的身份;
在训练整体网络时,对步骤1和步骤2预训练好的面部网络和身份编码器进行微调;采用自监督的训练方式,即在训练阶段,驱动图像和源图像是来自同一个视频的不同帧,驱动图像作为重演图像的真值;以生成对抗网络经典的交替训练的方式端到端地训练整个网络;
训练图像质量判别器D2,分别输入生成图像和源图像,对得到的三个尺度的输出特征分别计算损失后相加得到最终损失,优化函数如下:
其中,i表示判别器D2的第i个分支;
对于身份判别器D3,其训练的优化函数如下:
其中,m=1为设定的阈值,Iss表示与源图像Is具有相同身份的图片;
总体损失函数为:
步骤5、完成人脸重演:对于任意一张驱动图像和源图像,使用步骤4训练好的面向人脸重演中表情分离任务的弱标注学习框架生成重演图片,由此,即完成人脸重演任务。
2.根据权利要求1所述面向人脸重演中表情分离任务的弱标注学习方法,其特征在于:所述面向人脸重演中表情分离任务的弱标注学习框架以数据流动方式的形式阐述,串行步骤所示:
步骤c:将驱动图像的面部特征Fd和身份特征Dd输入运动特征提取器,相同尺度的面部特征减去身份特征得到对应尺度的运动特征,再经过一个3×3的卷积层下采样后与深层特征沿着通道维度拼接,最终得到不同尺度的运动特征其中, 表达式如下所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210853247.2A CN115424310A (zh) | 2022-07-08 | 2022-07-08 | 一种面向人脸重演中表情分离任务的弱标注学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210853247.2A CN115424310A (zh) | 2022-07-08 | 2022-07-08 | 一种面向人脸重演中表情分离任务的弱标注学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115424310A true CN115424310A (zh) | 2022-12-02 |
Family
ID=84196316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210853247.2A Pending CN115424310A (zh) | 2022-07-08 | 2022-07-08 | 一种面向人脸重演中表情分离任务的弱标注学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115424310A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311477A (zh) * | 2023-05-15 | 2023-06-23 | 华中科技大学 | 一种面向跨身份一致性的面部运动单元检测模型构建方法 |
CN117975543A (zh) * | 2024-04-01 | 2024-05-03 | 武汉烽火信息集成技术有限公司 | 一种基于光流表情的区块链零知识身份认证凭证交互方法 |
-
2022
- 2022-07-08 CN CN202210853247.2A patent/CN115424310A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311477A (zh) * | 2023-05-15 | 2023-06-23 | 华中科技大学 | 一种面向跨身份一致性的面部运动单元检测模型构建方法 |
CN116311477B (zh) * | 2023-05-15 | 2023-08-01 | 华中科技大学 | 一种面向跨身份一致性的面部运动单元检测模型构建方法 |
CN117975543A (zh) * | 2024-04-01 | 2024-05-03 | 武汉烽火信息集成技术有限公司 | 一种基于光流表情的区块链零知识身份认证凭证交互方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | The face image super-resolution algorithm based on combined representation learning | |
CN113642604A (zh) | 一种基于云边协同的音视频辅助触觉信号重建方法 | |
CN115953582B (zh) | 一种图像语义分割方法及*** | |
CN113112416B (zh) | 一种语义引导的人脸图像修复方法 | |
CN113392822B (zh) | 基于特征分离表征学习的面部运动单元检测方法及*** | |
CN116385827A (zh) | 参数化人脸重建模型训练方法及关键点标签数据生成方法 | |
CN112149603A (zh) | 一种基于跨模态数据增广的连续手语识别方法 | |
CN116524307A (zh) | 一种基于扩散模型的自监督预训练方法 | |
CN114612902A (zh) | 图像语义分割方法、装置、设备、存储介质及程序产品 | |
JPH09502586A (ja) | データ分析方法及び装置 | |
CN115424310A (zh) | 一种面向人脸重演中表情分离任务的弱标注学习方法 | |
Zeng et al. | Expression-tailored talking face generation with adaptive cross-modal weighting | |
Shirai et al. | Privacy-preserving annotation of face images through attribute-preserving face synthesis | |
CN116523985B (zh) | 一种结构和纹理特征引导的双编码器图像修复方法 | |
Liu et al. | Video decolorization based on the CNN and LSTM neural network | |
CN114283181B (zh) | 一种基于样例的动态纹理迁移方法及*** | |
CN116127350A (zh) | 一种基于Transformer网络的学习专注度监测方法 | |
CN113781376B (zh) | 一种基于分治融合的高清人脸属性编辑方法 | |
Gowda et al. | From pixels to portraits: A comprehensive survey of talking head generation techniques and applications | |
Li et al. | Can we generate real faces from rPPG signals? Probably not | |
CN116704588B (zh) | 面部图像的替换方法、装置、设备及存储介质 | |
CN116843806B (zh) | 人脸动画合成方法、***和存储介质 | |
CN117974693B (zh) | 图像分割方法、装置、计算机设备和存储介质 | |
Kebir et al. | End-to-end deep auto-encoder for segmenting a moving object with limited training data | |
Fu et al. | Surface Defect Detection Based on ResNet Classification Network with GAN Optimized |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |