CN111243066B - 一种基于自监督学习与生成对抗机制的人脸表情迁移方法 - Google Patents

一种基于自监督学习与生成对抗机制的人脸表情迁移方法 Download PDF

Info

Publication number
CN111243066B
CN111243066B CN202010020215.5A CN202010020215A CN111243066B CN 111243066 B CN111243066 B CN 111243066B CN 202010020215 A CN202010020215 A CN 202010020215A CN 111243066 B CN111243066 B CN 111243066B
Authority
CN
China
Prior art keywords
image
self
identity
face
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010020215.5A
Other languages
English (en)
Other versions
CN111243066A (zh
Inventor
刘勇
潘雨粟
曾仙芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010020215.5A priority Critical patent/CN111243066B/zh
Publication of CN111243066A publication Critical patent/CN111243066A/zh
Application granted granted Critical
Publication of CN111243066B publication Critical patent/CN111243066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种基于自监督学习与生成对抗机制的人脸表情迁移方法,包括:人脸身份与姿态自监督解耦网络设计步骤、生成对抗网络条件生成网络设计步骤、模型训练步骤以及整体框架预测步骤;人脸身份与姿态自监督解耦训练步骤使用一个多帧的形变自编码器来融合来自同一个视频序列的不同帧的人脸信息,并估计出能够代表身份的人脸图像,该图像通常趋向于正面人脸,与姿态无关且保持身份信息;将自监督学习与生成对抗机制应用到人脸表情与姿态迁移任务中,通过自监督方法解耦视频帧序列中的人脸身份与姿态信息,而无需使用有标注的数据集;同时使用生成对抗网络融合来自不同个体的身份与姿态信息并合成高质量人脸,实现人脸表情与姿态在个体间的迁移。

Description

一种基于自监督学习与生成对抗机制的人脸表情迁移方法
技术领域
本发明涉及深度学习应用技术领域,具体涉及一种基于自监督学习与生成对抗机制的人脸表情迁移方法。
背景技术
随着深度学习与图像处理领域技术的快速发展,人脸表情合成与迁移应用于诸多领域,例如电影制作、游戏制作、虚拟现实、人脸识别等。目前,人脸表情迁移方法主要采用经典的基于模型的参数化建模方法,或者是端到端的数据驱动的生成方法。
现有技术中,前者局限于预先定义的模型及其参数,难以完全表示头部姿态与面部表情;后者一般需要大量而且精细的人脸关键点标注,时间与人工成本昂贵。对于人脸表情迁移领域,其最关键的问题是如何从二维的图像中提取并解耦出人脸的身份与姿态信息,同时将来自不同个体的信息进行融合并再生成高质量的人脸图像。针对这种问题,目前亟待针对这一问题,设计相应而且合理的深度学习网络框架与训练方式,并充分利用大规模的无标注数据集进行训练,进而使网络生成人眼难以辨别的表情迁移图像。
发明内容
本发明针对现有技术中需要大量标注且生成图像质量不佳的技术问题,提供一种基于自监督学习与生成对抗机制的人脸表情迁移方法,旨在通过自监督方法解耦视频帧序列中的人脸身份与姿态,无需使用有标注的数据集,同时使用生成对抗机制实现高质量人脸的合成,实现人脸表情与姿态从一个个体到另一个个体的迁移。
本发明的目的通过采取如下技术方案达到:
本发明提供一种基于自监督学习与生成对抗机制的人脸表情迁移方法,在只有演说者人脸视频数据的前提下,能够学习到使用目标视频内的表情与姿态来驱动源图像中的人脸;该生成方法包括:人脸身份与姿态自监督解耦网络设计步骤、生成对抗网络条件生成网络设计步骤、模型训练步骤以及整体框架预测步骤;人脸身份与姿态自监督解耦训练步骤使用一个多帧的形变自编码器来融合来自同一个视频序列的不同帧的人脸信息,并估计出能够代表身份的人脸图像,该图像通常趋向于正面人脸,与姿态无关且保持身份信息;同时使用一个多尺度的自编码器来捕捉同一视频序列中的每一帧的全局形变信息,通过重建图像来学习每一帧的姿态信息;生成对抗网络条件生成训练步骤使用一组生成对抗网络,支持条件输入的生成器G从源视频得到身份图像为输入,并以目标视频的姿态信息为条件,进行有条件的图像生成,多尺度的判别器D则根据生成图像与真实图像进行判别;模型训练步骤主要是利用已构建的数据集对所设计的网络进行训练,进而获得网络权重;整体框架预测步骤主要是由人脸身份自编码器提取身份图像,人脸姿态自编码器提取目标人脸姿态表示,生成对抗网络根据这两者生成带有迁移表情的人脸图像。
具体的,操作步骤如下:
S1、人脸身份与姿态自监督解耦网络设计步骤,主要是致力于通过网络学习到能代表这两者的相互独立的特征;该步骤中包含了一个多帧的人脸身份自编码器F来提取人脸身份,融合多张人脸图像生成对应人脸的身份图像
Figure BDA0002360452030000021
同时,使用了一个多尺度的人脸姿态自编码器P来提取每一帧人脸的姿态特征
Figure BDA0002360452030000022
并跟据
Figure BDA0002360452030000023
与姿态信息重建输入图像,通过重建任务激励两个自编码器解耦信息;
S2、生成对抗网络设计步骤,主要是致力于生成高质量的既保留源图像身份又保持目标视频姿态与表情的人脸图像;该步骤包含了一个带有条件的生成器G以人脸身份自编码器F生成的身份图像
Figure BDA0002360452030000024
为输入,以人脸姿态自编码器提取到的姿态特征
Figure BDA0002360452030000025
为条件,生成人脸表情迁移图像
Figure BDA0002360452030000026
多尺度的判别器D则通过判别生成图像与真实图像,激励支持条件输入的生成器G生成逼真的人脸图像;
S3、模型训练步骤,利用S1与S2中得到的人脸身份与姿态自监督解耦网络与生成对抗网络,以大规模、多模态的图像为输入,通过训练策略优化人脸身份自编码器F、人脸姿态自编码器P、支持条件输入的生成器G与多尺度的判别器D共4个网络,对输入图像进行重建,并将重建结果与输入图像进行判别,对网络模型进行优化与约束;
S4、整体框架预测步骤,给定一张提供人脸身份信息的源图像或视频与一张提供人脸姿态信息的目标图像或视频,由人脸身份自编码器F提取身份图像
Figure BDA0002360452030000031
人脸姿态自编码器P提取目标人脸的姿态特征
Figure BDA0002360452030000032
支持条件输入的生成器G分别以这两者为输入与条件,生成带有目标表情的人脸表情迁移图像
Figure BDA0002360452030000033
进一步地,步骤S1中,对人脸信息进行自监督解耦,分为人脸身份信息与人脸姿态信息两类;
步骤S1过程如下:
S11、本发明设计了人脸身份自编码器F,其接受多帧图像序列
Figure BDA0002360452030000034
作为输入,生成对应每一帧的不完整的身份图像候选
Figure BDA0002360452030000035
而后通过将其融合,得到具有完整人脸的身份图像
Figure BDA0002360452030000036
其中,i表示输入视频序列序号,nview表示一次输入网络进行融合的图像数量,W与H分别代表了输入图像的宽度与高度。
对人脸身份图像的融合步骤具体如下:
S11A)、人脸身份自编码器F接受多帧图像序列
Figure BDA0002360452030000037
作为输入,并对每一帧都预测了一个位移场T∈RH×W×2与一个注意力响应图A∈RH×W×1
S11B)、得到位移场T后,将输入图像
Figure BDA0002360452030000038
中的所有像素Iu,v按照位移场T中的运动向量Tu,v的指示进行位移,得到形变图像fi t。经过网络的学习与训练,无论输入何种姿态的图像,其对应的形变图像fi t均趋向于正脸图像,只是根据原始输入图像的姿态有不同程度的细节缺失。
S11C)、自编码器预测得到的注意力响应图A则主要用于表示在后续融合过程中的相对重要性,与形变图像fi t点乘后得到该帧对应的身份图像候选
Figure BDA0002360452030000041
保证之后融合过程的顺利进行。
S11D)、人脸身份自编码器F将输入每一帧对应的身份图像候选
Figure BDA0002360452030000042
融合,成为多帧融合的完整的身份图像
Figure BDA0002360452030000043
S12、本发明设计了人脸姿态自编码器P,其任务是以一帧图像
Figure BDA0002360452030000044
作为输入,学习如何将从人脸身份自编码器得到的身份图像
Figure BDA0002360452030000045
上的像素通过位移与形变的手段,重建输入图像。与此同时,其还需要学习到有意义的姿态特征
Figure BDA0002360452030000046
用于后续的生成对抗网络中。
对人脸图像的中姿态信息的提取与重建步骤具体如下:
S12A)、该自编码器P先将输入图像进行编码,得到姿态特征
Figure BDA0002360452030000047
而后进行解码;其最后三个网络层分别输出一个位移场T-1与两个残差响应图RL与RH;位移场T-1内含有姿态信息,用以将身份图像
Figure BDA0002360452030000048
还原为带有姿态的图像;此处生成的位移场空间尺寸为H/4×W/4,而不是输入图像与身份图像的完整尺寸H×W;两个残差响应图主要是通过残差的方式提升图像的分辨率,并增加细节信息。
S12B)、身份图像
Figure BDA0002360452030000049
缩放到H/4×W/4后,与位移场T-1进行采样结合,得到低分辨率H/4×W/4的重建图像。
S12C)、低分辨率的重建图像经过差值扩大一倍后,与残差响应图RL相加,得到H/2×W/2分辨率的图像。
S12D)、该图像再与残差响应图RH进行上述操作,最终得到全尺寸H×W的重建图像
Figure BDA00023604520300000410
进一步地,所述的S2步骤中,所述的用以生成人脸表情迁移图像的生成对抗网络包含了支持条件输入的生成器G与多尺度的判别器D两个网络。
步骤S2过程如下:
S21、本发明设计了一个支持条件输入的生成器G,将来自人脸身份自编码器F的身份图像
Figure BDA0002360452030000051
与来自人脸姿态自编码器P的姿态特征
Figure BDA0002360452030000052
进行融合,得到人脸表情迁移图像
Figure BDA0002360452030000053
对表情迁移图像生成步骤具体如下:
S21A)、将来自人脸身份自编码器F的身份图像
Figure BDA0002360452030000054
输入网络,通过下采样部分Gdown,得到编码表示;
S21B)、将编码表示送入中间部分Gmid与上采样部分Gup,并将与来自人脸姿态自编码器P的姿态特征
Figure BDA0002360452030000055
作为条件输入网络,生成得到人脸表情迁移图像
Figure BDA0002360452030000056
条件与输入的融合过程通过自适应实例归一化层实现,改层首先将来自上一层的输入经过实例归一化,使其在N与C空间维度上呈标准正态分布;而后将姿态表示
Figure BDA0002360452030000057
经过一层共享的全连接层,而后经过各自另一层全连接层,分别得到之后使用的标准差γ与均值β;最后将经过归一化的输入,使用由条件信息得到的标准差γ与均值β进行反归一化,得到融合后的输出。
S22、本发明设计了一个多尺度的判别器D,使用了3个判别器D1、D2与D3,分别对应输入空间尺寸H×W、H/2×W/2与H/4×W/4;这些子判别器除了输入图像尺寸有所区别之外,其网络结构均相同;生成图像与真实图像首先在通道维度上进行连接,而后缩放到3个尺度上并送入对应的子判别器;子判别器则分别从不同尺度对输入图像进行判别,分辨真假;虽然3个子判别器的网络结构相同,但是D3由于其拥有最大的感受野,所以更倾向于捕捉全局的特征,并激励支持条件输入的生成器G生成在全局上与真实图像相同的生成图像;D1由于其拥有最小的感受野,所以更倾向于局部的细节,并激励支持条件输入的生成器G生成在细节上与真实图像相似的生成图像。
进一步地,所述的S3步骤中,模型训练通过优化网络损失函数,实现模型的收敛。其中,网络损失函数设计过程如下:
S31、使用图像重建与平滑损失约束人脸身份自编码器F与人脸姿态自编码器P,具体表示如下:
S31A)、图像重建损失使用L1距离度量真值图像
Figure BDA0002360452030000058
与姿态自编码器的重建图像
Figure BDA0002360452030000059
Figure BDA0002360452030000061
S31B)、图像平滑损失使用总变差正则化,限制位移场T与T-1中在横向与纵向上的梯度变化,
Figure BDA0002360452030000062
整个人脸特征自监督解耦网络的损失函数如下:
Figure BDA0002360452030000063
S32、使用对抗损失、图像重建损失与特征匹配损失约束生成对抗网络中的支持条件输入的生成器G与多尺度的判别器D,具体表示如下:
S32A)、对抗损失使用Hinge形式,多尺度的判别器D的损失
Figure BDA0002360452030000064
Figure BDA0002360452030000065
支持条件输入的生成器G的损失
Figure BDA0002360452030000066
S32B)、图像重建损失使用L1距离度量作为真值的输入图像
Figure BDA0002360452030000067
与来自支持条件输入的生成器G的重建图像
Figure BDA0002360452030000068
S32C)、特征匹配损失使用L1距离度量真值图像
Figure BDA0002360452030000069
与来自支持条件输入的生成器G的重建图像
Figure BDA00023604520300000610
在多尺度的判别器D上的特征表示,
Figure BDA00023604520300000611
整个人脸特征自监督解耦网络的损失函数如下:
Figure BDA00023604520300000612
网络训练步骤具体如下:
S33、首先使用大量的视频序列初始化人脸特征自监督解耦的两个网络人脸身份自编码器F与人脸姿态自编码器P,使其具备解耦人脸身份与人脸姿态的能力。
S34、其次,固定人脸特征自监督解耦网络的参数,将来自人脸身份自编码器F的身份图像
Figure BDA00023604520300000613
与来自人脸姿态自编码器P的姿态特征
Figure BDA00023604520300000614
训练生成对抗网络内的支持条件输入的生成器G与多尺度的判别器D。
S35、最后,通过对4个网络F、P、G、D进行联合训练,优化所有损失函数,实现网络模型的收敛,获得生成人脸表情迁移图像的网络结构与权重。
本发明相对于现有技术,具有如下的优点及效果:
本发明将自监督学习与生成对抗机制应用到人脸表情与姿态迁移任务中,通过自监督方法解耦视频帧序列中的人脸身份与姿态信息,而无需使用有标注的数据集;同时使用生成对抗网络融合来自不同个体的身份与姿态信息并合成高质量人脸,实现人脸表情与姿态在个体间的迁移。
附图说明
图1是本发明实施例中整体网络框架示意图;
图2是本发明实施例中效果图,第一列为提供身份信息的源图像,第一行为提供姿态信息的驱动图像,中间为被驱动的人脸表情迁移图像;
图3是本发明实施例中人脸身份自编码器F结构示意图;
图4是本发明实施例中人脸姿态自编码器P结构示意图;
图5是本发明实施例中支持条件输入的生成器G结构示意图;
图6是本发明实施例中多尺度的判别器D结构示意图。
具体实施方式
本发明实施例提供的方案中,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
实施例
本发明实施例公开了具体涉及一种基于自监督学习与生成对抗机制的人脸表情迁移方法,主要涉及以下几类技术:1)人脸身份与姿态自监督解耦网络:利用大规模无标注视频数据集与自监督学习方法,解耦人脸身份与姿态特征;2)含有条件的生成对抗网络:利用解耦后的身份信息与姿态信息,在同一个体内进行图像重建,或者在不同个体间进行表情迁移;3)模型训练;4)整体框架预测步骤。
本发明实施例公开的一种基于自监督学习与生成对抗机制的人脸表情迁移方法,方法流程图如图1所示,主要过程包括模型训练和模型推断两个阶段。
在模型训练阶段:利用具有高计算能力的服务器对网络模型进行训练,通过降低网络损失函数来优化网络参数,直至网络收敛,获得基于自监督学习与生成对抗机制的人脸表情与姿态迁移网络权重;
在模型推断阶段:利用两个自编码器获得源图像的身份信息与目标图像的姿态信息,并送入生成对抗网络之中进行生成,得到表情迁移图像,如图2所示。
以下结合说明书附图对本发明实施例所提供的一种人脸表情迁移方法做进一步详细的说明,该方法具体实现方式可以包括以下步骤:
步骤1、整个自监督人脸信息解耦网络主要包含了两个子网络,分别对应人脸身份与人脸姿态。图3是人脸身份自编码器F的具体网络结构,图4是人脸姿态自编码器P的具体网络结构。该人脸信息解耦网络的具体实现方式可以包括以下处理步骤:
步骤101、人脸身份自编码器F接受nview张3通道RGB彩色图像
Figure BDA0002360452030000081
同时输入。具体地,此处nview可以取8,图像大小可取256×256。当数据集中的一个视频序列长度大于nview时,将会从该序列中随机选取8张图像作为输入图像,并在每一轮训练时重新采样;当数据集中的一个视频序列长度小于nview且大于nview/2时,将会对序列中的图像进行数据增强,例如随机水平翻转、随机微小角度中心旋转、随机色彩抖动;当数据集中的一个视频序列小于nview/2时,不采用该视频序列。
人脸身份自编码器F自身是一个U形的自编码器网络,其先对输入进行逐层的下采样,得到中间表示,而后对中间表示进行相同层数的上采样操作,最终进行输出。具体地,下采样部分被称为编码器,上采样部分被称为解码器。这两个部分各有8个卷积模块,编码器中的卷积模块是“激活函数-卷积-归一化”的结构,解码器中的卷积模块是“激活函数-差值上采样-卷积-归一化”的结构。每个卷积模块中,激活函数使用ReLU函数,卷积核大小为4×4,步长为1,填充为1,归一化使用批归一化操作。同时,其网络有跳跃-连接结构,编码器中的各个卷积模块的输出,将会输入到解码器中对应层级的卷积模块的输入中。在最后一层,人脸身份自编码器F输出一个位移场T∈RH×W×2与一个注意力响应图A∈RH×W×1,通过位移场T将输入图像
Figure BDA0002360452030000091
进行形变,产生形变图像
Figure BDA0002360452030000092
通过注意力响应图A与形变图像
Figure BDA0002360452030000093
进行点乘,得到身份图像候选
Figure BDA0002360452030000094
人脸身份自编码器F从输入生成得到每一帧的身份图像候选
Figure BDA0002360452030000095
后,由于已经经过了注意力响应图A的作用,可以直接通过相加取平均值的方式将nview张身份图像候选
Figure BDA0002360452030000096
融合为一张具有完整人脸的身份图像
Figure BDA0002360452030000097
Figure BDA0002360452030000098
步骤102、人脸姿态自编码器P接受1张3通道RGB彩色图像
Figure BDA0002360452030000099
作为输入。与人脸身份自编码器F的网络结构类似,该自编码器也是一个U形网络,并包含编码器与解码器两个部分。两者的不同之处在于,人脸姿态自编码器P没有使用跳跃-连接结构,并且其最后三层均作为输出层,分别输出H/4×W/4×2大小的位移图T-1、H/2×W/2×3大小的低分辨率残差图像RL以及H×W×3大小的高分辨率残差图像RH
人脸姿态自编码器P的姿态特征
Figure BDA0002360452030000101
的维度是128维,从编码器的最后一层输出处取得。
重建图像可表示为
Figure BDA0002360452030000102
其中U表示差值上采样函数,此处采用双线性插值方法。重建图像是与输入图像空间尺寸相同的3通道RGB彩色图像。
步骤2、整个含有条件的生成对抗网络主要包含了两个子网络,分别是支持条件输入的生成器G与多尺度的判别器D。图5是支持条件输入的生成器G的具体网络结构,图6是多尺度的判别器D的具体网络结构。
该含有条件的生成对抗网络的具体实现方式可以包括以下处理步骤:
步骤201、支持条件输入的生成器G由下采样部分Gdown、中间部分Gmid与上采样部分Gup组成。下采样部分Gdown由4个普通的残差网络模块组成,每个残差网络模块的主干路径是“卷积-归一化-激活函数-卷积-归一化”的结构,其中卷积的卷积核大小为3×3,步长为1,填充为1;激活函数为ReLU;归一化方法为批归一化。中间部分Gmid与上采样部分Gup使用预激活顺序的条件残差网络模块,该模块的主干路径为“条件归一化-激活函数-卷积-条件归一化-激活函数-卷积”的结构,其中条件归一化方法使用自适应实例归一化层实现,全连接层的隐藏维度为256。其中卷积的卷积核大小为3×3,步长为1,填充为1;激活函数为ReLU。中间部分Gmid使用了9个条件残差网络模块;上采样部分Gup使用了4个条件残差网络模块,并在此基础上增加了额外的差值上采样层。
支持条件输入的生成器G网络的输入为3通道RGB彩色的身份图像
Figure BDA0002360452030000103
输入条件为128维的姿态特征
Figure BDA0002360452030000104
最终生成同尺寸的3通道RGB彩色的人脸表情迁移图像
Figure BDA0002360452030000105
步骤202、多尺度的判别器D所使用的三个子判别器,除了输入图像大小不同之外,其余网络结构均相同。该结构使用了5个卷积模块,每个模块是“卷积-归一化-激活函数”的结构。其中卷积的卷积核大小为3×3,步长为1,填充为1;激活函数为ReLU;归一化方法为批归一化。
多尺度的判别器D网络的输入为3通道RGB彩色的生成与真实图像,终得到输入图像真假的判别结果。
步骤3、模型训练,是在高性能的GPUs集群上进行的;学习率初始为0.001,后线性下降;优化器选用Adam方法,参数为0.9/0.9999;训练轮数数量总计为50;批尺寸为48组图像。
训练过程中,自监督人脸信息解耦网络的总损失函数为
Figure BDA0002360452030000111
Figure BDA0002360452030000112
其中λS取1。
含有条件的生成对抗网络的总损失函数为LGAN=LADVRLRFMLFM,其中LADV代指对抗损失函数,且LR与LFM均取1。生成对抗网络采用双时间尺度更新法则,多尺度的判别器D的学习率设置为支持条件输入的生成器G的4倍,为0.004;在同一次迭代中,先更新的学习率设置为支持条件输入的生成器G,后更新多尺度的判别器D,每一次迭代均更新两者的参数。
训练过程中,先使用LEMB来初始化自监督人脸信息解耦网络,进行30轮;而后固定自监督人脸信息解耦网络的参数,使用LGAN初始化含有条件的生成对抗网络,进行1轮;最后同时使用LEMB与LGAN,针对4个网络F、P、G、D进行联合训练,直至其收敛。
步骤4、模型推断,通过人脸身份自编码器F提取源图像的身份图像
Figure BDA0002360452030000113
通过人脸姿态自编码器P提取目标图像的姿态特征
Figure BDA0002360452030000114
作为支持条件输入的生成器G的输入与条件,最后得到保持源图像身份且包含目标图像表情与姿态的人脸表情迁移图像
Figure BDA0002360452030000115
特别地,本发明提出的一种基于自监督学习与生成对抗机制的人脸表情迁移方法,在仅给定少量源图像数据样本(如1张)的情况下,仍能通过支持条件输入的生成器G补全其缺失信息,生成高质量的人脸表情迁移图像
Figure BDA0002360452030000116
上述实施例是本发明较佳的实施方式,但是本发明的实施方式不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于自监督学习与生成对抗机制的人脸表情迁移方法,其特征在于,包括下列步骤:
S1、人脸身份与姿态自监督解耦网络设计步骤,致力于通过网络学习到能代表这两者的相互独立的特征;一个多帧的人脸身份自编码器F来提取人脸身份,融合多张人脸图像生成对应人脸的身份图像
Figure FDA0003481439260000011
同时,使用了一个多尺度的人脸姿态自编码器P来提取每一帧人脸的姿态特征
Figure FDA0003481439260000012
并跟据
Figure FDA0003481439260000013
与姿态信息重建输入图像,通过重建任务激励两个自编码器解耦信息;
S2、生成对抗网络设计步骤,致力于生成高质量的既保留源图像身份又保持目标视频姿态与表情的人脸图像;一个支持条件输入的生成器G以人脸身份自编码器F生成的身份图像
Figure FDA0003481439260000014
为输入,以人脸姿态自编码器提取到的姿态特征
Figure FDA0003481439260000015
为条件,生成人脸表情迁移图像
Figure FDA0003481439260000016
一个多尺度的判别器D则通过判别生成图像与真实图像,激励支持条件输入的生成器G生成逼真的人脸图像;
S3、模型训练步骤,利用S1与S2中得到的人脸身份与姿态自监督解耦网络与生成对抗网络,以大规模、多模态的图像为输入,通过训练策略优化人脸身份自编码器F、人脸姿态自编码器P、支持条件输入的生成器G与多尺度的判别器D共4个网络,对输入图像进行重建,并将重建结果与输入图像进行判别,对网络模型进行优化与约束;
S4、整体框架预测步骤,给定一张提供人脸身份信息的源图像或视频与一张提供人脸姿态信息的目标图像或视频,由人脸身份自编码器F提取身份图像
Figure FDA0003481439260000017
人脸姿态自编码器P提取目标人脸的姿态特征
Figure FDA0003481439260000018
支持条件输入的生成器G分别以这两者为输入与条件,生成带有目标表情的人脸表情迁移图像
Figure FDA0003481439260000019
所述的人脸身份自编码器F,其接受多帧图像序列
Figure FDA00034814392600000110
作为输入,生成对应每一帧的不完整的身份图像候选
Figure FDA00034814392600000111
而后通过将其融合,得到具有完整人脸的身份图像
Figure FDA00034814392600000112
其中,i表示输入视频序列序号,nview表示一次输入网络进行融合的图像数量,W与H分别代表了输入图像的宽度与高度;
人脸身份自编码器F接受多帧图像序列
Figure FDA00034814392600000113
作为输入,并对每一帧都预测了一个位移场T∈RH×W×2与一个注意力响应图A∈RH×W×1
得到位移场T后,将输入图像
Figure FDA00034814392600000114
中的所有像素Iu,v按照位移场T中的运动向量Tu,v的指示进行位移,得到形变图像
Figure FDA00034814392600000115
自编码器预测得到的注意力响应图A则用于表示在后续融合过程中的相对重要性,与形变图像
Figure FDA00034814392600000116
点乘后得到该帧对应的身份图像候选
Figure FDA00034814392600000117
保证之后融合过程的顺利进行;
人脸身份自编码器F将输入每一帧对应的身份图像候选
Figure FDA0003481439260000021
融合,成为多帧融合的完整的身份图像
Figure FDA0003481439260000022
2.根据权利要求1所述的一种基于自监督学习与生成对抗机制的人脸表情迁移方法,其特征在于,所述的人脸姿态自编码器P,其任务是以一帧图像
Figure FDA0003481439260000023
作为输入,学习如何将从人脸身份自编码器得到的身份图像
Figure FDA0003481439260000024
上的像素通过位移与形变的手段,重建输入图像;与此同时,其还需要学习到有意义的姿态特征
Figure FDA0003481439260000025
用于后续的生成对抗网络中;
该自编码器P先将输入图像进行编码,得到姿态特征
Figure FDA0003481439260000026
而后进行解码;其最后三个网络层分别输出一个位移场T-1与两个残差响应图RL与RH;位移场T-1内含有姿态信息,用以将身份图像
Figure FDA0003481439260000027
还原为带有姿态的图像;此处生成的位移场空间尺寸为H/4×W/4;两个残差响应图通过残差的方式提升图像的分辨率,并增加细节信息;
身份图像
Figure FDA0003481439260000028
缩放到H/4×W/4后,与位移场T-1进行采样结合,得到低分辨率H/4×W/4的重建图像;低分辨率的重建图像经过差值扩大一倍后,与残差响应图RL相加,得到H/2×W/2分辨率的图像;该图像经过差值扩大一倍后,再与残差响应图RH进行相加,最终得到全尺寸H×W的重建图像
Figure FDA0003481439260000029
3.根据权利要求1所述的一种基于自监督学习与生成对抗机制的人脸表情迁移方法,其特征在于,用以生成人脸表情迁移图像的生成对抗网络包含了支持条件输入的生成器G与多尺度的判别器D两个网络;
一个支持条件输入的生成器G,将来自人脸身份自编码器F的身份图像
Figure FDA00034814392600000210
与来自人脸姿态自编码器P的姿态特征
Figure FDA00034814392600000211
进行融合,得到人脸表情迁移图像
Figure FDA00034814392600000212
其将来自人脸身份自编码器F的身份图像
Figure FDA00034814392600000213
输入网络,通过下采样部分Gdown,得到编码表示;
将编码表示送入中间部分Gmid与上采样部分Gup,并将与来自人脸姿态自编码器P的姿态特征
Figure FDA00034814392600000214
作为条件输入网络,生成得到人脸表情迁移图像
Figure FDA00034814392600000215
条件与输入的融合过程通过自适应实例归一化层实现,该层首先将来自上一层的输入经过实例归一化,使其在N与C空间维度上呈标准正态分布;而后将姿态特征
Figure FDA00034814392600000216
经过一层共享的全连接层,而后经过各自另一层全连接层,分别得到之后使用的标准差γ与均值β;最后将经过归一化的输入,使用由条件信息得到的标准差γ与均值β进行反归一化,得到融合后的输出;
一个多尺度的判别器D,使用了3个子判别器D1、D2与D3,分别对应输入空间尺寸H×W、H/2×W/2与H/4×W/4;这些子判别器除了输入图像尺寸有所区别之外,其网络结构均相同;生成图像与真实图像首先在通道维度上进行连接,而后缩放到3个尺度上并送入对应的子判别器;子判别器则分别从不同尺度对输入图像进行判别,分辨真假。
4.根据权利要求1所述的一种基于自监督学习与生成对抗机制的人脸表情迁移方法,其特征在于,模型训练步骤通过优化网络损失函数,实现模型的收敛;
使用图像重建与平滑损失约束人脸身份自编码器F与人脸姿态自编码器P;图像重建损失使用L1距离度量作为真值的输入图像
Figure FDA0003481439260000031
与人脸姿态自编码器P的重建图像
Figure FDA0003481439260000032
Figure FDA0003481439260000033
图像平滑损失使用总变差正则化,限制位移场T与T-1中在横向与纵向上的梯度变化,
Figure FDA0003481439260000034
使用对抗损失、图像重建损失与特征匹配损失约束生成对抗网络中的支持条件输入的生成器G与多尺度的判别器D;对抗损失使用Hinge形式,多尺度的判别器D的损失
Figure FDA0003481439260000035
支持条件输入的生成器G的损失
Figure FDA0003481439260000036
图像重建损失使用L1距离度量作为真值的输入图像
Figure FDA0003481439260000037
与来自支持条件输入的生成器G的重建图像
Figure FDA0003481439260000038
Figure FDA0003481439260000039
特征匹配损失使用L1距离度量真值图像
Figure FDA00034814392600000310
与来自支持条件输入的生成器G的重建图像
Figure FDA00034814392600000311
在多尺度的判别器D上的特征表示,
Figure FDA00034814392600000312
5.根据权利要求1所述的一种基于自监督学习与生成对抗机制的人脸表情迁移方法,其特征在于,S3步骤的网络训练流程如下:
首先使用大量的视频序列初始化人脸特征自监督解耦的两个网络人脸身份自编码器F与人脸姿态自编码器P,使其具备解耦人脸身份与人脸姿态的能力;
其次,固定人脸特征自监督解耦网络的参数,将来自人脸身份自编码器F的身份图像
Figure FDA00034814392600000313
与来自人脸姿态自编码器P的姿态特征
Figure FDA00034814392600000314
训练生成对抗网络内的支持条件输入的生成器G与多尺度的判别器D;
最后,通过对F、P、G、D的4个网络进行联合训练,优化所有损失函数,实现网络模型的收敛,获得生成人脸表情迁移图像的网络结构与权重。
CN202010020215.5A 2020-01-09 2020-01-09 一种基于自监督学习与生成对抗机制的人脸表情迁移方法 Active CN111243066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010020215.5A CN111243066B (zh) 2020-01-09 2020-01-09 一种基于自监督学习与生成对抗机制的人脸表情迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010020215.5A CN111243066B (zh) 2020-01-09 2020-01-09 一种基于自监督学习与生成对抗机制的人脸表情迁移方法

Publications (2)

Publication Number Publication Date
CN111243066A CN111243066A (zh) 2020-06-05
CN111243066B true CN111243066B (zh) 2022-03-22

Family

ID=70879947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010020215.5A Active CN111243066B (zh) 2020-01-09 2020-01-09 一种基于自监督学习与生成对抗机制的人脸表情迁移方法

Country Status (1)

Country Link
CN (1) CN111243066B (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783658B (zh) * 2020-07-01 2023-08-25 河北工业大学 基于双生成对抗网络的两阶段表情动画生成方法
CN111915545B (zh) * 2020-08-06 2022-07-05 中北大学 一种多波段图像的自监督学习融合方法
CN112233012B (zh) * 2020-08-10 2023-10-31 上海交通大学 一种人脸生成***及方法
CN111968029A (zh) * 2020-08-19 2020-11-20 北京字节跳动网络技术有限公司 表情变换方法、装置、电子设备和计算机可读介质
CN114119445A (zh) * 2020-08-27 2022-03-01 北京晟易机器人科技有限公司 一种基于自动x射线成像的焊盘空洞率计算方法
CN112133311B (zh) * 2020-09-18 2023-01-17 科大讯飞股份有限公司 说话人识别方法、相关设备及可读存储介质
CN112418074B (zh) * 2020-11-20 2022-08-23 重庆邮电大学 一种基于自注意力的耦合姿态人脸识别方法
CN112446317B (zh) * 2020-11-23 2021-09-07 四川大学 一种基于特征解耦的异质人脸识别方法及装置
CN112489218B (zh) * 2020-11-30 2024-03-19 江苏科技大学 一种基于半监督学习的单视图三维重建***及其方法
CN112712460B (zh) * 2020-12-09 2024-05-24 杭州妙绘科技有限公司 肖像画生成的方法、装置、电子设备及介质
CN112712812B (zh) * 2020-12-24 2024-04-26 腾讯音乐娱乐科技(深圳)有限公司 音频信号生成方法、装置、设备以及存储介质
CN112651916A (zh) * 2020-12-25 2021-04-13 上海交通大学 自监督模型预训练方法、***及介质
CN114760497A (zh) * 2021-01-08 2022-07-15 阿里巴巴集团控股有限公司 视频生成方法、非易失性存储介质及电子设备
CN112802160B (zh) * 2021-01-12 2023-10-17 西北大学 一种基于u-gat-it改进的秦腔角色卡通化风格迁移的方法
CN112800869B (zh) * 2021-01-13 2023-07-04 网易(杭州)网络有限公司 图像人脸表情迁移方法、装置、电子设备及可读存储介质
CN112766160B (zh) * 2021-01-20 2023-07-28 西安电子科技大学 基于多级属性编码器和注意力机制的人脸替换方法
CN112800937B (zh) * 2021-01-26 2023-09-05 华南理工大学 一种智能人脸识别方法
CN113762022A (zh) * 2021-02-09 2021-12-07 北京沃东天骏信息技术有限公司 人脸图像的融合方法和装置
CN112949707B (zh) * 2021-02-26 2024-02-09 西安电子科技大学 一种基于多尺度语义信息监督的跨模态人脸图像生成方法
CN112861805B (zh) * 2021-03-17 2023-07-18 中山大学 一种基于内容特征和风格特征的人脸图像生成方法
CN113223124B (zh) * 2021-03-30 2022-06-10 华南理工大学 一种基于三维人体参数化模型的姿态迁移方法
CN113033511B (zh) * 2021-05-21 2021-08-10 中国科学院自动化研究所 一种基于操控解耦身份表示的人脸匿名方法
CN113205449B (zh) * 2021-05-21 2024-07-05 珠海金山数字网络科技有限公司 表情迁移模型的训练方法及装置、表情迁移方法及装置
CN113344777B (zh) * 2021-08-02 2021-10-15 中国科学院自动化研究所 基于三维人脸分解的换脸与重演方法及装置
CN113609960B (zh) * 2021-08-03 2023-07-28 北京奇艺世纪科技有限公司 一种目标图片的人脸驱动方法及装置
CN113706650A (zh) * 2021-08-27 2021-11-26 深圳龙岗智能视听研究院 一种基于注意力机制和流模型的图像生成方法
CN113850152A (zh) * 2021-09-03 2021-12-28 北京中科睿鉴科技有限公司 基于姿态分离生成对抗网络的人物识别方法
CN113762147B (zh) * 2021-09-06 2023-07-04 网易(杭州)网络有限公司 人脸表情迁移方法、装置、电子设备及存储介质
CN113592982B (zh) * 2021-09-29 2022-09-27 北京奇艺世纪科技有限公司 身份迁移模型构建方法、装置、电子设备及可读存储介质
CN114022930B (zh) * 2021-10-28 2024-04-16 天津大学 一种人像证件照自动生成方法
CN114742890A (zh) * 2022-03-16 2022-07-12 西北大学 一种基于图像内容和风格解耦的6d姿态估计数据集迁移方法
CN114399829B (zh) * 2022-03-25 2022-07-05 浙江壹体科技有限公司 基于生成式对抗网络的姿态迁移方法、电子设备及介质
CN115115676A (zh) * 2022-04-29 2022-09-27 腾讯医疗健康(深圳)有限公司 图像配准方法、装置、设备和存储介质
CN115050087B (zh) * 2022-08-16 2022-11-18 之江实验室 一种人脸关键点身份和表情解耦方法及装置
CN115270997B (zh) * 2022-09-20 2022-12-27 中国人民解放军32035部队 基于迁移学习的火箭目标姿态稳定判别方法及相关装置
CN115836846B (zh) * 2022-12-14 2024-07-30 北京航空航天大学 一种基于自监督迁移学习的无创血压估计方法
CN116798103B (zh) * 2023-08-29 2023-12-01 广州诚踏信息科技有限公司 基于人工智能的人脸图像处理方法及***
CN117993480B (zh) * 2024-04-02 2024-07-09 湖南大学 面向设计师风格融合和隐私保护的aigc联邦学习方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292813A (zh) * 2017-05-17 2017-10-24 浙江大学 一种基于生成对抗网络的多姿态人脸生成方法
CN108171770A (zh) * 2018-01-18 2018-06-15 中科视拓(北京)科技有限公司 一种基于生成式对抗网络的人脸表情编辑方法
CN108268845A (zh) * 2018-01-17 2018-07-10 深圳市唯特视科技有限公司 一种利用生成对抗网络合成人脸视频序列的动态转换***
CN109934767A (zh) * 2019-03-06 2019-06-25 中南大学 一种基于身份和表情特征转换的人脸表情转换方法
US10504268B1 (en) * 2017-04-18 2019-12-10 Educational Testing Service Systems and methods for generating facial expressions in a user interface

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10504268B1 (en) * 2017-04-18 2019-12-10 Educational Testing Service Systems and methods for generating facial expressions in a user interface
CN107292813A (zh) * 2017-05-17 2017-10-24 浙江大学 一种基于生成对抗网络的多姿态人脸生成方法
CN108268845A (zh) * 2018-01-17 2018-07-10 深圳市唯特视科技有限公司 一种利用生成对抗网络合成人脸视频序列的动态转换***
CN108171770A (zh) * 2018-01-18 2018-06-15 中科视拓(北京)科技有限公司 一种基于生成式对抗网络的人脸表情编辑方法
CN109934767A (zh) * 2019-03-06 2019-06-25 中南大学 一种基于身份和表情特征转换的人脸表情转换方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FML: Face Model Learning from Videos;Ayush Tewari 等;《arXiv》;20190409;第1-17页 *

Also Published As

Publication number Publication date
CN111243066A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN111243066B (zh) 一种基于自监督学习与生成对抗机制的人脸表情迁移方法
US10593021B1 (en) Motion deblurring using neural network architectures
US11481869B2 (en) Cross-domain image translation
CN116309232B (zh) 一种结合物理先验与深度学习的水下图像增强方法
CN110163801A (zh) 一种图像超分辨和着色方法、***及电子设备
CN112837224A (zh) 一种基于卷积神经网络的超分辨率图像重建方法
US11915383B2 (en) Methods and systems for high definition image manipulation with neural networks
CN110853119A (zh) 一种鲁棒的基于参考图片的妆容迁移方法
CN114581560A (zh) 基于注意力机制的多尺度神经网络红外图像彩色化方法
CN111986105A (zh) 基于时域去噪掩码的视频时序一致性增强方法
CN111931779A (zh) 一种基于条件可预测参数的图像信息提取与生成方法
Wen et al. Encoder-free multi-axis physics-aware fusion network for remote sensing image dehazing
CN114913083A (zh) 一种基于上下文分解特征融合的水下图像增强方法
CN116188912A (zh) 主题图像的图像合成模型的训练方法、装置、介质及设备
CN113065417A (zh) 基于生成对抗式风格迁移的场景文本识别方法
CN116310146B (zh) 人脸图像重演方法、***、电子设备、存储介质
CN113538254A (zh) 图像恢复方法、装置、电子设备及计算机可读存储介质
Liu et al. Sketch to portrait generation with generative adversarial networks and edge constraint
CN117292017A (zh) 一种草图到图片跨域合成方法、***及设备
CN116523743A (zh) 一种基于循环神经网络的游戏超分辨率方法
CN115601257A (zh) 一种基于局部特征和非局部特征的图像去模糊方法
CN116266336A (zh) 视频超分辨率重建方法、装置、计算设备及存储介质
CN115511733A (zh) 一种图像退化建模方法、神经网络训练方法和装置
Lucas Deep Perceptual Losses and Self-supervised Fine-tuning for Image and Video Super-resolution
WO2020196917A1 (ja) 画像認識装置、及び画像認識プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant