CN111783658B - 基于双生成对抗网络的两阶段表情动画生成方法 - Google Patents

基于双生成对抗网络的两阶段表情动画生成方法 Download PDF

Info

Publication number
CN111783658B
CN111783658B CN202010621885.2A CN202010621885A CN111783658B CN 111783658 B CN111783658 B CN 111783658B CN 202010621885 A CN202010621885 A CN 202010621885A CN 111783658 B CN111783658 B CN 111783658B
Authority
CN
China
Prior art keywords
expression
stage
image
loss
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010621885.2A
Other languages
English (en)
Other versions
CN111783658A (zh
Inventor
郭迎春
王静洁
刘依
朱叶
郝小可
于洋
师硕
阎刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Technology
Original Assignee
Hebei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Technology filed Critical Hebei University of Technology
Priority to CN202010621885.2A priority Critical patent/CN111783658B/zh
Publication of CN111783658A publication Critical patent/CN111783658A/zh
Application granted granted Critical
Publication of CN111783658B publication Critical patent/CN111783658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明为基于双生成对抗网络的两阶段表情动画生成方法,该方法首先在第一阶段中利用表情迁移网络FaceGAN提取目标表情轮廓图中的表情特征,并将其迁移到源人脸,生成第一阶段预测图;第二阶段中利用细节生成网络FineGAN来作为补充丰富第一阶段预测图中的对表情变化贡献比较大的眼睛和嘴巴区域的细节,生成细粒度的第二阶段预测图并合成人脸视频动画,表情迁移网络FaceGAN及细节生成网络FineGAN均采用生成对抗网络实现。本申请提出两阶段生成对抗网络进行表情动画生成,第一阶段进行表情的转换,第二阶段进行图像细节的优化,通过掩模向量提取图像的指定区域,进行着重优化,同时结合局部判别器的使用,使重要部位生成效果更佳。

Description

基于双生成对抗网络的两阶段表情动画生成方法
技术领域
本发明的技术方案涉及计算机视觉中图像数据处理,具体地说是基于双生成对抗网络的两阶段表情动画生成方法。
背景技术
人脸表情合成是指将表情从目标表情参考人脸迁移到源人脸,新合成的源人脸图像的身份信息保持不变,但是其表情与目标表情参考人脸保持一致,这项技术已逐渐应用在影视制作、虚拟现实、刑侦等领域。人脸表情合成在学术界和工业界均有着重要的研究价值,如何鲁棒地合成自然逼真的人脸表情成为一个富有挑战性的热点研究课题。
现有的人脸表情合成方法可以分为两大类,分别是传统的图形学方法和基于深度学习的图像生成方法。第一类传统的图形学方法通常使用参数模型,将源人脸图像参数化,设计模型进行表情的转换并生成新图像,或利用特征对应和光流图来扭曲人脸图像,从已有的表情数据集合成人脸补丁等,但是设计模型的过程详细且复杂,会产生很高代价的计算量,且泛化能力差。
第二类基于深度学习的表情合成方法。首先利用深度神经网络提取人脸特征,将图像从高维空间映射到特征向量,然后通过添加表情标签改变源表情特征,再利用深度神经网络合成目标人脸图像,映射回高维空间。而后GAN网络的出现为实现清晰的图像合成带来了曙光,一经提出便引发了极大的关注。在图像合成领域,涌现大量的GAN变体等研究方法来进行图像的生成。例如条件生成对抗网络(Conditional Generative AdversarialNetwork,CGAN)可以在特定监督信息下生成图像,在人脸表情生成领域,可以将表情标签作为条件监督信息,以此生成不同表情的人脸图像。现阶段,基于GAN网络的相关方法同样存在一些不足,在生成表情动画时,可能会出现不合理伪影、生成图像模糊、分辨率低等问题。
人脸表情生成是图像-图像的转换,本发明的目的是生成人脸动画,属于图像-视频的转换,比人脸表情生成任务增加了时间维度上的挑战。Xing等人在“GP-GAN:GenderPreserving GAN for Synthesizing Faces from Landmarks”一文中使用性别保留网络使网络可以学习到更多的性别信息,但该方法在人脸身份信息的保留方面仍存在不足,可能导致生成人脸与目标人脸具有不同的身份特征。CN108288072A公开了一种基于生成对抗网络的面部表情合成方法,该方法没有考虑人脸图像的细粒度生成,忽略了对源人脸图像的细节特征提取,存在生成结果较模糊、分辨率低的缺陷。CN110084121A公开了基于谱归一化的循环生成式对抗网络的人脸表情迁移的实现方法,该方法采用表情独热向量监督网络的训练过程,独热向量的离散性限制了网络的学习能力,使网络仅能学习到目标情绪的表达,如高兴、悲伤、惊讶等,并不能学习到情绪的程度,对表情的连续性生成方面有欠缺。CN105069830A公开了一种表情动画生成方法及装置,该方法仅可生成六个指定模板的表情动画,而人类的表情十分丰富且复杂,因此该方法的扩展性较差,不能根据用户需求生成任意指定的表情动画。CN107944358A公开了一种基于深度卷积对抗网络模型的人脸生成方法,该方法在表情生成过程中不能保证人脸身份信息的不变性,可能存在生成人脸与目标人脸不一致的缺陷。
发明内容
本发明所要解决的技术问题是:提供基于双生成对抗网络的两阶段表情动画生成方法,首先在第一阶段中利用表情迁移网络提取目标表情的特征,并将其迁移到源人脸,生成第一阶段预测图,将第一阶段的表情迁移网络命名为FaceGAN(Face GenerativeAdversarial Network);第二阶段中利用细节生成网络来丰富第一阶段预测图中的一些人脸细节,生成细粒度的第二阶段预测图并合成视频动画,第二阶段的细节生成网络命名为FineGAN(Fine Generative Adversarial Network);本发明方法克服了现有技术存在的生成图像模糊或分辨率低以及生成结果存在不合理伪影等问题。
本发明解决该技术问题所采用的技术方案是:基于双生成对抗网络的两阶段表情动画生成方法,第一阶段中,在目标表情轮廓图的驱动下,利用表情迁移网络FaceGAN捕获目标表情轮廓图中的表情特征,并将其迁移到源人脸,生成第一阶段预测图;在第二阶段,利用细节生成网络FineGAN作为补充来丰富第一阶段预测图中的一些对表情变化贡献比较大的眼睛和嘴巴区域的细节,生成细粒度的第二阶段预测图并合成人脸动画,具体步骤如下:
第一步,获取数据集中每一帧图像的人脸表情轮廓图:
采集人脸表***序列数据集,使用Dlib机器学习库提取视频序列中每一帧图像中的人脸,同时获取每张人脸中的多个特征点,然后使用线段依次连接特征点,获得视频序列每一帧的表情轮廓图,记为e=(e1,e2,···,ei,···,en),其中e代表一个视频序列中所有表情轮廓图的集合,即表情轮廓图序列;n代表视频帧数,ei代表某个视频序列中第i帧的表情轮廓图;
第一阶段,搭建表情迁移网络FaceGAN,包括第二步到第四步:
第二步,提取源人脸的身份特征和目标表情轮廓图的表情特征,初步生成第一阶段预测图:
表情迁移网络FaceGAN包括一个生成器G1和一个判别器D1,其中生成器G1包括三个子网络,分别是两个编码器Encid和Encexp,一个解码器Dec1
首先输入源人脸的一张中性无表情图像IN和目标表情轮廓图序列e,然后利用身份编码器Encid提取源人脸的中性无表情图像IN的身份特征向量fid,同时利用表情编码器Encexp提取目标表情轮廓图序列e的表情特征向量集合fexp,其中fexp=(fexp_1,fexp_2,···,fexp_i,···,fexp_n),公式表达为:
fid=Encid(IN) (1),
fexp_i=Encexp(ei) (2),
将身份特征向量fid和第i帧的表情特征向量fexp_i进行串联,得到特征向量f且f=fid+fexp_i,将特征向量f输送到解码器Dec1进行解码,生成第一阶段预测图Ipre-target,且Ipre-target=Dec1(f),最后将Ipre-target输入到判别器D1中判别图像的真假;
第三步,将第一阶段预测图作为输入,采用CycleGAN的思想重构源人脸中性图像:
将第一阶段预测图Ipre-target和上述第二步中的中性无表情图像IN所对应的表情轮廓图eN重新作为表情迁移网络FaceGAN的输入,利用身份编码器Encid提取图像Ipre-target的身份特征向量,同时利用表情编码器Encexp提取表情轮廓图eN的表情特征向量,重复进行上述第二步的操作,经解码器解码生成IN的重构图像Irecon,生成重构图像Irecon的公式表达为:
Irecon=Dec1(Encid(Ipre-target)+Encexp(eN)) (3);
第四步,计算第一阶段表情迁移网络FaceGAN中的损失函数:
上述第一阶段表情迁移网络FaceGAN中的生成器G1的损失函数具体公式为:
其中,
其中,Ireal为目标真实值,公式(5)为生成器的对抗损失,D1(·)表示判别器D1对象为真的概率,公式(6)中的SSIM(·)函数用来衡量两张图像之间的相似性,公式(7)为像素损失,MAE(·)函数为均方误差函数,用来衡量真实值与预测值之间的差距,公式(8)为感知损失,利用VGG-19提取图像的感知特征,采用VGG-19网络中的最后一个卷积层输出的特征作为图像的感知特征,以此计算生成图像与真实图像之间的感知损失,公式(9)为重构损失,计算源人脸的中性无表情图像IN和其重构图像Irecon之间的距离;
上述第一阶段表情迁移网络FaceGAN中的判别器D1的损失函数具体公式为:
其中,
公式(11)为对抗损失,公式(12)为重构图像的对抗损失,其中,λ1和λ2为相似性损失与感知损失/>在FaceGAN的生成器G1中的权重参数,λ3为重构图像的对抗损失/>在FaceGAN判别器损失中的权重参数;
搭建第二阶段的细节生成网络FineGAN,包括第五步到第七步:
第五步,生成适应个体的局部掩模向量:
将上述第一步中获得的每张人脸中的多个特征点用于提取出眼睛区域Ieye和嘴巴区域Imouth,分别设置眼睛掩模向量Meye和嘴巴掩模向量Mmouth,以眼部为例,将图像中眼睛区域的像素值设为1,其他区域像素值设为0,构成眼睛掩模向量Meye,嘴巴掩膜向量Mmouth的构成与眼睛掩模向量Meye类似;
第六步,将上述第一阶段预测图输入到第二阶段的网络中,进行细节优化:
细节生成网络FineGAN中包含生成器G2和判别器D2,D2是由一个全局判别器Dglobal和两个局部判别器Deye和Dmouth构成;
将第一阶段预测图Ipre-target和第二步中的中性无表情图像IN输入到生成器G2中,生成具有更多人脸细节的第二阶段预测图Itarget,然后将第二阶段预测图Itarget同时输入到三个判别器中,通过全局判别器Dglobal对第二阶段预测图Itarget进行全局判别,使第二阶段预测图Itarget与目标真实图像Ireal尽可能接近,通过眼部局部判别器Deye和嘴部局部判别器Dmouth对第二阶段预测图Itarget的眼部和嘴部区域进一步着重优化,使得第二阶段预测图Itarget更加逼真,第二阶段预测图Itarget的公式表达为:
Itarget=G2(Ipre-target,IN) (13);
第七步,计算第二阶段FineGAN中的损失函数:
生成器G2损失函数具体公式为:
其中,
公式(15)为对抗损失,包含全局对抗损失和局部对抗损失,操作符是哈达玛积,公式(16)为像素损失,公式(17)和公式(18)为局部像素损失,计算生成图像的局部区域与真实图像的局部区域的像素差值的L1范数,公式(19)为局部感知损失,生成器G2总损失函数即各损失函数的加权和;
判别器D2的损失函数具体公式为:
其中,
公式(21)为全局判别器的对抗损失,公式(22)和公式(23)为局部判别器的对抗损失,其中,λ4和λ5分别为局部对抗损失在FineGAN生成器G2中的权重参数,λ6和λ7分别为眼部像素损失Leye和嘴部像素损失在FineGAN生成器G2中的权重参数,λ8为局部感知损失在FineGAN生成器G2中的权重参数,λ9为全局对抗损失损失/>在FineGAN判别器D2中的权重参数;
第八步,合成视频:
每一帧均是独立生成,因此在完成n帧图像(Itarget_1,Itarget_2,···,Itarget_i,···,Itarget_n)的生成后,将视频帧序列合成最终的人脸动画;
至此,完成基于双生成对抗网络的两阶段表情动画的生成,对人脸图像中的表情进行了转换,并优化了图像细节。
具体地,身份编码器Encid包含4层卷积块,前3层卷积块中加入CBAM注意力模块;表情编码器Encexp包含3层卷积块,在最后一层卷积块中加入CBAM注意力模块,解码器Dec1中包含4层反卷积块,在前3层卷积块中加入了CBAM注意力模块,同时使用跳跃连接将网络编码器与解码器连接,具体做法是将身份编码器Encid第1层的输出与解码器Dec1倒数第1层的输入相连接,身份编码器Encid第2层的输出与解码器Dec1倒数第2层的输入相连接,身份编码器Encid第3层的输出与解码器Dec1倒数第3层的输入相连接。添加CBAM注意力模块,使网络能够更多的关注图像中的重要区域的学习,同时,为了使网络可以学习到低层的人脸纹理等细节信息,使用跳跃连接将网络高层与低层结合。
上述基于双生成对抗网络的两阶段表情动画生成方法,其中的生成对抗网络模型英文缩写为GAN,全称为GenerativeAdversarial Networks,为本技术领域公知的算法,Dlib库是公用的数据库。
本发明的有益效果是:与现有技术相比,
本发明的显著进步如下:
(1)本发明方法与CN108288072A相比,本发明方法所具有的优点是提出的细节生成网络可以保证人脸动画的细粒度生成,着重优化了嘴部和眼部这两个重要的区域,使生成效果更加逼真自然。
(2)本发明方法与CN110084121A相比,本发明方法所具有的优点是使用表情轮廓图监督FaceGAN网络的学习过程,可以使网络学习到表情的连续性表达,能学习到情绪的程度,生成流畅的人脸动画。
(3)本发明方法与CN105069830A相比,本发明方法所具有的优点是利用目标表情轮廓图指导网络学习目标表情的表达,不局限于表情的种类限制,可生成用户需要的任意情绪的表情动画。
(4)本发明方法与CN107944358A相比,本发明方法所具有的优点是利用CycleGAN的环形网络结构训练模型,同时在FaceGAN中加入跳跃连接,以保证生成人脸与源人脸的身份信息的一致性。
(5)本发明方法通过设置全局判别器、局部判别器和局部损失函数(公式(17)和公式(18))),不仅可以保证整张生成图像的真实程度,还可以精细化生成眼睛、嘴巴这两个重要的区域。
(6)本发明方法通过在FaceGAN中加入注意力模块和第二阶段的细节生成网络,保证了图像的局部细节生成及细粒度表达。
本发明的突出的实质性特点是:
1)本申请提出两阶段生成对抗网络进行表情动画生成,第一阶段进行表情的转换,第二阶段进行图像细节的优化;提出基于掩模的局部损失函数,通过掩模向量提取图像的指定区域,进行着重优化,同时结合局部判别器的使用,使重要部位生成效果更佳。
2)本申请中视频序列中的每一帧图像均由中性图像生成,而非递归的形式生成视频帧序列,避免了由于前序帧生成的误差会传递到后序帧,误差的传播会导致后序帧的生成质量越来越差的问题;此外,本申请输入图像方式可以使网络更多的学习从中性表情到其他表情的较大的变化对于模型训练的难度增大。在使用第一阶段网络生成预测图像后,将预测图像重新输入网络,利用cycleGAN的环形网络思想重构源输入图像,此操作可以强制网络保留下身份特征,同时不会增加模型的参数数量,其损失函数包括对抗损失、SSIM相似性损失、像素损失、VGG感知损失、重构损失。本申请的第二阶段网络包括一个生成器和一个全局判别器、两个局部判别器,添加了基于掩模的局部判别器和局部损失函数。
3)本申请方法在FaceGAN中,利用cycleGAN的思想,将表情转换后的图像重新作为网络的输入,重构生成源人脸图像,这样可以使网络强制保留下人脸的身份特征,只对表情进行改变;同时在FaceGAN中,利用跳跃连接的结构,将网络的高层特征与低层特征相融合,使网络可以学习到低层特征中更多的人脸身份信息;能够实现在进行表情转换的同时,不改变人脸的身份信息。
4)本发明提出细节优化网络FineGAN,该网络专注于图像细节的生成,并着重优化重要的眼部区域和嘴部区域;设定合适的权重以平衡像素损失与对抗损失,并加入感知损失去除伪影,能使生成图像不包含不合理的伪影等,使网络生成具有丰富细节,符合人类视觉的高质量逼真图像。
5)本发明方法网络参数数量相对较少,空间和时间复杂度较低,可以使用一个统一的网络学习任意表情种类的迁移,并同时学习情绪强度的连续变化,具有良好的使用前景。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明方法的流程示意框图。
图2中,奇数行是本发明方法的人脸特征点示意图,偶数行是人脸表情轮廓图。
图3是本发明的掩模示意图,其中,第一行是原数据集经预处理后提取的脸部区域图像,第二、四行分别是眼睛掩模向量、嘴巴掩模向量的可视化,第三、五行是将眼睛掩模向量、嘴巴掩模向量作用到源图像后提取出的局部区域图像。
图4是本发明的3个实验效果图,其中,奇数行是本发明方法的输入,包括一张源人脸的中性图像和目标表情的轮廓图序列;偶数行是实验结果,即输出表情动画的视频帧序列。
具体实施方式
图1所示实施例表明,本发明基于双生成对抗网络的两阶段表情动画生成方法的流程如下:
获取数据集中每一帧图像的人脸表情轮廓图→提取源人脸的身份特征和目标表情轮廓图的表情特征,初步生成第一阶段预测图→将第一阶段预测图作为输入,采用CycleGAN的思想重构源人脸中性图像→计算第一阶段FaceGAN中的损失函数→生成适应个体的局部掩模向量→将上述第一阶段预测图输入到第二阶段的网络中,进行细节优化→计算第二阶段FineGAN中的损失函数→合成视频。
实施例1
本实施例的基于双生成对抗网络的两阶段表情动画生成方法,具体步骤如下:
第一步,获取数据集中每一帧图像的人脸表情轮廓图:
采集人脸表***序列数据集,使用Dlib机器学习库提取视频序列中每一帧图像中的人脸,同时获取每张人脸中的68个特征点(在表情迁移领域,68个特征点构成人脸轮廓及眼睛、嘴巴、鼻子轮廓,此外还可以设置还有5个或81个特征点。),如图2中奇数行所示,然后使用线段依次连接特征点,获得视频序列每一帧的表情轮廓图,如图2中偶数行所示,记为e=(e1,e2,···,ei,···,en),其中e代表一个视频序列中所有人脸表情轮廓图的集合,n代表视频帧数,ei代表某个视频序列中第i帧的人脸表情轮廓图;
第一阶段,搭建表情迁移网络FaceGAN,包括第二步到第四步:
第二步,提取源人脸的身份特征和目标表情轮廓图的表情特征,初步生成第一阶段预测图:
FaceGAN包括一个生成器G1和一个判别器D1,其中生成器G1包括三个子网络,分别是两个编码器Encid和Encexp,一个解码器Dec1
首先输入源人脸的一张中性无表情图像IN和目标表情轮廓图序列e,本实施例的输入为S010用户的一张中性人脸,目标表情轮廓图序列为从面无表情到露出笑容的过程,中性无表情图像IN提取的表情轮廓图记为eN,具体输入如图4第一行所示,然后,利用身份编码器Encid提取S010用户的身份特征向量fid,同时利用表情编码器Encexp提取目标表情轮廓图的表情特征向量集合fexp,其中fexp=(fexp_1,fexp_2,···,fexp_i,···,fexp_n),公式表达为:
fid=Encid(IN) (1),
fexp_i=Encexp(ei) (2),
将身份特征向量fid和第i帧的表情特征向量fexp_i进行串联,得到特征向量f且f=fid+fexp_i,将特征向量f输送到解码器Dec1进行解码,生成第一阶段预测图Ipre-target,且Ipre-target=Dec1(f),最后将Ipre-target输入到判别器D1中判别图像的真假;
第三步,将第一阶段预测图作为输入,采用CycleGAN的思想重构源人脸中性图像:
将第一阶段预测图Ipre-target和上述第二步中的中性无表情图像IN所提取的表情轮廓图eN重新作为FaceGAN的输入,重复进行上述第二步的操作,生成S010用户的中性表情的重构图像Irecon,生成Irecon的公式表达为:
Irecon=Dec1(Encid(Ipre-target)+Encexp(eN)) (3);
第四步,计算第一阶段FaceGAN中的损失函数:
上述第一阶段FaceGAN中的生成器G1的损失函数具体公式如下:
其中,
其中,Ireal为目标真实值(目标真实值即Groundtruth,是带有目标表情的源人脸图像,就是模型最终预测值的真实图像),即S010用户微笑的真实图像,公式(5)为生成器的对抗损失,公式(6)中的SSIM(·)函数用来衡量两张图像之间的相似性,公式(7)为像素损失,MAE(·)函数为均方误差函数,用来衡量真实值与预测值之间的差距,公式(8)为感知损失,利用VGG-19提取图像的感知特征,本专利采用VGG-19网络中的最后一个卷积层输出的特征作为图像的感知特征,以此计算生成图像与真实图像之间的感知损失,公式(9)为重构损失,计算源人脸中性无表情图像IN和重构图像Irecon之间的距离,生成器G1的损失函数为各部分损失函数的加权和;
上述第一阶段FaceGAN中的判别器D1的损失函数具体公式如下:
其中,
公式(11)为对抗损失,公式(12)为重构图像的对抗损失;
所述身份编码器Encid包含4层卷积块,前3层卷积块中加入CBAM注意力模块;表情编码器Encexp包含3层卷积块,在最后一层卷积块中加入CBAM注意力模块,解码器Dec1中包含4层反卷积块,在前3层卷积块中加入了CBAM注意力模块,同时使用跳跃连接将网络高层与低层结合,具体做法是将身份编码器Encid第1层的输出与解码器Dec1倒数第1层的输入相连接,身份编码器Encid第2层的输出与解码器Dec1倒数第2层的输入相连接,身份编码器Encid第3层的输出与解码器Dec1倒数第3层的输入相连接,本专利中的卷积核尺寸均为3×3。
搭建第二阶段的细节生成网络FineGAN,包括第五步到第七步:
第五步,生成适应个体的局部掩模向量:
将上述第一步中获得的每张人脸中的68个特征点用于提取出眼睛区域Ieye和嘴巴区域Imouth,首先分别设置眼睛掩模向量Meye和嘴巴掩模向量Mmouth,如图3中第二行和第四行所示,以眼部为例,将图像中眼睛区域的像素值设为1,其他区域像素值设为0,即构成Meye,嘴巴掩膜向量Mmouth的构成与Meye类似;
第六步,将上述第一阶段预测图输入到第二阶段的网络中,进行细节优化:
FineGAN中包含生成器G2和判别器D2,D2是由一个全局判别器Dglobal和两个局部判别器Deye和Dmouth构成;
将上述第一阶段预测图Ipre-target和上述第二步中的中性无表情图像IN输入到生成器G2中,生成S010用户的包含更多人脸细节的第二阶段预测图Itarget,然后将Itarget同时输入到三个判别器中,通过Dglobal对生成的Itarget进行全局判别,使Itarget与S010用户微笑的真实图像Ireal尽可能接近,通过眼部局部判别器Deye和嘴部局部判别器Dmouth对Itarget的眼部和嘴部区域进一步着重优化,使得生成图像Itarget更加逼真,公式说明如下:
Itarget=G2(Ipre-target,IN) (13);
第七步,计算第二阶段FineGAN中的损失函数:
生成器G2损失函数具体公式如下:
其中,
公式(15)为对抗损失,包含全局对抗损失和局部对抗损失,操作符是哈达玛积,公式(16)为像素损失,公式(17)和公式(18)为局部像素损失,计算生成图像的局部区域与真实图像的局部区域的像素差值的L1范数,公式(19)为局部感知损失,生成器总损失函数即各损失函数的加权和;
判别器D2的损失函数具体公式如下:
其中,
公式(21)为全局判别器的对抗损失,公式(22)和公式(23)为局部判别器的对抗损失;
第八步,合成视频:
每一帧均是独立生成,因此在完成n帧图像(Itarget_1,Itarget_2,···,Itarget_i,···,Itarget_n)的生成后,即生成S010用户从面无表情到面露笑容的表情渐变过程,将视频帧序列合成S010用户的人脸动画,如图4第二行所示;
至此,完成基于双生成对抗网络的两阶段表情动画的生成,对人脸图像中的表情进行了转换,并优化了图像细节。
本实施例中,所述各个步骤涉及到的权重参数设置如表1所示,整个样本数据库中效果均较好。
表1本实施例中各损失的权重参数设置
上述基于双生成对抗网络的两阶段表情动画生成方法,其中的生成对抗网络模型英文缩写为GAN,全称为Generative Adversarial Networks,为本技术领域公知的算法。
图4显示了本发明的3个实施例的效果图。其中,第二行是生成S010用户从中性表情到笑起来的视频帧序列,第四行是生成S022用户从中性表情到惊讶张大嘴巴的视频帧序列,第六行是生成S032用户从中性表情到向下撇嘴的视频帧序列。图4显示了本发明方法可以在保留人脸身份信息的情况下,完成表情的迁移,并可生成连续渐变的视频帧序列,合成指定身份、指定表情的动画视频。
本发明未述及之处适用于现有技术。

Claims (4)

1.一种基于双生成对抗网络的两阶段表情动画生成方法,其特征在于,该方法首先在第一阶段中利用表情迁移网络FaceGAN提取目标表情轮廓图中的表情特征,并将其迁移到源人脸,生成第一阶段预测图;第二阶段中利用细节生成网络FineGAN来作为补充丰富第一阶段预测图中的对表情变化贡献比较大的眼睛和嘴巴区域的细节,生成细粒度的第二阶段预测图并合成人脸视频动画,表情迁移网络FaceGAN及细节生成网络FineGAN均采用生成对抗网络实现;
表情迁移网络FaceGAN包括一个生成器G1和一个判别器D1,其中生成器G1包括三个子网络,分别是一个身份编码器Encid和一个表情编码器Encexp,一个解码器Dec1
细节生成网络FineGAN中包含生成器G2和判别器D2,D2是由一个全局判别器Dglobal、一个眼部局部判别器Deye和一个嘴部局部判别器Dmouth构成;
所述方法的具体步骤是:
第一步,获取数据集中每一帧图像的人脸表情轮廓图:
采集人脸表***序列数据集,使用Dlib机器学习库提取视频序列中每一帧图像中的人脸,同时获取每张人脸中的多个特征点,然后使用线段依次连接特征点,获得视频序列每一帧的表情轮廓图,记为e=(e1,e2,···,ei,···,en),其中e代表一个视频序列中所有表情轮廓图的集合,即表情轮廓图序列;n代表视频帧数,ei代表某个视频序列中第i帧的表情轮廓图;
第一阶段,搭建表情迁移网络FaceGAN,包括第二步到第四步:
第二步,提取源人脸的身份特征和目标表情轮廓图的表情特征,初步生成第一阶段预测图:
表情迁移网络FaceGAN包括一个生成器G1和一个判别器D1,其中生成器G1包括三个子网络,分别是两个编码器Encid和Encexp,一个解码器Dec1
首先输入源人脸的一张中性无表情图像IN和目标表情轮廓图序列e,然后利用身份编码器Encid提取源人脸的中性无表情图像IN的身份特征向量fid,同时利用表情编码器Encexp提取目标表情轮廓图序列e的表情特征向量集合fexp,其中fexp=(fexp_1,fexp_2,···,fexp_i,···,fexp_n),公式表达为:
fid=Encid(IN) (1),
fexp_i=Encexp(ei) (2),
将身份特征向量fid和第i帧的表情特征向量fexp_i进行串联,得到特征向量f且f=fid+fexp_i,将特征向量f输送到解码器Dec1进行解码,生成第一阶段预测图Ipre-target,且Ipre-target=Dec1(f),最后将Ipre-target输入到判别器D1中判别图像的真假;
第三步,将第一阶段预测图作为输入,采用CycleGAN的思想重构源人脸中性图像:
将第一阶段预测图Ipre-target和上述第二步中的中性无表情图像IN所对应的表情轮廓图eN重新作为表情迁移网络FaceGAN的输入,利用身份编码器Encid提取图像Ipre-target的身份特征向量,同时利用表情编码器Encexp提取表情轮廓图eN的表情特征向量,重复进行上述第二步的操作,经解码器解码生成IN的重构图像Irecon,生成重构图像Irecon的公式表达为:
Irecon=Dec1(Encid(Ipre-target)+Encexp(eN)) (3);
第四步,计算第一阶段表情迁移网络FaceGAN中的损失函数:
上述第一阶段表情迁移网络FaceGAN中的生成器G1的损失函数具体公式为:
其中,
其中,Ireal为目标真实值,公式(5)为生成器的对抗损失,D1(·)表示判别器D1对象为真的概率,公式(6)中的SSIM(·)函数用来衡量两张图像之间的相似性,公式(7)为像素损失,MAE(·)函数为均方误差函数,用来衡量真实值与预测值之间的差距,公式(8)为感知损失,利用VGG-19提取图像的感知特征,采用VGG-19网络中的最后一个卷积层输出的特征作为图像的感知特征,以此计算生成图像与真实图像之间的感知损失,公式(9)为重构损失,计算源人脸的中性无表情图像IN和其重构图像Irecon之间的距离;
上述第一阶段表情迁移网络FaceGAN中的判别器D1的损失函数具体公式为:
其中,
公式(11)为对抗损失,公式(12)为重构图像的对抗损失,其中,λ1和λ2为相似性损失与感知损失/>在FaceGAN的生成器G1中的权重参数,λ3为重构图像的对抗损失/>在FaceGAN判别器损失中的权重参数;
搭建第二阶段的细节生成网络FineGAN,包括第五步到第七步:
第五步,生成适应个体的局部掩模向量:
将上述第一步中获得的每张人脸中的多个特征点用于提取出眼睛区域Ieye和嘴巴区域Imouth,分别设置眼睛掩模向量Meye和嘴巴掩模向量Mmouth,以眼部为例,将图像中眼睛区域的像素值设为1,其他区域像素值设为0,构成眼睛掩模向量Meye,嘴巴掩膜向量Mmouth的构成与眼睛掩模向量Meye类似;
第六步,将上述第一阶段预测图输入到第二阶段的网络中,进行细节优化:
细节生成网络FineGAN中包含生成器G2和判别器D2,D2是由一个全局判别器Dglobal和两个局部判别器Deye和Dmouth构成;
将第一阶段预测图Ipre-target和第二步中的中性无表情图像IN输入到生成器G2中,生成具有更多人脸细节的第二阶段预测图Itarget,然后将第二阶段预测图Itarget同时输入到三个判别器中,通过全局判别器Dglobal对第二阶段预测图Itarget进行全局判别,使第二阶段预测图Itarget与目标真实图像Ireal尽可能接近,通过眼部局部判别器Deye和嘴部局部判别器Dmouth对第二阶段预测图Itarget的眼部和嘴部区域进一步着重优化,使得第二阶段预测图Itarget更加逼真,第二阶段预测图Itarget的公式表达为:
Itarget=G2(Ipre-target,IN) (13);
第七步,计算第二阶段FineGAN中的损失函数:
生成器G2损失函数具体公式为:
其中,
公式(15)为对抗损失,包含全局对抗损失和局部对抗损失,操作符是哈达玛积,公式(16)为像素损失,公式(17)和公式(18)为局部像素损失,计算生成图像的局部区域与真实图像的局部区域的像素差值的L1范数,公式(19)为局部感知损失,生成器G2总损失函数即各损失函数的加权和;
判别器D2的损失函数具体公式为:
其中,
公式(21)为全局判别器的对抗损失,公式(22)和公式(23)为局部判别器的对抗损失,其中,λ4和λ5分别为局部对抗损失在FineGAN生成器G2中的权重参数,λ6和λ7分别为眼部像素损失和嘴部像素损失/>在FineGAN生成器G2中的权重参数,λ8为局部感知损失/>在FineGAN生成器G2中的权重参数,λ9为全局对抗损失损失/>在FineGAN判别器D2中的权重参数;
第八步,合成视频:
每一帧均是独立生成,因此在完成n帧图像(Itarget_1,Itarget_2,···,Itarget_i,···,Itarget_n)的生成后,将视频帧序列合成最终的人脸动画;
至此,完成基于双生成对抗网络的两阶段表情动画的生成,对人脸图像中的表情进行了转换,并优化了图像细节。
2.根据权利要求1所述的生成方法,其特征在于,所述身份编码器Encid包含4层卷积块,前3层卷积块中加入CBAM注意力模块;表情编码器Encexp包含3层卷积块,在最后一层卷积块中加入CBAM注意力模块,解码器Dec1中包含4层反卷积块,在前3层卷积块中加入了CBAM注意力模块,同时使用跳跃连接将网络高层与低层结合,具体做法是将身份编码器Encid第1层的输出与解码器Dec1倒数第1层的输入相连接,身份编码器Encid第2层的输出与解码器Dec1倒数第2层的输入相连接,身份编码器Encid第3层的输出与解码器Dec1倒数第3层的输入相连接。
3.根据权利要求1所述的生成方法,其特征在于,各损失的权重参数设置为:
4.根据权利要求1所述的生成方法,其特征在于,第一步中获取每张人脸的特征点的数量为68个,68个特征点构成人脸轮廓及眼睛、嘴巴、鼻子轮廓。
CN202010621885.2A 2020-07-01 2020-07-01 基于双生成对抗网络的两阶段表情动画生成方法 Active CN111783658B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010621885.2A CN111783658B (zh) 2020-07-01 2020-07-01 基于双生成对抗网络的两阶段表情动画生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010621885.2A CN111783658B (zh) 2020-07-01 2020-07-01 基于双生成对抗网络的两阶段表情动画生成方法

Publications (2)

Publication Number Publication Date
CN111783658A CN111783658A (zh) 2020-10-16
CN111783658B true CN111783658B (zh) 2023-08-25

Family

ID=72761358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010621885.2A Active CN111783658B (zh) 2020-07-01 2020-07-01 基于双生成对抗网络的两阶段表情动画生成方法

Country Status (1)

Country Link
CN (1) CN111783658B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541477B (zh) 2020-12-24 2024-05-31 北京百度网讯科技有限公司 表情包生成方法、装置、电子设备和存储介质
CN113033288B (zh) * 2021-01-29 2022-06-24 浙江大学 一种基于生成对抗网络的侧脸图片生成正脸图片的方法
CN113343761A (zh) * 2021-05-06 2021-09-03 武汉理工大学 一种基于生成对抗的实时人脸表情迁移方法
CN113326934B (zh) * 2021-05-31 2024-03-29 上海哔哩哔哩科技有限公司 神经网络的训练方法、生成图像及视频的方法和装置
US11900519B2 (en) * 2021-11-17 2024-02-13 Adobe Inc. Disentangling latent representations for image reenactment
CN115100329B (zh) * 2022-06-27 2023-04-07 太原理工大学 基于多模态驱动的情感可控面部动画生成方法
CN115311261A (zh) * 2022-10-08 2022-11-08 石家庄铁道大学 高速铁路接触网悬挂装置开口销异常检测方法和***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304638A (ja) * 2001-04-03 2002-10-18 Atr Ningen Joho Tsushin Kenkyusho:Kk 表情アニメーション生成装置および表情アニメーション生成方法
WO2019228317A1 (zh) * 2018-05-28 2019-12-05 华为技术有限公司 人脸识别方法、装置及计算机可读介质
CN110689480A (zh) * 2019-09-27 2020-01-14 腾讯科技(深圳)有限公司 一种图像变换方法及装置
CN111243066A (zh) * 2020-01-09 2020-06-05 浙江大学 一种基于自监督学习与生成对抗机制的人脸表情迁移方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304638A (ja) * 2001-04-03 2002-10-18 Atr Ningen Joho Tsushin Kenkyusho:Kk 表情アニメーション生成装置および表情アニメーション生成方法
WO2019228317A1 (zh) * 2018-05-28 2019-12-05 华为技术有限公司 人脸识别方法、装置及计算机可读介质
CN110689480A (zh) * 2019-09-27 2020-01-14 腾讯科技(深圳)有限公司 一种图像变换方法及装置
CN111243066A (zh) * 2020-01-09 2020-06-05 浙江大学 一种基于自监督学习与生成对抗机制的人脸表情迁移方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于条件生成式对抗网络的面部表情迁移模型;陈军波;刘蓉;刘明;冯杨;;计算机工程(第04期);全文 *

Also Published As

Publication number Publication date
CN111783658A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111783658B (zh) 基于双生成对抗网络的两阶段表情动画生成方法
Zhou et al. Photorealistic facial expression synthesis by the conditional difference adversarial autoencoder
CN111080511B (zh) 一种端到端的高分辨率多特征提取的人脸交换方法
CN111275518A (zh) 一种基于混合光流的视频虚拟试穿方法及装置
CN113807265B (zh) 一种多样化的人脸图像合成方法及***
CN113255457A (zh) 基于人脸表情识别的动画角色面部表情生成方法及***
CN115170559A (zh) 基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法
WO2024109374A1 (zh) 换脸模型的训练方法、装置、设备、存储介质和程序产品
CN115359534B (zh) 基于多特征融合和双流网络的微表情识别方法
CN116071494A (zh) 基于隐式神经函数的高保真三维人脸重建与生成方法
CN113362422A (zh) 一种阴影鲁棒的基于解耦表示的妆容迁移***及方法
Zhou et al. Generative adversarial network for text-to-face synthesis and manipulation with pretrained BERT model
CN112686830A (zh) 基于图像分解的单一深度图的超分辨率方法
Huang et al. Multi-density sketch-to-image translation network
Huang et al. IA-FaceS: A bidirectional method for semantic face editing
CN114549387A (zh) 一种基于伪标签的人脸图像高光去除方法
Liu et al. WSDS-GAN: A weak-strong dual supervised learning method for underwater image enhancement
CN111767842B (zh) 基于迁移学习和自编码器数据增强的微表情种类判别方法
Otto et al. A perceptual shape loss for monocular 3D face reconstruction
He et al. Speech4mesh: Speech-assisted monocular 3d facial reconstruction for speech-driven 3d facial animation
Fan et al. Facial Expression Transfer Based on Conditional Generative Adversarial Networks
CN115527275A (zh) 基于P2CS_3DNet的行为识别方法
CN115578298A (zh) 一种基于内容感知的深度肖像视频合成方法
Wang et al. Expression-aware neural radiance fields for high-fidelity talking portrait synthesis
Sun et al. Generation of virtual digital human for customer service industry

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant