CN111860044A

CN111860044A - 人脸换脸方法、装置、设备及计算机存储介质

Info

Publication number: CN111860044A
Application number: CN201910344573.9A
Authority: CN
Inventors: 覃威宁; 郑天祥; 周润楠; 王山虎; 张涛; 唐杰
Original assignee: Beijing Momo Information Technology Co Ltd
Current assignee: Beijing Momo Information Technology Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2020-10-30

Abstract

本发明公开了一种人脸换脸方法、装置、设备及计算机存储介质。所述方法包括：获得第一人脸图像和第二人脸图像；识别第二人脸图像中的关键点，提取关键点圈定的区域的框图，得到第一表情姿态图；将第一表情姿态图与第一人脸图像输入生成式对抗网络GAN模型，得到将第一表情姿态图与第一人脸图像融合后的换脸图像。根据本发明实施例，能够通过剥离目标人脸上的表情来进行换脸操作，提高人脸换脸的自然程度。本发明还公开了一种基于上述方法的装置、设备及计算机存储介质。

Description

人脸换脸方法、装置、设备及计算机存储介质

技术领域

本发明属于图像处理技术领域，尤其涉及一种人脸换脸方法、装置、设备及计算机存储介质。

背景技术

随着网络的发展，大众娱乐性质的社交软件不断增多，在许多具有直播、视频拍摄以及图像编辑等功能的社交软件中，人脸交换逐渐成为大众娱乐的新热点，具备了越来越广泛的应用场景。人脸交换或者说换脸技术，指的是在图像或者视频中将一个人的脸换成另一个人的脸。

但是，目前的换脸技术中，将人脸进行交换后得到的图像或者视频中，存在人脸的表情不自然的情况，影响了人脸换脸的效果。

发明内容

本发明实施例提供一种人脸换脸方法、装置、设备及计算机存储介质，能够通过剥离目标人脸上的表情来进行换脸操作，提高人脸换脸的自然程度。

一方面，本发明实施例提供一种人脸换脸方法，方法包括：

获得第一人脸图像和第二人脸图像；

识别第二人脸图像中的关键点，提取关键点圈定的区域的框图，得到第一表情姿态图；

将第一表情姿态图与第一人脸图像输入生成式对抗网络GAN模型，得到将第一表情姿态图与第一人脸图像融合后的换脸图像。

另一方面，本发明实施例提供了一种人脸换脸装置，装置包括：

图像获得模块，用于获得第一人脸图像和第二人脸图像；

表情提取模块，用于识别第二人脸图像中的关键点，提取关键点圈定的区域的框图，得到第一表情姿态图；

表情融合模块，用于将第一表情姿态图与第一人脸图像输入生成式对抗网络GAN模型，得到将第一表情姿态图与第一人脸图像融合后的换脸图像。

再一方面，本发明实施例提供了一种人脸换脸设备，设备包括：

处理器以及存储有计算机程序指令的存储器；

处理器执行计算机程序指令时实现如以上任意一项的在人脸换脸方法。

再一方面，本发明实施例提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现如以上任意一项的人脸换脸方法。

本发明实施例的人脸换脸方法、装置、设备及计算机存储介质，能够将被替换的第二人脸图像中的关键点圈定的区域的框图进行提取，得到第一表情姿态图，因此该第一表情姿态图内仅包含第二人脸图像中关键部位的表情信息；之后将第一表情姿态图和第一人脸图像输入训练好的GAN网络进行融合，即可得到将第一表情姿态图与第一人脸图像融合后的换脸图像。此时该换脸图像即为使用第一人脸图像替换第二人脸图像后的结果图。由于在本发明中，单独将第二人脸图像中的表情信息进行了提取，而表情信息除了能够反映人脸的表情之外，还可以反映人脸的姿态角度，因此之后直接将第一人脸图像按照所提取出来的第一表情姿态图进行调整，即可得到具有第二人脸图像表情和姿态的自然的换脸图像，尽可能提高了换脸后人物表情和姿态的自然程度，换脸效果更好。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的人脸换脸方法的流程示意图；

图2是本发明一个实施例提供的GAN模型训练过程的流程示意图；

图3是GAN网络的工作过程示意图；

图4是第一表情姿态图的示意图；

图5是本发明一个实施例提供的人脸换脸装置的结构示意图；

图6是本发明一个实施例提供的人脸换脸设备的结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了解决现有技术问题，本发明实施例提供了一种人脸换脸方法、装置、设备及计算机存储介质。下面首先对本发明实施例所提供的人脸换脸方法进行介绍。

图1示出了本发明一个实施例提供的人脸换脸方法的流程示意图。该方法包括：

步骤s11：获得第一人脸图像和第二人脸图像；

换脸操作，指的是用A人脸换掉图像或者视频中的B人脸，使得换脸后的图像或视频中的A人脸能够呈现原来B人脸的表情，并且尽可能的自然。其中，第一人脸图像指的即为上述A人脸的图像，第二人脸图像指的为上述B人脸的图像；并且，本发明中所提到的第一人脸图像和第二人脸图像是仅指得是人脸部分的图像，而不限定包含人的头发以及背景部分。

步骤s12：识别第二人脸图像中的关键点，提取关键点圈定的区域的框图，得到第一表情姿态图；

图4是第一表情姿态图的示意图；人脸图像中的关键点，指的是能够表征人脸特征的部分的特征点，用于区分不同人脸之间的区别，获取关键点的目的，是为了确定人脸各个部位的形状，之后据此即可表征人脸图像的表情和姿态，这里的表情指的是大笑、微笑、伤心等特征，姿态指的是人左右转头、上下转头、平面歪头以及正脸等人脸角度特征。而关键点在人脸上所圈定的区域的框图，这里的框图仅是用于表明关键点在人脸上所圈定的区域的轮廓，框图仅是特征点连接形成的图像，不包含人脸属性，如皮肤、光照等，因为本发明仅是想根据框图所圈定的轮廓，来确定第二人脸图像上的表情姿态信息，因为关键点圈定的框图的形状能够反映出人物的表情以及姿态。因此，通过提取上述框图，即能够将第二人脸图像上的表情信息提取出来。

步骤s13：将第一表情姿态图与第一人脸图像输入生成式对抗网络GAN模型，得到将第一表情姿态图与第一人脸图像融合后的换脸图像。

本发明实施例的人脸换脸方法，能够将被替换的第二人脸图像中的关键点圈定的区域的框图进行提取，得到第一表情姿态图，因此该第一表情姿态图内仅包含第二人脸图像中关键部位的表情信息；之后将第一表情姿态图和第一人脸图像输入训练好的GAN网络进行融合，即可得到将第一表情姿态图与第一人脸图像融合后的换脸图像，此时该换脸图像即为使用第一人脸图像替换第二人脸图像后的结果图。由于在本发明中，单独将第二人脸图像中的表情信息进行了提取，而人脸的表情以及姿态(脸的角度等)均能够通过人脸的表情信息进行表征，因此之后直接将第一人脸图像的表情和姿态按照所提取出来的表情信息进行调整，即可得到具有第二人脸图像表情及姿态的换脸图像，并且能够尽可能保证换脸后人物表情和姿态的自然程度，换脸效果更好。

其中，图3是GAN网络的工作过程示意图；GAN网络包括G网络和D网络，G为生成器generator，用于进行数据生成；D是discriminator判别器，负责判断数据是不是真数。在GAN网络训练过程中，过程为：G生成数据后输入D，D将G生成的数据与真值数据进行比较，依据比较误差调整自身参数以及G的参数。其中，G和D的参数调整可以采用梯度上升法或者梯度下降法，当然，本发明不限定GAN网络的内部参数的调整算法。

本发明中，将第一表情姿态图作为GAN模型的条件因素进行输入，使得GAN模型的输出可控，从而保证整个换脸过程能够达到预期的效果。

在一种优选实施例中，步骤s12中，提取关键点圈定的区域的框图的过程，包括：提取并连接各个关键点，得到关键点组成的多个封闭图形；使用预设颜色填充封闭图形，得到第一表情姿态图。

具体的，由于本发明前述实施例中提到，为了使关键点能够确定脸部部位的位置和形状，因此，每个部位处的关键点组合连接之后，组成的应该是能够包围对应部位的封闭图形(例如眼睛)。之后，由于本发明想要得到的表情姿态图是框图，也就是仅为轮廓图，因此需要采用预设颜色来对各个封闭图形进行填充，之后将颜色填充完成后的各个封闭图形进行提取，则得到第一表情姿态图。

进一步可知，若两个封闭图形的位置对称，则分别采用不同的颜色填充上述两个封闭图形。

由于人脸上存在有位置对称的部分，例如眉毛，眼睛等，这些对称的部分若不进行区分的话，后续GAN网络可能无法区分左右，如出现左右弄错的情况，例如将左眉毛的形状与第一人脸图像的右眉毛进行融合的话，则最终得到的换脸图像中的表情显然与第二人脸图像不同，进而导致换脸图像不自然的情况。因此，为了避免左右颠倒的问题，本实施例将对称的封闭图像采用不同的颜色进行填充，从而方便了后续GAN网络的识别。需要注意的是，在本发明中，各个部位处的封闭图形所对应的填充颜色是已经设定好的，例如右眉毛处的封闭图形填充绿色，左眉毛处的封闭图形填充红色，则后续GAN模型通过识别各个封闭图形的颜色以及整***置，即可确定封闭图形所对应的部位，进而与第一人脸图像进行融合。当然，各个部位具体设置何种填充颜色，本发明不作限定。

在优选实施例中，关键点圈定的区域包括眉毛区域、眼睛区域、鼻子区域以及嘴唇区域。

具体的，上述实施例中，关键点圈定的区域限定为了五官部位的区域，这是因为五官是最能够反映人脸表情的部位，并且当人脸处于不同的角度姿态时，五官的形状显然也是不同的，因此依据五官的形状也能反映人脸的姿态。其中，关键点将眉毛区域也进行圈定的目的，是因为对于许多人来说，在做不同的表情和姿态时，除了眼睛、鼻子、嘴唇之外，眉毛也会相应的动作，因此眉毛的信息也能够反映表情信息。

另外，在一种优选实施例中，关键点圈定的区域还可以包含脸部轮廓。

这是由于不同人的人脸轮廓是不同的，因此在换脸过程中，若是不替换人脸轮廓的话，会使得替换后的人脸与其身体之间存在不协调的情况，导致换脸结果不自然。另外，脸部轮廓的形状，也能够直观的反映人脸的角度姿态情况。

以上仅为两种具体的实施例，主要应用于全脸均进行更换的场景中。在部分场景中，例如美颜场景下，用户可能仅需要进行眼部的更换，例如想要将自己的眼睛与明星的眼睛进行更换，这种情况下，关键点圈定的区域则可以仅包含眼睛区域。当然，关键点圈定的区域根据其所处的应用场景的需求而定，本发明对此不做限定。

另外，本发明中关键点的个数可以设置为68、87或137个，当然，还可以设置为其他数值，本发明不限定关键点的个数。

图2是本发明一个实施例提供的GAN模型训练过程的流程示意图；GAN网络的训练过程包括：

步骤s21：选择属于同一人的两张人脸图像分别作为第三人脸图像和第四人脸图像；

步骤s22：识别第四人脸图像中的关键点，提取关键点圈定的区域的框图，得到第二表情姿态图；

步骤s23：将第二表情姿态图与第三人脸图像输入待训练的GAN网络内，得到待测试的换脸图像；

步骤s24：将待测试的换脸图像与第四人脸图像进行比对，依据比对误差调整GAN网络的内部参数；

步骤s25：判断当前的比对误差是否满足预设误差要求，若满足，则得到GAN模型，若不满足，选择不同的人脸图像，返回步骤s21。本步骤选择不同的人脸图像重复上述训练操作，直至得到的比对误差满足预设误差要求，则当前的GAN网络即为训练完成的GAN模型。

其中，本实施例在每次训练时，选择的是同一个的两张人脸图像，这样做的目的，是因为在GAN网络训练过程中，需要设置有真值，也就是理论上希望最终输出能够达到的目标图像，但是由于本发明的目的是对目前效果不够自然的换脸方法进行改进，因此若选择不属于同一人的两张人脸图像的话，很难得到其所对应的真值，而若选择表情相同的两个人的人脸图像，训练样本的获取又较为复杂。因此，本实施例直接采用同一人的两张表情不同的人脸图像，这样的话，在将人脸图像1中的人脸与人脸图像2中表情融合后，理论上的真值即为人脸图像2，也就是上述第四人脸图像。这种训练方式，简化了训练样本以及真值的获取过程，方便了GAN模型的训练。

另外，在获取训练样本时，可以包括同一个人的多组人脸图像，例如张女士的10组人脸图像，每组人脸图像包括两张表情不同的人脸图像；或者，训练样本还可以包括不同人的多组人脸图像，例如张女士的1组人脸图像，王女士的一组人脸图像等。当然，以上仅为几种具体的实现方式，本发明不限定上述训练样本的组成。

在其他实施例中，在训练GAN模型的过程中，也可以将GAN网络输出的待测试的换脸图像中的表情信息进行提取，得到待测试的表情姿态图，之后将上述第二表情姿态图作为真值与该待测试的表情姿态图进行比对，来确定比对误差。这种情况下，训练样本则不必局限于同一人的两张人脸图像，而是任意两张人脸图像均可，这种方式进一步简化了训练样本的获取过程。当然，以上仅为几种具体的实现方式，本发明不限定GAN模型的具体的训练过程。

基于上述训练过程进行分析，由于目前点对点的换脸方式，所使用的模型仅能对特定的两个人进行换脸或者是仅能换成固定某个人的人脸。而本发明中，通过训练GAN网络，使得后续在输入人脸图像以及表情姿态图后，能够以合适的方式将两者进行融合，从而得到表情自然的换脸图像。由于本发明训练的仅是这个融合操作，并不限定于人脸图像是谁的，因此本发明并不限定于对固定两个人进行换脸，而是对任意两个人均可进行换脸，局限性小，能够实现多对多的换脸情况，适用范围更广。并且，本发明实施例相比像素点挨个替换的换脸方式，过程简单，换脸的速度和效率更高。

在一种实施例中，步骤s13中，得到换脸图像后，还包括：用换脸图像替换第二人脸图像对应的原始图像中的人脸部分，得到换脸完成图像。

具体的，在得到换脸图像后，由于换脸图像仅包含人脸部分，因此还需要将该换脸图像替换所述第二人脸图像对应的原始图像中的人脸部分，得到换脸完成图像。

其中，第二人脸图像对应的原始图像为待换脸的视频中的视频帧。当然，第二人脸图像对应的原始图像具体为独立的图像，还是视频中的视频帧与用户的实际需求相关，本发明对此不作限定。

本发明实施例提供了一种人脸换脸装置，图3是本发明一个实施例提供的人脸换脸装置的结构示意图；该装置包括：

图像获得模块1，用于获得第一人脸图像和第二人脸图像；

表情提取模块2，用于识别第二人脸图像中的关键点，提取关键点圈定的区域的框图，得到第一表情姿态图；

表情融合模块3，用于将第一表情姿态图与第一人脸图像输入生成式对抗网络GAN模型，得到将第一表情姿态图与第一人脸图像融合后的换脸图像。

图6示出了本发明实施例提供的人脸换脸设备的硬件结构示意图。

在人脸换脸设备可以包括处理器301以及存储有计算机程序指令的存储器302。处理器301通过读取并执行存储器302中存储的计算机程序指令，以实现上述实施例中的任意一种人脸换脸方法。

具体地，上述处理器301可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器302可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器302可在综合网关容灾设备的内部或外部。在特定实施例中，存储器302是非易失性固态存储器。在特定实施例中，存储器302包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

在一个示例中，人脸换脸设备还可包括通信接口303和总线310。其中，如图6所示，处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。

通信接口303，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线310包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、***组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线310可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

另外，结合上述实施例中的人脸换脸方法，本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种人脸换脸方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或***。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的***、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种人脸换脸方法，其特征在于，包括：

获得第一人脸图像和第二人脸图像；

识别所述第二人脸图像中的关键点，提取所述关键点圈定的区域的框图，得到第一表情姿态图；

将所述第一表情姿态图与所述第一人脸图像输入生成式对抗网络GAN模型，得到将所述第一表情姿态图与所述第一人脸图像融合后的换脸图像。

2.根据权利要求1所述的人脸换脸方法，其特征在于，所述提取所述关键点圈定的区域的框图的过程，包括：

提取并连接各个所述关键点，得到所述关键点组成的多个封闭图形；

使用预设颜色填充所述封闭图形，得到所述第一表情姿态图。

3.根据权利要求2所述的人脸换脸方法，其特征在于，若两个所述封闭图形的位置对称，则分别采用不同的颜色填充上述两个封闭图形。

4.根据权利要求1所述的人脸换脸方法，其特征在于，所述GAN网络的训练过程包括：

选择属于同一人的两张人脸图像分别作为第三人脸图像和第四人脸图像；

识别所述第四人脸图像中的关键点，提取所述关键点圈定的区域的框图，得到第二表情姿态图；

将所述第二表情姿态图与所述第三人脸图像输入待训练的GAN网络内，得到待测试的换脸图像；

将所述待测试的换脸图像与所述第四人脸图像进行比对，依据比对误差调整所述GAN网络的内部参数；

选择不同的人脸图像，重复上述操作，直至得到的比对误差满足预设误差要求，得到所述GAN模型。

5.根据权利要求1所述的人脸换脸方法，其特征在于，所述得到换脸图像后，还包括：

用所述换脸图像替换所述第二人脸图像对应的原始图像中的人脸部分，得到换脸完成图像。

6.根据权利要求5所述的人脸换脸方法，其特征在于，所述第二人脸图像对应的原始图像为待换脸的视频中的视频帧。

7.根据权利要求1所述的人脸换脸方法，其特征在于，所述关键点圈定的区域包括眉毛区域、眼睛区域、鼻子区域以及嘴唇区域。

8.一种人脸换脸装置，其特征在于，所述装置包括：

图像获得模块，用于获得第一人脸图像和第二人脸图像；

表情提取模块，用于识别所述第二人脸图像中的关键点，提取所述关键点圈定的区域的框图，得到第一表情姿态图；

表情融合模块，用于将所述第一表情姿态图与所述第一人脸图像输入生成式对抗网络GAN模型，得到将所述第一表情姿态图与所述第一人脸图像融合后的换脸图像。

9.一种人脸换脸设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的在人脸换脸方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的人脸换脸方法。