CN111461959A

CN111461959A - 人脸情绪合成方法及装置

Info

Publication number: CN111461959A
Application number: CN202010095755.XA
Authority: CN
Inventors: 沈海斌; 孔家慧; 黄科杰
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2020-07-28
Anticipated expiration: 2040-02-17
Also published as: CN111461959B

Abstract

本发明公开了一种人脸情绪合成方法及装置。包括获取当前帧彩色图像，并提取人脸图像，调整到预设大小；检测人脸图像的若干个预设关键点位置，根据关键点位置绘制人脸各个部分的轮廓图，获取人脸轮廓图像；将人脸图像，人脸轮廓图像以及目标情绪标签输入至第一级卷积神经网络获取粗合成人脸图像；利用粗合成人脸图像和原始人脸图像的残差图像作为输入，使用第二级卷积神经网络预测图像掩膜；根据粗合成人脸图像，人脸图像和图像掩膜计算修正的合成人脸图像。可以在多种环境光照，人脸遮挡和极端姿态条件下合成自然逼真的具有目标情绪的人脸图像或人脸视频。

Description

人脸情绪合成方法及装置

技术领域

本发明属于人脸情绪合成技术领域，特别涉及人脸情绪合成方法及装置。

背景技术

人脸情绪合成是指通过技术手段改变给定的图像或者视频中人物的情绪表达，例如自然，高兴，惊讶，伤心等。人脸情绪合成在图像编辑软件，拍照软件，小视频软件中有较多娱乐应用，在图片制作，影视制作领域也有商业应用价值。然而，现有的人脸情绪合成还不够成熟，主要在一些特效APP上使用，应用能力还不够强。当前技术主要有以下缺点：(1)情绪不够丰富；(2)对视频进行逐帧处理得到的合成视频连贯性不够，已有效果合成的情绪表达方式比较统一，例如对人物演讲的视频进行处理后，无法保留人物原本演讲的内容，不够自然，限制了在小视频，影视制作领域的应用能力；(3)在复杂的光照环境，人脸有遮挡和人物姿态较大的情况下，合成效果不稳定，鲁棒性较差。

发明内容

为了解决上述技术问题，本发明提出一种可以在多种环境光照，人脸遮挡和极端姿态条件下合成自然逼真的具有目标情绪的人脸图像或人脸视频的方法，并设计了一种用于实现该方法的装置。

本发明具体采用如下技术方案：

一种人脸情绪合成方法，包括：

步骤S101，获取当前帧彩色图像；

步骤S102，从所述当前帧彩色图像中提取人脸图像，调整所述人脸图像到预设大小；

步骤S103，根据所述人脸图像的若干个预设关键点位置，获取人脸轮廓图像；

步骤S104，设定目标情绪标签，将所述人脸图像，所述人脸轮廓图像以及目标情绪标签输入至第一级卷积神经网络，获取粗合成人脸图像；所述目标情绪标签是指所期望的粗合成人脸图象的情绪；

步骤S105，将所述粗合成人脸图像和所述人脸图像作差获取残差图像，输入至第二级卷积神经网络获得图像掩膜；

步骤S106，利用所述图像掩膜对所述粗合成人脸图像和所述人脸图像进行计算，获取最终修正的合成人脸图像。

作为本发明的优选，所述第一级卷积神经网络包括图像编码器、轮廓编码器、图像解码器和轮廓解码器；所述图像编码器和轮廓编码器均由若干个下采样层组成，将调整后的所述人脸图像输入至图像编码器，将所述人脸轮廓图像和情绪标签拼接后输入至轮廓编码器，将图像编码器与轮廓编码器输出的编码特征拼接，经若干个级联的残差块处理后得到混合特征；所述图像解码器包括若干个上采样层和拼接层，每一个上采样层之后跟着一个拼接层，最后一个拼接层连接输出层；所述轮廓解码器由若干个上采样层组成，最后一个上采样层连接输出层；将所述混合特征输入至图像解码器，其中每经过一层上采样层，将得到的特征与由图像编码器计算得到的同尺寸特征进行拼接，获得粗合成人脸图像；将所述混合特征输入至轮廓解码器，获得合成人脸轮廓图像。

作为本发明的优选，所述第二级卷积神经网络包括若干个残差块以及一层卷积层；将所述粗合成人脸图像减去调整后的所述人脸图像，获得残差图像；将所述残差图像输入至若干个级联的残差块，最后经过一层卷积层处理，获得图像掩模。

针对上述人脸情绪合成方法，本发明公开了一种人脸情绪合成装置，包括图像获取模块、人脸提取模块、轮廓提取模块、粗合成模块和修正模块；所述图像获取模块用于获取当前帧的彩色图像；人脸提取模块用于从当前帧的彩色图像中提取人脸图像并调整大小；轮廓提取模块用于从所述人脸图像中检测若干个关键点坐标并绘制人脸轮廓图像；粗合成模块用于利用第一级卷积神经网络对调整后的所述人脸图像，所述人脸轮廓图像以及目标情绪标签进行处理，获取粗合成的人脸图像，其中，所述目标情绪标签是指所期望的粗合成人脸图象的情绪；修正模块用于利用第二级神经网络对调整后的所述人脸图像，所述粗合成的人脸图像之间的残差进行处理，获取图像掩膜，并根据图像掩膜计算最终修正的合成人脸图像。

本发明与现有技术相比存在的有益效果是：

本发明方案获取当前帧彩色图像，从该图像中提取人脸图像，检测人脸图像的若干关键点坐标并绘制人脸轮廓图像，使用第一级卷积神经网络处理所述人脸图像，所述人脸轮廓图像以及目标情绪标签，获取粗合成的人脸图像，再使用第二级卷积神经网络处理所述粗合成的人脸图像和所述人脸图像的残差图像，获取图像掩膜，最后计算得到最终修正的合成人脸图像。本发明方案通过所述人脸轮廓图像和第一级卷积神经网络提高粗合成人脸图像在复杂光照，人脸遮挡以及极端姿态条件下的鲁棒性。此外，还通过第一级卷积神经网络和第二级卷积神经网络的级联提高了对视频处理后得到的合成视频的图像连贯性。本发明方案能够在任意图像或视频拍摄环境下，任意姿态下合成自然逼真的人物情绪表达。

附图说明

图1为本发明一实施例中人脸情绪合成方法的流程图；

图2为本发明一实施例中人脸情绪合成装置的结构示意图；

图3为本发明中的第一级卷积神经网络的结构图；图中，31图像编码器、32轮廓编码器、33图像解码器、34轮廓解码器；

图4为本发明中的第二级卷积神经网络的结构图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1所示，本发明的第一方面，设计一种人脸情绪合成方法S100，包括：

步骤S101，获取当前帧彩色图像；

在本发明的一个具体实施例中，可以提供事先拍摄好的图像或者视频片段，也可以通过摄像头直接获取当前帧彩色图像。

在本发明的一个具体实施例中，使用OpenCV或者Dlib等机器学习库的人脸检测器进行人脸检测，并在获取检测到的人脸图像后将人脸图像调整到预设大小。预设大小可以设置为M*M(例如128*128)，其中，M为大于零的整数。

需要说明的是，获取人脸图像时可以包含一定的背景信息，不仅限于人脸部分，一般情况下所述人脸图像应当包含人物头部与部分背景。

步骤S103，检测所述人脸图像的若干个预设关键点位置，根据所述关键点位置在空白图像上绘制人脸各个部分的轮廓，获取人脸轮廓图像；

在本发明的一个具体实施例中，使用face_alignment库获取人脸68个关键点的坐标，然后绘制人脸轮廓图像，face_alignment库是由python编写的专用于检测人脸关键点的机器学习库。所述人脸轮廓图像应当与调整后的所述人脸图像对应，即大小相同，关键点坐标相对应。

在本发明的一个具体实施例中，第一级卷积神经网络的结构如图3所示，将所述人脸图像输入至图像编码器，将所述人脸轮廓图像以及目标情绪标签拼接后输入至轮廓编码器；将两个编码器编码获得的编码向量拼接，然后经过若干个残差块处理后得到混合特征，此处残差块数量为3；将所述混合特征输入至图像解码器，每经过一层上采样，就将当前获取的特征和前述编码器编码得到的同尺寸特征进行拼接，将拼接后的特征输入至下一层上采样层，最后获取粗合成的人脸图像；可选的，将混合特征输入至轮廓解码器，获取合成的人脸轮廓图像。

所述的第一级卷积神经网络的训练方法具体为：获取带有表情标签的野外公开数据集，对所述数据集中的所有图像进行预处理(从所处图像中提取人脸图像并缩放到预设大小，绘制对应的人脸轮廓图像)，获得大小为预设大小的人脸图像和人脸轮廓图像。第一级卷积神经网络包括图像编码器，轮廓编码器，图像解码器，轮廓解码器以及若干个残差块。在训练阶段首先接收人脸图像，人脸轮廓图像以及目标情绪标签作为输入，同时输出粗合成人脸图像以及与其对应的人脸轮廓图像，训练过程采用对抗生成网络的训练方式，除了第一级卷积神经网络以外，还需设置两个不同的卷积神经网络分辨监督与判断所述粗合成人脸图像和与其对应的人脸轮廓图像的真实性以及情绪标签，此外，还需再次将所述粗合成人脸图像，与其对应的人脸轮廓图像以及原人脸图像的情绪标签输入第一级神经网络，使第一级神经网络能够恢复出原始的人脸图像以及原始的人脸轮廓图像，然后进行损失函数Loss的计算，并使用Adam优化器进行模型优化，其中所有网络的学习率可以为0.0001，总的迭代次数可以是300000次，并且每1000输出结果进行观察，测试数据集同样进行预处理获得大小为预设大小的人脸图像和人脸轮廓图像。测试与实际使用时可以舍弃第一级卷积神经网络中的轮廓解码器。

其中，所述目标情绪标签指代对应人脸图像的情绪表达，包括但不限于自然、高兴、惊讶、伤心、生气、厌恶、害怕等，例如，目标情绪标签可以为0(自然)、1(高兴)、0(惊讶)、0(伤心)、0(生气)、0(厌恶)、0(害怕)，则对应该情绪标签的人脸图像的情绪表达为高兴。

步骤S105，将所述粗合成人脸图像减去所述人脸图像获取残差图像，该残差图像经第二级卷积神经网络处理后，获取预测的图像掩膜。第二级卷积神经网络的结构如图4所示，由若干个残差块和一个卷积层组成。

在本发明的一个具体实施例中，将所述粗合成人脸图像与所述人脸图像作差后得到的残差图像经过若干个残差块处理后，再经过一层卷积层，预测最终的图像掩膜。

所述的第二级神经网络的训练方法具体为：获取带有表情标签的野外公开数据集并按照上述的第一级卷积神经网络训练方法获取训练好的第一级卷积神经网络，使用第一级卷积神经网络得到粗合成图像后，使用该粗合成图像减去对应的人脸图像获得残差图像，经第二级卷积神经网络处理后得到图像掩膜，然后按照步骤S106计算得到最终修正的合成人脸图像，第二级卷积神经网络由若干个残差块以及一层卷积层组成。训练过程采用对抗生成网络的训练方式，需要额外设置一个卷积神经网络判断所述的最终修正的合成人脸图像的真实性，然后进行损失函数Loss的计算，并使用Adam优化器进行模型优化，其中所有网络的学习率可以为0.0001，总的迭代次数可以为10000次，并且每1000次输出结果进行观察，测试数据集同样进行处理获取所述残差图像。

步骤S106，利用所述图像掩膜对所述粗合成人脸图像和所述人脸图像进行计算，获取最终修正的合成人脸图像；

最终修正的合成人脸图像满足下述关系式：

I＝Isrc*(1-Mask)+Isyn*Mask

其中，I为最终修正的合成人脸图像，Isrc为所述调整后的人脸图像，Isyn为所述粗合成的人脸图像，Mask为所述图像掩膜。

本发明的人脸情绪合成方法，能够合成更丰富的情绪；本发明使用人脸关键点和人脸轮廓信息辅助，因此能够适应复杂的光照环境，人脸遮挡以及极端姿态条件，有很好的鲁棒性；本发明使用两个卷积神经网络级联来进一步优化结果，因此能合成更自然逼真的图像或者连贯的视频。

本发明的第二方面，如图2所示，提供了一种人脸情绪合成装置20，包括：

图像获取模块21，用于获取当前帧的彩色图像；

人脸提取模块22，用于从当前帧的彩色图像中提取人脸图像并调整大小；

轮廓提取模块23，用于从所述人脸图像中检测若干个关键点坐标并绘制人脸轮廓图像；

粗合成模块24，用于利用第一级卷积神经网络对调整后的所述人脸图像，所述人脸轮廓图像以及目标情绪标签进行处理，获取粗合成的人脸图像，其中，所述目标情绪标签是指所期望的粗合成人脸图象的情绪。

修正模块24，用于利用第二级神经网络对调整后的所述人脸图像，所述粗合成的人脸图像之间的残差进行处理，获取图像掩膜，并根据掩膜计算最终修正的合成人脸图像。

在本发明的一个具体实施例中，所述人脸提取模块包括：

提取单元：用于从当前帧彩色图像中提取所述人脸图像；

调整单元：用于调整所述人脸图像到预设大小。

在本发明的一个具体实施例中，所述轮廓提取模块包括：

检测单元：用于从调整后的所述人脸图像检测68个关键点的坐标；

绘制单元：用于创建预设大小的空白图像并根据68个关键点坐标绘制对应的人脸部分的轮廓。

在本发明的一个具体实施例中，所述粗合成模块包括：

合成单元：用于使用第一级卷积神经网络对调整后的所述人脸图像，所述人脸轮廓图像以及目标情绪标签进行处理，获取粗合成的人脸图像；其中目标情绪标签是预先设定并输入到合成单元中，粗合成的人脸图像具有与目标情绪标签对应的情绪。

在本发明的一个具体实施例中，所述修正模块包括：

残差计算单元：用于计算所述粗合成的人脸图像与调整后的所述人脸图像的残差图像；

预测单元：用于使用第二级卷积神经网络对该残差图像进行处理，预测图像掩膜；

修正单元：用于利用所述粗合成的人脸图像，调整后的所述图像以及预测的图像掩膜计算最终修正的合成人脸图像。

在本发明的一个具体实施例中，所述人脸情绪合成装置20的工作过程具体为：采用图像获取模块获取当前帧的彩色图像，图像获取模块依次连接提取单元和调整单元，从所述当前帧彩色图像中提取人脸图像，调整所述人脸图像到预设大小；所述调整单元的输出连接检测单元的输入，检测单元获得调整后的人脸图像的关键点坐标并输入到绘制单元中，绘制单元根据人脸关键点坐标绘制对应的人脸部分的轮廓。绘制单元、调整单元的输出均连接合成单元，所述合成单元还包括一个目标情绪标签的输入口，合成单元中载入了训练好的第一级卷积神经网络模型，合成单元的输出连接修正模块，所述修正模块中载入了训练好的第二级卷积神经网络模型，最终得到修正后的合成人脸图像。

本发明实施例提供的人脸情绪合成装置可以应用在前文人脸情绪合成方法的相关实施例中，详情参见上述方法的描述，在此不再赘述。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，依然可以对前述所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，这些修改和替换也视为本发明的保护范围。

Claims

1.一种人脸情绪合成方法，其特征在于，包括：

步骤S101，获取当前帧彩色图像；

2.根据权利要求1所述的人脸情绪合成方法，其特征在于，所述步骤S103具体为：检测调整后的所述人脸图像的68个关键点坐标，根据68个关键点坐标在预设大小的空白图像上绘制人脸各个部分的轮廓，获取人脸轮廓图像。

3.根据权利要求1所述的人脸情绪合成方法，其特征在于，所述第一级卷积神经网络包括图像编码器、轮廓编码器、图像解码器和轮廓解码器；所述图像编码器和轮廓编码器均由若干个下采样层组成，将调整后的所述人脸图像输入至图像编码器，将所述人脸轮廓图像和情绪标签拼接后输入至轮廓编码器，将图像编码器与轮廓编码器输出的编码特征拼接，经若干个级联的残差块处理后得到混合特征；

所述图像解码器包括若干个上采样层和拼接层，每一个上采样层之后跟着一个拼接层，最后一个拼接层连接输出层；所述轮廓解码器由若干个上采样层组成，最后一个上采样层连接输出层；将所述混合特征输入至图像解码器，其中每经过一层上采样层，将得到的特征与由图像编码器计算得到的同尺寸特征进行拼接，获得粗合成人脸图像；将所述混合特征输入至轮廓解码器，获得合成人脸轮廓图像。

4.根据权利要求1所述的人脸情绪合成方法，其特征在于，所述第二级卷积神经网络包括若干个残差块以及一层卷积层；将所述粗合成人脸图像减去调整后的所述人脸图像，获得残差图像；将所述残差图像输入至若干个级联的残差块，最后经过一层卷积层处理，获得图像掩模。

5.根据权利要求1所述的人脸情绪合成方法，其特征在于，在步骤S106中，最终修正的合成人脸图像满足下述关系式：

I＝Isrc*(1-Mask)+Isyn*Mask

6.一种人脸情绪合成装置，其特征在于，包括：

图像获取模块，用于获取当前帧的彩色图像；

人脸提取模块，用于从当前帧的彩色图像中提取人脸图像并调整大小；

轮廓提取模块，用于从所述人脸图像中检测若干个关键点坐标并绘制人脸轮廓图像；

粗合成模块，用于利用第一级卷积神经网络对调整后的所述人脸图像、人脸轮廓图像以及目标情绪标签进行处理，获取粗合成的人脸图像，其中，目标情绪标签是指所期望的粗合成人脸图象的情绪；

修正模块，用于利用第二级神经网络对调整后的所述人脸图像，所述粗合成的人脸图像之间的残差进行处理，获取图像掩膜，并根据图像掩膜计算最终修正的合成人脸图像。

7.如权利要求6所述的人脸情绪合成装置，其特征在于，所述人脸提取模块包括：

提取单元：用于从当前帧彩色图像中提取所述人脸图像；

调整单元：用于调整所述人脸图像到预设大小。

8.如权利要求6所述的人脸情绪合成装置，其特征在于，所述轮廓提取模块包括：

检测单元：用于从调整后的所述人脸图像检测关键点的坐标；

绘制单元：用于创建预设大小的空白图像并根据关键点坐标绘制对应的人脸部分的轮廓。

9.如权利要求6所述的人脸情绪合成装置，其特征在于，所述修正模块包括：

10.如权利要求6所述的人脸情绪合成装置，其特征在于，所述第一级卷积神经网络的结构中包括图像编码器、轮廓编码器、图像解码器和轮廓解码器；

所述图像编码器和轮廓编码器均由若干个下采样层组成，图像编码器和轮廓编码器的输出依次连接拼接层和若干个级联的残差块；

所述图像解码器包括若干个上采样层和拼接层，每一个上采样层之后跟着一个拼接层，最后一个拼接层连接输出层；所述轮廓解码器由若干个上采样层组成，最后一个上采样层连接输出层；

所述第二级卷积神经网络由输入层、若干个级联的残差块、卷积层和输出层依次连接组成。