CN112132912B

CN112132912B - 建立人脸生成模型以及生成人脸图像的方法、装置

Info

Publication number: CN112132912B
Application number: CN201910556085.4A
Authority: CN
Inventors: 李鑫; 刘霄; 张赫男; 赵翔; 李甫; 何栋梁; 龙翔; 周志超; 孙昊; 文石磊; 丁二锐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2024-02-13
Anticipated expiration: 2039-06-25
Also published as: CN112132912A

Abstract

本发明提供一种建立人脸生成模型的方法，包括：获取人脸图像；从各人脸图像中提取预设部位的图像以及人脸边缘图像，并拼接提取得到的图像作为对应各人脸图像的拼接图像，其中所述预设部位的图像为嘴巴图像；构建包含生成模型以及判别模型的生成对抗网络；根据所述人脸图像及其对应的拼接图像训练所述生成对抗网络，利用训练得到的生成对抗网络中的生成模型得到人脸生成模型。本发明还提供一种生成人脸图像的方法，包括：获取嘴巴图像；提取模板图像中人脸的人脸边缘图像，拼接所述人脸边缘图像与所述嘴巴图像得到输入图像；将所述输入图像输入人脸生成模型，根据所述人脸生成模型的输出结果得到人脸图像。本发明能够生成高清逼真的人脸图像。

Description

建立人脸生成模型以及生成人脸图像的方法、装置

【技术领域】

本发明涉及图像处理技术领域，尤其涉及一种建立人脸生成模型以及生成人脸图像的方法、装置、设备和计算机存储介质。

【背景技术】

在现有技术中，通常使用2D技术或者3D技术来生成来人脸图像。但2D技术所生成的人脸图像较为模糊，3D技术所生成的人脸图像的表情则较为呆滞。因此亟需提供一种能够生成高清逼真的人脸图像的方法。

【发明内容】

有鉴于此，本发明提供了一种建立人脸生成模型以及生成人脸图像的方法、装置、设备和计算机存储介质，用于生成高清逼真的人脸图像。

本发明为解决技术问题所采用的技术方案为提供一种建立人脸生成模型的方法，所述方法包括：获取人脸图像；从各人脸图像中提取预设部位的图像以及人脸边缘图像，并拼接提取得到的图像作为对应各人脸图像的拼接图像，其中所述预设部位的图像为嘴巴图像；构建包含生成模型以及判别模型的生成对抗网络；根据所述人脸图像及其对应的拼接图像训练所述生成对抗网络，利用训练得到的生成对抗网络中的生成模型得到人脸生成模型。

根据本发明一优选实施例，在获取人脸图像后，还包括：获取各人脸图像的分辨率，并滤除分辨率低于预设阈值的人脸图像。

根据本发明一优选实施例，所述预设部位的图像还包含眼睛图像以及眉毛图像；所述人脸边缘图像为去除了人脸图像中的嘴巴、鼻子以及下巴的图像。

根据本发明一优选实施例，所述构建包含生成模型以及判别模型的生成对抗网络包括：组合N个判别器构成所述判别模型，每个判别器的输入分别对应不同尺度的图像块，其中N为大于等于2的正整数。

根据本发明一优选实施例，所述根据所述人脸图像及其对应的拼接图像训练所述生成对抗网络包括：将所述人脸图像作为真实样本；将所述拼接图像输入所述生成模型，将所述生成模型得到的输出结果作为生成样本；将所述真实样本及其对应的生成样本作为所述判别模型的输入，根据所述判别模型的输出结果得到所述判别模型和所述生成模型的损失函数；根据所述判别模型和所述生成模型的损失函数，调整所述生成模型和所述判别模型的网络结构中的参数，直至所述生成对抗网络收敛。

根据本发明一优选实施例，所述将所述真实样本及其对应的生成样本作为所述判别模型的输入包括：从所述真实样本中获取N个不同尺度的图像块；从所述生成样本的相同位置处获取N个不同尺度的图像块；将相同尺度的两个图像块作为对应尺度的判别器的输入，拼接各尺度判别器的输出结果作为所述判别模型的输出结果。

本发明为解决技术问题所采用的技术方案是提供一种生成人脸图像的方法，所述方法包括：获取嘴巴图像；提取模板图像中人脸的人脸边缘图像，拼接所述人脸边缘图像与所述嘴巴图像得到输入图像；将所述输入图像输入人脸生成模型，根据所述人脸生成模型的输出结果得到人脸图像。

根据本发明一优选实施例，所述获取嘴巴图像包括：获取文本；将所述文本转化为语音，并基于转化得到的语音生成嘴巴图像。

根据本发明一优选实施例，所述方法还包括：提取模板图像中人脸的眼睛图像以及眉毛图像；拼接所述嘴巴图像、眼睛图像、眉毛图像以及人脸边缘图像得到输入图像。

本发明为解决技术问题所采用的技术方案为提供一种建立人脸生成模型的装置，所述装置包括：第一获取单元，用于获取人脸图像；第一拼接单元，用于从各人脸图像中提取预设部位的图像以及人脸边缘图像，并拼接提取得到的图像作为对应各人脸图像的拼接图像，其中所述预设部位的图像为嘴巴图像；构建单元，用于构建包含生成模型以及判别模型的生成对抗网络；训练单元，用于根据所述人脸图像及其对应的拼接图像训练所述生成对抗网络，利用训练得到的生成对抗网络中的生成模型得到人脸生成模型。

根据本发明一优选实施例，所述第一获取单元在获取人脸图像后，还执行：获取各人脸图像的分辨率，并滤除分辨率低于预设阈值的人脸图像。

根据本发明一优选实施例，所述构建单元在构建包含生成模型以及判别模型的生成对抗网络时，具体执行：组合N个判别器构成所述判别模型，每个判别器的输入分别对应不同尺度的图像块，其中N为大于等于2的正整数。

根据本发明一优选实施例，所述训练单元在根据所述人脸图像及其对应的拼接图像训练所述生成对抗网络时，具体执行：将所述人脸图像作为真实样本；将所述拼接图像输入所述生成模型，将所述生成模型得到的输出结果作为生成样本；将所述真实样本及其对应的生成样本作为所述判别模型的输入，根据所述判别模型的输出结果得到所述判别模型和所述生成模型的损失函数；根据所述判别模型和所述生成模型的损失函数，调整所述生成模型和所述判别模型的网络结构中的参数，直至所述生成对抗网络收敛。

根据本发明一优选实施例，所述训练单元将所述真实样本及其对应的生成样本作为所述判别模型的输入时，具体执行：从所述真实样本中获取N个不同尺度的图像块；从所述生成样本的相同位置处获取N个不同尺度的图像块；将相同尺度的两个图像块作为对应尺度的判别器的输入，拼接各尺度判别器的输出结果作为所述判别模型的输出结果。

本发明为解决技术问题所采用的技术方案为提供一种生成人脸图像的装置，所述装置包括：第二获取单元，用于获取嘴巴图像；第二拼接单元，用于提取模板图像中人脸的人脸边缘图像，拼接所述人脸边缘图像与所述嘴巴图像得到输入图像；处理单元，用于将所述输入图像输入人脸生成模型，根据所述人脸生成模型的输出结果得到人脸图像。

根据本发明一优选实施例，所述第二获取单元在获取嘴巴图像时，具体执行：获取文本；将所述文本转化为语音，并基于转化得到的语音生成嘴巴图像。

根据本发明一优选实施例，所述拼接单元还用于执行：提取模板图像中人脸的眼睛图像以及眉毛图像；拼接所述嘴巴图像、眼睛图像、眉毛图像以及人脸边缘图像得到输入图像。

一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法。

一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行上述方法。

一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述方法。

由以上技术方案可以看出，本发明通过提取人脸图像中预设部位的图像以及人脸边缘图像得到的拼接图像进行生成对抗网络的训练，充分考虑了在说话时人脸中预设部位的不同会对人脸图像产生影响的问题，从而使得训练得到的生成对抗网络中的生成模型能够生成更加高清逼真的人脸图像。

【附图说明】

图1为本发明一实施例提供的一种建立人脸生成模型的方法流程图；

图2为本发明一实施例提供的一种生成人脸图像的方法流程图；

图3为本发明一实施例提供的一种建立人脸生成模型的装置结构图；

图4为本发明一实施例提供的一种生成人脸图像的装置结构图；

图5为本发明一实施例提供的计算机***/服务器的框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

图1为本发明一实施例提供的一种建立人脸生成模型的方法流程图，如图1中所示，所述方法包括：

在101中，获取人脸图像。

在本步骤中，获取人脸图像，所获取的人脸图像用于训练生成对抗网络以建立人脸生成模型。其中，本步骤可以通过网络爬虫的方式从互联网中获取人脸图像；也可以从给定视频所抽取的每帧图像中获取人脸图像。本发明对获取人脸图像的方式不进行限定。

另外，为了使得所建立的人脸生成模型能够生成高清的人脸图像，本步骤在获取人脸图像之后，还可以包含以下内容：获取各人脸图像的分辨率；滤除分辨率低于预设阈值的人脸图像。也就是说，本步骤将分辨率较低的人脸图像舍弃，从而确定利用更为清楚的人脸图像来建立人脸生成模型。

在102中，从各人脸图像中提取预设部位的图像以及人脸边缘图像，并拼接提取得到的图像作为对应各人脸图像的拼接图像，其中预设部位的图像为嘴巴图像。

在本步骤中，从步骤101中所获取的各人脸图像中分别提取预设部位的图像以及人脸边缘图像，并拼接提取得到的预设部位的图像以及人脸边缘图像，作为对应各人脸图像的拼接图像。本步骤中预设部位的图像为人脸图像中的嘴巴图像，还可以包含人脸图像中的眼睛图像以及眉毛图像。

由于用户在说话时，人脸的下半部分会因为嘴型的不同而不同，因此本步骤中的人脸边缘图像为去除了人脸图像中的嘴巴、鼻子以及下巴的图像。

其中，本步骤可以使用人脸关键点检测技术来提取人脸图像中的眼睛图像、眉毛图像以及嘴巴图像，可以使用边缘检测技术来得到去除人脸图像中的嘴巴、鼻子以及下巴后的人脸边缘图像。本发明采用现有技术从人脸图像中提取预设部位的图像以及人脸边缘图像，在此不进行赘述。

在103中，构建包含生成模型以及判别模型的生成对抗网络。

在本步骤中，构建包含生成模型以及判别模型的生成对抗网络，从而在对所构建的生成对抗网络训练完成后，基于训练得到的生成对抗网络中的生成模型，得到用于生成高清人脸图像的人脸生成模型。

本步骤所构建的生成对抗网络中的生成模型的职责是生成与真实样本尽可能相似的生成样本，而判别模型的职责则是尽可能区分真实样本和生成样本。通过生成模型和判别模型之间对抗博弈的方式训练生成对抗网络，使得生成模型输出的生成样本的真实性尽可能高，从而使得判别模型无法区分由生成模型所得到的输出为生成样本还是真实样本。

在通常情况下，生成对抗网络的判别模型中仅包含一个判别器，因此现有技术的判别模型无法兼顾输入图像的纹理细节以及整体质量。因此，为了使得判别模型能够兼顾人脸图像的纹理细节以及整体质量，本步骤所构建的生成对抗网络中的判别模型由N个判别器组合而成，每个判别器的输入分别对应人脸图像中不同尺度的图像块，N为大于等于2的正整数。其中，判别模型中对应小尺度的判别器更加注重图像的纹理细节，而判别模型中对应大尺度的判别器则更加注重图像的整体质量。

举例来说，若本步骤所构建的判别模型中包含有3个判别器，分别为判别器1、判别器2以及判别器3，其中判别器1的输入可以为人脸图像中32×32像素大小的图像块，判别器2的输入可以为人脸图像中64×64像素大小的图像块，判别器3的输入可以为人脸图像中128×128像素大小的图像块。

在104中，根据所述人脸图像以及与其对应的拼接图像训练所述生成对抗网络，利用训练得到的生成对抗网络中的生成模型得到人脸生成模型。

采用交替训练的方式对由生成模型和判别模型构成的生成对抗网络进行训练，当整个生成对抗网络收敛时，则认为生成对抗网络的训练结束，进而将训练得到的生成对抗网络中的生成模型作为人脸生成模型，通过该人脸生成模型，能够输入数据得到相应的高清人脸图像。

具体地，本步骤在根据人脸图像以及与其对应的拼接图像训练生成对抗网络时，可以采用以下方式：将所获取的人脸图像作为真实样本；将所获取的拼接图像输入生成模型，将生成模型得到的输出结果作为生成样本；将真实样本及其对应的生成样本输入判别模型，根据判别模型的输出结果得到判别模型和生成模型的损失函数；根据判别模型和生成模型的损失函数，调整生成模型和判别模型的网络结构中的参数，直至生成对抗网络收敛。

可以理解的是，若所构建的判别模型中包含N个判别器，则本步骤在将真实样本及其对应的生成样本输入判别模型时，可以采用以下方式：从真实样本中获取N个不同尺度的图像块；从生成样本的相同位置处获取N个不同尺度的图像块，例如从真实样本左上角获取了一个32×32的图像块，则从生成样本的左上角也获取一个32×32的图像块；将相同尺度的两个图像块作为对应尺度的判别器的输入，拼接各尺度判别器的输出结果作为判别模型的输出结果。

其中，本步骤中生成对抗网络收敛即为生成模型和判别模型的损失函数最小化。可选地，在本实施例的一个具体实现过程中，若在预设次数内所得到的损失函数相等，则认为损失函数最小化；也可以为若在预设次数内得到的损失函数之间的差值小于或等于预设阈值，则认为损失函数最小化；还可以为若训练次数超过预设次数时，则认为损失函数最小化。

当生成模型的损失函数以及判别模型的损失函数最小化时，即生成对抗网络收敛，则认为对生成对抗网络的训练完成，从而将训练完成的生成对抗网络中的生成模型作为人脸生成模型。

图2为本发明一实施例提供的一种生成人脸图像的方法流程图，如图2中所示，所述方法包括：

在201中，获取嘴巴图像。

在本步骤中，获取嘴巴图像，所获取的嘴巴图像用于作为人脸生成模型的输入来得到人脸图像。

具体地，本步骤可以采用以下方式获取嘴巴图像：获取文本，所获取的文本可以为单个汉字或者单个字母，不同的文字对应不同的嘴型；将所获取的文本转化为语音，基于转化得到的语音生成嘴巴图像。本步骤中也可以从预设的图像序列中获取嘴巴图像，预设图像序列中的图像可以直接为嘴巴图像，也可以为包含嘴巴图像的图像。

在202中，提取模板图像中人脸的人脸边缘图像，拼接所述人脸边缘图像与所述嘴巴图像得到输入图像。

在本步骤中，提取模板图像中人脸的人脸边缘图像，并拼接所提取的人脸边缘图像与步骤201中所获取的嘴巴图像，将拼接结果作为输入图像。

可以理解的是，本步骤在从模板图像中提取人脸边缘图像时，还可以提取模板图像中人脸的眼睛图像以及眉毛图像，并将所提取的眼睛图像、眉毛图像、人脸边缘图像以及嘴巴图像进行拼接，将拼接结果作为输入图像。

在203中，将所述输入图像输入预先训练得到的人脸生成模型，根据所述人脸生成模型的输出结果得到人脸图像。

在本步骤中，将步骤202中所得到的输入图像作为预先训练得到的人脸生成模型的输入，并根据人脸生成模型的输出结果得到人脸图像。

可以理解的是，若步骤201获取了多个嘴型图像，则本步骤在获取多个人脸图像之后，还可以包含以下内容：按照预设顺序对所获取的人脸图像进组合，得到人脸图像序列，例如按照预设图像序列中各图像的顺序，或者按照输入文本的文字顺序；获取与各嘴型图像对应的语音，得到语音序列；同步叠加语音序列以及人脸图像序列，得到虚拟视频数据。也就是说，本步骤在获取了高清的人脸图像之后，还能够进一步获取具有高清视觉效果的虚拟视频数据。

图3为本发明一实施例提供的一种建立人脸生成模型的装置结构图，如图3中所示，所述装置包括：第一获取单元31、第一拼接单元32、构建单元33以及训练单元34。

第一获取单元31，用于获取人脸图像。

第一获取单元31获取人脸图像，所获取的人脸图像用于训练生成对抗网络以建立人脸生成模型。其中，第一获取单元31可以通过网络爬虫的方式从互联网中获取人脸图像；也可以从给定视频所抽取的每帧图像中获取人脸图像。本发明对获取人脸图像的方式不进行限定。

另外，为了使得所建立的人脸生成模型能够生成高清的人脸图像，第一获取单元31在获取人脸图像之后，还可以包含以下内容：获取各人脸图像的分辨率；滤除分辨率低于预设阈值的人脸图像。也就是说，第一获取单元31将分辨率较低的人脸图像舍弃，从而确定利用更为清楚的人脸图像来建立人脸生成模型。

第一拼接单元32，用于从各人脸图像中提取预设部位的图像以及人脸边缘图像，并拼接提取得到的图像作为对应各人脸图像的拼接图像，其中预设部位的图像为嘴巴图像。

第一拼接单元32从第一获取单元31中所获取的各人脸图像中分别提取预设部位的图像以及人脸边缘图像，并拼接提取得到的预设部位的图像以及人脸边缘图像，作为对应各人脸图像的拼接图像。第一拼接单元32所提取的预设部位的图像为人脸图像中的嘴巴图像，还可以包含人脸图像中的眼睛图像以及眉毛图像。

由于用户在说话时，人脸的下半部分会因为嘴型的不同而不同，因此第一拼接单元32中的人脸边缘图像为去除了人脸图像中的嘴巴、鼻子以及下巴的图像。

其中，第一拼接单元32可以使用人脸关键点检测技术来提取人脸图像中的眼睛图像、眉毛图像以及嘴巴图像，可以使用边缘检测技术来得到去除人脸图像中的嘴巴、鼻子以及下巴后的人脸边缘图像。

构建单元33，用于构建包含生成模型以及判别模型的生成对抗网络。

构建单元33构建包含生成模型以及判别模型的生成对抗网络，从而在对所构建的生成对抗网络训练完成后，基于训练得到的生成对抗网络中的生成模型，得到用于生成高清人脸图像的人脸生成模型。

构建单元33所构建的生成对抗网络中的生成模型的职责是生成与真实样本尽可能相似的生成样本，而判别模型的职责则是尽可能区分真实样本和生成样本。通过生成模型和判别模型之间对抗博弈的方式训练生成对抗网络，使得生成模型输出的生成样本的真实性尽可能高，从而使得判别模型无法区分由生成模型所得到的输出为生成样本还是真实样本。

在通常情况下，生成对抗网络的判别模型中仅包含一个判别器，因此现有技术的判别模型无法兼顾输入图像的纹理细节以及整体质量。因此，为了使得判别模型能够兼顾人脸图像的纹理细节以及整体质量，构建单元33所构建的生成对抗网络中的判别模型由N个判别器组合而成，每个判别器的输入分别对应人脸图像中不同尺度的图像块，N为大于等于2的正整数。其中，判别模型中对应小尺度的判别器更加注重图像的纹理细节，而判别模型中对应大尺度的判别器则更加注重图像的整体质量。

训练单元34，用于根据所述人脸图像以及与其对应的拼接图像训练所述生成对抗网络，利用训练得到的生成对抗网络中的生成模型得到人脸生成模型。

具体地，训练单元34在根据人脸图像以及与其对应的拼接图像训练生成对抗网络时，可以采用以下方式：将所获取的人脸图像作为真实样本；将所获取的拼接图像输入生成模型，将生成模型得到的输出结果作为生成样本；将真实样本及其对应的生成样本输入判别模型，根据判别模型的输出结果得到判别模型和生成模型的损失函数；根据判别模型和生成模型的损失函数，调整生成模型和判别模型的网络结构中的参数，直至生成对抗网络收敛。

可以理解的是，若所构建的判别模型中包含N个判别器，则训练单元34在将真实样本及其对应的生成样本输入判别模型时，可以采用以下方式：从真实样本中获取N个不同尺度的图像块；从生成样本的相同位置处获取N个不同尺度的图像块；将相同尺度的两个图像块作为对应尺度的判别器的输入，拼接各尺度判别器的输出结果作为判别模型的输出结果。

其中，训练单元34中生成对抗网络收敛即为生成模型和判别模型的损失函数最小化。可选地，在本实施例的一个具体实现过程中，若在预设次数内所得到的损失函数相等，则认为损失函数最小化；也可以为若在预设次数内得到的损失函数之间的差值小于或等于预设阈值，则认为损失函数最小化；还可以为若训练次数超过预设次数时，则认为损失函数最小化。

图4为本发明一实施例提供的一种生成人脸图像的装置结构图，如图4中所示，所述装置包括：第二获取单元41、第二拼接单元42以及处理单元43。

第二获取单元41，用于获取嘴巴图像。

第二获取单元41获取嘴巴图像，所获取的嘴巴图像用于作为人脸生成模型的输入来得到人脸图像。

具体地，第二获取单元41可以采用以下方式获取嘴巴图像：获取文本，所获取的文本可以为单个汉字或者单个字母，不同的文字对应不同的嘴型；将所获取的文本转化为语音，基于转化得到的语音生成嘴巴图像。第二获取单元41也可以从预设的图像序列中获取嘴巴图像，预设图像序列中的图像可以直接为嘴巴图像，也可以为包含嘴巴图像的图像。

第二拼接单元42，用于提取模板图像中人脸的人脸边缘图像，拼接所述人脸边缘图像与所述嘴巴图像得到输入图像。

第二拼接单元42提取模板图像中人脸的人脸边缘图像，并拼接所提取的人脸边缘图像与第二获取单元41所获取的嘴巴图像，将拼接结果作为输入图像。

可以理解的是，第二拼接单元42在从模板图像中提取人脸边缘图像时，还可以提取模板图像中人脸的眼睛图像以及眉毛图像，并将所提取的眼睛图像、眉毛图像、人脸边缘图像以及嘴巴图像进行拼接，将拼接结果作为输入图像。

处理单元43，用于将所述输入图像输入预先训练得到的人脸生成模型，根据所述人脸生成模型的输出结果得到人脸图像。

在本步骤中，将第二拼接单元42所得到的输入图像作为预先训练得到的人脸生成模型的输入，并根据人脸生成模型的输出结果得到人脸图像。

可以理解的是，若第一获取单元41获取了多个嘴型图像，则处理单元43在获取多个人脸图像之后，还可以包含以下内容：按照预设顺序对所获取的人脸图像进组合，得到人脸图像序列，例如按照预设图像序列中各图像的顺序，或者按照输入文本的文字顺序；获取与各嘴型图像对应的语音，得到语音序列；同步叠加语音序列以及人脸图像序列，得到虚拟视频数据。也就是说，处理单元43在获取了高清的人脸图像之后，还能够进一步获取具有高清视觉效果的虚拟视频数据。

如图5所示，计算机***/服务器012以通用计算设备的形式表现。计算机***/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理单元016，***存储器028，连接不同***组件(包括***存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

计算机***/服务器012典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器028可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机***/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***034可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机***/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本发明中，计算机***/服务器012与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机***/服务器012交互的设备通信，和/或与使得该计算机***/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且，计算机***/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器020通过总线018与计算机***/服务器012的其它模块通信。应当明白，尽管图中未示出，可以结合计算机***/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元016通过运行存储在***存储器028中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的方法流程。

随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

利用本发明所提供的技术方案，通过提取人脸图像中预设部位的图像以及人脸边缘图像得到的拼接图像进行生成对抗网络的训练，充分考虑了在说话时人脸中预设部位的不同会对人脸图像产生影响的问题，从而使得训练得到的生成对抗网络中的生成模型能够生成更加高清逼真的人脸图像。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种建立人脸生成模型的方法，其特征在于，所述方法包括：

获取人脸图像；

从各人脸图像中提取预设部位的图像以及人脸边缘图像，并拼接提取得到的图像作为对应各人脸图像的拼接图像，其中所述预设部位的图像为嘴巴图像，所述人脸边缘图像为去除了人脸图像中的嘴巴、鼻子以及下巴的图像；

构建包含生成模型以及判别模型的生成对抗网络，所述判别模型包含N个判别器，N为大于等于2的正整数，每个判别器的输入包含真实样本及其对应的生成样本，其中，所述真实样本为所述人脸图像，所述生成样本为将与所述人脸图像对应的拼接图像输入所述生成模型得到的输出结果；将所述真实样本与所述生成样本作为所述判别模型的输入包括：从所述真实样本中获取N个不同尺度的图像块；从所述生成样本的相同位置处获取N个不同尺度的图像块；将相同尺度的两个图像块作为对应尺度的判别器的输入，拼接各尺度判别器的输出结果作为所述判别模型的输出结果；

根据所述人脸图像及其对应的拼接图像训练所述生成对抗网络，利用训练得到的生成对抗网络中的生成模型得到人脸生成模型。

2.根据权利要求1所述的方法，其特征在于，在获取人脸图像后，还包括：

获取各人脸图像的分辨率，并滤除分辨率低于预设阈值的人脸图像。

3.根据权利要求1所述的方法，其特征在于，所述预设部位的图像还包含眼睛图像以及眉毛图像；

所述人脸边缘图像为去除了人脸图像中的眼睛、眉毛、嘴巴、鼻子以及下巴的图像。

4.根据权利要求1所述的方法，其特征在于，所述根据所述人脸图像及其对应的拼接图像训练所述生成对抗网络包括：

根据所述判别模型的输出结果得到所述判别模型和所述生成模型的损失函数；

根据所述判别模型和所述生成模型的损失函数，调整所述生成模型和所述判别模型的网络结构中的参数，直至所述生成对抗网络收敛。

5.一种生成人脸图像的方法，其特征在于，所述方法包括：

获取嘴巴图像；

提取模板图像中人脸的人脸边缘图像，拼接所述人脸边缘图像与所述嘴巴图像得到输入图像，所述人脸边缘图像为去除了模板图像中的嘴巴、鼻子以及下巴的图像；

将所述输入图像输入人脸生成模型，根据所述人脸生成模型的输出结果得到人脸图像；

所述人脸生成模型是根据权利要求1至4中任一项权利要求预先建立。

6.根据权利要求5所述的方法，其特征在于，所述获取嘴巴图像包括：

获取文本；

将所述文本转化为语音，并基于转化得到的语音生成嘴巴图像。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

提取模板图像中人脸的眼睛图像以及眉毛图像；

拼接所述嘴巴图像、眼睛图像、眉毛图像以及人脸边缘图像得到输入图像，所述人脸边缘图像为去除了模板图像中的眼睛、眉毛、嘴巴、鼻子以及下巴的图像。

8.一种建立人脸生成模型的装置，其特征在于，所述装置包括：

第一获取单元，用于获取人脸图像；

第一拼接单元，用于从各人脸图像中提取预设部位的图像以及人脸边缘图像，并拼接提取得到的图像作为对应各人脸图像的拼接图像，其中所述预设部位的图像为嘴巴图像，所述人脸边缘图像为去除了人脸图像中的嘴巴、鼻子以及下巴的图像；

构建单元，用于构建包含生成模型以及判别模型的生成对抗网络，所述判别模型包含N个判别器，N为大于等于2的正整数，每个判别器的输入包含真实样本及其对应的生成样本，其中，所述真实样本为所述人脸图像，所述生成样本为将与所述人脸图像对应的拼接图像输入所述生成模型得到的输出结果；将所述真实样本与所述生成样本作为所述判别模型的输入包括：从所述真实样本中获取N个不同尺度的图像块；从所述生成样本的相同位置处获取N个不同尺度的图像块；将相同尺度的两个图像块作为对应尺度的判别器的输入，拼接各尺度判别器的输出结果作为所述判别模型的输出结果；

训练单元，用于根据所述人脸图像及其对应的拼接图像训练所述生成对抗网络，利用训练得到的生成对抗网络中的生成模型得到人脸生成模型。

9.根据权利要求8所述的装置，其特征在于，所述第一获取单元在获取人脸图像后，还执行：

10.根据权利要求8所述的装置，其特征在于，所述预设部位的图像还包含眼睛图像以及眉毛图像；

11.根据权利要求8所述的装置，其特征在于，所述训练单元在根据所述人脸图像及其对应的拼接图像训练所述生成对抗网络时，具体执行：

12.一种生成人脸图像的装置，其特征在于，所述装置包括：

第二获取单元，用于获取嘴巴图像；

第二拼接单元，用于提取模板图像中人脸的人脸边缘图像，拼接所述人脸边缘图像与所述嘴巴图像得到输入图像，所述人脸边缘图像为去除了模板图像中的嘴巴、鼻子以及下巴的图像；

处理单元，用于将所述输入图像输入人脸生成模型，根据所述人脸生成模型的输出结果得到人脸图像；

所述人脸生成模型是根据权利要求8至11中任一项权利要求预先建立。

13.根据权利要求12所述的装置，其特征在于，所述第二获取单元在获取嘴巴图像时，具体执行：

获取文本；

14.根据权利要求12所述的装置，其特征在于，所述拼接单元还用于执行：

提取模板图像中人脸的眼睛图像以及眉毛图像；

15.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1~7中任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1~7中任一项所述的方法。