CN113379667A

CN113379667A - 脸部图像生成方法、装置、设备及介质

Info

Publication number: CN113379667A
Application number: CN202110804514.2A
Authority: CN
Inventors: 惠强; 任馨怡; 王枫; 熊剑平
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-09-10
Anticipated expiration: 2041-07-16
Also published as: CN113379667B

Abstract

本申请涉及图像处理技术领域，提供一种脸部图像生成方法、装置、设备及介质，该图像生成方法用于提高生成的超分辨率的脸部图像的质量。该方法包括：基于第一脸部图像，获得脸部关键点集合，并对上采样后的第一脸部图像进行卷积处理，获得第一特征图，对脸部关键点集合与第一特征图进行融合处理，获得第二特征图，对第一特征图进行特征提取处理，获得第三特征图，基于第二特征图与第三特征图进行融合处理，获得第三脸部图像，该方法中由于生成的超分辨率的第三人脸图像是基于第一脸部图像的脸部关键点集合，以及对第一脸部图像进行卷积处理后的深度特征图融合生成的，即结合了多种特征融合生成脸部图像，这样提高了生成的脸部图像的质量。

Description

脸部图像生成方法、装置、设备及介质

技术领域

本申请涉及图像处理技术领域，提供一种脸部图像生成方法、装置、设备及介质。

背景技术

脸部图像超分辨率重建是计算机视觉领域的一个经典问题，其旨在将低分辨率的脸部图像转换为高分辨率的脸部图像。脸部图像超分辨率重建在人脸识别、身份认证、智能监控等诸多领域有着重要的应用价值。

目前，脸部图像超分辨率重建的方法为：提取待处理的脸部图像中的脸部关键点，将脸部关键点作为先验信息输入神经网络，通过神经网络输出高分辨率的脸部图像。但这种方式中神经网络的输出过度依赖脸部关键点，一旦脸部关键点不准确，将导致神经网络输出的脸部图像的质量较差，甚至出现畸变。

发明内容

本申请实施例提供一种脸部图像生成方法、装置、设备及介质，用于提高生成的超分辨率的图像脸部的质量。

第一方面，提供一种脸部图像生成方法，包括：

对待处理的第一脸部图像进行上采样处理，获得第二脸部图像；

获得所述第二脸部图像的脸部关键点集合，并对所述第二脸部图像进行卷积处理，获得第一特征图；

对所述脸部关键点集合与所述第一特征图进行融合处理，获得第二特征图；

对所述第一特征图进行特征提取处理，获得第三特征图；

对所述第二特征图与所述第三特征图进行融合处理，获得第四特征图；

基于所述第四特征图，生成第三脸部图像，其中，所述第三脸部图像的分辨率大于所述第一脸部图像的分辨率。

在本申请实施例中，对待处理的第一脸部图像进行上采样处理，可以获得分辨率更高的第二脸部图像，对脸部关键点集合与第一特征图进行融合处理，获得第二特征图，使得该第二特征图包含了第一脸部图像的脸部关键点，对第二脸部图像进行卷积处理以及特征提取处理，获得第三特征图，该第三特征图相当于融合了第一脸部图像的细节特征，对第二特征图与第三特征图进行融合处理，也就相当于结合了第一脸部图像的脸部关键点和图像细节特征，相较于仅依赖脸部关键点生成脸部图像的方式，本申请实施例中结合了脸部图像的关键点以及更全面的图像细节特征，以提高生成的第三脸部图像的图像质量。

在一种可能的实施例中，对所述第一特征图进行特征提取处理，获得第三特征图，包括：

采用第一卷积核，对所述第一特征图进行卷积处理，获得第五特征图；

采用第二卷积核，对所述第一特征图进行卷积处理，获得第六特征图，其中，所述第一卷积核和所述第二卷积核的尺寸不同；

对所述第五特征图和所述第六特征图进行拼接，获得第七特征图；

基于所述第五特征图、所述第六特征图以及所述第七特征图，获得所述第三特征图。

本申请实施例中，采用不同尺寸的卷积核对第一特征图分别进行卷积处理，可以获得第一脸部图像的不同的感受野，即相当于提取到第一脸部图像的不同特征，使得最终基于第三特征图生成的脸部图像能够更完整地表达第一脸部图像的特征，进一步提高了生成的脸部图像的质量。

在一种可能的实施例中，基于所述第五特征图、所述第六特征图以及所述第七特征图，获得所述第三特征图，包括：

对所述第七特征图依次进行池化处理和全连接处理，获得第八特征图；

针对所述第五特征图中的各个像素单元，分别执行以下操作：将所述第五特征图中的一个像素单元的特征值与所述第八特征图中相应位置的像素单元的特征值相乘，获得第九特征图；

针对所述第六特征图中的各个像素单元，分别执行以下操作：将所述第五特征图中的一个像素单元的特征值与所述第八特征图中相应位置的像素单元的特征值相乘，获得第十特征图；

针对所述第九特征图中的各个像素单元，分别执行以下操作：将所述第九特征图中的一个像素单元的特征值与所述第十特征图中相应位置的像素单元的特征值相加，获得所述第三特征图。

本申请实施例中，对第七特征图依次进行池化处理和全连接处理，获得第八特征图，通过池化处理可以降低特征维度，以减少图像处理过程中的处理量，且，将第八特征图分别和第五特征图、第六特征图相乘，获得第九特征图和第十特征图，并将第九特征图和第十特征图相加，即对特征图进行了多次融合处理，使获得的第三特征图包含较全面的特征，使生成的第三脸部图像能够更完整地表达第一脸部图像的特征。

在一种可能的实施例中，采用第一卷积核，对所述第一特征图进行卷积处理，获得第五特征图，以及采用第二卷积核，对所述第一特征图进行卷积处理，获得第六特征图，包括：

对所述第一特征图进行卷积处理和激活处理，获得第十一特征图；

采用第一卷积核，对所述第一特征图和所述第十一特征图进行卷积处理，获得所述第五特征图；

采用第二卷积核，对所述第一特征图和所述第十一特征图进行卷积处理，获得所述第六特征图。

本申请实施例中，对第一特征图进行卷积处理和激活处理，获得第十一特征图，对第一特征图和第十一特征图进行卷积处理，后续不仅能够提取第十一特征图的特征，还能够提取到进行卷积处理和激活处理之前的第一特征图的特征，从而提取到更全面的特征。

在一种可能的实施例中，对所述脸部关键点集合与所述第一特征图进行融合处理，获得第二特征图，包括：

针对所述脸部关键点集合中的各个像素单元，分别执行以下操作：将所述脸部关键点集合中的一个像素单元的特征值与所述第一特征图中相应位置的像素单元的特征值相乘，获得所述第二特征图；和/或，

基于所述第四特征图，生成第三脸部图像，包括：

针对所述第四特征图中的各个像素单元，分别执行以下操作：将所述第四特征图中的一个像素单元的特征值与所述第二脸部图像中相应位置的像素单元的特征值相加，获得所述第三脸部图像。

本申请实施例中，将脸部关键点集合和第一特征图相乘，获得第二特征图，将第二特征图和第三特征图拼接，获得第四特征图，将第四特征图和第二脸部图像相加，获得第三脸部图像，也就是说可以根据实际需求对不同的特征图，采用不同的融合方式进行处理，从而获得的特征更能满足实际需求。

在一种可能的实施例中，对待处理的第一脸部图像进行上采样处理，获得第二脸部图像，包括：

针对所述第一脸部图像中的各个像素点，分别执行以下操作，获得所述第二脸部图像：

在一个像素点的邻域***像素点；

将***的像素点的像素值赋值为所述一个像素点的像素值。

本申请实施例中，提供一种上采样处理的方法，该方法简单，可以快速对第一脸部图像进行放大处理，获得第二脸部图像，提高后续的生成第三脸部图像的处理速度。

在一种可能的实施例中，所述第三脸部图像是将所述第一脸部图像输入已训练的生成网络得到的，所述已训练的生成网络通过如下步骤进行训练得到的：

选取样本脸部图像对集中的第一样本脸部图像对，其中，每个样本脸部图像对包括第一样本脸部图像，以及第一样本脸部图像对应的第二样本脸部图像，所述第一样本脸部图像和所述第二样本脸部图像对应同一个脸部的两个图像，所述第二样本脸部图像的分辨率大于所述第一样本脸部图像的分辨率；

将所述第一样本脸部图像对中的第一样本脸部图像输入所述生成网络，生成第四脸部图像；

将所述第四脸部图像输入自编码网络，对所述第四脸部图像依次进行编码处理和解码处理，获得第一重构脸部图像；

确定所述第四脸部图像与所述第一样本对中的第二样本脸部图像之间的第一误差，以及所述第四脸部图像与所述第一重构脸部图像之间的第二误差；

基于所述第一误差和所述第二误差，确定所述生成网络的第一损失函数；

基于所述第一损失函数，调整所述生成网络的模型参数，直到所述生成网络收敛，获得已训练的生成网络。

在本申请实施例中，自编码网络可以基于生成网络生成的第四脸部图像，生成第一重构脸部图像，根据第四脸部图像和第二样本脸部图像之间的第一误差和第四脸部图像与第一重构脸部图像之间的第二误差，训练生成网络，相较于仅根据第四脸部图像和第二样本脸部图像之间的第一误差训练生成网络的方式，即单独训练生成网络的方式，本申请实施例中基于自编码网络辅助训练生成网络，可以结合更多的信息调整生成网络的模型参数，使得生成网络可以快速收敛，提高训练生成网络的速度以及训练效果。

在一种可能的实施例中，基于所述第一损失函数，调整所述生成网络的模型参数时，所述方法还包括：

将所述第一样本脸部图像对中的第二样本脸部图像输入所述自编码网络，对所述第一样本脸部图像对中的第二样本脸部图像依次进行编码处理和解码处理，获得第二重构脸部图像；

确定所述第一样本脸部图像对中的第二样本脸部图像与所述第二重构脸部图像之间的第三误差；

基于所述第二误差和所述第三误差，确定所述自编码网络的第二损失函数，其中，所述第二损失函数与所述第二误差负相关，所述第二损失函数与第三误差正相关；

基于所述第二损失函数，调整所述自编码网络的模型参数，直到所述自编码网络收敛，获得已训练的自编码网络。

在本申请实施例中，自编码网络的第二损失函数与第二误差负相关，与第三误差正相关，在训练的过程中保持第二误差和第三误差的均值平衡，使得自编码网络更加容易收敛，提高了训练自编码网络训练的效率。

第二方面，提供一种脸部图像生成装置，包括：

采样模块，用于对待处理的第一脸部图像进行上采样处理，获得第二脸部图像；

获得模块，用于获得所述第二脸部图像的脸部关键点集合，并对所述第二脸部图像进行卷积处理，获得第一特征图；

融合模块，用于对所述脸部关键点集合与所述第一特征图进行融合处理，获得第二特征图；

特征提取模块，用于对所述第一特征图进行特征提取处理，获得第三特征图；

所述融合模块，还用于对所述第二特征图与所述第三特征图进行融合处理，获得第四特征图；

生成模块，用于基于所述第四特征图，生成第三脸部图像，其中，所述第三脸部图像的分辨率大于所述第一脸部图像的分辨率。

在一种可能的实施例中，所述特征提取模块具体用于：

在一种可能的实施例中，所述融合模块具体用于：

在一种可能的实施例中，所述采样模块具体用于：

在一个像素点的邻域***像素点；

将***的像素点的像素值赋值为所述一个像素点的像素值。

在一种可能的实施例中，所述装置还包括训练模块，所述第三脸部图像是将所述第一脸部图像输入已训练的生成网络得到的，所述已训练的生成网络通过所述训练模块进行训练得到的，所述训练模块用于：

在一种可能的实施例中，所述训练模块还用于：

基于所述第一损失函数，调整所述生成网络的模型参数时，将所述第一样本脸部图像对中的第二样本脸部图像输入所述自编码网络，对所述第一样本脸部图像对中的第二样本脸部图像依次进行编码处理和解码处理，获得第二重构脸部图像；

第三方面，提供一种脸部图像生成设备，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如第一方面中任一项所述的方法。

第四方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如第一方面中任一项所述的方法。

附图说明

图1为本申请实施例提供的一种脸部图像生成方法的应用场景图；

图2为本申请实施例提供的一种脸部图像生成方法的流程图；

图3为本申请实施例提供的一种生成网络的结构示意图；

图4为本申请实施例提供的一种RDCA模块的结构示意图；

图5为本申请实施例提供的一种残差模块的结构示意图；

图6为本申请实施例提供的一种自编码网络的结构示意图；

图7为本申请实施例提供的一种脸部图像生成装置的结构图；

图8为本申请实施例提供的一种脸部图像生成设备的结构图。

具体实施方式

为了更好的理解本申请实施例提供的技术方案，下面将结合说明书附图以及具体的实施方式进行详细的说明。

为了提高生成的超分辨率的图像脸部的质量，本申请实施例提供一种脸部图像生成方法，该方法可以由脸部图像生成设备执行。为了简化描述，下文中将脸部图像生成设备简称为生成设备。生成设备可以通过终端或服务器实现，终端例如个人计算机、手机、或嵌入式设备等，嵌入式设备例如摄像头等，服务器例如实体服务或虚拟服务器等。

下面对该脸部图像生成方法的应用场景示意图进行说明。

请参照图1，为本申请实施例提供的脸部图像生成方法的应用场景示意图。该应用场景示意图包括待处理的脸部图像110和生成设备120。

生成设备120获取待处理的脸部图像110之后，可以基于该脸部图像110，生成高分辨率的脸部图像，该高分辨率的脸部图像的分辨率大于脸部图像110的分辨率。本申请实施例中的脸部图像110泛指用于进行图像超分辨率重建的图像，该脸部图像110可以是分辨率小于预设分辨率的脸部图像；其中，本申请实施例中对上述预设分辨率不做过多限定，本领域的技术人员可根据实际需求设置。

作为一种实施例，本申请实施例中的脸部图像可以是人脸图像或动物的脸部图像等，本申请对此不作限定。例如，可以重建宠物的脸部图像，为后续寻找丢失的宠物提供线索。

基于图1论述的应用场景，下面以图1中生成设备通过执行脸部图像生成方法为例进行介绍。请参照图2，为本申请实施例提供的一种脸部图像生成方法的流程示意图。

S210，对待处理的第一脸部图像进行上采样处理，获得第二脸部图像。

待处理的第一脸部图像可以是生成设备拍摄获得的，也可以是其他设备拍摄后发送给生成设备的，其他设备为具有拍摄功能的设备，例如相机、手机或平板电脑等。生成设备在获得待处理的第一脸部图像之后，可以对待处理的第一脸部图像进行上采样处理，获得第二脸部图像。上采样处理可以理解为对第一脸部图像进行放大处理。

作为一种实施例，为了减少计算量，生成设备可以采用简单的最近邻插值算法对第一脸部图像进行上采样处理，可以快速获得第二脸部图像，从而提高整个脸部图像生成过程的速度。

具体的，生成设备可以对第一脸部图像中的一个像素点的邻域***像素点，将***的像素点的像素值赋值为该一个像素点的像素值，以此类推，生成设备对第一脸部图像中所有像素点处理完毕后，获得第二脸部图像。

在一种可能的实施例中，第二脸部图像的分辨率可以为第一脸部图像的分辨率的2的幂次倍。例如，第二脸部图像的分辨率可以为第一脸部图像的分辨率的8倍，由于对第一脸部图像的放大倍数越高，该第二脸部图像的图像质量会越差，而当第二脸部图像的分辨率可以为第一脸部图像的分辨率的8倍时，第二脸部图像在具有较高的分辨率的同时，还可以保持一定的图像质量。

例如，第一脸部图像的分辨率为16x16，将第一脸部图像的分辨率放大8倍，获得的第二脸部图像的分辨率为128x128。

S220，获得第二脸部图像的脸部关键点集合，并对第二脸部图像进行卷积处理，获得第一特征图。

下面先对第二脸部图像进行关键点提取的过程进行介绍。

生成设备可以通过已训练的关键点检测网络，获得脸部图像关键点集合。

其中，已训练的关键点检测网络可以从共享的网络资源中获取，或者可以是生成设备自行训练得到的，本申请对此不作限定。

生成设备可以将第二脸部图像输入已训练的关键点检测网络，获得多个关键点特征图。其中，每个关键点特征图对应一个脸部关键点，每个关键点特征图中每个像素点的特征值表示该像素点属于该一个脸部关键点的概率。脸部关键点用于标识脸部的重要部位，例如，第一脸部图像为人脸图像，人脸关键点数量为68个，对应可以获得的关键点特征图的数量也为68个。其中，5个关键点用于标识右眉毛，18个关键点用于标识嘴巴等。

生成设备可以将这多个关键点特征图进行叠加，获得脸部图像关键点集合。或者，有可能存在多个关键点特征图中的多个关键点重合的情况，因此为了获得更为准确的脸部图像关键点集合，在本申请实施例中，生成设备可以对多个关键点特征图中相同位置的像素点的特征值进行归一化(softmax)操作，例如，使用归一化函数，得到每个像素点属于脸部关键点的概率，取概率最大值对应的像素点作为脸部关键点，获得第二脸部图像的脸部关键点集合，即一个包含脸部关键点集合的特征图，该特征图用于表示各个像素点为脸部关键点的概率。

生成设备还可以对第二脸部图像进行卷积处理，获得第一特征图，例如，将第二脸部图像输入一层3X3的卷积层，输出第一特征图。

S230，对脸部关键点集合与第一特征图进行融合处理，获得第二特征图。

对脸部关键点集合与第一特征图进行融合处理的方式有多种，下面进行示例介绍。

第一种，对脸部关键点集合与第一特征图进行乘法(multiply)操作。

具体的，生成设备可以将脸部关键点集合中的一个像素单元的特征值与第一特征图中相应位置的像素单元的特征值相乘，以此类推，生成设备对脸部关键点集合中的所有像素单元处理完毕后，获得第二特征图。其中，像素单元可以理解为生成设备处理的最小图像单元，像素单元可以是亚像素、一个像素点或多个像素点，本申请对此不作限制。

第二种，对脸部关键点集合与第一特征图进行加法(add)操作。

具体的，生成设备可以将脸部关键点集合中的一个像素单元的特征值与第一特征图中相应位置的像素单元的特征值相加，以此类推，生成设备对脸部关键点集合中的所有像素单元处理完毕后，获得第二特征图。像素单元的含义请参照前文论述的内容，此处不再赘述。

第三种，对脸部关键点集合与第一特征图进行拼接(concatenate)操作。

具体的，生成设备可以对脸部关键点集合和第一特征图按预设方向进行拼接，获得第二特征图。例如，生成设备对脸部关键点集合和第一特征图按行方向进行拼接，按行拼接可以用axis＝0表示；生成设备对脸部关键点集合和第一特征图按列方向进行拼接，按列拼接可以用axis＝1表示。

脸部关键点集合相当于标识了脸部的重点部位的位置，而第一特征图相当于标识了脸部的重要特征，因此在本申请实施例中，生成设备可以对脸部关键点集合与第一特征图进行融合处理，获得第二特征图，使得第二特征图可以包含更全面、丰富的信息，有利于提高生成的超分辨率的图像脸部的质量。

S240，对第一特征图进行特征提取处理，获得第三特征图。

考虑到采用单一的卷积核对图像进行处理，得到的特征比较单一，可能会忽略掉图像的部分特征，因此，本申请实施例中生成设备可以采用不同尺寸的卷积核分别对第一特征图进行特征提取处理，获得第五特征图和第六特征图。

具体的，生成设备采用第一卷积核对第一特征图进行卷积处理，获得第五特征图，采用第二卷积核对第一特征图进行卷积处理，获得第六特征图，其中，第一卷积核和第二卷积核的尺寸不同。例如，第一卷积核为3X3的卷积核，第二卷积核为5X5的卷积核。

作为一个实施例，本申请实施例引入残差网络，将第一特征图输入残差网络，获得第十一特征图，输出第一特征图和第十一特征图，分别采用不同尺寸的卷积核对残差网络的输出进行卷积处理，获得第五特征图和第六特征图。本申请实施例中不仅能够提取到第十一特征图的特征，还能够提取到输入残差网络的第一特征图的特征，使后续获得的特征图包含更全面的特征。

具体的，第一特征图通过残差网络进行卷积处理，以及通过残差网络进行激活处理，获得第十一特征图，将第一特征图和第十一特征图一起作为残差网络的输出。采用第一卷积核对第一特征图和第十一特征图进行卷积处理，获得第五特征图，采用第二卷积核对第一特征图和第十一特征图进行卷积处理，获得第六特征图。

作为一个示例，残差网络包括一个残差模块或多个残差模块。其中，每个残差模块包括若干个卷积层和若干个激活层，例如，卷积层为一层3X3的卷积层，激活层为线性整流函数(rectified linear unit，ReLU)。

当残差网络包括一个残差模块时，第一特征图通过卷积层进行卷积处理，以及通过激活层进行激活处理，获得第十一特征图，对第一特征图和第十一特征图进行融合处理后，即第一特征图和第十一特征图融合处理后的融合结果为残差模块的目标残差输出。进一步可以分别采用不同的卷积核对该融合结果进行卷积操作，获得第五特征图和第六特征图。

例如，对第一特征图和第十一特征图进行加法操作后，获得第一相加结果，采用第一卷积核对第一相加结果进行卷积处理，获得第五特征图，采用第二卷积核对第一相加结果进行卷积处理，获得第六特征图。

当残差网络包括多个残差模块时，第一特征图依次通过多个残差模块，将最后一个残差模块的输出作为目标残差输出。

具体的，第一特征图通过第一个残差模块，获得第一残差输出，第一残差输出通过第二个残差模块，获得第二残差输出，第二残差输出通过下一个残差模块，以此类推，直到通过最后一个残差模块，获得目标残差输出。进一步地，分别采用第一卷积核和第二卷积核对目标残差输出进行卷积处理，获得第五特征图和第六特征图。

进一步，生成设备可以对第五特征图和第六特征图进行拼接操作，获得第七特征图，其中，拼接操作的方式请参照前文论述的对脸部关键点集合与第一特征图进行拼接操作的内容，此处不再赘述。进一步地，基于第五特征图、第六特征图以及第七特征图，获得第三特征图。

其中，生成设备基于第五特征图、第六特征图以及第七特征图获得第三特征图的方式有多种，下面分别进行介绍。

第一种方式，生成设备可以对第五特征图、第六特征图以及第七特征图进行融合处理，获得第三特征图。

其中，融合处理的方式有多种，请参照前文论述的对脸部关键点集合与第一特征图进行融合处理的内容，此处不再赘述。例如，生成设备对第五特征图和第六特征图进行乘法操作之后，再将相乘结果和第七特征图进行乘法操作，从而获得第三特征图。

本申请实施例中，直接对第五特征图、第六特征图以及第七特征图进行融合处理，其过程简单，可以快速地获得第三特征图。

第二种方式，生成设备可以对第七特征图依次进行池化处理和全连接处理，获得第八特征图，对第八特征图与第五特征图进行融合处理，获得第九特征图，对第八特征图与第六特征图进行融合处理，获得第十特征图，进一步地对第九特征图和第十特征图进行融合处理，获得第三特征图。

具体的，生成设备可以对第七特征图依次进行池化处理和全连接处理，池化处理例如全局最大池化处理、全局平均池化处理等，获得第八特征图。对第八特征图与第五特征图进行乘法操作，获得第九特征图，对第八特征图与第六特征图进行乘法操作，获得第十特征图，以及对第九特征图和第十特征图进行加法操作，获得第三特征图。其中，乘法操作和加法操作请参照前文论述的内容，此处不再赘述。

本申请实施例中，通过多次的融合处理，获得的第三特征图可以包含更多的特征，使基于第三特征图获得的脸部图像也能包含更多的特征，从而提高最终获得的脸部图像的质量。

S250，对第二特征图与第三特征图进行融合处理，获得第四特征图。

生成设备获得第二特征图和第三特征图之后，可以对第二特征图与第三特征图进行拼接操作或乘法操作或加法操作，获得第四特征图，其中，拼接操作、乘法操作以及加法操作的方式请参照前文论述的内容，此处不再赘述。

S260，基于第四特征图，生成第三脸部图像。

生成设备获得第四特征图之后，可以直接将第四特征图作为第三脸部图像。其中，第三脸部图像的分辨率大于第一脸部图像的分辨率。

或者，为了使生成的第三脸部图像包含更多的特征，本申请实施例中，生成设备可以对第四特征图和第二脸部图像进行拼接操作或乘法操作或加法操作，获得第三脸部图像。其中，拼接操作、乘法操作以及加法操作的方式请参照前文论述的内容，此处不再赘述。

作为一个实施例，生成设备可以通过生成网络执行图2中所示的脸部图像生成方法，通过生成网络对第一脸部图像进行处理，生成第三脸部图像。

请参照图3，为本申请实施例提供的生成网络的结构示意图。该生成网络包括上采样模块301、关键点提取模块302、以及通道-空间注意力融合模块(Channel-SpacialAttention Fusion Module，CSAM)303。

上采样模块301用于接收第一脸部图像，对第一脸部图像进行上采样处理，获得第二脸部图像。

关键点提取模块302用于接收上采样模块301输出的第二脸部图像，对第二脸部图像进行脸部关键点提取，获得第二脸部图像的脸部关键点集合。

CSAM模块303用于接收上采样模块301输出的第二脸部图像，提取第二脸部图像的细节特征，并接收关键点提取模块302输出的脸部关键点集合，将该细节特征和脸部关键点集合进行融合。

作为一个实施例，CSAM模块303包括第一卷积层304、通道注意力(ChannelAttention，CA)分支305和空间注意力(Spacial Attention，SA)分支306、以及第二卷积层307。

作为一个实施例，第一卷积层304用于对第二脸部图像进行卷积处理，获得第一特征图。

作为一个实施例，SA分支306用于接收第一卷积层304输出的第一特征图，以及关键点提取模块302输出的脸部关键点集合，对脸部关键点集合与第一特征图进行融合处理，获得第二特征图。例如，SA分支306对脸部关键点集合与第一特征图进行乘法操作，获得第二特征图，该乘法操作在图3中用

进行表示。

例如，SA分支306的输出为：

f_SA＝conv(S1)×P

其中，f_SA表示SA分支的输出，即第二特征图，S1表示第二脸部图像，conv表示卷积操作，conv(S1)表示对第二脸部图像进行卷积操作后获得的第一特征图，P表示脸部关键点集合，×表示乘法操作。

作为一个实施例，CA分支305用于接收第一卷积层304输出的第一特征图，对第一特征图进行特征提取处理，获得第三特征图。CA分支可以包括残差双分支通道注意力(Residual Dual-branch Channel Attention，RDCA)模块308。

作为一个实施例，CSAM模块303可以对SA分支306输出的第二特征图和CA分支305输出的第三特征图进行拼接操作，获得第四特征图，该拼接操作在图3中用

进行表示。

作为一个实施例，第二卷积层307用于对第四特征图进行卷积操作，获得卷积后的第四特征图。

作为一个实施例，CSAM模块303可以对第二卷积层305输出的卷积后的第四特征图和上采样模块301输出的第二脸部图像进行加法操作，获得第三脸部图像，该加法操作在图3中用

进行表示。

例如，CSAM模块303的输出为：

f_CSAM＝conv([f_SA,f_CA])

其中，f_CSAM表示CSAM模块的输出，即第四特征图；conv表示卷积处理，f_SA表示SA分支的输出，即第二特征图，f_CA表示CA分支的输出，即第三特征图，[f_SA,f_CA]表示对f_SA和f_CA进行拼接操作。

在介绍了生成网络的总体结构之后，下面详细介绍其中的RDCA模块308。请参照图4，为本申请实施例提供的RDCA模块的结构示意图，RDCA模块308包括残差模块401、两个注意力分支即第三卷积层402和第四卷积层403、池化层404、全连接层405、第五卷积层406。

残差模块401，用于接收第一卷积层304输出的第一特征图，对第一特征图进行卷积处理和激活处理，获得第十一特征图，将第一特征图和第十一特征图一起输出。图4是以两个残差模块401为例，实际上不限制残差模块401的数量。

作为一个实施例，请参照图5，为本申请实施例提供的残差模块的结构示意图。残差模块包括两个卷积层501和一个激活层502，卷积层501例如为一层3X3的卷积层，激活层502例如为ReLU函数。

第三卷积层402，用于接收残差模块401输出的第一特征图和第十一特征图，采用第一卷积核，对第一特征图和第十一特征图进行卷积处理，获得第五特征图。第三卷积层402例如一层3X3的卷积层。

第四卷积层403，用于接收残差模块401输出的第一特征图和第十一特征图，采用第二卷积核，对第一特征图和第十一特征图进行卷积处理，获得第六特征图。第四卷积层403例如一层5X5的卷积层。

作为一个实施例，RDCA模块308可以对第三卷积层402输出的第五特征图和第四卷积层403输出的第六特征图进行拼接操作，获得第七特征图，该拼接操作在图4中用

进行表示。

池化层404，用于接收拼接操作输出的第七特征图，对第七特征图进行池化处理。

全连接层405，用于接收池化层404的输出，对池化层404的输出进行全连接处理，获得第八特征图。

作为一个实施例，RDCA模块可以对第三卷积层402输出的第五特征图和全连接层405输出的第八特征图进行乘法操作，获得第九特征图，对第四卷积层403输出的第六特征图和全连接层405输出的第八特征图进行乘法操作，获得第十特征图，以及对第九特征图和第十特征图进加法操作，获得相加结果。该乘法操作在图4中用

进行表示，该加法操作在图4中用

进行表示。

第五卷积层406，用于对加法操作后的相加结果进行卷积操作，获得第三特征图。第五卷积层406例如一层3X3的卷积层。

作为一个示例，请继续参照图3，CSAM模块303包括多个RDCA模块308，可以将第i-1个RDCA模块的输出，作为第i个RDCA模块的输入。

例如，第i个RDCA模块的输出为：

其中，

表示第i-1个RDCA模块的输出，f₁表示第十一特征图，f₂表示第十二特征图，a和b均表示全连接层的输出，即第八特征图。

其中，生成网络可以是生成网络从其他设备获得的，或者生成网络自行训练的，下面对训练生成网络的方式进行示例介绍。

生成设备通过样本脸部图像对生成网络进行训练，调整生成网络的各个模型参数的取值，直到生成网络收敛，获得已训练的生成网络。训练过程具体包括如下步骤。

S1.1，生成设备选取样本脸部图像对集中的第一样本脸部图像对，其中，样本脸部图像对集可以从共享的网络资源中获得，样本脸部图像对集包括多个样本脸部图像对，每个样本脸部图像对包括第一样本脸部图像，以及第一样本脸部图像对应的第二样本脸部图像，第一样本脸部图像和第二样本脸部图像对应同一个脸部的两个图像，且第二样本脸部图像的分辨率大于第一样本脸部图像的分辨率。

S1.2，生成设备将第一样本脸部图像对中的第一样本脸部图像作为生成网络的输入，生成网络输出的图像与第二样本脸部图像的误差作为生成网络的反馈数据，通过反馈数据，不断调整生成网络的模型参数的取值。

重复上述S1.1-S1.2的步骤，直到生成网络收敛，获得已训练的生成网络。

作为一种实施例，生成设备可以借助自编码网络训练生成网络。

具体的，自编码网络可以基于生成网络的输出，再重构脸部图像。例如，自编码网络可以对输入的脸部图像依次进行编码处理和解码处理，获得重构图像，可以通过重构误差，判断自编码网络输入的脸部图像是生成网络生成的脸部图像还是真实的脸部图像。自编码网络和生成网络通过对抗训练，使生成网络生成的脸部图像越来越接近真实的脸部图像。

作为一种实施例，自编码网络可以包括若干个卷积层和若干个池化层。例如，若干个卷积层间隔分布，若干个池化层间隔分布。

例如，请参照图6，为本申请实施例提供的自编码网络的结构示意图。其中，贴合设置的两个长方体中的左侧长方体601表示卷积层，右侧长方体602表示池化层，独立的长方体601表示卷积层，为了便于表示，在图6中将属于池化层的长方体均以601示意，属于卷积层的长方体均以602示意。从右到左的箭头表示通过该自编码网络对输入的脸部图像进行处理的方向。

下面以生成设备共同训练生成网络和自编码网络为例，对生成网络和自编码网络的训练步骤进行示例介绍。

S2.1，选取样本脸部图像对集中的第一样本脸部图像对。

其中，样本脸部图像对集和第一样本脸部图像对的具体含义请参照前文论述的内容，此处不再赘述。

S2.2，将第一样本脸部图像对中的第一样本脸部图像输入生成网络，生成第四脸部图像。

生成设备将第一样本脸部图像输入生成网络，生成网络执行图2中所示的脸部图像生成方法，生成第四脸部图像。

S2.3，将第四脸部图像输入自编码网络，对第四脸部图像依次进行编码处理和解码处理，获得第一重构脸部图像。

生成设备将第四脸部图像输入自编码网络，对第四脸部图像进行编码处理后，对编码处理后的图像进行解码处理，从而获得第一重构脸部图像。

S2.4，确定第四脸部图像与第一样本对中的第二样本脸部图像之间的第一误差，以及第四脸部图像与第一重构脸部图像之间的第二误差。

生成设备根据第四脸部图像的像素单元与第二样本脸部图像中相应位置的像素单元之间像素值的差值，确定第一误差，并根据第四脸部图像的像素单元与第一重构脸部图像中相应位置的像素单元之间像素值的差值，确定第二误差，像素单元的含义请参照前文论述的内容，此处不再赘述。

例如，第四脸部图像与第一样本对中的第二样本脸部图像之间的第一误差为：

L^pixel＝E‖I^HR-I^S2‖₁

其中，E表示期望，‖ ‖₁表示L1范数，I^HR表示第一样本对中的第二样本脸部图像的像素值，I^S2表示第四脸部图像的像素值。

第四脸部图像与第一重构脸部图像之间的第二误差为：

L_D(I^S2)＝E‖I^S2-D(I^S2)‖₁

其中，E表示期望，I^S2表示第四脸部图像的像素值，D(I^S2)表示第一重构脸部图像的像素值。

S2.5，基于第一误差和第二误差，确定生成网络的第一损失函数。

例如，生成网络的第一损失函数为：

L_G＝L^pixel+αL_D(I^S2)

其中，L^pixel表示第一误差为，L_D(I^S2)表示第二误差，α表示超参数。

S2.6，基于第一损失函数，调整生成网络的模型参数，直到生成网络收敛，获得已训练的生成网络。

例如，生成设备可以采用梯度下降算法优化第一损失函数，直到生成网络收敛。

进一步地，生成设备在调整生成网络的模型参数时，还可以同步调整自编码网络的模型参数，下面进行示例介绍。

S3.1，将第一样本脸部图像对中的第二样本脸部图像输入自编码网络，对第一样本脸部图像对中的第二样本脸部图像依次进行编码处理和解码处理，获得第二重构脸部图像。

生成设备将第二样本脸部图像输入自编码网络，对第二样本脸部图像进行编码处理后，对编码处理后的图像进行解码处理，从而获得第二重构脸部图像。若生成网络基于第一样本脸部图像生成的第四脸部图像与第二样本脸部图像相同，则第一重构脸部图像和第二重构脸部图像可以是相同的。若生成网络基于第一样本脸部图像生成的第四脸部图像与第二样本脸部图像不同，则第一重构脸部图像和第二重构脸部图像也不同。

S3.2，确定第一样本脸部图像对中的第二样本脸部图像与第二重构脸部图像之间的第三误差。

生成设备根据第二样本脸部图像的像素单元与第二重构脸部图种相应位置的像素单元之间像素值的差值，确定第三误差，像素单元的含义请参照前文论述的内容，此处不再赘述。

例如，第一样本脸部图像对中的第二样本脸部图像与第二重构脸部图像之间的第三误差为：

L_D(I^HR)＝E‖I^HR-D(I^HR)‖₁

其中，L_D(I^HR)表示第三误差，E表示期望，‖‖₁表示L1范数，I^HR表示第一样本对中的第二样本脸部图像的像素值，D(I^HR)表示第二重构脸部图像的像素值。

S3.3，基于第二误差和第三误差，确定自编码网络的第二损失函数。

其中，第二损失函数与第二误差负相关，第二损失函数与第三误差正相关。

例如，

L_D＝L_D(I^HR)-k_tL_D(I^S2)

k_t+1＝k_t+λ_k(γL_D(I^HR)-L_D(I^S2))

其中，L_D表示第二损失函数，L_D(I^HR)表示第三误差，L_D(I^S2)表示第四脸部图像与第一重构脸部图像之间的第二误差，k_t表示第t次迭代时梯度下降的程度，k_t+1表示第t+1次迭代时k的值，γ表示第二误差的均值和第三误差的均值的比值，λ_k表示学习率。

S3.4，基于第二损失函数，调整自编码网络的模型参数，直到自编码网络收敛，获得已训练的自编码网络。

例如，生成设备采用梯度下降算法优化第二损失函数，直到自编码网络收敛。

在本申请实施例中，自编码网络通过减小真实样本的重构误差，增大生成样本的重构误差来实现对抗，当两个重构误差分布接近时，自编码网络无法区分真实样本和生成样本即第二样本脸部图像和第四脸部图像。为了确保网络收敛的稳定性，引入平衡机制，通过构造参数γ，在训练的过程中保持重构误差均值平衡，即第二误差和第三误差的均值平衡，使得网络更加容易收敛，降低了网络训练的难度。

基于同一发明构思，本申请实施例提供一种脸部图像生成装置，该装置可以实现前文论述的生成设备的功能，请参照图7，该装置包括：

采样模块701，用于对待处理的第一脸部图像进行上采样处理，获得第二脸部图像；

获得模块702，还用于获得第二脸部图像的脸部关键点集合，并对第二脸部图像进行卷积处理，获得第一特征图；

融合模块703，用于对脸部关键点集合与第一特征图进行融合处理，获得第二特征图；

特征提取模块704，用于对第一特征图进行特征提取处理，获得第三特征图；

融合模块703，还用于对第二特征图与第三特征图进行融合处理，获得第四特征图；

生成模块705，用于基于第四特征图，生成第三脸部图像，其中，第三脸部图像的分辨率大于第一脸部图像的分辨率。

在一种可能的实施例中，特征提取模块704具体用于：

采用第一卷积核，对第一特征图进行卷积处理，获得第五特征图；

采用第二卷积核，对第一特征图进行卷积处理，获得第六特征图，其中，第一卷积核和第二卷积核的尺寸不同；

对第五特征图和第六特征图进行拼接，获得第七特征图；

基于第五特征图、第六特征图以及第七特征图，获得第三特征图。

在一种可能的实施例中，特征提取模块704具体用于：

对第七特征图依次进行池化处理和全连接处理，获得第八特征图；

针对第五特征图中的各个像素单元，分别执行以下操作：将第五特征图中的一个像素单元的特征值与第八特征图中相应位置的像素单元的特征值相乘，获得第九特征图；

针对第六特征图中的各个像素单元，分别执行以下操作：将第五特征图中的一个像素单元的特征值与第八特征图中相应位置的像素单元的特征值相乘，获得第十特征图；

针对第九特征图中的各个像素单元，分别执行以下操作：将第九特征图中的一个像素单元的特征值与第十特征图中相应位置的像素单元的特征值相加，获得第三特征图。

在一种可能的实施例中，特征提取模块704具体用于：

对第一特征图进行卷积处理和激活处理，获得第十一特征图；

采用第一卷积核，对第一特征图和第十一特征图进行卷积处理，获得第五特征图；

采用第二卷积核，对第一特征图和第十一特征图进行卷积处理，获得第六特征图。

在一种可能的实施例中，融合模块703具体用于：

针对脸部关键点集合中的各个像素单元，分别执行以下操作：将脸部关键点集合中的一个像素单元的特征值与第一特征图中相应位置的像素单元的特征值相乘，获得第二特征图；和/或，

针对第四特征图中的各个像素单元，分别执行以下操作：将第四特征图中的一个像素单元的特征值与第二脸部图像中相应位置的像素单元的特征值相加，获得第三脸部图像。

在一种可能的实施例中，采样模块701具体用于：

针对第一脸部图像中的各个像素点，分别执行以下操作，获得第二脸部图像：

在一个像素点的邻域***像素点；

将***的像素点的像素值赋值为一个像素点的像素值。

在一种可能的实施例中，装置还包括训练模块706，第三脸部图像是将第一脸部图像输入已训练的生成网络得到的，已训练的生成网络通过训练模块进行训练得到的，训练模块706用于：

选取样本脸部图像对集中的第一样本脸部图像对，其中，每个样本脸部图像对包括第一样本脸部图像，以及第一样本脸部图像对应的第二样本脸部图像，第一样本脸部图像和第二样本脸部图像对应同一个脸部的两个图像，第二样本脸部图像的分辨率大于第一样本脸部图像的分辨率；

将第一样本脸部图像对中的第一样本脸部图像输入生成网络，生成第四脸部图像；

将第四脸部图像输入自编码网络，对第四脸部图像依次进行编码处理和解码处理，获得第一重构脸部图像；

确定第四脸部图像与第一样本对中的第二样本脸部图像之间的第一误差，以及第四脸部图像与第一重构脸部图像之间的第二误差；

基于第一误差和第二误差，确定生成网络的第一损失函数；

基于第一损失函数，调整生成网络的模型参数，直到生成网络收敛，获得已训练的生成网络。

在一种可能的实施例中，训练模块706还用于：

基于第一损失函数，调整生成网络的模型参数时，将第一样本脸部图像对中的第二样本脸部图像输入自编码网络，对第一样本脸部图像对中的第二样本脸部图像依次进行编码处理和解码处理，获得第二重构脸部图像；

确定第一样本脸部图像对中的第二样本脸部图像与第二重构脸部图像之间的第三误差；

基于第二误差和第三误差，确定自编码网络的第二损失函数，其中，第二损失函数与第二误差负相关，第二损失函数与第三误差正相关；

基于第二损失函数，调整自编码网络的模型参数，直到自编码网络收敛，获得已训练的自编码网络。

基于同一发明构思，本申请实施例提供一种脸部图像生成设备，该脸部图像生成设备可以为终端、服务器等，请参照图8，该设备可以实现前文论述的生成设备的功能，该设备包括：

至少一个处理器801，以及

与所述至少一个处理器801通信连接的存储器802；

其中，所述存储器802存储有可被所述至少一个处理器801执行的指令，所述至少一个处理器801通过执行所述存储器802存储的指令实现如前文论述的脸部图像生成方法。

处理器801可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元、或为图像处理器等中的一种或多种组合。存储器802可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器802也可以是非易失性存储器(non-volatile memory)，例如只读存储器，快闪存储器(flashmemory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器802是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器802可以是上述存储器的组合。

作为一种实施例，图8中的处理器801可以实现前文论述任一的脸部图像生成方法，处理器801还可以实现前文图7论述的装置的功能。

基于同一发明构思，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，当计算机指令在计算机上运行时，使得计算机执行如前文论述任一的脸部图像生成方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种脸部图像生成方法，其特征在于，包括：

对所述第一特征图进行特征提取处理，获得第三特征图；

2.如权利要求1所述的方法，其特征在于，对所述第一特征图进行特征提取处理，获得第三特征图，包括：

3.如权利要求2所述的方法，其特征在于，基于所述第五特征图、所述第六特征图以及所述第七特征图，获得所述第三特征图，包括：

4.如权利要求2所述的方法，其特征在于，采用第一卷积核，对所述第一特征图进行卷积处理，获得第五特征图，以及采用第二卷积核，对所述第一特征图进行卷积处理，获得第六特征图，包括：

采用所述第一卷积核，对所述第一特征图和所述第十一特征图进行卷积处理，获得所述第五特征图；

采用所述第二卷积核，对所述第一特征图和所述第十一特征图进行卷积处理，获得所述第六特征图。

5.如权利要求1所述的方法，其特征在于，

对所述脸部关键点集合与所述第一特征图进行融合处理，获得第二特征图，包括：

基于所述第四特征图，生成第三脸部图像，包括：

6.如权利要求1所述的方法，其特征在于，对待处理的第一脸部图像进行上采样处理，获得第二脸部图像，包括：

在一个像素点的邻域***像素点；

将***的像素点的像素值赋值为所述一个像素点的像素值。

7.如权利要求1-6任一项所述的方法，其特征在于，所述第三脸部图像是将所述第一脸部图像输入已训练的生成网络得到的，所述已训练的生成网络通过如下步骤进行训练得到的：

8.如权利要求7所述的方法，其特征在于，基于所述第一损失函数，调整所述生成网络的模型参数时，所述方法还包括：

9.一种脸部图像生成装置，其特征在于，包括：

10.一种脸部图像生成设备，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1～8中任一项所述的方法。