CN114782291A

CN114782291A - 图像生成器的训练方法、装置、电子设备和可读存储介质

Info

Publication number: CN114782291A
Application number: CN202210715667.4A
Authority: CN
Inventors: 葛国敬; 王金桥; 朱贵波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-07-22
Anticipated expiration: 2042-06-23
Also published as: CN114782291B; WO2023245927A1

Abstract

本发明提供一种图像生成器的训练方法、装置、电子设备和可读存储介质，涉及图像处理技术领域，通过将降质样本人脸图像输入至图像生成器中得到修复样本人脸图像，图像生成器基于Transformer模型构建；基于原始样本人脸图像和修复样本人脸图像对图像判别器以及图像生成器进行优化；重复优化图像判别器以及优化图像生成器的步骤，直至达到预设收敛条件，以通过优化后的图像生成器对待修复人脸图像进行图像盲修复处理，实现了端对端的图像盲修复功能，训练过程不需要人工干预，训练路径比较简单，克服了现有技术中单个阶段无法获得理想的训练结果、训练过程需要人工干预和训练路径繁琐复杂的缺陷。

Description

图像生成器的训练方法、装置、电子设备和可读存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像生成器的训练方法、装置、电子设备和可读存储介质。

背景技术

图像修复技术是一种基于图像已知信息以及预设修复规则对待修复图像中的丢失信息或者细节信息进行修复，从而达到视觉上逼真效果的技术。而图像盲修复技术是指预选不知道待修复图像的图像损失类型或者图像退化类型的情况下对待修复图像进行修复的技术。

现有技术中，采用卷积神经网络（Convolutional Neural Networks，CNN）技术来实现图像盲修复功能。然而，采用这种方法单个阶段无法获得理想的训练结果，因此需要分两个阶段来完成训练任务，其中，第一阶段需要训练一个生成器，而第二阶段需要将训练好的生成器嵌入至深度学习分割网络（Ｕnet）的网络结构中去调试，从而根据调试好的生成器对待修复图像进行修复处理。由此可见，现有技术中提供的图像盲修复方法无法通过单个阶段的训练获得理想的训练结果，而需要分两个阶段来完成训练任务，并且训练过程需要人工干预，训练路径比较繁琐复杂。

因此，针对现有技术中，采用卷积神经网络进行图像盲修复处理时，单个阶段无法获得理想的训练结果，需要分两个阶段来完成训练任务，并且训练过程需要人工干预，以及训练路径繁琐复杂的技术问题，相关领域技术人员尚无有效解决方法。

发明内容

本发明提供一种图像生成器的训练方法、装置、电子设备和可读存储介质，用以解决现有技术中采用卷积神经网络进行图像盲修复处理时，单个阶段无法获得理想的训练结果，需要分两个阶段来完成训练任务，并且训练过程需要人工干预，以及训练路径繁琐复杂的缺陷，实现端对端的图像盲修复功能，且训练过程不需要人工干预，训练路径比较简单。

本发明提供一种图像生成器的训练方法，包括：获取原始样本人脸图像以及所述原始样本人脸图像对应的降质样本人脸图像；将所述降质样本人脸图像输入至预先构建的图像生成器中，得到所述图像生成器生成的修复样本人脸图像；所述图像生成器基于Transformer模型构建；基于所述原始样本人脸图像和所述修复样本人脸图像，对预先构建的图像判别器进行优化，得到优化后的图像判别器；所述图像判别器用于区分所述原始样本人脸图像与所述修复样本人脸图像；基于所述原始样本人脸图像和所述修复样本人脸图像，对所述图像生成器进行优化，得到优化后的图像生成器；所述图像生成器与所述图像判别器构成生成对抗网络；交替重复上述优化图像判别器的步骤以及优化图像生成器的步骤，直至达到预设收敛条件，停止优化，并将优化后的图像生成器作为目标图像生成器，以对待修复人脸图像进行图像盲修复处理。

根据本发明提供的一种图像生成器的训练方法，所述基于所述原始样本人脸图像和所述修复样本人脸图像，对预先构建的图像判别器进行优化，得到优化后的图像判别器，包括：将所述原始样本人脸图像和所述修复样本人脸图像输入至所述图像判别器；获取所述原始样本人脸图像对应的第一图像判别结果，以及获取所述修复样本人脸图像对应的第二图像判别结果；基于所述第一图像判别结果和所述第二图像判别结果，获取所述图像判别器的第一损失函数；固定所述图像生成器的设备参数，并沿着所述第一损失函数梯度下降的方向进行迭代，以优化所述图像判别器的设备参数，得到优化后的图像判别器。

根据本发明提供的一种图像生成器的训练方法，所述基于所述原始样本人脸图像和所述修复样本人脸图像，对所述图像生成器进行优化，得到优化后的图像生成器，包括：获取所述修复样本人脸图像输入至所述图像判别器中得到的第二图像判别结果；基于所述原始样本人脸图像、所述修复样本人脸图像以及所述第二图像判别结果，获取所述图像生成器的第二损失函数；固定图像判别器的设备参数，并沿着所述第二损失函数梯度下降的方向进行迭代，以优化所述图像生成器的设备参数，得到优化后的图像生成器。

根据本发明提供的一种图像生成器的训练方法，所述基于所述原始样本人脸图像、所述修复样本人脸图像以及所述第二图像判别结果，获取所述图像生成器的第二损失函数，包括：基于所述原始样本人脸图像和所述修复样本人脸图像获取所述图像生成器的内容损失，所述内容损失用于衡量修复样本人脸图像与原始样本人脸图像之间的内容差异；基于所述原始样本人脸图像和所述修复样本人脸图像获取所述图像生成器的ID损失，所述ID损失用于衡量修复样本人脸图像与原始样本人脸图像之间的距离差异；获取所述第二图像判别结果为真的最大化概率，并基于所述最大化概率获取所述图像生成器的生成损失；基于所述内容损失、所述ID损失以及所述生成损失，获取所述图像生成器的第二损失函数。

根据本发明提供的一种图像生成器的训练方法，所述图像判别器为小波判别器。

根据本发明提供的一种图像生成器的训练方法，所述小波判别器包括离散小波变换模块和拼接卷积模块，其中：所述离散小波变换模块用于将输入图像分解为多个频率尺度的特征图像；所述拼接卷积模块用于对多个频率尺度的特征图像进行拼接，并对拼接后的特征图像进行卷积处理，得到重建图像。

根据本发明提供的一种图像生成器的训练方法，所述将所述降质样本人脸图像输入至预先构建的图像生成器中，得到所述图像生成器生成的修复样本人脸图像，包括：将所述降质样本人脸图像输入至所述图像生成器的编码器中，得到低层语义特征和高层语义特征；将所述高层语义特征输入至所述图像生成器的特征转换模块中，得到风格向量；将所述低层语义特征、所述高层语义特征和所述风格向量输入至所述图像生成器的解码器中，得到所述修复样本人脸图像。

本发明还提供一种图像生成器的训练装置，包括：样本图像获取模块，用于获取原始样本人脸图像以及所述原始样本人脸图像对应的降质样本人脸图像；降质图像修复模块，用于将所述降质样本人脸图像输入至预先构建的图像生成器中，得到所述图像生成器生成的修复样本人脸图像；所述图像生成器基于Transformer模型构建；判别器优化模块，用于基于所述原始样本人脸图像和所述修复样本人脸图像，对预先构建的图像判别器进行优化，得到优化后的图像判别器；所述图像判别器用于区分所述原始样本人脸图像与所述修复样本人脸图像；生成器优化模块，用于基于所述原始样本人脸图像和所述修复样本人脸图像，对所述图像生成器进行优化，得到优化后的图像生成器；所述图像生成器与所述图像判别器构成生成对抗网络；生成器确定模块，用于交替重复上述优化图像判别器的步骤以及优化图像生成器的步骤，直至达到预设收敛条件，停止优化，并将优化后的图像生成器作为目标图像生成器，以对待修复人脸图像进行图像盲修复处理。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述图像生成器的训练方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述图像生成器的训练方法。

本发明提供的图像生成器的训练方法、装置、电子设备和可读存储介质，通过预先构建图像生成器与图像判别器以构成生成对抗网络，在多次优化过程中，图像生成器预先不知道降质样本人脸图像的图像损失类型或者图像退化类型，对降质样本人脸图像进行图像盲修复处理，尽量生成图像性能指标高的、还原度高的以及逼真的修复样本人脸图像；而图像判别器尽量识别出图像生成器生成的修复样本人脸图像与原始样本人脸的区别，使得图像生成器与图像判别器在对抗训练过程中不断被优化，直至达到预设收敛条件，停止优化，并将优化后的图像生成器作为目标图像生成器，以对待修复人脸图像进行图像盲修复处理，从而可以得到高质量的目标修复人脸图像，实现了端对端的图像盲修复功能，训练过程不需要人工干预，且训练路径比较简单，克服了现有技术中采用卷积神经网络进行图像盲修复处理时，单个阶段无法获得理想的训练结果，需要分两个阶段来完成训练任务，并且训练过程需要人工干预，以及训练路径繁琐复杂的缺陷。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的图像生成器的训练方法的流程示意图之一；

图2是本发明提供的图像生成器的训练方法的流程示意图之二；

图3是本发明提供的图像生成器的训练方法的流程示意图之三；

图4是本发明提供的图像生成器的训练方法的流程示意图之四；

图5是本发明提供的图像生成器的训练方法的流程示意图之五；

图6是本发明具体实施例二中图像生成器的优化训练模型的结构示意图；

图7是本发明提供的图像生成器的训练装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

附图标记：

100：图像生成器的训练装置；10：样本图像获取模块；20：降质图像修复模块；30：判别器优化模块；40：生成器优化模块；50：生成器确定模块；810：处理器；820：通信接口；830：存储器；840：通信总线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图5描述本发明提供的图像生成器的训练方法。如图1所示，本发明提供一种图像生成器的训练方法，包括：

步骤S1：获取原始样本人脸图像以及原始样本人脸图像对应的降质样本人脸图像。

其中，原始样本人脸图像表示图像性能指标（或称为图像质量指标）比较高的样本人脸图像。降质样本人脸图像表示图像性能指标比较低的样本人脸图像。原始样本人脸图像和降质样本人脸图像构成样本人脸图像对，用于监督训练图像生成器和图像判别器。

步骤S2：将降质样本人脸图像输入至预先构建的图像生成器中，得到图像生成器生成的修复样本人脸图像；图像生成器基于Transformer模型构建。

Transformer模型是一种基于Attention思想构建的模型，其广泛应用于自然语言处理、语义关系抽取、摘要生成、命名实体识别以及机器翻译等技术领域。

步骤S3：基于原始样本人脸图像和修复样本人脸图像，对预先构建的图像判别器进行优化，得到优化后的图像判别器；图像判别器用于区分原始样本人脸图像与修复样本人脸图像。

步骤S4：基于原始样本人脸图像和修复样本人脸图像，对图像生成器进行优化，得到优化后的图像生成器；图像生成器与图像判别器构成生成对抗网络。

步骤S5：交替重复上述优化图像判别器的步骤以及优化图像生成器的步骤，直至达到预设收敛条件，停止优化，并将优化后的图像生成器作为目标图像生成器，以对待修复人脸图像进行图像盲修复处理。

其中，预设收敛条件可以是预设最大迭代次数，也可以是预设图像性能指标阈值，也可以是其他收敛条件，本发明不作具体限制。例如，在预设收敛条件为预设最大迭代次数的情况下，判断当前迭代次数是否达到预设最大迭代次数，在当前迭代次数达到预设最大迭代次数的情况下，停止迭代；在当前迭代次数未达到预设最大迭代次数的情况下，继续迭代，直至当前迭代次数达到预设最大迭代次数。同理，在预设收敛条件为预设图像性能指标阈值的情况下，判断修复样本人脸图像的图像性能指标是否达到预设图像性能指标阈值，并根据判断结果确定是否继续停止迭代。

图像生成器预先不知道降质样本人脸图像的图像损失类型或者图像退化类型，用于对降质样本人脸图像进行图像盲修复处理，生成修复样本人脸图像。而图像判别器用于判别图像生成器生成的修复样本人脸图像是否与原始样本人脸图像一致。

上述步骤S1至步骤S5，通过预先构建图像生成器与图像判别器以构成生成对抗网络，在多次优化过程中，图像生成器预先不知道降质样本人脸图像的图像损失类型或者图像退化类型，对降质样本人脸图像进行图像盲修复处理，尽量生成图像性能指标高的、还原度高的以及逼真的修复样本人脸图像；而图像判别器尽量识别出图像生成器生成的修复样本人脸图像与原始样本人脸的区别，使得图像生成器与图像判别器在对抗训练过程中不断被优化，直至达到预设收敛条件，停止优化，并将优化后的图像生成器作为目标图像生成器，以对待修复人脸图像进行图像盲修复处理，从而可以得到高质量的目标修复人脸图像，实现了端对端的图像盲修复功能，训练过程不需要人工干预，且训练路径比较简单，克服了现有技术中采用卷积神经网络进行图像盲修复处理时，单个阶段无法获得理想的训练结果，需要分两个阶段来完成训练任务，并且训练过程需要人工干预，以及训练路径繁琐复杂的缺陷。

在一个实施例中，在步骤S1之前，本发明提供的图像生成器的训练方法，还包括：对原始样本人脸图像进行图像降质操作，得到原始样本人脸图像对应的降质样本人脸图像，其中，图像降质操作包括但不仅限于模糊操作、下采样操作、加高斯白噪声操作以及JPEG压缩操作。

可选地，模糊操作包括高斯模糊操作和运动模糊操作。下采样操作包括双三次插值（Bicubic）下采样操作、双线性插值（Bilinear）下采样操作以及Lanczos下采样操作，其中，Lanczos算法是一种将对称矩阵通过正交相似变换变成对称三对角矩阵的算法。加噪声操作包括加高斯白噪声操作以及加泊松噪声操作。

需要说明的是，本实施例并非使用预先准备好的降质样本人脸图像，而是在训练过程进行在线的图像降质操作，可以使得训练过程中使用到的降质样本人脸图像的种类更加丰富，以提高图像生成器应对未知图像损失类型的待修复人脸图像时的适应性图像修复能力，提高了优化训练效果。

本实施例，通过设置在线的图像降质操作对原始样本人脸图像进行在线的图像降质处理，得到降质样本人脸图像，丰富了降质样本人脸图像的图像损失类型，从而提高了优化训练的效果，提高了目标图像生成器的泛化性能，以使其可以针对不同图像损失类型的待修复人脸图像进行图像盲修复处理。

在一个实施例中，如图2所示，上述步骤S3具体包括步骤S31至步骤S34，其中：

步骤S31：将原始样本人脸图像和修复样本人脸图像输入至图像判别器。

步骤S32：获取原始样本人脸图像对应的第一图像判别结果，以及获取修复样本人脸图像对应的第二图像判别结果。

其中，第一图像判别结果表示原始样本人脸图像输入至图像判别器后，图像判别器输出的图像判别结果。第二图像判别结果表示修复样本人脸图像输入至图像判别器后，图像判别器输出的图像判别结果。

步骤S33：基于第一图像判别结果和第二图像判别结果，获取图像判别器的第一损失函数。

需要说明的是，图像判别器的损失函数可以采用本发明实施例中提供的第一损失函数，也可以采用其他损失函数，本发明不作具体限制。

步骤S34：固定图像生成器的设备参数，并沿着第一损失函数梯度下降的方向进行迭代，以优化图像判别器的设备参数，得到优化后的图像判别器。

需要说明的是，在对图像判别器进行优化的过程中，需要固定图像生成器的设备参数，即保持图像生成器的设备参数固定不变，只对图像判别器的设备参数进行迭代更新。

上述步骤S31至步骤S34，通过以原始样本人脸图像输入至图像判别器得到的第一图像判别结果以对照，并结合修复样本人脸图像输入至图像判别器得到的第二图像判别结果，能够准确地计算出图像判别器的第一损失函数，并以第一损失函数为目标函数对图像判别器的设备参数进行迭代优化，从而可以提高图像判别器的优化训练效果。另外，沿着第一损失函数梯度下降的方向进行迭代，可以以最快的迭代速度将图像判别器的损失降到最低，即可以高质量高效率地完成图像判别器的优化训练任务，实现了在提高图像判别器的优化训练效率同时，进一步提高了图像判别器的优化训练效果。

在一个实施例中，获取第一图像判别结果为真的第一分布概率，以及获取第二图像判别结果为假的第二分布概率，并基于第一分布概率和第二分布概率确定图像判别器的第一损失函数。

其中，第一分布概率表示期望原始样本人脸图像输入至图像判别器得到的图像判别结果为真的分布概率。第二分布概率表示期望修复样本人脸图像输入至图像判别器得到的图像判别结果为假的分布概率。

在一个实施例中，如图3所示，上述步骤S4具体包括步骤S41至步骤S43，其中：

步骤S41：获取修复样本人脸图像输入至图像判别器中得到的第二图像判别结果。

步骤S42：基于原始样本人脸图像、修复样本人脸图像以及第二图像判别结果，获取图像生成器的第二损失函数。

需要说明的是，图像生成器的损失函数可以采用本发明实施例中提供的第二损失函数，也可以采用其他损失函数，本发明不作具体限制。

步骤S43：固定图像判别器的设备参数，并沿着第二损失函数梯度下降的方向进行迭代，以优化图像生成器的设备参数，得到优化后的图像生成器。

同样地，在对图像生成器进行优化的过程中，需要固定图像判别器的设备参数，即保持图像判别器的设备参数固定不变，只对图像生成器的设备参数进行迭代更新。

上述步骤S41至步骤S43，通过结合原始样本人脸图像、修复样本人脸图像以及修复样本人脸图像输入至图像判别器中得到的第二图像判别结果，能够准确地计算出图像生成器的第二损失函数，从而以第二损失函数为目标函数对图像生成器的设备参数进行迭代优化，可以提高图像生成器的优化训练效果。另外，沿着第二损失函数梯度下降的方向进行迭代，可以以最快的迭代速度将图像生成器的损失降到最低，即可以高质量高效率地完成图像生成器的优化训练任务，实现了在提高图像生成器的优化训练效率同时，进一步提高了图像生成器的优化训练效果。此外，本发明提供的图像生成器的训练方法，相比于现有技术中采用卷积神经网络进行图像盲修复处理的方法，使用的损失函数和训练技巧更少，因此训练过程比较简单便于实现。

在一个实施例中，如图4所示，上述步骤S42具体包括步骤S421至步骤S424，其中：

步骤S421：基于原始样本人脸图像和修复样本人脸图像获取图像生成器的内容损失，内容损失用于衡量修复样本人脸图像与原始样本人脸图像之间的内容差异。

步骤S422：基于原始样本人脸图像和修复样本人脸图像获取图像生成器的ID损失，ID损失用于衡量修复样本人脸图像与原始样本人脸图像之间的距离差异。

步骤S423：获取第二图像判别结果为真的最大化概率，并基于最大化概率获取图像生成器的生成损失。

其中，最大化概率表示期望修复样本人脸图像输入至图像判别器中得到的第二图像判别结果为真的最大化概率。

步骤S424：基于内容损失、ID损失以及生成损失，获取图像生成器的第二损失函数。

上述步骤S421至步骤S424，通过分别计算图像生成器在生成修复样本人脸图像过程中的内容损失、ID损失以及生成损失，并通过结合图像生成器的内容损失、ID损失以及生成损失能够准确地计算出图像生成器的第二损失函数，进而以该第二损失函数为目标函数对图像生成器的设备参数进行迭代优化，可以进一步提高图像生成器的优化训练效果。

在一个实施例中，图像判别器为小波判别器。本实施例提供的小波判别器用于消除或者减弱图像生成器迭代训练过程中生成的修复样本人脸图像中的块效应，以使最终获得的目标图像生成器具有更好的图像盲修复效果，进一步提高了图像生成器的优化训练效果。

需要说明的是，可以从图像生成器生成的修复样本人脸图像中直观的观察到块效应，则可以获取修复样本人脸图像的图像性能指标参数去判断修复样本人脸图像中是否存在块效应问题。相较于其他图像判别器，通过本实施例提供的小波判别器对图像生成器进行优化训练，从而使得基于优化后的图像生成器生成的修复样本人脸图像中不存在块效应或者存在较少的块效应。

在一个实施例中，图像判别器还包括谱归一化（Spectral Normalization）稳定性约束，用于提高优化训练模型的稳定性，以解决优化训练过程中训练不稳定的问题。

在一个实施例中，小波判别器包括离散小波变换模块和拼接卷积模块，其中：离散小波变换模块用于将输入图像分解为多个频率尺度的特征图像；拼接卷积模块用于对多个频率尺度的特征图像进行拼接，并对拼接后的特征图像进行卷积处理，得到重建图像。

需要说明的是，多个频率尺度的特征图像相较于输入图像包含了更多的图像细节信息，由于离散小波变换模块具有良好的时频定位功能，即具有更好的图像细节信息保留能力，因此通过离散小波变换处理可以恢复出输入图像丢失的，但是输入图像对应的原始图像中存在的图像细节信息，从而根据拼接卷积模块对包含图像细节信息的多个频率尺度的特征图像进行拼接处理以及卷积平滑处理，得到包含图像细节信息的重建图像，提高了图像的感受野的范围，从而消除或者减弱了输入图像中存在的块效应。

本实施例提供的小波判别器可以利用其离散小波变换原理以及拼接卷积原理，监督以及训练图像生成器生成具有更多图像细节信息的修复样本人脸图像，提高修复样本人脸图像的感受野的范围，从而消除或者减弱了修复样本人脸图像中存在的块效应，提高了优化训练效果，可以得到性能更优的图像生成器。

需要进一步说明的是，由于基于transformer模型构建的图像生成器在图像修复生成过程中，自制力需要进行全局attention，但是全局attention存在计算量过大的问题，因此使用局部attention代替全局attention，以解决计算量过大的问题。但是，采用局部attention代替全局attention会降低生成图像的感受野的范围，从而导致生成的修复样本人脸图像中存在块效应的问题。而本实施例提供的小波判别器可以扩大感受野的范围，在计算效率与图像修复性能之间取得更好的平衡，以解决修复样本人脸图像中存在块效应的问题，在保证计算效率的同时，提高目标图像生成器的图像盲修复效果。

在一个实施例中，如图5所示，上述步骤S2具体包括步骤S21至步骤S23，其中：

步骤S21：将降质样本人脸图像输入至图像生成器的编码器中，得到低层语义特征和高层语义特征。

其中，低层语义特征包括图像的轮廓特征、边缘特征、颜色特征、纹理特征以及形状特征。高层语义特征表示图像中可视化的视觉特征，例如人脸、海滩等语义信息比较丰富的特征。

进一步地，编码器用于对降质样本人脸图像进行卷积操作、非线性操作等，以获取降质样本人脸图像的低层语义特征和高层语义特征。

步骤S22：将高层语义特征输入至图像生成器的特征转换模块中，得到风格向量。其中，特征转换模块也可以称为映射模块。

步骤S23：将低层语义特征、高层语义特征和风格向量输入至图像生成器的解码器中，得到修复样本人脸图像。

在一个实施例中，编码器包括多个编码模块，每一编码模块对应一个特征尺度，编码模块用于从输入图像中提取自身特征尺度对应的特征图，并将低维度的特征图和高维度的特征图发送至解码器，以及将高维度的特征图发送至映射模块，其中，低维度的特征图即为低层语义特征，高维度的特征图即为高层语义特征。

在一个实施例中，映射模块（即上述特征转换模块）包括多个全连接层，多个全连接层用于接收编码模块发送的高维度的特征图，并将高维度的特征图映射转换为风格向量，风格向量包括多个向量元素，每一个向量元素对应一个视觉特征。

在一个实施例中，解码器包括多个级联的解码模块，每一解码模块对应一个特征尺度。每一解码模块用于获取自身特征尺度对应的低维度的特征图，基于自身特征尺度对应的低维度的特征图、高维度的特征图、高维度的特征图对应的风格向量以及上一级输入参数生成图像修复结果，并将图像修复结果作为下一级输入参数输出。

需要说明的是，上一级输入参数表示上一级解码模块的图像修复结果。第一层解码模块的上一级输入参数为常数或傅里叶特征。最后一级解码模块基于自身特征尺度对应的低维度的特征图、高维度的特征图、高维度的特征图对应的风格向量以及上一级输入参数生成修复样本人脸图像。

进一步地，上一级解码模块输出的图像修复结果与其对应的相对位置编码相加，作为下一级解码模块的输入参数。

下面提供两个具体实施例，以对本发明提供的图像生成器的训练方法作进一步说明。

在具体实施例一中，本发明提供的图像生成器的训练方法包括以下步骤：

步骤1：获取原始样本人脸图像以及原始样本人脸图像对应的降质样本人脸图像。将降质样本人脸图像输入至图像生成器的编码器中，得到低层语义特征和高层语义特征，图像生成器基于Transformer模型构建。将高层语义特征输入至图像生成器的特征转换模块中，得到风格向量。将低层语义特征、高层语义特征和风格向量输入至图像生成器的解码器中，得到修复样本人脸图像。

步骤2：将原始样本人脸图像和修复样本人脸图像输入至图像判别器，图像判别器用于区分原始样本人脸图像与修复样本人脸图像。获取原始样本人脸图像对应的第一图像判别结果，以及获取修复样本人脸图像对应的第二图像判别结果。基于第一图像判别结果和第二图像判别结果，获取图像判别器的第一损失函数。固定图像生成器的设备参数，并沿着第一损失函数梯度下降的方向进行迭代，以优化图像判别器的设备参数，得到优化后的图像判别器。

步骤3：获取修复样本人脸图像输入至图像判别器中得到的第二图像判别结果。基于原始样本人脸图像和修复样本人脸图像获取图像生成器的内容损失，内容损失用于衡量修复样本人脸图像与原始样本人脸图像之间的内容差异。基于原始样本人脸图像和修复样本人脸图像获取图像生成器的ID损失，ID损失用于衡量修复样本人脸图像与原始样本人脸图像之间的距离差异。获取第二图像判别结果为真的最大化概率，并基于最大化概率获取图像生成器的生成损失。基于内容损失、ID损失以及生成损失，获取图像生成器的第二损失函数。固定图像判别器的设备参数，并沿着第二损失函数梯度下降的方向进行迭代，以优化图像生成器的设备参数，得到优化后的图像生成器。

步骤4：交替重复上述优化图像判别器的步骤以及优化图像生成器的步骤，直至达到预设收敛条件，停止优化，并将优化后的图像生成器作为目标图像生成器，以对待修复人脸图像进行图像盲修复处理。

图6是本发明具体实施例二中图像生成器的优化训练模型的结构示意图，如图6所示，本发明提供的具体实施例二具体包括以下步骤：

步骤（1）：获取原始样本人脸图像，并对原始样本人脸图像进行在线的图像降质操作，得到原始样本人脸图像对应的降质样本人脸图像，其中，图像降质操作包括但不仅限于模糊操作、下采样操作、加高斯白噪声操作以及JPEG压缩操作。

步骤（2）：将降质样本人脸图像输入至图像生成器的编码器中，得到低层语义特征和高层语义特征，图像生成器基于Transformer模型构建。将高层语义特征输入至图像生成器的特征转换模块（即映射模块）中，得到高层语义特征对应的风格向量。将低层语义特征、高层语义特征和风格向量输入至图像生成器的解码器中，得到修复样本人脸图像。编码器包括多个编码模块。映射模块包括多个全连接层。解码器包括多个解码模块，解码模块与编码模块的数量相等。解码模块可以由AdaIN和双注意力层（Double Attn）构成，也可以由AdaIN和多层感知机层（MLP）。解码模块的输入和输出使用残差连接。

步骤（3）：将原始样本人脸图像和修复样本人脸图像输入至图像判别器，图像判别器用于区分原始样本人脸图像与修复样本人脸图像。获取原始样本人脸图像对应的第一图像判别结果，以及获取修复样本人脸图像对应的第二图像判别结果。获取第一图像判别结果为真的第一分布概率，以及获取第二图像判别结果为假的第二分布概率，并基于第一分布概率和第二分布概率确定图像判别器的第一损失函数。其中，第一分布概率表示期望原始样本人脸图像输入至图像判别器得到的图像判别结果为真的分布概率。第二分布概率表示期望修复样本人脸图像输入至图像判别器得到的图像判别结果为假的分布概率。

具体地，第一损失函数如下公式（1）所示：

其中，

表示第一损失函数，

表示原始样本人脸图像，

表示原始样本人脸图像的分布概率，

表示原始样本人脸图像对应的第一图像判别结果，

表示原始样本人脸图像对应的第一分布概率。

表示降质样本人脸图像，

表示降质样本人脸图像的分布概率，

表示降质样本人脸图像对应的修复样本人脸图像，

表示修复样本人脸图像对应的第二图像判别结果，

表示修复样本人脸图像对应的第二分布概率。

表示权重系数，

表示谱归一化稳定性约束。公式中的两个负号表示梯度下降的方向，以将第一损失函数的值控制在（0,1）之间进行梯度下降。

固定图像生成器的设备参数，并沿着第一损失函数梯度下降的方向进行迭代，以优化图像判别器的设备参数，得到优化后的图像判别器。图像判别器由小波判别器和谱归一化稳定性约束构成，小波判别器包括离散小波变换模块和拼接卷积模块，其中：离散小波变换模块为DWT离散小波变换模块用于将输入图像分解为多个频率尺度的特征图像。拼接卷积模块包括concat拼接单元和conv卷积单元。concat拼接单元用于对多个频率尺度的特征图像进行拼接。conv卷积单元对拼接后的特征图像进行卷积平滑处理，得到重建图像。例如，DWT离散小波变换模块将一个1024 * 1024的输入图像分解为4个512 * 512 的特征图像。concat拼接单元将4个512 * 512 的特征图像进行拼接。conv卷积单元将对拼接后的特征图像进行卷积平滑处理，得到一个1024 * 1024的重建图像。

步骤（4）：获取修复样本人脸图像输入至图像判别器中得到的第二图像判别结果。基于原始样本人脸图像和修复样本人脸图像获取图像生成器的内容损失，内容损失用于衡量修复样本人脸图像与原始样本人脸图像之间的内容差异，以

损失作为图像生成器的内容损失，其中，内容损失的计算方法如公式（2）所示：

其中，

表示图像生成器的内容损失，

表示降质样本人脸图像，

表示原始样本人脸图像，

表示修复样本人脸图像。

基于原始样本人脸图像和修复样本人脸图像获取图像生成器的ID损失，ID损失用于衡量修复样本人脸图像与原始样本人脸图像之间的距离差异，其中，ID损失的计算方法如公式（3）所示：

其中，

表示图像生成器的ID损失，

表示基于预设人脸识别算法训练得到的人脸识别网络，

表示降质样本人脸图像输入至人脸识别网络输出的第一人脸识别结果，

表示修复样本人脸图像输入至人脸识别网络输出的第二人脸识别结果，

表示降质样本人脸图像与修复样本人脸图像的相似度。

需要说明的是，上述公式表示 “1减去降质样本人脸图像与修复样本人脸图像的相似度”，由于刚开始进行生成对抗训练时降质样本人脸图像与修复样本人脸图像的相似度较低，随着生成对抗训练不断进行，两者的相似度逐渐增大，而用“1减去两者的相似度”表示随着生成对抗训练不断进行，相似度逐渐增大，而 ID损失逐渐减小，以实现ID损失的梯度递减。获取第二图像判别结果为真的最大化概率，基于最大化概率获取非饱和损失，并将非饱和损失作为图像生成器的生成损失，其中，生成损失的计算方法如公式（4）所示：

其中，

表示图像生成器的生成损失，

表示修复样本人脸图像，

表示修复样本人脸图像输入至图像判别器中得到的第二图像判别结果，

表示第二图像判别结果为真的最大化概率。

需要说明的是，在优化训练的初始阶段，图像生成器生成的修复样本人脸图像很容易被图像判别器识别出来，也就是

趋近于0，但是，非饱和图像生成器的

的梯度不趋于0，能够为图像生成器的设备参数更新提供比较好的梯度方向，提高迭代的收敛速度。

基于内容损失、ID损失以及生成损失，获取图像生成器的第二损失函数，其中，第二损失函数的计算方法如公式（5）所示：

其中，

表示第二损失函数，

表示图像生成器的内容损失，

表示图像生成器的生成损失，

表示图像生成器的ID损失，

表示第一超参数，

表示第二超参数，

表示第三超参数。

固定图像判别器的设备参数，并沿着第二损失函数梯度下降的方向进行迭代，以优化图像生成器的设备参数，得到优化后的图像生成器。

步骤（5）：交替重复上述优化图像判别器的步骤以及优化图像生成器的步骤，获取当前图像生成器生成的修复样本人脸图像的图像性能指标，在图像性能指标达到预设图像性能指标阈值的情况下，停止优化，并将当前图像生成器作为目标图像生成器，以对待修复人脸图像进行图像盲修复处理。

下面对本发明提供的图像生成器的训练装置进行描述，下文描述的图像生成器的训练装置与上文描述的图像生成器的训练方法可相互对应参照。

如图7所示，本发明提供一种图像生成器的训练装置100，包括样本图像获取模块10、降质图像修复模块20、判别器优化模块30、生成器优化模块40和生成器确定模块50，其中：

样本图像获取模块10，用于获取原始样本人脸图像以及原始样本人脸图像对应的降质样本人脸图像。

降质图像修复模块20，用于将降质样本人脸图像输入至预先构建的图像生成器中，得到图像生成器生成的修复样本人脸图像；图像生成器基于Transformer模型构建。

判别器优化模块30，用于基于原始样本人脸图像和修复样本人脸图像，对预先构建的图像判别器进行优化，得到优化后的图像判别器；图像判别器用于区分原始样本人脸图像与修复样本人脸图像。

生成器优化模块40，用于基于原始样本人脸图像和修复样本人脸图像，对图像生成器进行优化，得到优化后的图像生成器；图像生成器与图像判别器构成生成对抗网络。

生成器确定模块50，用于交替重复上述优化图像判别器的步骤以及优化图像生成器的步骤，直至达到预设收敛条件，停止优化，并将优化后的图像生成器作为目标图像生成器，以对待修复人脸图像进行图像盲修复处理。

在一个实施例中，判别器优化模块30包括样本图像输入单元、判别结果获取单元、第一函数获取单元和判别器优化单元，其中：

样本图像输入单元，用于将原始样本人脸图像和修复样本人脸图像输入至图像判别器。

判别结果获取单元，用于获取原始样本人脸图像对应的第一图像判别结果，以及获取修复样本人脸图像对应的第二图像判别结果。

第一函数获取单元，用于基于第一图像判别结果和第二图像判别结果，获取图像判别器的第一损失函数。

判别器优化单元，用于固定图像生成器的设备参数，并沿着第一损失函数梯度下降的方向进行迭代，以优化图像判别器的设备参数，得到优化后的图像判别器。

在一个实施例中，生成器优化模块40包括判别数据获取单元、第二函数获取单元和生成器优化单元，其中：

判别数据获取单元，用于获取修复样本人脸图像输入至图像判别器中得到的第二图像判别结果。

第二函数获取单元，用于基于原始样本人脸图像、修复样本人脸图像以及第二图像判别结果，获取图像生成器的第二损失函数。

生成器优化单元，用于固定图像判别器的设备参数，并沿着第二损失函数梯度下降的方向进行迭代，以优化图像生成器的设备参数，得到优化后的图像生成器。

在一个实施例中，第二函数获取单元包括内容损失获取子单元、ID损失获取子单元、生成损失获取子单元和损失函数获取子单元，其中。

内容损失获取子单元，用于基于原始样本人脸图像和修复样本人脸图像获取图像生成器的内容损失，内容损失用于衡量修复样本人脸图像与原始样本人脸图像之间的内容差异。

ID损失获取子单元，用于基于原始样本人脸图像和修复样本人脸图像获取图像生成器的ID损失，ID损失用于衡量修复样本人脸图像与原始样本人脸图像之间的距离差异。

生成损失获取子单元，用于获取第二图像判别结果为真的最大化概率，并基于最大化概率获取图像生成器的生成损失。

损失函数获取子单元，用于基于内容损失、ID损失以及生成损失，获取图像生成器的第二损失函数。

在一个实施例中，图像判别器为小波判别器。

在一个实施例中，降质图像修复模块20包括特征获取单元、特征转换单元和图像修复单元，其中：

特征获取单元，用于将降质样本人脸图像输入至图像生成器的编码器中，得到低层语义特征和高层语义特征。

特征转换单元，用于将高层语义特征输入至图像生成器的特征转换模块中，得到风格向量。

图像修复单元，用于将低层语义特征、高层语义特征和风格向量输入至图像生成器的解码器中，得到修复样本人脸图像。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行图像生成器的训练方法，该方法包括：获取原始样本人脸图像以及原始样本人脸图像对应的降质样本人脸图像；将降质样本人脸图像输入至预先构建的图像生成器中，得到图像生成器生成的修复样本人脸图像；图像生成器基于Transformer模型构建；基于原始样本人脸图像和修复样本人脸图像，对预先构建的图像判别器进行优化，得到优化后的图像判别器；图像判别器用于区分原始样本人脸图像与修复样本人脸图像；基于原始样本人脸图像和修复样本人脸图像，对图像生成器进行优化，得到优化后的图像生成器；图像生成器与图像判别器构成生成对抗网络；交替重复上述优化图像判别器的步骤以及优化图像生成器的步骤，直至达到预设收敛条件，停止优化，并将优化后的图像生成器作为目标图像生成器，以对待修复人脸图像进行图像盲修复处理。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的图像生成器的训练方法，该方法包括：获取原始样本人脸图像以及原始样本人脸图像对应的降质样本人脸图像；将降质样本人脸图像输入至预先构建的图像生成器中，得到图像生成器生成的修复样本人脸图像；图像生成器基于Transformer模型构建；基于原始样本人脸图像和修复样本人脸图像，对预先构建的图像判别器进行优化，得到优化后的图像判别器；图像判别器用于区分原始样本人脸图像与修复样本人脸图像；基于原始样本人脸图像和修复样本人脸图像，对图像生成器进行优化，得到优化后的图像生成器；图像生成器与图像判别器构成生成对抗网络；交替重复上述优化图像判别器的步骤以及优化图像生成器的步骤，直至达到预设收敛条件，停止优化，并将优化后的图像生成器作为目标图像生成器，以对待修复人脸图像进行图像盲修复处理。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像生成器的训练方法，其特征在于，包括：

获取原始样本人脸图像以及所述原始样本人脸图像对应的降质样本人脸图像；

将所述降质样本人脸图像输入至预先构建的图像生成器中，得到所述图像生成器生成的修复样本人脸图像；所述图像生成器基于Transformer模型构建；

基于所述原始样本人脸图像和所述修复样本人脸图像，对预先构建的图像判别器进行优化，得到优化后的图像判别器；所述图像判别器用于区分所述原始样本人脸图像与所述修复样本人脸图像；

基于所述原始样本人脸图像和所述修复样本人脸图像，对所述图像生成器进行优化，得到优化后的图像生成器；所述图像生成器与所述图像判别器构成生成对抗网络；

交替重复上述优化图像判别器的步骤以及优化图像生成器的步骤，直至达到预设收敛条件，停止优化，并将优化后的图像生成器作为目标图像生成器，以对待修复人脸图像进行图像盲修复处理。

2.根据权利要求1所述的图像生成器的训练方法，其特征在于，所述基于所述原始样本人脸图像和所述修复样本人脸图像，对预先构建的图像判别器进行优化，得到优化后的图像判别器，包括：

将所述原始样本人脸图像和所述修复样本人脸图像输入至所述图像判别器；

获取所述原始样本人脸图像对应的第一图像判别结果，以及获取所述修复样本人脸图像对应的第二图像判别结果；

基于所述第一图像判别结果和所述第二图像判别结果，获取所述图像判别器的第一损失函数；

固定所述图像生成器的设备参数，并沿着所述第一损失函数梯度下降的方向进行迭代，以优化所述图像判别器的设备参数，得到优化后的图像判别器。

3.根据权利要求1所述的图像生成器的训练方法，其特征在于，所述基于所述原始样本人脸图像和所述修复样本人脸图像，对所述图像生成器进行优化，得到优化后的图像生成器，包括：

获取所述修复样本人脸图像输入至所述图像判别器中得到的第二图像判别结果；

基于所述原始样本人脸图像、所述修复样本人脸图像以及所述第二图像判别结果，获取所述图像生成器的第二损失函数；

固定图像判别器的设备参数，并沿着所述第二损失函数梯度下降的方向进行迭代，以优化所述图像生成器的设备参数，得到优化后的图像生成器。

4.根据权利要求3所述的图像生成器的训练方法，其特征在于，所述基于所述原始样本人脸图像、所述修复样本人脸图像以及所述第二图像判别结果，获取所述图像生成器的第二损失函数，包括：

基于所述原始样本人脸图像和所述修复样本人脸图像获取所述图像生成器的内容损失，所述内容损失用于衡量修复样本人脸图像与原始样本人脸图像之间的内容差异；

基于所述原始样本人脸图像和所述修复样本人脸图像获取所述图像生成器的ID损失，所述ID损失用于衡量修复样本人脸图像与原始样本人脸图像之间的距离差异；

获取所述第二图像判别结果为真的最大化概率，并基于所述最大化概率获取所述图像生成器的生成损失；

基于所述内容损失、所述ID损失以及所述生成损失，获取所述图像生成器的第二损失函数。

5.根据权利要求1至3中任一项所述的图像生成器的训练方法，其特征在于，所述图像判别器为小波判别器。

6.根据权利要求5所述的图像生成器的训练方法，其特征在于，所述小波判别器包括离散小波变换模块和拼接卷积模块，其中：

所述离散小波变换模块用于将输入图像分解为多个频率尺度的特征图像；

所述拼接卷积模块用于对多个频率尺度的特征图像进行拼接，并对拼接后的特征图像进行卷积处理，得到重建图像。

7.根据权利要求1所述的图像生成器的训练方法，其特征在于，所述将所述降质样本人脸图像输入至预先构建的图像生成器中，得到所述图像生成器生成的修复样本人脸图像，包括：

将所述降质样本人脸图像输入至所述图像生成器的编码器中，得到低层语义特征和高层语义特征；

将所述高层语义特征输入至所述图像生成器的特征转换模块中，得到风格向量；

将所述低层语义特征、所述高层语义特征和所述风格向量输入至所述图像生成器的解码器中，得到所述修复样本人脸图像。

8.一种图像生成器的训练装置，其特征在于，包括：

样本图像获取模块，用于获取原始样本人脸图像以及所述原始样本人脸图像对应的降质样本人脸图像；

降质图像修复模块，用于将所述降质样本人脸图像输入至预先构建的图像生成器中，得到所述图像生成器生成的修复样本人脸图像；所述图像生成器基于Transformer模型构建；

判别器优化模块，用于基于所述原始样本人脸图像和所述修复样本人脸图像，对预先构建的图像判别器进行优化，得到优化后的图像判别器；所述图像判别器用于区分所述原始样本人脸图像与所述修复样本人脸图像；

生成器优化模块，用于基于所述原始样本人脸图像和所述修复样本人脸图像，对所述图像生成器进行优化，得到优化后的图像生成器；所述图像生成器与所述图像判别器构成生成对抗网络；

生成器确定模块，用于交替重复上述优化图像判别器的步骤以及优化图像生成器的步骤，直至达到预设收敛条件，停止优化，并将优化后的图像生成器作为目标图像生成器，以对待修复人脸图像进行图像盲修复处。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述图像生成器的训练方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像生成器的训练方法。