CN111881926A

CN111881926A - 图像生成、图像生成模型的训练方法、装置、设备及介质

Info

Publication number: CN111881926A
Application number: CN202010856628.7A
Authority: CN
Inventors: 王多民
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-11-03

Abstract

本申请实施例公开了一种图像生成、图像生成模型的训练方法、装置、设备及介质，属于图像处理领域。该方法包括：获取第一原始图像、第一原始图像对应的第一结构信息和第二原始图像对应的第二结构信息；将第一原始图像、第一结构信息和第二结构信息输入编码器，得到编码器输出的表观特征向量和结构特征向量；通过解码器对表观特征向量和结构特征向量进行解码，得到解码器输出的目标图像，目标图像中包含目标对象，目标对象具备第一对象对应的表观特征，且目标对象具备第二对象对应的结构特征。可以用于对图像集进行扩增，并有利于在图像关键点预测任务中增加样本集或训练集的图像数量，以便提高关键点预测模型的预测效果。

Description

图像生成、图像生成模型的训练方法、装置、设备及介质

技术领域

本申请实施例涉及图像处理领域，特别涉及一种图像生成、图像生成模型的训练方法、装置、设备及介质。

背景技术

当采用神经网络模型来处理图像时，样本空间不够或样本数量不足，均会影响训练得到的神经网络模型的预测准确率。

相关技术中，为增加样本数量，通常对图像采用的图像增强方式一般包括：标准化、几何变化(比如，旋转、翻转、平移)、随机对比度调整、随机调整亮度等，用来增加训练集样本的数量，从而提升模型的预测性能。

显然，相关技术中的样本数量增加方式均为物理处理方式，并不会从根本上改变原始图像的内部特征，无法扩增出不同于原有样本集中图像的新图像，即图像中的图像特征并未改变，因此对神经网络模型预测性能的提升效果有限。

发明内容

本申请实施例提供了一种图像生成、图像生成模型的训练方法、装置、设备及介质。所述技术方案如下：

一方面，本申请实施例提供了一种图像生成方法，所述方法包括：

获取第一原始图像、所述第一原始图像对应的第一结构信息和第二原始图像对应的第二结构信息，所述第一原始图像中包含第一对象，所述第一结构信息指所述第一对象对应的关键点信息，所述第二原始图像中包含第二对象，所述第二结构信息指所述第二对象对应的关键点信息；

将所述第一原始图像、所述第一结构信息和所述第二结构信息输入编码器，得到所述编码器输出的表观特征向量和结构特征向量，所述表观特征向量用于表示所述第一对象对应的表观特征，所述结构特征向量用于表示所述第二对象对应的结构特征；

通过解码器对所述表观特征向量和所述结构特征向量进行解码，得到所述解码器输出的目标图像，所述目标图像中包含目标对象，所述目标对象具备所述第一对象对应的表观特征，且所述目标对象具备所述第二对象对应的结构特征。

另一方面，本申请实施例提供了一种图像生成模型的训练方法，图像生成模型包括编码器和解码器，所述方法包括：

获取样本图像和所述样本图像对应的样本结构信息，所述样本图像中包含样本对象，所述样本结构信息指所述样本对象对应的关键点信息；

将所述样本图像和所述样本结构信息输入所述编码器，得到所述编码器输出的样本表观特征向量和样本结构特征向量，所述样本表观特征向量用于表示所述样本对象对应的样本表观特征，所述样本结构特征向量用于表示所述样本对象对应的样本结构特征；

通过所述解码器对所述样本表观特征向量和所述样本结构特征向量进行解码，得到所述解码器输出的生成图像，所述生成图像中包含生成对象，所述生成对象用于模拟所述样本对象对应的样本表观特征，且所述生成对象用于模拟所述样本对象对应的样本结构特征；

根据所述样本图像和所述生成图像，训练所述图像生成模型。

另一方面，本申请实施例提供了一种图像生成装置，所述装置包括：

第一获取模块，用于获取第一原始图像、所述第一原始图像对应的第一结构信息和第二原始图像对应的第二结构信息，所述第一原始图像中包含第一对象，所述第一结构信息指所述第一对象对应的关键点信息，所述第二原始图像中包含第二对象，所述第二结构信息指所述第二对象对应的关键点信息；

第一编码模块，用于将所述第一原始图像、所述第一结构信息和所述第二结构信息输入编码器，得到所述编码器输出的表观特征向量和结构特征向量，所述表观特征向量用于表示所述第一对象对应的表观特征，所述结构特征向量用于表示所述第二对象对应的结构特征；

第一解码模块，用于通过解码器对所述表观特征向量和所述结构特征向量进行解码，得到所述解码器输出的目标图像，所述目标图像中包含目标对象，所述目标对象具备所述第一对象对应的表观特征，且所述目标对象具备所述第二对象对应的结构特征。

另一方面，本申请实施例提供了一种图像生成模型的训练装置，图像生成模型包括编码器和解码器，所述装置包括：

第二获取模块，用于获取样本图像和所述样本图像对应的样本结构信息，所述样本图像中包含样本对象，所述样本结构信息指所述样本对象对应的关键点信息；

第二编码模块，用于将所述样本图像和所述样本结构信息输入所述编码器，得到所述编码器输出的样本表观特征向量和样本结构特征向量，所述样本表观特征向量用于表示所述样本对象对应的样本表观特征，所述样本结构特征向量用于表示所述样本对象对应的样本结构特征；

第二解码模块，用于通过所述解码器对所述样本表观特征向量和所述样本结构特征向量进行解码，得到所述解码器输出的生成图像，所述生成图像中包含生成对象，所述生成对象用于模拟所述样本对象对应的样本表观特征，且所述生成对象用于模拟所述样本对象对应的样本结构特征；

第一训练模块，用于根据所述样本图像和所述生成图像，训练所述图像生成模型。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的图像生成方法，或实现如上述方面所述的图像生成模型的训练方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的图像生成方法，或实现如上述方面所述的图像生成模型的训练方法。

另一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的图像生成方法，或执行上述方面所述的图像生成模型的训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

在模型应用阶段，通过预先训练完成的编码器和解码器(即图像生成模型)，可以实现将第一原始图像的表观信息和第二原始图像的结构信息进行交叉组合，从而生成具有原始表观信息和新结构信息的新图像(与第一原始图像相比)，或具有原始结构信息和新表观信息(与第二原始图像相比)的新图像，从而实现在不引入新图像的条件下，生成不同于原始图像的新图像，可以用于对图像数据集的扩增，从而提高图像数据集的丰富性和多样性；而且由于生成的新图像具有关键点信息(结构信息)，因此，有利于在图像关键点预测任务中增加样本集或训练集的图像数量，以便提高关键点预测模型的预测效果。

在模型训练阶段，通过训练图像生成模型(包括编码器和解码器)，使得解码器输出的生成图像可以模拟样本对象的样本表观特征和样本结构特征，使得在模型应用阶段，由该图像生成模型生成的图像可以模拟输入的两张原始图像的表观特征和结构特征，从而实现生成新图像的目的，使得该图像生成模型可以用于扩增图像数据集。

附图说明

图1示出了本申请一个示例性实施例示出的图像生成方法的流程图；

图2示出了本申请一个示例性实施例示出的人脸热力图的示意图；

图3示出了本申请另一个示例性实施例示出的图像生成方法的流程图；

图4示出了表观编码器输出表观特征向量的过程；

图5示出了本申请另一个示例性实施例示出的图像生成方法的流程图；

图6示出了本申请一个示例性实施例示出的图像生成方法的完整流程图；

图7示出了本申请一个示例性实施例示出的图像生成模型的训练方法的流程图；

图8示出了本申请另一个示例性实施例示出的图像生成模型的训练方法的流程图；

图9示出了本申请一个示例性实施例示出的图像生成模型的示意图；

图10示出了本申请一个示例性实施例示出的图像生成模型的训练方法的流程图；

图11示出了本申请一个示例性实施例示出的图像生成模型的训练方法的流程图；

图12示出了本申请另一个示例性实施例示出的图像生成模型的训练方法的流程图；

图13示出了本申请一个示例性实施例提供的图像生成装置的结构框图；

图14示出了本申请一个示例性实施例提供的图像生成模型的训练装置的结构框图；

图15示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参考图1，其示出了本申请一个示例性实施例示出的图像生成方法的流程图。本申请实施例以该方法应用于计算机设备为例进行说明，该方法包括：

步骤101，获取第一原始图像、第一原始图像对应的第一结构信息和第二原始图像对应的第二结构信息，第一原始图像中包含第一对象，第一结构信息指第一对象对应的关键点信息，第二原始图像中包含第二对象，第二结构信息指第二对象对应的关键点信息。

由于本申请实施例中所示的图像生成方法是为了生成用于关键点检测任务的图像，因此，用于生成图像的第一原始图像和第二原始图像均需要具有至少一个对象，且对象所属的类型需要一致，便于后续对两个对象的结构信息和表观信息进行交叉互换。

其中，原始图像中包含的对象可以是人物、景物、动物等，也可以是前述对象的部分区域，比如，人物中的人脸、手臂；动物的面部区域等，本申请实施例对对象的类型不构成限定。

在一种可能的实施方式中，由于需要对两张原始图像中对象的表观特征和结构特征进行交叉互换，因此，在选择两张原始图像时，至少需要保证两张原始图像中所包含的对象属于同一类型，比如，两张图像均为人脸图像，或均为人体图像等。

其中，结构信息指图像中对象对应的关键点信息，比如，若原始图像为人脸图像，则结构信息指人脸图像中五官的位置信息。

针对获取结构信息的方式，在一种可能的实施方式中，可以获取原始图像对应的热力图，该热力图中的白色部分即表示结构信息。

在一个示例性的例子中，如图2所示，其示出了本申请一个示例性实施例示出的人脸热力图的示意图，其中，白色线条部分即表示人脸关键点信息(结构信息)。

在另一种可能的实施方式中，存在图像数据集，比如，AFLW、WFLW、300W，这些图像数据集中的图像均具有关键点信息，可以直接从该图像数据集中获取第一原始图像和第二原始图像，并获取其对应的第一结构信息和第二结构信息。

可选的，结构信息可以用向量的形式表示，本申请实施例对此不构成限定。

步骤102，将第一原始图像、第一结构信息和第二结构信息输入编码器，得到编码器输出的表观特征向量和结构特征向量，表观特征向量用于表示第一对象对应的表观特征，结构特征向量用于表示第二对象对应的结构特征。

其中，表观特征为图像中对象对应的外观信息，比如，肤色、皱纹、毛发等外观信息，以人脸图像为例，表观特征可以包括：人脸皱纹分布特征、人脸肤色特征等。

在一种可能的实施方式中，预训练有图像生成模型，并设置在计算机设备中，且该图像生成模型包括编码器和解码器，分别用于对原始图像进行特征提取，和生成新的目标图像，因此，可以将第一原始图像、第一结构信息和第二结构信息输入编码器中，用于提取第一原始图像中第一对象的表观特征(表观特征向量)，以及第二原始图像中第二对象的结构特征(结构特征向量)。

在另一种可能的实施方式中，可以对第一原始图像进行预处理，进行预处理的方式可以包括随机旋转、随机左右翻转、随机裁剪、伽马(Gamma)变换等在内的数据增强处理，以便编码器对该第一原始图像进行特征提取。

步骤103，通过解码器对表观特征向量和结构特征向量进行解码，得到解码器输出的目标图像，目标图像中包含目标对象，目标对象具备第一对象对应的表观特征，且目标对象具备第二对象对应的结构特征。

由于在编码器阶段分别提取到不同原始图像中不同对象对应的结构特征和表观特征，即第一对象的表观特征和第二对象的结构特征，因此，在解码器阶段对特征向量进行解码组合，即可以生成包含第一对象表观特征和第二对象结构特征的新的目标图像。

在一种可能的实施方式中，不同于相关技术中的图像生成方式，生成与输入图像相似的图像，本申请实施例生成的目标图像具有第一原始图像的表观特征和第二原始图像的结构特征，为不同于第一原始图像和第二原始图像的新图像，且由于具有第二原始图像对应的第二结构信息，因此，该目标图像中的目标对象也具有关键点信息，即可以生成新的且带有关键点信息的图像。

综上所述，本申请实施中，通过预先训练完成的编码器和解码器(即图像生成模型)，可以实现将第一原始图像的表观信息和第二原始图像的结构信息进行交叉组合，从而生成具有原始表观信息和新结构信息的新图像(与第一原始图像相比)，或具有原始结构信息和新表观信息(与第二原始图像相比)的新图像，从而实现在不引入新图像的条件下，生成不同于原始图像的新图像，可以用于对图像数据集的扩增，从而提高图像数据集的丰富性和多样性；而且由于生成的新图像具有关键点信息(结构信息)，因此，有利于在图像关键点预测任务中增加样本集或训练集的图像数量，以便提高关键点预测模型的预测效果。

由于在编码器进行特征提取的过程中，需要分别提取到第一原始图像对应的表观特征和第二原始图像对应的结构特征，两者的特征提取过程存在差异，因此，设置有表观编码器和结构编码器，分别用于提取表观特征和结构特征。

请参考图3，其示出了本申请另一个示例性实施例示出的图像生成方法的流程图，本申请实施例以该方法应用于计算机设备为例进行说明，该方法包括：

步骤301，获取第一原始图像、第一原始图像对应的第一结构信息和第二原始图像对应的第二结构信息，第一原始图像中包含第一对象，第一结构信息指第一对象对应的关键点信息，第二原始图像中包含第二对象，第二结构信息指第二对象对应的关键点信息。

本步骤的实施方式可以参考上文实施例，本实施例在此不做赘述。

步骤302，将第一原始图像和第一结构信息输入表观编码器，得到表观编码器输出的表观特征向量。

在一种可能的实施方式中，设置有表观编码器，可以将表观特征从第一原始图像和第一结构信息中分离出来。

针对提取出表观特征向量的方式，在一种可能的实施方式中，可以包括以下步骤：

一、通过表观编码器对第一原始图像和第一结构信息进行特征提取，得到中间特征向量。

由于本申请实施例是基于变分自编码器的原理生成新的图像，因此利用表观编码器提取特征向量的方式可以参考变分自编码器，在一种可能的实施方式中，表观编码器对第一原始图像和第一结构信息进行特征提取，得到中间特征向量，该中间特征向量可以是均值和方差，用于构建表观特征向量服从的概率分布。

在一个示例性的例子中，如图4所示，其示出了表观编码器输出表观特征向量的过程。对第一原始图像和第一结构信息X进行特征提取，得到中间特征向量：均值和方差(对于第一原始图像中的不同像素点对应有不同的均值和方差)，再根据均值和方差构建特征分布，对特征分布进行采样，即可以得到表观特征向量Z。

二、根据中间特征向量构建特征分布，特征分布为表观特征向量服从的概率分布。

在一种可能的实施方式中，通过对中间特征向量进行建模，拟合得到表观特征向量服从的概率分布，即根据提取出的均值和方差来构建特征分布。

三、对特征分布进行采样得到表观特征向量。

在一种可能的实施方式中，由于特征分布是表观特征向量对应的概率分布，因此，可以直接对该特征分布进行采样，即可以得到表观特征向量。

可选的，对特征分布进行采样所使用的采样方式可以是高斯分布采样，或多维高斯分布采样，本申请实施例对使用的采样方式不构成限定。

步骤303，将第二结构信息输入结构编码器，得到结构编码器输出的结构特征向量。

在一种可能的实施方式中，计算机设备中设置有结构编码器，通过结构编码器对第二结构信息进行特征提取，从而得到结构编码器输出的结构特征向量。

步骤304，通过解码器对表观特征向量和结构特征向量进行解码，得到解码器输出的目标图像，目标图像中包含目标对象，目标对象具备第一对象对应的表观特征，且目标对象具备第二对象对应的结构特征。

在一种可能的实施方式中，将表观编码器输出表观特征向量和结构编码器输出结构特征向量，一起输入解码器中，由解码器对其进行解码，得到解码器输出的目标图像。

在另一种可能的实施方式中，更好的将结构特征传递至解码器，在结构编码器和解码器之间设置有U-net网络，通过U-net网络进行下采样、上采样和卷积处理，将多尺度特征进行融合拼接，从而更好得将各层特征传递至解码器中。

本实施例中，通过设置表观编码器和结构编码器，通过表观编码器对第一原始图像和第一结构信息进行特征提取，得到表观特征向量，并通过结构编码器对第二结构信息进行特征提取，得到结构特征向量，共同输入解码器中，生成目标图像。

在一种可能的应用场景下，本申请实施例所示的图像生成模型可以用于扩增图像数据集，而图像数据集中的原始图像均是具有结构信息(关键点信息)的图像，因此，本申请实施例中所使用的原始图像也可以直接从图像数据集中获取，并从中直接获取所需要的结构信息。

在一个示例性的例子中，请参考图5，其示出了本申请另一个示例性实施例示出的图像生成方法的流程图，本申请实施例以该方法应用于计算机设备为例进行说明，该方法包括：

步骤501，从目标图像数据集中获取第一原始图像和第二原始图像，目标图像数据集中的原始图像均包含有结构信息。

其中，目标图像数据集中的原始图像均标注有关键点信息(即结构信息)，一般作为图像识别任务的样本集，比如，若目标图像数据集中的原始图像为标注有关键点的人脸图像，则可以用于训练人脸关键点检测模型、或人脸识别模型。

在一种可能的实施方式中，图像数据集中的图像可以为人脸图像，则其对应的结构信息是人脸图像中人脸对应的关键点信息，比如，人脸眼部对应的关键点位置、人脸嘴部对应的关键点位置等。

在另一种可能的实施方式中，目标图像数据集中的图像也可以为人体图像，则其对应的结构信息是人体图像中人体对应的关键点信息，比如，人体手臂对应的关键点信息、人体腿部对应的关键点信息等。

上述实施例仅列举了几种目标图像数据集，还可以是其他类型的目标图像数据集，比如，动物类图像数据集，本申请实施例对此不构成限定。

步骤502，根据第一原始图像确定第一结构信息，并根据第二原始图像确定第二结构信息。

在一种可能的实施方式中，由于目标图像数据集中的原始图像均具有结构信息，则对应的该目标图像数据集中的图像存储形式为：将原始图像和其对应的关键点信息(即结构信息)关联存储，因此，当需要获取各个原始图像对应的结构信息时，可以直接根据选择的原始图像获取其对应的关键点信息即可。

步骤503，将第一原始图像、第一结构信息和第二结构信息输入编码器，得到编码器输出的表观特征向量和结构特征向量，表观特征向量用于表示第一对象对应的表观特征，结构特征向量用于表示第二对象对应的结构特征。

步骤504，通过解码器对表观特征向量和结构特征向量进行解码，得到解码器输出的目标图像，目标图像中包含目标对象，目标对象具备第一对象对应的表观特征，且目标对象具备第二对象对应的结构特征。

步骤503和步骤504的实施方式可以参考上文实施例，本实施例在此不做赘述。

步骤505，将目标图像和目标图像对应的目标结构信息关联存储至目标图像数据集中，目标结构信息为第二结构信息。

由于生成的目标图像也是具有关键点信息的图像，因此，生成的目标图像可以用于扩增该目标图像数据集，实现在不引入新增图像的基础上，可以生成不同于原始目标图像数据集中图像的新增图像。

在一种可能的实施方式中，将目标图像和其对应的目标结构信息关联存储在目标图像数据集中，从而实现对目标图像数据集中图像的新增操作。

采用上述实施例所示的图像生成方法，遍历目标图像数据集中的任意两张原始图像，每组原始图像均可以生成一张新增图像，以此类推，可以快速得到扩增后的目标图像数据集。

本实施例中，通过在目标图像数据集中获取第一原始图像和第二原始图像，由于目标图像数据集中的原始图像均具有结构信息，因此可以方便得到第一原始图像对应的第一结构信息和第二原始图像对应的第二结构信息，用于后续新图像的生成过程；此外，对于生成的新图像，由于具有不同于第一原始图像的结构信息，以及不同于第二原始图像的表观信息，因此，不同于目标图像数据集中的任一图像，可以将该新增图像和其对应的目标结构信息一起关联存储在目标图像数据集中，以达到扩增目标图像数据集的目的。

请参考图6，其示出了本申请一个示例性实施例示出的图像生成方法的完整流程图。如图6所示，计算机设备中预先设置有训练完成的图像生成模型，该图像生成模型由表观编码器604、结构编码器605和解码器606构成，且结构编码器605和解码器606之间设置有U-net网络；计算机设备将第一原始图像601和第一原始图像对应的第一结构信息602输入表观编码器604中，经过特征提取、构建特征分布、高斯采样后，得到表观特征向量；并将第二原始图像对应的第二结构信息603输入结构编码器605中，进行特征提取，可以得到对应的结构特征向量；将结构特征向量传入解码器606的过程中，可以采用U-net网络结构进行不同尺度的特征混合；在解码器606中，分别对表观特征向量和结构特征向量进行解码，生成具备第一原始图像601的表观特征和第二结构信息603的目标图像607。

上文各个实施例仅描述了图像生成模型(包括编码器和解码器)在应用过程中生成重构图像(即目标图像)的方法，若需要该图像生成模型可以实现生成上述目标图像的目的，就需要预先对该图像生成模型进行训练，下文实施例中，将着重描述图像生成模型的训练过程。

请参考图7，其示出了本申请一个示例性实施例示出的图像生成模型的训练方法的流程图，本申请实施例以该方法应用于计算机设备为例进行说明，该方法包括：

步骤701，获取样本图像和样本图像对应的样本结构信息，样本图像中包含样本对象，样本结构信息指样本对象对应的关键点信息。

与上文实施例中的模型应用过程相似，在图像生成模型的训练过程中，可以直接使用目标图像数据集中的原始图像作为样本图像，来训练图像生成模型。比如，使用300W中的图像作为样本图像训练图像生成模型。

其中，目标图像数据集的相关内容可以参考上文实施例，本实施例在此不做赘述。

在一种可能的实施方式中，从目标图像数据集中获取样本图像以及样本图像对应的样本结构信息，即样本图像中样本对象对应的关键点信息，用于后续的特征提取过程。

步骤702，将样本图像和样本结构信息输入编码器，得到编码器输出的样本表观特征向量和样本结构特征向量，样本表观特征向量用于表示样本对象对应的样本表观特征，样本结构特征向量用于表示样本对象对应的样本结构特征。

在一种可能的实施方式中，将样本图像和样本结构信息输入编码器，由编码器对其进行特征提取，可以分别得到样本对象对应的样本表观特征和样本结构特征。

可选的，可以对样本图像进行预处理后，再输入编码器中进行特征提取，进行预处理的方式可以参考上文实施例，本实施例对比不构成限定。

步骤703，通过解码器对样本表观特征向量和样本结构特征向量进行解码，得到解码器输出的生成图像，生成图像中包含生成对象，生成对象用于模拟样本对象对应的样本表观特征，且生成对象用于模拟样本对象对应的样本结构特征。

由于解码器在模型应用阶段生成的目标图像需要对输入的结构特征和表观特征进行组合，形成新的图像，因此，在模型训练阶段，在解码器对样本表观特征向量和样本结构特征向量进行解码后输出的生成图像，需要使其包含的生成对象可以模拟样本对象对应的样本表观特征和样本结构特征。

步骤704，根据样本图像和生成图像，训练图像生成模型。

由于需要使得生成的生成图像与样本图像相似，才可以达到生成图像的表观特征为输入样本图像的表观特征，生成图像的结构特征为输入样本图像的结构特征的目的，因此，在一种可能的实施方式中，需要分析在图像生成模型对样本图像进行编解码的过程中的重构损失，用于训练图像生成模型，从而在多次训练过程中，更新图像生成模型中的各个参数，直至图像生成模型收敛。

本实施例中，通过训练图像生成模型(包括编码器和解码器)，使得解码器输出的生成图像可以模拟样本对象的样本表观特征和样本结构特征，使得在模型应用阶段，由该图像生成模型生成的图像可以模拟输入的两张原始图像的表观特征和结构特征，从而实现生成新图像的目的，使得该图像生成模型可以用于扩增图像数据集。

对应上文实施例中模型应用阶段，编码器包括表观编码器和结构编码器，分别用于提取表观特征向量和结构特征向量，由于结构特征向量可以直接由样本结构信息进行特征提取得到，因此，在训练过程中，重点是如何将表观特征从样本图像和样本结构信息中提取出来，以及如何确定提取出的表观特征与真实表观特征是否一致。

在一个示例性的例子中，请参考图8，其示出了本申请另一个示例性实施例示出的图像生成模型的训练方法的流程图，本申请实施例以该方法应用于计算机设备为例进行说明，该方法包括：

步骤801，获取样本图像和样本图像对应的样本结构信息，样本图像中包含样本对象，样本结构信息指样本对象对应的关键点信息。

本步骤的实施方式可以参考上文实施例，本实施例对此不构成限定。

步骤802，将样本图像和样本结构信息输入表观编码器，得到表观编码器输出的样本表观特征向量。

在一种可能的实施方式中，构建有表观编码器，用于从样本图像和样本结构信息中将表观特征分离出来。

针对如何提取表观特征的方式，在一种可能的实施方式中，可以包括以下步骤：

一、通过表观编码器对样本图像和样本结构信息进行特征提取，得到样本中间特征向量。

在一种可能的实施方式中，表观编码器通过对样本图像和样本结构信息进行多层卷积操作，从而得到样本中间特征向量，比如，均值和方差，用于构建表观特征向量服从的概率分布。

可选的，对于输入样本图像的每个像素点，其对应的样本中间特征向量并不相同，即均值、方差不同。

二、根据样本中间特征向量构建第一样本特征分布，第一样本特征分布为样本表观特征向量服从的概率分布。

在一种可能的实施方式中，通过对样本中间特征向量进行拟合，从而获取由表观编码器构建的表观特征向量服从的近似分布，即第一样本特征分布。

三、对第一样本特征分布进行采样得到样本表观特征向量。

在一种可能的实施方式中，通过对第一样本特征分布进行采样，可以得到对应的样本表观特征向量。

其中，采样可以采用高斯分布采样或多维高斯分布采样，本申请实施例对此不构成限定。

在一个示例性的例子中，请参考图9，其示出了本申请一个示例性实施例示出的图像生成模型的示意图。图像生成模型包括表观编码器901、结构编码器902和解码器903，将样本图像x和样本结构信息y输入表观编码器901，通过特征提取、构建分布(即构建分布q(z∣x,y))、高斯采样后，得到表观特征向量；将样本结构信息y输入结构编码器902中，通过特征提取后，得到结构特征向量，并将结构特征向量和表观特征向量输入解码器903中进行解码，得到生成图像904；其中在结构编码器902和解码器903之间引入U-net结构，用于传递样本结构特征。

其中，图9中所示的图像生成模型的数学原理是：x表示样本图像，隐向量z空间表示样本图像中样本对象的表观信息空间，y表示样本图像中样本对象的结构信息空间，利用y与z构造x生成器p(x∣y,z)。为了将隐变量z从样本图像x与样本结构信息y中分离出来，构造变分自编码器，并最大化条件对数似然(推导公式1-1)：

根据Jensen不等式：

其中，log p(x∣y)是证据下界(Evidence Lower Bound，ELBO)，p(x∣y,z)是由结构编码器与解码器构造，q(z∣x,y)是由表观编码器构造的表观特征向量服从的近似分布；p(z∣y)是由样本结构信息y生成z的分布，是隐变量z的真实后验分布；KL[q(z∣x,y)||p(z∣y)]是衡量分布q(z∣x,y)和分布p(z∣y)的度量，是一个非负值，因此，KL[q(z∣x,y)||p(z∣y)]是非正的，因此，为了最大化ELBO，就要最大化log p(x∣y,z)并且最小化KL[q(z∣x,y)||p(z∣y)]，当log p(x∣y,z)达到最大值并且KL[q(z∣x,y)||p(z∣y)]＝0达到最小值时，等号成立，可以使得log p(x∣y)达到最大值。

由上述分析可知，在本申请实施例构造出的图像生成模型的损失可以包含两部分，一部分是重构损失，即需要使logp(x∣y,z)达到最大值，一部分是分布损失，即需要使得KL[q(z∣x,y)||p(z∣y)]＝0，即使得表观编码器构造的近似分布q(z∣x,y)接近于真实分布p(z∣y)。

下文实施例中会着重描述如何计算图像生成模型的损失，本申请实施例在此不做赘述。

步骤803，将样本结构信息输入结构编码器，得到结构编码器输出的样本结构特征向量。

在一种可能的实施方式中，将样本结构信息输入结构编码器，通过多层卷积对样本结构信息进行特征提取，可以得到结构编码器输出的样本结构特征。

步骤804，通过解码器对样本表观特征向量和样本结构特征向量进行解码，得到解码器输出的生成图像，生成图像中包含生成对象，生成对象用于模拟样本对象对应的样本表观特征，且生成对象用于模拟样本对象对应的样本结构特征。

在一种可能的实施方式中，将由表观编码器输出的样本表观特征向量和样本结构特征向量输入解码器中，由解码器对其进行解码，得到生成图像中每个像素点对应的概率分布，即输出生成图像。

步骤805，根据样本图像和生成图像，训练图像生成模型。

本实施例中，在对样本图像和样本结构信息进行编码过程中，通过表观编码器对样本图像和样本结构信息进行特征提取，可以得到样本表观特征向量，通过结构编码器对样本结构信息进行特征提取，可以得到样本结构特征向量，从而实现对样本对象表观特征和结构特征的提取。

在图像生成模型的训练过程中，图像生成模型损失的构建会直接影响到模型生成图像的效果，在本申请实施例中，根据样本图像和样本结构信息训练图像生成模型的过程中，生成图像是模拟了样本图像的表观特征和结构特征，因此，对于图像生成模型来说，重构出的生成图像和原始的样本图像之间的损失需要越小，模型生成效果越好。

在一个示例性的例子中，在图7的基础上，如图10所示，步骤704可以包括步骤704A至步骤704D。

步骤704A，通过图像特征提取网络对样本图像进行特征提取，得到n张第一中间特征图，n张第一中间特征图由图像特征提取网络中的n个网络层输出，n为正整数。

由上述推导公式1-1可知，图像生成模型的损失包括两部分，其中一部分为重构损失，即使得log p(x∣y,z)达到最大值，即需要使得解码器生成的生成图像与样本图像之间的误差最小，本申请实施例采用感知损失(Perception Loss)来表示重构损失。

为了对样本图像和生成图像不同深度的图像特征进行比较，多层特征计算两者之间的损失，因此，在一种可能的实施方式中，通过预训练完成的特征提取网络，分别对样本图像和生成图像进行处理，得到二者的多层中间特征图，并对得到的多层中间特征图进行对比，来计算样本图像和生成图像之间的感知损失。

其中，本申请实施例所使用的特征提取网络可以是Vgg19模型，或Vgg16模型，或其他的特征提取网络，本申请实施例对此不构成限定。

在一种可能的实施方式中，将样本图像输入特征提取网络中，对样本图像的多层特征进行特征提取，得到特征提取网络中n个网络层的输出，即得到n个第一中间特征图。

在一个示例性的例子中，本申请实施例所使用的特征图层数为：ReLU_1_2,ReLU_2_2，ReLU_3_3，ReLU_4_3。

步骤704B，通过图像特征提取网络对生成图像进行特征提取，得到n张第二中间特征图，n张第二中间特征图由图像特征提取网络中的n个网络层输出。

在一种可能的实施方式中，将生成图像输入特征提取网络中，对生成图像的多层特征进行特征提取，得到特征提取网络中n个网络层的输出，即得到n个第二中间特征图。

步骤704C，根据n张第一中间特征图和n张第二中间特征图，计算感知损失。

在一种可能的实施方式中，根据特征提取网络中每一层网络层的输出来计算感知损失，即第一张第一中间特征图和第一张第二中间特征图之间进行损失计算，第二张第一中间特征图和第二张第二中间特征图之间进行损失计算，以此类推，直至对第n张第一中间特征图和第n张第二中间特征图之间进行损失计算，并对n对中间特征图的损失求和，即可以得到样本图像和生成图像之间的感知损失。

在一个示例性的例子中，图像生成模型的感知损失对应的公式可以表示为：

其中，Loss_percept(X,Y,Φ)表示样本图像和生成图像对应的感知损失，Φ_l(X)表示样本图像对应的第一中间特征图，Φ₁(X)可以表示为第一张第一中间特征图第，Φ_l(Gen(X,Y)为生成图像对应的第二中间特征图，Φ₁(Gen(X,Y)可以表示为第一张第二中间特征图，

表示感知损失采用L2范式的计算方式。

步骤704D，根据感知损失训练图像生成模型。

在一种可能的实施方式中，通过样本图像和生成图像得到的n个第一中间特征图和n个第二中间特征图，计算得到感知损失，对图像生成模型执行反向传播算法，更新图像生成模型的内部参数；在多个训练周期内，按照上文实施例所示的方法重复对图像生成模型进行训练，直至图像生成模型对应的损失函数完全收敛时，完成图像生成模型的训练。

本实施例中，通过特征提取网络对样本图像和生成图像进行特征提取，获取其在不同深度上的特征图层，并对特征图层进行损失计算，得到样本图像和生成图像的感知损失，可以在多深度多层次上训练图像生成模型，有利于提高图像生成模型的生成效果。

由于在对生成图像和样本图像进行特征提取的过程中，会生成表示高层信息(偏向内容)和表示低层信息(偏向纹理)的特征图层，为了避免高层信息和低层信息对图像生成效果的影响，在根据多层特征图计算感知损失的过程中，通过对多层特征图进行加权，使用不同的权重来控制不同特征图对生成效果的影响。

在一个示例性的例子中，在图10的基础上，如图11所示，步骤704C可以被替换为步骤1101、步骤1102和步骤1103。

步骤1101，根据样本图像、生成图像以及第一损失权重，确定第一感知损失。

由于为了避免高层信息和低层信息对图像生成效果的影响，在一种可能的实施方式中，通过在计算感知损失的过程中，加入样本图像和生成图像，并为其配置对应的第一损失权重，来计算样本图像和生成图像对应的第一感知损失。

步骤1102，根据n张第一中间特征图、n张第二中间特征图以及第二损失权重，确定第二感知损失，其中，不同网络层输出的中间特征图对应不同第二损失权重。

在一种可能的实施方式中，对于n张第一中间特征图和n张第二中间特征图，开发人员在训练过程中，为不同网络层输出的中间特征图配置有不同的第二损失权重，以便调整不同中间特征图对生成图像效果的影响。

在一个示例性的例子中，在计算中间特征图对应的第二感知损失时，第一张第一中间特征图和第二张第二中间特征图对应相同的第二损失权重，第二张中间特征图和第二张第二中间特征图对应相同的第二损失权重，以此类推，第n第一中间特征图和第n第二中间特征图对应相同的第二损失权重，则对应的第二感知损失即二者不同层中间特征图之间的损失之和。

需要说明的是，本实施例中，可以先执行步骤1101，后执行步骤1102，也可以先执行步骤1102，再执行步骤1101，或同时执行步骤1101和步骤1102，本实施例对步骤1101和步骤1102的执行顺序不构成限定。

步骤1103，将第一感知损失和第二感知损失确定为图像生成模型的感知损失。

在一种可能的实施方式中，在引入权重、样本图像和生成图像后，对应的感知损失则包括：根据样本图像、生成图像以及第一损失权重得到的第一感知损失，以及根据n张第一中间特征图、n张第二中间特征图以及第二损失权重得到的第二感知损失之和。

在一个示例性的例子中，在引入权重、样本图像和生成图像后，对应图像生成模型的感知损失的公式可以表示为：

其中，Loss_percept(X,Y,Φ′)表示引入权重、样本图像和生成图像后的感知损失，w_l表示损失权重，其可以包括第一损失和第二损失，Φ′_l(X)表示样本图像和样本图像对应的n张第一中间特征图，其中，Φ′₀(X)表示样本图像，Φ′_l(X)表示第l张第一中间特征图，Φ′_l(Gen(X,Y)表示生成图像和生成图像对应的n张第二中间特征图，其中，Φ′₀(Gen(X,Y)表示生成图像，Φ′_l(Gen(X,Y)表示第l张第二中间特征图。

本实施例中，通过计算感知损失时，引入样本图像和生成图像，以及为不同中间特征图设置损失权重，来控制高层信息与低层信息对图像生成效果的影响，有利于提高图像生成模型的生成效果。

上文实施例中仅描述了感知损失，由推导公式1-1可知，对于图像生成模型，其对应的损失函数还包括分布损失，即需要使得KL[q(z∣x,y)||p(z∣y)]＝0，达到最小值，进一步解释为使得从样本结构信息y生成z的分布p(z∣y)由表观编码器构造出来的已知分布q(z∣x,y)来近似替代，因此，通过对近似分布与真实分布进行高斯采样，然后对二者进行L2范式的损失计算，可等价于最小化KL散度。

在一个示例性的例子中，如图12所示，其示出了本申请另一个示例性实施例示出的图像生成模型的训练方法的流程图，本申请实施例以该方法应用于计算机设备为例进行说明，该方法包括：

步骤1201，获取样本图像和样本图像对应的样本结构信息，样本图像中包含样本对象，样本结构信息指样本对象对应的关键点信息。

步骤1202，将样本图像和样本结构信息输入编码器，得到编码器输出的样本表观特征向量和样本结构特征向量，样本表观特征向量用于表示样本对象对应的样本表观特征，样本结构特征向量用于表示样本对象对应的样本结构特征。

步骤1203，通过解码器对样本表观特征向量和样本结构特征向量进行解码，得到解码器输出的生成图像，生成图像中包含生成对象，生成对象用于模拟样本对象对应的样本表观特征，且生成对象用于模拟样本对象对应的样本结构特征。

步骤1204，获取第一样本特征分布，第一样本特征分布为样本表观特征向量服从的概率分布。

在一种可能的实施方式中，第一样本特征分布即表观编码器构造出来的近似分布，为了训练表观编码器，则需要使得其构建出来的近似分布接近于真实分布。

其中，构造第一样本表观分布的方式可以参考上文实施例，本实施例在此不做赘述。

步骤1205，根据样本结构信息构建第二样本特征分布，第二样本特征分布为第一样本特征分布对应的先验分布。

在一种可能的实施方式中，根据样本结构信息来构建第二样本特征分布(即真实分布)，第二样本特征分布构建的目的是为了监督表观编码器构建的第一样本特征分布(近似分布)，从而使得表观编码器可以将表观特征从样本图像和样本结构信息中准确分离出来。

步骤1206，根据第一样本特征分布和第二样本特征分布，计算分布损失。

由于KL散度在神经网络训练编写代码的过程中，无法对连续的分布函数进行写代码和梯度计算反传，因此，在计算分布损失时，需要对分布上的点进行采样，并对采样的点计算损失，从而近似替代KL散度的作用。

在一种可能的实施方式中，对第一样本特征分布和第二样本特征分布进行采样后，对采样得到的各个点进行损失计算，得到分布损失。

可选的，所使用的采样方式可以为高斯分布采样、多维高斯分布采样等，本申请实施例对此不做限定。

在一个示例性的例子中，分布损失对应的公式可以表示为：

其中，Loss_KL(q,p)即分布损失，S_q(Z∣x,y)是对分布q(z∣x,y)的高斯采样，S_p(Z∣y)是对分布p(z∣y)的高斯采样，

表示分布损失采用L2范式计算。

步骤1207，根据分布损失和感知损失训练图像生成模型。

在一种可能的实施方式中，根据上文实施例中得到的感知损失和分布损失，作为整个图像生成模型的损失，训练图像生成模型。

在一个示例性的例子中，图像生成模型的损失函数可以表示为：

Loss＝Loss_KL(q,p)+Loss_percept(X,Y,Φ)

其中，Loss表示图像生成模型的损失函数，Loss_KL(q,p)表示图像生成模型的分布损失，Loss_percept(X,Y,Φ)表示图像生成模型的感知损失。

可选的，Loss_percept(X,Y,Φ)也可以被替换为Loss_percept(X,Y,Φ^′)，表示引入样本图像、生成图像和权重后的感知损失。

在一种可能的应用场景中，在对图像生成模型进行训练过程中，模型训练100万步，批量尺寸(batch size)为32；训练使用Adam优化器，beta1为0.5，beta2为0.999，初始学习率为1e-4，权值衰减(weight decay)为1e-4，每10万步学习率调整为之前的一半。

本实施例中，通过计算第一样本特征分布(q(z∣x,y))和第二样本特征分布(p(z∣y))之间的分布损失，以便将分布损失和感知损失一起作为图像生成模型的损失来训练图像生成模型，其中，分布损失用于训练表观编码器，使得表观编码器可以从样本图像和样本结构信息中准确提取出表观特征向量。

需要说明是，上文实施例中描述的图像生成方法和图像生成模型的训练方法可以在不同的计算机设备上执行，即开发人员在某一计算机设备上完成图像生成模型的训练后，可以将该图像生成模型部署到其他计算机设备中运行；也可以在相同的计算机设备上执行，本申请实施例对此不构成限定。

请参考图13，其示出了本申请一个示例性实施例提供的图像生成装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分，该装置包括：

第一获取模块1301，用于获取第一原始图像、所述第一原始图像对应的第一结构信息和第二原始图像对应的第二结构信息，所述第一原始图像中包含第一对象，所述第一结构信息指所述第一对象对应的关键点信息，所述第二原始图像中包含第二对象，所述第二结构信息指所述第二对象对应的关键点信息；

第一编码模块1302，用于将所述第一原始图像、所述第一结构信息和所述第二结构信息输入编码器，得到所述编码器输出的表观特征向量和结构特征向量，所述表观特征向量用于表示所述第一对象对应的表观特征，所述结构特征向量用于表示所述第二对象对应的结构特征；

第一解码模块1303，用于通过解码器对所述表观特征向量和所述结构特征向量进行解码，得到所述解码器输出的目标图像，所述目标图像中包含目标对象，所述目标对象具备所述第一对象对应的表观特征，且所述目标对象具备所述第二对象对应的结构特征。

可选的，所述编码器包括表观编码器和结构编码器；

所述第一编码模块1302，包括：

第一编码单元，用于将所述第一原始图像和所述第一结构信息输入所述表观编码器，得到所述表观编码器输出的所述表观特征向量；

第二编码单元，用于将所述第二结构信息输入所述结构编码器，得到所述结构编码器输出的所述结构特征向量。

可选的，所述第一编码单元，还用于：

通过所述表观编码器对所述第一原始图像和所述第一结构信息进行特征提取，得到中间特征向量；

根据所述中间特征向量构建特征分布，所述特征分布为所述表观特征向量服从的概率分布；

对所述特征分布进行采样得到所述表观特征向量。

可选的，所述第一获取模块1301，包括：

获取单元，用于从目标图像数据集中获取所述第一原始图像和所述第二原始图像，所述目标图像数据集中的原始图像均包含有结构信息；

确定单元，用于根据所述第一原始图像确定所述第一结构信息，并根据所述第二原始图像确定所述第二结构信息；

可选的，所述装置还包括：

存储模块，用于将所述目标图像和所述目标图像对应的目标结构信息关联存储至所述目标图像数据集中，所述目标结构信息为所述第二结构信息。

可选的，所述目标图像数据集中的图像为人脸图像，所述结构信息是所述人脸图像中人脸对应的关键点信息；

所述目标图像数据集中的图像为人体图像，所述结构信息是所述人体图像中人体对应的关键点信息。

本申请实施例中，通过预先训练完成的编码器和解码器(即图像生成模型)，可以实现将第一原始图像的表观信息和第二原始图像的结构信息进行交叉组合，从而生成具有原始表观信息和新结构信息的新图像(与第一原始图像相比)，或具有原始结构信息和新表观信息(与第二原始图像相比)的新图像，从而实现在不引入新图像的条件下，生成不同于原始图像的新图像，可以用于对图像数据集的扩增，从而提高图像数据集的丰富性和多样性；而且由于生成的新图像具有关键点信息(结构信息)，因此，有利于在图像关键点预测任务中增加样本集或训练集的图像数量，以便提高关键点预测模型的预测效果。

请参考图14，其示出了本申请一个示例性实施例提供的图像生成模型的训练装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分，该装置包括：

第二获取模块1401，用于获取样本图像和所述样本图像对应的样本结构信息，所述样本图像中包含样本对象，所述样本结构信息指所述样本对象对应的关键点信息；

第二编码模块1402，用于将所述样本图像和所述样本结构信息输入所述编码器，得到所述编码器输出的样本表观特征向量和样本结构特征向量，所述样本表观特征向量用于表示所述样本对象对应的样本表观特征，所述样本结构特征向量用于表示所述样本对象对应的样本结构特征；

第二解码模块1403，用于通过所述解码器对所述样本表观特征向量和所述样本结构特征向量进行解码，得到所述解码器输出的生成图像，所述生成图像中包含生成对象，所述生成对象用于模拟所述样本对象对应的样本表观特征，且所述生成对象用于模拟所述样本对象对应的样本结构特征；

第一训练模块1404，用于根据所述样本图像和所述生成图像，训练所述图像生成模型。

可选的，所述编码器包括表观编码器和结构编码器；

所述第二编码模块1402，包括：

第三编码单元，用于将所述样本图像和所述样本结构信息输入所述表观编码器，得到所述表观编码器输出的所述样本表观特征向量；

第四编码单元，用于将所述样本结构信息输入所述结构编码器，得到所述结构编码器输出的所述样本结构特征向量。

可选的，所述第三编码单元，还用于：

通过所述表观编码器对所述样本图像和所述样本结构信息进行特征提取，得到样本中间特征向量；

根据所述样本中间特征向量构建第一样本特征分布，所述第一样本特征分布为所述样本表观特征向量服从的概率分布；

对所述第一样本特征分布进行采样得到所述样本表观特征向量。

可选的，所述图像生成模型的损失包括感知损失；

所述第一训练模块1404，包括：

第一特征提取单元，用于通过图像特征提取网络对所述样本图像进行特征提取，得到n张第一中间特征图，所述n张第一中间特征图由所述图像特征提取网络中的n个网络层输出，n为正整数；

第二特征提取单元，用于通过所述图像特征提取网络对所述生成图像进行特征提取，得到n张第二中间特征图，所述n张第二中间特征图由所述图像特征提取网络中的n个网络层输出；

计算单元，用于根据所述n张第一中间特征图和所述n张第二中间特征图，计算所述感知损失；

训练单元，用于根据所述感知损失训练所述图像生成模型。

可选的，所述装置还包括：

第一确定模块，用于根据所述样本图像、所述生成图像以及第一损失权重，确定第一感知损失；

第二确定模块，用于根据所述n张第一中间特征图、所述n张第二中间特征图以及第二损失权重，确定第二感知损失，其中，不同网络层输出的中间特征图对应不同第二损失权重；

第三确定模块，用于将所述第一感知损失和所述第二感知损失确定为所述图像生成模型的所述感知损失。

可选的，所述图像生成模型的损失还包括分布损失，所述装置还包括：

第三获取模块，用于获取第一样本特征分布，所述第一样本特征分布为所述样本表观特征向量服从的概率分布；

构建模块，用于根据所述样本结构信息构建第二样本特征分布，所述第二样本特征分布为所述第一样本特征分布对应的先验分布；

计算模块，用于根据所述第一样本特征分布和所述第二样本特征分布，计算所述分布损失；

第二训练模块，用于根据所述分布损失和所述感知损失训练所述图像生成模型。

本申请实施例中，通过训练图像生成模型(包括编码器和解码器)，使得解码器输出的生成图像可以模拟样本对象的样本表观特征和样本结构特征，使得在模型应用阶段，由该图像生成模型生成的图像可以模拟输入的两张原始图像的表观特征和结构特征，从而实现生成新图像的目的，使得该图像生成模型可以用于扩增图像数据集。

请参考图15，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。所述计算机设备1500包括中央处理单元(Central Processing Unit，CPU)1501、包括随机存取存储器(Random Access Memory，RAM)1502和只读存储器(Read-Only Memory，ROM)1503的***存储器1504，以及连接***存储器1504和中央处理单元1501的***总线1505。所述计算机设备1500还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出***(Input/Output***，I/O***)1506，和用于存储操作***1513、应用程序1514和其他程序模块1515的大容量存储设备1507。

所述基本输入/输出***1506包括有用于显示信息的显示器1508和用于用户输入信息的诸如鼠标、键盘之类的输入设备1509。其中所述显示器1508和输入设备1509都通过连接到***总线1505的输入输出控制器1510连接到中央处理单元1501。所述基本输入/输出***1506还可以包括输入输出控制器1510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1510还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1507通过连接到***总线1505的大容量存储控制器(未示出)连接到中央处理单元1501。所述大容量存储设备1507及其相关联的计算机可读存储介质为计算机设备1500提供非易失性存储。也就是说，所述大容量存储设备1507可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读存储介质(未示出)。

不失一般性，所述计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读存储指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read OnlyMemory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable ProgrammableRead-Only Memory，EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字多功能光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器1504和大容量存储设备1507可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1501执行，一个或多个程序包含用于实现上述方法实施例的指令，中央处理单元1501执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1500还可以通过诸如因特网等网络连接到网络上的远程服务器运行。也即计算机设备1500可以通过连接在所述***总线1505上的网络接口单元1511连接到网络1512，或者说，也可以使用网络接口单元1511来连接到其他类型的网络或远程服务器***(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的图像生成方法，或实现如上述各个实施例所述的图像生成模型的训练方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的图像生成方法，或实现如上述各个实施例所述的图像生成模型的训练方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的图像生成方法，或执行上述方面的各种可选实施方式中提供的图像生成模型的训练方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读存储介质中或者作为计算机可读存储介质上的一个或多个指令或代码进行传输。计算机可读存储介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述编码器包括表观编码器和结构编码器；

所述将所述第一原始图像、所述第一结构信息和所述第二结构信息输入编码器，得到所述编码器输出的表观特征向量和结构特征向量，包括：

将所述第一原始图像和所述第一结构信息输入所述表观编码器，得到所述表观编码器输出的所述表观特征向量；

将所述第二结构信息输入所述结构编码器，得到所述结构编码器输出的所述结构特征向量。

3.根据权利要求2所述的方法，其特征在于，所述将所述第一原始图像和所述第一结构信息输入所述表观编码器，得到所述表观编码器输出的所述表观特征向量，包括：

对所述特征分布进行采样得到所述表观特征向量。

4.根据权利要求1至3任一所述的方法，其特征在于，所述获取所述第一原始图像对应的第一结构信息和所述第二原始图像对应的第二结构信息，包括：

从目标图像数据集中获取所述第一原始图像和所述第二原始图像，所述目标图像数据集中的原始图像均包含有结构信息；

根据所述第一原始图像确定所述第一结构信息，并根据所述第二原始图像确定所述第二结构信息；

所述通过解码器对所述表观特征向量和所述结构特征向量进行解码，得到所述解码器输出的目标图像之后，所述方法还包括：

将所述目标图像和所述目标图像对应的目标结构信息关联存储至所述目标图像数据集中，所述目标结构信息为所述第二结构信息。

5.根据权利要求4所述的方法，其特征在于，

所述目标图像数据集中的图像为人脸图像，所述结构信息是所述人脸图像中人脸对应的关键点信息；

6.一种图像生成模型的训练方法，其特征在于，图像生成模型包括编码器和解码器，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述编码器包括表观编码器和结构编码器；

所述将所述样本图像和所述样本结构信息输入所述编码器，得到所述编码器输出的样本表观特征向量和样本结构特征向量，包括：

将所述样本图像和所述样本结构信息输入所述表观编码器，得到所述表观编码器输出的所述样本表观特征向量；

将所述样本结构信息输入所述结构编码器，得到所述结构编码器输出的所述样本结构特征向量。

8.根据权利要求7所述的方法，其特征在于，所述将所述样本图像和所述样本结构信息输入所述表观编码器，得到所述表观编码器输出的所述样本表观特征向量，包括：

9.根据权利要求6至8任一所述的方法，其特征在于，所述图像生成模型的损失包括感知损失；

所述根据所述样本图像和所述生成图像，训练所述图像生成模型，包括：

通过图像特征提取网络对所述样本图像进行特征提取，得到n张第一中间特征图，所述n张第一中间特征图由所述图像特征提取网络中的n个网络层输出，n为正整数；

通过所述图像特征提取网络对所述生成图像进行特征提取，得到n张第二中间特征图，所述n张第二中间特征图由所述图像特征提取网络中的n个网络层输出；

根据所述n张第一中间特征图和所述n张第二中间特征图，计算所述感知损失；

根据所述感知损失训练所述图像生成模型。

10.根据权利要求9所述的方法，其特征在于，所述通过所述图像特征提取网络对所述生成图像进行特征提取，得到n个第二中间特征图之后，所述方法还包括：

根据所述样本图像、所述生成图像以及第一损失权重，确定第一感知损失；

根据所述n张第一中间特征图、所述n张第二中间特征图以及第二损失权重，确定第二感知损失，其中，不同网络层输出的中间特征图对应不同第二损失权重；

将所述第一感知损失和所述第二感知损失确定为所述图像生成模型的所述感知损失。

11.根据权利要求9所述的方法，其特征在于，所述图像生成模型的损失还包括分布损失，所述方法还包括：

获取第一样本特征分布，所述第一样本特征分布为所述样本表观特征向量服从的概率分布；

根据所述样本结构信息构建第二样本特征分布，所述第二样本特征分布为所述第一样本特征分布对应的先验分布；

根据所述第一样本特征分布和所述第二样本特征分布，计算所述分布损失；

根据所述分布损失和所述感知损失训练所述图像生成模型。

12.一种图像生成装置，其特征在于，所述装置包括：

13.一种图像生成模型的训练装置，其特征在于，图像生成模型包括编码器和解码器，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至5任一所述的图像生成方法，或实现如权利要求6至11任一所述的图像生成模型的训练方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至5任一所述的图像生成方法，或实现如权利要求6至11任一所述的图像生成模型的训练方法。