CN117218246A

CN117218246A - 图像生成模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN117218246A
Application number: CN202310283088.1A
Authority: CN
Inventors: 杨泽军
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-12-12

Abstract

本申请涉及数据处理技术领域，尤其涉及一种图像生成模型的训练方法、装置、电子设备及存储介质，该方法为：获取训练样本集；一条训练样本中包括：包含目标对象的样本参考图、在目标位姿下的样本骨架图和样本深度图，以及样本标准图；采用所述训练样本集，对预训练后的图像生成模型进行训练，输出目标图像生成模型；在每轮迭代过程中，基于输出的预测标准图与训练样本中样本标准图之间多尺度的全局综合差异损失，结合所述预测标准图和所述样本标准图之间，指定图像区域内的局部差异损失，调整模型参数。这样，能够借助于不同关键点位置处的深度值，处理不同区域的自遮挡问题，为训练后的目标图像生成模型的生成效果提供了保障。

Description

图像生成模型的训练方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种图像生成模型的训练方法、装置、电子设备及存储介质。

背景技术

相关技术下，在生成虚拟对象不同动作下的平面图像时，通常通过训练动作迁移模型，实现基于虚拟对象的参考图像，生成目标姿态下的虚拟对象图像。

目前，在采用动作迁移模型生成目标姿态对应的图像时，通常基于参考图像和用于指示目标姿态的二维骨架图，生成对应的目标图像，其中，二维骨架图中仅示意有头部和四肢上的关键点位置。

然而，在基于已有的动作迁移模型生成图像时，只能依据二维关键点坐标指示目标姿态，难以在相似的动作中实现对于不同动作的有效辨别，降低了目标图像的生成准确率；另外，仅能基于相同的图像尺度，考量不同区域的肢体，使得生成的目标图像中不同肢体的清晰度存在差异，而且，已有的动作迁移模型仅对脸部区域进行了细节性考量，使得对于目标姿态下的末端肢体姿态还原不准确，难以保障目标图像的生成效果。

发明内容

本申请实施例提供一种图像生成模型的训练方法、装置、电子设备及存储介质，用于提高目标姿态对应的目标图像的生成准确率，保障目标图像的生成效果。

第一方面，提出一种图像生成模型的训练方法，包括：

获取训练样本集；一条训练样本中包括：包含目标对象的样本参考图、指示所述目标对象在目标位姿下各关键点位置的样本骨架图和样本深度图，以及所述目标位姿的样本标准图；所述样本骨架图中至少包括肢体末端骨架；

采用所述训练样本集，对预训练后的图像生成模型进行多轮迭代训练，输出已训练的目标图像生成模型；其中，在一轮迭代过程中，执行以下操作：

基于选取的训练样本中包含的样本骨架图和样本深度图，按照对应的目标位姿，对包含的样本参考图中的所述目标对象进行动作迁移处理，得到预测标准图；

基于所述预测标准图与所述样本标准图之间多尺度的全局综合差异损失，结合所述预测标准图和所述样本标准图之间，指定图像区域内的局部差异损失，调整所述图像生成模型中的模型参数。

第二方面，提出一种图像生成模型的训练装置，包括：

获取单元，用于获取训练样本集；一条训练样本中包括：包含目标对象的样本参考图、指示所述目标对象在目标位姿下各关键点位置的样本骨架图和样本深度图，以及所述目标位姿的样本标准图；所述样本骨架图中至少包括肢体末端骨架；

训练单元，用于采用所述训练样本集，对预训练后的图像生成模型进行多轮迭代训练，输出已训练的目标图像生成模型；其中，在一轮迭代过程中，执行以下操作：

可选的，所述图像生成模型中包括：配置有卷积注意力层的第一编码网络、配置有卷积注意力层和图像融合层的第二编码网络，以及配置有卷积注意力层的多尺度解码网络；

则所述基于选取的训练样本包含的样本骨架图和样本深度图，按照对应的目标位姿，对包含的样本参考图中的所述目标对象进行动作迁移处理，得到预测标准图时，所述训练单元用于：

将选取的训练样本包含的样本参考图输入所述第一编码网络，得到编码后的参考图像特征；

将所述训练样本包含的样本骨架图和样本深度图，在通道维度上进行拼接后，输入所述第二编码网络，得到编码融合后的骨骼动作特征；

采用所述多尺度解码网络，基于所述骨骼动作特征对所述参考图像特征进行解码，得到完成动作迁移后的预测标准图。

可选的，所述训练样本集是采用如下方式生成的：

获取目标对象在不同位姿下的样本标准图和三维坐标集合，其中，一个三维坐标集合中包括：一个位姿下各关键点位置各自对应的三维坐标；

采用预设的二维重投影技术，对每个三维坐标集合进行处理，得到基于各关键点位置在图像坐标系下的像素点坐标生成的样本骨架图，以及得到基于所述各关键点位置各自对应的像素深度值生成的样本深度图；

基于所述不同位姿对应的样本标准图、样本骨架图，以及样本深度图，生成训练样本集。

可选的，所述得到基于各关键点位置在图像坐标系下的二维坐标生成的样本骨架图时，所述获取单元用于：

获得将所述三维坐标集合中各关键点位置，投影至图像坐标系后的各像素点坐标；

通过连接所述各像素点坐标各自对应的像素点，还原对应位姿下的骨骼分布，得到与对应的样本标准图大小相同的样本骨架图。

可选的，所述得到基于所述各关键点位置的像素深度值生成的样本深度图时，所述获取单元用于：

获取将所述三维坐标集合中各关键点位置投影至图像坐标系后，对应所述各关键点位置得到的各像素点坐标及像素深度值；

构建与所述图像坐标系匹配的初始深度图，并基于各像素深度值，结合针对所述各像素点坐标各自归属的像素点范围确定的像素值取值差异，调整所述初始深度图中各像素点各自对应的像素值，得到样本深度图。

可选的，当所述图像生成模型作为生成器对抗器结构中的生成器进行训练时，所述得到预测标准图之后，所述训练单元还用于：

采用预设的生成对抗损失函数，基于所述预测标准图和对应的样本标准图，得到对应的对抗损失；

基于所述对抗损失、所述预测标准图与所述样本标准图之间的全局综合差异损失，结合所述预测标准图和所述样本标准图之间，指定图像区域内的局部差异损失，调整所述图像生成模型中的模型参数。

可选的，所述局部差异损失采用以下方式确定：

在所述预测标准图和所述样本标准图中，分别确定用于定位子图像区域的各目标关键点位置，并分别在所述预测标准图和所述样本标准图中，基于确定的各目标关键点位置，裁剪得到包含多个子图像区域的指定图像区域；

基于每个子图像区域内的像素值差异和图像特征差异，得到对应的局部差异损失。

可选的，所述全局综合差异损失采用如下方式确定：

基于所述预测标准图与所述样本标准图之间，各像素点的像素值差异，得到全局像素值损失，并基于所述预测标准图与所述样本标准图之间，在多个预设尺度下的图像特征差异，得到多尺度特征损失；

将所述全局像素值损失和所述多尺度特征损失，得到对应的全局综合差异损失。

可选的，所述训练单元采用以下方式完成所述图像生成模型的预训练：

获取指定的数据集，并通过对所述数据集中的各样本骨架图进行单目深度估计处理，得到所述各样本骨架图各自对应的样本深度图，其中，所述数据集中包括各样本对象在不同位姿下的样本标准图和样本骨架图；

基于根据所述数据集得到的样本标准图、样本骨架图，以及样本深度图，构建预训练样本集合，并基于所述预训练样本集合对初始的图像生成模型进行多轮迭代训练，输出预训练后的图像生成模型。

可选的，所述训练单元按照以下任意一种方式，确定在对预训练后的图像生成模型进行每轮迭代过程中使用的学习率：

采用预设的余弦退火算法，基于预设的初始学习率，确定每个训练周期对应的学习率取值，并根据当前迭代过程归属的训练周期，确定当前迭代过程对应的目标学习率，其中，一个训练周期内包括至少一轮迭代过程；

基于预设的初始学习率和学习率衰减系数，确定每个训练周期对应的学习率取值，并根据当前迭代过程归属的训练周期，确定当前迭代过程对应的目标学习率，其中，一个训练周期内包括至少一轮迭代过程。

可选的，所述装置还包括生成单元，所述生成单元用于：

获取目标对象在参考动作下的参考图像，以及所述目标对象在指定位姿下的平面骨架图和平面深度图，其中，所述平面骨架图中包括手部骨骼；

采用所述目标图像生成模型，基于所述平面骨架图和所述平面深度图，对所述参考图像进行动作迁移处理，得到所述目标对象在所述指定位姿下的目标图像。

第三方面，提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

第四方面，提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法。

第五方面，提出一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时上述方法。

本申请有益效果如下：

本申请实施例中，提出了本申请实施例中，提出了一种图像生成模型的训练方法、装置、电子设备及存储介质，借助于构建的包括样本骨架图和样本深度图的训练样本，能够在训练图像生成模型的过程中，引入不同关键点位置处的深度值，这不仅为图像生成提供了更多可参考的依据，还能够有效区分相似位姿，处理不同区域的自遮挡问题；在训练根据样本骨架图和样本深度图，对样本参考图进行动作迁移得到预测标准图的过程中，还能够提高图像的生成准确性。

而且，通过在样本骨架图中考量肢体末端骨架，能够在模型训练处理过程中学习对肢体末端姿态的细节化处理，使得在生成的预测标准图中能够有效还原末端肢体动作，保障了图像的生成效果。

另外，通过在模型训练过程中，考量多尺度的综合全局综合差异损失和局部差异损失，能够采用不同的图像尺度，评价不同区域的图像呈现差异，保障图像呈现的清晰性；而且，能够一定程度上提高模型的训练效果，更好地指导模型学习实现动作迁移，为训练得到能够还原动作细节且位姿呈现准确的目标图像生成模型提供了保障，提高了后续基于目标图像生成模型生成图像的准确率。

附图说明

图1为本申请实施例中可能的应用场景示意图；

图2A为本申请实施例中图像生成模型的训练流程示意图；

图2B为本申请实施例中生成训练样本集的过程示意图；

图2C为本申请实施例中描述目标对象在一个位姿下动作详情的内容示意图；

图2D为本申请实施例中生成样本骨架图的过程示意图；

图2E为本申请实施例中生成的样本深度图示意图；

图2F为本申请实施例中初始构建的图像生成模型示意图；

图2G为本申请实施例中一轮模型训练的过程示意图；

图3A为本申请实施例中在目标图像生成模型的训练阶段和应用阶段的处理过程示意图；

图3B为本申请实施例中单轮迭代训练的过程示意图；

图3C为本申请实施例中训练得到目标图像生成模型的整体结构示意图；

图4为本申请实施例中图像生成模型的训练装置的逻辑结构示意图；

图5为本申请实施例的一种电子设备的一个硬件组成结构示意图；

图6为本申请实施例中的一个计算装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够在除了这里图示或描述的那些以外的顺序实施。

以下对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

虚拟对象：是指进行三维建模后，在虚拟空间中创建的虚拟角色，在本申请可能的实施例中，目标对象指代虚拟对象。

三维坐标：在本申请实施例中目标对象为虚拟对象的情况下，三维坐标指代在创建的虚拟空间中建立世界坐标系后，在该世界坐标下的XYZ坐标；在目标对象为实体对象的情况下，三维坐标指代在现实的世界坐标系下的XYZ坐标。

图像坐标系：是指在平面图像中建立的坐标系，记为UV坐标系，其中，U值表示像素点在平面图像横轴方向的像素坐标，V值表示该像素点在平面图像纵轴方向的像素坐标。

UVZ坐标：在平面图像中建立图像坐标系后，UV值表示在图像上横纵方向的像素坐标，Z值表示图像平面上的像素点，相对于相机坐标系原点的深度距离。

像素点坐标：表示像素点在图像坐标系下的坐标。

各关键点位置：是指选取的用于描述不同位姿下的骨骼分布情况的各关键点各自对应的位置，对于选取的关键点而言，通常约定选用眼部关键点、鼻部关键点、肩关节点、肘关节点、腕关节点、髋关节点、膝关节点，以及踝关节点定位不同位姿；本申请实施例中，为了描述不同位姿下的局部细节，创造性地引入了各个指关节点，使得能够描述出不同位姿下末端区域的姿态，并在学习过程中引入对该区域的细节性学习，其中，末端区域可以是手部区域和脚部区域中的任意一项或组合。

样本骨架图：用于描述一个位姿下的骨骼分布情况，本申请实施例中，是依据对应的位姿下各关键点位置，连接生成的二维图像；在本申请提出的技术方案中，对应每个位姿，存在用于描述该位姿下目标对象动作的骨架图和深度图，在训练的过程中，称为样本骨架图和样本深度图，在应用过程中称为平面骨架图和平面深度图；在UVZ坐标中，样本骨架图根据各关键点位置的UV值确定。

样本深度图：用于与样本骨架图共同描述目标对象的位姿，与对应的样本骨架图大小相同；本申请实施例中，对于对应一个位姿的样本深度图和样本骨架图而言，样本骨架图描述了目标对象在该位姿下的骨骼形状和分布情况；样本深度图中像素点的像素值，用于表征像素点位置距离相机坐标系原点的深度值，换言之，样本深度图描述了用于定位骨架的各关键点各自对应的深度值，使得能够描述出目标对象在该位姿下，不同位置骨骼距离相机坐标系原点的距离差异；在UVZ坐标中，样本深度图根据各关键点位置各自对应的Z值确定。

动作迁移算法：基于一张目标对象图像和目标姿态的二维关键点骨架，将目标对象图像转换为目标姿态的新图像的深度学习算法。

人体姿态估计算法：是指能够实现人体关键点检测的深度学习算法。

单目深度估计算法：是指基于单一视角图像进行像素点深度估计的深度学习算法。

超分辨率算法：用于将低分辨率图像转换为高分辨率高清大图的深度学习算法。

骨骼重定向：用于将一个三维骨骼的动作，迁移到不同体型的另一个三维骨骼上，例如，基于目标对象A在动作1下各个关键点的三维坐标，迁移至不同体型的目标对象B上，得到目标对象B在动作1下各个关键点的三维坐标。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

下面对本申请实施例的设计思想进行简要介绍：

相关技术下，在生成虚拟人不同位姿下的平面图像时，在可能的实现方式中，可以先获取在构建的虚拟空间中，虚拟人在不同动作下的三维关键点坐标集合；之后，基于不同动作下的三维关键点坐标集合，驱动虚拟人做出相应的动作；再通过对虚拟人进行布料解算，实现对虚拟人的装饰，最终通过对装饰的虚拟人进行美术渲染，得到不同位姿下的平面图像。

然而，在此图像生成方式中，每生成一张平面图像，需要重复地进行一次动作驱动、布料解算，以及美术渲染的过程，而且布料解算过程需要耗费大量的计算资源，这不仅增加了图像的生成成本，还增加了图像的生成时间，极大地限制了图像的生成效率。

进而，现有技术提出通过训练动作迁移模型，基于虚拟人的参考图像和目标姿态下的二维骨架图，生成目标姿态下的虚拟人图像。

然而，在已有的处理方式下，难以在相似的动作中实现对于不同动作的有效辨别，降低了目标图像的生成准确率；而且，仅能基于相同的图像尺度，考量不同区域的肢体，使得生成的目标图像中不同肢体的清晰度存在差异，另外，对于目标姿态下的末端肢体姿态还原不准确，难以保障目标图像的生成效果。

有鉴于此，本申请实施例中，提出了一种图像生成模型的训练方法、装置、电子设备及存储介质，获取训练样本集；一条训练样本中包括：包含目标对象的样本参考图、指示目标对象在目标位姿下各关键点位置的样本骨架图和样本深度图，以及目标位姿的样本标准图；样本骨架图中至少包括肢体末端骨架；再采用训练样本集，对预训练后的图像生成模型进行多轮迭代训练，输出已训练的目标图像生成模型；其中，在一轮迭代过程中，执行以下操作：基于选取的训练样本包含的样本骨架图和样本深度图，按照对应的目标位姿，对包含的样本参考图中的目标对象进行动作迁移处理，得到预测标准图；基于预测标准图与样本标准图之间多尺度的全局综合差异损失，结合预测标准图和样本标准图之间，指定图像区域内的局部差异损失，调整图像生成模型中的模型参数。

这样，借助于构建的包括样本骨架图和样本深度图的训练样本，能够在训练图像生成模型的过程中，引入不同关键点位置处的深度值，这不仅为图像生成提供了更多可参考的依据，还能够有效区分相似位姿，处理不同区域的自遮挡问题；在训练根据样本骨架图和样本深度图，对样本参考图进行动作迁移得到预测标准图的过程中，还能够提高图像的生成准确性。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请实施例及实施例中的特征可以相互组合。

参阅图1所示，为本申请实施例中可能的应用场景示意图。该应用场景示意图中，包括图像获取设备110，以及处理设备120。

本申请实施例中，图像获取设备110，根据实际的处理需要，可以提供用于生成训练样本集的图像；或者，用于在训练图像生成模型的过程中，生成训练样本集，其中，生成的训练样本集中的图像类型包括：不同位姿下的样本标准图、样本深度图，以及样本骨架图；以及在基于训练后的目标图像生成模型进行处理时，提供处理所依据的参考图像，以及指定位姿下的平面骨架图和平面深度图。

在目标对象为虚拟对象的情况下，图像获取设备110具体对应的设备包括但不限于是桌面计算机、移动电话、移动电脑、平板电脑等具体处理能力的电子设备。在目标对象为实体对象的情况下，图像获取设备110具体可以是具有处理功能的深度相机等设备，或者能够依据深度相机提供的图像进行处理的电子设备。

处理设备120，可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。还可以是桌面计算机、移动电脑、平板电脑等电子设备。

本申请实施例中，图像获取设备110与处理设备120之间，采用有线连接或者无线连接的连接方式，通过通信网络建立通信连接。

本申请可能的技术方案中，图像获取设备110可以向处理设备120提供训练所需要的图像；进而根据实际的处理需要，由处理设备120生成预训练样本集和训练样本集，处理设备120在依据预训练样本集完成对于初始的图像生成模型的预训练，得到预训练后的图像生成模型之后，依据训练样本集继续对图像生成模型进行训练，得到训练后的目标图像生成模型。

需要说明的是，本申请实施例中，根据实际的处理需要，可以针对不同目标对象，训练得到不同的目标图像生成模型，具体的，在依据数据集完成预训练，得到预训练后的图像生成模型之后，可以针对存在图像生成需求的每个目标对象，分别依据目标对象在不同位姿下的图像进行微调训练，得到该目标对象对应的目标图像生成模型。

例如，假设存在虚拟对象A和B，为了针对虚拟对象A和B分别生成不同位姿下的图像，需要针对虚拟对象A和虚拟对象B，分别训练生成对应的目标图像生成模型。

本申请提出的技术方案，可以在各样的应用场景中，实现对图像生成模型的训练，下面对可能的应用场景进行说明：

场景一、针对虚拟对象生成图像生成模型。

处理设备获取依据指定的数据集生成预训练样本集后，基于预训练样本集对构建的图像生成模型进行多轮迭代训练，得到预训练后的图像生成模型；进而，采用布料解算和美术渲染技术，针对虚拟对象生成不同位姿下的样本标准图、样本骨架图，以及样本深度图，构建训练样本集；再依据训练样本集对预训练后的图像生成模型进行多轮迭代训练，最终得到训练后的目标图像生成模型。

需要说明的是，本申请实施例中，虚拟对象具体可以是游戏场景中的游戏人物或动物，或者，可以是虚拟对象直播场景中的虚拟人物或动物，又或者，可以是授权的动画片或表情包等影视作品中的虚拟人物或动物形象；进而在依据针对虚拟对象训练得到的目标图像生成模型进行处理时，能够对应针对虚拟对象配置的不同位姿，分别生成相应位姿下的目标图像，进而通过连播目标图像展示虚拟对象的动态形象。

场景二、针对实体对象生成图像生成模型。

处理设备获取依据指定的数据集生成的预训练样本集后，基于预训练样本集对构建的图像生成模型进行多轮迭代训练，得到预训练后的图像生成模型；进而，采用深度相机拍摄实体对象不同位姿下的图像，基于深度相机拍摄的图像，能够提取确定实体对象在不同位姿下的样本标准图、样本骨架图，以及样本深度图，得到构建的训练样本集，再依据训练样本集对预训练后的图像生成模型进行多轮迭代训练，最终得到训练后的目标图像生成模型。

需要说明的是，本申请实施例中，实体对象具体可以是实体人物或动物。以实体对象为实体人物为例，在得到实体人物授权的情况下，可以针对实体人物训练得到目标图像生成模型，进而在依据目标图像生成模型进行处理时，能够对应针对实体对象配置的不同位姿，趣味性地分别生成相应位姿下的目标图像，进而通过连播目标图像展示实体对象的动态形象。

下面结合附图，从处理设备120的角度，以由处理设备实现样本生成，以及图像生成模型的训练为例，对相关的处理过程进行示意性说明：

参阅图2A所示，其为本申请实施例中图像生成模型的训练流程示意图，下面结合附图2A，对相关的训练过程进行说明：

步骤201：处理设备获取训练样本集，其中，一条训练样本中包括：包含目标对象的样本参考图、指示目标对象在目标位姿下各关键点位置的样本骨架图和样本深度图，以及目标位姿的样本标准图；样本骨架图中至少包括肢体末端骨架。

本申请实施例中，处理设备在针对目标对象，对预训练后的图像生成模型进行微调训练之前，需要获取所采用的训练样本集，其中，一条训练样本中包括：包含目标对象的样本参考图、用于指示目标对象在目标位姿下各关键点位置的样本骨架图和样本深度图，以及目标对象在目标位姿下的样本标准图；样本骨架图中至少包括肢体末端骨架。

需要说明的是，在目标对象为实体对象的情况下，可以获取深度相机拍摄的图像，并预先确定用于描述位姿的各关键点位置；进而，基于深度相机拍摄的图像，确定目标对象在对应的位姿下各关键点位置的UV坐标，以及各关键点位置处的深度值Z，并以此生成对应的样本骨骼图和样本深度图。

在目标对象为虚拟对象的情况下，参阅图2B所示，其为本申请实施例中生成训练样本集的过程示意图，下面结合附图2B对针对虚拟对象生成训练样本集的过程进行说明：

步骤2011：处理设备获取目标对象在不同位姿下的样本标准图和三维坐标集合，其中，一个三维坐标集合中包括：一个位姿下各关键点位置各自对应的三维坐标。

本申请实施例中，由于针对每个具有图像生成需求的目标对象，需要分别训练对应的目标图像分类模型，因此，在针对每个目标对象生成训练样本集时，需要基于该目标对象在不同位姿下的图像构建训练样本集。

具体的，处理设备针对业务上使用的虚拟对象，在构建的虚拟空间中，对多种不同姿态下的虚拟对象进行布料解算，得到虚拟对象渲染图像；进而导出各姿态下，选定的各关键点位置在虚拟空间中的三维世界坐标。

需要说明的是，本申请实施例中，选定的各关键位置至少包括：眼部关键点、鼻部关键点、肩关节点、肘关节点、腕关节点、髋关节点、膝关节点、踝关节点、指关节点，以及部分脸部关键点；另外，从构建的虚拟空间中导出虚拟对象不同关键点位置的三维坐标，是本领域的常规技术，本申请对此将不做具体说明。

步骤2012：处理设备采用预设的二维重投影技术，对每个三维坐标集合进行处理，得到基于各关键点位置在图像坐标系下的像素点坐标生成的样本骨架图，以及得到基于各关键点位置各自对应的像素深度值生成的样本深度图。

处理设备依据不同位姿的目标对象，在各关键点位置的三维坐标，得到各三维坐标集合之后，采用预设的二维重投影技术，对每个三维坐标集合进行处理，基于每个三维坐标集合中的各三维坐标，变换得到图像坐标系下的像素点坐标和像素点的深度值。

具体的，在采用二维重投影技术进行处理时，可以采用以下公式进行处理：

首先，根据虚拟引擎中的相机参数，计算得到用于进行数据转换的相机内参矩阵和外参矩阵。假设获取有相机在虚拟空间内的世界坐标系下的XYZ坐标、X轴上的旋转角α、Y轴上的旋转角β，以及Z轴上的旋转角γ，相机焦距f以及感光传感器(sensor)的物理尺寸。而且，在实际计算时需要根据虚拟引擎的坐标轴顺序和方向对应调整变量。

相机外参矩阵参考计算公式如下：

相机内参矩阵参考计算公式如下：

其中f是相机焦距，d_x和d_y是感光sensor每个像素的物理长度，c_x和c_y是图像的中心像素坐标。

在得到虚拟对象各关键位置的世界坐标(x₀,y₀,z₀)后，可以使用如下公式进行二维重投影，从而得到关键位置在图像上的UV坐标以及对应像素深度值Z：

基于如上公式进行求解后，即可根据每个关键点位置的三维坐标(x₀,y₀,z₀)，投影得到图像坐标系下的像素点坐标，以及对应像素点处的深度值。

需要说明的是，本申请实施例中，在进行二维重投影计算时，考虑到本申请涉及到的虚拟对象存在于虚拟空间中，故相机外参中C_e的求解方式与真实世界坐标系上的转换方式不同，本申请创造性地将C_e的求解方式确定为使得能过更好地适应虚拟空间中的转换需要，在实践中具有非常好的转换效果，提高了将虚拟空间中的世界坐标系转换至图像坐标系的有效性。

进一步的，处理设备针对每个三维坐标集合，基于三维坐标集合中包含的各关键点位置各自在图像坐标系下的二维坐标，生成样本骨架图。

具体的，处理设备获得将三维坐标集合中各关键点位置，投影至图像坐标系后的各像素点坐标后，通过连接各像素点坐标各自对应的像素点，还原对应位姿下的骨骼分布，得到与对应的样本标准图大小相同的样本骨架图。

本申请实施例中，处理设备在生成二维的样本骨架图的过程中，先根据各关键点位置的UV坐标(即在图像坐标系下的像素点坐标)，在图像上标注出与各关键点位置各自对应的像素点；然后通过连接能够还原出骨骼分布的各像素点，对应的画出每一段骨骼，最终得到样本骨架图。

需要说明的是，本申请实施例中，处理设备在连接各像素点生成样本骨架图时，可以根据实际的处理需要，直接将相关的像素点连接为线段，得到每段骨骼；或者，可以在相关的像素点之间建立诸如双弧线连接在内的连接线，使得能够突出骨骼分布情况。

例如，参阅图2C所示，其为本申请实施例中描述目标对象在一个位姿下动作详情的内容示意图。根据图2C所示意的内容可知，处理设备将目标对象在位姿1下进行布料解算和美术渲染后，能够得到对应的样本标准图，与此同时，能够根据目标对象以位姿1的形态存在于虚拟空间中时，各关键点位置分布情况，导出用于描述位姿1的三维坐标集合。

又例如，参阅图2D所示，其为本申请实施例中生成样本骨架图的过程示意图，根据图2D示意的内容可知，在获得目标对象在虚拟空间中一个位姿下的三维坐标集合后，采用二维重投影技术，将该位姿下的各关键点位置，重投影至图像平面中，得到图2D中所示意的，在相应的图像坐标系下各关键点位置的分布情况，即，能够在图像坐标系中确定各关键点位置各自对应的像素点；进而，处理设备通过将不同位置的像素点连接成骨骼，还原对应位姿下不同骨骼的分布情况，得到对应的样本骨架图。

这样，能够基于指示目标对象在一个位姿下各关键点位置的三维坐标集合，投影确定将该位姿下的目标对象投影至图像坐标系后，对应的各关键点位置的平面分布情况，并通过连接各关键点位置各自对应的像素点，能够还原该位姿下的骨骼分布；而且，通过引入对于诸如手部在内的肢体末端骨架的考量，能够有效还原手部姿态细节，提高了对于目标对象的姿态还原效果。

处理设备在对应一个位姿下的目标对象生成样本骨架图的同时，还可以根据采用二维重投影技术确定的，各关键点位置各自对应的像素深度值，生成对应的样本深度图。

具体的，处理设备获取将三维坐标集合中各关键点位置投影至图像坐标系后，对应各关键点位置得到的各像素点坐标及像素深度值；构建与图像坐标系匹配的初始深度图，并基于各像素深度值，结合针对各像素点坐标各自归属的像素点范围确定的像素值取值差异，调整初始深度图中各像素点各自对应的像素值，得到样本深度图。

在可能的实现方式中，处理设备在生成样本深度图时，可以先创建一张与二维样本骨架图尺寸相同的黑色背景(即像素值为0)图，再将每个关键点位置对应的像素点的像素值初始化为对应的像素深度值；再在每个关键点位置对应的像素点位置生成一个半径为N像素，均值为M的高斯分布，得到对应的像素点范围内像素值系数的高斯分布结果，其中，N和M的取值根据实际的处理需要设置，如，N取25，M取1，不同像素点对应的像素值系数差异，表征了不同像素点之间的像素值取值差异；之后，将得到像素点范围内的各像素值取值系数，与像素点范围的生成所依据像素点位置处的像素深度值进行相乘，得到像素点范围内不同像素点位置处的像素值，进而得到对应的样本深度图，其中，像素深度值的单位可以为米，样本深度图中不同像素点位置处的像素值，表征不同像素位置对应的差异化的深度值。

可选的，考虑到像素深度值的取值范围可能与像素值的取值范围不同，故可以先将不同像素深度值的取值进行归一化处理，进而将归一化处理后的像素深度值与对应位置的像素值系数相乘，以及将相乘结果与像素值的取值范围相乘，最终得到对应位置的像素值。

例如，假设对应姿态2下的目标对象，确定关键点位置1对应像素点1，且像素点1处的像素深度值为1.5米，那么，考虑到像素深度值的取值最多可能只有10米，故将所有深度值除以10进行归一化，得到处理后像素点1处的像素值；然后以像素点1为中心生成一个均值为1，半径为25像素的高斯核，整体乘上像素点1的深度值后，将该高斯核画在图像中，得到该关键点的深度信息图。

又例如，参阅图2E所示，其为本申请实施例中生成的样本深度图示意图，根据图2E所示意的内容可知，处理设备对应样本标准图生成尺寸与该样本标准图相同的样本骨架图的同时，生成尺寸与样本骨架图相同的样本深度图；根据图2E所示意的内容可知，在生成的样本深度图时，先将全黑的初始深度图中，与各关键点位置对应的像素点的像素值取值为对应的像素深度值，进而可以以关键点位置对应的像素点为中心确定像素点范围；再按照预设的高斯半径和均值生成像素值系数的高斯分布结果，以及通过计算像素值系数与对应位置的像素值的乘积结果，得到对应位置最终的像素值。

这样，根据各关键点位置投影之后对应的像素点的像素深度值，不仅能够表征出各关键点位置距离相机坐标系原点的差异性距离，还能够表达出不同像素点的相对深度差异，因而可以有效表达出相似动作之间的关键点位置分布情况，提高姿态指示的准确性；另外，通过确定关键点位置对应的像素点位置，以及确定像素点范围，使得能够在生成的样本深度图中扩大关键点位置的影响，相当于对关键点位置对应的位置进行放大，避免进行单像素点识别，降低了检测难度。

步骤2013：处理设备基于不同位姿对应的样本标准图、样本骨架图，以及样本深度图，生成训练样本集。

处理设备获得目标对象在不同位姿下的样本标准图、样本骨架图，以及样本深度图后，先在不同位姿对应的样本标准图中选定样本参考图，再将该样本参考图，与除该样本参考图对应的位姿外，其他位姿对应的样本标准图、样本骨架图，以及样本深度图进行组合，得到各训练样本；进而依据生成的各训练样本，组成训练样本集合。

可选的，处理设备可以分别将每个位姿下的样本标准图作为样本参考图，并将样本参考图，与其他每个位姿下的样本标准图、样本骨架图，以及样本深度图进行组合，分别得到各条训练样本。

例如，假设存在目标对象1在位姿1-5下的样本标准图、样本骨架图，以及样本深度图，在生成训练样本时，可以将选择位姿1对应的样本标准图作为样本参考图，并将该样本参考图与每个其他位姿下的样本标准图、样本骨架图，以及样本深度图进行组合，得到4条训练样本。

这样，能够建立根据样本骨架图和样本深度图，联合指示目标位姿下各关键点位置的训练样本集，且在训练样本集的样本骨架图中引入了对于肢体末端骨架的考量，相当于在训练样本中融入了更多可学习的因素，为训练得到有效的图像生成模型提供了训练依据。

步骤202：处理设备采用训练样本集，对预训练后的图像生成模型进行多轮迭代训练，输出已训练的目标图像生成模型。

本申请实施例中，根据实际的处理需要，为了节省训练时间，处理设备可以先对初始的图像生成模型进行多轮迭代预训练，得到预训练后的图像生成模型，进而对预训练后的图像生成模型进行多轮迭代训练，输出已训练的目标图像生成模型。

参阅图2F所示，其为本申请实施例中初始构建的图像生成模型示意图，根据图2F所示，本申请在Nueral-Texture-Extracion-Distribution结构的动作迁移模型的基础上进行了算法和结构调整，本申请构建的图像生成模型中包括：配置有卷积注意力层的第一编码网络、配置有卷积注意力层和图像融合层的第二编码网络，以及配置有卷积注意力层的多尺度解码网络，其中，

1)配置有卷积注意力层的第一编码网络。

对应图2F中连接有轻量级注意力模块(Convolutional Block AttentionModule，CBAM)的骨骼编码器(The Skeleton Encoder)，其中，CBAM模块也称卷积注意力层。

2)配置有卷积注意力层和图像融合层的第二编码网络。

对应图2F中连接有CBAM、且内置有图像融合层的参考图像编码器(The ReferenceEncoder)，其中，图像融合层也称深度图融合卷积层，用于融合骨架平面图和关键点深度图。

具体的，在训练过程中，将图像尺寸相同的样本骨架图和样本深度图在通道维度进行拼接后，输入第二编码网络，并在第二编码网络内部，实现样本骨架图和样本深度图的融合。

3)配置有卷积注意力层的多尺度解码网络。

对应图2F中粗虚线框所示意的内容，包括目标图像生成器(The Target ImageRenderer)、NTED，以及各个卷积模块(Conv Blocks)在内的网络结构，其中，NTED用于提取输入图像的空间纹理特征，并映射成目标姿态对应的特征分布状态；Conv Blocks是卷积层堆叠而成的模块，而且构建的图像生成模型中包括16×8、32×16、…、512×256、1024×512、2048×1024等多个尺寸的卷积层模块，分别用于针对不同尺寸的图像，提取和融合得到深层特征；tRGB用于将深层特征矩阵用卷积层转换成通道数为3的RGB图像，Upsample部分用于对图像进行上采样。

继续结合附图2F示意的内容，本申请构建的图像生成模型中，通过在第一编码网络和第二编码网络中添加CBAM层，有利于模型提取出不同尺度的目标对象的特征；在多尺度解码网络中，通过在最后两层接近图像输出的部分添加CBAM，有利于训练提升图像生成的细节。

本申请实施例中，处理设备在对初始的图像生成模型进行预训练时，获取指定的数据集，并通过对数据集中的各样本骨架图进行单目深度估计处理，得到各样本骨架图各自对应的样本深度图，其中，该数据集中包括各样本对象在不同位姿下的样本标准图和样本骨架图；基于根据该数据集得到的样本标准图、样本骨架图，以及样本深度图，构建预训练样本集合，并基于预训练样本集合对初始的图像生成模型进行多轮迭代训练，输出预训练后的图像生成模型。

具体的，考虑到由于针对目标对象渲染的数据量有限，为了提升能够实现动作迁移的图像生成模型的泛化性，可以预先使用大量人体平面图像数据，对初始的图像生成模型进行预训练。对此，本申请可以获取目前包含较大数据量的、用于人体姿态估计的数据集，进而在数据集中筛选出单人且人物占比超过设定阈值的平面图像生成训练数据，其中，选用的数据集可以是COCO数据集，或者，human3.6等，本申请对此不做具体限定；数据集中的图像包括不同位姿下的人物图像(即包含样本对象的样本标准图)，以及在对应位姿下的平面骨架图(即样本骨架图)。

本申请实施例中，考虑到数据集中包括的是平面图像，故在生成对应的深度图时，可以单目深度估计算法，得到标注的各关键点位置各自对应的深度值，从而得到每张人物图像中各关键点位置的UVZ数据，并以此生成预训练样本集，以及依据预训练样本集训练得到泛化性更强的预训练模型。

需要说明的是，本申请实施例中，采用单目深度估计算法进行处理的原因在于，目前人物姿态丰富的数据集中基本上仅提供二维关键点标签，即UV坐标；而本申请中考量的是关键点的UVZ坐标，故需要借助单目深度估计算法，预测图像中人物的各关键点位置所对应的像素点，与摄像头之间的距离，进而能够对应每个关键点位置得到对应的Z值，从而合成出所需的UVZ数据。

另外，对于本申请采用的单目深度估计算法而言，可以获取基于RGBD相机采集的RGB图像以及深度图构成的训练集，并采用训练集训练能够预测每个像素深度值的深度卷积神经网络，使得依据由深度卷积神经网络实现的单目深度估计算法功能，能够很好的补全RGB图像的深度信息。

本申请实施例中，处理设备通过对获取的数据集进行处理，能够得到数据集中不同位姿下的各样本对象，各自对应的样本标准图、样本骨架图，以及样本深度图；通过基于相同样本对象在不同位姿下的样本标准图、样本骨架图，以及样本深度图，构建预训练样本，能够生成对应的预训练样本集合；进而，依据生成的预训练样本集合，实现对初始的图像生成模型的多轮迭代训练，得到预训练后的图像生成模型。

需要说明的是，预训练过程中执行的模型处理过程，与针对预训练后的图像生成模型执行的处理过程相同，本申请在此将不对预训练时具体的处理过程进行说明。

这样，通过对构建的图像生成模型进行预训练，能够提高模型的泛化性，降低后续在针对目标对象训练目标图像生成模型的过程中，对于训练样本的标注需求，有助于提高模型的训练速度。

进一步的，处理设备获取预训练后的图像生成模型后，对该图像生成模型进行多轮迭代微调训练，直至满足预设的收敛条件为止，输出训练后的目标图像生成模型，其中，预设的收敛条件可以是训练轮数达到设定值等，本申请对此不做具体限制。

参阅图2G所示，其为本申请实施例中一轮模型训练的过程示意图，下面结合附图2G，以对预训练后的图像生成模型进行一轮训练为例，对相关的训练过程进行说明：

步骤2021：处理设备基于选取的训练样本中包含的样本骨架图和样本深度图，按照对应的目标位姿，对包含的样本参考图中的目标对象进行动作迁移处理，得到预测标准图。

具体的，在图像生成模型中包括：配置有卷积注意力层的第一编码网络、配置有卷积注意力层和图像融合层的第二编码网络，以及配置有卷积注意力层的多尺度解码网络的情况下；在执行步骤2021时，处理设备将选取的训练样本包含的样本参考图输入第一编码网络，得到编码后的参考图像特征；再将训练样本包含的样本骨架图和样本深度图，在通道维度上进行拼接后，输入第二编码网络，得到编码融合后的骨骼动作特征；然后，采用多尺度解码网络，基于骨骼动作特征对参考图像特征进行解码，得到完成动作迁移后的预测标准图。

本申请实施例中，处理设备采用图像生成模型中的第一编码网络，实现对目标对象的样本参考图的编码处理，得到样本参考图对应的参考图像特征；以此同时，采用图像生成模型中的第二编码网络，实现对目标对象的样本骨架图和样本深度图的编码融合处理，得到能够描述目标姿态的骨骼动作特征；进而借助于多尺度解码网络，基于骨骼动作特征指导目标对象由参考图像特征所对应的位姿迁移至目标位姿，得到模型输出的预测标准图。

这样，借助于包含CBAM的第一编码网络、第二编码网络，以及多尺度解码网络，能够学习进行目标动作的动作迁移，而且，本申请通过将样本深度图作为模型输入的一部分，使得能够同时输入二维的样本骨架图和样本深度图，因而能够有效引入各关键点位置的三维信息，在提升模型输入数据的信息量的同时，有助于模型学习更精确地实现动作迁移。

步骤2022：处理设备基于预测标准图与样本标准图之间多尺度的全局综合差异损失，结合预测标准图和样本标准图之间，指定图像区域内的局部差异损失，调整图像生成模型中的模型参数。

在执行步骤2022时，处理设备基于图像生成模型生成的预测标准图，与选取的训练样本中对应的样本标准图之间的图像差异，计算模型损失值，进而依据模型损失值调整图像生成模型中的模型参数。

在一些可能的实现方式中，处理设备计算预测标准图与样本标准图之间多尺度的全局综合差异损失，以及计算预测标准图和样本标准图之间，指定图像区域内的局部差异损失后，将全局综合差异损失和局部差异损失的加权叠加结果，作为调整模型参数时依据的模型损失值。

在另一些可能的实施例中，当图像生成模型作为生成器对抗器结构中的生成器进行训练时，得到预测标准图之后，采用预设的生成对抗损失函数，基于预测标准图和对应的样本标准图，得到对应的对抗损失；再基于对抗损失、预测标准图与样本标准图之间的全局综合差异损失，结合预测标准图和样本标准图之间，指定图像区域内的局部差异损失，调整图像生成模型中的模型参数。

这样，通过引入全局综合损失差异和局部损失差异，能够有效考量图像间的局部图像差异和整体差异，有助于模型学习在生成的图像中还原位姿细节；而且通过额外引入生成对抗损失，能够借助于生成器对抗器结构的训练框架，对图片的生成质量进行进一步的评价，协助提高模型的训练效果。

本申请实施例中，在确定预测标准图和样本标准图之间的局部差异损失时，处理设备在预测标准图和样本标准图中，分别确定用于定位子图像区域的各目标关键点位置，并分别在预测标准图和样本标准图中，基于确定的各目标关键点位置，裁剪得到包含多个子图像区域的指定图像区域；基于每个子图像区域内的像素值差异和图像特征差异，得到对应的局部差异损失。

具体的，处理设备在计算局部差异损失时，先在样本标准图和预测标准图中选定考量的局部区域，如，可以选定脸部区域和手部区域；进而，在样本标准图和预测标准图中，分别根据人体关键点定位对应的局部区域，进而从样本标准图和预测标准图中裁剪出相应的局部区域。

例如，假设预设的局部区域为脸部图像区域和手部图像区域，那么，在裁剪脸部图像区域时，先依据选定的各关键点位置中的眼睛关键点位置，再基于眼睛关键点的连线生成矩形区域框，以划分出脸部区域，进而裁剪得到样本标准图和预测标准图中各自对应的脸部图像区域(即子图像区域)；同理，可以选定手指关节点，并依据手指关节点划分出手部图像区域，进而裁剪得到样本标准图和样本预测图中各自对应的手部图像区域(即子图像区域)。

进而，处理设备可以根据实际的处理需要，采用L1损失函数，计算每个子图像区域内像素点的像素值差异损失和图像特征差异损失，进而根据每个子图像区域对应的像素值差异损失和图像特征差异损失，计算得到包括各子图像区域的指定区域，对应的局部差异损失。

这样，通过引入局部损失差异，能够有效考量图像间局部区域的差异，使得在模型的学习训练过程中，能够指导在生成的图像中还原位姿细节，提高图像的生成效果。

本申请实施例中，处理设备在确定预测标准图和样本标准图之间的全局综合差异损失时，基于预测标准图与样本标准图之间，各像素点的像素值差异，得到全局像素值损失，并基于预测标准图与样本标准图之间，在多个预设尺度下的图像特征差异，得到多尺度特征损失；再将全局像素值损失和多尺度特征损失，得到对应的全局综合差异损失。

具体的，处理设备在计算多尺度特征损失时，可以借助于视觉几何组(VisualGeometry Group，VGG)网络，将预测标准图和样本标准图分别输入VGG网络中，得到VGG网络输出的在多个预设尺度下的图像特征；进而通过采用L1损失函数，分别计算每个尺度下预测标准图和样本标准图之间图像特征差异，最终得到多尺度特征损失。

在计算全局像素值损失时，处理设备采用L1损失函数，基于预测标准图和样本标准图之间的像素值差异，确定对应的全局像素值损失。

进而，通过计算多尺度特征损失和全局像素值损失之间的加权叠加结果，最终能够得到对应的全局综合差异损失。

这样，借助于全局综合损失差异，能够从整体上有效考量图像间差异，并能够兼顾像素值层面和图像特征层面上的综合差异影响，使得模型能够向缩小像素值差异和图像特征差异的趋势调整。

需要说明的是，本申请实施例中，在对实现动作迁移功能的图像生成模型进行预训练的过程中，采用的是已有的真实人类图像数据集，考虑到预训练后的图像生成模型对于特定目标对象的拟合效果可能不够高，故需要基于处理后的目标对象数据生成训练样本集后，对预训练后的图像生成模型进行进一步的优化，提升模型对目标对象数据的拟合程度。在优化模型时，为了防止模型在目标对象数据上过度拟合导致对预训练知识发生遗忘，可以控制训练周期并减小模型学习率，其中，训练周期的数目根据实际的处理需要设置，本申请对此不做具体限制。

具体的，处理设备可以按照以下任意一种方式，确定在对预训练后的图像生成模型进行每轮迭代过程中使用的学习率：

方式一、采用余弦退火算法计算学习率。

具体的，处理设备可以采用预设的余弦退火算法，基于预设的初始学习率，确定每个训练周期对应的学习率取值，并根据当前迭代过程归属的训练周期，确定当前迭代过程对应的目标学习率，其中，一个训练周期内包括至少一轮迭代过程。

基于此，处理设备可以采用余弦退火的方式，确定每个训练周期内采用的学习率，使得能够对应训练周期，实现周期性地调整学习率的取值，随着训练周期的增加，学习率的取值逐渐减小。

二、基于预设的学习率衰减函数，计算学习率。

具体的，处理设备基于预设的初始学习率和学习率衰减系数，确定每个训练周期对应的学习率取值，并根据当前迭代过程归属的训练周期，确定当前迭代过程对应的目标学习率，其中，一个训练周期内包括至少一轮迭代过程。

例如，假设学习率衰减系数为0.5，则可以控制每个训练周期内的迭代轮次内，采用相同的学习率训练模型，以及，对于相邻的两个训练周期而言，前者的训练周期内采用的学习率，为后者训练周期内采用的学习率的二倍。

这样，通过调整模型训练所使用的学习率，能够一定程度上防止模型在目标对象数据上过度拟合，避免图像生成模型对于预训练知识的遗忘，保障模型的训练效果。

进一步的，在基于预训练后的图像生成模型，训练得到目标图像生成模型后，处理设备可以依据目标图像生成模型，进行图像中目标对象的动作迁移，得到目标对象在指定姿态下的目标图像。

处理设备获取目标对象在参考动作下的参考图像，以及目标对象在指定位姿下的平面骨架图和平面深度图，其中，平面骨架图中包括手部骨骼；再采用目标图像生成模型，基于平面骨架图和平面深度图，对参考图像进行动作迁移处理，得到目标对象在指定位姿下的目标图像。

具体的，处理设备得到优化的目标图像生成模后，即可根据实际的处理需要，离线进行图像的生成。在具体的生成过程中，处理设备先获取目标对象在指定位姿下，各关键点位置对应的三维坐标集合。

然后，处理设备对三维坐标集合中各关键点位置的三维坐标，分别进行重投影得到UVZ坐标，进而合成对应的平面骨架图和平面深度图；再将目标对象在参考位姿下的参考图像，与指定位姿对应的平面骨架图和平面深度图，一起输入至优化后的目标图像生成模型，即可得到目标对象输出的，目标对象在指定位姿下的平面图像。

需要说明的是，在存在其他对象在指定位姿下的三维坐标集合，而不存在目标对象在该指定位姿下的三维坐标集合的情况下，可以针对指示其他对象指定位姿的三维坐标集合进行骨骼重定向处理，得到目标对象在该指定位姿下的三维坐标集合。

特别的，当生成的平面图像分辨率不够时，处理设备可以使用超分辨率算法提升图像的分辨率，最终输出成品图像，其中，超分辨率算法和重定向算法为本领域的常规技术，本申请对此不做具体说明。

另外，在本申请一些可能的实现场景中，可以获取用于指示目标对象不同位姿的期望位姿序列，其中，期望位姿序列中每个位姿对应一个参考图像，以及用于指式期望位姿的三维坐标集合；进而处理设备能够处理生成各期望位姿各自对应的目标图像，最终对应期望位姿序列生成目标图像序列，因而在连播目标图像的情况下，能够得到目标对象的位姿变化视频。

这样，仅需要单次大批量渲染用于训练图像生成模型的目标对象数据，即可实现后期离线生成各种指定姿态的目标对象图像素材，不再需要额外依赖外部美术技术，能够有效降低渲染图像和布料解算的时间成本和设备成本，提高长期运营的生产效率；而且，通过引入了平面深度图的参与作用，能有效处理自遮挡问题，有效还原指定位姿下的目标对象，另外，借助于训练过程中增加的对于肢体末端骨架的考量，能够至少增加处理手部骨骼的功能，使生成图像中的手势变得可控，而且，通过考量了局部损失差异，能够实现对局部特征的进一步优化，缓解尺度过小导致图像质量过低的问题，再者，通过更改模型结构，使得模型内部能够处理2048*1024等尺寸的图像，够极大提高生成的图像的分辨率，使生成图像达到1080p分辨率。

下面结合具体的应用场景，以目标对象为虚拟人为例，对本申请实施例中涉及到的训练过程和应用过程进行示意性说明：

参阅图3A所示，其为本申请实施例中在目标图像生成模型的训练阶段和应用阶段的处理过程示意图，根据图3A所示意的内容可知，在训练阶段，处理设备在虚拟空间中渲染大量虚拟人的平面图像，并导出不同平面图像对应的各关键点位置坐标，得到相应的三维坐标集合，生成训练样本集；进而采用训练样本集对预训练后的图像生成模型进行训练，输出训练后的目标图像生成模型。

参阅图3B所示，其为本申请实施例中单轮迭代训练的过程示意图，根据图3B所示意的内容可知，在对预训练后的图像生成模型进行一轮迭代训练时，处理设备选取训练样本后，将训练样本中的样本参考图输入第一编码网络，以及将训练样本中的样本骨架图和样本深度图在通道维度上进行拼接后，输入第二编码网络，进而得到多尺度解码网络输出的预测标准图；

之后，继续结合图3B的内容，在图像生成模型作为生成器对抗器结构中的生成器进行训练时，处理设备分别将预测标准图和样本标准图输入判别器，得到对应的对抗损失，其中，对抗损失的计算是本领域的常规技术，在此不做具体说明；另外，处理设备根据预测标准图和样本标准图之间的图像像素差异，计算图像像素差异损失(也称全局像素值损失)；与此同时，处理设备从预测标准图和样本标准图中分别裁剪出人脸图像区域和手部图像区域后，通过加权计算人脸图像区域对应的像素差异损失和图像特征差异损失，以及手部图像区域对应的像素值差异损失和图像特征差异损失，得到对应的局部差异损失；而且，处理设备还可以将预测标准图和样本标准图输入预设的VGG网络，得到预测标准图和样本标准图各自对应的多尺度图像特征，并通过计算多尺度图像特征各自对应的图像特征差异损失，最终得到多尺度特征损失。

进而，在图3B示意的训练过程中，借助于计算得到的多种损失，加权获得模型损失，并依据模型损失调整图像生成模型的模型参数。

继续结合图3A所示意的内容进行说明，在应用阶段，处理设备先准备虚拟人的期望位姿序列，其中，每个期望位姿关联有用于指示各关键点位置的三维坐标集合；之后，处理设备确定虚拟人对应的参考图像，并针对每个期望位姿，确定对应的平面骨架图和平面深度图；再采用已训练的目标图像生成模型，分别依据每个期望位姿对应的参考图像、平面骨架图像，以及平面深度图，得到目标图像；最后，处理设备对应期望位姿序列得到目标图像序列。

参阅图3C所示，其为本申请实施例中训练得到目标图像生成模型的整体结构示意图，在图3C所示意的内容中整体上分为预训练阶段、构建优化过程中的训练样本集的阶段、模型优化阶段，以及应用阶段。

在预训练阶段，处理设备处理数据集，保存图像中各关键点位置的UV坐标，并利用单目深度估计算法，得到各关键点位置各自对应的深度值；再根据参考位姿下的图像，目标位姿下的图像、骨架图和深度图，训练初始的图像生成模型，得到预训练后的图像生成模型。

在构建优化过程中的训练样本集的阶段，处理设备实现对训练数据的预处理，对虚拟人在多种位姿下进行布料解算和美术渲染，分别得到对应的平面图像，并保存渲染所使用的相机参数以及对应位姿下的三维坐标集合；再根据相机参数对三维坐标集合表征的三维骨架进行重投影，得到UVZ坐标，进而根据投影确定的UV位置的像素点，生成骨架图，以及根据UVZ值确定像素点位置的像素深度值，生成深度图。

在模型优化阶段，处理设备采用训练样本集，对预训练后的图像生成模型进行优化。

在应用阶段，处理设备先准备虚拟人的期望位姿序列，其中，每个期望位姿关联有用于指示各关键点位置的三维坐标集合；再确定虚拟人对应的参考图像，并基于得到的三维坐标集合，处理得到对应的平面骨架图和平面深度图；之后，处理设备基于能够拟合虚拟人数据的目标图像生成模型，对应期望位姿序列中的每个期望位姿，生成对应的平面图像；最后，根据实际的处理需要，可以使用超分辨率算法，提升各目标图像的分辨率。

这样，通过先基于虚拟人渲染一批不同动作且完成布料解算的图像，并利用虚拟引擎中相机的参数，对虚拟人对应的图像中各关键点位置的三维坐标进行二维重投影，得到各关键点位置在图像平面的二维坐标以及像素深度值；再使用这些图像，以及对应各关键点位置的二维坐标和像素深度值，训练一个基于深度卷积网络的图像生成模型。后续即可基于虚拟人期望姿态序列，转换成对应各期望位姿的平面图像序列，而且，能够在图像生成过程中进行细节性考量，避免受到自遮挡区域的影响，提高了图像生成效率和生成准确性。

基于同一发明构思，参阅图4所示，其为本申请实施例中图像生成模型的训练装置的逻辑结构示意图，图像生成模型的训练装置400中包括获取单元401，以及训练单元402，其中，

获取单元401，用于获取训练样本集；一条训练样本中包括：包含目标对象的样本参考图、指示目标对象在目标位姿下各关键点位置的样本骨架图和样本深度图，以及目标位姿的样本标准图；样本骨架图中至少包括肢体末端骨架；

训练单元402，用于采用训练样本集，对预训练后的图像生成模型进行多轮迭代训练，输出已训练的目标图像生成模型；其中，在一轮迭代过程中，执行以下操作：

基于选取的训练样本中包含的样本骨架图和样本深度图，按照对应的目标位姿，对包含的样本参考图中的目标对象进行动作迁移处理，得到预测标准图；

基于预测标准图与样本标准图之间多尺度的全局综合差异损失，结合预测标准图和样本标准图之间，指定图像区域内的局部差异损失，调整图像生成模型中的模型参数。

可选的，图像生成模型中包括：配置有卷积注意力层的第一编码网络、配置有卷积注意力层和图像融合层的第二编码网络，以及配置有卷积注意力层的多尺度解码网络；

则基于选取的训练样本包含的样本骨架图和样本深度图，按照对应的目标位姿，对包含的样本参考图中的目标对象进行动作迁移处理，得到预测标准图时，训练单元402用于：

将选取的训练样本包含的样本参考图输入第一编码网络，得到编码后的参考图像特征；

将训练样本包含的样本骨架图和样本深度图，在通道维度上进行拼接后，输入第二编码网络，得到编码融合后的骨骼动作特征；

采用多尺度解码网络，基于骨骼动作特征对参考图像特征进行解码，得到完成动作迁移后的预测标准图。

可选的，训练样本集是采用如下方式生成的：

采用预设的二维重投影技术，对每个三维坐标集合进行处理，得到基于各关键点位置在图像坐标系下的像素点坐标生成的样本骨架图，以及得到基于各关键点位置各自对应的像素深度值生成的样本深度图；

基于不同位姿对应的样本标准图、样本骨架图，以及样本深度图，生成训练样本集。

可选的，得到基于各关键点位置在图像坐标系下的二维坐标生成的样本骨架图时，获取单元401用于：

获得将三维坐标集合中各关键点位置，投影至图像坐标系后的各像素点坐标；

通过连接各像素点坐标各自对应的像素点，还原对应位姿下的骨骼分布，得到与对应的样本标准图大小相同的样本骨架图。

可选的，得到基于各关键点位置的像素深度值生成的样本深度图时，获取单元401用于：

获取将三维坐标集合中各关键点位置投影至图像坐标系后，对应各关键点位置得到的各像素点坐标及像素深度值；

构建与图像坐标系匹配的初始深度图，并基于各像素深度值，结合针对各像素点坐标各自归属的像素点范围确定的像素值取值差异，调整初始深度图中各像素点各自对应的像素值，得到样本深度图。

可选的，当图像生成模型作为生成器对抗器结构中的生成器进行训练时，得到预测标准图之后，训练单元402还用于：

采用预设的生成对抗损失函数，基于预测标准图和对应的样本标准图，得到对应的对抗损失；

基于对抗损失、预测标准图与样本标准图之间的全局综合差异损失，结合预测标准图和样本标准图之间，指定图像区域内的局部差异损失，调整图像生成模型中的模型参数。

可选的，局部差异损失采用以下方式确定：

在预测标准图和样本标准图中，分别确定用于定位子图像区域的各目标关键点位置，并分别在预测标准图和样本标准图中，基于确定的各目标关键点位置，裁剪得到包含多个子图像区域的指定图像区域；

可选的，全局综合差异损失采用如下方式确定：

基于预测标准图与样本标准图之间，各像素点的像素值差异，得到全局像素值损失，并基于预测标准图与样本标准图之间，在多个预设尺度下的图像特征差异，得到多尺度特征损失；

将全局像素值损失和多尺度特征损失，得到对应的全局综合差异损失。

可选的，训练单元402采用以下方式完成图像生成模型的预训练：

获取指定的数据集，并通过对数据集中的各样本骨架图进行单目深度估计处理，得到各样本骨架图各自对应的样本深度图，其中，数据集中包括各样本对象在不同位姿下的样本标准图和样本骨架图；

基于根据数据集得到的样本标准图、样本骨架图，以及样本深度图，构建预训练样本集合，并基于预训练样本集合对初始的图像生成模型进行多轮迭代训练，输出预训练后的图像生成模型。

可选的，训练单元402按照以下任意一种方式，确定在对预训练后的图像生成模型进行每轮迭代过程中使用的学习率：

可选的，装置还包括生成单元403，生成单元403用于：

获取目标对象在参考动作下的参考图像，以及目标对象在指定位姿下的平面骨架图和平面深度图，其中，平面骨架图中包括手部骨骼；

采用目标图像生成模型，基于平面骨架图和平面深度图，对参考图像进行动作迁移处理，得到目标对象在指定位姿下的目标图像。

在介绍了本申请示例性实施方式的图像生成模型的训练方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为***、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种电子设备，参阅图5所示，其为应用本申请实施例的一种电子设备的一个硬件组成结构示意图，电子设备500可以至少包括处理器501、以及存储器502。其中，存储器502存储有程序代码，当程序代码被处理器501执行时，使得处理器501执行上述任意一种图像生成模型的训练方法的步骤。

在一些可能的实施方式中，根据本申请的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的图像生成模型的训练的步骤。例如，处理器可以执行如图2A中所示的步骤。

下面参照图6来描述根据本申请的这种实施方式的计算装置600。如图6所示，计算装置600以通用计算装置的形式表现。计算装置600的组件可以包括但不限于：上述至少一个处理单元601、上述至少一个存储单元602、连接不同***组件(包括存储单元602和处理单元601)的总线603。

总线603表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、***总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元602可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)6021和/或高速缓存存储器6022，还可以进一步包括只读存储器(ROM)6023。

存储单元602还可以包括具有一组(至少一个)程序模块8024的程序/实用工具6025，这样的程序模块6024包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算装置600也可以与一个或多个外部设备604(例如键盘、指向设备等)通信，还可与一个或者多个使得对象能与计算装置600交互的设备通信，和/或与使得该计算装置600能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口605进行。并且，计算装置600还可以通过网络适配器606与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器606通过总线603与用于计算装置600的其它模块通信。应当理解，尽管图中未示出，可以结合计算装置600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

与上述方法实施例基于同一发明构思，本申请提供的图像生成模型的训练的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在电子设备上运行时，程序代码用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的图像生成模型的训练方法中的步骤，例如，电子设备可以执行如图2A中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种图像生成模型的训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述图像生成模型中包括：配置有卷积注意力层的第一编码网络、配置有卷积注意力层和图像融合层的第二编码网络，以及配置有卷积注意力层的多尺度解码网络；

则所述基于选取的训练样本包含的样本骨架图和样本深度图，按照对应的目标位姿，对包含的样本参考图中的所述目标对象进行动作迁移处理，得到预测标准图，包括：

3.如权利要求1所述的方法，其特征在于，所述训练样本集是采用如下方式生成的：

4.如权利要求3所述的方法，其特征在于，所述得到基于各关键点位置在图像坐标系下的二维坐标生成的样本骨架图，包括：

5.如权利要求3所述的方法，其特征在于，所述得到基于所述各关键点位置的像素深度值生成的样本深度图，包括：

6.如权利要求1所述的方法，其特征在于，当所述图像生成模型作为生成器对抗器结构中的生成器进行训练时，所述得到预测标准图之后，还包括：

7.如权利要求1所述的方法，其特征在于，所述局部差异损失采用以下方式确定：

8.如权利要求1所述的方法，其特征在于，所述全局综合差异损失采用如下方式确定：

9.如权利要求1-8任一项所述的方法，其特征在于，采用以下方式完成所述图像生成模型的预训练：

10.如权利要求1-8任一项所述的方法，其特征在于，按照以下任意一种方式，确定在对预训练后的图像生成模型进行每轮迭代过程中使用的学习率：

11.如权利要求1-8任一项所述的方法，其特征在于，还包括：

12.一种图像生成模型的训练装置，其特征在于，包括：

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-11任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-11任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-11任一项所述的方法。