CN116310659B

CN116310659B - 训练数据集的生成方法及设备

Info

Publication number: CN116310659B
Application number: CN202310555942.5A
Authority: CN
Inventors: 王威
Original assignee: Zhongshu Yuanyu Digital Technology Shanghai Co ltd
Current assignee: Zhongshu Yuanyu Digital Technology Shanghai Co ltd
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-08-08
Anticipated expiration: 2043-05-17
Also published as: CN116310659A

Abstract

本申请实施例提供一种训练数据集的生成方法及设备。其中，方法包括如下的步骤：针对第一真实手部拍摄得到第一真实手部图像并针对第一三维虚拟场景生成第一合成图像；所述第一三维虚拟场景中包括第一背景模型；将从所述第一真实手部图像抠图得到的所述第一真实手部的影像贴合在所述第一合成图像中，得到第一初始合成手部图像；将所述第一初始合成手部图像输入至训练过的生成对抗网络中的生成器，以得到第一目标合成手部图像；根据所述第一目标合成手部图像以及所述第一真实手部图像对应的所述第一真实手部的姿势，确定用于训练手部姿势估计算法的训练数据集。本申请实施例提供的方案能够提高合成手部图像的真实性。

Description

训练数据集的生成方法及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种训练数据集的生成方法及设备。

背景技术

手势识别即人手姿态估计，是指在包含人手的图像中预测人手关键点的三维坐标。由于深度神经网络的快速发展，基于二维图像进行手部姿势估计，已经取得了重大进展。但是，这些基于深度神经网络的方法高度依赖于大量的训练数据，使得训练成本高昂。

因此，有人提出使用合成数据集对手部姿势估计算法进行训练，但是利用合成数据集训练的手部姿势估计算法在真实数据上的应用表现不佳。

发明内容

鉴于上述问题，提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的训练数据集的生成方法及设备。

于是，在本申请的一个实施例中，提供了一种训练数据集的生成方法。该方法包括：

针对第一真实手部拍摄得到第一真实手部图像并针对第一三维虚拟场景生成第一合成图像；所述第一三维虚拟场景中包括第一背景模型；

将从所述第一真实手部图像抠图得到的所述第一真实手部的影像贴合在所述第一合成图像中，得到第一初始合成手部图像；

将所述第一初始合成手部图像输入至训练过的生成对抗网络中的生成器，以得到第一目标合成手部图像；

根据所述第一目标合成手部图像以及所述第一真实手部图像对应的所述第一真实手部的姿势，确定用于训练手部姿势估计算法的训练数据集。

在本申请的又一实施例中，提供了一种电子设备。该电子设备，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以实现上述任一项所述的方法。

本申请实施例提供的技术方案中，通过训练过的生成对抗网络中的生成器，对真实手部图像和虚拟背景图像进行混合，使得真实手部能够更好地融入虚拟背景中，提高合成的训练数据的真实性。此外，合成得到的训练数据中，背景是虚拟的，手部是真实的，由于手部姿势估计算法的目标是预测手部姿势，因此，训练数据中真实手部信息能够提高手部姿态估计算法的训练效果并且训练数据中虚拟背景信息对手部姿态估计算法的训练影响还较小，因此，整体上能够确保采用本申请实施例提供的技术方案合成的训练数据训练过的手部姿势估计算法在真实数据上具有较好的预测效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的网络训练方法的流程示意图；

图2为本申请一实施例提供的训练数据集的生成方法的流程示意图；

图3为本申请一实施例提供的电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将根据本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

此外，在本申请的说明书、权利要求书及上述附图中描述的一些流程中，包含了按照特定顺序出现的多个操作，这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等，仅仅是用于区分各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

在对本申请实施例提供的训练数据集的生成方法进行介绍之前，对该方法所需使用的对抗生成网络的训练过程进行介绍。

图1示出了本申请一实施例提供的一种网络训练方法的流程示意图。该方法的执行主体可以为客户端，也可以为服务端。其中，所述客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作***中的工具软件等，本申请实施例对此不作限定。该终端可以为包括手机、平板电脑、车载终端设备等任意终端设备。其中，服务端可以是常用服务器、云端或虚拟服务器等，本申请实施例对此不作具体限定。如图1所示，该方法包括：

101、构建第二三维虚拟场景。

其中，所述第二三维虚拟场景中设有第二手部模型以及第二背景模型；所述第二手部模型是依据第二真实手部创建的。

102、针对所述第二真实手部拍摄得到第二真实手部图像，并针对所述第二三维虚拟场景生成第二合成图像。

其中，所述第二真实手部图像对应的所述第二真实手部的姿势与所述第二合成图像对应的所述第二手部模型的姿势相同；且所述第二真实手部图像中所述第二真实手部的影像区域与所述第二合成图像中所述第二手部模型的影像区域的形状一致。

103、将从所述第二真实手部图像抠图得到的所述第二真实手部的影像贴合在所述第二合成图像中所述第二手部模型的影像区域，以得到第二初始合成手部图像。

104、将所述第二初始合成手部图像确定为生成对抗网络中生成器的训练输入。

105、将所述生成器输出的第二目标合成手部图像对应的光照梯度图以及所述第二合成图像对应的光照梯度图，确定为所述生成对抗网络中光照鉴别器的训练输入。

其中，所述光照鉴别器用于判断训练输入的真假；所述第二目标合成手部图像对应的光照梯度图为假样本；所述第二合成图像对应的光照梯度图为真样本。

106、将所述生成器输出的第二目标合成手部图像中手部影像和所述样本真实手部图像中真实手部影像确定为所述生成对抗网络中纹理鉴别器的训练输入。

其中，所述纹理鉴别器用于判断训练输入的真假；所述第二目标合成手部图像中手部影像为假样本；所述样本真实手部图像中真实手部影像为真样本。

107、以损失函数满足收敛条件为优化目标，对所述生成对抗网络进行网络优化。

其中，所述损失函数是根据所述光照鉴别器的训练输出以及所述纹理鉴别器的训练输出确定的；所述生成器用于生成用于手部姿势估计算法的训练数据。

上述101中，在一实例中，第二手部模型是依据第二真实手部创建的，也就是说，第二手部模型的形状与第二真实手部的形状相同。

在第二三维虚拟场景中，第二手部模型的姿势可由第二真实手部的姿势决定。具体地，可在第二三维虚拟场景中，根据第二真实手部的姿势，调整第二手部模型的姿势，以使第二手部模型的姿势与第二真实手部的姿势相同。

上述102中，为了方便获得第二真实手部图像和第二合成图像，在一种可实现的方案中，第二手部模型与第二真实手部保持联动关系，也就是说，第二手部模型的姿态与第二真实手部的姿态保持一致，且随着第二真实手部的姿态变化而变化。这样，后续可在同一时刻，以相对于第二真实手部的预设拍摄角度针对第二真实手部拍摄得到第二真实手部图像，并以相对于第二手部模型的虚拟拍摄角度针对第二三维虚拟场景生成第二合成图像；相对于第二真实手部的预设拍摄角度与相对于第二手部模型的虚拟拍摄角度相同；其中，相对于第二手部模型的虚拟拍摄角度指的是第二三维虚拟场景中虚拟相机拍摄得到第二合成图像所使用的拍摄角度。以这种方式获得的第二真实手部图像和第二合成图像，满足上述“第二合成图像对应的第二手部模型的姿势与第二真实手部图像对应的第二真实手部的姿势相同；且第二真实手部图像中第二真实手部的影像区域与第二合成图像中第二手部模型的影像区域的形状一致”的要求。

当然，除了按照上述方式来获取第二真实手部图像和第二合成图像以外，还可按照其他方式来获取，只需要保证获取到的第二真实手部图像和第二合成图像满足“第二合成图像对应的第二手部模型的姿势与第二真实手部图像对应的第二真实手部的姿势相同；且第二真实手部图像中第二真实手部的影像区域与第二合成图像中第二手部模型的影像区域的形状一致”这一要求即可。

需要说明的是，第二真实手部图像中第二真实手部的影像区域与第二合成图像中第二手部模型的影像区域的区域大小可相同或不相同，本申请实施例对此不作具体限定。

上述103中，第二初始合成手部图像中第二真实手部的影像区域与第二合成图像中第二手部模型的影像区域大小相同，位置也相同。

当第二真实手部图像中第二真实手部的影像区域与第二合成图像中第二手部模型的影像区域的区域大小相同时，直接将从第二真实手部图像抠图得到的第二真实手部的影像贴合在第二合成图像中第二手部模型的影像区域，即可得到第二初始合成手部图像。

当第二真实手部图像中第二真实手部的影像区域与第二合成图像中第二手部模型的影像区域的区域大小不相同时，可先根据第二真实手部图像中第二真实手部的影像区域与第二合成图像中第二手部模型的影像区域的尺寸比例，对从第二真实手部图像抠图得到的第二真实手部的影像进行缩放处理，得到第二真实手部的缩放后影像；缩放后影像与第二合成图像中第二手部模型的影像区域形状相同，大小相同；将缩放后影像贴合在第二合成图像中第二手部模型的影像区域，即可得到第二初始合成手部图像。

目前，手部姿态估计算法可基于单目视觉或多目视觉。其中，多目指的是两目及以上，例如：双目、三目，等等。在多目视觉场景下，第一真实手部图像、第一合成图像、第一初始合成手部图像以及第一目标合成手部图像均为多目图像。每个多目图像均包括：多个视角图，多个视角图中包括第一视角图，上述第一视角图为多个视角图中的任意一个。例如：双目图像包括左视角图和右视角图。那么，上述步骤103中“将从第二真实手部图像抠图得到的第二真实手部的影像贴合在第二合成图像中第二手部模型的影像区域，以得到第二初始合成手部图像”，具体可包括：

将从第二真实手部图像的第一视角图像抠图得到的第二真实手部的影像贴合在第二合成图像的第一视角图像中第二手部模型的影像区域，以得到第二初始合成手部图像的第一视角图。

上述104中，生成对抗网络（Generative adversarial network，GAN）包括生成器、光照鉴别器和纹理鉴别器。其中，生成器、光照鉴别器以及纹理鉴别器的内部结构将在下述实施例中详细介绍。

将第二初始合成手部图像输入至生成对抗网络中生成器，以由生成器进行混合，得到生成器输出的第二目标合成手部图像。

上述105中，可对生成器输出的第二目标合成手部图像进行处理，得到目标光照梯度图（也即所述第二目标合成手部图像对应的光照梯度图）。其中，目标光照梯度图用于展示第二目标合成手部图像中的光照强度梯度变化情况。

可对第二合成图像进行处理，得到参考光照梯度图（也即所述第二合成图像对应的光照梯度图）；其中，参考光照梯度图用于展示第二合成图像中光照强度梯度变化情况。需要说明的是，第二三维虚拟场景中配置有光照条件。

将生成器输出的第二目标合成手部图像对应的光照梯度图以及第二合成图像对应的光照梯度图，确定为生成对抗网络中光照鉴别器的训练输入；光照鉴别器用于判断训练输入的真假；第二目标合成手部图像对应的光照梯度图为假样本，也即该光照梯度图的训练标签为假；第二合成图像对应的光照梯度图为真样本，也即该光照梯度图的训练标签为真。注：三维虚拟场景中的光照强度梯度分布情况是非常贴近真实情况的，也就是说，第二合成图像对应的光照梯度图是非常贴近真实情况的，因此，可以将第二合成图像对应的光照梯度图视为真样本。

将生成器输出的第二目标合成手部图像对应的光照梯度图输入至生成对抗网络中光照鉴别器中，以由光照鉴别器判断第二目标合成手部图像对应的光照梯度图属于真的概率。

将第二合成图像对应的光照梯度图，输入至生成对抗网络中光照鉴别器，以由光照鉴别器判断第二合成图像对应的光照梯度图属于真的概率。

上述106中，第二目标合成手部图像中手部影像为假样本，也即该手部影像的训练标签为假；样本真实手部图像中真实手部影像为真样本，也即该真实手部影像的训练标签为真。

将生成器输出的第二目标合成手部图像中手部影像输入至生成对抗网络中纹理鉴别器，以由纹理鉴别器判断该手部影像属于真的概率。

将样本真实手部图像中真实手部影像，输入至生成对抗网络中纹理鉴别器，以由纹理鉴别器判断该真实手部影像属于真的概率。

上述107中，可根据光照鉴别器的训练输出以及纹理鉴别器的训练输出构建生成对抗网络的损失函数。

以损失函数满足收敛条件为优化目标，对生成对抗网络进行网络优化。

当损失函数满足收敛条件时，即可停止训练。注：生成对抗网络的训练可称之为对抗训练。

采用本申请实施例提供的网络训练方法能够使得生成器生成的目标合成手部图像的全局光照强度梯度变化情况贴近真实光照强度梯度变化情况，还能够使得生成器生成的目标合成手部图像中手部影像中的纹理、颜色贴近真实手部的纹理和颜色，也就是说，利用本申请实施例提供的网络训练方法训练得到的生成器能够生成比较真实的合成手部图像，利用该合成手部图像训练出的手部姿势估计算法在真实数据上具有较好的预测效果。并且，本训练方法中鉴别器无需依赖真实拍摄得到的包含真实手部和真实背景的真实图片，可降低制作各种不同光照、不同纹理、不同物体尺度的背景布置成本。

可选地，上述方法，还可包括：

108、分别对生成器输出的第二目标合成手部图像以及第二合成图像进行高斯模糊处理，得到所述第二目标合成手部图像对应的光照梯度图和所述第二合成图像对应的光照梯度图。

上述高斯模糊处理的具体实现原理以及具体实现步骤可参见现有技术，在此不再赘述。

可选地，上述102中“针对第二三维虚拟场景生成第二合成图像”，可采用如下步骤来实现：

1021、针对第二三维虚拟场景，生成多个第二合成图像。

其中，多个样本合成图像中任意两个第二合成图像所对应的光照、纹理和尺度中至少存在一项不同。上述纹理指的是三维虚拟场景中模型纹理，尺度指的是三维虚拟场景中模型尺度大小。

这样，利用具有不同光照、不同纹理、不同尺度的合成图像来训练生成对抗网络，可以使得生成对抗网络在训练阶段能够学习到有关光照、纹理、尺度等方面的信息，这样有助于生成器生成具有不同光照、不同纹理、不同尺度的目标手部合成图像，以用于训练手部姿势估计算法。

在另一实例中，第二真实手部可佩戴有手饰；第二手部模型可佩戴有根据手饰创建的手饰模型。需要说明的是，后续抠图时，将手饰作为手部的一部分进行抠图，也就是扣除的手部影像中包含手饰影像的。手部模型的影像区域可理解为是手部模型和其上佩戴的手饰模型的结合体的影像区域。

采用本申请实施例提供的技术方案可使得生成对抗网络在训练阶段能够学习到佩戴手饰的手部特征，这样有助于生成器生成手部佩戴有手饰的目标手部合成图像，以用于训练手部姿势估计算法。

可选地，生成器中涉及离散小波变换模块、基础生成器以及离散小波逆变换模块；

上述方法，还可包括：

109、利用离散小波变换模块对第二初始合成手部图像进行离散小波变换，得到第二初始合成手部图像对应的高频图和低频图。

110、将低频图输入至基础生成器，以得到目标低频图。

111、利用离散小波逆变换模块对目标低频图与高频图进行离散小波逆变换，得到第二目标合成手部图像。

低频图就是灰度变化比较小的图，可称为风格图；高频图就是灰度变化比较大的图像，可称为内容图。

在一种可实现的方案中，生成器包括：U-Net网络结构；U-Net网络结构中残差模块中包括自校准部分卷积层。使用自校准部分卷积层的目的是希望限制信息流动，只让有效的信息向前，摒弃和场景不相恰的信息。

上述生成对抗网络训练结束后，即可用于生成训练数据集。图2示出了本申请一实施例提供的训练数据集的生成方法的流程示意图。该方法的执行主体可以为客户端，也可以为服务端。其中，客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作***中的工具软件等，本申请实施例对此不作限定。该终端可以为包括手机、平板电脑、车载终端设备等任意终端设备。其中，服务端可以是常用服务器、云端或虚拟服务器等，本申请实施例对此不作具体限定。如图2所示，该方法包括：

201、针对第一真实手部拍摄得到第一真实手部图像并针对第一三维虚拟场景生成第一合成图像。

其中，所述第一三维虚拟场景中包括第一背景模型。

202、将从所述第一真实手部图像抠图得到的所述第一真实手部的影像贴合在所述第一合成图像中，得到第一初始合成手部图像。

203、将所述第一初始合成手部图像输入至训练过的生成对抗网络中的生成器，以得到第一目标合成手部图像。

204、根据所述第一目标合成手部图像以及所述第一真实手部图像对应的所述第一真实手部的姿势，确定用于训练手部姿势估计算法的训练数据集。

训练过的手部姿势估计算法可应用于MR（Mixed Reality，混合现实）眼镜中，以对佩戴用户的手部姿势进行估计，并根据手部姿势估计结果执行后续操作。

上述201中，在一实例中，第一三维虚拟场景中可以不存在手部模型。这样，后续步骤202中，第一真实手部的影像可贴合在第一合成图像中的任意区域，得到第一初始合成手部图像。

在另一实例中，第一三维虚拟场景中可以存在手部模型。具体地，第一三维虚拟场景中还设有第一手部模型；第一手部模型是依据第一真实手部创建的；第一真实手部图像对应的第一真实手部的姿势与第一合成图像对应的一手部模型的姿势相同；且第一真实手部图像中第一真实手部的影像区域与第一合成图像中第一手部模型的影像区域的形状一致、大小可一致或不一致。第一真实手部图像对应的第一真实手部的姿势指的是拍摄得到第一真实手部图像时第一真实手部的姿势。第一合成图像对应的一手部模型的姿势指的是第一手部模型在生成第一合成图像时的姿态。在第一三维虚拟场景中，第一手部模型可与第一真实手部保持联动关系。

“针对第一真实手部拍摄得到第一真实手部图像并针对第一三维虚拟场景生成第一合成图像”的具体实现可参照上述各实施例中“针对第二真实手部拍摄得到第二真实手部图像并针对第二三维虚拟场景生成第二合成图像”的具体实现过程，在此不再赘述。

上述202中，“将从第一真实手部图像抠图得到的第一真实手部的影像贴合在第一合成图像中，得到第一初始合成手部图像”的具体实现可参照上述各实施例中“将从第二真实手部图像抠图得到的第二真实手部的影像贴合在第二合成图像中，得到第二初始合成手部图像”的具体实现过程，在此不再赘述。

上述203中，“将第一初始合成手部图像输入至训练过的生成对抗网络中的生成器，以得到第一目标合成手部图像”的具体实现可参照上述各实施例中“将第二初始合成手部图像输入至生成对抗网络中的生成器，以得到第二目标合成手部图像”的具体实现过程，在此不再赘述。

上述204中，将第一目标合成手部图像以及第一真实手部图像对应的第一真实手部的姿势，作为用于训练手部姿势估计算法的一个训练数据。

可选地，上述201中“针对第一三维虚拟场景生成第一合成图像”，可采用如下步骤来实现：

2011、针对第一三维虚拟场景，生成多个第一合成图像。

多个第一合成图像中任意两个第一合成图像所对应的光照、纹理和尺度中至少存在一项不同。

可选地，第一真实手部图像、第一合成图像、第一初始合成手部图像以及第一目标合成手部图像均为多目图像。有关多目图像的具体处理细节可参考上述各实施例中相应内容，在此不再赘述。

下面将对本申请实施例提供的技术方案进行举例介绍：

本方案包含了三种不同的场景：环境光照变化，手部纹理变化及物体尺度变化。三种场景所需技术相通。

原理与思路简述：

第二合成图像数据集以Blender生成的手部模型和背景模型为定量，以光照、尺度、纹理及手饰等为变量进行组合得到。

主要组合分为场景变换合成和物品添加合成。

其中，场景变换合成的主要逻辑是：

通过以涵盖不同光照、不同尺度和不同纹理的三维绘制软件Blender的三维虚拟场景所生成的双目图像及深度图像以及针对真实手部拍摄的真实手部图像作为为基准真相（ground truth）；通过深度学习网络学习生成器的输入图片和生成器生成的合成图像之间的映射，以及输入图片的深度图与合成图像的深度图之间的映射。生成对抗网络主要以Pix2Pix (Image-to-Image Translation，图像翻译)网络为主要的主干网络（backbone），其中生成器为类似于U-Net的网络架构，第一阶段为粗合成，旨在学习一个大致的场景条件，第二阶段为细合成，旨在进一步细化合成效果。判别器为一个四层递进提取全局表示的补丁GAN（PatchGAN）中的判别器结构，旨在能够在全局的结构上能够获得较好的感知。

其中，物品添加合成的主要逻辑是：

其流程和场景变换相似，由于添加物体需要和场景条件相融合，因此在粗合成过程中U-Net底部残差模块采用的是自校准部分卷积搭建，旨在希望限制信息流动，只让有效的信息向前，摒弃和场景不相恰的信息。同时为避免特征分布不被破坏，删除残差模块中的批标准化层（BatchNormalization），且在连接上采样层前使用空洞卷积扩大感受野，使其跳过局部最优解。在全局表现上获得更好的效果在细合成中，首先通过卷积计算合成物体和被合成物体之间的余弦相似度，并在相似度图上做空间和通道维度上的软最大值（softmax）处理，之后再使用背景对相似度图转置卷积来实现整个细组合过程，其主要思想是如果添加物体上的像素和背景相似度越高，则该像素对转置后的背景像素位置处的权重越高。

GAN中的生成器和鉴别器的损失函数除了拉普拉斯金字塔损失、SSIM（StructuralSimilarity，结构相似性）损失、VGG19（Visual Geometry Group，视觉几何组）损失还添加了特征匹配损失，该损失是为了使得生成图像和真实图像在上述判别网络中特征中心尽可能的接近，已生成更好的图像。同时生成对抗网络还与一个简单的深度估计网络共同学习，深度估计网络具体可以为U-Net网络结构。其原因为，改变光照、纹理，不会影响深度图，因此，深度估计网络基于生成器生成的第二目标合成图像所估计的深度图和基准真相中的第二合成图像对应的深度图应该尽可能的相似，即还结合根据深度估计网络基于生成器生成的第二目标合成图像所估计的深度图和基准真相中的第二合成图像对应的深度图之间的差异，来确定深度损失；生成对抗网络的损失函数还可包括该深度损失。

实现流程：

步骤一：使用开发引擎Unity3D或其他三维建模工具构建三维手部模型和虚拟背景模型；

步骤二：将上述生成的三维手部模型和虚拟背景模型导入Blender中，获取各模型的具体坐标，同时将该坐标转为相应的世界坐标系。

步骤三：在上述三维手部模型和虚拟背景模型的组合场景上方搭建2台虚拟相机，分别为左相机和右相机，设定焦距、感光元件长和宽/>和/>以及基线Baseline，并计算出相应的相机内参和外参；以确定相机位置，方便后续将世界坐标系转为以各个相机为原点的相机坐标系；

步骤四：将上述得到的相机的Blender外参和内参转换为开源计算机视觉库的内参和外参；

步骤五：两台相机分别利用投影变换将Blender中三维虚拟场景输出为二维图像，并利用Blender获取二维图像上的点到相机之间的距离，即每个图像z通道（深度）的值，从而获得左右相机生成的RGB图像对和深度图对；

步骤六：由上述生成的深度图转化为视差图，主要公式为：

（1）

其在，P为深度，d为视差，B为两台相机的基线长度，f为像素单位的相机焦距，x和y分别为左右视图主点的列坐标。

步骤七：设置两个相机的拍摄轨道，并通过连接所标注的手掌上的21个预设关键点，以通过真实相机拍摄真实手部动作来决定Blender中手部模型的姿势变化；其中，真实手部的21个预设关键点处贴设有感应贴片，根据这21个预设关键点出贴设的感应贴片确定真实手部的姿态，进而根据真实手部的姿态来调整Blender中手部模型的姿势。

步骤八：改变Blender中三维虚拟场景中的光照（色温为2500K, 3500K, 4500K,5500K 和 6500K，光照方向为N、NE、E、SE、S、SW、W、NW）、模型纹理（男人手部纹理、女人手部纹理、儿童手部纹理）和/或模型尺度（将模型等比例缩放），或者更换真实手部，或者更换真实手部佩戴的手饰，并重复上述操作，以获得包含大量的深度图、视差图和RGB图像对的双目手部基准数据集。注：N表示北，S表示南，W表示西，E表示东，NE表示东北 NW表示西北，SE表示东南，SW表示西南。

步骤九：上述双目手部基准数据集通过条件GAN中的生成器粗组合生成大概的场景合成图，通过细组合输出进一步组合效果，并通过条件GAN中的光照判别器和纹理鉴别器判别生成图像是否符合真实图像分布，损失函数为：

（2）

其中为条件GAN的损失函数，/>为特征匹配的损失函数，/>为SSIM损失，/>为拉普拉斯金字塔损失；/>为VGG19损失。

步骤十：整体的模型训练可使用余弦退火算法，具体可采用优化器Adam，学习率初始值设为0.001，衡量指标为SSIM、PSNR（Peak Signal to Noise Ratio，峰值信噪比）和MSE（Mean Square Error，均方误差）等。

本申请目标达到的技术效果：利用真实手部图像和虚拟背景，与光照、尺度和纹理等变量进行排列组合，使得生成图像与真实图像不存在数据鸿沟，能够在使用该合成数据训练之后能够达到和真实数据集相仿的效果；同时该方法能够不需要类似于真实数据集那样需要定制设备和浪费大量的人力物力。由于采用的合成与真实相融合的方法，可以控制亮度、尺度、纹理、遮挡物等变量，使得利用该合成数据集训练的模型可以针对上述变量的鲁棒性。最后，本文方法因为可以使用真实手部和虚拟环境进行很好的融合生成，因此可以拥有更多的自然的手部姿势，从而解决依赖姿态库生成的合成图像中手部姿势变形、扭曲等不真实的问题。

图3示出了本申请一实施例提供的电子设备的结构示意图。如图3所示，所述电子设备包括存储器1101以及处理器1102。存储器1101可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static RandomAccess Memory，SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable read only memory)，EEPROM），可擦除可编程只读存储器（Electrical Programmable Read Only Memory，EPROM），可编程只读存储器（Programmable Read Only Memory，PROM），只读存储器（Read Only Memory，ROM），磁存储器，快闪存储器，磁盘或光盘。

所述存储器1101，用于存储程序；

所述处理器1102，与所述存储器1101耦合，用于执行所述存储器1101中存储的所述程序，以实现上述各方法实施例提供的方法。

进一步，如图3所示，电子设备还包括：通信组件1103、显示器1104、电源组件1105、音频组件1106等其它组件。图3中仅示意性给出部分组件，并不意味着电子设备只包括图3所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现上述各方法实施例提供的方法的步骤或功能。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM（Read Only Memory，只读存储器）/RAM（RandomAccess Memory，随机存取存储器）、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种训练数据集的生成方法，其特征在于，包括：

根据所述第一目标合成手部图像以及所述第一真实手部图像对应的所述第一真实手部的姿势，确定用于训练手部姿势估计算法的训练数据集；

构建第二三维虚拟场景；所述第二三维虚拟场景中设有第二手部模型以及第二背景模型；所述第二手部模型是依据第二真实手部创建的；

针对所述第二真实手部拍摄得到第二真实手部图像，并针对所述第二三维虚拟场景生成第二合成图像；所述第二合成图像对应的所述第二手部模型的姿势与所述第二真实手部图像对应的所述第二真实手部的姿势相同；且所述第二真实手部图像中所述第二真实手部的影像区域与所述第二合成图像中所述第二手部模型的影像区域的形状一致；

将从所述第二真实手部图像抠图得到的所述第二真实手部的影像贴合在所述第二合成图像中所述第二手部模型的影像区域，以得到第二初始合成手部图像；

将所述第二初始合成手部图像确定为所述生成对抗网络中生成器的训练输入；

将所述生成器输出的第二目标合成手部图像对应的光照梯度图以及所述第二合成图像对应的光照梯度图，确定为所述生成对抗网络中光照鉴别器的训练输入；所述光照鉴别器用于判断训练输入的真假；所述第二目标合成手部图像对应的光照梯度图为假样本；所述第二合成图像对应的光照梯度图为真样本；

将所述生成器输出的第二目标合成手部图像中手部影像和所述样本真实手部图像中真实手部影像确定为所述生成对抗网络中纹理鉴别器的训练输入；所述纹理鉴别器用于判断训练输入的真假；所述第二目标合成手部图像中手部影像为假样本；所述样本真实手部图像中真实手部影像为真样本；

以损失函数满足收敛条件为优化目标，对所述生成对抗网络进行网络优化；所述损失函数是根据所述光照鉴别器的训练输出以及所述纹理鉴别器的训练输出确定的。

2.根据权利要求1所述的方法，其特征在于，还包括：

分别对所述生成器输出的第二目标合成手部图像以及所述第二合成图像进行高斯模糊处理，得到所述第二目标合成手部图像对应的光照梯度图和所述第二合成图像对应的光照梯度图。

3.根据权利要求1所述的方法，其特征在于，针对所述第二三维虚拟场景生成第二合成图像，包括：

针对所述第二三维虚拟场景，生成多个第二合成图像；

所述多个第二合成图像中任意两个第二合成图像所对应的光照、纹理和尺度中至少存在一项不同。

4.根据权利要求1所述的方法，其特征在于，所述第二真实手部佩戴有手饰；所述第二手部模型佩戴有根据所述手饰创建的手饰模型。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述生成器中涉及离散小波变换模块。

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述生成器包括：U-Net网络结构；所述U-Net网络结构中残差模块中包括自校准部分卷积层。

7.根据权利要求1至4中任一项所述的方法，其特征在于，所述第一三维虚拟场景中还设有第一手部模型；所述第一手部模型是依据所述第一真实手部创建的；所述第一真实手部图像对应的所述第一真实手部的姿势与所述第一合成图像对应的所述一手部模型的姿势相同；且所述第一真实手部图像中所述第一真实手部的影像区域与所述第一合成图像中所述第一手部模型的影像区域的形状一致；

将从所述第一真实手部图像抠图得到的所述第一真实手部的影像贴合在所述第一合成图像中，得到第一初始合成手部图像，包括：

将从所述第一真实手部图像抠图得到的所述第一真实手部的影像贴合在所述第一合成图像中所述第一手部模型的影像区域上，得到第一初始合成手部图像。

8.根据权利要求1至4中任一项所述的方法，其特征在于，所述第一真实手部图像、所述第一合成图像、所述第一初始合成手部图像以及所述第一目标合成手部图像均为多目图像。

9.一种电子设备，其特征在于，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以实现权利要求1至8中任一项所述的方法。