CN110929616B

CN110929616B - 一种人手识别方法、装置、电子设备和存储介质

Info

Publication number: CN110929616B
Application number: CN201911114483.7A
Authority: CN
Inventors: 张�雄
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2023-07-04
Anticipated expiration: 2039-11-14
Also published as: CN110929616A

Abstract

本公开关于一种人手识别方法、装置、电子设备和存储介质，方法包括：通过人手识别网络模型的特征提取器对待检测图像进行特征提取，得到图像特征；通过多任务分支网络层对图像特征进行处理，得到第一边缘特征图、第一区域特征图，以及第一关键点特征图；通过回归层对第一边缘特征图、第一区域特征图与第一关键点特征图的相加结果进行回归，得到表示待检测图像中人手姿态的第一姿态参数和表示待检测图像中人手形状的第一形状参数；基于第一姿态参数和第一形状参数，通过MANO网络生成待检测图像中人手的三维模型。采用本公开，通过一个网络模型识别出人手边缘、人手区域、二维人手关键点，并得到人手的三维模型，能够提高人手识别的效率。

Description

一种人手识别方法、装置、电子设备和存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种人手识别方法、装置、电子设备和存储介质。

背景技术

随着互联网技术的发展，对图像中的人手进行识别也应用越来越广泛，比如应用在：虚拟/增强现实、人机交互、动作识别、辅助驾驶等领域。

对图像中的人手进行识别包括多个识别任务，包括识别出图像中的人手边缘、识别出图像中的人手区域、识别出图像中的二维人手关键点，及对图像中的人手进行三维建模。目前，现有技术中为了完成识别人手边缘、识别人手区域、识别二维人手关键点，及对图像中的人手进行三维建模的任务，通常需要对每个识别任务单独建立一个网络模型进行识别。例如，分别通过人手边缘识别网络模型识别图像中的人手边缘，通过人手区域识别网络模型识别图像中的人手区域，通过二维人手关键点识别网络模型识别图像中的二维人手关键点，通过三维重建网络模型生成图像中的人手的三维模型。

可见，相关技术中，在进行人手识别时需要构建多个网络模型，导致人手识别的效率较低。

发明内容

本公开提供一种人手识别方法、装置、电子设备和存储介质，通过一个网络模型识别出图像中的人手边缘、人手区域、二维人手关键点，并生成图像中的人手的三维模型，能够提高人手识别的效率。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种人手识别方法，包括：

将包含人手的待检测图像输入至预先训练的人手识别网络模型，所述人手识别网络模型包括特征提取器、多任务分支网络层、回归层、MANO网络；

通过所述特征提取器对所述待检测图像进行特征提取，得到所述待检测图像的图像特征；

通过所述多任务分支网络层对所述图像特征进行处理，得到表示所述待检测图像中人手边缘的第一边缘特征图、表示所述待检测图像中人手区域的第一区域特征图，以及表示所述待检测图像中二维人手关键点的第一关键点特征图；

通过所述回归层对所述第一边缘特征图、所述第一区域特征图与所述第一关键点特征图的相加结果进行回归，得到表示所述待检测图像中人手姿态的第一姿态参数和表示所述待检测图像中人手形状的第一形状参数；

基于所述第一姿态参数和所述第一形状参数，通过所述MANO网络生成所述待检测图像中人手的三维模型。

可选的，所述多任务分支网络层包括编码器、边缘解码器、区域解码器和热图解码器；

所述通过所述多任务分支网络层对所述图像特征进行处理，得到表示所述待检测图像中人手边缘的第一边缘特征图、表示所述待检测图像中人手区域的第一区域特征图，以及表示所述待检测图像中二维人手关键点的第一关键点特征图，包括：

通过所述编码器对所述图像特征进行编码，得到所述待检测图像的高层图像语义信息；

通过所述边缘解码器，对所述高层图像语义信息进行解码，得到表示所述待检测图像中人手边缘的第一边缘特征图；通过所述区域解码器，对所述高层图像语义信息进行解码，得到表示所述待检测图像中人手区域的第一区域特征图；通过所述热图解码器，对所述高层图像语义信息进行解码，得到表示所述待检测图像中二维人手关键点的第一关键点特征图。

可选的，所述人手识别网络模型还包括微分渲染层；

在所述通过所述多任务分支网络层对所述图像特征进行处理，得到表示所述待检测图像中人手边缘的第一边缘特征图、表示所述待检测图像中人手区域的第一区域特征图，以及表示所述待检测图像中二维人手关键点的第一关键点特征图之后，所述方法还包括：

通过所述回归层对所述第一边缘特征图、所述第一区域特征图与所述第一关键点特征图的相加结果进行回归，得到第一相机参数；

基于所述第一相机参数，通过所述微分渲染层对所述待检测图像中人手的三维模型进行投影，得到第一人手投影信息，其中，所述第一人手投影信息包括以下至少之一：所述待检测图像投影的人手区域、所述待检测图像投影的二维人手关键点、所述待检测图像投影的三维人手关键点。

可选的，所述人手识别网络模型还包括微分渲染层；

所述人手识别网络模型的训练步骤包括：

将包含人手的样本图像输入至初始的人手识别网络模型，得到表示所述样本图像中人手边缘的第二边缘特征图、表示所述样本图像中人手区域的第二区域特征图和表示所述样本图像中二维人手关键点的第二关键点特征图；其中，所述样本图像具有标注的人手区域、二维人手关键点和三维人手关键点；

通过所述回归层对所述第二边缘特征图、所述第二区域特征图与所述第二关键点特征图的相加结果进行回归，得到第二相机参数、表示所述样本图像中人手姿态的第二姿态参数和表示所述样本图像中人手形状的第二形状参数；

基于所述第二姿态参数和所述第二形状参数，通过所述MANO网络生成所述样本图像中人手的三维模型，作为样本三维模型；

基于所述第二相机参数，通过所述微分渲染层对所述样本三维模型进行投影，得到第二人手投影信息，其中，所述第二人手投影信息包括以下至少之一：所述样本图像投影的人手区域、所述样本图像投影的二维人手关键点、所述样本图像投影的三维人手关键点；

根据所述第二人手投影信息与标注的所述样本图像对应的人手信息之间的差异，对所述人手识别网络模型的模型参数进行训练；

当所述人手识别网络模型收敛时，得到训练好的人手识别网络模型。

可选的，在所述将包含人手的样本图像输入至初始的人手识别网络模型，得到表示所述样本图像中人手边缘的第二边缘特征图、表示所述样本图像中人手区域的第二区域特征图和表示所述样本图像中二维人手关键点的第二关键点特征图之后，所述方法还包括：

基于所述第二区域特征图，预测所述样本图像中的人手区域；

基于所述第二关键点特征图，预测所述样本图像中的二维人手关键点；

所述根据所述第二人手投影信息与标注的所述样本图像对应的人手信息之间的差异，对所述人手识别网络模型的模型参数进行训练，包括：

结合所述第二人手投影信息与标注的所述样本图像对应的人手信息之间的差异，以及预测人手信息与标注的所述样本图像对应的人手信息之间的差异，对所述人手识别网络模型的模型参数进行训练，其中，所述预测人手信息包括预测的所述样本图像中的人手区域和/或预测的所述样本图像中的二维人手关键点。

根据本公开实施例的第二方面，提供一种人手识别装置，包括：

第一处理模块，被配置为执行将包含人手的待检测图像输入至预先训练的人手识别网络模型，所述人手识别网络模型包括特征提取器、多任务分支网络层、回归层、MANO网络；

提取模块，被配置为执行通过所述特征提取器对所述待检测图像进行特征提取，得到所述待检测图像的图像特征；

第二处理模块，被配置为执行通过所述多任务分支网络层对所述图像特征进行处理，得到表示所述待检测图像中人手边缘的第一边缘特征图、表示所述待检测图像中人手区域的第一区域特征图，以及表示所述待检测图像中二维人手关键点的第一关键点特征图；

回归模块，被配置为执行通过所述回归层对所述第一边缘特征图、所述第一区域特征图与所述第一关键点特征图的相加结果进行回归，得到表示所述待检测图像中人手姿态的第一姿态参数和表示所述待检测图像中人手形状的第一形状参数；

生成模块，被配置为执行基于所述第一姿态参数和所述第一形状参数，通过所述MANO网络生成所述待检测图像中人手的三维模型。

所述第二处理模块，具体被配置为执行通过所述编码器对所述图像特征进行编码，得到所述待检测图像的高层图像语义信息；

可选的，所述人手识别网络模型还包括微分渲染层；

所述装置还包括：

第三处理模块，被配置为执行通过所述回归层对所述第一边缘特征图、所述第一区域特征图与所述第一关键点特征图的相加结果进行回归，得到第一相机参数；

可选的，所述人手识别网络模型还包括微分渲染层；

所述装置还包括：

训练模块，被配置为执行将包含人手的样本图像输入至初始的人手识别网络模型，得到表示所述样本图像中人手边缘的第二边缘特征图、表示所述样本图像中人手区域的第二区域特征图和表示所述样本图像中二维人手关键点的第二关键点特征图；其中，所述样本图像具有标注的人手区域、二维人手关键点和三维人手关键点；

可选的，所述装置还包括：

预测模块，被配置为执行基于所述第二区域特征图，预测所述样本图像中的人手区域；

所述训练模块，具体被配置为执行结合所述第二人手投影信息与标注的所述样本图像对应的人手信息之间的差异，以及预测人手信息与标注的所述样本图像对应的人手信息之间的差异，对所述人手识别网络模型的模型参数进行训练，其中，所述预测人手信息包括预测的所述样本图像中的人手区域和/或预测的所述样本图像中的二维人手关键点。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上第一方面所述的人手识别方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上第一方面所述的人手识别方法。

根据本申请实施例的第五方面，提供一种计算机程序产品，当所述计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行如上第一方面所述的人手识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果：通过人手识别网络模型的特征提取器对待检测图像进行特征提取，得到图像特征，并通过多任务分支网络层对图像特征进行处理，得到第一边缘特征图、第一区域特征图，以及第一关键点特征图，进而，通过回归层对第一边缘特征图、第一区域特征图与第一关键点特征图的相加结果进行回归，得到表示待检测图像中人手姿态的第一姿态参数和表示待检测图像中人手形状的第一形状参数，然后，基于第一姿态参数和第一形状参数，通过MANO网络生成待检测图像中人手的三维模型。

基于上述处理，通过一个网络模型（即本公开实施例中的人手识别网络模型）就可以识别出图像中的人手边缘、人手区域、二维人手关键点，并生成图像中的人手的三维模型，能够提高人手识别的效率。另外，采用多任务分支网络层能够充分利用图像已标注的信息，提高人手识别网络模型的泛化性能和人手识别结果的精确度，且由于人手识别网络模型中包含MANO网络，可以避免二义性问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种人手识别方法的流程图。

图2是根据一示例性实施例示出的一种人手识别网络模型的结构示意图。

图3是根据一示例性实施例示出的一种训练人手识别网络模型方法的流程图。

图4是根据一示例性实施例示出的一种人手识别装置的结构图。

图5是根据一示例性实施例示出的一种用于识别人手的电子设备的框图

图6是根据一示例性实施例示出的一种用于识别人手的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种人手识别方法的流程图，如图1所示，该人手识别方法可以应用于电子设备，电子设备可以为终端（例如：手机、计算机或者平板电脑）或者服务器。该方法可以包括以下步骤：

在步骤S101中，将包含人手的待检测图像输入至预先训练的人手识别网络模型。

其中，人手识别网络模型可以包括特征提取器、多任务分支网络层、回归层、MANO网络。待检测图像可以为RGB（Red、Green、Blue，红、绿、蓝）图像。

在步骤S102中，通过特征提取器对待检测图像进行特征提取，得到待检测图像的图像特征。

其中，特征提取器可以由卷积层构成。

一种实施方式中，电子设备可以通过由卷积层构成的特征提取器对待检测图像进行卷积操作，提取待检测图像的图像特征，待检测图像的图像特征可以为尺寸比较小的特征图，以降低网络模型的计算量。

在步骤S103中，通过多任务分支网络层对图像特征进行处理，得到表示待检测图像中人手边缘的第一边缘特征图、表示待检测图像中人手区域的第一区域特征图，以及表示待检测图像中二维人手关键点的第一关键点特征图。

一种实施方式中，多任务分支网络层可以包括多个网络层，电子设备可以基于多个网络层分别对待检测图像的图像特征进程处理，得到表示待检测图像中人手边缘的特征图（即本公开实施例中的第一边缘特征图）、表示待检测图像中人手区域的特征图（即本公开实施例中的第一区域特征图），以及表示待检测图像中二维人手关键点的特征图（即本公开实施例中的第一关键点特征图）。

可选的，多任务分支网络层包括可以编码器、边缘解码器（Edge Decoder）、区域解码器（Mask Decoder）和热图解码器（Heat-map Decoder），S103可以包括以下步骤：

步骤一，通过编码器对图像特征进行编码，得到待检测图像的高层图像语义信息。

其中，编码器（Encoder），解码器（decoder）是深度学习领域中的一个标准作法，编码器的作用在于提取图像的高层图像语义信息。

步骤二，通过边缘解码器，对高层图像语义信息进行解码，得到表示待检测图像中人手边缘的第一边缘特征图；通过区域解码器，对高层图像语义信息进行解码，得到表示待检测图像中人手区域的第一区域特征图；通过热图解码器，对高层图像语义信息进行解码，得到表示待检测图像中二维人手关键点的第一关键点特征图。

一种实施方式中，边缘解码器可以对待检测图像的高层图像语义信息进行解码，得到一个尺寸为256×256的用于预测待检测图像中人手边缘的边缘特征图。区域解码器可以对待检测图像的高层图像语义信息进行解码，得到一个尺寸为256×256的用于预测待检测图像中人手区域的区域特征图。热图解码器可以对待检测图像的高层图像语义信息进行解码，得到多个尺寸为256×256的用于预测待检测图像中二维人手关键点的关键点特征图。

在步骤S104中，通过回归层对第一边缘特征图、第一区域特征图与第一关键点特征图的相加结果进行回归，得到表示待检测图像中人手姿态的第一姿态参数和表示待检测图像中人手形状的第一形状参数。

其中，回归层可以由卷积层和全连接层构成。

一种实施方式中，电子设备可以对第一边缘特征图、第一区域特征图与第一关键点特征图进行叠加，然后，通过由卷积层和全连接层构成的回归层对叠加结果进行回归，得到用于表示待检测图像中人手姿态的参数（即本公开实施例中的第一姿态参数），以及用于表示待检测图像中人手形状的参数（即本公开实施例中的第一形状参数）。

在步骤S105中，基于第一姿态参数和第一形状参数，通过MANO网络生成待检测图像中人手的三维模型。

其中，MANO网络是由Max Planck Perceiving System（最大普朗克感知***）提出的一个人手参数化模型，MANO网络可以根据人手姿态的参数和人手形状的参数，生成人手的三维模型。

本公开的实施例提供的人手识别方法，仅通过一个网络模型（即人手识别网络模型）就可以识别出图像中的人手边缘、人手区域、二维人手关键点，并生成图像中的人手的三维模型，能够提高人手识别的效率。另外，由于采用了多任务分支网络层，进而，能够充分利用图像已标注的信息，提高人手识别网络模型的泛化性能，相应的，也能够提高人手识别结果的精确度，且由于采用MANO网络生成人手的三维模型，可以解决传统方法无法避免的二义性问题，即图像中人手被遮挡的部分无法准确映射到三维空间的问题。

可选的，人手识别网络模型还包括微分渲染层，在S103之后，该方法还可以包括以下步骤：

步骤一，通过回归层对第一边缘特征图、第一区域特征图与第一关键点特征图的相加结果进行回归，得到第一相机参数。

一种实施方式中，电子设备对第一边缘特征图、第一区域特征图与第一关键点特征图的叠加结果进行回归时，还可以得到对应的相机参数（即本公开实施例中的第一相机参数）。

步骤二，基于第一相机参数，通过微分渲染层对待检测图像中人手的三维模型进行投影，得到第一人手投影信息。

其中，第一人手投影信息包括以下至少之一：待检测图像投影的人手区域、待检测图像投影的二维人手关键点、待检测图像投影的三维人手关键点。

一种实施方式中，在得到第一相机参数后，电子设备可以基于第一相机参数，通过微分渲染层对待检测图像中人手的三维模型进行投影。

根据实际需要，电子设备可以投影得到待检测图像中的人手区域、待检测图像中的二维人手关键点和待检测图像中的三维人手关键点的任一信息或任意信息组合。

参见图2，图2是根据一示例性实施例示出的一种人手识别网络模型的结构示意图。

图2中，人手识别网络模型包括特征提取器、多任务分支网络层、回归层、MANO网络、微分渲染层。

多任务分支网络层可以包括编码器、边缘解码器、区域解码器和热图解码器。

回归层输出的θmesh表示姿态参数和形状参数，θcam表示相机参数。

可选的，参见图3，图3是根据一示例性实施例示出的一种训练人手识别网络模型方法的流程图，该方法可以包括以下步骤：

在步骤S301中，将包含人手的样本图像输入至初始的人手识别网络模型，得到表示样本图像中人手边缘的第二边缘特征图、表示样本图像中人手区域的第二区域特征图和表示样本图像中二维人手关键点的第二关键点特征图。

其中，样本图像具有标注的人手区域、二维人手关键点和三维人手关键点。

一种实施方式中，电子设备可以获取图2所示的初始的人手识别网络模型，并将已标注人手区域、二维人手关键点和三维人手关键点的样本图像输入该人手识别网络模型，通过特征提取器和多任务分支网络层，可以得到表示样本图像中人手边缘的特征图（即本公开实施例中的第二边缘特征图）、表示样本图像中人手区域的特征图（即本公开实施例中的第二区域特征图）和表示样本图像中二维人手关键点的特征图（即本公开实施例中的第二关键点特征图）。

在步骤S302中，通过回归层对第二边缘特征图、第二区域特征图与第二关键点特征图的相加结果进行回归，得到第二相机参数、表示样本图像中人手姿态的第二姿态参数和表示样本图像中人手形状的第二形状参数。

一种实施方式中，电子设备可以对第二边缘特征图、第二区域特征图与第二关键点特征图进行叠加，然后，通过由卷积层和全连接层构成的回归层对叠加结果进行回归，得到用于表示样本图像中人手姿态的参数（即本公开实施例中的第二姿态参数）、用于表示样本图像中人手形状的参数（即本公开实施例中的第二形状参数），以及相机参数（即本公开实施例中的第二相机参数）。

在步骤S303中，基于第二姿态参数和第二形状参数，通过MANO网络生成样本图像中人手的三维模型，作为样本三维模型。

生成样本三维模型的方法，与上述实施例中生成待检测图像中人手的三维模型的方法类似，不再赘述。

在步骤S304中，基于第二相机参数，通过微分渲染层对样本三维模型进行投影，得到第二人手投影信息。

其中，第二人手投影信息包括以下至少之一：样本图像投影的人手区域、样本图像投影的二维人手关键点、样本图像投影的三维人手关键点。

生成第二人手投影信息的方法，与上述实施例中生成第一人手投影信息的方法类似，不再赘述。

在步骤S305中，根据第二人手投影信息与标注的样本图像对应的人手信息之间的差异，对人手识别网络模型的模型参数进行训练。

其中，对样本三维模型进行投影得到的人手区域与样本图像标注的人手区域之间的差异，可以称为第一差异。对样本三维模型进行投影得到的二维人手关键点与样本图像标注的二维人手关键点之间的差异，可以称为第二差异。对样本三维模型进行投影得到的三维人手关键点与样本图像标注的三维人手关键点之间的差异，可以称为第三差异。

一种实施方式中，电子设备可以根据第一差异、第二差异和第三差异中任一差异，或者，根据任意差异的组合，对人手识别网络模型的模型参数进行训练。

在步骤S306中，当人手识别网络模型收敛时，得到训练好的人手识别网络模型。

可选的，为了进一步提高人手识别网络模型的准确度，该方法还可以包括以下步骤：基于第二区域特征图，预测样本图像中的人手区域，基于第二关键点特征图，预测样本图像中的二维人手关键点。

一种实施方式中，在通过多任务分支网络层得到样本图像的第二区域特征图和第二关键点特征图后，电子设备可以基于第二区域特征图，预测样本图像中的人手区域，并基于第二关键点特征图，预测样本图像中的二维人手关键点。

其中，第二区域特征图、第二关键点特征图可以包括多个特征值，每个特征值表示样本图像中各位置的特征。

一种实施方式中，电子设备可以确定第二区域特征图中能够表征人手区域的第一特征值，然后将第一特征值对应到样本图像中的位置构成的区域，作为样本图像中的人手区域。

例如，电子设备可以将第二区域特征图中大于第一预设阈值的特征值，确定为第一特征值。

另外，电子设备可以确定第二关键点特征图中能够表征二维人手关键点的第二特征值，然后将第二特征值对应到样本图像中的位置，作为样本图像中的二维人手关键点。

例如，电子设备可以将第二关键点特征图中大于第二预设阈值的特征值，确定为第二特征值。

第二关键点特征图可以为多个，二维人手关键点的个数可以为21个，通过21个二维人手关键点可以确定手势。

因此，第二关键点特征图可以为21个，电子设备根据一个第二关键点特征图，确定一个二维人手关键点，进而，可以确定21个二维人手关键点。

相应的，电子设备可以结合第二人手投影信息与标注的样本图像对应的人手信息之间的差异，以及预测人手信息与标注的所述样本图像对应的人手信息之间的差异，对人手识别网络模型的模型参数进行训练。

其中，预测人手信息包括预测的样本图像中的人手区域和/或预测的所述样本图像中的二维人手关键点。

预测的样本图像中的人手区域与样本图像标注的人手区域之间的差异，可以称为第四差异。预测的样本图像中的二维人手关键点与样本图像标注的二维人手关键点之间的差异，可以称为第五差异。

一种实施方式中，电子设备可以获取第四差异和/或第五差异，并获取第一差异、第二差异和第三差异中任一差异或任意差异的组合，并根据获取到的差异，对人手识别网络模型的模型参数进行训练。

另外，第二边缘特征图可以包括多个特征值，每个特征值表示样本图像中各位置的特征。

电子设备可以确定第二边缘特征图中能够表征人手边缘的第三特征值，然后将第三特征值对应到样本图像中的位置，作为样本图像中的人手边缘。

例如，电子设备可以将第二边缘特征图中大于第三预设阈值的特征值，确定为第三特征值。

图4是根据一示例性实施例示出的一种人手识别装置的结构图。参照图4，该装置包括第一处理模块401，提取模块402，第二处理模块403，回归模块404和生成模块405。

第一处理模块401，被配置为执行将包含人手的待检测图像输入至预先训练的人手识别网络模型，所述人手识别网络模型包括特征提取器、多任务分支网络层、回归层、MANO网络；

提取模块402，被配置为执行通过所述特征提取器对所述待检测图像进行特征提取，得到所述待检测图像的图像特征；

第二处理模块403，被配置为执行通过所述多任务分支网络层对所述图像特征进行处理，得到表示所述待检测图像中人手边缘的第一边缘特征图、表示所述待检测图像中人手区域的第一区域特征图，以及表示所述待检测图像中二维人手关键点的第一关键点特征图；

回归模块404，被配置为执行通过所述回归层对所述第一边缘特征图、所述第一区域特征图与所述第一关键点特征图的相加结果进行回归，得到表示所述待检测图像中人手姿态的第一姿态参数和表示所述待检测图像中人手形状的第一形状参数；

生成模块405，被配置为执行基于所述第一姿态参数和所述第一形状参数，通过所述MANO网络生成所述待检测图像中人手的三维模型。

所述第二处理模块403，具体被配置为执行通过所述编码器对所述图像特征进行编码，得到所述待检测图像的高层图像语义信息；

可选的，所述人手识别网络模型还包括微分渲染层；

所述装置还包括：

可选的，所述人手识别网络模型还包括微分渲染层；

所述装置还包括：

可选的，所述装置还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种用于识别人手的电子设备500的框图。例如，电子设备500可以被提供为一服务器。参照图5，电子设备500包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理组件522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行上述人手识别方法。

电子设备500还可以包括一个电源组件526被配置为执行电子设备500的电源管理，一个有线或无线网络接口550被配置为将电子设备500连接到网络，和一个输入输出（I/O）接口558。电子设备500可以操作基于存储在存储器532的操作***，例如WindowsServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似操作***。

图6是根据一示例性实施例示出的一种用于识别人手的电子设备的框图。例如，电子设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，电子设备可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出（I/ O）接口612，传感器组件614，以及通信组件616。

处理组件602通常控制电子设备的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的人手识别方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在电子设备的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

电源组件606为电子设备的各种组件提供电力。电源组件606可以包括电源管理***，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述电子设备和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风（MIC），当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

接口612为处理组件602和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为电子设备提供各个方面的状态评估。例如，传感器组件614可以检测到电子设备的打开/关闭状态，组件的相对定位，例如所述组件为电子设备的显示器和小键盘，传感器组件614还可以检测电子设备或电子设备一个组件的位置改变，用户与电子设备接触的存在或不存在，电子设备方位或加速/减速和电子设备的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，运营商网络（如2G、3G、4G或5G），或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

在示例性实施例中，电子设备可以被一个或多个应用专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理设备（DSPD）、可编程逻辑器件（PLD）、现场可编程门阵列（FPGA）、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器604，上述指令可由电子设备的处理器620执行以完成上述人手识别方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种人手识别方法，其特征在于，包括：

基于所述第一姿态参数和所述第一形状参数，通过所述MANO网络生成所述待检测图像中人手的三维模型；

所述多任务分支网络层包括编码器、边缘解码器、区域解码器和热图解码器；

2.根据权利要求1所述的人手识别方法，其特征在于，所述人手识别网络模型还包括微分渲染层；

3.根据权利要求1所述的人手识别方法，其特征在于，所述人手识别网络模型还包括微分渲染层；

所述人手识别网络模型的训练步骤包括：

4.根据权利要求3所述的人手识别方法，其特征在于，在所述将包含人手的样本图像输入至初始的人手识别网络模型，得到表示所述样本图像中人手边缘的第二边缘特征图、表示所述样本图像中人手区域的第二区域特征图和表示所述样本图像中二维人手关键点的第二关键点特征图之后，所述方法还包括：

5.一种人手识别装置，其特征在于，包括：

生成模块，被配置为执行基于所述第一姿态参数和所述第一形状参数，通过所述MANO网络生成所述待检测图像中人手的三维模型；

6.根据权利要求5所述的人手识别装置，其特征在于，所述人手识别网络模型还包括微分渲染层；

所述装置还包括：

7.根据权利要求5所述的人手识别装置，其特征在于，所述人手识别网络模型还包括微分渲染层；

所述装置还包括：

8.根据权利要求7所述的人手识别装置，其特征在于，所述装置还包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至4中任一项所述的人手识别方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至4中任一项所述的人手识别方法。