CN111523387B

CN111523387B - 手部关键点检测的方法、设备和计算机设备

Info

Publication number: CN111523387B
Application number: CN202010211811.1A
Authority: CN
Inventors: 林健; 周志敏; 刘海伟; 丛林
Original assignee: Hangzhou Yixian Advanced Technology Co ltd
Current assignee: Hangzhou Yixian Advanced Technology Co ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2024-04-19
Anticipated expiration: 2040-03-24
Also published as: CN111523387A

Abstract

本申请涉及一种手部关键点检测的方法、设备和计算机设备，其中，关键点检测的方法包括：通过获取图像集合，根据图像集合中手部关键点的真实位置标签，生成手部关键点的掩码，其中，手部关键点分类为指尖点和掌心点，根据图像集合的特征图，解析手部关键点的关键点识别信息，根据掩码和关键点识别信息，得到手部关键点的预测位置标签值，根据预测位置标签值和真实位置标签，对手部关键点进行损失函数回归，得到手部关键点检测模型，通过手部关键点检测模型进行手部关键点检测，解决了相关技术中依赖于有序排列的关键点进行姿态估计的方法，成本较高的问题，提高了手部关键点检测的场景适应性，降低了手部关键点检测的成本。

Description

手部关键点检测的方法、设备和计算机设备

技术领域

本申请涉及计算机视觉领域，特别是涉及手部关键点检测的方法、设备和计算机设备。

背景技术

随着人机交互技术的发展，人机交互方式如键盘、鼠标、触屏等在许多新兴领域已经难以满足用户的要求，在增强现实(Augmented Reality，简称为AR)等远程操控场景下，用户更倾向于使用无线的、非接触式的方式实现人机交互。另一方面，基于计算机视觉技术的交互技术可以让用户摆脱繁杂的交互设备，利用特定的身体动作向机器发出指令，方便快捷，所以计算机视觉技术的发展满足了用户使用无线的、非接触式的方式实现人机交互的要求。

在相关技术中，对关键点的姿态估计是通过依照预设的先后顺序进行关键点的筛选和依次连接实现的，这种进行关键点的预测和聚合的方法依赖于关键点的有序排列，可以识别手指具体为拇指、食指或者中指等等，然而，基于有序关键点进行关键点检测的方法，检测模型训练更为困难，数据采集与标注过程更为费力，成本较高，而且在实际使用过程中，通常不需要识别进行点击的手指为食指或者中指，因此基于有序关键点进行关键点检测的方法容易造成浪费。

目前针对相关技术中依赖于有序排列的关键点进行姿态估计的方法，成本较高的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种手部关键点检测的方法、设备、计算机设备和计算机可读存储介质，以至少解决相关技术中依赖于有序排列的关键点进行姿态估计的方法，成本较高的问题。

第一方面，本申请实施例提供了一种手部关键点检测的方法，所述方法包括：

获取图像集合，根据所述图像集合中手部关键点的真实位置标签，生成所述手部关键点的掩码，其中，所述手部关键点分类为指尖点和掌心点；

根据所述图像集合的特征图，解析所述手部关键点的关键点识别信息，根据所述掩码和所述关键点识别信息，得到所述手部关键点的预测位置标签值；

根据所述预测位置标签值和所述真实位置标签，对所述手部关键点进行损失函数回归，得到手部关键点检测模型，通过所述手部关键点检测模型进行手部关键点检测。

在其中一些实施例中，所述得到所述手部关键点的预测位置标签值包括：

通过所述手部关键点的绝对位置信息，调整所述预测位置标签值。

在其中一些实施例中，获取所述手部关键点的绝对位置信息包括：

由网格图得到所述绝对位置信息，其中，所述网格图提供网格点坐标。

由偏移图得到所述绝对位置信息，其中，根据所述偏移图与所述预测位置标签值的乘积，调整所述预测位置标签值。

在其中一些实施例中，所述通过所述手部关键点检测模型进行手部关键点检测包括：

通过所述手部关键点模型，获取待检测图像的掌心点和指尖点；

以所述掌心点为基准，根据所述掌心点和所述指尖点的标签值，将所述掌心点与所述指尖点进行聚合，其中，所述掌心点与所述指尖点的标签值对应。

在其中一些实施例中，所述根据所述图像集合中手部关键点的真实位置标签，生成所述手部关键点的掩码包括：

根据所述图像集合中的手部数量，确定掩码参数，根据所述手部关键点的真实位置标签，对每个手部的前景和背景进行区分，得到手部掩码；

根据所述掩码参数和所述手部掩码，得到所述图像集合的手部关键点的掩码。

在其中一些实施例中，所述对所述手部关键点进行损失函数回归包括：

根据所述掩码中的掌心点信息，对所述预测位置标签值进行筛选，保留包括手部的图像数据；

根据所述手部的预测位置标签值的均值和所述关键点标签值的均值，对所述图像数据进行损失函数回归。

第二方面，本申请实施例提供了一种手部关键点检测的设备，所述设备包括生成模块、预测模块和回归模块：

所述生成模块，用于获取图像集合，根据所述图像集合中手部关键点的真实位置标签，生成所述手部关键点的掩码，其中，所述手部关键点分类为指尖点和掌心点；

所述预测模块，用于根据所述图像集合的特征图，解析所述手部关键点的关键点识别信息，根据所述掩码和所述关键点识别信息，得到所述手部关键点的预测位置标签值；

所述回归模块，用于根据所述预测位置标签值和所述真实位置标签，对所述手部关键点进行损失函数回归，得到手部关键点检测模型，通过所述手部关键点检测模型进行手部关键点检测。

在其中一些实施例中，所述预测模块包括调整单元：

所述调整单元，用于通过所述手部关键点的绝对位置信息，调整所述预测位置标签值。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第任一所述的方法。

相比于相关技术，本申请实施例提供的手部关键点检测的方法，通过获取图像集合，根据该图像集合中手部关键点的真实位置标签，生成该手部关键点的掩码，其中，该手部关键点分类为指尖点和掌心点，根据该图像集合的特征图，解析该手部关键点的关键点识别信息，根据该掩码和该关键点识别信息，得到该手部关键点的预测位置标签值，根据该预测位置标签值和该真实位置标签，对该手部关键点进行损失函数回归，得到手部关键点检测模型，通过该手部关键点检测模型进行手部关键点检测，解决了相关技术中依赖于有序排列的关键点进行姿态估计的方法，成本较高的问题，提高了手部关键点检测的场景适应性，降低了手部关键点检测的成本。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的手部关键点检测的方法的应用环境示意图；

图2是根据本申请实施例的手部关键点检测的方法的流程图；

图3是根据本申请实施例的x方向的网格点坐标示意图；

图4是根据本申请实施例的y方向的网格点坐标示意图；

图5是根据本申请实施例的偏移图；

图6是根据本申请实施例的另一种手部关键点检测的方法的流程图；

图7是根据本申请实施例的生成手部关键点掩码的方法的流程图；

图8是根据本申请实施例的损失函数回归的方法的流程图；

图9是根据本申请实施例的手部关键点检测的设备的结构框图；

图10是根据本申请实施例的另一种手部关键点检测的设备的结构框图；

图11是根据本申请实施例的计算机设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请提供的手部关键点检测的方法，可以应用于如图1所示的应用环境中，图1是根据本申请实施例的手部关键点检测的方法的应用环境示意图，如图1所示。其中，摄像终端102获取手部104的图像集合，位置追踪器108对该图像集合中的手部104进行追踪，并生成手部104关键点的真实位置标签，服务器106根据该真实位置标签，生成该手部关键点的掩码，其中，该手部关键点分类为指尖点和掌心点，服务器106根据该图像集合的特征图，解析该手部关键点的关键点识别信息，并根据该掩码和该关键点识别信息，得到该手部关键点的预测位置标签值，根据该预测位置标签值和该真实位置标签，对该手部关键点进行损失函数回归，得到手部关键点检测模型，通过该手部关键点检测模型进行手部关键点检测。其中，特征图通过神经网络生成，该神经网络的框架包括pytorch、tensorflow、keras等等，摄像终端102可以为深度摄像头，服务器106可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本实施例提供了一种手部关键点检测的方法。图2是根据本申请实施例的手部关键点检测的方法的流程图，如图2所示，该方法包括如下步骤：

步骤S201，获取图像集合，根据该图像集合中手部关键点的真实位置标签，生成该手部关键点的掩码，其中，该手部关键点为手部不被遮挡的可视关键点，分类为指尖点和掌心点，该图像集合作为输入图像，可以包括多个训练图像，该输入图像的输入尺度为batchsize*H*W*C，batchsize为该图像集合中训练图像的个数，batch表示该图像集合，训练图像的个数越多，batchsize的值越大，H、W和C用于描述输入图像的尺寸，H为输入图像的高度，W为输入图像的宽度，C为输入图像的通道数，例如，在输入图像的尺度为32*480*640*1的情况下，表示该图像集合中有32张训练图像，训练图像的尺寸为480*640像素，通道数为1，表示图像集合为单通道的深度图像。在其他实施例中，通道数还可能为3，表示图像为RGB三通道图像，其中，R表示red，G表示green，B表示blue。在进行模型训练的过程中，本申请仅对手部关键点做指尖点和掌心点的分类，通过手部关键点真实位置标签生成的掩码，可以提取感兴趣的指尖位置和掌心位置，掩码的维度为h*w*1，可以由tagmask表示。

步骤S202，根据该图像集合的特征图，解析该手部关键点的关键点识别信息，根据该掩码和该关键点识别信息，得到该手部关键点的预测位置标签值。

基于图像集合，通过神经网络得到输出的特征图，本实施例中，输出可以为多输出，也可以为单输出。以多输出为例，在使用目标检测网络算法YOLO(You Only Look Once，简称为YOLO)的情况下，输出特征图的尺度可以为batchsize*h*w*c，其中，h和w为输出特征图的尺寸，c为输出特征图的通道数。例如，在输出特征图的数量为2的情况下，输出特征图分别用于预测指尖点与掌心点的相关信息，其中，用于预测指尖点的输出特征图的尺度为32*60*80*7，用于预测掌心点的输出特征图的尺寸为32*30*40*7，其中，通道数量为7表示输出特征图具有7个通道，分别由1至7表示，其中，1表示该输出特征图的置信度，2至5表示该图像的位置信息，例如图像的高度、宽度、以及横纵坐标，6表示该输出特征图的分类，本实施例中，分类为手部图像，7表示该输出特征图的tag标签，可以用于tag预测，从而得到关键点识别信息，该关键点识别信息可以由tagmap表示，指尖点的关键点识别信息由维度32*60*80*1表示，掌心点的关键点识别信息由维度32*30*40*1表示。

在其他实施例中，在输出为单输出，需要在一张特征图中同时预测掌心点与指尖点的位置的情况下，需要增加通道数，通道6表示分类为指尖点，通道7表示分类为掌心点，增加的通道8表示tag标签。

本实施例中使用的检测方法在YOLO框架中实现，在其他实施例中，也可以在目标检测算法SSD(Single Shot MultiBox Detector，简称为SSD)、Faster R-CNN(Convolutional Neural Networks，简称为CNN)等其他检测框架中实现。

获取手部关键点的预测位置标签值具体为，在指尖点的tagmask由32*4*60*80*1表示，掌心点的tagmask由32*4*30*40*1表示的情况下，将网络前向得到的tagmap与对应的tagmask做元素的对应点乘，得到该手部关键点的预测位置标签值，该预测位置标签值可以由tags表示，指尖点的tags由32*4*60*80*1表示，掌心点的tags由32*4*30*40*1表示，通过tagmask仅保留真实指尖与掌心点的tag值，其他位置置为0，其中，4为预设超参数。

步骤S203，根据该预测位置标签值和该真实位置标签，对该手部关键点进行损失函数回归，得到手部关键点检测模型，通过该手部关键点检测模型进行手部关键点检测。其中，损失函数有助于优化神经网络的参数，并对神经网络模型进行评估。

通过上述步骤S201至步骤S203，本申请的实施例仅对手部关键点做指尖点和掌心点的分类，不用对关键点进行排序标注，相对于相关技术中，需要在给出拇指、食指、中指等信息的条件下，才能完成关键点检测的方法，本申请可以实现不定数量、无序关键点的检测，解决了相关技术中依赖于有序排列的关键点进行姿态估计的方法，成本较高的问题，本申请的方法可以在不定数量和无序关键点的情况下，对指尖点和掌心点进行聚合，提高了手部关键点检测的场景适应性，降低了手部关键点检测的成本。

在其他实施例中，由于本申请提供的关键点检测的算法的具有更好的拓展性与适用性，支持包括人体关键点、手部关键点在内的任意类型关键点姿态估计的算法，因此也可以通过本申请提供的关键点检测的方法，进行人体关键点估计。

在其中一些实施例中，得到该手部关键点的预测位置标签值包括：结合该手部关键点的绝对位置信息，调整该预测位置标签值。在进行人体或者手部关键点检测的过程中，在待识别物体的形状大致相似的情况下，会对网络学习造成极大困难，例如，在深度前景的手部数据集中，手部形态往往与背景颜色相似，直接从深度前景图上无法提取出足够的信息进行tag的区分，而通过显式引入绝对位置信息可以有效解决该问题，其中，该绝对位置信息可以通过网格来实现，网格信息本质上用于提供各个待识别物体在图像中的绝对位置，提供辅助信息帮助网络学习tag标签。在网络输入中通过添加Grid的辅助信息，可以指导网络学习与绝对位置相关的聚类标签，降低网络学习的难度，帮助网络收敛，提高了神经网络训练的稳定性。同时，加入绝对位置信息可以帮助神经网络模型得到更具有区分性的tag值，与物体在图像中的具***置相关联。

在通用的Associative Embedding(简称为AE)算法中，默认需要训练数据中包含大量的多物体数据，即在一张图像中包含有多个待识别物体，以便于tag损失的计算。本实施例中，通过batch损失函数计算的特性与网格信息的引入，实现在单目标数据集中完成tag训练，即在数据集中所有图像有且仅有一个待识别物体，训练得到的模型在实际部署时可以支持多目标的检测与分类，而无需专门采集或生成对应的多目标数据集。

在一些实施例中，获取该手部关键点的绝对位置信息包括：由网格图得到该绝对位置信息，其中，该网格图提供网格点坐标。图3是根据本申请实施例的x方向的网格点坐标示意图，如图3所示，每一排的数值不同，代表x方向的坐标，图4是根据本申请实施例的y方向的网格点坐标示意图，如图4所示，每一列的数值不同，代表y方向的坐标，两张图的大小均为H*W，与图像集合的输入尺度一致，在进行手部关键点检测的过程中，图3、图4可以与输入图像叠加后作为单输入送入神经网络进行训练，也可以开辟多输入支路在对损失函数计算之前送入神经网络。本实施例中，通过引入网格点坐标生成的绝对位置信息，对手部关键点的预测位置标签值进行调整，有助于指尖点和掌心点的聚类，提高手部关键点的检测精度，而且，由于计算损失函数为batch内的计算，特别是加入了网格图的网格辅助信息，因此即使在所有训练数据的图像中都仅包含单手，也支持tag的学习与训练，在实测过程中，也可以为多手提供对应的标签。

在一些实施例中，获取该手部关键点的绝对位置信息还包括：由偏移图得到该绝对位置信息，其中，根据该偏移图与该预测位置标签值的乘积，调整该预测位置标签值。图5是根据本申请实施例的偏移图，如图5所示，该偏移图的大小与tagmap一致，为h*w，图5中，△表示偏差值，△的值等于1/w，因此偏移图逐行等距分布。例如，在tagmap的大小为60*80的情况下，△的值为1/80，即0.0125，通过将tagmap中的各个元素与偏移图逐元素相乘，得到了关键点绝对位置的监督信息。例如，在要识别的点分别为A和B的情况下，在通过偏移图之前，A的标签值为a，B的标签值为b，在通过偏移图之后，A的标签值变为a*0.0125，B的标签值变为b*0.025，手部关键点检测模型会使得a*0.0125与b*0.025尽量相似。本实施例中通过偏移图对预测位置标签值进行调整，可以将tag直接进行优化调整，实现position-aware损失函数。由于计算损失函数为batch内的计算，特别是加入了偏移图的网格辅助信息，因此即使在所有训练数据的图像中都仅包含单手，也支持tag的学习与训练，在实测过程中，也可以为多手提供对应的标签。

在一些实施例中，图6是根据本申请实施例的另一种手部关键点检测的方法的流程图，如图6所示，该流程包括还如下步骤：

步骤S601，通过该手部关键点模型，获取待检测图像的掌心点和指尖点。本实施例中的手部关键点模型在训练过程中，仅将训练数据中的手部关键点分为掌心点和指尖点，本实施例中待检测图像的掌心点和指尖点通过手部关键点模型向前得到。

步骤S602，以该掌心点为基准，根据该掌心点和该指尖点的标签值，将该掌心点与该指尖点进行聚合，其中，该掌心点与该指尖点的标签值对应。通过手部关键点模型，返回掌心点与指尖点的标签值，以tag标签表示，以掌心点为基准，将tag值相近的指尖点和掌心点聚合在一起，实现指尖点与掌心点的绑定，在指尖点没有对应的掌心点的情况下，将该指尖点视为误检点剔除。

通过上述步骤S601和步骤S602，根据标签值对指尖点和掌心点进行聚合，从而完成对手部关键点的检测，在提高了检测速率的同时，也提升了检测结果的准确度。

在一些实施例中，图7是根据本申请实施例的生成手部关键点掩码的方法的流程图，该方法包括如下步骤：

步骤S701，根据该图像集合中的手部数量，确定掩码参数，根据该手部关键点的真实位置标签，对每个手部的前景和背景进行区分，得到手部掩码。其中，对图像集合中各个训练样本中的手部数量进行预先统计，手部数量的最大值为掩码参数，该掩码参数为预设超参数，以max_hand_num表示。根据训练样本中每只手的真实掌心点位置与指尖点位置生成手部掩码，以tagmask表示，在手部掩码中，将前景置为1，背景置为0，手部掩码的维度为h*w*1。

步骤S702，根据该掩码参数和该手部掩码，得到该图像集合的手部关键点的掩码。

在得到手部掩码之后，将每个训练图像中所有的手部掩码进行组合，得到的数据维度为max_hand_num*h*w*1，在训练图像中手的数量少于max_hand_num的情况下，与训练图像对应的掩码中所有数值均为0。

将图像集合中所有的手部掩码进行组合，得到图像集合的手部关键点的掩码，该掩码的数据维度为batchsize*max_hand_num*h*w*1，例如，在batchsize的值为32，在max_hand_num的值为4的情况下，指尖点的输出维度为32*4*60*80*1，掌心点的输出维度为32*4*30*40*1。

通过上述步骤S701和步骤S702，将手部关键点分类为指尖点和掌心点，进而形成手部关键点的掩码，解决了手部关键点不定数量和无序检测的问题，提高了手部关键点检测模型的适应性。

在一些实施例中，图8是根据本申请实施例的损失函数回归的方法的流程图，如图8所示，该方法包括如下步骤：

步骤S801，根据该掩码中的掌心点信息，对该预测位置标签值进行筛选，保留包括手部的图像数据。

在筛选之前，需要对预测位置标签值和掩码进行维度变换，维度变换的过程为：将预测位置tags与掩码tagmask的维度均变换为(batchsize*max_hand_num，-1)，其中，-1为将h和w的值进行压缩，例如，指尖点进行维度变换后的维度为(128，4800)，其中，128表示在batchsize的值为32，max_hand_num的值为4的情况下，进行维度变换的结果，4800为在h的值为60，w的值为80的情况下，h与w相乘的结果。

在掌心点进行维度变换之后的维度为(128，1200)的情况下，tags对应为掌心点的tag数据，tagmask对应为掌心点的掩码，128代表当前batch的所有手，其中包含数值全为0的空数据，由于每只手有且仅有一个掌心点，因此在tagmask的1200个数值中仅有一个数值为1，其他值均为0，对应在tags的1200个数值中仅有一个数值为对应tag，其他值均为0。

通过掌心点的掩码，根据是否有掌心点，从128只手中筛选出真实有效的手部数据，剔除空数据。

步骤S802，根据手部的预测位置标签值的均值和该关键点标签值的均值，对该图像数据进行损失函数回归。其中损失函数可以由如下公式1和公式2得到：

在公式1和公式2中，n表示第n个人，k表示第k个关节，x_nk表示关键点所在的像素位置，h_k(x_nk)表示关键点预测的标签值，以tag表示，h_n表示第n个人所有K个关键点的预测位置标签值的平均值，L_g(h,T)为tag部分的损失函数，公式的前半部分用于使每个人内部所有关节点的tag值尽量相近，公式的后半部分用于将不同人之间的平均tag值尽量分开。

通过上述步骤S801和步骤S802，对损失函数进行回归，以提高手部关键点检测模型的鲁棒性。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了一种手部关键点检测的设备，该设备用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

在一些实施例中，图9是根据本申请实施例的手部关键点检测的设备的结构框图，如图9所示，该设备包括生成模块91、预测模块92和回归模块93：

生成模块91，用于获取图像集合，根据该图像集合中手部关键点的真实位置标签，生成该手部关键点的掩码，其中，该手部关键点分类为指尖点和掌心点。

预测模块92，用于根据该图像集合的特征图，解析该手部关键点的关键点识别信息，根据该掩码和该关键点识别信息，得到该手部关键点的预测位置标签值。

回归模块93，用于根据该预测位置标签值和该真实位置标签，对该手部关键点进行损失函数回归，得到手部关键点检测模型，通过该手部关键点检测模型进行手部关键点检测。

上述进行手部关键点检测的设备，生成模块91在训练的过程中，仅对手部关键点做指尖点和掌心点的分类，不用对关键点进行排序标注，在此基础上，通过预测模块92和回归模块93对手部关键点进行预测，相对于相关技术中，需要在给出拇指、食指、中指等信息的条件下，才能完成关键点检测的方法，本申请可以实现不定数量、无序关键点的检测，解决了相关技术中依赖于有序排列的关键点进行姿态估计的方法，成本较高的问题，本申请的方法可以在不定数量和无序关键点的情况下，对指尖点和掌心点进行聚合，提高了手部关键点检测的场景适应性，降低了手部关键点检测的成本。

图10是根据本申请实施例的另一种手部关键点检测的设备的结构框图，如图10所示，该装置包括图9所示的所有模块，此外还包括调整单元1001：该调整单元1001，用于通过该手部关键点的绝对位置信息，调整该预测位置标签值。本实施例中，通过调整单元1001加入绝对位置的网格信息，可以帮助模型得到更具有区分性的标签值。该网格信息可以是在网络输入时除了图像之外也增加一张xy网格图，也可以是在计算得到tag数值以后引入偏移网格变换。由于计算损失函数时优化为batch内的计算，特别是加入网格信息以后，即使在所有训练数据的图像中都仅包含单手，也支持tag的学习与训练，在实测时可以为多手提供对应的标签。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种手部关键点检测的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，图11是根据本申请实施例的计算机设备的内部结构示意图，如图11所示，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种手部关键点检测的方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述各实施例提供的手部关键点检测的方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个实施例提供的手部关键点检测的方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种手部关键点检测的方法，其特征在于，所述方法包括：

根据所述预测位置标签值和所述真实位置标签，对所述手部关键点进行损失函数回归，得到手部关键点检测模型，通过所述手部关键点检测模型进行手部关键点检测，包括：通过所述手部关键点模型，获取待检测图像的掌心点和指尖点；以所述掌心点为基准，根据所述掌心点和所述指尖点的标签值，将标签值相近的所述掌心点与所述指尖点进行聚合，其中，所述掌心点与所述指尖点的标签值对应。

2.根据权利要求1所述的手部关键点检测的方法，其特征在于，所述得到所述手部关键点的预测位置标签值包括：

3.根据权利要求2所述的手部关键点检测的方法，其特征在于，获取所述手部关键点的绝对位置信息包括：

4.根据权利要求2所述的手部关键点检测的方法，其特征在于，获取所述手部关键点的绝对位置信息包括：

5.根据权利要求1所述的手部关键点检测的方法，其特征在于，所述根据所述图像集合中手部关键点的真实位置标签，生成所述手部关键点的掩码包括：

6.根据权利要求1所述的手部关键点检测的方法，其特征在于，所述对所述手部关键点进行损失函数回归包括：

7.一种手部关键点检测的设备，其特征在于，所述设备包括生成模块、预测模块和回归模块：

所述回归模块，用于根据所述预测位置标签值和所述真实位置标签，对所述手部关键点进行损失函数回归，得到手部关键点检测模型，通过所述手部关键点检测模型进行手部关键点检测，包括：通过所述手部关键点模型，获取待检测图像的掌心点和指尖点；以所述掌心点为基准，根据所述掌心点和所述指尖点的标签值，将标签值相近的所述掌心点与所述指尖点进行聚合，其中，所述掌心点与所述指尖点的标签值对应。

8.根据权利要求7所述的手部关键点检测的设备，其特征在于，所述预测模块包括调整单元：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。