CN114549809A

CN114549809A - 手势识别方法以及相关设备

Info

Publication number: CN114549809A
Application number: CN202210166611.8A
Authority: CN
Inventors: 郝江伟
Original assignee: Shenzhen TCL New Technology Co Ltd
Current assignee: Shenzhen TCL New Technology Co Ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-05-27

Abstract

本申请公开了一种手势识别方法以及相关设备；可以获取针对目标对象的待手势识别图像，所述待手势识别图像包括可见光图像和红外光图像；对所述可见光图像进行暗光检测，得到暗光检测结果；根据所述暗光检测结果，从所述待手势识别图像中选取目标图像；对所述目标图像进行身体关键部位检测，得到所述目标图像的身体关键区域；对所述身体关键区域进行手势识别，得到所述目标对象的手势识别结果。本申请实施例可以根据暗光检测结果，来选取用于手势识别的目标图像，进而对目标图像进行手势识别，提高了在暗光环境下的检测效果，增强了适用性。

Description

手势识别方法以及相关设备

技术领域

本申请涉及计算机技术领域，具体涉及一种手势识别方法以及相关设备。

背景技术

随着人工智能技术的研究和进步，人工智能技术在多个领域展开研究和应用，例如人机交互领域。手势识别是目前人机交互领域中的重点研究任务，手势识别具有广泛的应用价值。通过对待手势识别图像中人体的手势进行识别，从而判断人的行为，可广泛应用于各种智能家居设备；此外，也可以通过手势识别进行人机交互，开发各种人机交互应用程序。

但在目前的相关技术中，手势识别算法在暗光场景下的检测效果较差，因此对光线的要求较高，限制了手势识别的应用，导致其适用性较低。

发明内容

本申请实施例提供一种手势识别方法以及相关设备，相关设备可以包括手势识别装置、电子设备、计算机可读存储介质和计算机程序产品，可以提高在暗光环境下的检测效果，增强适用性。

本申请实施例提供一种手势识别方法，包括：

获取针对目标对象的待手势识别图像，所述待手势识别图像包括可见光图像和红外光图像；

对所述可见光图像进行暗光检测，得到暗光检测结果；

根据所述暗光检测结果，从所述待手势识别图像中选取目标图像；

对所述目标图像进行身体关键部位检测，得到所述目标图像的身体关键区域；

对所述身体关键区域进行手势识别，得到所述目标对象的手势识别结果。

相应的，本申请实施例提供一种手势识别装置，包括：

获取单元，用于获取针对目标对象的待手势识别图像，所述待手势识别图像包括可见光图像和红外光图像；

暗光检测单元，用于对所述可见光图像进行暗光检测，得到暗光检测结果；

选取单元，用于根据所述暗光检测结果，从所述待手势识别图像中选取目标图像；

身体关键部位检测单元，用于对所述目标图像进行身体关键部位检测，得到所述目标图像的身体关键区域；

手势识别单元，用于对所述身体关键区域进行手势识别，得到所述目标对象的手势识别结果。

可选的，在本申请的一些实施例中，所述选取单元可以包括第一确定子单元和第二确定子单元，如下：

所述第一确定子单元，用于当所述暗光检测结果为暗光场景的置信度小于预设值时，将所述待手势识别图像中的可见光图像确定为目标图像；

第二确定子单元，用于当所述暗光检测结果为暗光场景的置信度不小于所述预设值时，将所述待手势识别图像中的红外光图像确定为目标图像。

可选的，在本申请的一些实施例中，所述手势识别装置还包括预处理单元，如下：

所述预处理单元，用于对所述待手势识别图像进行缩放处理，得到缩放后的待手势识别图像；对所述缩放后的待手势识别图像中像素点的像素值进行归一化处理，得到归一化后的待手势识别图像。

可选的，在本申请的一些实施例中，所述身体关键部位检测单元可以包括第一提取子单元、第一上采样子单元和检测子单元，如下：

所述第一提取子单元，用于对所述目标图像提取多个尺度下的特征图；

第一上采样子单元，用于对所述多个尺度下的特征图进行上采样处理，得到所述目标图像的目标特征图；

检测子单元，用于根据预设关键部位模板图像，对所述目标图像的目标特征图进行身体关键部位检测，得到所述目标图像的身体关键区域。

可选的，在本申请的一些实施例中，所述手势识别单元可以包括扩展子单元、第二提取子单元、第二上采样子单元和识别子单元，如下：

所述扩展子单元，用于对所述身体关键区域进行扩展处理，得到关键区域扩展图像；

第二提取子单元，用于对所述关键区域扩展图像进行多尺度的特征提取，得到所述关键区域扩展图像对应的多个尺度下的特征图；

第二上采样子单元，用于对所述多个尺度下的特征图进行上采样处理，得到所述关键区域扩展图像的目标特征图；

识别子单元，用于根据预设手势模板图像，对所述关键区域扩展图像的目标特征图进行手势识别，得到目标手势区域、以及所述目标对象对应的手势类别。

可选的，在本申请的一些实施例中，所述识别子单元具体可以用于通过滑动的预设手势模板图像，对所述关键区域扩展图像的目标特征图进行手势识别，得到所述目标特征图对应的至少一个候选手势区域；根据所述预设手势模板图像和各个候选手势区域之间的相似度，从各个候选手势区域中确定目标手势区域；将从所述目标手势区域中识别到的手势类别确定为所述目标对象对应的手势类别。

本申请实施例提供的一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器加载所述指令，以执行本申请实施例提供的手势识别方法中的步骤。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现本申请实施例提供的手势识别方法中的步骤。

此外，本申请实施例还提供一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时实现本申请实施例提供的手势识别方法中的步骤。

本申请实施例提供了一种手势识别方法以及相关设备，可以获取针对目标对象的待手势识别图像，所述待手势识别图像包括可见光图像和红外光图像；对所述可见光图像进行暗光检测，得到暗光检测结果；根据所述暗光检测结果，从所述待手势识别图像中选取目标图像；对所述目标图像进行身体关键部位检测，得到所述目标图像的身体关键区域；对所述身体关键区域进行手势识别，得到所述目标对象的手势识别结果。本申请实施例可以根据暗光检测结果，来选取用于手势识别的目标图像，进而对目标图像进行手势识别，提高了在暗光环境下的检测效果，增强了适用性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的手势识别方法的场景示意图；

图1b是本申请实施例提供的手势识别方法的流程图；

图1c是本申请实施例提供的手势识别方法的另一流程图；

图1d是本申请实施例提供的手势识别方法的另一流程图；

图2是本申请实施例提供的手势识别方法的另一流程图；

图3是本申请实施例提供的手势识别装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种手势识别方法以及相关设备，相关设备可以包括手势识别装置、电子设备、计算机可读存储介质和计算机程序产品。该手势识别装置具体可以集成在电子设备中，该电子设备可以是终端或服务器等设备。

可以理解的是，本实施例的手势识别方法可以是在终端上执行的，也可以是在服务器上执行，还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。

如图1a所示，以终端和服务器共同执行手势识别方法为例。本申请实施例提供的手势识别***包括终端10和服务器11等；终端10与服务器11之间通过网络连接，比如，通过有线或无线网络连接等，其中，手势识别装置可以集成在服务器中。

其中，服务器11，可以用于：获取针对目标对象的待手势识别图像，所述待手势识别图像包括可见光图像和红外光图像；对所述可见光图像进行暗光检测，得到暗光检测结果；根据所述暗光检测结果，从所述待手势识别图像中选取目标图像；对所述目标图像进行身体关键部位检测，得到所述目标图像的身体关键区域；对所述身体关键区域进行手势识别，得到所述目标对象的手势识别结果，将手势识别结果发送给终端10。其中，服务器11可以是单台服务器，也可以是由多个服务器组成的服务器集群或云服务器。

其中，终端10，可以用于：采集针对目标对象的待手势识别图像，所述待手势识别图像包括可见光图像和红外光图像；并将待手势识别图像发送给服务器11；还可以接收服务器11发送的手势识别结果。其中，终端10可以包括手机、智能电视、平板电脑、笔记本电脑、或个人计算机(PC，Personal Computer)等。终端10上还可以设置客户端，该客户端可以是应用程序客户端或浏览器客户端等等。

上述服务器11进行手势识别的步骤，也可以由终端10执行。

本申请实施例提供的手势识别方法涉及人工智能领域中的计算机视觉技术。

其中，人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中，计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从手势识别装置的角度进行描述，该手势识别装置具体可以集成在电子设备中，该电子设备可以是服务器或终端等设备。

如图1b所示，该手势识别方法的具体流程可以如下：

101、获取针对目标对象的待手势识别图像，所述待手势识别图像包括可见光图像和红外光图像。

其中，目标对象为需要进行手势识别的对象，目标对象可以是一个，也可以是多个；待手势识别图像具体可以是包含手势信息的图像。

其中，红外光(IR，Infrared Radiation)图像具体可以是由红外传感器(Sensor)采集得到的泛红外光成像的红外图；可见光图像可以是由彩色传感器(Sensor)采集得到的自然光成像的彩色图，具体可以是RGB(Red-Green-Blue，红绿蓝)图像。

一些实施例中，可以通过摄像头采集目标对象的待手势识别图像，该摄像头可以是三维(3D，three dimensional)摄像头，它可以添加如红外相机的相关软硬件。

在一些具体场景中，需要对采集得到的视频流中人体的手势进行识别，通过对视频流的每帧图像中人体的手势进行识别，进而能够判断人的行为，可广泛应用于各种智能家居设备；此外，也可以通过人体手势识别进行人机交互，开发各种人机交互应用程序。但目前的相关技术中，对于远距离的手势识别或者暗光场景下，人体手势识别算法的检测效果较差，其对光线的要求高，这限制了人体手势识别的应用。针对上述问题，本申请可以结合红外光图像，提供一种不局限于光线的实时远距离手势识别方法，能够在嵌入式终端或服务器端进行快速准确的多人手势识别，从而进一步地实现全天候全场景的人机交互。

102、对所述可见光图像进行暗光检测，得到暗光检测结果。

其中，暗光检测具体可以是对可见光图像中像素点的亮度进行分析，例如，可以计算可见光图像中像素点的亮度平均值，将亮度平均值作为暗光检测结果。

可选地，本实施例中，步骤“对所述可见光图像进行暗光检测，得到暗光检测结果”之前，还可以包括：

对所述待手势识别图像进行缩放处理，得到缩放后的待手势识别图像；

对所述缩放后的待手势识别图像中像素点的像素值进行归一化处理，得到归一化后的待手势识别图像。

其中，对待手势识别图像进行缩放处理，即对待手势识别图像的尺寸进行缩小或放大处理；比如，本实施例中，可以将待手势识别图像(具体可以包括可见光图像和红外光图像)缩放到宽640*高384的尺寸。

可选地，也可以先对待手势识别图像中像素点的像素值进行归一化处理，再对归一化后的待手势识别图像进行缩放处理，得到缩放后的待手势识别图像，比如，对归一化后的待手势识别图像进行缩放，宽缩放到640像素，高缩放到384像素，然后，将缩放后的待手势识别图像进行身体关键部位检测。

其中，可以使用预设参数对待手势识别图像进行归一化处理，该预设参数可以根据实际情况进行设置，具体地，该预设参数可以用于将待手势识别图像中像素点的像素值限制在一定范围内。

具体地，待手势识别图像中像素点的像素值的归一化处理可以用式子(1)表示：

其中，min和max即上述实施例中的预设参数，min为图像中的像素最小值，max为图像中的像素最大值，具体地，在本实施例中，min值可以取0，max值可以取255。x_i表示归一化前的待手势识别图像中各个像素点的像素值，x′_i表示归一化后的待手势识别图像中各个像素点的像素值。

103、根据所述暗光检测结果，从所述待手势识别图像中选取目标图像。

可选地，本实施例中，步骤“根据所述暗光检测结果，从所述待手势识别图像中选取目标图像”，可以包括：

当所述暗光检测结果为暗光场景的置信度小于预设值时，将所述待手势识别图像中的可见光图像确定为目标图像；

当所述暗光检测结果为暗光场景的置信度不小于所述预设值时，将所述待手势识别图像中的红外光图像确定为目标图像。

其中，该预设值可以根据实际情况进行设置，本实施例对此不作限制。具体地，暗光检测结果具体可以包括可见光图像中像素点的亮度平均值，该亮度平均值可以用于表征暗光场景的置信度，亮度平均值越高，暗光场景的置信度越低，反之，亮度平均值越低，暗光场景的置信度越高。

一些实施例中，目标图像可以是预处理后的图像，如经过缩放处理和归一化处理的图像。

本实施例中，若暗光检测结果表示目标对象所处的场景为暗光场景，则需要基于红外光图像进行目标对象的手势识别；若暗光检测结果表示目标对象所处的场景为非暗光场景，则可以不用基于红外光图像进行手势识别，直接基于可见光图像进行目标对象的手势识别。

104、对所述目标图像进行身体关键部位检测，得到所述目标图像的身体关键区域。

其中，身体关键部位检测可以是检测目标图像中目标对象的身体关键部位所处的具***置，从而根据检测得到的具***置，确定目标图像的身体关键区域。具体地，身体关键部位具体可以是目标对象的头肩部，也可以是目标对象的上半身区域，本实施例对此不作限制，具体可根据实际情况设置。可以理解的是，身体关键区域包括目标对象的手势区域。

一些实施例中，可以使用预训练的神经网络模型对所述目标图像进行身体关键部位检测，得到目标图像中所有人的身体关键区域的坐标。该神经网络模型可以是移动网络v2(MobileNetV2)、开端模型(Inception)、效率网络(EfficientNet)、视觉几何组网络(VGGNet，Visual Geometry Group Network)、残差网络(ResNet，Residual Network)和密集连接卷积网络(DenseNet，Dense Convolutional Network)等等，但是应当理解的是，本实施例的神经网络模型并不仅限于上述列举的几种类型。

其中，具体地，神经网络模型的输入可以是大小为宽640、高384的目标图像。

可选地，本实施例中，步骤“对所述目标图像进行身体关键部位检测，得到所述目标图像的身体关键区域”，可以包括：

对所述目标图像提取多个尺度下的特征图；

对所述多个尺度下的特征图进行上采样处理，得到所述目标图像的目标特征图；

根据预设关键部位模板图像，对所述目标图像的目标特征图进行身体关键部位检测，得到所述目标图像的身体关键区域。

其中，对目标图像提取多个尺度下的特征图，具体可以是使用神经网络模型的卷积部分提取多个尺度下的特征图，如对于MobileNetV2，其包括四个残差组结构，可以从这四个残差组结构中获得四种大小的特征图(featuremap)。

其中，一些实施例中，可以使用金字塔特征融合的方法将各个特征图进行2倍上采样后依次与其对应的下组特征图按通道拼接。

其中，具体地，步骤“对所述多个尺度下的特征图进行上采样处理，得到所述目标图像的目标特征图”，可以包括：

对目标尺度的特征图进行上采样处理，得到所述目标图像的多个尺度下的上采样融合特征图，其中，每个尺度的上采样输入为相邻尺度的上采样特征图和特征图融合得到的融合特征；

从各个尺度的上采样融合特征图中确定所述目标图像的目标特征图。

其中，对于低分辨率的特征图，可以采用上采样的方式将它还原高分辨率，上采样的实质是放大图像和图像插值，插值方法可以是最邻近法、双线性内插法以及三次卷积内插法等。

其中，目标尺度为多个尺度中最低的尺度。步骤“每个尺度的上采样输入为相邻尺度的上采样特征图和特征图融合得到的融合特征”，具体包括：每个尺度的上采样输入为相邻尺度的上采样融合特征图，即相邻尺度的上采样特征图和特征图融合得到的融合特征，为相邻尺度的上采样融合特征图，其中，每个尺度的上采样特征图为通过相邻尺度的上采样融合特征图进行上采样处理得到的。

其中，融合指的是特征融合，融合不同尺度的特征能够提高特征的表征能力。低层特征的分辨率比较高，包含更多的细节信息，但由于经过的卷积少，其噪声较多，语义性低；高层特征则具有较强的语义信息，但是其分辨率低，细节丢失比较多。融合多层的特征，即融合多尺度的特征，能够提升目标特征图的表征力。融合的方式有多种，比如，可以将相同尺度下的上采样特征图与特征图进行拼接；也可以将相同尺度下的上采样特征图和特征图对应的像素进行相加。可以理解的是，融合的方式并不仅限于以上举例，本实施例对此不作限制。

其中，步骤“从各个尺度的上采样融合特征图中确定所述目标图像的目标特征图”，可以包括：

将尺度最大的上采样融合特征图确定为所述目标图像的目标特征图。

可选地，本实施例中，步骤“根据预设关键部位模板图像，对所述目标图像的目标特征图进行身体关键部位检测，得到所述目标图像的身体关键区域”可以包括：

根据预设关键部位模板图像，对所述目标图像的目标特征图进行身体关键部位检测，得到所述目标特征图对应的至少一个候选身体关键区域；

根据各个候选身体关键区域和所述预设关键部位模板图像之间的相似度，从所述候选身体关键区域中确定目标图像的身体关键区域。

其中，预设关键部位模板图像可以用于识别目标图像中的身体关键区域，比如，若预设关键部位模板图像可以识别目标对象的头肩部区域，则它可以视为包含头肩部信息的标准图像，标准图像即规定的头肩部区域对应的图像。在一些实施例中，可以对预设关键部位模板图像进行不同尺度的缩放，得到多个尺度下的预设关键部位模板图像。其中，缩放的尺度可以根据实际情况进行设置，本实施例对此不作限制。

其中，一些实施例中，可以将与预设关键部位模板图像的相似度大于预设值的候选身体关键区域选取为目标图像的身体关键区域，该预设值可以根据实际情况进行设置；另一些实施例中，也可以根据相似度，对各个候选身体关键区域进行排序，如从大到小排序，得到排序后候选身体关键区域，再将排序后候选身体关键区域中的前N个候选身体关键区域作为目标图像的身体关键区域。

其中，步骤“根据预设关键部位模板图像，对所述目标图像的目标特征图进行身体关键部位检测，得到所述目标特征图对应的至少一个候选身体关键区域”，具体可以包括：基于滑动的预设关键部位模板图像，在目标图像的目标特征图上进行滑动，即对目标特征图进行遍历，得到至少一个候选身体关键区域。

可选地，本实施例中，可以将特征图的第一个通道的数据解码，将所有满足条件的候选身体关键区域进行非极大值抑制，经过非极大值抑制后，将剩余的满足条件的候选身体关键区域作为目标图像的身体关键区域，并输出该身体关键区域对应的坐标；此外，还可以根据目标图像原来的大小、和宽640*高384的对应倍数关系，将身体关键区域的横纵坐标还原到原来目标图像中对应身体关键区域的大小。

本实施例中，用于身体关键部位检测的神经网络模型可以由其他设备进行训练后，提供给该手势识别装置，或者，也可以由该手势识别装置自行进行训练。

若由该手势识别装置自行进行训练，则该手势识别方法还可以包括：

获取训练数据，所述训练数据包括样本图像和所述样本图像中身体关键区域的标签信息；

通过身体关键部位检测模型，对所述样本图像提取多个尺度下的特征图；

对所述多个尺度下的特征图进行上采样处理，得到所述样本图像的目标特征图；

根据预设关键部位模板图像，对所述样本图像的目标特征图进行身体关键部位检测，得到所述样本图像的实际身体关键区域；

根据所述样本图像的实际身体关键区域和对应的标签信息，对身体关键部位检测模型的参数进行调整，得到训练后的身体关键部位检测模型。

其中，样本图像可以包括多场景下的人体关键部位对应的可见光图像和红外光图像，样本图像中身体关键区域的标签信息具体可以指样本图像中全部人的身体关键部位标注信息，如位置标注信息等。

其中，具体地，在步骤“通过身体关键部位检测模型，对所述样本图像提取多个尺度下的特征图”之前，还可以对样本图像和其对应的标签信息进行预处理，如对样本图像进行数据增强(如Mosica数据增强)、随机左右翻转、左右15度范围内随机角度旋转、随机缩放和裁剪，随机增强图像色彩、亮度、饱和度以及对比度等，本实施例对此不作限制，最后再将预处理后的样本图像缩放到640*384像素，需要说明的是，样本图像对应的标注信息中身体关键区域坐标需要根据样本图像的预处理情况进行转换，转换后的身体关键区域坐标为预处理后的样本图像的相对值。

其中，参考图1c，该训练过程是先获取样本图像和样本图像的身体关键区域标注信息，根据向前传播算法对样本图像进行身体关键部位检测，得到样本图像的实际身体关键区域，计算实际身体关键区域和期望的身体关键区域标注信息之间的损失值是否满足训练停止条件，该训练停止条件可以根据实际情况进行设置，比如可以为损失值小于预设值时停止训练。若不满足训练停止条件，可以使用反向传播算法对身体关键部位检测模型的参数进行调整，根据实际身体关键区域和期望的身体关键区域标注信息之间的损失值，优化身体关键部位检测模型的参数，使得实际身体关键区域与期望的身体关键区域标注信息之间的损失值小于预设值，得到训练后的身体关键部位检测模型，将模型参数进行保存。

具体地，一些实施例中，还可以根据身体关键部位检测模型输出的多个特征图，提取第一个通道的特征图，并计算第一个通道的特征图与Centermap之间的第一损失值，再获取实际身体关键区域和期望的身体关键区域标注信息之间的第二损失值，根据第一损失值和第二损失值，优化身体关键部位检测模型的参数。

其中，Centermap具体为一个高斯响应，如果样本图像中有多个人(也即目标对象有多个)，Centermap可以用于提示身体关键部位检测模型当前所要处理的对象的位置。

其中，边界框位置对应的损失值(即第二损失值)的目标函数可以使用GIoU，如式子(2)所示：

其中，IoU表示标注的真实框与预测框的交集与并集的比值，A_c表示真实框与预测框的最小闭包区域，U表示真实框与预测框的交集，GIoU表示真实框和预测框之间的损失值。其中，最小闭包区域可以理解为同时包含了预测框和真实框的最小框。真实框可以为上述实施例中的期望的身体关键区域标注信息(即期望身体关键区域)，预测框可以为上述实施例中的实际身体关键区域。

其中，损失值的目标函数可以使用二值交叉墒BCE(binary cross entropy)。

105、对所述身体关键区域进行手势识别，得到所述目标对象的手势识别结果。

本实施例中，先识别出身体关键区域，再在身体关键区域的基础上进行手势识别，可以更好地检测出目标对象的手势，避免远距离拍摄时，采集得到的目标图像中目标对象的手势区域较小而导致的检测不到手势的情况。

一些实施例中，可以使用预训练的神经网络模型对所述身体关键区域进行手势识别。该神经网络模型可以是移动网络v2(MobileNetV2)、开端模型(Inception)、效率网络(EfficientNet)、视觉几何组网络(VGGNet，Visual Geometry Group Network)、残差网络(ResNet，Residual Network)和密集连接卷积网络(DenseNet，Dense ConvolutionalNetwork)等等，但是应当理解的是，本实施例的神经网络模型并不仅限于上述列举的几种类型。

可选地，本实施例中，步骤“对所述身体关键区域进行手势识别，得到所述目标对象的手势识别结果”，可以包括：

对所述身体关键区域进行扩展处理，得到关键区域扩展图像；

对所述关键区域扩展图像进行多尺度的特征提取，得到所述关键区域扩展图像对应的多个尺度下的特征图；

对所述多个尺度下的特征图进行上采样处理，得到所述关键区域扩展图像的目标特征图；

根据预设手势模板图像，对所述关键区域扩展图像的目标特征图进行手势识别，得到目标手势区域、以及所述目标对象对应的手势类别。

其中，对身体关键区域进行扩展处理，具体可以对身体关键区域的上下左右各扩展1倍，得到关键区域扩展图像。

其中，在对关键区域扩展图像进行多尺度的特征提取前，还可以对关键区域扩展图像中像素点的像素值进行归一化处理，得到归一化后的关键区域扩展图像；再对归一化后的关键区域扩展图像进行缩放处理，如将关键区域扩展图像的宽缩放到256像素，高缩放到256像素，再对缩放后的关键区域扩展图像进行手势识别。

其中，对关键区域扩展图像提取多个尺度下的特征图，具体可以是使用神经网络模型的卷积部分提取多个尺度下的特征图，如对于MobileNetV2，其包括四个残差组结构，可以从这四个残差组结构中获得四种大小的特征图(featuremap)。

其中，具体地，步骤“对所述多个尺度下的特征图进行上采样处理，得到所述关键区域扩展图像的目标特征图”，可以包括：

对目标尺度的特征图进行上采样处理，得到所述关键区域扩展图像的多个尺度下的上采样融合特征图，其中，每个尺度的上采样输入为相邻尺度的上采样特征图和特征图融合得到的融合特征；

从各个尺度的上采样融合特征图中确定所述关键区域扩展图像的目标特征图。

其中，融合的方式有多种，比如，可以将相同尺度下的上采样特征图与特征图进行拼接；也可以将相同尺度下的上采样特征图和特征图对应的像素进行相加。可以理解的是，融合的方式并不仅限于以上举例，本实施例对此不作限制。

其中，步骤“从各个尺度的上采样融合特征图中确定所述关键区域扩展图像的目标特征图”，可以包括：

将尺度最大的上采样融合特征图确定为所述关键区域扩展图像的目标特征图。

可选地，本实施例中，步骤“根据预设手势模板图像，对所述关键区域扩展图像的目标特征图进行手势识别，得到目标手势区域、以及所述目标对象对应的手势类别”，可以包括：

通过滑动的预设手势模板图像，对所述关键区域扩展图像的目标特征图进行手势识别，得到所述目标特征图对应的至少一个候选手势区域；

根据所述预设手势模板图像和各个候选手势区域之间的相似度，从各个候选手势区域中确定目标手势区域；

将从所述目标手势区域中识别到的手势类别确定为所述目标对象对应的手势类别。

其中，预设手势模板图像可以用于识别目标特征图中的手势区域，它可以视为包含手势信息的标准图像，标准图像即规定的手势区域对应的图像。在一些实施例中，可以对预设手势模板图像进行不同尺度的缩放，得到多个尺度下的预设手势模板图像。其中，缩放的尺度可以根据实际情况进行设置，本实施例对此不作限制。

其中，一些实施例中，可以将与预设手势模板图像的相似度大于预设值的候选手势区域选取为目标特征图的目标手势区域，该预设值可以根据实际情况进行设置；另一些实施例中，也可以根据相似度，对各个候选手势区域进行排序，如从大到小排序，得到排序后候选手势区域，再将排序后候选手势区域中的前N个候选手势区域作为目标特征图的目标手势区域。

其中，步骤“通过滑动的预设手势模板图像，对所述关键区域扩展图像的目标特征图进行手势识别，得到所述目标特征图对应的至少一个候选手势区域”，具体可以包括：基于滑动的预设手势模板图像，在关键区域扩展图像的目标特征图上进行滑动，即对目标特征图进行遍历，得到至少一个候选手势区域。

可选地，本实施例中，可以将特征图的第一个通道的数据解码，将所有满足条件的候选手势区域进行非极大值抑制，经过非极大值抑制后，将剩余的满足条件的候选手势区域作为目标图像的目标手势区域，并输出该目标手势区域对应的坐标；此外，还可以根据目标图像原来的大小、和宽256*高256的对应倍数关系，将目标手势区域的横纵坐标还原到原来目标图像中对应手势区域的大小。

本实施例中，用于手势识别的神经网络模型可以由其他设备进行训练后，提供给该手势识别装置，或者，也可以由该手势识别装置自行进行训练。

获取训练数据，所述训练数据包括样本图像和所述样本图像中手势区域的标签信息；

通过手势识别模型，对所述样本图像提取多个尺度下的特征图；

根据预设手势模板图像，对所述样本图像的目标特征图进行手势识别，得到所述样本图像的实际手势区域；

根据所述样本图像的实际手势区域和对应的标签信息，对手势识别模型的参数进行调整，得到训练后的手势识别模型。

其中，样本图像可以包括多场景下包含人体手势的可见光图像和红外光图像，样本图像中手势区域的标签信息具体可以指样本图像中全部人的手势框标注信息，如位置标注信息等。

其中，具体地，在步骤“通过手势识别模型，对所述样本图像提取多个尺度下的特征图”之前，还可以对样本图像和其对应的标签信息进行预处理，如对样本图像进行数据增强(如Mosica数据增强)、随机左右翻转、左右15度范围内随机角度旋转、随机缩放和裁剪，随机增强图像色彩、亮度、饱和度以及对比度等，本实施例对此不作限制，最后再将预处理后的样本图像缩放到256*256像素，需要说明的是，样本图像对应的标注信息中手势框坐标需要根据样本图像的预处理情况进行转换，转换后的手势框坐标为预处理后的样本图像的相对值。

其中，该训练过程是先计算出样本图像的实际手势区域，然后，使用反向传播算法对手势识别模型的参数进行调整，根据实际手势区域和期望的手势框标注信息之间的损失值，优化手势识别模型的参数，使得实际手势区域与期望的手势框标注信息之间的损失值小于预设值，得到训练后的手势识别模型。

具体地，一些实施例中，还可以根据手势识别模型输出的多个特征图，提取第一个通道的特征图，并计算第一个通道的特征图与Centermap之间的第一损失值，再获取实际手势区域和期望的手势框标注信息之间的第二损失值，根据第一损失值和第二损失值，优化手势识别模型的参数。

其中，Centermap具体为一个高斯响应，如果样本图像中有多个人(也即目标对象有多个)，Centermap可以用于提示手势识别模型当前所要处理的对象的位置。

其中，边界框位置对应的损失值(即第二损失值)的目标函数可以使用GIoU，如式子(3)所示：

其中，IoU表示标注的真实框与预测框的交集与并集的比值，A_c表示真实框与预测框的最小闭包区域，U表示真实框与预测框的交集，GIoU表示真实框和预测框之间的损失值。其中，最小闭包区域可以理解为同时包含了预测框和真实框的最小框。真实框可以为上述实施例中的期望的手势框标注信息(即期望手势区域)，预测框可以为上述实施例中的实际手势区域。

可选地，本申请可以提供一种基于可见光图像和红外光图像的远距离手势识别***，它可以包括：图像获取模块、图像预处理模块、暗光判断模块、头肩模块和手势识别模块，具体描述如下：

图像获取模块，用于获取摄像头采集的待手势识别图像(包括可见光图像和红外光图像)；

图像预处理模块，用于对摄像头采集的图像进行归一化和缩放等预处理操作；

暗光判断模块，用于将预处理后的可见光图像输入到暗光检测算法，经过判别后给出暗光环境的置信度，根据置信度确定用红外光图像进行手势识别，还是用可见光图像进行手势识别；

头肩模块，用于将选取得到的目标图像输入到预训练的神经网络模型中，并经过与预训练模型匹配的后处理算法，预测目标图像中所有人的头肩框的坐标；

手势识别模块，用于将目标图像的头肩部区域输入到预训练的神经网络模型中，并经过与预训练模型匹配的后处理算法，预测头肩部区域中所有手势框的坐标与类别。

本申请可以通过暗光判断模块，判断当前场景是否为暗光场景，若非暗光场景，可以基于可见光图像进行手势识别；若为暗光场景，切换到IR手势识别算法，即基于红外光图像进行手势识别。这样可以解决当前业界手势算法无法在光线极差的暗光环境下使用的缺点，本申请可以根据暗光判断模块，检测光线环境，自动切换基于RGB手势识别算法和IR手势识别算法，因此可以在复杂的暗光场景下稳定运行。

本申请可以通过身体关键部位检测算法检测出身体关键区域，对身体关键区域上下左右各扩大1倍边长，得到关键区域扩展图像；再对关键区域扩展图像进行预处理，将预处理结果作为手势识别算法的输入图片。相比于目前常用的手势识别算法中因手部目标在全图占比过小，导致准确率和检出率的低缺点，本方法的处理逻辑大大提高了手部在输入图片中的占比，直接提高了准确率和检出率，检测距离可达到6米，而且扣取的关键区域扩展图像远远小于全图，将关键区域扩展图像作为手势识别算法的输入，这样算力需求更小，速度更快。

本申请可以基于RGB全图和IR全图进行远距离手势识别，其通过使用基于深度学习的手势识别算法预测图片中每个人的手势类别，能够在嵌入式终端或服务器端进行快速准确的稳定运行，从而进行进一步的行为识别或人机交互，满足智能家电、游戏交互等场景下的不同需求。

在一具体场景中，如图1d所示，通过摄像头采集当前帧(待手势识别图像)的可见光图像和红外光图像；对待手势识别图像进行归一化和缩放等预处理；并依据暗光检测算法，检测当前场景属于暗光场景的置信度，若光线良好，为非暗光场景，将可见光图像作为目标图像；若为暗光场景，将红外光图像作为目标图像。再对预处理后的目标图像进行身体关键部位检测，得到身体关键区域；对身体关键区域(具体可以是头肩框)上下左右分别延伸框高和框宽的1倍进行扩框，以扩展框的坐标在原图(目标图像)上扣取子图，得到关键区域扩展图像，将其作为手势识别算法的输入图。其中，身体关键区域的数量决定了调用手势识别算法的次数。

其中，针对每个身体关键区域，可以获取对应一个关键区域扩展图像，对各个关键区域扩展图像进行手势识别，得到对应的手势区域(即手势框)。将所有检出的手势框结果进行合并，并过滤掉因关键区域扩展图像重叠导致重复检测出的手势框；将过滤后的手势框作为当前帧的手势识别结果。

由上可知，本实施例可以获取针对目标对象的待手势识别图像，所述待手势识别图像包括可见光图像和红外光图像；对所述可见光图像进行暗光检测，得到暗光检测结果；根据所述暗光检测结果，从所述待手势识别图像中选取目标图像；对所述目标图像进行身体关键部位检测，得到所述目标图像的身体关键区域；对所述身体关键区域进行手势识别，得到所述目标对象的手势识别结果。本申请实施例可以根据暗光检测结果，来选取用于手势识别的目标图像，进而对目标图像进行手势识别，提高了在暗光环境下的检测效果，增强了适用性。

根据前面实施例所描述的方法，以下将以该手势识别装置具体集成在服务器举例作进一步详细说明。

本申请实施例提供一种手势识别方法，如图2所示，该手势识别方法的具体流程可以如下：

201、服务器获取针对目标对象的待手势识别图像，所述待手势识别图像包括可见光图像和红外光图像。

202、服务器对所述可见光图像进行暗光检测，得到暗光检测结果。

203、当所述暗光检测结果为暗光场景的置信度小于预设值时，服务器将所述待手势识别图像中的可见光图像确定为目标图像；当所述暗光检测结果为暗光场景的置信度不小于所述预设值时，服务器将所述待手势识别图像中的红外光图像确定为目标图像。

204、服务器对所述目标图像进行身体关键部位检测，得到所述目标图像的身体关键区域。

对所述目标图像提取多个尺度下的特征图；

205、服务器对所述身体关键区域进行手势识别，得到所述目标对象的手势识别结果。

由上可知，本实施例可以通过服务器获取针对目标对象的待手势识别图像，所述待手势识别图像包括可见光图像和红外光图像；对所述可见光图像进行暗光检测，得到暗光检测结果；当所述暗光检测结果为暗光场景的置信度小于预设值时，服务器将所述待手势识别图像中的可见光图像确定为目标图像；当所述暗光检测结果为暗光场景的置信度不小于所述预设值时，服务器将所述待手势识别图像中的红外光图像确定为目标图像；对所述目标图像进行身体关键部位检测，得到所述目标图像的身体关键区域；对所述身体关键区域进行手势识别，得到所述目标对象的手势识别结果。本申请实施例可以根据暗光检测结果，来选取用于手势识别的目标图像，进而对目标图像进行手势识别，提高了在暗光环境下的检测效果，增强了适用性。

为了更好地实施以上方法，本申请实施例还提供一种手势识别装置，如图3所示，该手势识别装置可以包括获取单元301、暗光检测单元302、选取单元303、身体关键部位检测单元304以及手势识别单元305，如下：

(1)获取单元301；

获取单元，用于获取针对目标对象的待手势识别图像，所述待手势识别图像包括可见光图像和红外光图像。

(2)暗光检测单元302；

暗光检测单元，用于对所述可见光图像进行暗光检测，得到暗光检测结果。

(3)选取单元303；

选取单元，用于根据所述暗光检测结果，从所述待手势识别图像中选取目标图像。

(4)身体关键部位检测单元304；

身体关键部位检测单元，用于对所述目标图像进行身体关键部位检测，得到所述目标图像的身体关键区域。

(5)手势识别单元305；

由上可知，本实施例可以通过获取单元301获取针对目标对象的待手势识别图像，所述待手势识别图像包括可见光图像和红外光图像；通过暗光检测单元302对所述可见光图像进行暗光检测，得到暗光检测结果；通过选取单元303根据所述暗光检测结果，从所述待手势识别图像中选取目标图像；通过身体关键部位检测单元304对所述目标图像进行身体关键部位检测，得到所述目标图像的身体关键区域；通过手势识别单元305对所述身体关键区域进行手势识别，得到所述目标对象的手势识别结果。本申请实施例可以根据暗光检测结果，来选取用于手势识别的目标图像，进而对目标图像进行手势识别，提高了在暗光环境下的检测效果，增强了适用性。

本申请实施例还提供一种电子设备，如图4所示，其示出了本申请实施例所涉及的电子设备的结构示意图，该电子设备可以是终端或者服务器等，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理***与处理器401逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，该电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取针对目标对象的待手势识别图像，所述待手势识别图像包括可见光图像和红外光图像；对所述可见光图像进行暗光检测，得到暗光检测结果；根据所述暗光检测结果，从所述待手势识别图像中选取目标图像；对所述目标图像进行身体关键部位检测，得到所述目标图像的身体关键区域；对所述身体关键区域进行手势识别，得到所述目标对象的手势识别结果。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种手势识别方法中的步骤。例如，该指令可以执行如下步骤：

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请实施例所提供的任一种手势识别方法中的步骤，因此，可以实现本申请实施例所提供的任一种手势识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述手势识别方面的各种可选实现方式中提供的方法。

以上对本申请实施例所提供的一种手势识别方法以及相关设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种手势识别方法，其特征在于，包括：

对所述可见光图像进行暗光检测，得到暗光检测结果；

2.根据权利要求1所述的方法，其特征在于，所述根据所述暗光检测结果，从所述待手势识别图像中选取目标图像，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述可见光图像进行暗光检测，得到暗光检测结果之前，还包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述目标图像进行身体关键部位检测，得到所述目标图像的身体关键区域，包括：

对所述目标图像提取多个尺度下的特征图；

5.根据权利要求1所述的方法，其特征在于，所述对所述身体关键区域进行手势识别，得到所述目标对象的手势识别结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据预设手势模板图像，对所述关键区域扩展图像的目标特征图进行手势识别，得到目标手势区域、以及所述目标对象对应的手势类别，包括：

7.一种手势识别装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至6任一项所述的手势识别方法中的操作。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至6任一项所述的手势识别方法中的步骤。

10.一种计算机程序产品，包括计算机程序或指令，其特征在于，该计算机程序或指令被处理器执行时实现权利要求1至6任一项所述的手势识别方法中的步骤。