CN115421590A

CN115421590A - 一种手势控制方法、存储介质及摄像设备

Info

Publication number: CN115421590A
Application number: CN202210976198.1A
Authority: CN
Inventors: 肖兵; 陈瑞斌; 李正国; 邱俊锋; 廖鑫
Original assignee: Zhuhai Shixi Technology Co Ltd
Current assignee: Zhuhai Shixi Technology Co Ltd
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-12-02
Anticipated expiration: 2042-08-15
Also published as: CN115421590B

Abstract

本发明提供了一种手势控制方法、存储介质及摄像设备，所述方法包括：获取视频图像，对所述视频图像进行手部检测，以识别所述视频图像中的手部目标；对所述手部目标进行跟踪，并生成所述手部目标的手部目标跟踪信息；基于所述手部目标跟踪信息判断所述手部目标处于手势请求状态时，识别所述手部目标对应的手势类型；依据所述手势类型识别对应的手势控制指令，并响应所述手势控制指令。基于本发明提供的方法，用户无需手动操作遥控器等控制设备，通过简单的手势即可实现智能人机交互。本发明提供的手势控制处理过程高效，整体性能好，实时性好，具有较好的用户体验。

Description

一种手势控制方法、存储介质及摄像设备

技术领域

本发明涉及智能控制技术领域，特别是一种手势控制方法、存储介质及摄像设备。

背景技术

随着智能识别技术的发展，非手动执行的智能控制技术由于其便捷性已逐渐取代了传统的遥控操作。非手动执行的智能控制技术可以理解为通过智能识别用户的命令，以对智能设备进行控制。

例如，现有对语音控制技术，用户可以通过发出语音信息以对智能设备开启/关闭的控制，或者是运行过程中的运行参数的设置。在一些嘈杂环境下或者是不方便进行语音的情况下，还是需要从语音控制的方式切换回传统的手动控制的方式，从而无法满足用户的智能控制需求，进而影响用户的使用体验。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的手势控制方法、存储介质及摄像设备。

根据本发明的一个方面，提供了一种手势控制方法，所述方法包括：

获取视频图像，对所述视频图像进行手部检测，以识别所述视频图像中的手部目标；

对所述手部目标进行跟踪，并生成所述手部目标的手部目标跟踪信息；

基于所述手部目标跟踪信息判断所述手部目标处于手势请求状态时，识别所述手部目标对应的手势类型；

依据所述手势类型识别对应的手势控制指令，并响应所述手势控制指令。

可选地，所述基于所述手部目标跟踪信息判断所述手部目标处于手势请求状态时，识别所述手部目标对应的手势类型之前，所述方法还包括：

获取所述手部目标对应的手部目标检测框，并根据所述手部目标检测框关联的参数分析所述手部目标的稳定状态；

确定与所述手部目标关联的人像目标；

分析所述人像目标的人像姿态稳定状态；

结合所述手部目标的稳定状态和所述人像目标的稳定状态判别所述手部目标是否处于稳定手势请求状态。

可选地，所述结合所述手部目标的稳定状态和所述人像目标的稳定状态判别所述手部目标是否处于稳定手势请求状态包括：

若所述手部目标的手部姿态稳定且检测结果稳定，并存在与所述手部目标关联的稳定的人像目标，则确定所述手部目标处于手势请求状态。

可选地，所述若所述手部目标的手部姿态稳定且检测结果稳定，并存在与所述手部目标关联的稳定的人像目标之后，所述方法还包括：

统计所述手部目标的稳定参数；所述稳定参数包括稳定时长或稳定帧数；

若统计的所述稳定参数大于预设参数，则确定所述手部目标处于手势请求状态。

可选地，所述确定与所述手部目标关联的人像目标之前，所述方法还包括：

对所述视频图像进行人像检测，以识别所述视频图像中的参考人像目标；

对各所述参考人像目标进行跟踪，并生成各所述参考人像目标的人像目标跟踪信息；所述人像目标跟踪信息包括人像目标标识和轨迹信息。

可选地，所述确定与所述手部目标关联的人像目标包括：

确定各所述参考人像目标的手势候选区域；

依据所述手部目标的手部目标检测框与各所述手势候选区域的位置关系确定与所述手部目标关联的人像目标。

可选地，所述确定各所述参考人像目标的手势候选区域包括：

对于任一所述参考人像目标，识别所述参考人像目标对应的上半身区域；

依据所述上半身区域确定所述参考人像目标的手势候选区域。

可选地，所述依据所述上半身区域确定所述参考人像目标的手势候选区域包括：

将所述上半身区域作为所述参考人像目标的手势候选区域；或，

对于任一所述参考人像目标，获取所述参考人像目标对应人像目标检测框的检测框参数；获取预先设置的手势候选区域相对于人像目标检测框的比例关系，依据所述比例关系对所述检测框参数进行调整以得到所述参考人像目标的手势候选区域。

可选地，所述依据所述手部目标的手部目标检测框与各所述手势候选区域的位置关系确定与所述手部目标关联的人像目标包括：

若所述手部目标的手部目标检测框包含于任一手势候选区域，则将该手势候选区域对应的参考人像目标作为所述手部目标关联的人像目标；或，

若所述手部目标的手部目标检测框与任一手势候选区域的重叠比例超过预设值，则将该手势候选区域对应的参考人像目标作为所述手部目标关联的人像目标。

可选地，所述根据所述手部目标检测框关联的参数分析所述手部目标的稳定状态包括：

对于任一所述手部目标，记录所述手部目标的当前手部目标检测框，并计算所述当前手部目标检测框与预先定义的稳定手部目标检测框的交并比，根据交并比计算结果分析所述手部目标的手部姿态稳定状态；或，

记录所述手部目标对应的手部目标检测框当前的检测参数；获取所述手部目标检测框预设的稳定参数；分别计算所述检测参数和所述稳定参数的标准差，根据标准差计算结果分析所述手部目标的手部姿态稳定状态。

可选地，所述根据所述手部目标检测框关联的参数分析所述手部目标的稳定状态之后，还包括：

获取所述手部目标的跟踪丢失帧数；所述跟踪丢失帧数用于记录跟踪的手部目标未成功关联到检测框的连续次数；

若所述手部目标的跟踪丢失帧数不超过预设目标丢失帧数阈值，则确定所述手部目标的检测结果稳定。

可选地，所述依据所述手势类型识别对应的手势控制指令，并响应所述手势控制指令包括：

将所述手势类型与预设手势控制指令类型进行比对，以识别出所述手势类型对应的手势控制指令；

响应所述手势控制指令。

可选地，所述将所述手势类型与预设手势控制指令类型进行比对，以识别出所述手势类型对应的手势控制指令之后，所述方法还包括：

确定所述手势控制指令的手势控制指令发起对象，并获取所述手势控制指令发起对象的对象信息；

输出所述手势控制指令和/或所述对象信息。

根据本发明的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述任一项所述的方法。

根据本发明的另一方面，还提供了一种摄像设备，所述摄像设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述任一项所述的方法。

本发明提供了一种手势控制方法、存储介质及摄像设备，本发明提供的方案中，通过获取视频图像，识别并跟踪所述视频图像中的手部目标，在判断所述手部目标处于手势请求状态时，识别所述手部目标对应的手势类型，进而依据所述手势类型识别对应的手势控制指令，并响应所述手势控制指令。基于本发明提供的方法，用户无需手动操作遥控器等控制设备，通过简单的手势即可实现智能人机交互，并且，本发明提供的手势控制处理过程高效，整体性能好，实时性好，具有较好的用户体验。并且，经济性好，对硬件算力要求低，易于在中低端嵌入式平台实施，便于降低硬件成本，有利于手势控制技术的普及；除了可输出手势控制指令类型之外，还可输出人、手数据关联信息，检测、跟踪信息等其他相关结果，便于应用功能扩展，也十分适合当下多功能集成的智能人机交互产品；方法整体具有较好的兼容性和扩展性，能满足多种不同的手势交互方案的实施需要。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明实施例的手势控制方法流程示意图；

图2示出了根据本发明实施例的手势请求状态判断过程示意图；

图3示出了根据本发明实施例的是检测框示意图；

图4a、图4b示出了根据本发明实施例的手势候选区域示意图。

图5a、图5b示出了根据本发明实施例的人、手数据关联示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种手势控制方法，如图1所示，本发明实施例的手势控制方法至少可以包括以下步骤S101～S104。

S101，获取视频图像，对视频图像进行手部检测，以识别视频图像中的手部目标。本实施例的视频图像可以通过摄像头实时采集的视频图像，也可以是已经拍摄的一段视频文件中的视频图像。对视频图像进行手部检测时，可以将视频图像输入深度神经网络模型，以利用深度神经网络模型实现手部的检测识别。本实施例的深度神经网络是预先训练至收敛状态的可以用于进行多目标检测的神经网络模型。传统的目标检测网络一般都支持多类目标检测，即一次推理可检测多个且多种类型目标，在本实施例中主要用于同时对视频图像中包含的人像目标以及手部目标的检测识别，只要检测网络的训练阶段针对多类目标进行训练即可，比如采用比较典型的YOLO系列、SSD等网络。

S102，对手部目标进行跟踪，并生成手部目标的手部目标跟踪信息，手部目标跟踪信息可以手部目标ID和轨迹。对于步骤S101检测出的手部目标进行跟踪，得到相应的手部目标的ID和轨迹等手部跟踪信息。在进行手部跟踪时，优选SORT(Simple Online AndRealtime Tracking)算法，该算法为经典的基于检测的多目标跟踪算法，具有计算量小、运算速度快的特点。当然，如果在应用需要且算力允许的情况下，还可选用DeepSORT等其他跟踪算法。

S103，基于手部目标跟踪信息判断手部目标处于手势请求状态时，识别手部目标对应的手势类型。

对于各个手部目标，可以监测分析各手部是否处手势请求状态，当判断任一手部目标处于手势请求状态时，则识别该手势目标所摆出的手势类型。本实施例中，仅对判定为处于手势控制请求状态的手部采用深度神经网络模型进行手型分类，该深度神经网络模型区域与步骤S101中目标检测的神经网络模型，是一种用于对手势进行分类识别的学习模型。分类时需要先根据手部检测框从原图中裁剪出手部图像，然后将其送入分类网络经推理得到相应的手型类别。也就是说，一般情况下，画面中的所有的手部都要逐一进行手型分类，虽然单次手型分类处理速度较快，但当画面中数目较多(人数较多)时，手型分类总体耗时就变得很大，极易影响应用整体性能。考虑到实际多人场景中仅有个别用户在进行手势控制(本发明实施例称其为处于手势请求状态)，通过前述步骤手势请求状态分析，可以将大部分随意的、无手势控制意图的手部目标筛除，仅对个别“就绪”的手部进行手型分类，从而节省了不必要的计算消耗，提高了处理速度，进而保证了整体性能和体验。对判定为不处于手势控制请求状态的手部直接将其置为无效手势，从而得到画面中所有的手部对应手势并且省去不处于手势控制请求状态的手型分类计算。

S104，依据手势类型识别对应的手势控制指令，并响应上述手势控制指令。上述步骤S103中已经将确定手部目标处于手势请求状态时，即，可判断手部目标作出了有效手势，通过对上述分类模型得到的手势类型进行分析，以识别出是否发起手势控制指令以及发出的手势控制指令的类型，进而可以响应于手势控制指令实现设备的控制，例如，可控制智能模块对视频图像做相应的图像处理、控制输出视频图像的摄像头实现对特定人像或是物体的采集，或是实现对其他设备的开关等不同工作状态的手势控制。

本实施例提供了一种手势控制方法，通过获取视频图像，识别并跟踪视频图像中的手部目标，在判断手部目标处于手势请求状态时，识别手部目标对应的手势类型，进而依据手势类型识别对应的手势控制指令，并响应手势控制指令。基于本发明实施例提供的方法，用户无需手动操作遥控器等控制设备，通过简单的手势即可实现智能人机交互，并且，本实施例提供的手势控制处理过程高效，整体性能好，实时性好，具有较好的用户体验。其中，手势控制指令是可以直接用于控制图像采集***对其部署场景的取景模式的快捷控制方式，处于部署场景中的各个人体对象均可以通过其手部触发手势控制指令，不同的手势可以对应触发不同的手势控制指令，具体可以根据不同的场景应用需求进行设置。本实施例提供的手势控制方案是一种较为自然且便捷的人机交互方式，具有广阔的应用场景。

参见上述步骤S103基于手部目标跟踪信息判断手部目标处于手势请求状态时，才会识别手部目标对应的手势类型，也就是说，在上述步骤S103之前，还需要对手部目标是否处于手势请求状态进行识别判断。本实施例还提供了手势请求状态判断方法，如图2所示，本实施例的手势请求状态判断至少可以包括以下步骤S201～S204。

S201，获取手部目标对应的手部目标检测框，并根据手部目标检测框关联的参数分析手部目标的稳定状态。本实施例的手部目标的稳定状态主要包括手部姿态稳定状态。前文介绍，会通过深度神经网络模型对视频图像中的手部目标进行检测，本实施例中，后台利用深度神经网络进行检测时，针对识别处的手部区域会生成检测框，该检测框是后台处理可以识别到的框或者演示算法效果时候可以看到的，正常情况下不会在视频图像中显示检测框。可选地，本实施例中可以对任意手部进行目标跟踪，根据手部目标检测框判别手部大小和位置是否稳定。具体的衡量指标可以用检测框交并比(IoU，Intersection overUion)，也可以用检测框各参数的标准差。

第一种方式，交并比；

对于任一手部目标，记录手部目标的当前手部目标检测框，并计算当前手部目标检测框与预先定义的稳定手部目标检测框的交并比，根据交并比计算结果分析手部目标的手部姿态稳定状态。

以检测框IoU为例，设定手部检测框IoU阈值T_{hand_iou}，对任意手部跟踪目标，记其当前手部目标检测框为B_current，并定义稳定手部目标检测框记为B_stable。其中，B_current可以通过该手部目标跟踪信息获得，该手部跟踪目标被创建时将当时的检测框作为B_stable的初始值。在进行手部姿态稳定性判定时，即计算当前手部目标检测框B_current与稳定手部目标检测框B_stable的IoU，若该IoU超过阈值T_{hand_iou}，则认为该手部姿态稳定，否则，认为该手部姿态不稳定并用当前检测框B_current来更新稳定检测框B_stable。

第二种方式，标准差；

记录手部目标对应的手部目标检测框当前的检测参数；获取手部目标检测框预设的稳定参数；分别计算检测参数和稳定参数的标准差，根据标准差计算结果分析手部目标的手部姿态稳定状态。

用检测框各参数的标准差作为衡量指标，即对任意手部跟踪目标，计算前后帧或历史各帧的检测框参数各自的标准差，若标准差小于预设阈值，则认为该手部姿态稳定，否则，认为该手部姿态不稳定。检测框就是矩形框，可以采用如图3所示不同的方式表示，本实施例中的检测框参数可以为(x,y,w,h)、(x,y,w,h)、(x,y,w,h)，的形式，或者是其他形式，计算标准差时可采用其中任意一种方式。其中，(x,y,w,h)中的(x,y,)为矩形检测框的一个顶点的坐标，w、h分别表示检测框的宽和高；(cx,cy,w,h)中的(cx,cy)为矩形检测框的中心点的坐标，w、h分别表示检测框的宽和高；(x₁,y₁,x₂,y₂)中的(x₁,y₁,)和(x₂,y₂)分别表示矩形检测框任一对角线上的两个顶点。

本实施例中的手部稳定状态分析除了上文提及的手部姿态稳定状态分析之外，还可以包括检测结果稳定状态。可选地，在上述步骤S201根据手部目标检测框关联的参数分析手部目标的稳定状态之后，还可以包括：获取手部目标的跟踪丢失帧数；跟踪丢失帧数用于记录跟踪的手部目标未成功关联到检测框的连续次数；若手部目标的跟踪丢失帧数不超过预设目标丢失帧数阈值，则确定手部目标的检测结果稳定。

手部跟踪属于多目标跟踪，多目标跟踪通常会为每个跟踪目标分配一个目标丢失帧数(记skip_count)用以记录跟踪目标未成功关联到检测框的连续次数，并设定一个统一的最大丢失帧数阈值(记Tmax_skip_count)，当skip_count≥Tmax_skip_count时就认为该目标消失将其从跟踪列表移除。换言之，本实施例中以手部目标跟踪丢失帧数作为衡量指标。具体地，设定目标丢失帧数阈值T_{hand_skip}，对任意跟踪的手部目标，若其丢失帧数不超过T_{hand_skip}(优选地，取值为1)，则认为该手部检测结果稳定，否则，认为该手部检测结果不稳定。

本实施例提供的方法，通过对手部姿态稳定状态以及检测结果稳定状态进行综合判断，对任意手部目标，仅当其手部姿态和检测结果均被判定为稳定，才对该手部目标继续执行后续步骤，从而准确确定有效手势，避免由于临时的手部动作误判而影响用户的使用体验。

S202，确定与手部目标关联的人像目标。

人、手数据关联是多人场景下手势控制技术的一个关键问题，其作用是将手势与相应的手势发起者关联起来，以便于对不同的手势发起者及其手势请求进行区分(比如只响应具有特殊权限的手势发起者，或对已响应的手势发起者持续追踪等)。本实施例提供的方法中，无论是针对单人场景或在多人场景的手势控制中，均能够实现人、手数据关联。本实施例中，在确定手部目标关联之前，还需要对视频图像进行人像检测，以识别视频图像中的参考人像目标；对各参考人像目标进行跟踪，并生成各参考人像目标的人像目标跟踪信息；人像目标跟踪信息包括人像目标标识和轨迹信息。人像目标至少包括人脸、人头、头肩、人体等其中一种。

在检测人像目标时，可以采用检测手部目标的深度神经网络学习模型对输入的视频图像进行同步检测识别，对于检测出的人像进行多目标跟踪，优选SORT(Simple OnlineAnd Realtime Tracking)算法，该算法为经典的基于检测的多目标跟踪算法，具有计算量小、运算速度快的特点。如果在应用需要且算力允许的情况下，还可选用DeepSORT等其他跟踪算法。

上述步骤S202中确定与手部目标关联的人像目标具体可以包括以下步骤A1～A2。

A1，确定各参考人像目标的手势候选区域。如前，本发明人像目标为人脸、人头、头肩、人体等其中至少一种。对于需要人、手数据关联的多人场景手势控制而言，本发明实施例只需其中一种人像目标即可。而具体选用哪一种，可根据实际应用需求而定，本发明实施例对此不做限定。在此，仅以人头目标为例阐述具体的技术细节，其他类型的人像目标可类比参照本实施例记载的方式。

可选地，本实施例在确定各参考人像目标的手势候选区域时包括：对于任一所述参考人像目标，识别所述参考人像目标对应的上半身区域；依据所述上半身区域确定所述参考人像目标的手势候选区域。可选地，可以直接将所述上半身区域作为参考人像目标的手势候选区域。本实施例中，手势候选区域优选为手势发起者上半身相关区域，手势候选区域应涵盖手势发起者面向人机交互设备在胸前或肩头正式且自然地做出交互手势时手部可能出现的大部分区域。

进一步地，还可以针对上半身区域进行微调以得到更加精确的手势候选区域。即，上述依据所述上半身区域确定所述参考人像目标的手势候选区域可以包括：获取参考人像目标对应人像目标检测框的检测框参数；获取预先设置的手势候选区域相对于人像目标检测框的比例关系，依据所述比例关系对检测框参数进行调整以得到所述参考人像目标的手势候选区域。

比如，竖直方向为腹部以上、额头以下，水平方向为两臂之间，在此基础上可进一步根据实际需要适当微调。

根据上述宏观描述，手势候选区域可由手势发起者相应人像检测框计算得出，当手势发起者位置发生变化时，相应手势候选区域也会随之自动调整。(人像目标)以人头目标为例，预设手势候选区域相对于人头检测框的竖直偏移比例S_y，手势候选区域相对人头检测框宽、高的比例分别为S_w、S_h，即，手势候选区域的大小可以根据检测框的大小进行确定，具体可以根据检测框在各个方向上的参数进行比例放大以得到，例如，对任意人头检测框(x_head,y_head,w_head,h_head)，相应的手势候选区域(x_roi,y_roi,w_roi,h_roi)中各个参数的计算公式为：

w_roi＝w_head*S_w

h_roi＝h_head*S_h

x_roi＝x_head+w_head/2-w_roi/2

y_roi＝y_head+h_head*S_y

A2，依据手部目标的手部目标检测框与各手势候选区域的位置关系确定与手部目标关联的人像目标。

本实施例中，可以通过两种位置关系确定与手部目标关联的人像目标，即包含关系或是重叠关系确定与手部目标关联的人像目标。

一、若手部目标的手部目标检测框包含于任一手势候选区域，则将该手势候选区域对应的参考人像目标作为手部目标关联的人像目标。

如图4a所示，对任意手部检测框，若其被某一手势候选区域包含，则将其关联至该手势候选区域对应的人像目标。本方案采用了“宽方案”——宽度适当大一些(将S_w设置稍大)，当自然抬手、举手时，能将手部完全包含。

二、若手部目标的手部目标检测框与任一手势候选区域的重叠比例超过预设值，则将该手势候选区域对应的参考人像目标作为手部目标关联的人像目标。

如图4b所示，对任意手部检测框，若其与某一手势候选区域的重叠比例IoM超过预设值，则将其关联值该手势候选区域对应的人像目标。本方案采用了“窄方案”——相比“宽方案”宽度适当窄一些(将S_w设置稍小)。

对于目标A、目标B，其IoM计算公式为：

其中，Intersection(A,B)表示目标A、B的重叠面积，S_A、S_B分别表示目标A、B的面积。此处的A、B可以分别标识手部检测框对应的手部目标以及手势候选区域对应的人像目标，S_A、S_B分别表示手部检测框的面积以及手势候选区域的面积。

实际应用中，对于画面中的每个人，根据其某一类人像检测框确定一个与之关联的手势候选区域，然后对所有的手部目标，通过判断手部检测框与各手势候选区域的位置关系来将手部目标与手势候选区域关联起来，而手势候选区域与人像目标是关联的，这样以来，就实现了手部目标与人像目标的关联。本发明实施例提供了一种简单易行、算法消耗低、成本低的人、手数据关联方案，可以将手部目标和人像目标进行准确的关联。同样以人像目标的头部区域作为手势候选区域为例，人、手数据关联示意图如图5a、5b所示。

对任意手部，在经过上述数据关联处理后，须有人像目标与之关联，才对该手部继续执行后续步骤处理。例如，如图5a、图5b中手部目标2与人头目标1关联，手部目标3与人头目标2关联，则手部目标2、3均继续执行后续步骤(3)处理。而手部目标1、4均无人头目标与之关联，则不进行后续处理。

S203，分析人像目标的人像姿态稳定状态。

考虑到用户在进行手势控制是处于一种刻意的状态(区别于非交互时的随意状态)，另外，为保证手势控制可靠性并节省后续某些不必要的手型分类计算，还需要对人像稳定性进行分析。具体地，对任意已关联到人像目标的手部目标，判别相应人像检测框是否稳定，若稳定，则对该手部目标继续后续处理。在进行人像姿态稳定状态的判断时，可以参考手部稳定状态的判断方式及逻辑。

S204，结合手部目标的稳定状态和人像目标的稳定状态判别手部目标是否处于稳定手势请求状态。具体地，若手部目标的手部姿态稳定且检测结果稳定，并存在与手部目标关联的稳定的人像目标，则确定手部目标处于手势请求状态。

对任意手部目标，若其同时满足手部稳定性条件，存在稳定的人像目标与之关联并且相应人像目标也相对稳定，则认为该手部目标在当前帧(或时刻)处于瞬时稳定的状态。实际应用中，一些用户可能由于瞬时的手势动作而误触发了手势控制指令，此时，还可以统计手部目标的稳定参数；稳定参数包括稳定时长或稳定帧数；若统计的稳定参数大于预设参数，则以进一步对手部目标进行稳定性确认，确定该手部目标对应的人像确实有相应的手势控制意图。即，对每一个手部目标，统计其持续稳定的帧数n_stable(或时长t_stable)，并提前预设一个统一的持续稳定帧数n_stable(或时长T_stable)阈值，若n_stable≥N_stable(或t_stable≥T_stable)，则认为该手部目标处于手势请求(就绪)状态，否则认为处于非手势请求状态。注意，持续稳定的帧数n_stable(或时长t_stable)在上述步骤S201～S203任意环节不满足时，即被重置然后重新累计。

本实施例提供的手势请求状态分析过程中顺带解决了人、手数据关联的问题，这也为后续应用提供了相应的便利性。在本发明可选实施例中，还可以设置仅允许特定人像目标发出手势控制指令，即，结合手部目标的稳定状态和人像目标的稳定状态判别手部目标是否处于稳定手势请求状态时，可以包括：若手部目标的手部姿态稳定且检测结果稳定，并且存在与手部目标关联的稳定的人像目标，同时，该人像目标具备特殊权限时，才会统计手部目标的稳定参数；稳定参数包括稳定时长或稳定帧数；若统计的稳定参数大于预设参数，则确定手部目标处于手势请求状态。本实施例只响应具有特殊权限的手势发起者，或对已响应的手势发起者持续追踪等，可以减少由于频繁的手势控制而影响用户的使用体验。

具体地，比如某些智能家居产品，仅允许主人/管理员进行手势控制，这就需要通过人、手数据关联将不同的手部予以区分，在这种情况下，相应的人像目标可以选择为人脸。进一步，对任意人脸目标，在初次手势请求状态分析后，若其(或与之关联的手部)被判别为处于手势请求状态，则通过人脸识别进行一次人脸认证，若认证通过(判定为有权限)，则进入后续步骤进行手型分类和手势请求类型分析，在请求有效的情况下予以响应。另外，在后续各帧处理过程中，由于目标追踪和数据关联的存在，只要人脸目标未丢失，就无需再次人脸认证，节省算力；相应地，对于那些未通过人脸认证(判定为无权限)的操作者，则再后续各帧处理过程中，只要人脸目标未丢失，则既不需要再次人脸认证，也无需手型分类等其他后续操作。由此可见，本发明提供的方案能满足相应场景产品需求，并且能节省算力、十分高效。

再比如，某些家庭机器人、可以进行视频会议的智能移动终端设备，需要手势发起者跟随的功能，在这种情况下，只需记录首个发起特定手势控制指令的操作者人像目标ID，即可在后续各帧对其进行跟随，十分方便。实际应用中，用户还可以通过手势控制的方法实现对设备对运行模式的切换、场景功能的切换以及开启等等，用户只需要摆出不同的手势，即可实现对对设备的控制。

进一步地，在确定手部状态以及人像状态稳定之后，即可对手势进行分类，进而依据手势类型识别对应的手势控制指令时，例如，可以将手势类型与预设手势控制指令类型进行比对，以识别出手势类型对应的手势控制指令，进而响应手势控制指令。进一步地，在识别出手势类型对应的手势控制指令之后，方法还包括：确定手势控制指令的手势控制指令发起对象，并获取手势控制指令发起对象的对象信息；输出手势控制指令和/或对象信息。其中，发起对象的对象信息可以包括人像检测/跟踪结果和/或手部检测/跟踪结果，以及手势控制指令发起者对应的(人像/手部)(检测结果序号/跟踪ID)等相关信息。

从产品体验方面讲，手势控制技术一般至少有3方面要求：(1)可靠；(2)灵敏；(3)自然、易理解。基于静态手势识别的手势控制技术还可分为单手手势控制(如图5a、4b所示)和双手手势控制。

1.单手手势控制

常见的单手手型有数字1～9、“大拇指”、“OK”、“Gun”、“单手比心”、“ILoveYou”等等。这些手势在日常生活、交流中颇为常见(可称为交际性(communicative)手势)，若从中选出若干语义贴切的(自然、易理解)作为控制手势(可称为操纵性(manipulative)手势)，则极易误触，即难以满足上述可靠性要求；相反，若刻意寻找一些日常罕见的单手手势作为控制手势，虽能满足可靠性、灵敏度要求，但又不够自然、语义不易被理解，学习成本高。总之，即便现有单手手型分类技术已较为成熟，但上述两难的问题也一定程度上限制了单手手势控制相关智能产品的普及。

基于本发明提出的一种手势控制方法，可为上述问题提供一种可落地的解决方案：首先，从常见的单手手型中选出若干语义贴切的作为控制手势，这符合上述自然、易理解的要求；进一步，为了避免误触，可为单手手势控制设定一个确认(或保持)时间，比如2～3s，即手势发起者在发起手势请求时须保持相应手势动作2～3s，这区别于非主观意图下的交际性手势，相应的误触概率会大大降低，即提高了手势控制的可靠性。综合上述三方面的要求，该方案不失为一种权衡、理性的方案，具有一定的应用价值。

进一步，在上述方案的实现方面，基于本发明提供的方法，通过修改手势请求状态判别环节的持续稳定帧数N_stable(或时长T_stable)阈值(比如设定T_stable为2s)即可调节手势控制灵敏度，而通过修改手部稳定性分析和人像稳定性分析环节相关稳定性阈值，也可以调节对请求者动作保持约束程度。总之，实施方便、扩展性极佳、经济性好。

2.双手手势控制

双手手势很容易选出一些语义贴合(自然、易理解)的手势，并且也容易进一步找出与交际性手势有足够区分度的手势(稳定性)，相应地，由于不易误触，故也可以实现较高的灵敏度。

具体地，双手手势有可分为粘连型(双手接触，比如“双手爱心”、“拱手”、“合十”等)和非粘连型。

粘连型双手手势理论上需要作为单独的目标类型加以检测，然后再进一步分类。基于本发明实施例方法，可以在多类目标检测开发环节对目标检测网络模型增加相应的类别进行训练；而在手型分类开发环节针对相应的手型训练相应的分类网络。另外，通过修改手势请求状态判别环节的持续稳定帧数N_stable(或时长T_stable)阈值(比如设定T_stable为0.2s)即可调高手势控制灵敏度。

非粘连型双手手势可以基于单手手型进行组合，基于本发明提供的方法很容易实施：本发明实施例提供的人、手数据关联方法可以解决双手与人像目标关联的问题，在手势请求类型分析环节，将有效的双手手势与预设的双手指令手势进行比对，即可进行手势请求类型识别。同样地，另外调高手势控制灵敏度即可，其他环节依然可复用，即能满足应用需求。

此外，上述实施例中设定T_stable为0.2s时间虽然很短，但相关环节依然是有必要的，经过本发明实施例的手势请求状态分析，可以过滤掉大多数非主观意图下的交际性手势(不必进行分类推理计算)，极大地提高了应用的整体性能，保证了手势控制的实时性，改善了用户体验。

本发明实施例采用了两个个深度神经网络模型进行处理，一个用于人像以及手部的目标检测，另一个用于手型分类。通过对两个神经网络模型分开训练，容易收敛，检测和分类均能够得到较高的精度。另外，在实际应用过程中，还可根据业务需要，对同一个模型进行多种类别的目标检测，既不会额外增加计算开销，也便于应用扩展。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述实施例所述的方法。

本发明实施例还提供了一种摄像设备，所述摄像设备包括处理器以及存储器：所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；所述处理器用于根据所述程序代码中的指令执行上述实施例所述的方法。

本发明实施例还提供了一种手势控制装置，其用于执行上述实施例所述的手势控制方法，

需要说明的是，本发明实施例提供的装置所涉及各功能单元的其他相应描述，可以参考上述方法实施例的对应描述，在此不再赘述。

本发明实施例还提供了一种摄像设备，该摄像设备包括通信总线、处理器、存储器和通信接口，还可以包括输入输出接口和显示设备，其中，各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序，处理器，用于执行存储器上所存放的程序，执行上述实施例的方法。

所属领域的技术人员可以清楚地了解到，上述描述的***、装置、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，为简洁起见，在此不另赘述。

另外，在本发明各个实施例中的各功能单元可以物理上相互独立，也可以两个或两个以上功能单元集成在一起，还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现，也可以采用软件或者固件的形式实现。

本领域普通技术人员可以理解：所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，其包括若干指令，用以使得一台计算设备(例如个人计算机，服务器，或者网络设备或是本实施例的摄像设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)，磁碟或者光盘等各种可以存储程序代码的介质。

或者，实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机，服务器，或者网络设备等的计算设备)来完成，所述程序指令可以存储于一计算机可读取存储介质中，当所述程序指令被计算设备的处理器执行时，所述计算设备执行本发明各实施例所述方法的全部或部分步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：在本发明的精神和原则之内，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案脱离本发明的保护范围。

Claims

1.一种手势控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述手部目标跟踪信息判断所述手部目标处于手势请求状态时，识别所述手部目标对应的手势类型之前，所述方法还包括：

确定与所述手部目标关联的人像目标；

分析所述人像目标的人像姿态稳定状态；

3.根据权利要求2所述的方法，其特征在于，所述结合所述手部目标的稳定状态和所述人像目标的稳定状态判别所述手部目标是否处于稳定手势请求状态包括：

4.根据权利要求3所述的方法，其特征在于，所述若所述手部目标的手部姿态稳定且检测结果稳定，并存在与所述手部目标关联的稳定的人像目标之后，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，所述确定与所述手部目标关联的人像目标之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述确定与所述手部目标关联的人像目标包括：

确定各所述参考人像目标的手势候选区域；

7.根据权利要求6所述的方法，其特征在于，所述确定各所述参考人像目标的手势候选区域包括：

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-7任一项所述的方法。

9.一种摄像设备，其特征在于，所述摄像设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的方法。

10.一种手势控制***，其特征在于，所述手势控制***包括权利要求9所述的摄像设备。