CN113536864B

CN113536864B - 手势识别方法、装置、计算机可读存储介质及终端设备

Info

Publication number: CN113536864B
Application number: CN202010320878.9A
Authority: CN
Inventors: 郭渺辰; 张惊涛; 胡淑萍; 王东; 顾在旺; 庞建新; 熊友军
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2023-12-01
Anticipated expiration: 2040-04-22
Also published as: US11423701B2; US20210334524A1; CN113536864A

Abstract

本申请属于图像处理技术领域，尤其涉及一种手势识别方法、装置、计算机可读存储介质及终端设备。所述方法实时获取预设的摄像装置采集的视频流；在所述视频流中进行手部识别，并确定识别出的手部在所述视频流的各个视频帧中的静态手势信息；对各个视频帧中的静态手势信息依次进行信息编码，得到手部的编码信息序列；使用预设的滑动窗口对所述编码信息序列进行滑动检测，确定每个手部的动态手势类别。本申请将静态手势识别和动态手势识别有机地融合在同一过程中，基于对静态手势信息编码得到的编码信息序列，通过滑动窗口的滑动检测来完成对动态手势的识别，无需进行复杂的网络运算，极大降低了对于算力的要求，更加适合在移动端设备中使用。

Description

手势识别方法、装置、计算机可读存储介质及终端设备

技术领域

本申请属于图像处理技术领域，尤其涉及一种手势识别方法、装置、计算机可读存储介质及终端设备。

背景技术

手势识别可分为静态手势识别和动态手势识别两类。静态手势识别处理单帧图像，动态手势识别与静态手势识别不同，处理的不是单帧图像而是视频流。现有技术中可以采用深度学习方法来进行动态手势识别，例如，可以采用时空图卷积网络来进行动态手势识别。但深度学习方法对算力要求极高，不适合在低算力的移动端设备中使用。

发明内容

有鉴于此，本申请实施例提供了一种手势识别方法、装置、计算机可读存储介质及终端设备，以解决现有技术中采用深度学习方法来进行动态手势识别，对算力要求极高，不适合在低算力的移动端设备中使用的问题。

本申请实施例的第一方面提供了一种手势识别方法，可以包括：

实时获取预设的摄像装置采集的视频流；

在所述视频流中进行手部识别，并确定识别出的手部在所述视频流的各个视频帧中的静态手势信息；

对各个视频帧中的静态手势信息依次进行信息编码，得到手部的编码信息序列；

使用预设的滑动窗口对所述编码信息序列进行滑动检测，确定每个手部的动态手势类别。

进一步地，所述静态手势信息包括静态手势类别和手部质心位置，所述在所述视频流中进行手部识别，并确定识别出的手部在所述视频流的各个视频帧中的静态手势信息，包括：

若当前为近距离识别模式，则使用预设的神经网络分类器对目标视频帧进行手部识别，得到手部在所述目标视频帧中的静态手势类别，所述目标视频帧为所述视频流的任意一个视频帧；

通过对所述目标视频帧的图像学处理，计算得到所述目标视频帧中的手部质心位置。

进一步地，所述通过对所述目标视频帧的图像学处理，计算得到所述目标视频帧中的手部质心位置，包括：

通过对所述目标视频帧的图像预处理，得到所述目标视频帧中的手部掩码图像；

对所述手部掩码图像进行二值化处理，得到二值化手部图像；

在所述二值化手部图像中进行轮廓提取，并从提取到的轮廓中选取面积最大的轮廓作为手部轮廓；

对所述手部轮廓进行距离变换，计算得到所述目标视频帧中的手部质心位置。

进一步地，所述通过对所述目标视频帧的图像预处理，得到所述目标视频帧中的手部掩码图像，包括：

使用高斯滤波对所述目标视频帧进行平滑处理，得到平滑图像；

将所述平滑图像从RGB颜色空间转换至HSV颜色空间，得到空间转换图像；

使用预设的椭圆肤色模型对所述空间转换图像进行特征提取，得到特征图像；

通过形态学开闭处理滤除掉所述特征图像中的杂质区域，得到所述手部掩码图像。

若当前为远距离识别模式，则使用预设的神经网络目标检测器对所述视频流的各个视频帧分别进行手部识别，确定识别出的各个手部在各个视频帧中的静态手势类别和手部质心位置；

确定各个手部在各个视频帧中的匹配关系，并建立与各个手部分别对应的***。

进一步地，所述确定各个手部在各个视频帧中的匹配关系，并建立与各个手部分别对应的***，包括：

根据当前视频帧中的手部检测框，使用卡尔曼滤波器计算下一视频帧中的预测检测框，并根据所述预测检测框确定下一视频帧中的手部检测框；

对当前视频帧中的手部检测框与下一视频帧中的手部检测框进行匈牙利匹配，确定各个手部在当前视频帧和下一视频帧中的匹配关系；

若同一手部在连续若干个视频帧中均匹配成功，则建立与该手部对应的***。

进一步地，所述使用预设的滑动窗口对所述编码信息序列进行滑动检测，确定每个手部的动态手势类别，包括：

对当前滑动窗口内的编码信息序列进行关键帧检测，若检测到的关键帧符合预设的模式特征，则确定与该编码信息序列对应的动态手势类别；

控制滑动窗口在编码信息序列中向后滑动一帧，并重新进行动态手势类别的确定过程，直至手势识别进程结束为止。

本申请实施例的第二方面提供了一种手势识别装置，可以包括：

视频流获取模块，用于实时获取预设的摄像装置采集的视频流；

静态手势识别模块，用于在所述视频流中进行手部识别，并确定识别出的手部在所述视频流的各个视频帧中的静态手势信息；

信息编码模块，用于对各个视频帧中的静态手势信息依次进行信息编码，得到手部的编码信息序列；

滑动检测模块，用于使用预设的滑动窗口对所述编码信息序列进行滑动检测，确定每个手部的动态手势类别。

进一步地，所述静态手势信息包括静态手势类别和手部质心位置，所述静态手势识别模块可以包括：

手势类别确定子模块，用于若当前为近距离识别模式，则使用预设的神经网络分类器对目标视频帧进行手部识别，得到手部在所述目标视频帧中的静态手势类别，所述目标视频帧为所述视频流的任意一个视频帧；

质心位置计算子模块，用于通过对所述目标视频帧的图像学处理，计算得到所述目标视频帧中的手部质心位置。

进一步地，所述质心位置计算子模块可以包括：

图像预处理单元，用于通过对所述目标视频帧的图像预处理，得到所述目标视频帧中的手部掩码图像；

二值化处理单元，用于对所述手部掩码图像进行二值化处理，得到二值化手部图像；

手部轮廓选取单元，用于在所述二值化手部图像中进行轮廓提取，并从提取到的轮廓中选取面积最大的轮廓作为手部轮廓；

质心位置计算单元，用于对所述手部轮廓进行距离变换，计算得到所述目标视频帧中的手部质心位置。

进一步地，所述图像预处理单元可以包括：

平滑处理子单元，用于使用高斯滤波对所述目标视频帧进行平滑处理，得到平滑图像；

颜色空间转换子单元，用于将所述平滑图像从RGB颜色空间转换至HSV颜色空间，得到空间转换图像；

特征提取子单元，用于使用预设的椭圆肤色模型对所述空间转换图像进行特征提取，得到特征图像；

开闭处理子单元，用于通过形态学开闭处理滤除掉所述特征图像中的杂质区域，得到所述手部掩码图像。

进一步地，所述静态手势识别模块还可以包括：

目标检测子模块，用于若当前为远距离识别模式，则使用预设的神经网络目标检测器对所述视频流的各个视频帧分别进行手部识别，确定识别出的各个手部在各个视频帧中的静态手势类别和手部质心位置；

匹配子模块，用于确定各个手部在各个视频帧中的匹配关系，并建立与各个手部分别对应的***。

进一步地，所述匹配子模块可以包括：

卡尔曼滤波单元，用于根据当前视频帧中的手部检测框，使用卡尔曼滤波器计算下一视频帧中的预测检测框，并根据所述预测检测框确定下一视频帧中的手部检测框；

匹配关系确定单元，用于对当前视频帧中的手部检测框与下一视频帧中的手部检测框进行匈牙利匹配，确定各个手部在当前视频帧和下一视频帧中的匹配关系；

***建立单元，用于若同一手部在连续若干个视频帧中均匹配成功，则建立与该手部对应的***。

进一步地，所述滑动检测模块可以包括：

动态手势类别确定子模块，用于对当前滑动窗口内的编码信息序列进行关键帧检测，若检测到的关键帧符合预设的模式特征，则确定与该编码信息序列对应的动态手势类别；

滑动子模块，用于控制滑动窗口在编码信息序列中向后滑动一帧，并重新进行动态手势类别的确定过程，直至手势识别进程结束为止。

本申请实施例的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种手势识别方法的步骤。

本申请实施例的第四方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一种手势识别方法的步骤。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述任一种手势识别方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：本申请实施例实时获取预设的摄像装置采集的视频流；在所述视频流中进行手部识别，并确定识别出的手部在所述视频流的各个视频帧中的静态手势信息；对各个视频帧中的静态手势信息依次进行信息编码，得到手部的编码信息序列；使用预设的滑动窗口对所述编码信息序列进行滑动检测，确定每个手部的动态手势类别。本申请实施例将静态手势识别和动态手势识别有机地融合在同一过程中，基于对静态手势信息编码得到的编码信息序列，通过滑动窗口的滑动检测来完成对动态手势的识别。该过程无需进行复杂的网络运算，极大降低了对于算力的要求，更加适合在低算力的移动端设备中使用。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例中一种手势识别方法的一个实施例流程图；

图2为近距离识别模式下进行手部识别，并确定静态手势信息的示意流程图；

图3为通过对目标视频帧的图像学处理，计算得到目标视频帧中的手部质心位置的示意流程图；

图4为远距离识别模式下进行手部识别，并确定静态手势信息的示意流程图；

图5为对各个视频帧中的静态手势信息依次进行信息编码，得到手部的编码信息序列的示意图；

图6为本申请实施例中一种手势识别装置的一个实施例结构图；

图7为本申请实施例中一种终端设备的示意框图。

具体实施方式

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本申请一部分实施例，而非全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参阅图1，本申请实施例中一种手势识别方法的一个实施例可以包括：

步骤S101、实时获取预设的摄像装置采集的视频流。

在本申请实施例中，所述摄像装置可以是单个的摄像头，也可以是由若干个摄像头组成的摄像头阵列。根据具体的使用场景，所述摄像装置可以内置于终端设备中，也可以作为外设装置独立于所述终端设备。

一般地，所述摄像装置采集的原始数据可以为RGB视频流，其中的各个视频帧均由红色通道(R)、绿色通道(G)、蓝色通道(B)构成。

步骤S102、在所述视频流中进行手部识别，并确定识别出的手部在所述视频流的各个视频帧中的静态手势信息。

在本申请实施例中，所述静态手势信息可以包括静态手势类别和手部质心位置。

在进行手势识别的过程中时，本申请实施例可以针对不同的场景采取对应的识别模式，例如，在目标距离所述摄像装置较近的情况下，可以采用近距离识别模式，而在目标距离所述摄像装置较远的情况下，可以采用远距离识别模式。以下将对这两种识别模式下的具体手势识别过程分别进行详细说明。

以所述视频流的任意一个视频帧(此处将其记为目标视频帧)为例，在近距离识别模式下，步骤S102具体可以包括如图2所示的过程：

步骤S1021、使用预设的神经网络分类器对目标视频帧进行手部识别，得到手部在所述目标视频帧中的静态手势类别。

近距离识别模式下，手部在图像中占比较大，是显著性目标，因此可直接输入到神经网络分类器中进行处理。

本申请实施例中所使用的神经网络分类器可以包括卷积层和softmax层，其中，卷积层用于提取特征，sofmax层用于最终的类别回归。为适应移动端轻量化设计原则，本申请实施例中优选采用小分辨率输入，例如可以设置输入到所述神经网络分类器中的视频帧图像尺寸为224像素×224像素，当然，也可以根据实际情况设置其它的输入尺寸，本申请实施例对此不作具体限定。进一步地，考虑到静态手势的类别有限，并不需要过多的通道数，因此，为进一步减小计算量，本申请实施例中优选将每个卷积层的通道数减半。所述神经网络分类器的输出为每个静态手势类别的概率，在使用时取其中最大概率的类别即可。

步骤S1022、通过对所述目标视频帧的图像学处理，计算得到所述目标视频帧中的手部质心位置。

如图3所示，步骤S1022具体可以包括如下过程：

步骤S10221、通过对所述目标视频帧的图像预处理，得到所述目标视频帧中的手部掩码图像。

由于所述目标视频帧中一般会包含杂乱背景，因此可以通过对其进行预处理，提取出其中的手部掩码(mask)图像。具体地，可以首先使用高斯滤波对所述目标视频帧进行平滑处理，得到平滑图像。考虑到肤色模型有YCrCb和HSV两种颜色空间，而HSV颜色空间更加适用于黄种人的皮肤，因此在本申请实施例中优选将所述平滑图像从RGB颜色空间转换至HSV颜色空间，得到空间转换图像。接着，使用预设的椭圆肤色模型对所述空间转换图像进行特征提取，得到特征图像，最后通过形态学开闭处理滤除掉所述特征图像中的杂质区域，得到所述手部掩码图像。

步骤S10222、对所述手部掩码图像进行二值化处理，得到二值化手部图像。

二值化指的是将图像转换成只有黑白两色的图像。在本申请实施例中可以预先确定一个阈值(即二值化阈值)，如果所述手部掩码图像上的像素大于该阈值则为白色，否则为黑色。

步骤S10223、在所述二值化手部图像中进行轮廓提取，并从提取到的轮廓中选取面积最大的轮廓作为手部轮廓。

由于各种可能存在的干扰，提取到的轮廓可能不止一个，考虑到在近距离识别模式下，手部在图像中占比较大，因此可以将其中面积最大的轮廓作为手部轮廓。

步骤S10224、对所述手部轮廓进行距离变换，计算得到所述目标视频帧中的手部质心位置。

在本申请实施例中，可以根据实际情况选择基于欧几里德距离的距离变换、基于曼哈顿距离的距离变换、基于象棋格距离的距离变换以及其它的距离变换算法来计算得到所述手部质心位置。

在远距离识别模式下，步骤S102具体可以包括如图4所示的过程：

步骤S1023、使用预设的神经网络目标检测器对所述视频流的各个视频帧分别进行手部识别，确定识别出的各个手部在各个视频帧中的静态手势类别和手部质心位置。

在远距离识别模式下，一个视频帧中极有可能出现多个手部，因此需要通过神经网络目标检测器获取视频帧中所有手部出现的区域，经过非极大值抑制(Non MaximumSuppression，NMS)和置信度过滤后，神经网络目标检测器会输出最终的每个手部的检测框(bounding boxes)，计算获得每个检测框的图像中心坐标作为对应手部的质心位置。经过神经网络目标检测器，每个识别出的手部均带有类别标签，对其静态手势类别进行标示。例如，静态手势A的类别标签为1，静态手势B的类别标签为2，以此类推，特殊地，对于无法判定类别的静态手势，其类别标签为0。

步骤S1024、确定各个手部在各个视频帧中的匹配关系，并建立与各个手部分别对应的***。

为确定识别出的不同手部在各个视频帧帧之间的对应关系，在本申请实施例中可以采用多目标跟踪方法给与每一个识别出的手部一个唯一的标识(ID)。具体地，首先初始化卡尔曼滤波器，根据当前视频帧中的手部检测框，使用卡尔曼滤波器计算下一视频帧中的预测检测框，并根据所述预测检测框确定下一视频帧中的手部检测框。然后，对当前视频帧中的手部检测框与下一视频帧中的手部检测框进行匈牙利匹配，确定各个手部在当前视频帧和下一视频帧中的匹配关系，其中，匹配过程的代价矩阵由当前视频帧中的手部检测框与下一视频帧中的手部检测框的交并比(Intersection-over-Union，IoU)组成。若同一手部在连续若干个视频帧(具体数值可以根据实际情况设置，优选为3个视频帧)中均匹配成功，则建立与该手部对应的***(tracker)，而若同一手部在连续若干个视频帧(具体数值可以根据实际情况设置，优选为5个视频帧)中均未匹配成功，则清除这一手部识别结果。通过这一过程，使得每个手部都有了自己唯一的ID，为后续的动态手势识别打下了基础。

步骤S103、对各个视频帧中的静态手势信息依次进行信息编码，得到手部的编码信息序列。

如图5所示，对于任意一个识别出的手部而言，其在视频流中的每一个视频帧中的静态手势信息均可以被编码为质心位置+类别标签的形式。各个视频帧的编码信息依次排列所形成的序列即为所述编码信息序列。

步骤S104、使用预设的滑动窗口对所述编码信息序列进行滑动检测，确定每个手部的动态手势类别。

动态手势可以分为基于手型变化的手势和基于轨迹的手势。例如，握拳这个动作即为一种基于手型变化的手势，挥手这个动作即为一种基于轨迹的手势。基于手型变化的动态手势对手的轨迹不关注，可以仅关注视频流中的关键帧序列。其中，关键帧为类别标签不为0的视频帧，视频流中能代表一个手势动作的视频帧序列即为关键帧序列，比如握拳这个动作的关键帧为五指张开和拳头这两个手势，并且顺序不能改变，所以这个动态手势的关键帧序列即为五指张开和拳头这两个静态手势组成的序列。基于轨迹的动态手势即关注手型也关注轨迹。

在本申请实施例中，所述滑动窗口的长度可以根据实际情况进行设置，优选地，可以将其设置为60，即每次在连续的60个视频帧的编码信息序列中进行动态手势识别。

具体地，可以对当前滑动窗口内的编码信息序列进行关键帧检测，若检测到的关键帧符合预设的模式特征，则确定与该编码信息序列对应的动态手势类别。例如，若在当前的滑动窗口内先后检测到了五指张开这一手势的关键帧和拳头这一手势的关键帧，符合了握拳的模式特征，则可以确定其为握拳这一动态手势。其中，若一个关键帧中的手势连续三帧被正确检出并被成功跟踪，则此关键帧被确认，否则，将其视为伪关键帧；当一个动作的最后一个关键帧被确认后，表示这个动作完成；当一个动作的前几个关键帧被确认后，后面的关键帧长时间没有被确认，则前几个关键帧被清除，不会无限期的等待。

特殊地，对于基于轨迹的手势，还可以间隔固定帧求运动向量，根据求得的运动向量是否符合预设的运动模式特征，来最终确定其动态手势类别，例如，对于挥手这一动态手势而言，运动向量应当符合持续向左，再持续向右这样的反复交替的运动模式特征。

接着，控制滑动窗口在编码信息序列中向后滑动一帧，并重新进行动态手势类别的确定过程，直至手势识别进程结束为止。

这样的滑动检测具有以下优势：可以保证视频流被完整处理，不会遗漏视频帧；采用编码的数据进行滑窗，是对图像帧关键数据的最小存储，内存空间占用小，计算复杂度较低；滑窗可有效限制动作完成时间，避免无限期等待；动态滑窗中视频帧访问便捷，可根据视频帧进入的先后顺序进行标号；根据携带的质心位置信息，可对轨迹进行细化，如可以间隔固定帧求运动向量。

综上所述，本申请实施例实时获取预设的摄像装置采集的视频流；在所述视频流中进行手部识别，并确定识别出的手部在所述视频流的各个视频帧中的静态手势信息；对各个视频帧中的静态手势信息依次进行信息编码，得到手部的编码信息序列；使用预设的滑动窗口对所述编码信息序列进行滑动检测，确定每个手部的动态手势类别。本申请实施例将静态手势识别和动态手势识别有机地融合在同一过程中，基于对静态手势信息编码得到的编码信息序列，通过滑动窗口的滑动检测来完成对动态手势的识别。该过程无需进行复杂的网络运算，极大降低了对于算力的要求，更加适合在低算力的移动端设备中使用。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的一种手势识别方法，图6示出了本申请实施例提供的一种手势识别装置的一个实施例结构图。

本实施例中，一种手势识别装置可以包括：

视频流获取模块601，用于实时获取预设的摄像装置采集的视频流；

静态手势识别模块602，用于在所述视频流中进行手部识别，并确定识别出的手部在所述视频流的各个视频帧中的静态手势信息；

信息编码模块603，用于对各个视频帧中的静态手势信息依次进行信息编码，得到手部的编码信息序列；

滑动检测模块604，用于使用预设的滑动窗口对所述编码信息序列进行滑动检测，确定每个手部的动态手势类别。

进一步地，所述质心位置计算子模块可以包括：

进一步地，所述图像预处理单元可以包括：

进一步地，所述静态手势识别模块还可以包括：

进一步地，所述匹配子模块可以包括：

进一步地，所述滑动检测模块可以包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置，模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

图7示出了本申请实施例提供的一种终端设备的示意框图，为了便于说明，仅示出了与本申请实施例相关的部分。

如图7所示，该实施例的终端设备7包括：处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72。所述处理器70执行所述计算机程序72时实现上述各个手势识别方法实施例中的步骤，例如图1所示的步骤S101至步骤S104。或者，所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能，例如图6所示模块601至模块604的功能。

示例性的，所述计算机程序72可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器71中，并由所述处理器70执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序72在所述终端设备7中的执行过程。

所述终端设备7可以是手机、平板电脑、桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，图7仅仅是终端设备7的示例，并不构成对终端设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备7还可以包括输入输出设备、网络接入设备、总线等。

所述处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述终端设备7的内部存储单元，例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备，例如所述终端设备7上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备7所需的其它程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种手势识别方法，其特征在于，包括：

实时获取预设的摄像装置采集的视频流；

确定各个手部在各个视频帧中的匹配关系，若同一手部在连续若干个视频帧中均匹配成功，则建立与该手部对应的***；若同一手部在连续若干个视频帧中均未匹配成功，则清除该手部的识别结果；

对各个视频帧中的静态手势类别和手部质心位置依次进行信息编码，得到手部的编码信息序列；

2.根据权利要求1所述的手势识别方法，其特征在于，还包括：

3.根据权利要求2所述的手势识别方法，其特征在于，所述通过对所述目标视频帧的图像学处理，计算得到所述目标视频帧中的手部质心位置，包括：

4.根据权利要求3所述的手势识别方法，其特征在于，所述通过对所述目标视频帧的图像预处理，得到所述目标视频帧中的手部掩码图像，包括：

5.根据权利要求1所述的手势识别方法，其特征在于，所述确定各个手部在各个视频帧中的匹配关系，包括：

对当前视频帧中的手部检测框与下一视频帧中的手部检测框进行匈牙利匹配，确定各个手部在当前视频帧和下一视频帧中的匹配关系。

6.根据权利要求1至5中任一项所述的手势识别方法，其特征在于，所述使用预设的滑动窗口对所述编码信息序列进行滑动检测，确定每个手部的动态手势类别，包括：

7.一种手势识别装置，其特征在于，包括：

静态手势识别模块，用于若当前为远距离识别模式，则使用预设的神经网络目标检测器对所述视频流的各个视频帧分别进行手部识别，确定识别出的各个手部在各个视频帧中的静态手势类别和手部质心位置；确定各个手部在各个视频帧中的匹配关系，若同一手部在连续若干个视频帧中均匹配成功，则建立与该手部对应的***；若同一手部在连续若干个视频帧中均未匹配成功，则清除该手部的识别结果；

信息编码模块，用于对各个视频帧中的静态手势类别和手部质心位置依次进行信息编码，得到手部的编码信息序列；

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的手势识别方法的步骤。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的手势识别方法的步骤。