CN110458095A

CN110458095A - 一种有效手势的识别方法、控制方法、装置和电子设备

Info

Publication number: CN110458095A
Application number: CN201910735669.8A
Authority: CN
Inventors: 徐绍凯; 贾宝芝
Original assignee: Xiamen Reconova Information Technology Co Ltd
Current assignee: Xiamen Reconova Information Technology Co Ltd
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2019-11-15
Anticipated expiration: 2039-08-09
Also published as: CN110458095B

Abstract

本发明提供了一种有效手势的识别方法、控制方法、装置和电子设备，其中，识别方法包括S11、获取摄像头采集的当前帧图像；S12、按照预设的识别算法，对当前帧图像进行手势检测与识别，得到当前帧图像中手势的可能区域，手势类别及其置信度；S13、对所述当前帧之后的一固定时间间隔内视频的所有图像帧依次进行手势检测和识别，得到图像中手势的可能区域、手势类别及其置信度；S14、判断所述固定时间间隔内的所述图像帧中存在相同手势的图像帧的占比是否大于预设的占比阈值，如果是，则认为该手势为有效手势。本发明能够在嵌入式终端有效快速的进行手势检测和识别，进行方便快捷的人机交互。

Description

一种有效手势的识别方法、控制方法、装置和电子设备

技术领域

本发明涉及一种基于人工智能深度学习技术的计算机视觉的实时手势检测判断方法、装置及电子设备。

背景技术

随着计算机技术的快速发展，深度学习在计算机视觉领域的应用越来越多。其中，使用手势进行人机交互是一种十分便捷的方法，具有非常大的应用价值。通过手势识别和控制技术可以提供一种远程的非接触式的人机交互方式，因此快速和准确的手势识别算法能够为用户带来便捷友好的体验。而目前深度神经网络在嵌入式设备上进行应用的难点在于网络庞大且复杂，嵌入式设备算力不足，存在算法运行速度慢，***运行不流畅，响应时间长等局限性，为用户带来不好的使用体验。为解决以上问题，本发明主要提出了一种基于神经网络的实时手势识别和控制的方法、装置和电子设备。

发明内容

本发明要解决的技术问题，在于提供一种有效手势的识别方法、控制方法、识别装置和识别的电子设备，能够在嵌入式终端有效快速的进行手势检测和识别，进行方便快捷的人机交互。

根据本发明的第一方面，提供了一种有效手势的识别方法，包括下述步骤：

S11、获取摄像头采集的当前帧图像；

S12、按照预设的识别算法，对当前帧图像进行手势检测与识别，得到当前帧图像中手势的可能区域、手势类别及识别结果的置信度，并根据该置信度的大小来判断是否接受该识别结果；

S13、对所述当前帧之后的一固定时间间隔内视频的所有图像帧依次进行手势检测和识别，得到图像中手势的可能区域、手势类别及识别结果的置信度，并根据该置信度的大小来判断是否接受该识别结果；

S14、判断所述固定时间间隔内的所述图像帧中存在相同的手势类别的图像帧的占比是否大于预设的占比阈值，若是，则认为该手势为有效手势，若为否，则以步骤S13所述当前帧的下一帧作为当前帧，回到步骤S13。

可选的，所述步骤S11中还对获取到的当前帧图像进行预处理：先对当前帧图像进行归一化处理，并根据上一帧图像手势检测和识别结果，判断上一帧图像是否检测到手势。

可选的，所述步骤S12和所述步骤S13中的检测与识别具体为：

根据上一帧图像中的手势检测结果，选择第一神经网络模型或第二神经网络模型，第一神经网络模型为预训练好的卷积网络单次检测模型，用于直接在全图上预测手势的可能区域和类别，第二神经网络模型为预训练好的卷积网络单次检测模型，根据上一帧检测结果对手势进行跟踪；

若为首帧图像或上一帧图像中未检测到手势，则将当前帧图像输入到第一神经网络模型进行手势检测和识别，并由所述第一神经网络模型输出当前帧图像中手势的可能区域的坐标、手势的可能类别和识别结果的置信度，若置信度大于等于预设的置信度阈值，则接受第一神经网络模型预测的检测和识别结果，若置信度小于预设的置信度阈值，则忽略；

若上一帧图像中检测到了手势，则将上一帧图像中手势的位置映射到到当前帧图像中，将当前帧图像上的映射区域按预设倍数向外进行扩展，将扩展后的映射区域输入到第二神经网络模型进行手势检测和识别，由所述第二神经网络模型输出当前图像中手势的可能区域的坐标、手势的可能类别和结果的置信度，若置信度大于预设的置信度阈值，则接受第二神经网络模型的预测结果，若置信度小于预设的置信度阈值，则忽略。

可选的，所述第一神经网络模型的训练方法是：获取第一类训练样本集及手势的标注信息；对第一类训练样本集进行数据预处理：将第一类训练样本按照预设的宽高比进行随机大小的裁剪和镜像翻转；将手势的标注信息根据裁剪和翻转情况进行转换，将裁剪后的图片进行随机颜色增强；使用预处理后的第一类样本集训练第一神经网络模型。

可选的，所述第二神经网络模型的训练方法是：获取第二类训练样本集及手势的标注信息；对第二类训练样本集进行数据预处理：将第二类训练样本以手势框的位置加上随机偏移后的位置为中心，随机向外扩3到6倍进行裁剪和镜像翻转，将手势的标注信息根据裁剪和翻转情况进行转换，将裁剪后的图片进行随机颜色增强；使用预处理后的第二类样本集训练第二神经网络模型。

根据本发明的第二方面，提供了一种有效手势的识别后的控制方法，包括下述步骤：

S21、对当前帧之前的固定时间间隔内的所有检测帧的有效手势识别结果进行统计和分析，并判断该固定时间间隔内是否存在连续稳定的有效手势；

S22、判断该固定时间间隔内是否存在由一种连续稳定的有效手势类别变到另一种连续稳定的有效手势类别；

S23、当发现手势类别产生变化时，则执行与手势变化相对应的控制操作。

其中，对手势是否产生类别变化的判断是：对所述固定时间间隔内的所有图像帧进行判断，如果某一图像帧中的检测到的手势从一种类别的稳定状态变到另一种类别的稳定状态，则认为手势类别产生了变化；其中类别的稳定状态是：所述固定时间间隔内视频的所有图像帧中存在相同手势的图像帧所占比例大于预设的占比阈值。

根据本发明的第三方面，提供了一种有效手势的识别装置，包括：

图片获取模块，用于获取摄像头采集的当前帧图像；

手势检测和识别模块，用于按照预设的识别算法，对当前帧图像进行手势检测与识别，得到当前帧图像中手势的手势类别及识别结果的置信度，并根据该置信度的大小来判断是否接受该识别结果；

并有于对所述当前帧之后的一固定时间间隔内视频的所有图像帧依次进行手势检测和识别，得到图像中手势的手势类别及识别结果的置信度并根据该置信度的大小来判断是否接受该识别结果；

还用于判断所述时间间隔内的所述图像帧中存在相同手势的图像帧的占比是否大于预设的占比阈值，如果是，则认为该手势为有效手势，并返回判断结果。

可选的，还包括：

图像预处理模块，用于对当前帧图像进行归一化处理，并根据上一帧图像手势检测和识别结果，判断上一帧图像是否检测到手势；

模型选择模块，用于根据上一帧图像中的手势检测结果，选择第一神经网络模型或第二神经网络模型，第一神经网络模型为预训练好的卷积网络单次检测模型，用于直接在全图上预测手势的可能区域和类别，第二神经网络模型为预训练好的卷积网络单次检测模型，根据上一帧检测结果对手势进行跟踪；

若上一帧图像中未检测到手势，则将当前帧图像输入到第一神经网络模型进行手势检测和识别，并由所述第一神经网络模型输出当前帧图像中手势的可能区域的坐标、手势的可能类别和识别结果的置信度，若置信度大于等于预设的置信度阈值，则接受第一神经网络模型预测的检测和识别结果，若置信度小于预设的置信度阈值，则忽略；

若是首侦图像或上一帧图像中检测到了手势，则将上一帧图像中手势的位置映射到到当前帧图像中，将当前帧图像上的映射区域按预设倍数向外进行扩展，将扩展后的映射区域输入到第二神经网络模型进行手势检测和识别，由所述第二神经网络模型输出当前图像中手势的可能区域的坐标、手势的可能类别和识别结果的置信度，若置信度大于预设的置信度阈值，则接受第二神经网络模型的预测结果，若置信度小于预设的置信度阈值，则忽略。

根据本发明的第四方面，提供了一种有效手势的识别电子设备，包括处理器和存储器，所述处理器在运行时能执行如上述的有效手势的识别方法；所述存储器用来存储包括所获得的所有侦图像，图像预处理的结果以及手势检测与识别的结果，还存储用于手势响应的可执行程序。

本发明的优点在于：

(1)本发明基于普通摄像头采集的图像进行手势检测与识别，无需额外的穿戴设备、参数和过多的图像预处理，节省了成本、使用更加便捷同时有利于提高运行速度；

(2)本发明采用两个神经网络模型交替配合进行手势检测与识别，第一神经网络模型可直接预测全图中手势的可能位置、手势类别及置信度，第二神经网络可以在前一帧手势的位置基础上对下一帧的手势的可能区域进行跟踪和识别；明显的，第二神经网络保证了手势检测和识别的准确度，在仅消耗极小的计算资源的同时还拥有极快的速度，在ARM芯片上的运行速度可达10FPS以上，可满足实时检测要求；

(3)本发明在手势识别的过程中，采用多帧的检测结果作为最终手势的检测结果，能够保证***的稳定性，实现通过手势对设备进行精准的控制，为人机交互带来更好的体验。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明有效手势识别方法一较佳实施例的执行流程图。

图2为本发明有效手势方法中执行与手势变化相对应的控制操作的流程图。

图3为本发明有效手势方法中神经网络模型的训练过程的执行流程图。

图4为本发明有效手势***一较佳实施例的结构框图。

具体实施方式

请参阅图1至图3所示，详细说明本发明的有效手势的识别方法，包括下述步骤：

S11、获取摄像头采集的当前帧图像；并当前帧图像进行预处理：即先对当前帧图像进行归一化处理，并根据上一帧图像手势检测和识别结果，判断上一帧图像是否检测到手势；但若为首帧图像，则只需进行归一化处理。

S12、按照预设的识别算法，对当前帧图像进行手势检测与识别，得到当前帧图像中手势的可能区域、手势类别及识别结果的置信度；并根据置信度的大小来判断是否接受该识别结果。置信度为手势区域和类别的衡量值，置信度由模型输出得到，代表模型预测的手势区域和手势类别的概率值，置信度越高，代表检测到的手势区域和手势类别越可信，实际中通常对置信度设定一个固定的阈值，高于该阈值的手势区域和类别被认为是检测出的有效手势区域和类别。

S13、对所述当前帧之后的一固定时间间隔内视频的所有图像帧依次进行手势检测和识别，得到图像中手势的可能区域、手势类别及其置信度；并根据置信度的大小来判断是否接受该识别结果。实际检测出的手势的可能区域有多个，通过置信度来判断哪些是最终取到的手势区域。

S14、判断所述固定时间间隔内的所述图像帧中存在相同手势的图像帧的占比是否大于预设的占比阈值，如果是，则认为该手势为有效手势。所述相同手势是指预测为同一类别的即为相同手势，比如第T帧图像中检测到的手势为第1类，第T+1帧图像中检测到的手势为第1类，则这两帧图像的手势为相同手势。

其中，所述步骤S12和所述步骤S13中的检测与识别具体为：

若是首侦图像或上一帧图像中未检测到手势，则将当前帧图像输入到第一神经网络模型进行手势检测和识别，并由所述第一神经网络模型输出当前帧图像中手势的可能区域的坐标、手势的可能类别和结果的置信度，若置信度大于等于预设的置信度阈值，则接受第一神经网络模型预测的检测和识别结果，若置信度小于预设的置信度阈值，则忽略；

若上一帧图像中检测到了手势，则将上一帧图像中手势的位置映射到到当前帧图像中，将当前帧图像上的映射区域按预设倍数向外进行扩展，将扩展后的映射区域输入到第二神经网络模型进行手势检测和识别，由所述第二神经网络模型输出当前图像中手势的可能区域的坐标、手势的可能类别和结果的置信度，若置信度大于等于预设的置信度阈值，则接受第二神经网络模型的预测结果，若置信度小于预设的置信度阈值，则忽略。

本发明的手势识别实际上包含两个任务，分别是检测和识别。其中手势检测是为了在整个图片中定位手势的位置，即预测手势的可能区域；定位到手势区域后，对该手势进行类别判断，即识别该手势为何种手势。检测手势存在的区域是进行手势识别的前提。步骤S12和S13中均已说明进行“手势检测与识别”。手势的可能区域以四个值的形式给出——(x,y,w,h)分别代表顶点坐标和宽高，详细说明如下：

本发明中，所述第一神经网络模型的训练方法是：

(1)获取第一类训练样本集及手势的标注信息，手势的标注信息包括两方面：(a)图像中所有待识别手势的框信息，框信息包含手势框的中心点x值、手势框的中心点y值、手势框的宽、手势框的高；(b)图像中所有待识别手势类别编码，手势标注信息全部由人工手动标注；

(2)对第一类训练样本集进行数据预处理：将第一类训练样本按照预设的宽高比进行随机大小的裁剪和镜像翻转；将手势的标注信息根据裁剪和翻转情况进行转换，将裁剪后的图片进行随机颜色增强；

裁剪区域保持第一神经网络模型的输入宽高比，以保证图像输入到网络进行训练时不发生形变，同时能将标注信息进行相对应的转换，随机大小可以使得裁剪后的图像中包含不同比例大小的手势，这有助于使得神经网络模型在进行手势检测时能够适应不同远近、不同大小的手势；

(3)使用预处理后的第一类样本集训练第一神经网络模型。所述第二神经网络模型的训练方法是：

(1)获取第二类训练样本集及手势的标注信息；

(2)对第二类训练样本集进行数据预处理：将第二类训练样本以手势框的位置加上随机偏移后的位置为中心，随机向外扩3到6倍进行裁剪和镜像翻转，将手势的标注信息根据裁剪和翻转情况进行转换，将裁剪后的图片进行随机颜色增强；

若裁剪区域超出原图范围，则以零值填充，随机倍数的裁剪增加了训练样本多样性，有助于使跟踪模型适应上一帧检测误差带来的手势框大小的波动，从而提高模型的稳定性；

(3)使用预处理后的第二类训练样本集训练第二神经网络模型。

在有效手势的识别后，还可对有效手势所对应的指令进行执行，包括下述步骤：

根据上述本发明的方法或装置，以下举例说明：

实施例一

主要如图1所示，为手势识别方法的实施例，其包括以下步骤：

11、从摄像头内获取当前帧的图像数据，将图像数据转换为三通道的RGB图像格式。

12、对采集到图像进行预处理，首先对图像进行归一化处理，一般的，归一化过程可概括为如下公式：

其中，min为x_i(i＝1，2...n)的最小值，max为x_i(i＝1，2...n)的最大值。

对上一帧图像的手势检测和识别结果进行分析，判断是否检测到有效手势并进行相应处理。若上一帧图像中未检测到有效手势，则将归一化处理后的图像尺寸缩放到第一神经网络模型的输入大小。若上一帧图像中检测并识别到有效手势，则将上一帧中手势所在的位置映射到归一化处理后的图像，并以该位置为中心，将手势框向外扩展为原手势框宽高均值的k倍，k为预设大小的数值，若在扩展过程中超出原图范围则用零值填充，裁剪扩展后的区域，并将图像尺寸缩放到第二神经网络模型的输入大小。

13、将预处理后的图像输入对应的神经网络模型进行手势检测和识别。若上一帧图像中未检测到有效手势，则将当前预处理后的图像输入到第一神经网络模型进行手势检测与识别。若上一帧图像中识别出有效的手势，则将当前预处理后的图像输入到第二神经网络模型进行手势跟踪与识别。

14、输出当前图像中的手势识别结果。输出模型对当前图像中是否存在有效手势及手势的可能区域的预测结果，输出的结果为长度为6的一维向量，分别表示：手势框中心点的x值、手势框中心点的y值、手势框的宽、手势框的高、手势的类型、预测结果的置信度。

根据本实施例，通过两个神经网络模型对图像中存在的手势进行检测和识别，输出图像中手势的可能存在区域、手势类别和预测置信度。第一神经网络模型负责在全图范围检测和识别手势，第二神经网络模型负责在前一帧的手势区域周围进行手势跟踪和识别，不仅能够保证手势识别的稳定性和可靠性，而且通过第二神经网络模型的使用，使手势识别的速度大大提高，能够在嵌入式设备上实现实时检测，这是本发明区别于其他手势识别方法的重要一点及优势所在。

实施例二

主要如图2所示，为手势控制方法的实施例，其包括以下步骤：

21，对当前帧之前的固定时间间隔内的所有检测帧的手势识别结果进行统计和分析，判断该固定时间间隔内是否存在连续稳定的有效手势。

连续稳定的有效手势定义为：在指定数量的连续帧中，检测到有效手势的帧所占比例大于指定阈值、手势区域的波动范围较小且手势类别未发生变化。连续帧的数量和比例阈值由本领域技术人员根据模型性能和产品实际情况进行指定，手势区域的波动情况由两个相邻帧中检测到的有效手势区域的相对位置进行衡量。

22，统计该固定时间间隔内是否存在由一种连续稳定的有效手势类别变到另一种连续稳定的有效手势类别，根据手势的变化进行相应的控制操作。

若统计结果为是，则表明画面中检测到的手势变化是有效的，此时根据手势类别的变化执行相对应的控制操作；

若统计结果为否，则表明画面中检测到的手势变化是无效的，此时不执行控制操作，继续进行下一帧的手势检测和识别。

根据本实施例，通过对连续帧进行手势检测和识别的结果，对智能设备实现相应的控制。需要注意的是，模型可识别的手势类别可由本领域技术人员根据实际需求灵活定义，并不能作为限制本发明的条件。有效的手势类别变化可由本领域技术人员根据实际需求灵活定义，并不能作为限制本发明的条件。

实施例三

主要如图3所示，为有效手势识别方法中的神经网络模型训练流程的实施例，其包括：

31，获取包含所需手势的训练图像和手势标注信息。其中，训练图像均为包含待识别手势类别的图像，无手势的情况不再单独作为一类。待识别的手势类别根据实际需求可由本领域专业技术人员灵活指定，不局限于某一类或某几类。手势标注信息包括两方面：(1)图像中所有待识别手势的框信息，框信息包含手势框的中心点x值、手势框的中心点y值、手势框的宽、手势框的高；(2)图像中所有待识别手势类别编码。手势标注信息全部由人工手动标注。

32，预处理训练样本和标注信息：

32-1，为得到可用于训练第一神经网络模型的训练样本，将训练图像进行随机大小的裁剪，裁剪区域保持第一神经网络模型的输入宽高比，以保证图像输入到网络进行训练时不发生形变，同时将标注信息进行相对应的转换。随机大小可以使得裁剪后的图像中包含不同比例大小的手势，这有助于使得神经网络模型在进行手势检测时能够适应不同远近、不同大小的手势。

32-2，为提高神经网络模型鲁棒性，使其对左右手均能正确识别，将步骤32-1所得的图像进行随机镜像翻转，同时将标注信息进行相对应的转换。

32-3，为提高神经网络模型鲁棒性，使其能够适应不同光照、不同场景、不同摄像头造成的色差，将步骤32-2所得的图像进行随机色彩增强、亮度增强、对比度增强等。此步骤包含但不限于以上所述的三种增强方式。

32-4，为得到可用于训练第二神经网络模型的训练样本，将步骤3-1的训练图像进行裁剪，裁剪方式如下：以图像中的手势框的中心点为基准，将该点随机在x和y方向增加一定量的偏移，偏移量不超出手势框；以偏移后的点作为中心点，手势框宽高最大值的3到6倍作为裁剪框的边长进行正方形裁剪，边长的倍数通过取3到6之间的随机浮点数得到；若裁剪区域超出原图范围，则以零值填充。同时将标注信息进行相对应的转换。随机倍数的裁剪增加了训练样本多样性，有助于使跟踪模型适应上一帧检测误差带来的手势框大小的波动，从而提高模型的稳定性。

32-5，为提高第二神经网络模型鲁棒性，使其对左右手均能正确跟踪识别，将步骤32-4所得的图像进行随机镜像翻转，同时将标注信息进行相对应的转换。

32-6，为提高第二神经网络模型鲁棒性，使其能够适应不同光照、不同场景、不同摄像头造成的色差，将步骤3-2-5所得的图像进行随机色彩增强、亮度增强、对比度增强等。此步骤包含但不限于以上所述的三种增强方式。

33，训练神经网络模型：

33-1，使用步骤32预处理后的第一神经网络训练样本训练第一神经网络模型。将训练样本宽高调整为第一神经网络模型的输入大小，输入网络进行前向传播，根据模型的输出结果计算损失，损失值由三部分组成：手势框位置损失、手势框置信度损失、手势类别损失。其中手势框位置损失采用均方误差损失函数计算，手势框置信度损失和手势类别损失均采用交叉熵损失函数计算。根据计算出的损失值，使用梯度下降法和反向传播算法优化网络模型中的参数。对上述步骤重复迭代若干次后，判断模型是否收敛，若收敛，则停止训练过程，得到训练好的第一神经网络模型，否则继续训练直到模型收敛为止。由于非手势没有作为单独的一类，所以在训练过程中需要采用特定策略区分正负样本：当某个bounding box与ground truth的IoU大于其他所有bounding box时，target给1。如果某个bounding box不是IoU最大的那个，但是IoU也大于了0.5，那么我们忽略它(既不惩罚，也不奖励)。我们对每个ground truth只分配一个最好的bounding box与其对应。如果某个bounding box没有与任何一个ground truth对应，那么它对边框位置大小的回归和class的预测没有贡献，只惩罚它的置信度。

33-2，使用步骤32预处理后的第二神经网络训练样本训练第二神经网络模型。将训练样本宽高调整为第二神经网络模型的输入大小，输入网络进行前向传播，根据模型的输出结果计算损失，损失值由三部分组成：手势框位置损失、手势框置信度损失、手势类别损失。其中手势框位置损失采用均方误差损失函数计算，手势框置信度损失和手势类别损失均采用交叉熵损失函数计算。根据计算出的损失值，使用梯度下降法和反向传播算法优化网络模型中的参数。对上述步骤重复迭代若干次后，判断模型是否收敛，若收敛，则停止训练过程，得到训练好的第二神经网络模型，否则继续训练直到模型收敛为止。由于非手势没有作为单独的一类，所以在训练过程中需要采用特定策略区分正负样本：当某个bounding box与ground truth的IoU大于其他所有bounding box时，target给1。如果某个bounding box不是IoU最大的那个，但是IoU也大于了0.5，那么我们忽略它(既不惩罚，也不奖励)。我们对每个ground truth只分配一个最好的bounding box与其对应。如果某个bounding box没有与任何一个ground truth对应，那么它对边框位置大小的回归和class的预测没有贡献，只惩罚它的置信度。

实际应用中，第一神经网络模型与第二神经网络模型均可采用YOLOV3模型的变体结构，以下分别概述第一神经网络模型和第二神经网络模型的YOLOV3变体结构。

第一神经网络的输入大小为宽576、高320，使用步长为1、尺寸为3*3和1*1的卷积核提取特征，使用最大池化层将feature map进行降采样，使用双线性插值法作为上采样层，使用路由层拼接不同深度的feature map，模型第19层和第25层分别作为两个输出层，用于在两种大小的尺度上对手势框进行预测，从而能够更精准地检测不同距离的手势。

第二神经网络的输入大小为宽208、高208，使用步长为1、尺寸为3*3和1*1的卷积核提取特征，使用最大池化层将feature map进行降采样，使用双线性插值法作为上采样层，使用路由层拼接不同深度的feature map，模型第14层和第21层分别作为两个输出层，用于在两种大小的尺度上对手势框进行预测，从而能够使模型在基于前一帧的手势框进行跟踪时表现更加稳定。

实施例四

主要如图4所示，为有效手势的识别装置的实施例，其属于软件的虚拟装置，包括：图片获取模块，图像预处理模块，手势检测和识别模块，模型选择模块以及手势响应模块。

所述图片获取模块，用于获取摄像头采集的当前帧图像。

所述图像预处理模块，用于对当前帧图像进行归一化处理，并根据上一帧图像手势检测和识别结果，判断上一帧图像是否检测到手势；但若为首帧图像，则只需进行归一化处理。

所述手势检测和识别模块，用于按照预设的识别算法，对当前帧图像进行手势检测与识别，得到当前帧图像中手势的可能区域，手势类别及其置信度；并有于对所述当前帧之后的一固定时间间隔内视频的所有图像帧依次进行手势检测和识别，得到图像中手势的可能区域、手势类别及其置信度；还用于判断所述时间间隔内的所述图像帧中存在相同手势的图像帧的占比是否大于预设的占比阈值，如果是，则认为该手势为有效手势，并返回判断结果。

所述模型选择模块，用于根据上一帧图像中的手势检测结果，选择第一神经网络模型或第二神经网络模型，第一神经网络模型为预训练好的卷积网络单次检测模型，用于直接在全图上预测手势的可能区域和类别，第二神经网络模型为预训练好的卷积网络单次检测模型，根据上一帧检测结果对手势进行跟踪；

若为首帧图像或上一帧图像中未检测到手势，则将当前帧图像输入到第一神经网络模型进行手势检测和识别，并由所述第一神经网络模型输出当前帧图像中手势的可能区域的坐标、手势的可能类别和结果的置信度，若置信度大于预设的置信度阈值，则接受第一神经网络模型预测的检测和识别结果，若置信度小于预设的置信度阈值，则忽略；

若上一帧图像中检测到了手势，则将上一帧图像中手势的位置映射到到当前帧图像中，将当前帧图像上的映射区域按预设倍数向外进行扩展，将扩展后的映射区域输入到第二神经网络模型进行手势检测和识别，由所述第二神经网络模型输出当前图像中手势的可能区域的坐标、手势的可能类别和结果的置信度，若置信度大于预设的置信度阈值，则接受第二神经网络模型的预测结果，若置信度小于预设的置信度阈值，则忽略；

所述手势响应模块，用于判断预设时间段内手势类别的变化，执行预设的控制操作，此处预设时间段是指为判断手势类别变化所取得时间段。

其中，手势响应模块对手势是否产生类别变化的判断过程是：对预设时间间隔内的所有图像帧进行判断，如果某一图像帧中的检测到的手势从一种类别的稳定状态变到另一种类别的稳定状态，则认为手势类别产生了变化；其中类别的稳定状态是：预设时间间隔内视频的所有图像帧中存在相同手势的图像帧所占比例大于预设的占比阈值。

实施例五

主要如图1所示，为有效手势的识别电子设备的实施例，其包括：处理器和存储器，所述处理器在运行时能执行如上述的有效手势的识别方法(具体过程如前文所述，此处不予重复)；所述存储器用来存储包括所获得的所有侦图像，图像预处理的结果以及手势检测与识别的结果，还存储用于手势响应的可执行程序。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种有效手势的识别方法，其特征在于：包括下述步骤：

S11、获取摄像头采集的当前帧图像；

S12、按照预设的识别算法，对当前帧图像进行手势检测与识别，得到当前帧图像中手势的手势类别及识别结果的置信度，并根据该置信度的大小来判断是否接受该识别结果；

S13、对所述当前帧之后的一固定时间间隔内视频的所有图像帧依次进行手势检测和识别，得到图像中手势的手势类别及识别结果的置信度，并根据该置信度的大小来判断是否接受该识别结果；

S14、判断所述固定时间间隔内的所述图像帧中存在相同的手势类别的图像帧的占比是否大于预设的占比阈值，若是，则认为该手势为有效手势，若为否，则转入对下一帧图像进行识别，回到步骤S13。

2.如权利要求1所述的一种有效手势的识别方法，其特征在于：所述步骤S11中还对获取到的当前帧图像进行预处理：先对当前帧图像进行归一化处理，并根据上一帧图像手势检测和识别结果，判断上一帧图像是否检测到手势。

3.如权利要求2所述的一种有效手势的识别方法，其特征在于：所述步骤S12和所述步骤S13中的检测与识别具体为：

根据上一帧图像中的手势检测结果，选择第一神经网络模型或第二神经网络模型，第一神经网络模型为预训练好的卷积网络单次检测模型，用于直接在全图上预测手势的可能区域和类别，第二神经网络模型为预训练好的卷积网络单次检测模型，根据上一帧检测的手势区域对手势进行跟踪；

若是首侦图像或上一帧图像中未检测到手势，则将当前帧图像输入到第一神经网络模型进行手势检测和识别，并由所述第一神经网络模型输出当前帧图像中手势的可能区域的坐标、手势的可能类别和识别结果的置信度，若置信度大于等于预设的置信度阈值，则接受第一神经网络模型预测的检测和识别结果，若置信度小于预设的置信度阈值，则忽略；

若上一帧图像中检测到了手势，则将上一帧图像中手势的位置映射到到当前帧图像中，将当前帧图像上的映射区域按预设倍数向外进行扩展，将扩展后的映射区域输入到第二神经网络模型进行手势检测和识别，由所述第二神经网络模型输出当前图像中手势的可能区域的坐标、手势的可能类别和识别结果的置信度，若置信度大于预设的置信度阈值，则接受第二神经网络模型的预测结果，若置信度小于预设的置信度阈值，则忽略。

4.如权利要求3所述的一种有效手势的识别后的控制方法，其特征在于：所述第一神经网络模型的训练方法是：

获取第一类训练样本集及手势的标注信息；

对第一类训练样本集进行数据预处理：将第一类训练样本按照预设的宽高比进行随机大小的裁剪和镜像翻转；将手势的标注信息根据裁剪和翻转情况进行转换，将裁剪后的图片进行随机颜色增强；

使用预处理后的第一类样本集训练第一神经网络模型。

5.如权利要求3所述的一种有效手势的识别方法，其特征在于：所述第二神经网络模型的训练方法是：

获取第二类训练样本集及手势的标注信息；

对第二类训练样本集进行数据预处理：将第二类训练样本以手势框的位置加上随机偏移后的位置为中心，随机向外扩3到6倍进行裁剪和镜像翻转，将手势的标注信息根据裁剪和翻转情况进行转换，将裁剪后的图片进行随机颜色增强；

使用预处理后的第二类样本集训练第二神经网络模型。

6.一种有效手势的识别后的控制方法，其特征在于：包括下述步骤

7.如权利要求6所述的一种有效手势的识别后的控制方法，其特征在于：对手势是否产生类别变化的判断是：对所述固定时间间隔内的所有图像帧进行判断，如果某一图像帧中的检测到的手势从一种类别的稳定状态变到另一种类别的稳定状态，则认为手势类别产生了变化；其中类别的稳定状态是：所述固定时间间隔内视频的所有图像帧中存在相同手势的图像帧所占比例大于预设的占比阈值。

8.一种有效手势的识别装置，其特征在于：包括：

图片获取模块，用于获取摄像头采集的当前帧图像；

9.根据权利要求8所述的一种有效手势的识别装置，其特征在于：还包括：

10.一种有效手势的识别电子设备，其特征在于：包括处理器和存储器，所述处理器在运行时能执行如所述权利要求1至5任一项所述的有效手势的识别方法；所述存储器用来存储包括所获得的所有侦图像，图像预处理的结果以及手势检测与识别的结果，还存储用于手势响应的可执行程序。