CN110688914A

CN110688914A - 一种手势识别的方法、智能设备、存储介质和电子设备

Info

Publication number: CN110688914A
Application number: CN201910849943.4A
Authority: CN
Inventors: 不公告发明人
Original assignee: Suzhou Zhendi Intelligent Technology Co Ltd
Current assignee: Suzhou Zhendi Intelligent Technology Co Ltd
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2020-01-14

Abstract

本申请实施例提供一种手势识别的方法、智能设备、存储介质和电子设备，该方法包括：采集手势图像，其中，手势图像包括手势区域；从手势图像中截取出手势区域；根据手势区域和预先训练好的手势识别模型，识别手势区域中的手势。本申请实施例通过从手势图像中截取出手势区域，并根据手势区域和预先训练好的手势识别模型，识别手势区域中的手势，从而通过截取手势区域的方式来提高手势的特征信息占比，进而能够提高手势识别的准确性和精度，进而能够解决现有技术中存在着的由于远距离拍摄的图像导致的手势识别效果不佳的问题。

Description

一种手势识别的方法、智能设备、存储介质和电子设备

技术领域

本申请涉及智能设备领域，具体而言，涉及一种手势识别的方法、智能设备、存储介质和电子设备。

背景技术

随着智能设备应用的不断拓展，智能设备的性能已经得到大幅度提升。以及，基于智能设备的摄像装置的深度学习算法不断地更新优化，使得基于智能设备的摄像装置和深度学习原理的各种功能也被广泛使用。例如，人脸识别、目标物体检测、手势识别等功能也被广泛使用。从而，不仅大幅度提升了用户体验，还能够拓展智能设备的功能和应用范围。

基于上述原因，智能设备的摄像装置的手势识别功能也得到了广泛的应用，其中，手势为人机交互提供了一种自然和直观的通信模式。例如，通过智能设备对获取的图像进行手势识别，并根据识别结果来触发拍照功能。

在实现本发明的过程中，发明人发现现有技术存在如下问题：由于手势的复杂性以及人手所涉及的高自由度而使得手势具有多样性，以及在使用手势识别功能时可能会出现远距离拍摄的情况，从而这种远距离拍摄的图像会导致手势识别效果不佳的问题。

发明内容

本申请实施例的目的在于提供一种手势识别的方法、智能设备、存储介质和电子设备，以解决现有技术中存在的智能设备远距离拍摄的图像会导致手势识别效果不佳的问题。

第一方面，本申请实施例提供了一种手势识别的方法，应用于智能设备，该方法包括：采集手势图像，其中，手势图像包括手势区域；从手势图像中截取出手势区域；根据手势区域和预先训练好的手势识别模型，识别手势区域中的手势。

因此，本申请实施例通过从手势图像中截取出手势区域，并根据手势区域和预先训练好的手势识别模型，识别手势区域中的手势，从而通过截取手势区域的方式来提高手势的特征信息占比，进而能够提高手势识别的准确性和精度，进而能够解决现有技术中存在着的由于远距离拍摄的图像导致的手势识别效果不佳的问题。

以及，本申请实施例中的预先训练好的手部检测模型可以识别多种手势，从而也能够解决手势多样性造成的手势识别的问题。

在一个可能的实施例中，从手势图像中截取出手势区域，包括：根据手势图像和预先训练好的手部检测模型，确定手势图像中的手部位置；根据手部位置，从手势图像中截取出手势区域。

因此，本申请实施例通过根据手部位置，从手势图像中截取出手势区域，从而由于减少了手势图像中除去手势之外的其他部分(例如，背景)，进而能够提升手势识别的准确性和精度。

在一个可能的实施例中，根据手势图像和预先训练好的手部检测模型，确定手势图像中的手部位置，包括：将手势图像拆分为第一子图像和第二子图像，其中，第一子图像和第二子图像存在图像重叠区域，且第一子图像和第二子图像中的至少一个图像包括手势区域；根据第一子图像、第二子图像和预先训练好的手部检测模型，确定至少一个图像中的手部位置；其中，根据手部位置，从手势图像中截取出手势区域，包括：根据至少一个图像中的手部位置，从至少一个图像中截取出手势区域。

因此，本申请实施例通过图像拆分的方式，由于减少了手势图像中除去手势之外的其他部分(例如，背景)，提升了手势区域的特征信息占比，从而提升手势识别的准确性和精度。

在一个可能的实施例中，采集手势图像，包括：在智能设备处于手势识别模式的情况下，采集手势图像。

因此，本申请实施例通过只有在智能设备处于手势识别模式的情况下，才能够采集手势图像，从而保证了智能设备在手势识别模式下才受用户的控制。

在一个可能的实施例中，预先训练好的手势识别模型中设置有多个目标手势，根据手势区域和预先训练好的手势识别模型，识别手势区域中的手势，包括：通过预先训练好的手势识别模型将多个目标手势中与手势区域匹配度最高的目标手势确定为手势区域中的手势。

因此，本申请实施例通过在手势识别模型中设置有多个目标手势，且通过将手势区域中的手势和多个目标手势来进行匹配，从而能够实现准确识别手势的技术效果。

在一个可能的实施例中，该方法还包括：根据手势，控制智能设备实现与手势对应的功能。

因此，本申请实施例通过手势来使得智能设备实现与手势对应的功能，从而能够实现通过手势来控制智能设备的效果。

在一个可能的实施例中，在采集手势图像之前，该方法还包括：采集用户的人脸图像；根据用户的人脸图像，确定人脸图像验证成功。

因此，本申请实施例通过人脸验证的方式，来避免在人较为密集的区域中，由于除智能设备的拥有者之外的其他用户无意之间摆出的手势控制智能设备执行相应功能的问题。

在一个可能的实施例中，智能设备包括无人机，该方法还包括：根据用户人脸在人脸图像中的位置，调整无人机上的云台的旋转角度，以使得无人机的图像采集模块的视角始终面向用户。

因此，本申请实施例通过调整云台的旋转角度，使得无人机采集的手势图像中始终具有无人机的拥有者的手势，进而能够保证无人机的控制精度。

第二方面，本申请实施例提供了一种智能设备，该智能设备包括：图像采集模块，用于采集手势图像，其中，手势图像包括手势区域；图像处理模块，用于从手势图像中截取出手势区域；手势识别模块，用于根据手势区域和预先训练好的手势识别模型，识别手势区域中的手势。

在一个可能的实施例中，图像处理模块，还用于根据手势图像和预先训练好的手部检测模型，确定手势图像中的手部位置；以及，图像处理模块，还用于根据手部位置，从手势图像中截取出手势区域。

在一个可能的实施例中，图像处理模块，还用于将手势图像拆分为第一子图像和第二子图像，其中，第一子图像和第二子图像存在图像重叠区域，且第一子图像和第二子图像中的至少一个图像包括手势区域；以及，图像处理模块，还用于根据第一子图像、第二子图像和预先训练好的手部检测模型，确定至少一个图像中的手部位置；以及，图像处理模块，还用于根据至少一个图像中的手部位置，从至少一个图像中截取出手势区域。

在一个可能的实施例中，图像采集模块，还用于在智能设备处于手势识别模式的情况下，采集手势图像。

在一个可能的实施例中，预先训练好的手势识别模型中设置有多个目标手势，手势识别模块，还用于通过预先训练好的手势识别模型将多个目标手势中与手势区域匹配度最高的目标手势确定为手势区域中的手势。

在一个可能的实施例中，智能设备还包括：控制模块，用于根据手势，控制智能设备实现与手势对应的功能。

在一个可能的实施例中，图像采集模块，还用于采集用户的人脸图像；以及，图像处理模块，还用于根据用户的人脸图像，确定人脸图像验证成功。

在一个可能的实施例中，智能设备包括无人机，无人机包括：云台调整模块，用于根据用户人脸在人脸图像中的位置，调整无人机上的云台的旋转角度，以使得无人机的图像采集模块的视角始终面向用户。

第三方面，本申请实施例提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。

第四方面，本申请实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。

第五方面，本申请提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。

为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例可应用的一种应用场景的示意图；

图2示出了本申请实施例提供的一种手势识别的方法的流程图；

图3A示出了本申请实施例的一种手势图像的示意图；

图3B示出了本申请实施例的一种第一子图像的示意图；

图3C示出了本申请实施例的一种第二子图像的示意图；

图4示出了本申请实施例提供的一种智能设备的结构框图；

图5为本申请实施例提供的一种电子设备的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

现有技术中，由于智能设备使用手势识别功能时可能会出现远距离拍摄的情况，由于远距离拍摄的图像会导致手势识别效果不佳的问题。例如，在智能设备为无人机的情况下，由于无人机自身的特性，在使用手势识别功能时可能会出现远距离拍摄图像的情况，此时手势在远距离拍摄的图像中的成像比例较小(即手势的特征信息包含的像素的个数占拍摄的图像中的总像素的个数比例较小)，从而会导致手势识别效果不佳的问题，进而无法正常使用手势识别触发相应功能。

基于此，本申请实施例巧妙地提出了一种手势识别的方案，通过将智能设备拍摄的手势图像进行拆分，从而由于减少了手势图像中除去手势之外的其他部分(例如，背景)，进而能够提高手势的特征信息包含的像素个数占在手势图像拆分后得到的子图像中的总像素的个数的比例，并且能够将手势放大，能够提高手部的识别精度，为后续的手部位置的获取提供了便利。

随后，再通过将手势图像拆分后得到的子图像输入到预先训练好的手部检测模型中，从而预先训练好的手部检测模型输出子图像中的手部位置，从而智能设备可以根据手部位置将子图像中的手势区域截取出来，从而能够再次提高手势的特征信息包含的像素个数占在截取出来的图像中的总像素的个数的比例，进而能够提高手势识别的准确性和精度。以及，本申请实施例中的预先训练好的手部检测模型可以识别多种手势，从而也能够解决手势多样性造成的手势识别的问题。

为了便于理解本申请实施例，首先在此对本申请实施例中的一些术语进行解释如下：

名词“手势区域”可以是图像中的用户的完整手部的外轮廓所包含的区域，也可以是图像中的用户的部分手部的外轮廓所包含的区域(例如，触发拍照功能的手势为剪刀手的情况下，手势区域可以为仅包括用户的食指和中指的外轮廓的区域)，也可以是框选有用户完整手部的外接矩形的区域(即除了包含手势的外轮廓所包含的区域，还包含一部分背景区域)，也可以是框选有用户部分手部的外接矩形的区域(例如，触发拍照功能的手势为剪刀手的情况下，手势区域可以为框选有用户的食指和中指的外轮廓的区域，从而后续可以仅通过食指和中指也可以识别用户的手势为剪刀手)，本申请实施例并不局限于此。

名词“特征信息”是手势在图像中所成像的外接矩形所包含的像素的总个数。也就是说，特征信息是指图像中框选手势的外接矩形所包含的像素的个数。

名词“特征信息占比”是特征信息对应的像素个数占图像所包含的像素的总个数的比例。

名词“基于CNN(Convolutional Neural Networks，卷积神经网络)的物体检测模型”是能够实现从图像中检测出手部位置(即手部形态不分区手势姿态)的功能。也就是说，基于CNN物体检测模型可以检测图像中的手部的坐标位置。

名词“基于CNN的物体分类模型”是能够从图像中检测出是否包含所需的手势姿态的功能。也就是说，基于CNN的物体分类模型可以识别手势。

应理解，本申请实施例中的智能设备可以是任何一种具有计算处理能力的设备、器械或者机器。本申请中智能设备可以包括具有自我检测以及自我诊断的设备。还应理解，本申请中的智能设备可以设置有通信模块，通过通信模块可以与用户终端或者另一智能设备通信。

上述通信的方式可以是wifi、红外、蓝牙或4G或5G等无线通信形式，本申请实施例并不限于此。例如，本申请实施例中的智能设备包括但不限于：无人机、无人车、无人船、手持dv、监控设备。也就是说，本申请实施例中的智能设备可以根据实际需求来进行设置，本申请实施例并不局限于此。

上述的用户终端包括但不限于手机(mobile phone)、平板电脑(pad)、带无线收发功能的电脑、虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程医疗(remote medical)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端以及未来5G网络中的终端设备或者未来演进的公用陆地移动通信网络(public land mobile network，PLMN)中的终端设备等。也就是说，本申请实施例中的用户终端也可以根据实际需求来进行设置，本申请实施例对此并不限定。

需要说明的是，为了便于理解本申请实施例，本申请实施例的图1至图3C的相关描述中仅以智能设备为无人机为例来进行说明，在智能设备为其他形式的具体例子可以参见无人机例子的描述，为避免重复，不在赘述。

请参见图1，图1示出了本申请实施例可应用的一种应用场景100的示意图。如图1所示，该应用场景包括用户110、用户终端120和无人机130。

在一些实施例中，用户110可以为无人机130的拥有者，也可以为无人机130拍摄范围内的任意一个用户。用户110可以通过用户终端120来操作无人机130，或者用户110也可以通过摆出手势使得无人机130实现与用户110摆出的手势对应的功能。

在一些实施例中，用户终端120可以为与无人机130通信的应用终端。

在一些实施例中，无人机130可以为空中无人机，也可以为水下无人机。也就是说，无人机130可以根据应用场景的变换来选择对应的无人机的具体机型，本申请实施例并不局限于此。

在一些实施例中，在无人机130为空中无人机的情况下，无人机130可以为单旋翼无人机，也可以为多旋翼无人机等，本申请实施例并不局限于此。

在本申请实施例中，用户110可以通过操作用户终端120来使得用户终端120和无人机130都处于手势识别模式(也可称为手势拍照模式)。在无人机130的拍摄范围内，用户110可以摆出预设手势(例如，剪刀手)，无人机130拍摄包含用户110的手势的手势图像。在获取到手势图像后，无人机130可以将手势图像进行拆分，以将手势图像拆分为第一子图像和第二子图像，其中，第一子图像和第二子图像包含图像重叠区域，且第一子图像和第二子图像中的至少一个图像包含手势区域。随后，无人机130可将第一子图像和第二子图像都输入到预先训练好的手部检测模型中，该手部检测模型能够输出至少一个图像中的手部位置，并且无人机130根据手部位置，从第一子图像和第二子图像中的至少一个图像中将手势区域截取出来。最后，无人机130将包含手势区域的图像输入到预先训练好的手势识别模型中，该手势识别模型能够输出手势识别结果。从而，无人机130可以自身执行与用户110的手势相关的功能。

需要说明的是，本发明实施例提供的手势识别的方法还可以进一步拓展到其他合适的实施场景中，而不限于图1所示的实施场景100，本申请实施例并不局限于此。

以下，作为示例而非限定，将结合相关附图，对本发明实施例做详细描述。

请参见图2，图2示出了本申请实施例提供的一种手势识别的方法的流程图。如图2所示的方法包括：

步骤S210，无人机采集手势图像。其中，手势图像包含手势区域。

具体地，首先，用户可以通过操作用户终端来使得无人机进入手势识别模式。随后，在无人机处于手势识别模式的情况下，用户可以在无人机的摄像装置拍摄范围内摆出预设手势。随后，无人机采集包含有用户的手势的手势图像。从而，只有在无人机处于手势识别模式的情况下，才能够收到用户的控制，进而不仅能够避免图像采集业务和其他业务相冲突，还能够避免。

应理解，预设手势可以是剪刀手，也可以是比心手势，也可以是矩形框手势等。也就是说，预设手势可以根据实际需求来进行设置，本申请实施例并不局限于此。

还应理解，虽然上面示出了无人机处于手势识别模式的情况下采集手势图像，但本领域的技术人员应当理解，无人机还可在不处于手势识别模型的情况下来采集图像，本申请实施例并不局限于此。

例如，在无人机处于室内或者水中等人较少的场景中，用户可以通过直接摆放手势来实现无人机的控制，即此时无需用户提前设置手势识别模式就可实现无人机的控制。

步骤S220，无人机将手势图像拆分为第一子图像和第二子图像。其中，第一子图像和第二子图像存在图像重叠区域，且第一子图像和第二子图像中的至少一个图像包括手势区域。

应理解，无人机获取第一子图像和第二子图像的过程可以是通过一次拆分(或者分割)后得到的，也可以是通过至少两次拆分后得到的，本申请实施例并不局限于此。

还应理解，图像重叠区域也可称为图像重合区域，本申请实施例并不局限于此。

具体地，无人机将获取到的手势图像沿着预设的分割线进行拆分，从而将手势图像拆分为第一子图像和第二子图像。

应理解，预设的分割线的位置可根据实际需求来进行设置，本申请实施例并不局限于此。例如，在手势图像为矩形图像的情况下，预设的分割线可以为平行于矩形的宽度方向且穿过矩形的长度方向的中间点的线条，也可以为平行于矩形的长度方向且穿过矩形的宽度方向的中间点的线条，也可以为矩形的两个对角的连线等。

此外，在沿着预设的分割线对手势图像进行拆分的过程中，由于手势区域在手势图像中的位置不确定(例如，手势区域可以处于手势图像的左边，也可以处于手势图像的中间等)，所以，为了防止拆分手势图像时破坏特征信息的完整性，可以在获取第一子图像的过程中，将预设的分割线向第二子图像所处方向的一侧移动预设的第一距离，以及在获取第二子图像的过程中，将预设的分割线向第一子图像的一侧移动预设的第二距离，从而使得第一子图像和第二子图像是存在图像重叠区域的，从而能够避免破坏手势特征的完整性的问题。其中，第一距离和第二距离均可根据实际需求来进行设置，本申请实施例并不局限于此。

换句话说，这里的分割线除了可以是上面的线条之外，还可以是间隔区域的边界线，这里的间隔区域可以与图像重叠区域的大小和位置均一致。从而，在获取第一子图像的过程中，此时的分割线可以是间隔区域中远离第一子图像的第一边界线。以及，在获取第二子图像的过程中，此时的分割线可以是间隔区域中远离第二子图像的第二边界线。

为了便于理解本申请实施例，下面通过具体的实施例来进行描述。

请参见图3A，图3A示出了本申请实施例的一种手势图像300的示意图。如图3A所示，该手势图像300包括手势区域310，该手势区域310所包含的像素个数为与手势区域310对应的特征信息。需要说明的是，这里为了便于理解间隔区域320，所以在手势图像300中示出了间隔区域320。该间隔区域320为一个矩形的区域，且该间隔区域320包括第一边界线330和第二边界线340。

无人机利用间隔区域320将手势图像300拆分成第一子图像350和第二子图像360。请参见图3B，图3B示出了本申请实施例的一种第一子图像350的示意图。如图3B所示，该第一子图像350是沿着间隔区域320的第一边界线330进行拆分后得到的。以及，请参见图3C，图3C示出了本申请实施例的一种第二子图像360的示意图。如图3C所示，该第二子图像360是沿着间隔区域320的第二边界线340进行拆分后得到的。

其中，对于图3A，特征信息占比为：(85*150)/(330*160)＝25.14％，其中，85表示图3A中的手势区域310的宽度方向上的像素个数，150表示图3A中的手势区域310的长度方向上的像素个数，330表示图3A中的手势图像300的长度方向上的像素个数，160表示图3A中的手势图像300的宽度方向上的像素个数。

对于图3B，特征信息占比为：(85*150)/(200*160)＝25.14％，其中，200表示图3B中的第一子图像350的长度方向上的像素个数。

因此，通过图3A对应的特征信息占比和图3B对应的特征信息占比可以确定，由于通过图像拆分的方式减少了除去手势区域之外的背景部分，从而能够提高特征信息占比。

步骤S230，无人机根据第一子图像、第二子图像和预先训练好的手部检测模型，确定至少一个图像中的手部位置。

应理解，手部检测模型的具体模型类型可以根据实际需求来进行设置，只要保证手部检测模型能够识别图像中的手部位置即可，本申请实施例并不局限于此。例如，该预先训练好的手部检测模型可以为预先训练好的基于CNN的物体检测模型等。

还应理解，预先训练的手部检测模型可以识别包含有完整的特征信息的图像中的手部位置，也可以识别包含有部分的特征信息的图像(或者说图像中包含有部分的手势，例如图3C所示的图像)中的手部位置，本申请实施例并不局限于此。

还应理解，手部检测模型的训练过程可以由无人机训练完成，也可以由用户终端训练完成，只要保证无人机中存储有预先训练好的手部检测模型即可，本申请实施例并不局限于此。

具体地，无人机将获取的第一子图像和第二子图像输入到预先训练好的手部检测模型后，该预先训练好的手部检测模型能够输出手部检测结果。其中，该手部检测结果包括手部位置和第一置信度，该手部位置为用户的手部在每张图像中的坐标位置，第一置信度可以表示的是与每个图像对应的手部检测结果的可信程度。

需要说明的是，在无人机获取到第一置信度后，无人机可以通过第一置信度来对多个手部检测结果进行筛选，从而在无人机需输入的第一子图像或者第二子图像较多的情况下，无人机可通过筛选的过程减少后续需处理的数据量，从而能够加快手势识别的进程。

可选地，无人机可以通过将第一置信度和第一预设值进行比较，从而无人机在确定第一置信度大于第一预设值的情况下，将第一置信度对应的图像进行保留。以及，无人机在确定第一置信度小于第一预设值的情况下，将第一置信度对应的图像进行删除。从而，通过上述这个过程，无人机能够实现图像的第一次筛选。

应理解，第一预设值可以根据实际需求来进行设置，本申请实施例并不局限于此。

还应理解，虽然本申请实施例将第一次筛选的过程描述在步骤S230中，但本领域的技术人员应当理解，该第一次筛选过程也可在无人机从手势图像中截取手势区域之后再执行，且此时执行的第一次筛选过程与前文描述的第一次筛选过程类似，在此不再重复描述。

步骤S240，无人机根据至少一个图像中的手部位置，从至少一个图像中截取出手势区域。

应理解，从至少一个图像中截取出手势区域可以包括从一个图像中截取出一个手势区域，也可以包括从一个图像中截取出至少两个手势区域，本申请实施例并不局限于此。

具体地，无人机可以根据预先训练的手部检测模型的检测结果，来从至少一个图像中截取出手势区域。

需要说明的是，虽然本申请实施例通过步骤S220描述了先对手势图像进行拆分，再通过步骤S230和步骤S240描述了从拆分后的图像中截取手势区域的过程，但本领域的技术人员应当理解，上述步骤S220至步骤S240是用于举例说明，本申请实施例中的无人机还可直接从手势图像中截取出手势区域，即在手势区域进行截取前无需进行其他的处理(例如，拆分处理)，本申请实施例并不局限于此。

例如，无人机从手势图像中截取出手势区域。

例如，无人机将手势图像输入到预先训练好的手部检测模型，从而通过预先训练好的手部检测模型来获取手势图像中的手部位置。无人机再根据手势图像中的手部位置，从手势图像中截取出手势区域。

步骤S250，无人机根据手势区域和预先训练好的手势识别模型，识别手势区域中的手势。

应理解，手势识别模型的具体模型类型可以根据实际需求来进行设置，只要保证手势识别模型能够识别图像中的手势即可，本申请实施例并不局限于此。例如，该预先训练好的手势识别模型可以为预先训练好的基于CNN物体分类模型等。

还应理解，预先训练的手势识别模型可以识别包含有完整的手势的图像中的手势，也可以识别包含有部分手势的图像中的手势，本申请实施例并不局限于此。

还应理解，手势识别模型的训练过程可以由无人机训练完成，也可以由用户终端训练完成，只要保证无人机中存储有预先训练好的手势识别模型即可，本申请实施例并不局限于此。

具体的，无人机将手势区域输入到预先训练好的手势识别模型后，该预先训练好的手势识别模型能够输出手势识别结果。其中，该手势识别结果包括手势和第二置信度，第二置信度可以表示的是与每个手势区域对应的手势识别结果的可信程度。

为了便于理解手势识别模型识别手势的过程，下面通过具体的实施例来进行描述。

在预先训练好的手势识别模型中可以设置有多个目标手势，无人机通过预先训练好的手势识别模型将一个手势区域分别与多个目标手势进行匹配，从而无人机将多个目标手势中与手势区域匹配度最高的目标手势确定为手势区域中的手势。

需要说明的是，在无人机获取到第二置信度后，无人机可以通过第二置信度来对多个手势识别结果进行筛选，无人机可通过第二次筛选的过程来从多个手势识别结果中挑选出可信度较高的手势。

可选地，无人机可以通过将第二置信度和第二预设值进行比较，从而无人机在确定第二置信度大于第二预设值的情况下，将第二置信度对应的手势进行保存。以及，无人机在确定第二置信度小于第二预设值的情况下，将第二置信度对应的手势进行过滤。从而，通过上述这个过程，无人机能够实现数据的第二次筛选。

应理解，第二预设值也可根据实际需求来进行设置，本申请实施例并不局限于此。

此外，由于手势区域位于手势图像中的中部等情况，可能会造成第一子图像和第二子图像都可能存在手势区域，从而在第一子图像和第二子图像都存在手势区域，并且通过步骤S230至步骤S250可能会造成最终同一张手势图像具有两份相同的识别结果，即相当于对同一张手势图像进行了两次手势识别过程。

因此，为了避免上面这种情况，本申请实施例还可通过预先训练好的手部检测模型识别出的手部位置来将识别出的手势还原到手势图像上，从而将能够还原到同一张手势图像上的手势进行筛选，只保留至少两份相同数据中的一份数据即可，进而能够实现对数据的第三次筛选。

还需要说明的是，由于在同一张手势图像中可能会存在多个手势，所以后续步骤S250可能会识别出多个手势，且每个手势对应的功能也是不相同的，因此，本申请实施例可以通过预设的规则来从多个手势中选择出需要识别的手势。

应理解，预设的规则可以根据实际需求来进行设置，只要能够保证从多个手势中选择出需要识别的手势即可，本申请实施例并不局限于此。

例如，无人机可以确定同一手势图像中的每个手势所对应的手势区域的面积大小(或者说手势区域对应的像素数最多)，后续无人将面积最大(或者说像素数据最多)的手势区域中的手势作为需要识别的手势，即预设的规则为选取面积最大或者像素数最多的手势区域中的手势作为需要识别的手势。

再例如，在用户的人脸验证通过的情况下，无人机可以将与通过人脸验证的用户的手势作为需要识别的手势，即预设的规则为选取通过人脸验证的用户的手势作为需要识别的手势。

再例如，在用户的人脸验证通过的情况下，无人机可以将与通过人脸验证的用户距离最近的手势作为需要识别的手势，即预设的规则为选取与通过人脸验证的用户距离最近的手势作为需要识别的手势。

应理解，在步骤S250没有识别到手势的情况下，无人机可继续对下一帧的手势图像执行步骤S210至步骤S250，直至无人机达到循环停止条件才停止手势识别的过程。

其中，循环停止条件可以是无人机退出手势识别模式，本申请实施例并不局限于此。

步骤S260，无人机根据手势，控制无人机实现与手势对应的功能。

还应理解，控制无人机实现相应功能的手势可以为一帧手势图像中识别出的手势，也可以为连续的多帧手势图像中识别出的手势，本申请实施并不局限于此。

应理解，无人机中可预先存储有手势映射集，该手势映射集存储有多个手势和多个功能(或触发多个功能的多个控制指令)的映射关系。例如，映射集存储有多个手势和多个功能的一一映射关系，其中，剪刀手手势与拍照功能存在一一映射关系，心形手势与追踪功能具有一一对应关系等。

还应理解，与手势对应的功能也可根据实际需求来进行设置，本申请实施例并不局限于此。

具体地，无人机在获取到识别出的手势后，无人机通过查询手势映射集来确定当前识别出的手势所对应的功能，随后无人机可执行与手势对应的功能。

需要说明的是，虽然步骤S260描述了无人机执行与手势相应的功能，但本领域的技术人员应当理解，在无人机识别到手势之后，无人机还可将与手势对应的功能的控制指令发送给用户终端，后续有用户终端来实现相应的功能，本申请实施例并不局限于此。

例如，在手势对应的功能为拍照功能的情况下，无人机可以执行拍照功能，并将拍摄的照片传输至用户终端。

再例如，在手势对应的功能为拍照功能的情况下，无人机可以将与拍照功能对应的控制指令发送给用户终端，由于用户终端显示的界面与无人机拍摄的界面都是相同的，从而用户终端在接收到与拍照功能对应的控制指令后，用户终端可以对当前显示的画面执行截屏操作，从而用户终端能够实现拍照。

还需要说明的是，由于在广场、旅游区等人较多的场景下，由于可能存在除无人机的拥有者之外的其他用户会摆出任意手势的可能。因此，为了避免除无人机的非拥有者操控无人机的可能，在步骤S210之前，还设置有以下步骤：

无人机采集用户的人脸图像，以及无人机根据用户的人脸图像，来进行人脸验证。其中，人脸的验证过程可以为将人脸图像中的人脸和无人机预先存储的无人机的拥有者的人脸图像进行匹配的过程。在确定用户的人脸验证成功之后，再执行步骤S210。

应理解，手势图像和人脸图像仅是为了便于描述，应当理解，手势图像中可以包含有人脸和手势，人脸图像中也可以包含人脸和手势，本申请实施例并不局限于此。

此外，在用户的人脸通过验证之后，无人机还可根据用户的人脸在人脸图像中的位置，来调整无人机的云台的旋转角度，从而使得无人机的图像采集模块(例如，摄像机等)的视角始终是面向用户的，从而使得无人机采集的手势图像中始终具有无人机的拥有者的手势，进而能够保证无人机的控制精度。

应理解，上述手势识别的方法仅是示例性的，本领域技术人员根据上述的方法可以进行各种变形。

例如，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。例如，可以将步骤S230和步骤S240合并为一个步骤。

请参见图4，图4示出了本申请实施例提供的一种智能设备400的结构框图，应理解，该智能设备400与上述方法实施例中的智能设备侧对应，能够执行上述方法实施例智能设备侧涉及的各个步骤，该智能设备400具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。智能设备400包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在智能设备400的操作***(operating system，OS)中的软件功能模块。具体地，该智能设备400包括：

图像采集模块410，用于采集手势图像，其中，手势图像包括手势区域；图像处理模块420，用于从手势图像中截取出手势区域；手势识别模块430，用于根据手势区域和预先训练好的手势识别模型，识别手势区域中的手势。

在一个可能的实施例中，图像处理模块420，还用于根据手势图像和预先训练好的手部检测模型，确定手势图像中的手部位置；以及，图像处理模块420，还用于根据手部位置，从手势图像中截取出手势区域。

在一个可能的实施例中，图像处理模块420，还用于将手势图像拆分为第一子图像和第二子图像，其中，第一子图像和第二子图像存在图像重叠区域，且第一子图像和第二子图像中的至少一个图像包括手势区域；以及，图像处理模块420，还用于根据第一子图像、第二子图像和预先训练好的手部检测模型，确定至少一个图像中的手部位置；以及，图像处理模块420，还用于根据至少一个图像中的手部位置，从至少一个图像中截取出手势区域。

在一个可能的实施例中，图像采集模块410，还用于在智能设备处于手势识别模式的情况下，采集手势图像。

在一个可能的实施例中，预先训练好的手势识别模型中设置有多个目标手势，手势识别模块430，还用于通过预先训练好的手势识别模型将多个目标手势中与手势区域匹配度最高的目标手势确定为手势区域中的手势。

在一个可能的实施例中，智能设备400还包括：控制模块(未示出)，用于根据手势，控制智能设备实现与手势对应的功能。

在一个可能的实施例中，图像采集模块410，还用于采集用户的人脸图像；以及，图像处理模块420，还用于根据用户的人脸图像，确定人脸图像验证成功。

在一个可能的实施例中，智能设备400包括无人机，无人机包括：云台调整模块(未示出)，用于根据用户人脸在人脸图像中的位置，调整无人机上的云台的旋转角度，以使得无人机的图像采集模块的视角始终面向用户。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

本申请还提供一种电子设备500，该电子设备500可设置在智能设备中。

图5为本申请实施例提供的一种电子设备500的结构框图，如图5所示。电子设备500可以包括处理器510、通信接口520、存储器530和至少一个通信总线540。其中，通信总线540用于实现这些组件直接的连接通信。其中，本申请实施例中设备的通信接口520用于与其他节点设备进行信令或数据的通信。处理器510可以是一种集成电路芯片，具有信号的处理能力。上述的处理器510可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器510也可以是任何常规的处理器等。

存储器530可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。存储器530中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器510执行时，电子设备500可以执行上述方法实施例中智能设备侧的各个步骤。

电子设备500还可以包括存储控制器、输入输出单元、音频单元、图像采集单元。

所述存储器530、存储控制器、处理器510、外设接口、输入输出单元、音频单元、图像采集单元各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通信总线540实现电性连接。所述处理器510用于执行存储器530中存储的可执行模块，例如电子设备500包括的软件功能模块或计算机程序。

所述输入输出单元用于实现智能设备和用户终端的交互。所述输入输出单元可以是，但不限于，数据输入输出接口等。

图像采集单元可以用于使得智能设备来采集手势图像或者人脸图像。所述图像可以是，但不限于，摄像头等。

音频单元向用户提供音频接口，其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。

可以理解，图5所示的结构仅为示意，所述电子设备500还可包括比图5中所示更多或者更少的组件，或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。

本申请还提供一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行方式实施例中的智能设备侧的任一可选的实现方式所述的方法。

本申请提供还提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行方式实施例中的智能设备侧的任一可选的实现方式所述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种手势识别的方法，其特征在于，应用于智能设备，所述方法包括：

采集手势图像，其中，所述手势图像包括手势区域；

从所述手势图像中截取出所述手势区域；

根据所述手势区域和预先训练好的手势识别模型，识别所述手势区域中的手势。

2.根据权利要求1所述的方法，其特征在于，所述从所述手势图像中截取出所述手势区域，包括：

根据所述手势图像和预先训练好的手部检测模型，确定所述手势图像中的手部位置；

根据所述手部位置，从所述手势图像中截取出所述手势区域。

3.根据权利要求2所述的方法，其特征在于，所述根据所述手势图像和预先训练好的手部检测模型，确定所述手势图像中的手部位置，包括：

将所述手势图像拆分为第一子图像和第二子图像，其中，所述第一子图像和所述第二子图像存在图像重叠区域，且所述第一子图像和所述第二子图像中的至少一个图像包括所述手势区域；

根据所述第一子图像、所述第二子图像和所述预先训练好的手部检测模型，确定所述至少一个图像中的手部位置；

其中，所述根据所述手部位置，从所述手势图像中截取出所述手势区域，包括：

根据所述至少一个图像中的手部位置，从所述至少一个图像中截取出所述手势区域。

4.根据权利要求1所述的方法，其特征在于，所述采集手势图像，包括：

在所述智能设备处于手势识别模式的情况下，采集所述手势图像。

5.根据权利要求1所述的方法，其特征在于，所述预先训练好的手势识别模型中设置有多个目标手势，所述根据所述手势区域和预先训练好的手势识别模型，识别所述手势区域中的手势，包括：

通过所述预先训练好的手势识别模型将所述多个目标手势中与所述手势区域匹配度最高的目标手势确定为所述手势区域中的手势。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述手势，控制所述智能设备实现与所述手势对应的功能。

7.根据权利要求1所述的方法，其特征在于，在采集手势图像之前，所述方法还包括：

采集用户的人脸图像；

根据所述用户的人脸图像，确定所述人脸图像验证成功。

8.根据权利要求7所述的方法，其特征在于，所述智能设备包括无人机，所述方法还包括：

根据用户人脸在所述人脸图像中的位置，调整所述无人机上的云台的旋转角度，以使得所述无人机的图像采集模块的视角始终面向所述用户。

9.一种智能设备，其特征在于，包括：

图像采集模块，用于采集手势图像，其中，所述手势图像包括手势区域；

图像处理模块，用于从所述手势图像中截取出所述手势区域；

手势识别模块，用于根据所述手势区域和预先训练好的手势识别模型，识别所述手势区域中的手势。

10.根据权利要求9所述的智能设备，其特征在于，所述图像处理模块，还用于根据所述手势图像和预先训练好的手部检测模型，确定所述手势图像中的手部位置；以及，

所述图像处理模块，还用于根据所述手部位置，从所述手势图像中截取出所述手势区域。

11.根据权利要求10所述的智能设备，其特征在于，所述图像处理模块，还用于将所述手势图像拆分为第一子图像和第二子图像，其中，所述第一子图像和所述第二子图像存在图像重叠区域，且所述第一子图像和所述第二子图像中的至少一个图像包括所述手势区域；以及，

所述图像处理模块，还用于根据所述第一子图像、所述第二子图像和所述预先训练好的手部检测模型，确定所述至少一个图像中的手部位置；以及，

所述图像处理模块，还用于根据所述至少一个图像中的手部位置，从所述至少一个图像中截取出所述手势区域。

12.根据权利要求9所述的智能设备，其特征在于，所述图像采集模块，还用于在所述智能设备处于手势识别模式的情况下，采集所述手势图像。

13.根据权利要求9所述的智能设备，其特征在于，所述预先训练好的手势识别模型中设置有多个目标手势，所述手势识别模块，还用于通过所述预先训练好的手势识别模型将所述多个目标手势中与所述手势区域匹配度最高的目标手势确定为所述手势区域中的手势。

14.根据权利要求9所述的智能设备，其特征在于，所述智能设备还包括：

控制模块，用于根据所述手势，控制所述智能设备实现与所述手势对应的功能。

15.根据权利要求9所述的智能设备，其特征在于，所述图像采集模块，还用于采集用户的人脸图像；以及，

所述图像处理模块，还用于根据所述用户的人脸图像，确定所述人脸图像验证成功。

16.根据权利要求15所述的智能设备，其特征在于，所述智能设备包括无人机，所述无人机包括：

云台调整模块，用于根据用户人脸在所述人脸图像中的位置，调整所述无人机上的云台的旋转角度，以使得所述无人机的图像采集模块的视角始终面向所述用户。

17.一种存储介质，其特征在于，应用于智能设备，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-8任一所述的手势识别的方法。

18.一种电子设备，其特征在于，应用于智能设备，所述电子设备包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1-8任一所述的手势识别的方法。