CN112926423B

CN112926423B - 捏合手势检测识别方法、装置及***

Info

Publication number: CN112926423B
Application number: CN202110182469.1A
Authority: CN
Inventors: 吴涛
Original assignee: Qingdao Xiaoniao Kankan Technology Co Ltd
Current assignee: Qingdao Xiaoniao Kankan Technology Co Ltd
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2023-08-25
Anticipated expiration: 2041-02-07
Also published as: US20220375269A1; WO2022166243A1; CN112926423A; US11776322B2

Abstract

本发明涉及图像识别技术领域，提供一种捏合手势检测识别方法，应用于电子装置，包括实时获取待检测视频中每一帧的图像数据；基于预训练的手部检测模型对图像数据进行手部定位检测，确定图像数据的手部位置；基于预训练的骨骼点识别模型对确定后的手部位置进行骨骼点识别，确定手部位置上的预设个数的骨骼点；根据预设手指的骨骼点间的距离信息确定与图像数据对应的手部是否为捏合手势。利用上述发明能够快速、准确的对用户手势进行检测及识别，提高用户对人造现实***的体验效果。

Description

捏合手势检测识别方法、装置及***

技术领域

本发明涉及图像检测技术领域，更为具体地，涉及一种捏合手势检测识别方法、装置及***。

背景技术

目前，VR/AR/MR一体机设备越来越多的进入到人们生活中，其主要的应用场景是当用户进行VR/AR/MR场景交互时，通过头戴上的多目追踪摄像头自动识别跟踪用户手一些行为轨迹信息，并通过手的一些行为轨迹检测手势指令，然后作为人造虚拟现实***的输入信息，和虚拟场景进行交互。

其中，对于上述一体设备的空间定位方式，比较普遍和流行的是在一体机设备上内置一个或者多个单色鱼眼追踪相机，通过追踪相机实时定位一体机设备相对物理空间环境的位置和姿态信息。此外，为增强VR/AR/MR一体机设备的虚实结合的沉浸感，使此类设备具有更好的人机交互体验，作为关键模块的手势交互模块必不可少，且其在VR/AR/MR的场景交互中占据着越来越重要的位置。

现有的手势交互模块在采集用户手部动作信息时，通常是在手臂采集手部动作的肌电信号，然后根据肌电信号判断手部动作，该方式成本高，且需要对应的手臂采集装置，用户佩戴体验效果差；此外，采用简单的手势识别模型，通过识别模型直接进行手势识别，对手指的识别精度较差，容易出现误判，适用场景受限，影响用户体验。

发明内容

鉴于上述问题，本发明的目的是提供一种捏合手势检测识别方法、装置及***，以解决现有手势检测方法存在的成本高、佩戴效果差，或者识别精度提，影响用户体验等问题。

本发明提供的捏合手势检测识别方法，应用于电子装置，包括：实时获取待检测视频中每一帧的图像数据；基于预训练的手部检测模型对图像数据进行手部定位检测，确定图像数据的手部位置；基于预训练的骨骼点识别模型对确定后的手部位置进行骨骼点识别，确定手部位置上的预设个数的骨骼点；根据预设手指的骨骼点间的距离信息确定与图像数据对应的手部是否为捏合手势。

此外，优选的技术方案是，每一帧的图像数据通过至少两个鱼眼追踪相机获取，确定手部位置上的预设个数的骨骼点的步骤包括：基于骨骼点识别模型确定手部位置上的预设个数的骨骼点的二维坐标信息；根据二维坐标信息及立体三角成像原理，实时获取与二维坐标信息对应的三维位置坐标信息；其中，三维位置坐标信息用于确定预设手指的骨骼点间的距离信息。

此外，优选的技术方案是，根据预设手指的骨骼点间的距离信息确定手部是否为捏合手势的步骤包括：根据三维坐标位置信息，确定预设预手指对应的骨骼点之间的三维欧式距离；当三维欧氏距离小于预设阈值时，确定手部为捏合手势；否则，当三维欧氏距离大于等于预设阈值时，确定手部为非捏合手势。

此外，优选的技术方案是，还包括：通过手部检测模型获取手部位置在对应的图像数据上的ROI，并获取与ROI对应的ROI图像；对ROI图像进行二值化处理，获取对应的二值化图像；基于骨骼点及图像处理原理，获取二值化图像中的预设手指之间的轮廓信息；获取与轮廓信息对应的轮廓特征距离以及预设手指的指尖骨骼点之间的欧式距离；当轮廓特征距离大于欧式距离，且手部位置的预设两手指之间的三维欧氏距离小于预设阈值时，确定手部为捏合手势。

此外，优选的技术方案是，手部检测模型的训练过程包括：对获取的训练图像数据中的目标区域进行标注，并获取标注的位置信息；其中，目标区域为手部区域；利用yolo模型对标注后的位置信息进行参数训练，直至yolo模型收敛在对应的预设范围内，以完成手部检测模型的训练。

此外，优选的技术方案是，骨骼点识别模型的训练过程包括：基于训练图像数据训练基础神经网络模型，直至神经网络模型收敛在对应的预设范围内，以完成骨骼点识别模型；其中，基础神经网络模型包括：yolo模型、CNN模型、SSD模型或者FPN模型。

此外，优选的技术方案是，还包括：获取连续预设值个帧的图像数据的捏合手势信息；当预设值个帧的图像数据的手部均为捏合手势时，确定待检测视频中的手部为捏合手势。

此外，优选的技术方案是，预设个数的骨骼点包括21个骨骼点；21个骨骼点包括手部的每个手指的3个骨骼点和1个指尖骨骼点，以及1个手掌点。

此外，本发明还提供一种电子装置，该电子装置包括：存储器、处理器及摄像装置，存储器中包括捏合手势检测识别程序，捏合手势检测识别程序被处理器执行时实现如下步骤：实时获取待检测视频中的每一帧图像数据；基于预训练的手部检测模型对图像数据进行手部定位检测，确定图像数据的手部位置；基于预训练的骨骼点识别模型对确定后的手部位置进行骨骼点识别，确定手部位置上的预设个数的骨骼点；根据预设手指的骨骼点间的距离信息确定手部是否为捏合手势。

本发明还提供一种捏合手势检测识别***，其特征在于，包括：图像数据获取单元，用于实时获取待检测视频中的每一帧图像数据；手部位置确定单元，用于基于预训练的手部检测模型对图像数据进行手部定位检测，确定图像数据的手部位置；骨骼点确定单元，用于基于预训练的骨骼点识别模型对确定后的手部位置进行骨骼点识别，确定手部位置上的预设个数的骨骼点；手势确定单元，用于根据预设手指的骨骼点间的距离信息确定与图像数据对应的手部是否为捏合手势。

利用上述捏合手势检测识别方法、装置及***，通过预训练的手部检测模型对图像数据进行手部定位检测，确定图像数据的手部位置，然后基于预训练的骨骼点识别模型对确定后的手部位置进行骨骼点识别，确定手部位置上的预设个数的骨骼点，最终根据预设手指的骨骼点间的距离信息确定与图像数据对应的手部是否为捏合手势，能够识别手指等小部位处的人体姿势，检测准确度高、速度快、灵活性强。

为了实现上述以及相关目的，本发明的一个或多个方面包括后面将详细说明的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而，这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外，本发明旨在包括所有这些方面以及它们的等同物。

附图说明

通过参考以下结合附图的说明，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为根据本发明实施例的捏合手势检测识别方法的流程图；

图2为根据本发明实施例的捏合手势检测识别方法的详细流程图；

图3为根据本发明实施例的手部位置的二值化图像；

图4为根据本发明实施例的电子装置的结构示意图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

在下面的描述中，出于说明的目的，为了提供对一个或多个实施例的全面理解，阐述了许多具体细节。然而，很明显，也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中，为了便于描述一个或多个实施例，公知的结构和设备以方框图的形式示出。

为详细描述本发明的捏合手势检测识别方法、装置及***，以下将结合附图对本发明的具体实施例进行详细描述。

图1示出了根据本发明实施例的捏合手势检测识别方法的流程。

如图1所示，本发明实施例的捏合手势检测识别方法，包括以下步骤：

S110：实时获取待检测视频中每一帧的图像数据。

其中，当本发明的捏合手势检测识别方法应用至VR/AR/MR头戴式一体机设备中时，由于VR/AR/MR头戴式一体机设备基本都采用了Inside-Out定位追踪方案，即通过头戴端内置的至少两个追踪鱼眼相机，实时定位头戴式一体机相对物理环境的位置和姿态信息，因此，图像数据可以为追踪鱼眼相机拍摄的待检测视频中每一帧的图像数据。

可知，该图像数据也可为其他视频中需要进行手势等细小部位的姿势检测的图像数据，本发明中不做具体限制。

S120：基于预训练的手部检测模型对图像数据进行手部定位检测，确定图像数据的手部位置。

具体地，手部检测模型的预训练过程包括：

S121：获取训练图像数据；

S122：对获取的训练图像数据中的目标区域进行标注，并获取标注的位置信息；其中，目标区域为手部区域；

S123：利用yolo模型对标注后的位置信息进行参数训练，直至yolo模型收敛在对应的预设范围内，以完成手部检测模型的训练。

可知，手部检测模型也可采用其他的神经网络模型进行训练，并不相遇上述的具体训练过程。

S130：基于预训练的骨骼点识别模型对确定后的手部位置进行骨骼点识别，确定手部位置上的预设个数的骨骼点。

其中，骨骼点识别模型的预训练过程包括：

S131：获取训练图像数据；

S132：基于获取的训练图像数据训练基础神经网络模型，直至神经网络模型收敛在对应的预设范围内，以完成骨骼点识别模型；其中，基础神经网络模型包括：yolo模型、CNN模型、SSD模型或者FPN模型。

需要说明的是，在上述步骤S120和步骤S130中，训练图像数据可通过头戴式一体机设备上的多个追踪鱼眼相机来获取，例如，图像数据可通过追踪鱼眼相机采集150个用户的手部的动作，共200万张图像数据；当待检测视频为其他类型的视频时，对应的训练图像数据也可以为其他需要进行微小动作采集的图像信息。

具体地，每一帧的图像数据通过至少两个鱼眼追踪相机获取，确定手部位置上的预设个数的骨骼点的步骤包括：

1、基于骨骼点识别模型确定手部位置上的预设个数的骨骼点的二维坐标信息。其中，获取两个追踪鱼眼相机采集的每一帧的图像数据，并通过预训练获取的骨骼点识别模型确定手部位置上的预设个数的骨骼点的二维坐标。

需要说明的是，预设个数的骨骼点可以包括21个骨骼点，进一步地21个骨骼点包括手部的每个手指的3个骨骼点和1个指尖骨骼点，以及1个手掌点，即手的21个骨骼点分别分布在每一个手指的4个骨骼点(三个关节点以及一个手指尖端的骨骼点)和手掌的一个骨骼点。

此外，上述预设个数的骨骼点的具体个数及位置可根据具体的应用场景或者需求进行设置或调整。

另外，在本发明的捏合手势检测识别方法中，通过复用VR/AR/MR的头戴式一体机设备的多个追踪鱼眼相机来实现，本文描述的追踪鱼眼Camera的参数如下：FOV：143°*107°*163°(H*V*D)；分辨率：640*480；帧率：30Hz；曝光方式：Global shutter；颜色通道：单色。

2、根据二维坐标信息及立体三角成像原理，实时获取与二维坐标信息对应的三维位置坐标信息；其中，三维位置坐标信息用于确定预设手指的骨骼点间的距离信息。

S140：根据预设手指的骨骼点间的距离信息确定与图像数据对应的手部是否为捏合手势。

其中，根据预设手指的骨骼点间的距离信息确定手部是否为捏合手势的步骤包括：

1、根据三维坐标位置信息，确定预设预手指对应的骨骼点之间的三维欧式距离。2、当三维欧氏距离小于预设阈值时，确定手部为捏合手势；否则，当三维欧氏距离大于等于预设阈值时，确定手部为非捏合手势。

上述预设手指可根据用户的行为习惯或需求进行设定，符合多数人使用习惯的手势，可将预设手指设置为大拇指和食指，通过二者支架内的单位欧式距离，确定二者是否形成捏合手势，当二者符合捏合手势要求时，可模拟鼠标的确定事件，进行VR/AR/MR场景中的确定信息指令输入。

为确保对手势识别的精度，降低手势的误判率，在本发明的一个具体实施方式中，还可以增加距离判断项，当手势满足两个判断条件时，最终确定其为捏合手势。

具体地，图2示出了根据本发明实施例的捏合手势识别方法的详细流程，如图2所示，本发明提供的捏合手势检测识别，还包括：

S150：通过手部检测模型获取手部位置在对应的图像数据上的ROI，并获取与ROI对应的ROI图像；

S160：对ROI图像进行二值化处理，获取对应的二值化图像，该二值化图像如图3所示。

S170：基于骨骼点及图像处理原理，获取二值化图像中的预设手指之间的轮廓信息；

S180：获取与轮廓信息对应的轮廓特征距离以及预设手指的指尖骨骼点之间的欧式距离；

S190：当轮廓特征距离大于欧式距离，且手部位置的预设两手指之间的三维欧氏距离小于预设阈值时，确定手部为捏合手势。

通过上述在二维及三维空间分别对手部的各种距离信息进行限定，能够提高对手部姿势的检测精度，进而增强用户在使用VR/AR/MR头戴式一体机设备时的体验。

需要说明的是，上述各步骤均是对图像数据的手部位置的状态检测及识别，在待检测视频中，通常一个手势需要持续一定的时间，为此，可在上述各步骤的基础上，判断连续N帧的图像数据的拟合状态，换言之，可通过获取连续预设值个帧的图像数据的捏合手势信息，当预设值个帧的图像数据的手部均为捏合手势时，确定待检测视频中的手部为捏合手势。其中，N帧为经验阈值，在本发明提供的VR/AR/MR头戴式一体机设备应用场景中，该预设阈值可设置为5，在手势识别稳定的前提下，该阈值可设置为更小的数值，否则会影响用户体验。

与上述捏合手势检测识别方法相对应的，本发明还提供一种电子装置。图4示出了根据本发明实施例的电子装置的示意结构。

如图4所示，本发明的电子装置1可以是VR/AR/MR头戴式一体机设备、服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。其中，该电子装置1包括：处理器12、存储器11、网络接口14及通信总线15。

其中，存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子装置1的外部存储器11，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的捏合手势检测识别程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行捏合手势检测识别程序10等。

网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置1与其他电子设备之间建立通信连接。

通信总线15用于实现这些组件之间的连接通信。

图1仅示出了具有组件11-15的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子装置1还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

可选地，该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。

在图1所示的装置实施例中，作为一种计算机存储介质的存储器11中可以包括操作***以及捏合手势检测识别程序10；处理器12执行存储器11中存储的捏合手势检测识别程序10时实现如下步骤：

实时获取待检测视频中的每一帧图像数据；

基于预训练的手部检测模型对图像数据进行手部定位检测，确定图像数据的手部位置；

基于预训练的骨骼点识别模型对确定后的手部位置进行骨骼点识别，确定手部位置上的预设个数的骨骼点；

根据预设手指的骨骼点间的距离信息确定手部是否为捏合手势。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质中包括捏合手势检测识别程序，所述捏合手势检测识别程序被处理器执行时实现如上所述捏合手势检测识别程序方法的步骤。

另一方面，上述捏合手势检测识别程序10，即捏合手势检测识别***，进一步包括：

图像数据获取单元，用于实时获取待检测视频中的每一帧图像数据；

手部位置确定单元，用于基于预训练的手部检测模型对图像数据进行手部定位检测，确定图像数据的手部位置；

骨骼点确定单元，用于基于预训练的骨骼点识别模型对确定后的手部位置进行骨骼点识别，确定手部位置上的预设个数的骨骼点；

手势判断单元，用于根据预设手指的骨骼点间的距离信息确定与图像数据对应的手部是否为捏合手势。

本发明之计算机可读存储介质的具体实施方式与上述捏合手势检测识别程序方法、装置、***的具体实施方式大致相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

如上参照附图以示例的方式描述根据本发明的捏合手势检测识别方法、装置及***。但是，本领域技术人员应当理解，对于上述本发明所提出的捏合手势检测识别方法、装置及***，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种捏合手势检测识别方法，应用于电子装置，其特征在于，包括：

实时获取待检测视频中每一帧的图像数据；

基于预训练的手部检测模型对所述图像数据进行手部定位检测，确定所述图像数据的手部位置；

基于预训练的骨骼点识别模型对确定后的手部位置进行骨骼点识别，确定所述手部位置上的预设个数的骨骼点；

其中，所述确定所述手部位置上的预设个数的骨骼点的步骤包括：基于所述骨骼点识别模型确定所述手部位置上的预设个数的骨骼点的二维坐标信息；根据所述二维坐标信息及立体三角成像原理，实时获取与所述二维坐标信息对应的三维位置坐标信息；其中，所述三维位置坐标信息用于确定所述预设手指的骨骼点间的距离信息；

根据预设手指的骨骼点间的距离信息确定与所述图像数据对应的手部是否为捏合手势；

其中，根据预设手指的骨骼点间的距离信息确定与所述图像数据对应的手部是否为捏合手势，包括：根据所述三维坐标位置信息，确定所述预设手指对应的骨骼点之间的三维欧式距离；通过所述手部检测模型获取所述手部位置在对应的所述图像数据上的ROI，并获取与所述ROI对应的ROI图像；对所述ROI图像进行二值化处理，获取对应的二值化图像；基于所述骨骼点及图像处理原理，获取所述二值化图像中的预设手指之间的轮廓信息；获取与所述轮廓信息对应的轮廓特征距离以及所述预设手指的指尖骨骼点之间的欧式距离；当所述轮廓特征距离大于所述欧式距离，且所述手部位置的预设两手指之间的三维欧氏距离小于预设阈值时，确定所述手部为捏合手势；当所述三维欧氏距离大于等于所述预设阈值时，确定所述手部为非捏合手势。

2.如权利要求1所述的捏合手势检测识别方法，其特征在于，所述每一帧的图像数据通过至少两个鱼眼追踪相机获取。

3.如权利要求1所述的捏合手势检测识别方法，其特征在于，所述手部检测模型的训练过程包括：

对获取的训练图像数据中的目标区域进行标注，并获取标注的位置信息；其中，所述目标区域为手部区域；

利用yolo模型对标注后的位置信息进行参数训练，直至所述yolo模型收敛在对应的预设范围内，以完成所述手部检测模型的训练。

4.如权利要求1所述的捏合手势检测识别方法，其特征在于，所述骨骼点识别模型的训练过程包括：

基于训练图像数据训练基础神经网络模型，直至所述神经网络模型收敛在对应的预设范围内，以完成所述骨骼点识别模型；其中，

所述基础神经网络模型包括：yolo模型、CNN模型、SSD模型或者FPN模型。

5.如权利要求1所述的捏合手势检测识别方法，其特征在于，还包括：

获取连续预设值个帧的图像数据的捏合手势信息；

当所述预设值个帧的图像数据的手部均为捏合手势时，确定所述待检测视频中的手部为捏合手势。

6.如权利要求1所述的捏合手势检测识别方法，其特征在于，

所述预设个数的骨骼点包括21个骨骼点；

所述21个骨骼点包括所述手部的每个手指的3个骨骼点和1个指尖骨骼点，以及1个手掌点。

7.一种电子装置，其特征在于，该电子装置包括：存储器、处理器及摄像装置，所述存储器中包括捏合手势检测识别程序，所述捏合手势检测识别程序被所述处理器执行时实现如下步骤：

实时获取待检测视频中的每一帧图像数据；

根据预设手指的骨骼点间的距离信息确定手部是否为捏合手势；

其中，根据预设手指的骨骼点间的距离信息确定手部是否为捏合手势，包括：根据所述三维坐标位置信息，确定所述预设手指对应的骨骼点之间的三维欧式距离；通过所述手部检测模型获取所述手部位置在对应的所述图像数据上的ROI，并获取与所述ROI对应的ROI图像；对所述ROI图像进行二值化处理，获取对应的二值化图像；基于所述骨骼点及图像处理原理，获取所述二值化图像中的预设手指之间的轮廓信息；获取与所述轮廓信息对应的轮廓特征距离以及所述预设手指的指尖骨骼点之间的欧式距离；当所述轮廓特征距离大于所述欧式距离，且所述手部位置的预设两手指之间的三维欧氏距离小于预设阈值时，确定所述手部为捏合手势；当所述三维欧氏距离大于等于所述预设阈值时，确定所述手部为非捏合手势。

8.一种捏合手势检测识别***，其特征在于，包括：

手部位置确定单元，用于基于预训练的手部检测模型对所述图像数据进行手部定位检测，确定图像数据的手部位置；

骨骼点确定单元，用于基于预训练的骨骼点识别模型对确定后的手部位置进行骨骼点识别，确定所述手部位置上的预设个数的骨骼点；

手势确定单元，用于根据预设手指的骨骼点间的距离信息确定与所述图像数据对应的手部是否为捏合手势；