CN113220125A

CN113220125A - 手指交互方法、装置、电子设备及计算机存储介质

Info

Publication number: CN113220125A
Application number: CN202110548068.3A
Authority: CN
Inventors: 任子辉; 林辉; 段亦涛
Original assignee: Netease Youdao Information Technology Beijing Co Ltd
Current assignee: Netease Youdao Information Technology Beijing Co Ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-08-06

Abstract

本发明的实施方式提供了一种手指交互方法、装置、电子设备及计算机存储介质，其中方法包括：获取包含手部的一个或多个图像；利用第一检测模型，检测图像中手上部位的类别和粗略位置；利用第二检测模型，检测手上部位的指头的粗略位置中包括的指尖精细位置；以及根据指头的粗略位置和指尖精细位置，确定指头指向的目标对象。根据本发明实施方式的方法可以更加准确地匹配到指尖所指的内容，且能够适应360度任意方向的指向，提高了鲁棒性；另外，通过采用第一检测模型和第二检测模型分别实现指头粗定位和指尖细定位的方式，可以提高检测准确率、降低响应耗时。

Description

手指交互方法、装置、电子设备及计算机存储介质

技术领域

本发明的实施方式涉及计算机技术领域，一般地涉及图像识别等人工智能技术领域，更具体地，本发明的实施方式涉及手指交互方法、装置及相关的电子设备、计算机存储介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

查生词是阅读学习过程中常见的场景，传统的工具(包括纸质字典、电子辞典、电子笔记、手机查词app等)操作耗时，效率比较低。随着人工智能和大数据技术的发展，又出现了一些更加智能的学习工具(词典笔、点读机等)，极大地提高了学习效率。但是词典笔在学习场景下有一定的局限性，需要用户放下手中的写字笔，再拿起词典笔扫描查词，整个过程还不够简便。

近些年出现了一些基于视觉的手指点读查词技术，以期在查生词过程中解放用户的双手、减少阅读学习过程中的干扰。这些技术一般都是通过定位指尖位置，然后输出离指尖位置坐标最近的内容。但是这些技术仅仅定位一个指尖坐标，无法判断手指指向，也无法判断是哪个手指，因此只能输出指尖上方的内容。如果手指出现倾斜，这些技术实际匹配到的内容和用户真实想指的内容会有很大的偏差。

发明内容

为此，非常需要一种改进的手指交互方法及相关产品，可以准确地匹配出用户真实指向的内容。

在本上下文中，本发明的实施方式期望提供一种手指交互方法及相关产品。

在本发明实施方式的第一方面中，提供了一种手指交互方法，包括：获取包含手部的一个或多个图像；利用第一检测模型，检测图像中手上部位的类别和粗略位置；利用第二检测模型，检测手上部位的指头的粗略位置中包括的指尖精细位置；以及根据指头的粗略位置和指尖精细位置，确定指头指向的目标对象。

在本发明的一个实施例中，在利用第二检测模型之前，还包括：根据各个类别的手上部位在多个图像中的时序位置特征，判断手部交互的意图；以及响应于手部交互的意图为取词意图，执行利用第二检测模型的检测。

在本发明的另一个实施例中，还包括：根据手上部位中的指头的粗略位置从图像上选取对应的目标区域；以及将目标区域提供给第二检测模型，以检测指尖精细位置。

在本发明的又一个实施例中，指头的粗略位置通过包围框来表示，目标区域为包括部分或全部包围框以及包围框邻近区域部分的裁剪图，优选地，以包围框中的指尖为中心，裁剪预置尺寸的框图为裁剪图。

在本发明的一个实施例中，根据指头的粗略位置和指尖精细位置，确定指头指向的目标对象包括：以包围框的中心点为起点，指尖精细位置的坐标为终点，组成指尖向量；以及根据指尖向量匹配裁剪图中的识别对象，作为指头指向的目标对象，优选地，获取沿着指尖向量的方向上、与指尖精细位置的坐标距离最近的识别对象，作为指头指向的目标对象。

在本发明的又一个实施例中，还包括：在执行利用第二检测模型的检测之前、之后或同时，对目标区域执行光学字符识别，以得到识别结果；并且确定指头指向的目标对象包括确定识别结果中对应的字符。

在本发明的再一个实施例中，还包括对目标对象执行以下任一操作：点读操作或翻译操作。

在本发明的一个实施例中，手上部位的类别包括以下至少一项：手掌、大拇指指头、食指指头、中指指头、无名指指头和小拇指指头。

在本发明的另一个实施例中，第一检测模型和第二检测模型分别是经过训练的神经网络模型。

在本发明实施方式的第二方面中，提供了一种手指交互装置，包括：获取模块，配置成获取包含手部的一个或多个图像；第一检测模块，配置成利用第一检测模型，检测图像中手上部位的类别和粗略位置；第二检测模块，配置成利用第二检测模型，检测手上部位的指头的粗略位置中包括的指尖精细位置；以及确定模块，配置成根据指头的粗略位置和指头的指尖精细位置，确定指头指向的目标对象。

在本发明的一个实施例中，还包括：判断模块，配置成在利用第二检测模型之前，根据各个类别的手上部位在多个图像中的时序位置特征，判断手部交互的意图；并且第二检测模块配置成响应于手部交互的意图为取词意图，执行利用第二检测模型的检测。

在本发明的另一个实施例中，还包括：选取模块，配置成根据手上部位中的指头的粗略位置从图像上选取对应的目标区域；将目标区域提供给第二检测模型，以检测指尖精细位置。

在本发明的一个实施例中，确定模块进一步配置成：以包围框的中心点为起点，指尖精细位置的坐标为终点，组成指尖向量；根据指尖向量匹配裁剪图中的识别对象，作为指头指向的目标对象，优选地，获取沿着指尖向量的方向上、与指尖精细位置的坐标距离最近的识别对象，作为指头指向的目标对象。

在本发明的又一个实施例中，还包括：识别模块，配置成在执行第二检测模块之前、之后或同时，对目标区域执行光学字符识别，以得到识别结果；并且确定模块进一步配置成：根据指头的粗略位置和指头的指尖精细位置，确定识别结果中对应的字符。

在本发明的再一个实施例中，还包括：执行模块，配置成对目标对象执行以下任一操作：点读操作或翻译操作。

在本发明的一个实施例中，手上部位包括以下至少一项：手掌、大拇指指头、食指指头、中指指头、无名指指头和小拇指指头。

在本发明实施方式的第三方面中，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以执行根据本发明实施方式的第一方面中的任一项的方法。

在本发明实施方式的第四方面中，提供了一种计算机可读存储介质，其存储有计算机程序，当计算机程序由处理器来运行时，执行根据本发明实施方式的第一方面中的任一项的方法。

根据本发明实施方式的手指交互方法及相关产品，通过分别检测手上部位的指头的粗略位置和指尖精细位置来确定指头指向的目标对象，从而更加准确地匹配到指尖所指的内容，且能够适应360度任意方向的指向，提高了鲁棒性；另外，通过采用第一检测模型和第二检测模型分别实现指头粗定位和指尖细定位的方式，可以提高检测准确率、降低响应耗时。在一些实施例中，可以利用不同手上部位的时序位置特征来识别不同的手势，进而精确判断当前手指交互的意图，避免误触发。在另一些实施例中，可以根据指头的粗略位置在原图上裁剪出一个适当尺寸的区域小图，并将该区域小图输入第二检测模型以得到指尖精细位置，通过基于指头的粗略位置对原图进行裁剪，可以在保证精度的前提下大幅减少第二检测模型的数据处理量，进而提高响应速度，增强用户体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施方式的应用场景示意图；

图2示意性地示出了根据本发明实施方式的手指交互方法的流程图；

图3示意性地示出了根据本发明实施例的利用第一检测模型检测手上部位的类别和粗略位置的应用场景示意图；

图4示意性地示出了根据本发明实施例的利用第二检测模型检测指尖精细位置的应用场景示意图；

图5示意性地示出了本发明实施例的根据指尖向量匹配识别对象的应用场景示意图；

图6示意性地示出了根据本发明实施方式的手指交互方法的另一实施例的流程图；

图7示意性地示出了根据本发明实施方式的手指交互装置的功能性框图；以及

图8示意性地示出了适于实现本发明实施方式的示例性计算***的框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

根据本发明的实施方式，提出了一种手指交互方法、装置、设备及计算机可读存储介质。通过下面的描述，可以理解的是，本发明实施方式的方法可以通过分别检测手上部位的指头的粗略位置和指尖精细位置来确定指头指向的目标对象，从而更加准确地匹配到指尖所指的内容，且能够适应360度任意方向的指向，提高了鲁棒性；另外，通过采用第一检测模型和第二检测模型分别实现指头粗定位和指尖细定位的方式，可以提高检测准确率、降低响应耗时。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，在基于视觉的手指点读查词技术中，一般都是采用单一的检测模型来定位一个指尖坐标。采用这种方案无法判断手指指向，也无法判断是哪个手指，且在仅有一个指尖坐标的情况下只能匹配到该指尖坐标上方(通常是正上方)的内容。如果手指倾斜，这种方案实际匹配到的内容和用户真实想指的内容会有很大的偏差。申请公布号为CN109325464A的专利公开了一种基于人工智能的手指点读文字识别方法及翻译方法，该方法加入了文本角度识别功能，但是没有解决手指的方向问题，依然无法判断手指指向。

本发明人还发现，采用单一的检测模型对原始图像进行检测以匹配用户指向的内容的方案，存在准确率低、耗时较长的缺点，这种缺点随着原始图像的分辨率或清晰度的增大而愈发明显。

基于以上发现，本发明人提出了“两阶段”确定手指指向的构思，以期更加准确地、快速地匹配指尖所指的文字。具体的构思如下：首先采用一个检测模型检测原始图像中手上部位的粗略位置，此即为“粗定位”阶段；然后基于粗定位的结果，采用另一个检测模型对指头的粗略位置进行第二次检测以得到指尖的精细位置，此即为“细定位”阶段。通过分别检测手上部位的指头的粗略位置和指尖精细位置来确定指头指向的目标对象，从而更加准确地匹配到指尖所指的内容，且能够适应360度任意方向的指向，提高了鲁棒性；另外，通过采用两个检测模型分别实现指头粗定位和指尖细定位的方式，可以提高检测准确率、降低响应耗时。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1详细阐述本发明实施例的手指交互方法及相关产品的应用场景。

图1示意性地示出了根据本发明实施方式的应用场景示意图。需要说明的是，图1仅为可以应用本发明实施方式的应用场景的示例，以帮助本领域技术人员理解本发明的技术内容，并不意味着本发明实施方式不可以用于其他设备、***、环境或场景。

如图1中所示，在手指点读查词应用场景下，应用本发明实施例的手指交互方法的***架构可以包括摄像装置101、云服务器102、终端设备103。摄像装置101放置在读物的顶部，以俯视视角实时采集图像。终端设备103可以实时处理摄像装置101采集的图片并输出结果，例如终端设备103可以采用第一检测模型和/或第二检测模型对实时采集的图像进行推理及信息存储等。终端设备103可以是各种电子设备，包括但不限于智能台灯、智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

云端服务器102可以执行第一检测模型和/或第二检测模型的推理及信息存储等。终端设备103可以通过网络与云端服务器102交互，以接收或发送消息等。例如，云端服务器102可以接收终端设备103发送的第一检测模型的第一次推理结果，并采用第二检测模型对第一次推理结果进行第二次推理。

需要说明的是，本发明实施例的手指交互方法中的第一检测模型和/或第二检测模型既可以部署在终端设备103上，也可以部署在云端服务器102上，本发明实施例对此不做限定。

用户在学习或阅读过程中，如果需要查词，可以用手指指一下待查词的位置，摄像装置101采集包含手部的图像后可以发送至终端设备103进行图像处理。之后，终端设备103可以执行本发明实施例的手指交互方法；或者，终端设备103和云端服务器102可以执行本发明实施例的手指交互方法。最后，可以获得该词的读音、释义等。

示例性方法

下面结合图1所示的应用场景，参考图2来描述根据本发明示例性实施方式的手指交互方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

首先参考图2，示意性地示出了根据本发明实施方式的手指交互方法的流程图。如图2中所示，方法200可以包括：在步骤210中，可以获取包含手部的一个或多个图像。在一些实施例中，可以通过图1中的摄像装置101实时采集特定区域的图像，摄像装置101可以是集成在终端设备103中的模组，例如摄像头。在一些实施例中，包含手部的一个或多个图像可以是经预处理后的图像，预处理的方式包括但不限于平滑降噪、中值滤波、边缘检测等。

接着，在步骤220中，可以利用第一检测模型，检测图像中手上部位的类别和粗略位置。在一些实施例中，第一检测模型可以是经过训练的神经网络模型。第一检测模型的初始模型可以是各种类型的未经训练的或未训练完成的人工神经网络，例如深度学习模型。具体地，技术人员可以根据实际的应用需求(如需要包括卷积层、池化层、激活层、批归一化层等中的哪些层、每层的层数、卷积核的大小和步长等)构建第一检测模型的初始模型。第一检测模型的初始模型的各层可以设置有初始参数，参数在第一检测模型的初始模型的训练过程中可以被不断地调整。

具体地，第一检测模型的初始模型的训练过程包括：首先获取训练样本集，该训练样本集中的每个图像样本包含手上部位的类别信息和粗略位置信息；然后利用机器学习的方法，基于训练样本集和预设的损失函数，训练得到第一检测模型。其中，预设的损失函数可以包括置信度损失函数、分类损失函数、回归损失函数中的一种或多种。

在另一些实施例中，手上部位的类别包括以下至少一项：手掌、大拇指指头、食指指头、中指指头、无名指指头和小拇指指头。其中，指头指的是手指的头部区域。优选地，手上部位的类别包括手掌、大拇指指头、食指指头、中指指头、无名指指头和小拇指指头这六种类别。在一些实施例中，手上部位的粗略位置可以通过包围框(bounding box)来表示。其中，包围框可以用一个或多个位置参数表示，例如x坐标的偏移(bx)、y坐标的偏移(by)、宽度的偏移(bw)、高度的偏移(bh)。

示例性地，第一检测模型可以设置成用于检测手掌、大拇指指头、食指指头三个类别。其中第一检测模型可以将包含手部的图像划分为N×N个网格，每次检测一个网络。每检测一个网格第一检测模型可以输出向量y＝[Pc,bx,by,bh,bw,c1,c2,c3,Pc,bx,by,bh,bw,c1,c2,c2]，Pc表示是否在网格中检测到目标(若无，则Pc＝0，bx,by,bh,bw均为0)，(bx,by,bh,bw)则是目标的包围框的位置参数，(c1,c2,c3)表示目标是手掌、大拇指指头、食指指头中的哪一类。

为了更好地理解本发明实施例的步骤220，图3示出了根据本发明实施例的利用第一检测模型检测手上部位的类别和粗略位置的应用场景示意图。如图3所示，将包含手部的输入图像输入至训练完成的第一检测模型，第一检测模型检测手部上的各种类别指头和手掌并用包围框(bounding box)框出各类指头的位置。经过检测，输入图像包含大拇指指头和食指指头两个指头类别以及手掌，第一检测模型可以用包围框分别示出手掌的粗略位置(最大的虚线框)、大拇指指头的粗略位置(左侧的小虚线框)、食指指头的粗略位置(上侧的小虚线框)。

在本发明的又一个实施例中，在将第一检测模型的检测结果传递给第二检测模型时，方法200还可以包括：根据手上部位中的指头的粗略位置从图像上选取对应的目标区域；以及将目标区域提供给第二检测模型，以检测指尖精细位置。其中，图1中的云服务器102或终端设备103可以执行根据手上部位中的指头的粗略位置从图像上选取对应的目标区域以及将目标区域提供给第二检测模型的步骤。其中，目标区域可以是指头的粗略位置周围预置的框形区域，例如目标区域可以是以指头的粗略位置为中心点的预置尺寸的框形图。示例性地，这里的预置尺寸可以是第一检测模型输入图像的预置比例尺寸(例如1/16)，也可以是预置的大小(例如10mm×10mm)。图1中的云服务器102或终端设备103选取出目标区域后，可以将该目标区域送入第二检测模型以检测指尖精细位置。

需要说明的是，本发明实施例并不限定目标区域的尺寸以及目标区域与指头的粗略位置的位置关系(例如，指头的粗略位置可以位于目标区域的中心点，也可以位于目标区域中心点的上方区域，还可以位于目标区域中心点的下方区域)，只要该目标区域包含指头和指头所指向的内容，其方案都落入本发明实施例的保护范围。

在另一些实施例中，目标区域为包括部分或全部包围框以及包围框邻近区域部分的裁剪图。其中，图1中的云服务器102或终端设备103可以从第一检测模型的输入图像中裁剪出目标区域作为裁剪图。该裁剪图可以包括部分手上部位的包围框，也可以包括全部手上部位的包围框。该裁剪图还可以包括包围框邻近区域的内容，例如食指指头包围框邻近区域的内容。本发明实施例并不限定邻近区域的具体范围，只要该邻近区域包含指头所指向的内容，其方案都落入本发明实施例的保护范围。

在另一些实施例中，根据手上部位中的指头的粗略位置从图像上选取对应的目标区域包括：以包围框中的指尖为中心，裁剪预置尺寸的框图为裁剪图。示例性地，可以以食指指头包围框中的指尖为中心，裁剪出预置尺寸的框图为裁剪图。这里的预置尺寸可以是第一检测模型输入图像的预置比例尺寸(例如1/16)，也可以是预置的大小(例如10mm×10mm)。

返回图2，流程可以前进到步骤230中，在此可以利用第二检测模型，检测手上部位的指头的粗略位置中包括的指尖精细位置。在一些实施例中，第二检测模型可以是经过训练的神经网络模型。第二检测模型的初始模型可以是各种类型的未经训练的或未训练完成的人工神经网络，例如深度学习模型。具体地，技术人员可以根据实际的应用需求(如需要包括卷积层、池化层、激活层、批归一化层等中的哪些层、每层的层数、卷积核的大小和步长等)构建第二检测模型的初始模型。第二检测模型的初始模型的各层可以设置有初始参数，参数在第二检测模型的初始模型的训练过程中可以被不断地调整。

具体地，第二检测模型的初始模型的训练过程包括：首先获取训练样本集，该训练样本集中的每个图像样本为包括指头的图像，例如第一检测模型输出的包含指头的粗略位置的目标区域；然后利用机器学习的方法，基于训练样本集和预设的损失函数，训练得到第二检测模型。其中，预设的损失函数可以包括置信度损失函数、分类损失函数、回归损失函数中的一种或多种。

为了更好地理解本发明实施例的步骤230，图4示出了根据本发明实施例的利用第二检测模型检测指尖精细位置的应用场景示意图。如图4所示，将第一检测模型选出的包含食指指头的目标区域输入至训练完成的第二检测模型，第二检测模型从食指指头的粗略位置中检测出指尖精细位置(图中星星符号表示)。

返回图2，方法前进到步骤240，在此可以根据指头的粗略位置和指尖精细位置，确定指头指向的目标对象。在一些实施例中，指尖精细位置可以以一个点表示，并再从指头的粗略位置中取一个点，以这两个点组成一个具有方向的向量以表征指头指向。然后，根据该向量的指向确定目标对象。在另一个实施例中，可以以指头的包围框的中心点为起点，指尖精细位置的坐标为终点，组成指尖向量。

在又一些实施例中，步骤240可以包括：以包围框的中心点为起点，指尖精细位置的坐标为终点，组成指尖向量；以及根据指尖向量匹配裁剪图中的识别对象，作为指头指向的目标对象。其中，裁剪图中的识别对象指的是对裁剪图中的内容进行机器识别而得到对象。这些识别对象在裁剪图中具有对应的位置特征，通过指尖向量和这些识别对象的位置关系，可以匹配出该指尖向量指向的识别对象，并将其作为指头指向的目标对象。

在又一些实施例中，根据指尖向量匹配裁剪图中的识别对象包括：获取沿着指尖向量的方向上、与指尖精细位置的坐标距离最近的识别对象，作为指头指向的目标对象。

为了方便理解本发明实施例的根据指尖向量匹配识别对象的过程，图5示出了本发明实施例的根据指尖向量匹配识别对象的应用场景示意图。如图5所示，指尖向量的起点为指头包围框(虚线框)的中心点，终点为指尖精细位置的坐标(虚线框中实线的另一端)，裁剪图中识别对象包括A、B、C、D，分别计算A、B、C、D在指尖向量的方向上、与指尖精细位置的坐标的距离，最后选出距离最近的识别对象B作为指头指向的目标对象。

以上结合图2对根据本发明实施方式的手指交互方法进行了示例性的描述，本领域技术人员可以理解的是，上面的描述是示例性的而非限制性的。

在本发明的一个实施例中，在利用第二检测模型之前，方法200还可以包括：根据各个类别的手上部位在多个图像中的时序位置特征，判断手部交互的意图；以及响应于手部交互的意图为取词意图，执行利用第二检测模型的检测。其中，在根据步骤220得到手上部位的类别和粗略位置后，可以根据不同手上部位的时序位置特征，判断手部的交互意图。这里的时序位置特征可以是将时序图像输入至第一检测模型而得到的。将一帧图像输入至第一检测模型后即可得到该帧图像中手上部位的类别和粗略位置，将多帧时序图像输入至第一检测模型后，可以得到不同手上部位的时序位置特征。

优选地，可以根据手掌、大拇指指头、食指指头、中指指头、无名指指头和小拇指指头六个类别的时序位置特征，综合判断当前手部的交互意图。其中，当前手部的交互意图可以通过手势判断，例如若检测出图3中所示的手势，可以判断出当前的手部交互意图为取词意图。本发明实施例通过识别不同手指的类别，加以利用前后帧的时序信息，可以识别不同手势类别，精确判断用户意图，避免误触发。

在本实施例的一些可选的实现方式中，方法200还可以包括：在执行利用第二检测模型的检测之前、之后或同时，对目标区域执行光学字符识别，以得到识别结果；并且确定指头指向的目标对象包括确定识别结果中对应的字符。光学字符识别(Optical CharacterRecognition，OCR)是指电子设备检查图像或纸上的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。其中，图1中的云服务器102或终端设备103可以对目标区域执行光学字符识别，以得到识别结果。对目标区域执行光学字符识别的步骤可以在利用第二检测模型进行检测之前执行，也可以在利用第二检测模型检测完指尖精准位置之后执行，还可以在利用第二检测模型进行检测的同时执行。优选地，对目标区域执行光学字符识别的步骤可以在利用第二检测模型进行检测之前执行，以提高响应速度，降低耗时。

在本实施例的一些可选的实现方式中，方法200还可以包括：对目标对象执行以下任一操作：点读操作或翻译操作。

图6示出了根据本发明实施方式的手指交互方法的另一实施例的流程图。如图6所示，首先执行步骤601：摄像头采集图像。之后，将每一帧图像输入至手掌和指头检测模型以执行步骤602：手掌和指头检测。在步骤602处，检测当前帧图像中是否有手掌和指头，并识别指头类别(包括大拇指，食指，中指，无名指，小拇指)。如果手掌和指头检测模型检测到了手掌和指头，会输出手掌和指头的类别以及包围框，记包围框的中心点为S点。在得到各类手指的指头粗定位后，接着执行步骤603：判断点读意图。在步骤603处，可以根据不同手指的时序位置特征，判断当前手指交互意图。若当前手指交互意图是点读意图，则接着执行步骤604：以指头为中心点裁剪适当尺寸的小图，该小图包含全部或部分手指和文字。

接着，将裁剪出的小图输入至指尖精细位置回归模型以执行步骤605：指尖精细位置回归，得到沿着手指方向的末端点，记为E点。裁剪出的小图同时经过光学字符识别模块，并执行步骤607：光学字符识别，得到光学字符识别结果。在步骤607处，光学字符识别结果包括手指周围的文字内容和文字位置。在执行完步骤605后，接着执行步骤606：以指头包围框的中心点为起点，指尖精细位置的坐标为终点组成指尖向量。在步骤606处，以S为起点，E为终点组成一个指尖向量V。接着执行步骤608：指尖向量匹配当前所指字符。在步骤608处，可以根据指尖向量和候选文字位置框找到沿着手指方向离指尖最近的字符。最后执行步骤609：输出点读或翻译的结果。以此类推，处理后面每一帧的图像。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图7对本发明示例性实施方式的手指交互装置进行描述。

图7示意性地示出了根据本发明实施方式的手指交互装置的功能框图。如图7中所示，装置700可以包括：获取模块710，配置成获取包含手部的一个或多个图像；第一检测模块720，配置成利用第一检测模型，检测图像中手上部位的类别和粗略位置；第二检测模块730，配置成利用第二检测模型，检测手上部位的指头的粗略位置中包括的指尖精细位置；以及确定模块740，配置成根据指头的粗略位置和指头的指尖精细位置，确定指头指向的目标对象。

在本发明的一个实施例中，还可以包括：判断模块，配置成在利用第二检测模型之前，根据各个类别的手上部位在多个图像中的时序位置特征，判断手部交互的意图；并且第二检测模块配置成响应于手部交互的意图为取词意图，执行利用第二检测模型的检测。

在本发明的一个实施例中，还可以包括选取模块，配置成根据手上部位中的指头的粗略位置从图像上选取对应的目标区域；将目标区域提供给第二检测模型，以检测指尖精细位置。

在本发明的另一个实施例中，指头的粗略位置通过包围框来表示，目标区域为包括部分或全部包围框以及包围框邻近区域部分的裁剪图，优选地，以包围框中的指尖为中心，裁剪预置尺寸的框图为裁剪图。

在本发明的再一个实施例中，确定模块740进一步配置成：以包围框的中心点为起点，指尖精细位置的坐标为终点，组成指尖向量；根据指尖向量匹配裁剪图中的识别对象，作为指头指向的目标对象，优选地，获取沿着指尖向量的方向上、与指尖精细位置的坐标距离最近的识别对象，作为指头指向的目标对象。

在本发明的另一个实施例中，还可以包括：识别模块，配置成在执行第二检测模块之前、之后或同时，对目标区域执行光学字符识别，以得到识别结果；并且确定模块740进一步配置成：根据指头的粗略位置和指头的指尖精细位置，确定识别结果中对应的字符。

在本发明的另一个实施例中，还包括：执行模块，配置成对目标对象执行以下任一操作：点读操作或翻译操作。

本发明实施方式的装置在上文中已经结合方法进行了详细的描述和解释，这里将不再赘述。

示例性计算***

在介绍了本发明示例性实施方式的方法和装置之后，接下来，参考图8对本发明示例性实施方式的手指交互***进行描述。

在本发明实施方式的第三方面中，提供了一种电子设备，包括，至少一个处理器；存储器，其存储有程序指令，当程序指令由至少一个处理器执行时，使得设备执行根据本发明实施方式的第一方面中的任一项的方法。

图8示意性地示出了适于实现本发明实施方式的示例性计算***800的框图。如图8所示，计算***800可以包括根据本发明实施例的设备810(虚线框示出)以及其***设备，其中设备810执行手指交互方法等操作，以实现前述结合图1-图6的本发明实施方式的方法。

如图8中所示，设备810可以包括中央处理单元(CPU)801，其可以是通用CPU、专用CPU或者其他信息处理以及程序运行的执行单元。进一步，设备810还可以包括随机存取存储器(RAM)802和只读存储器(ROM)803，其中RAM 802可以配置用于存储各类数据，包括算式的字符序列、标记序列等以及用于手指交互所需要的各种程序，ROM 803可以配置成存储对于设备810中各功能模块的初始化、基本输入/输出的驱动程序及引导操作***所需的数据等。

进一步，设备810还可以包括其他的硬件或组件，例如示出的硬盘控制器805、键盘控制器806、串行接口控制器807、并行接口控制器808、显示控制器809等。可以理解的是，尽管在设备810中示出了多种硬件或组件，但这里仅仅是示例性的而非限制性的，本领域技术人员可以根据实际需要增加或移除相应的硬件。

本发明实施方式的设备810的上述CPU 801、存取存储器802、只读存储器803、硬盘控制器805、键盘控制器806、串行接口控制器807、并行接口控制器808和显示控制器809可以通过总线***804相互连接。在一个实施例中，通过该总线***804可以与***设备实现数据交互。在另一个实施例中，通过该总线***804，CPU 801可以控制设备810中的其他硬件组件及其***设备。

设备810的***设备可以包括例如图示中的硬盘810、键盘811、串行外部设备812、并行外部设备813和显示器814。硬盘810可以与硬盘控制器805耦合，键盘811可以与键盘控制器806耦合，串行外部设备812可以与串行接口控制器807耦合，并行外部设备813可以与并行接口控制器808耦合，以及显示器814可以与显示控制器809耦合。应当理解，图8的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备。

本领域技术技术人员知道，本发明的实施方式可以实现为一种***、方法或计算机程序产品。因此，本发明实施方式可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式，本文一般称为“电路”、“模块”或“***”等。此外，在一些实施例中，本发明实施方式还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式，该计算机可读介质中可以存储手指交互方法的程序(或程序代码)，当该程序由处理器来运行时，可以执行根据本发明实施方式的第一方面中的任一项的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施方式操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

应当理解，前文中的流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

通过上面对根据本发明实施方式的手指交互的技术方案及其多个实施例的描述，可以理解的是，通过分别检测手上部位的指头的粗略位置和指尖精细位置来确定指头指向的目标对象，从而更加准确地匹配到指尖所指的内容，且能够适应360度任意方向的指向，提高了鲁棒性；另外，通过采用第一检测模型和第二检测模型分别实现指头粗定位和指尖细定位的方式，可以提高检测准确率、降低响应耗时。在一些实施例中，可以利用不同手上部位的时序位置特征来识别不同的手势，进而精确判断当前手指交互的意图，避免误触发。在另一些实施例中，可以根据指头的粗略位置在原图上裁剪出一个适当尺寸的区域小图，并将该区域小图输入第二检测模型以得到指尖精细位置，通过基于指头的粗略位置对原图进行裁剪，可以在保证精度的前提下大幅减少第二检测模型的数据处理量，进而提高响应速度，增强用户体验。

应当注意，尽管在上文详细描述中提及了设备的若干模块或装置，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

此外，尽管在附图中以特定顺序描述了本发明实施方式的方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种手指交互方法，包括：

获取包含手部的一个或多个图像；

利用第一检测模型，检测所述图像中手上部位的类别和粗略位置；

利用第二检测模型，检测所述手上部位的指头的粗略位置中包括的指尖精细位置；以及

根据所述指头的粗略位置和所述指尖精细位置，确定所述指头指向的目标对象。

2.根据权利要求1所述的方法，其中在利用所述第二检测模型之前，还包括：

根据各个类别的所述手上部位在多个所述图像中的时序位置特征，判断手部交互的意图；以及

响应于所述手部交互的意图为取词意图，执行利用所述第二检测模型的检测。

3.根据权利要求1或2所述的方法，还包括：

根据所述手上部位中的指头的粗略位置从所述图像上选取对应的目标区域；以及

将所述目标区域提供给所述第二检测模型，以检测所述指尖精细位置。

4.根据权利要求3所述的方法，其中所述指头的粗略位置通过包围框来表示，所述目标区域为包括部分或全部所述包围框以及所述包围框邻近区域部分的裁剪图，优选地，以所述包围框中的指尖为中心，裁剪预置尺寸的框图为所述裁剪图。

5.根据权利要求4所述的方法，其中根据所述指头的粗略位置和所述指尖精细位置，确定所述指头指向的目标对象包括：

以所述包围框的中心点为起点，所述指尖精细位置的坐标为终点，组成指尖向量；以及

根据所述指尖向量匹配所述裁剪图中的识别对象，作为所述指头指向的目标对象，优选地，获取沿着所述指尖向量的方向上、与所述指尖精细位置的坐标距离最近的识别对象，作为所述指头指向的目标对象。

6.根据权利要求1-5任一所述的方法，还包括：

在执行利用所述第二检测模型的检测之前、之后或同时，对所述目标区域执行光学字符识别，以得到识别结果；并且

确定所述指头指向的目标对象包括确定所述识别结果中对应的字符。

7.根据权利要求1-6任一所述的方法，还包括对所述目标对象执行以下任一操作：点读操作或翻译操作。

8.根据权利要求1-7任一所述的方法，其中所述手上部位的类别包括以下至少一项：

手掌、大拇指指头、食指指头、中指指头、无名指指头和小拇指指头。

9.根据权利要求1-8任一所述的方法，其中所述第一检测模型和第二检测模型分别是经过训练的神经网络模型。

10.一种手指交互装置，包括：

获取模块，配置成获取包含手部的一个或多个图像；

第一检测模块，配置成利用第一检测模型，检测所述图像中手上部位的类别和粗略位置；

第二检测模块，配置成利用第二检测模型，检测所述手上部位的指头的粗略位置中包括的指尖精细位置；以及

确定模块，配置成根据所述指头的粗略位置和所述指头的指尖精细位置，确定所述指头指向的目标对象。

11.根据权利要求10所述的装置，还包括：

判断模块，配置成在利用所述第二检测模型之前，根据各个类别的所述手上部位在多个所述图像中的时序位置特征，判断手部交互的意图；并且

所述第二检测模块配置成响应于所述手部交互的意图为取词意图，执行利用所述第二检测模型的检测。

12.根据权利要求10或11所示的装置，还包括：

选取模块，配置成根据所述手上部位中的指头的粗略位置从所述图像上选取对应的目标区域；

13.根据权利要求12所述的装置，其中所述指头的粗略位置通过包围框来表示，所述目标区域为包括部分或全部所述包围框以及所述包围框邻近区域部分的裁剪图，优选地，以所述包围框中的指尖为中心，裁剪预置尺寸的框图为所述裁剪图。

14.根据权利要求13所述的装置，其中所述确定模块进一步配置成：

以所述包围框的中心点为起点，所述指尖精细位置的坐标为终点，组成指尖向量；

15.根据权利要求10-14任一所述的装置，还包括：

识别模块，配置成在执行所述第二检测模块之前、之后或同时，对所述目标区域执行光学字符识别，以得到识别结果；并且

所述确定模块进一步配置成：

根据所述指头的粗略位置和所述指头的指尖精细位置，确定所述识别结果中对应的字符。

16.根据权利要求10-15任一所述的装置，还包括：

执行模块，配置成对所述目标对象执行以下任一操作：点读操作或翻译操作。

17.根据权利要求10-16任一所述的装置，其中所述手上部位包括以下至少一项：

18.根据权利要求10-17任一所述的装置，其中所述第一检测模型和第二检测模型分别是经过训练的神经网络模型。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以实现权利要求1-9中任一项所述的方法。

20.一种计算机存储介质，其存储有计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。