CN112052724A

CN112052724A - 基于深度卷积神经网络的手指指尖定位方法及装置

Info

Publication number: CN112052724A
Application number: CN202010719518.6A
Authority: CN
Inventors: 杨宏宇; 朱松; 曹家豪; 武庆三; 潘鑫
Original assignee: Shenzhen Wantong Technology Co ltd
Current assignee: Shenzhen Wantong Technology Co ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-12-08

Abstract

一种基于深度卷积神经网络的手指指尖定位方法及装置，包括：获取原始图像；对所述原始图像进行缩放、灰度化和归一化处理；利用深度卷积神经网络算法定位所述处理后图像中手的位置；若定位到手的位置，继续检测手势检测，否则，结束检测；若检测到点击手势，在手的定位框内回归指尖坐标，并将作为映射回原始图像，否则，结束检测。满足很多应用场景对实时性的需求，算法速度更快、算法逻辑更简洁。

Description

基于深度卷积神经网络的手指指尖定位方法及装置

技术领域

本发明涉及人机交互技术领域，具体涉及一种基于深度卷积神经网络的手指指尖定位方法及装置。

背景技术

随着深度学习席卷全球各行各业，早期数据的匮乏、算法模型的不成熟和市场接受度低等问题被逐渐克服，AI+教育的新型教育模式得到大众的广泛认可。而智能桌面和人机交互应用场景的出现，已经成为各大公司优先抢占的桥头堡。

教育电子产品，一方面满足了孩子们读听学的结合，另一方面减少了家长亲自辅导的时间，更重要的是这也符合儿童学习发展的一般规律。根据儿童认知发展理论，为多模态交互(人机交互)提供基础的手指点读(指尖识别)算法，通过掌握阅读学习节奏、提供测评考试、融汇贯通扩展知识点等创新技能，锻炼孩子的逻辑思维和解决问题的能力。所以，提供可靠稳定的手指指尖识别算法对孩子的成长至关重要。然而，大多数传统检测算法需要使用Sliding Window(滑窗)，这导致算法运算时间过长，无法满足很多应用场景对实时性的需求；而且往往需要人工设计特征，当图像背景复杂时，泛化能力差；并存在对尺度敏感的缺点，当待检测目标尺度变化大时，recall(召回率)低，且对小物体检测效果较差。

发明内容

本申请提供一种基于深度卷积神经网络的手指指尖定位方法及装置，可满足很多应用场景对实时性的需求，算法速度更快、算法逻辑更简洁。

根据第一方面，一种实施例中提供一种基于深度卷积神经网络的手指指尖定位方法，包括：

获取原始图像；

对所述原始图像进行缩放、灰度化和归一化处理；

利用深度卷积神经网络算法定位所述处理后图像中手的位置；

若定位到手的位置，继续检测手势检测，否则，结束检测；

若检测到点击手势，在手的定位框内回归指尖坐标，并将作为映射回原始图像，否则，结束检测。

在一些实施例，所述深度卷积神经网络算法采用全卷积的Deep CNN。

在一些实施例，所述深度卷积神经网络为HandNet，所述HandNet的网络结构为：

其中，bottleneck为分离卷积；c为每层最终输出的特征图的个数；n为内部分离卷积的重复次数；t为bottleneck内部分离卷积相对于之前一层特征图增加的倍数；s为卷积核的步长；k对应于不同锚点和输入大小有所不同；

所有卷积核都使用3x3大小。

在一些实施例，HandNet的输出为手的定位框和手势的分类，包括：定位框内是点击手势或定位框内是非点击手势

在一些实施例，浅层的特征图对应的感受野较小，适合检测小物体；深层的特征图对应的特征图较大，适合检测大物体。

在一些实施例，所述定位框加入更小的卷积核，使其对较小的指尖的检测效果更好。

根据第二方面，一种实施例中提供一种基于深度卷积神经网络的手指指尖定位装置，包括：

获取模块,用于获取原始图像；

图像处理模块，用于对所述原始图像进行缩放、灰度化和归一化处理；

神经网络模块，用于利用深度卷积神经网络算法定位所述处理后图像中手的位置；

第一判断模块，用于若定位到手的位置，继续检测手势检测，否则，结束检测；

第二判断模块，用于若检测到点击手势，在手的定位框内回归指尖坐标，并将作为映射回原始图像，否则，结束检测。

根据第三方面，一种实施例中提供一种电子产品，包括：

摄像头,用于获取原始图像；

处理器，用于对所述原始图像进行缩放、灰度化和归一化处理；用于利用深度卷积神经网络算法定位所述处理后图像中手的位置；用于若定位到手的位置，继续检测手势检测，否则，结束检测；用于若检测到点击手势，在手的定位框内回归指尖坐标，并将作为映射回原始图像，否则，结束检测。

根据第四方面，一种实施例中提供一种电子产品，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如第一方面所述的方法。

根据第五方面，一种实施例中提供一种计算机可读存储介质，包括程序，所述程序能够被处理器执行以实现如第一方面所述的方法。

依据上述实施例，区别于传统手动设计复杂特征的计算机视觉算法，由于深度卷积神经网络(Deep CNN)能从训练数据中自动学习目标物体的语义，高维和深层特征，从而大幅度提高手指指尖识别和定位的准确率；相较于传统检测算法，本发明所提出的算法泛化能力更强，在各种不同光照环境、成像***和复杂背景的情况下，均有良好、稳定的性能；由于不同于传统检测算法那样需要使用Sliding Window(滑窗)，本发明所提出的算法速度更快，算法逻辑更简洁，满足很多应用场景对实时性的需求。

附图说明

图1为一种基于深度卷积神经网络的手指指尖定位方法的流程图；

图2为一种具体实施例的深度卷积神经网络的手指指尖定位方法的流程图；

图3(a)为点击手势示例图；

图3(b)为非点击手势示例图；

图3(c)为图3(a)的检测结果图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

一些名词及概念的定义：

HandNet：本申请的一种深度卷积神经网络名称。

点击手势，如图3(a)所示用指尖电击。

非点击手势，如图3(b)所示，除点击手势外的皆为非点击手势。

手的定位框，如图3(c)中矩形框所示。

精准回归指尖坐标，如图3(c)中指尖A点所示。

请参考图1-3，本申请提供一种基于深度卷积神经网络的手指指尖定位方法,包括：

获取步骤：获取原始图像；

图像处理步骤：对所述原始图像进行缩放、灰度化和归一化处理；

定位步骤：利用深度卷积神经网络算法定位所述处理后图像中手的位置；

第一判断步骤：若定位到手的位置，继续检测手势检测，否则，结束检测；

第二判断步骤：若检测到点击手势，在手的定位框内精准回归指尖坐标，并将作为映射回原始图像，否则，结束检测。

其中，定位步骤采用的深度卷积神经网络算法采用全卷积的Deep CNN。该DeepCNN由四个Residual Convolutional Block(RCB)构成，而每个RCB又由两个集联的Conv->Batchnorm->Relu组成。网络的输出为指尖的(x,y)坐标和分类，即图中是否包含手指。

在一些实例例，深度卷积神经网络可为HandNet。

在具体实施例，所述HandNet的网络结构为：

其中，其中bottleneck为Depthwise Separable Convolution(分离卷积)，能有效减少计算量；c为每层最终输出的feature map(特征图)的个数；n为bottleneck内部分离卷积的重复次数；t为bottleneck内部分离卷积相对于之前一层feature map增加的倍数；s为kernel(卷积核)的步长；k对应于不同anchorbox(锚点)和输入大小有所不同。

在一具体实施例，所有卷积核都使用3x3大小。

具体地，HandNet的输出为手的定位框(x,y,w,h)和手势的分类，即定位框内是点击手势还是非点击手势。浅层的feature map对应的receptive field(感受野)较小，适合检测小物体；深层的feature map对应的receptive field较大，适合检测大物体。

在一些实施例，针对指尖定位框，加入更小的卷积核，使其对较小的指尖的检测效果更好。

在一些实施例，针对正负样本不均衡问题，本申请中深度卷积神经网络的LossFunction(损失函数)采用Focal Loss，它能降低负样本的权重，提高正样本的权重。

相应地，本申请提供一种基于深度卷积神经网络的手指指尖定位装置，包括：

获取模块,用于获取原始图像；

相应地，本申请还提供一种一种电子产品，包括：

摄像头,用于获取原始图像；

相应地，本申请还提供一种电子产品，其特征在于包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1-6中任一项所述的方法。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的***进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。本发明基于检测的方法(HandNet部分)还替换为基于segmentation(分割)的方法，从而得到手的位置，进而得到指尖的位置。

Claims

1.一种基于深度卷积神经网络的手指指尖定位方法,其特征在于包括：

获取原始图像；

对所述原始图像进行缩放、灰度化和归一化处理；

若定位到手的位置，继续检测手势检测，否则，结束检测；

2.如权利要求1所述的方法，其特征在于，所述深度卷积神经网络算法采用全卷积的Deep CNN。

3.如权利要求2所述的方法，其特征在于，所述深度卷积神经网络为HandNet，所述HandNet的网络结构为：

所有卷积核都使用3x3大小。

4.如权利要求3所述的方法，其特征在于，HandNet的输出为手的定位框和手势的分类，包括：定位框内是点击手势或定位框内是非点击手势。

5.如权利要求3所述的方法，其特征在于，浅层的特征图对应的感受野较小，适合检测小物体；深层的特征图对应的特征图较大，适合检测大物体。

6.如权利要求3所述的方法，其特征在于，所述定位框加入更小的卷积核，使其对较小的指尖的检测效果更好。

7.一种基于深度卷积神经网络的手指指尖定位装置,其特征在于包括：

获取模块,用于获取原始图像；

8.一种电子产品，其特征在于包括：

摄像头,用于获取原始图像；

9.一种电子产品，其特征在于包括：

存储器，用于存储程序；

10.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1-6中任一项所述的方法。