CN106371599A

CN106371599A - 深度图像中的高精度指尖定位方法及装置

Info

Publication number: CN106371599A
Application number: CN201610810889.9A
Authority: CN
Inventors: 王贵锦; 郭亨凯; 陈醒濠
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2016-09-08
Filing date: 2016-09-08
Publication date: 2017-02-01

Abstract

本发明公开一种深度图像中的高精度指尖定位方法及装置，能够提高定位精度。所述方法包括：S1、从深度图中提取出边缘梯度图；S2、将所述深度图及边缘梯度图分别利用卷积神经网络提取特征；S3、将两路特征利用卷积神经网络进行融合，并回归出指尖的三维位置。

Description

深度图像中的高精度指尖定位方法及装置

技术领域

本发明涉及图像处理技术领域，具体涉及一种深度图像中的高精度指尖定位方法及装置。

背景技术

基于深度图的手部关键点定位在人机交互中十分关键，在近年来一直是研究热点。在所有手部关键点中，指尖是最重要的部分，和诸如点击、滑动等手势都有密切的关系。同时由于手势的巨大变化、严重的自遮挡和各种深度成像中在指尖处的较大误差，导致指尖位置的估计十分困难，位置误差大于1厘米。

现有的关键点检测算法主要分为两类：

(1)生成式方法：基于模型的方法，主要有四个组成部分，即模型定义、模型与图像的相似性度量，初始模型参数及最优化模型参数使得相似性最大的算法。其中最优化方法常用的有基于关节的迭代最近点算法和粒子群优化算法。这类方法对于遮挡比较鲁棒，且不需要复杂的模型训练过程，在最优值附近优化时能准确找到解，但算法需要很强的先验和较为准确的初始化参数，对于局部最优比较敏感，而且速度通常较慢，不能满足实时性的要求，这严重制约了算法的适用范围。

(2)判别式方法：通过图像特征直接预测关键点位置，即直接从特征训练一个机器学习的模型来对关键点参数进行预测。判别式方法一般采用回归的算法，回归的目标通常有两类，一类是位置偏移，即回归当前位置到目标关键点的位置偏移量，另一类是误差偏移，即回归当前预测的关键点位置和真实关键点位置的残差。常用的模型有随机森林和卷积神经网络。直接预测的方法计算速度比基于模型的方法要快，而且不需要初始化，预测值更为全局，但需要更多的训练，容易过拟合到训练集，在时间维度上会跳变，且对于遮挡更为敏感。目前这类方法大部分均基于手部的拓扑结构，从手掌逐步定位到指尖，这导致在指尖处的位置估计误差累积。

发明内容

有鉴于此，本发明提供一种深度图像中的高精度指尖定位方法及装置，能够提高定位精度。

一方面，本发明实施例提出一种深度图像中的高精度指尖定位方法，包括：

S1、从深度图中提取出边缘梯度图；

S2、将所述深度图及边缘梯度图分别利用卷积神经网络提取特征；

S3、将两路特征利用卷积神经网络进行融合，并回归出指尖的三维位置。

另一方面，本发明实施例提出一种深度图像中的高精度指尖定位装置，包括：

第一提取单元，用于从深度图中提取出边缘梯度图；

第二提取单元，用于将所述深度图及边缘梯度图分别利用卷积神经网络提取特征；

回归单元，用于将两路特征利用卷积神经网络进行融合，并回归出指尖的三维位置。

本发明实施例提供的深度图像中的高精度指尖定位方法及装置，创造性地利用了深度图的边缘梯度图，并提出了新的特征融合算法，相较于现有的判别式方法，不需要从手掌逐步定位到指尖，从而能够克服指尖处位置估计的误差积累问题，定位精度高，空间位置误差小于1厘米，而且整个过程运算速度快，可以在单核CPU下达到实时，算法鲁棒，能够适应不同的环境，实现简单，易于产品化。

附图说明

图1为本发明深度图像中的高精度指尖定位方法一实施例的流程示意图；

图2为图1中S1一实施例的流程示意图；

图3为本发明深度图像中的高精度指尖定位方法另一实施例的部分流程示意图；

图4为本发明深度图像中的高精度指尖定位装置一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参看图1，本实施例公开一种深度图像中的高精度指尖定位方法，包括：

S1、从深度图中提取出边缘梯度图；

本实施例中，从深度图中提取边缘梯度图的流程如图2所示，主要将深度图或通过深度图提取出来的特征输入到机器学习的模型，得到每个位置预测的边缘梯度信息。特征可以是原图的像素值，也可以是其他机器视觉中的局部特征，比如原图中随机点对的像素差。机器学习模型有随机森林、卷积神经网络等，这些模型首先需要在一些已经标定好了边缘信息的深度图数据集上进行训练，最小化边缘估计误差。通过对每个图像位置的边缘估计，可以得到全图的梯度图。

后面两个步骤S2和S3的流程如图3所示(图3中各个内置数字的矩形框表示卷积神经网络的一个层，矩形框中的数字表示对应层的参数)。首先需要将深度图和梯度图进行像素值的归一化，使其范围在-1到1之间。然后利用两路卷积神经网络提取出特征，其中卷积神经网络的结构主要由交替的卷积层、降采样层和非线性层组成。为了避免过拟合，两路网络的参数实现共享。最后，利用慢融合的技术，两路特征进一步利用卷积神经网络经过卷积、降采样和非线性操作进行融合，并通过全连接层回归出指尖的三维空间坐标。我们在实验中对比了不同的融合方式，包括早融合(将两路图直接输入进卷积神经网络进行回归)、迟融合(两路特征直到全连接层才进行合并和回归)，增强融合(将边缘图直接叠加在原深度图上作为单幅图进行回归)，最后发现慢融合技术效果最好。

需要说明的是，特征提取的网络及指尖定位的网络可以利用基于随机梯度下降的反向传播算法进行训练。在已经标注了三维指尖位置的深度图数据集上对两部分网络进行联合训练，最小化指尖定位的误差。训练时也需要对深度图提取边缘图，以保证训练和测试的统一。经过评估，本专利的指尖定位误差为9.9毫米，优于目前论文中的所有结果。

本发明实施例提供的深度图像中的高精度指尖定位方法，创造性地利用了深度图的边缘梯度图，并提出了新的特征融合算法，相较于现有的判别式方法，不需要从手掌逐步定位到指尖，从而能够克服指尖处位置估计的误差积累问题，定位精度高，空间位置误差小于1厘米，而且整个过程运算速度快，可以在单核CPU下达到实时，算法鲁棒，能够适应不同的环境，实现简单，易于产品化。

参看图4，本实施例公开一种深度图像中的高精度指尖定位装置，包括：

第一提取单元1，用于从深度图中提取出边缘梯度图；

在具体应用中，所述第一提取单元1，可以用于：

将所述深度图或从所述深度图中提取出来的特征输入到预设的机器学习模型，预测每个位置的边缘梯度信息，从而得到所述边缘梯度图。其中，所述机器学习模型包括随机森林、卷积神经网络。

第二提取单元2，用于将所述深度图及边缘梯度图分别利用卷积神经网络提取特征；

本实施例中，所述第二提取单元2，可以用于：

将所述深度图和边缘梯度图进行像素值的归一化，使像素范围在-1到1之间；

利用相同的两路卷积神经网络分别从归一化后的所述深度图和边缘梯度图提取出特征，其中，所述两路卷积神经网络的结构主要由交替的卷积层、降采样层和非线性层组成。

回归单元3，用于将两路特征利用卷积神经网络进行融合，并回归出指尖的三维位置。

所述回归单元3，可以用于：

利用慢融合的技术，利用卷积神经网络将两路特征进行融合，并通过全连接层回归出指尖的三维空间坐标。

本发明实施例提供的深度图像中的高精度指尖定位装置，创造性地利用了深度图的边缘梯度图，并提出了新的特征融合算法，相较于现有的判别式方法，不需要从手掌逐步定位到指尖，从而能够克服指尖处位置估计的误差积累问题，定位精度高，空间位置误差小于1厘米，而且整个过程运算速度快，可以在单核CPU下达到实时，算法鲁棒，能够适应不同的环境，实现简单，易于产品化。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种深度图像中的高精度指尖定位方法，其特征在于，包括：

S1、从深度图中提取出边缘梯度图；

2.根据权利要求1所述的方法，其特征在于，所述S1，包括：

将所述深度图或从所述深度图中提取出来的特征输入到预设的机器学习模型，预测每个位置的边缘梯度信息，从而得到所述边缘梯度图。

3.根据权利要求2所述的方法，其特征在于，所述机器学习模型包括随机森林、卷积神经网络。

4.根据权利要求1所述的方法，其特征在于，所述S2，包括：

5.根据权利要求1所述的方法，其特征在于，所述S3，包括：

6.一种深度图像中的高精度指尖定位装置，其特征在于，包括：

第一提取单元，用于从深度图中提取出边缘梯度图；

7.根据权利要求6所述的装置，其特征在于，所述第一提取单元，用于：

8.根据权利要求7所述的装置，其特征在于，所述机器学习模型包括随机森林、卷积神经网络。

9.根据权利要求6所述的装置，其特征在于，所述第二提取单元，用于：

10.根据权利要求6所述的装置，其特征在于，所述回归单元，用于：