CN109308459B

CN109308459B - 基于手指注意力模型和关键点拓扑模型的手势估计方法

Info

Publication number: CN109308459B
Application number: CN201811030190.6A
Authority: CN
Inventors: 路通; 胡天萍; 王文海; 侯文博
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2022-06-24
Anticipated expiration: 2038-09-05
Also published as: CN109308459A

Abstract

本发明公开了基于手指注意力模型和关键点拓扑模型的手势估计方法，包括如下步骤：步骤1，获取手部图像，根据手部运动的特征将手部分为n个区域，相应的手部关键点也被分为n组；步骤2，对获取的手部图像进行预处理；步骤3，搭建ASNet网络；步骤4，目标模型训练：对ASNet网络进行目标模型训练，然后使用训练好的模型进行手势估计。

Description

基于手指注意力模型和关键点拓扑模型的手势估计方法

技术领域

本发明涉及计算机视觉应用领域，特别是涉及基于手指注意力模型和关键点拓扑模型的手势估计方法。

背景技术

近些年来，由于手势估计在人机交互和增强现实方面都有着广泛的应用和潜力，而随着神经网络技术的迅猛发展和深度图像采集设备的广泛运用，一种新的从深度图像中利用神经网络技术来对手势进行检测估计的方法得到了广泛的关注和研究并取得了很大进展，平均手部关节点检测精度甚至可以达到十余毫米。

然而，在人的手部姿势变化中，手指间角度变化大，手指关节灵活，而目前硬件设备能够获取的深度图像质量并不高，同时手部存在自遮挡等问题，要进行精确的手势估计仍然是一个很有挑战的问题。而大部分基于深度学习的手势估计方法都只是简单的把手势当做一些相互独立的手部关节点来处理，并没有考虑事实存在的手部关节点之间的物理关系和运动特征，而这些关系无疑是对手势估计具有重大意义的。

发明内容

本发明针对现有技术的不足，提供了基于手指注意力模型和关键点拓扑模型的手势估计方法，本发明方法分析了手部关节点之间的这些关系，并在一个基础的神经网络框架中加入相应机制(FAM，JSM)，使得本发明方法可以对这些关系进行一定程度的建模，得到更好的手势估计效果。

本发明包括如下步骤：

步骤1，确定手势估计所需的手部关键点并对其进行分组，关键点包括手指关节点和掌中心点，通常采用15或20个手指关节点和1个掌中心点，可根据应用场景调整；分组时根据手部运动特征将所有关键点划分为n组；

步骤2，通过深度摄像头获取图像序列，并对图像进行预处理，作为输入数据；

步骤3，搭建ASNet(Attention-and-Sequence Network，注意力-拓扑网络)，包括一个典型的CNN(Convolutional Neural Network，卷积神经网络)，n个FAM(FingerAttention Model，手指注意力模块)结构，n个JSM(Joint Sequence Model，关键点拓扑模型)结构，以及损失函数L，其中n为步骤1所划分的分组数目；

步骤4，目标模型训练：对ASNet网络进行目标模型训练，然后使用训练好的模型输出所需关键点的空间坐标，这些关键点的坐标构成一个手势表示估计。

在步骤1中，对于用手部关键点空间信息表示手势的问题，由于关键点之间存在着物理约束关系，手部运动时也表现出一定的运动特征，从而不同区域的点之间的关系有所不同，同一手指上的点之间有很强的相关性，而不同手指上的点相互独立性更强。常用的深度学习方法在处理手势估计问题时并未特别关注这些特征或者对这些关系加以区分或者建模，所以在步骤1中，首先根据这些关键点之间的关系对整个手部区域进行了划分，目标关键点相应被划分成n组(n通常为5或者6，包括5根手指或再加上手指以外的部分，特别的，掌中心点被认为和其他关键点都具有很强相关性，故所有组都包含掌中心点)，根据分组在后面网络构建中对n组关键点的相关性和独立性做相应建模；

步骤2中，采用DeepPrior++中的手势预处理方法处理手部图像(参考文献：MarkusOberweger and Vincent Lepetit.Deepprior++:Improving fast and accurate 3d handpose estimation.In ICCV workshop,2017.)，得到一个128×128大小，像素值在[-1,1]的归一化图像数据，该数据作为神经网络模型的输入。

步骤3包括如下步骤：

步骤3-1，建立一个典型CNN(Convolutional Neural Network，卷积神经网络)模块，对步骤2得到的图像数据进行特征提取，得到一个特征映射F；

步骤3-2，根据步骤1的划分，对n组关键点在CNN之后加入n个FAM(FingerAttention Model，手指注意力模型)结构，对n组关键点的独立性建模，从而对F进一步进行特征提取，得到n个注意力特征映射，称为A⁰,A¹,…,A^n-1，第i个注意力特征映射Aⁱ对应手部的第i个部分，也就是第i个关键点分组；每个FAM包括一个1x 1的卷积层，采用sigmoid激励函数，即

x是某个神经元的输出，设定F的大小为(W,H,C)，其中，W、H、C分别是宽度，高度和通道数目，经过卷积后得到一个大小为(W,H)的图像Mⁱ，而其中的每个像素值作为特征映射F中相应像素的权重，这里称Mⁱ为权重图像；特征映射F经过Mⁱ赋予相应权重，从而得到相应的注意力特征Aⁱ；

步骤3-3，将每个FAM得到的注意力特征映射Aⁱ通过一个AP(Average Pooling，平均池化)层和一个FC(Full Connection，全连接)层，然后送入JSM(Joint Sequence Model，关键点拓扑模型)结构，JSM关注同组关键点之间的相关性，从而得到特征Bⁱ，总共得到n个特征B⁰,B¹,…,B^n-1；

步骤3-4，利用上一步得到的B⁰,B¹,…,B^n-1，让Bⁱ经过一个全连接层，设定第i个关键点分组包含m个关键点，则该全连接层输出大小为m×3，将所有输出组成一个N×3的向量

该向量即为模型所预测的关键点在输入图像中的坐标表示，其中N是指所有关键点的总数目。值得注意的是，前面提过掌中心点被包含在所有的分组中，故掌中心点的对应网络输出是由n个组的对应结果计算一个平均值得到的，实验证明，该做法能够极大提高掌中心点坐标的估计精度，而该点在手势估计中问题里无疑是非常关键的一个点。

步骤3-5，设置ASNet的训练损失函数L如下：

其中Y为关键点坐标的人工标注值(经过步骤2中输入图像预处理的同等变换后的值)，

为步骤3-4中所得结果。

步骤3-2中，为n组关键点计算了n个不同的权重图像Mⁱ，对基础特征映射F的不同位置特征值给出了不同的权重，也就是不同的注意力，通过如下公式计算注意力特征Aⁱ：

每组关键点享有一个Aⁱ，这样就对n组关键点的独立性做了一个建模，这里的

和F_x,y,c分别对应特征映射A和特征映射F中坐标(x,y,c)处的值，而

对应图像Mⁱ中坐标(x,y)处的值。

步骤3-3包括：设定步骤1中对手部划分的第i个分组包含m个关键点，相应的注意力特征为Aⁱ，首先通过一个16×16的AP层和一个包含64×m个神经元的FC层，然后将FC层的输出调整大小为(m,64)，此时这样一个输出可以看作是m个小块，将这m个小块采用GRU(Gated Recurrent Unit，门控循环单元)按照空间顺序串起来，得到m个优化过的小块，最终这m个优化后的小块被存储为一个向量，也就是一个优化特征，称为Bⁱ，长度为64×m。

此前常用的基于深度学习方法进行手势估计问题所采用的损失函数L₀，计算方式如下：

而上述ASNet网络的所采用的训练损失函数L经实验验证，相比L₀能够显著提高预测关键点坐标的精度，同时训练后期模型表现得更加稳定。

步骤4包括：利用已有公开手势数据集或者根据应用需求，采集手势深度图像，人工标注所需关键点，构成训练集，对ASNet网络进行目标模型训练，然后使用训练好的模型进行手势估计。模型输出的值是所有关键点在步骤2经过原始深度图像预处理所得的输入图像中的坐标，需要进行一个预处理的逆过程，从而得到关键点实际的三维坐标，用所有关键点的三维坐标来表示对当前手势的估计。

本发明的有益效果是：本发明可以应对多种角度，多种姿态变化的手势估计，并且平均关键点检测精度可以达到5至10毫米左右。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1a中展示了不同手指的指尖关键点在多个典型手势中相对位置的变化，图1b展示食指上关键点和掌中关键点在多个典型手势中相对位置的变化。

图2a是来自公开手势数据集ICVL的典型的手部关键点标注和本方法采用的分组。

图2b是来自公开手势数据集NYU的典型的手部关键点标注和本方法采用的分组。

图2c是来自公开手势数据集MSRA的典型的手部关键点标注和本方法采用的分组。

图3是ASNet网络框架总体结构。

图4是CNN部分具体的网络参数和结构设置。

图5是FAM(Finger Attention Mechanism，手指关注模型)。

图6是JSM(Joint Sequence Mechanism，关键点拓扑模型)。

图7是手势估计效果示例，给出6个典型手势检测示例，上排为预测结果，下排为人工标注结果。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

参考图1a和图1b，本发明用于检测手指的关键点检测，关键点通常是手指关节点或其他根据具体需求的目标手部关键点，具体实施方案如下：

步骤1，确定所需手部关键点并对其进行分组；典型的手部关键点包含情况参考图2a、图2b、图2c，如图2a中用16个关键点来表达一个手势，其中包括每根手指3个关节点和一个掌中心点；分组依据在这里由图1a、图1b进行说明，在图1a中可以看到，不同典型手势中，五个手指的指尖关键点的相对位置变化很大，这里把它称为关键点间的独立性，而在图1b中，3个食指上的关键点和掌中心点，在不同手势中空间上的相对位置保持着一定的相关性，特别的，相邻点之间的空间距离几乎不变。由此，将所有关键点划分为n组，使得不同组的点之间独立性更为突出，而同组的点之间独立性突出，典型的n为5或者6，包括5根手指上的点或加上其他区域的关键点；特别的，掌中心点包含在所有的组中，因为该点与其他所有点都存在着很强的相关性；具体如图所示，图2a和图2c分别标注了16和21个关键点，都分为5组，每组分别有4和5个关键点，而图2b的标注方式中共14个关键点，分为6组，多了一个分组包含了手掌部分的3个点，除大拇指所在分组有4个点外，其余分组每组3个点。

步骤2，通过深度图像采集设备(如Kinect)获取深度图像，对图像进行预处理，这里采用DeepPrior++中的手势预处理方法，包括对原图像的手部粗定位，裁剪，缩放等变换，得到一个128×128大小，像素值在[-1,1]的归一化图像数据，该数据作为神经网络模型的输入。

步骤3，搭建ASNet网络，ASNet网络结构如图3所示

步骤3包括如下步骤：

步骤3-1，首先包含一个基本的典型CNN(Convolutional Neural Network，卷积神经网络)模块，对步骤2中获取的输入数据(图3中的I)进行特征提取，得到一个特征映射F。如图4所示，该CNN包括一个卷积层(Convolution)，一个池化层(Pooling)和两个残差块(Residual Block)。

步骤3-2，根据步骤1的划分，有n组关键点则加入n个FAM结构(图3中FA分支)来对n组关键点的独立性建模，对F作进一步特征提取，得到n个注意力特征映射，称为A⁰,A¹,…,A^n-1,分别对应n组关键点。一个FAM的具体结构如图5所示，包括一个1x1的卷积层，采用sigmoid激励函数

如F的大小为(W,H,C)，做卷积得到一个大小为(W,H)的图像Mⁱ，其中的每个像素值作为F中相应像素的权重。接着，使用F和Mⁱ，作如下计算(图5中的

)，得到注意力特征Aⁱ：

这里的

和F_x,y,c分别是特征映射Aⁱ和特征映射F中坐标(x,y,c)处的值，而

是指权重图像Mⁱ中坐标(x,y)处的值。Aⁱ之所以被称为注意力特征，这是因为，Mⁱ给特征F中的每个像素值赋予了不同的权重，这样一来，不同组的关键点的特征通过用不同的Mⁱ区分开来，关注到特征映射F中的不同部分，使得n组关键点组间的独立性得到了建模。

步骤3-3，每个FAM得到的注意力特征映射Aⁱ通过一个平均池化层(AP)和一个全连接层(FC)，然后进入JSM(joint sequence mechanism)，即图3中的AP+FC+JS，进一步得到特征Bⁱ。JSM的具体结构如图6所示，考虑一个手指部分，或者说一个分组，包含m个关键点，相应的注意力特征为Aⁱ，首先通过一个16×16的平均池化层(AP)和一个包含64×m个神经元的全连接层(FC)。然后将FC层的输出调整(Resize)为(m,64)，这样的一个输出可被看作是m个小块。然后，将这m个小块采用门控循环单元(GRU，一种循环神经网络变体，参考文献：Kyunghyun Cho,Bart Van Merri¨enboer,Caglar Gulcehre,Dzmitry Bahdanau,FethiBougares,Holger Schwenk,and Yoshua Bengio.Learning phrase representationsusing rnn encoder-decoder for statistical machine translation.arXiv preprintarXiv:1406.1078,2014.)按照顺序串起来(如掌心关键点-食指指根关键点-食指第二关节点-食指第三关节点这样的顺序)，得到m个精炼过的小块。最终，这m个精炼小块被结合(Resize)为一个向量，也就是一个优化特征，称为Bⁱ，长度为64×m。

步骤3-4，利用步骤3-3得到的B⁰,B¹,…,B^n-1，让Bⁱ经过一个全连接层(图3中的Estimate过程包含的即为一个全连接层)，设定第i组包括的关键点数目为m，则该全连接层输出大小为m×3的一个向量Pⁱ，将所有输出P⁰,P¹,…,P^n-1组成一个N×3的向量

步骤3-5，ASNet的训练损失函数L设置如下：

其中Y为关键点坐标的人工标注值在经过步骤2中输入图像预处理的同步变换后的值，

为ASNet的输出。而此前常用的基于深度学习方法进行手势估计问题所采用的损失函数L₀，计算方式如下：

经实验验证比较，相比较于L₀，损失函数L可以显著提高手势关键点预测精度和并在训练后期表现得更为稳定。

步骤4，目标模型训练：在搭建完ASNet网络之后，需要利用已有公开手势数据集或者根据应用需求，采集大量包含手势的深度图像，人工标注所需关键点，构成训练集，进行目标模型训练。然后即可使用训练好的模型进行高精度的手势估计。典型的训练参数设置如下表1：

表1

步骤5，模型测试和使用：训练完成后可使用模型来进行手势估计的测试和使用。由于

是关键点在步骤2中所得的输入图像中的坐标，所以首先要按照步骤2中的预处理过程做一个逆变换，得到关键点的真实坐标，该坐标的精度可达到毫米级别，而所有关键点的坐标即作为一个手势表示的估计结果(图3中的R)，在图7中给出了本方法在一些典型的较难手势上的估计示例，下排为人工标注结果，作为参照，上排为本模型预测结果，可以看到，标注结果与预测结果偏差是非常小的。

本发明提供了基于手指注意力模型和关键点拓扑模型的手势估计方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.基于手指注意力模型和关键点拓扑模型的手势估计方法，其特征在于，包括如下步骤：

步骤1，确定手势估计所需的手部关键点并对其进行分组，关键点包括手指关节点和掌中心点，分组时根据手部运动特征将所有关键点划分为n组；

步骤2，获取手部图像，并对图像进行预处理，作为输入数据；

步骤3，搭建ASNet网络，包括一个典型的CNN，n个FAM结构，n个JSM结构，以及损失函数L，其中n为步骤1所划分的分组数目；

步骤4，目标模型训练：对ASNet网络进行目标模型训练，然后使用训练好的模型输出所需关键点的空间坐标，这些关键点的坐标构成一个手势表示估计；

步骤2中，采用DeepPrior+中的手势预处理方法处理手部图像，得到一个128×128大小，像素值在[-1,1]的归一化图像数据，该数据作为神经网络模型的输入；

步骤3包括如下步骤：

步骤3-1，建立一个典型CNN模块，对步骤2得到的图像数据进行特征提取，得到一个特征映射F；

步骤3-2，根据步骤1的划分，对n组关键点在CNN之后加入n个FAM结构，对n组关键点的独立性建模，从而对F进一步进行特征提取，得到n个注意力特征映射，称为A⁰,A¹,…,A^n-1，第i个注意力特征映射Aⁱ对应手部的第i个部分，也就是第i个关键点分组；每个FAM包括一个1x1的卷积层，采用sigmoid激励函数S(x)，即

设定F的大小为(W,H,C)，其中，W、H、C分别是宽度，高度和通道数目，经过卷积后得到一个大小为(W,H)的图像Mⁱ，而其中的每个像素值作为特征映射F中相应像素的权重，这里称Mⁱ为权重图像；特征映射F经过Mⁱ赋予相应权重，从而得到相应的注意力特征Aⁱ；

步骤3-3，将每个FAM得到的注意力特征映射Aⁱ通过一个AP层和一个FC层，然后送入JSM结构，JSM关注同组关键点之间的相关性，从而得到特征Bⁱ，总共得到n个特征B⁰,B¹,…,B^n-1；

该向量即为模型所预测的关键点在输入图像中的坐标表示，其中N是指所有关键点的总数目；

步骤3-5，设置ASNet网络的训练损失函数L如下：

其中Y为关键点坐标的标注值。

2.根据权利要求1所述的方法，其特征在于，步骤3-2中，通过如下公式计算注意力特征Aⁱ：

和F_x,y,c分别对应特征映射Aⁱ中坐标(x,y,c)处的值和特征映射F中坐标(x,y,c)处的值，而

对应图像Mⁱ中坐标(x,y)处的值。

3.根据权利要求2所述的方法，其特征在于，步骤3-3包括：设定步骤1中对手部划分的第i个分组包含m个关键点，相应的注意力特征为Aⁱ，首先通过一个16×16的AP层和一个包含64×m个神经元的FC层，然后将FC层的输出调整大小为(m,64)，此时这样一个输出看作是m个小块，将这m个小块采用GRU按照空间顺序串起来，得到m个优化过的小块，最终这m个优化后的小块被存储为一个向量，也就是一个优化特征，称为Bⁱ，长度为64×m。

4.根据权利要求3所述的方法，其特征在于，步骤4包括：采集手势深度图像，标注所需关键点，构成训练集，对ASNet网络进行目标模型训练，然后使用训练好的模型进行手势估计。