CN108537147A

CN108537147A - 一种基于深度学习的手势识别方法

Info

Publication number: CN108537147A
Application number: CN201810242638.4A
Authority: CN
Inventors: 董训锋; 陈镜超; 李国振; 马啸天
Original assignee: Donghua University
Current assignee: Donghua University; National Dong Hwa University
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2018-09-14
Anticipated expiration: 2038-03-22
Also published as: CN108537147B

Abstract

本发明提供了一种基于深度学习的手势识别方法，其特征在于，包括以下步骤：利用手势训练集和测试集对二值化卷积神经网络进行训练；利用肤色反映的颜色信息，基于颜色信息对预处理后的原始图像进行分割，提取手势轮廓；利用训练后的二值化卷积神经网络判断手势轮廓对应的手势指令；定位一系列手势轮廓对应的动态手势起、止点，并使用TLD算法追踪手势轨迹，追踪过程中的偏差使用Haar分类器进行修正，再使用HMM算法识别动态手势。本发明提供的方法可以解决传统的手势识别中一般存在着的识别精度不高、稳定性差、实时性较差、手势功能单一等问题。

Description

一种基于深度学习的手势识别方法

技术领域

本发明涉及一种基于深度学习手势识别方法，属于手势识别技术领域。

背景技术

计算机的出现，对人类的社会生产和日常生活产生了极其重要的影响，它一方面极大地提高了信息处理的效率，另一方面推动了智能化生活的发。因此，如何高效便捷地与计算机交互成为人们研究的热点。

随着社会信息技术的发展，人机交互技术(Human Computer Interaction，英文简称为HCI)，已成为日常生活的重要组成部分。作为一种新兴的人机交互方式，手势识别技术在很多范围领域都有着广泛的使用前景：(1)数字生活及娱乐方面。例如，2008年，爱立信推出一款智能手机R520m，该手机通过其内置摄像头采集用户的手势信息，在手机界面充当键盘或触摸屏，从而实现对闹钟和来电的控制。(2)科技创新领域。在太空探索和军事研究领域，经常会遇到一些危险环境或不便于人直接接触控制的特殊环境，这时可通过手势远程操控机器人进行交互获得相关信息。(3)智能交通领域，例如无人驾驶。早在2010年，Google公司已经对外公布了他们的无人驾驶汽车，该汽车开辟了智能交通的新时代。

在人机交互技术领域中手势识别技术可以起到以下作用：

(1)对用户而言，帮助用户更便捷的使用产品，节省用户时问、提升户体用户体验；

(2)对产品而言，淘汰冗余的使用说明，产品使用只需提供相关的通用手势指导即可。

发明内容

本发明要解决的技术问题是：传统的手势识别算法中一般存在着识别精度不高，稳定性差，实时性较差，手势功能单一等问题。

为了解决上述技术问题，本发明的技术方案是提供了一种基于深度学习的手势识别方法，其特征在于，包括以下步骤：

步骤1、利用手势训练集和测试集对二值化卷积神经网络进行训练；

步骤2、采集原始手势图像后，对原始手势图像进行预处理，以去除光照对原始图像造成的影响；

步骤3、利用肤色反映的颜色信息，基于颜色信息对预处理后的原始图像进行分割，提取手势轮廓；

步骤4、判断步骤3提取到的手势轮廓是否为动态手势的起、止点，若是，则该手势轮廓其后的一系列图像提取的手势轮廓为动态手势，进入步骤6，若不是，则该手势轮廓为静态手势，进入步骤5；

步骤5、利用训练后的二值化卷积神经网络判断手势轮廓对应的手势指令；

步骤6、定位一系列手势轮廓对应的动态手势起、止点，并使用TLD算法追踪手势轨迹，追踪过程中的偏差使用Haar分类器进行修正，再使用HMM算法识别动态手势。

优选地，在所述步骤2中，所述预处理包括亮度修正及光线补偿；

亮度修正时，对原始手势图像中高亮区域使用修正的指数变换来修正；对于原始手势图像中较暗的区域，使用带参数的对数变换来修正，对其他区域则不进行修正；

基于动态阈值进行光线补偿，基于全反射理论的算法将原始手势图像转换到YCbCr色彩空间，然后将YCbCr色彩空间图像中Y分量较大的点的集合当做白色参考点。

优选地，在所述步骤3中，对原始图像进行分割时，采用基于YCbCr色彩空间的肤色分割算法。

本发明提供的方法可以解决传统的手势识别中一般存在着的识别精度不高、稳定性差、实时性较差、手势功能单一等问题。

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：

本发明对传统基于常规手势识别算法做了改进，使用了改进光照补偿策略，使得原始图像更容易处理，使用改进的肤色模型分割手势从而提升了分割的准确性，使用改进深度卷积网络对静态手势分类，提升了静态手势识别率；使用改进的TLD和HMM算法对动态手势进行跟踪和识别，提升了手势***的鲁棒性和实时性和识别率。

附图说明

图1是本发明基于深度学习的手势识别***的设计的***结构示意；

图2是本发明二值化卷积神经网络结构图；

图3是TLD算法框架图；

图4是TLD算法的详细流程图；

图5改进的TLD算法流程图；

图6***软件设计流程图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种基于深度学习的手势识别方法，如图1所示，包括以下步骤：

下面结合实施例进一步详细说明上述各个步骤：

1、步骤2中对原始手势图像进行的预处理主要包括：基于指数变换和对数变换的亮度修正、基于动态阈值的光线补偿，具体包括：

(1)基于指数变换和对数变换的亮度修正。

指数变换只对图像中偏亮区域有不错的修正效果，对数变换对图像中较暗的区域有较好的修正效果，将两者相结合实现一种针对人手的光线补偿策略，如公式(1)所示，对高亮区域，使用修正的指数变换来修正，对于较暗的区域，使用带参数的对数变换来修正，对其他区域不进行修正。

公式(1)使用参数如下：

g(x，y)表示修正后的图像；f(x，y)表示原始手势图像；a表示高光调整系数，在本实施例中a＝0；b表示图像的平均亮度，在本实施例中b＝120/log T₁；c表示正常数通过实验调试得出，在本实施例中c＝T₂；d表示(正常数通过实验调试得出，在本实施例中d＝1/255-T₂；T₁表示较暗光照条件下，光线下限阈值，在本实施例中T₁＝115；T₂表示较亮光照条件下，光线上限阈值，在本实施例中T₂＝135。

(2)基于动态阈值的光线补偿

基于全反射理论的算法将图像转换到YCbCr色彩空间，然后将YCbCr色彩空间中Y分量较大的点的集合当做白色参考点。其详细的流程如下：

假设原始手势图像为f(x，y)，大小为m×n，则有：

步骤1、首先利用式(2)将原始手势图像f(x，y)从RGB色彩空间转换到YCbCr色彩空间：

步骤2、获取参考白点

(a)将转换后的图像切割成M×N块，本实施例中，M＝3，N＝4；

(b)对每个分割后的块，分别计算YCbCr空间中C_b和C_r分量的平均值M_b和M_r；

(c)使用M_b和M_r来对每个分块的C_b和C_r分量的平均绝对误差D_b和D_r进行计算，计算公式为式(3)：

式(3)中，C_b(i，j)表示每一个像素点的B分量相对于亮度的偏移量，C_r(i，j)表示R分量相对于亮度的偏移量，sum表示当前分块的像素总数目。

2、步骤3中基于颜色信息对预处理后的原始图像进行分割时，采用基于YCbCr色彩空间肤色分割算法，具体包括：

YCbCr色彩空间又称为YUV色彩空间，Y表示明亮度，Cr和Cb表示色度和饱和度，其中，Cr反映了RGB输入信号红色部分与RGB信号亮度值之间的差异。而Cb反映的是RGB输入信号蓝色部分与RGB信号亮度值之间的差异。RGB色彩空间向YCrCb的转换公式为式(4)所示：

通过反复试验，参数基本的取值如下：

77≤C_b≤127 AND 132≤C_r≤172 (5)

但是式(5)为包含更多的肤色范围，提供的取值区间过大，因此容易引入诸如橘色或者棕色物体干扰。本发明针对黄种人特有的肤色特征，经过多次调试，中的取值进行调整，可以有效排除类肤色物体的干扰，取值如下：

3、步骤1中二值化卷积神经网络采用在MOCNN基础上的基于二值化的卷积神经网络(BCNN)，具体包括：

目前通行的深度卷积神经网络算法都有一个共同缺陷，就是计算消耗巨大。因此，对网络计算消耗的优化也主要围绕这两个方面展开。这里在MPCNN手势分类方法的基础上，提出一种基于二值化的卷积神经网络(binary convolution neural networks，BCNN)手势分类方法，采用二值化近似的策略对神经网络进行改进，降低其对计算资源的消耗。二值化网络降低计算资源消耗的方式主要有两个：第一，采用二值化近似的权值表示原有的双精度权值，降低了网络在计算中的内存占用；第二，对每一层中计算消耗最大的乘法计算中的输入和权值采用二值化近似的值进行替代，这样乘法计算就可以简化成加减法甚至位运算。包含对卷积块的改造和对全连接块的改造。

(1)卷积块的二值化。

对卷积神经网络进行二值化近似改造的具体方式如下：

第一步，在正向传播过程中，对卷积网络的权值矩阵w按照式(7)进行二值化得到w^b，并保留原本的权值矩阵w，即：

式(7)中，代表二值化近似后得到矩阵w^b中的权值，c_f、w_f、h_f表示卷积核的数量、宽度和高度，标准的sign函数中，当w＝0时，会取得sign(w)＝0，而这里为了达到二值化的效果，不允许有第3个值存在，所以规定当w＝0时取sign(w)＝1。

第二步，在每层的前一层之前增加一个二值化激活层得到节点值妒，替代原本的ReLU激活层，如式(8)所示，即：

式(8)中，为二值化网络的第i层的输入值，c，w，h分别表示输入图像的通道数，宽度和高度；L(X_(i-1))为第i层二值化激活层得到的值；X_(i-1)表示二值化网络的第i-1层的输入值。

sign的函数与式(8)保持一致。最后，得到的权值w^b在二值化卷积层进行卷积操作，如式(9)所示，即：

式(9)中：L^b(X^b)为二值化的网络层函数；为卷积操作；X^b即为w^b分别经过式(7)和式(8)得到。

对于卷积块，其结构也需要一定的调整。将归一化处理BatchNorm层和二值化激活层放在卷积操作之前，这个是为了防止二值化激活层的结果在经过最大池化层时出现结果大多数为1的情况。具体的网络结构，如图2所示。

训练的反向传播的过程如下。最后一层算出梯度，倒数第二层到第一层逐层反向传播算出节点的梯度以及权值的梯度，再对二值化前保留的w进行更新得到w^u并进行如式(10)的宽松操作，即：

式(10)中，w^u表示在正向传播过程中保留的浮点数权值更新后的值；σ(w^u)表示权重w^u＞0时概率；chip(·)表示max函数。

(2)全连接块的二值化。

全连接块的二值化与卷积块的二值化基本一致不同的是将二值化卷积层替换为二值化全连接层，并去除了最大池化层。二值化全连接层的计算公式如式(11)所示。

L^b(X^b)＝w^bX^b (11)

式(11)中，L^b(X^b)为二值化的全连接层函数；X^b，w^b分别经过式(7)和式(8)得到。二值化的全连接层去除了偏置b。

4、在步骤6中，使用TLD算法追踪手势轨迹，追踪过程中的偏差使用Haar分类器进行修正，再使用HMM算法识别动态手势的具体方法包括：

4.1、TLD算法框架由三个部分组成：跟踪、学习、检测，如图3所示：

在算法框架中，三个部分协同互补，完成对物体的跟踪。在跟踪模块中，前提条件为物体运动速度不高，在相邻两帧之间物体不会出现大幅度位移，而且被跟踪目标始终在摄像头范围内，以此对运动目标进行估计，如果目标从视野中消失，则会造成跟踪失败。在检测模块中，前提为视频每帧之间不产生干扰，通过以往检测和学习到的模型，使用检测算法，分别在每帧图像搜索目标，将目标的可能出现区域进行标定。当检测模块出现错误时，学习模块根据跟踪模块得到的结果，对检测模块出现的错误进行评价，生成训练样本，更新检测模块的目

标模型和跟踪模块的关键特征点，从而避免出现类似的错误。TLD算法的详细流程图如图4所示。

TLD算法对目标跟踪实时性好，且当目标被遮挡或离开摄像头区域，又重新出现时，依然能识别被进行跟踪。但是该算法需要在初始化时通过鼠标手动选择被跟踪目标，不利于目标跟踪的自动化；同时，在检测模块中采用的LBP特征，虽然计算简单，容易满足实时性要求，但是在跟踪过程中会出现位置偏差，导致跟踪失败。因此本***在原有TLD算法的基础上，结合静态手势识别和手势跟踪的特点，对算法做出如下改进：

为解决算法初始化时，需要手动选定目标区域问题，将静态手势识别数据库加入检测模块中，当视频帧中出现与手势数据库相匹配手势时，自动初始化TLD跟踪算法。同时，由于采用已训练好的静态手势数据库，则可以去除原有TLD算法中的学习模块，当用户手势发生变化时，只需重新检索视频帧是否存在手势数据库中手势，再将TLD算法初始化，改进的TLD算法流程如图5所示。

4.2、使用Haar分类器修正跟踪过程中的偏差

Haar分类器的构建主要步骤包括提取Haar特征和训练分类器两部分。Haar特征主要包括中心特征、线性特征、边缘特征和对角特征。为了得到最终的Haar分类器，本发明采用改进的Adaboost算法来训练。首先以从样本提取的Haar特征来训练不同的弱分类器，然后将这些弱分类器整合得到最终的强分类器，也就是本文需要的Haar分类器。

改进的Adaboost算法的实现流程如下：

假设X是样本空间，Y是样本类别标识集合。对于典型的两分类问题有Y＝{0，1}，记S＝{(x_i，y_i)|i＝1，2，3，…，m}为加入标签后的训练样本集合，其中，有x_i∈X，y_i∈Y，假设达到最终的目标时一共迭代了T次。

步骤1、对m个样本的权值进行初始化：

式中，D_t(i)表示在第t次迭代中样本(x_i，y_i)的权值。

步骤2、对于t＝1，2，3…，T，分别计算：

(a)为样本x的每一个特征f训练一个弱分类器h_l(x，f，p，θ)：

式(13)中，θ表示f对应的弱分类器的阈值，p的作用是调整不等号方向。计算使用q_i所对所有的特征的弱分类器加权后的分类错误率ε_f：

ε_f＝∑_iq_i|h_t(x，f，p，θ)-y_i| (14)

式(14)中，y_i表示样本类别标识空间中元素，q_i表示第i个训练样本的权值。

(b)挑选出拥有最小错误率ε_t的最佳弱分类器ε_t

ε_t＝min_f，p，θ∑_iq_i|h_t(x，f，p，θ)-y_i| (15)

(c)使用最佳弱分类器来修正样本权值：

β_t＝ε_t(1-ε_t) (17)

式(16)中，D_t+1(i)表示第t+1个训练样本的概率值，表示D_t+1与D_t存在迭代关系，可以通过D_t更新D_t+1。

式(17)中，β_t表示归一化常数。

若样本x_i被正确分类，则e_i＝0，否则，e_i＝1。

步骤3、最终Haar分类器C(x)：

α_t＝log(1/β_t) (19)

4.3、基于HMM动态手势轨迹识别

本发明中，识别动态手势轨迹可以使用隐马尔科夫模型，识别过程对应于隐马尔科夫模型求解的三个过程：

(1)估计问题

该问题是指对于一个给定隐马尔科夫模型λ＝(π，A，B)，及通过该模型产生的一个观测值序列O＝(o₁，o2，…，o_T)，计算产生的观测序列O的似然概率P(O|λ)。解决此问题的一个有效算法为前向-后向递推算法。

定义前向变量为：

α_t(i)＝P(o₁，o₂，…o_T，q_t＝θ_i|λ)，1≤t≤T (19)

式(19)中，P(.)表示观测序列的似概率；o₁，o₂，…o_T表示观测序列；q_t表示时刻t的观测值；θ_i表示***状态值；λ表示隐马尔科夫模型；T表示观测总时间；t表示时间刻度，取值0-T之间。

记b_j(o_t)＝b_jk|o_t＝v_k，b_j(o_t)表示观测状态转移矩阵，b_jk表示任意t时刻，***观测矩阵，v_k表示t时刻的隐含状态，前向算法步骤为：

初始化：

α₁(i)＝π_ib_j(o₁)，1≤i≤N (20)

式(20)中，α₁(i)表示从1-i时刻出现o₁～o_i观测序列，且该时刻隐藏状态v₁为1的概率；π_i表示初始概率分布矩阵。

递归：

式(21)中，α_t+1(j)表示j时刻隐藏状态v_t+1为t+1的概率，α_i，j表示在任意t时刻，***状态转移矩阵。

计算P(O|λ)：

式(15)中，P(O|λ)表示当前模型λ下产生观测序列O的似然概率。定义后变量为：

β_t(i)＝P(o_t+1，o_t+2，…o_T，q_t＝θ_i|λ)，1≤t≤T (22)

式(22)中，β_t(i)表示t时刻P(O|λ)的后验概率。

后向算法的步骤为：

初始化：

β_T(i)＝1，1≤i≤N (23)

递归：

t＝T-1，T-2，，，，1，1≤i≤N

计算P(O|λ)：

通过在计算前半部分采用前向算法，设时间段为0～t，在计算的后半部分采用后向算法，设时间段为t～T，可以求得概率为：

(2)解码问题

对于一个隐马尔科夫模型λ＝(π，A，B)，首先需要求出该模型产生的一个观测值序列O＝(o₁，o₂，…o_T，)，在观测值序列的基础上，计算模型产生观测序列的过程中所经历的最佳状态序列这里使用Viterbi算法即可。

(3)学习问题

在不知道隐马尔科夫模型参数的情况下，根据模型产生观测序列O＝(o₁，o₂，…o_T，)，通过调整模型参数，使得似然概率P(O|λ)取值最大。本***中，学习问题通常使用Baum-Welch算法解决。

手势识别平台通过摄像头采集手势图像，将其中的手势命令转换成计算机可以执行的指令。首先需要样本数据库，静态手势与动态手势轨迹识别均在此数据库基础上进行：手势图像可以通过摄像头获取，也可以直接来自本地视频文件；获取手势图像之后，对其进行手势分割，图像二值化和特征提取等操作；最后对其进行手势识别，返回识别结果便于我们进程观察。***软件设计流程如图6所示。该***使用多线程开发，其中图像预处理，手势分割在副线程1中完成，动态手势追踪和识别在副线程3中完成。

Claims

1.一种基于深度学习的手势识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于深度学习的手势识别方法，其特征在于，在所述步骤2中，所述预处理包括亮度修正及光线补偿；

3.如权利要求1所述的一种基于深度学习的手势识别方法，其特征在于，在所述步骤3中，对原始图像进行分割时，采用基于YCbCr色彩空间的肤色分割算法。