CN108509839A

CN108509839A - 一种基于区域卷积神经网络高效的手势检测识别方法

Info

Publication number: CN108509839A
Application number: CN201810105589.XA
Authority: CN
Inventors: 张勋; 陈亮; 朱雪婷
Original assignee: Donghua University
Current assignee: Donghua University; National Dong Hwa University
Priority date: 2018-02-02
Filing date: 2018-02-02
Publication date: 2018-09-07

Abstract

本发明涉及一种基于区域卷积神经网络高效的手势检测识别方法，包括以下步骤：对汉字手势字母样本图像进行预处理；构建并强化手势图像数据集；利用基于区域卷积神经网络Faster R‑CNN网络进行手势检测识别，先由特征提取网络提取手势特征，并将提取的特征图分为二部分，第一部分直接进入Fast R‑CNN网络做深层次卷积，第二部分进入RPN网络产生区域建议后输入Fast R‑CNN网络，并与第一部分得到的特征图共同进入RoI池化层，再经全联接层后得到位置回归于手势类别分数，最终实现手势检测识别；训练网络模型，实现汉字手势字母检测识别。本发明能够提升识别速度和准确率。

Description

一种基于区域卷积神经网络高效的手势检测识别方法

技术领域

本发明涉及手势检测识别技术领域，特别是涉及一种基于区域卷积神经网络高效的手势检测识别方法。

背景技术

近年来手势识别应用领域广泛，例如聋哑人手势翻译、手势识别拍照的机器人控制、门窗家电等的智能家居控制等。按手势采集方式分类，手势识别有两种分类方式：一种是基于穿戴技术的，一种是基于机器视觉的。基于穿戴设备的手势识别技术虽然有着手势定位准确、数据相对简单、响应处理速度较快等优势，但无法弥补成本高昂、操作不便、学习成本高、操纵距离受限、使用场景局限等劣势，这些缺点导致基于穿戴技术的手势识别方法难以得到大力推广，所以基于机器视觉的手势技术必然是理想的手势识别。基于机器视觉的手势识别方法核心是计算机手势目标检测识别算法。

传统的手势目标检测识别算法通常包含手势分割、特征提取、识别这三个步骤。通常会运用基于运动信息、运动模板、肤色信息的模型等方法做手势分割，然后再对分割后的手势进行以HOG、LBP、Fourier变换法等算法做特征提取，最后再利用SVM、Adaboost、MLP等算法进行分类识别。传统手势目标检测识别算法无法规避人工设计手势特征缺陷，故算法得到的模型范性较差。

卷积神经网络(Convolutional Neural Network,CNN)是深度学习(DeepLearning,DL)理论中一个非常重要的算法，它解决了传统人工定义描述和选择目标特征的弊端，通过强大的自学能力能对输入图像的目标自动提取更深层次特征并进行分类。

2014年，Girshick R.提出了基于区域的卷积神经网络模型R-CNN，根据SelectiveSearch或者Edge boxes生成候选区域，再用卷积神经网络对生成的候选区域进行特征提取，虽然存在精度不足和输入图像尺寸限制的问题，但为RPN+CNN的思路在目标检测上奠定了基础。随后在2015年Girshick R.提出了Fast R-CNN模型，提出了Region ofInterestPooling层，对R-CNN的缺点进行了改进，但是由于其网络对目标的特征依然由手工设计，而且计算工作仅在CPU上完成，这样模型的精确性低和候选区域计算时间长依然成为该网络的弊端。继R-CNN和Fast R-CNN之后，为进一步提升算法识别效率，2015年微软公司的Shaoqing.Ren等提出了Faster R-CNN模型。用区域建议方式来生成建议区间，替代Selective Search、Edge boxes等方法，并和检测网络共享卷积特征，这样使得区域建议计算时间大大缩短。

发明内容

本发明所要解决的技术问题是提供一种基于区域卷积神经网络高效的手势检测识别方法，能够提升识别速度和准确率。

本发明解决其技术问题所采用的技术方案是：提供一种基于区域卷积神经网络高效的手势检测识别方法，包括以下步骤：

(1)对汉字手势字母样本图像进行预处理；

(2)构建并强化手势图像数据集，分为训练集和测试集；

(3)利用基于区域卷积神经网络Faster R-CNN网络进行手势检测识别，该网络包括：特征提取网络、RPN区域建议网络和Fast R-CNN网络，所述特征提取网络用于提取手势特征，并将提取的特征图分为第一部分和第二部分，所述第一部分直接进入Fast R-CNN网络做深层次卷积，所述第二部分进入RPN网络产生区域建议后输入Fast R-CNN网络，并与第一部分得到的特征图共同进入RoI池化层，再经全联接层后得到位置回归于手势类别分数，最终实现手势检测识别；

(4)训练网络模型：利用汉字手语字母训练集训练此网络，得到网络参数；最后用测试集或实时采集手势视频输入该训练好的网络，实现汉字手势字母检测识别。

所述步骤(1)具体为：录制汉字手势字母视频，并将视频抽帧为图像，去除拖影严重和遮挡严重的图像，并对图像采用高通滤波的方法进行增强处理。

所述步骤(2)中构建的手势图像数据集包含原始样本图像及对原始样本图像进行手工标注后的标签图像，其中，标注信息记录的图像标记框与原始图像一一对应；采用对原始图像做镜面对称处理的方式重新标记对应图像，以达到强化静态手语数据集的目的。

所述步骤(3)中的特征提取网络为去掉3层全连接层的13层VGG16网络。

所述步骤(3)中的RPN区域建议网络是使用CNN卷积神经网络直接产生区域建议，通过滑动窗口在最后的卷积层上滑动一遍得到多尺度多长宽比的区域建议以提取检测区域，所述RPN区域建议网络还通过反向传播和随机梯度下降进行端到端训练。

所述RPN区域建议网络采用一个卷积核在最后一层卷积得到的特征图上做滑框扫描，该滑动卷积核每次与特征图上的窗口全连接，得到一个低维向量，将这个低维向量送到两个全连接层，即边框位置回归层和目标分类层，所述边框位置回归层用于预测建议框的锚对应的坐标，所述目标分类层用于判断建议框是目标还是背景。

所述RPN区域建议网络的损失函数为其中，p_i是第i个锚矩形框是目标的概率，是样本标签；t_i是用来表示预测得到的参数化边框坐标，是正样本的参数化坐标；N_cls表示输入网络中最小批图像数量，N_reg表示锚坐标的总数；L_cls为用于分类的损失函数；L_reg为回归损失函数。

所述步骤(3)中RPN区域建议网络和Fast R-CNN网络采用特征共享机制，采用交替训练阶段卷积层特征共享。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：

本发明利用区域卷积神经网络Faster R-CNN实现静态汉字手势字母的检测识别，用该网络的VGG16网络做特征提取，区域建议机制(RPN)来生成区域建议(RegionProposals)，生成的区域建议再进入Fast R-CNN网络做手势目标检测和分类；由于直接输入是手势图片，输出的也是识别后的手势图片，所以该框架有端到端的优点，以上特性，不仅提高了手势检测识别的速度，更大大的提高了识别准确率。

附图说明

图1是本发明的基于区域卷积神经网络的手势检测识别的原理图；

图2是区域建议网络RPN结构示意图；

图3是本发明网络训练流程图；

图4是本发明手势检测识别的实验结果图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种基于改进型单次多目标检测器的静态手语实时识别方法，如图1所示，包括以下步骤：对汉字手势字母样本图像进行预处理；构建并强化手势图像数据集，分为训练集和测试集；利用基于区域卷积神经网络Faster R-CNN网络进行手势检测识别，该网络分为三个部分：特征提取网络、RPN区域建议网络和Fast R-CNN网络，所述特征提取网络提取手势特征，提取的特征图分为两部分，第一部分直接进入Fast R-CNN网络再做深层次卷积，第二部分进入RPN网络产生区域建议后输入Fast R-CNN网络，与第一部分得到的特征图共同进入RoI池化层，再经全联接层后得到位置回归和手势类别分数，最终实现手势检测识别；训练网络模型：利用汉字手语字母训练集训练此网络，得到网络参数；最后可用测试集或摄像头实时采集手势视频输入该训练好的网络，实现汉字手势字母检测识别。具体如下：

步骤1：对汉字手势字母样本图像进行预处理。本实验数据是由高清单目摄像头采集完成。实验中进行静态手语识别的26个汉字字母手势中选取5个字母为代表，分别为A、B、C、D、E。实验数据由8个人完成，每人对每个字母分别录制视频，再由Matlab视频抽帧程序完成抽帧，手动去除拖影严重、遮挡严重的图像，对于某些显示效果较差的图像采用高通滤波的方法对图像做增强处理，便于目标识别，得到的初步数据集，图片大小均为640*480。

步骤2：构建并强化手势图像数据集，分为训练集和测试集。构建的汉字手势字母含原始样本图像及对原始样本图像进行手工标注后的标签图像，标注信息记录的图像标记框与原始图像一一对应；采用对原始图像做镜面对称处理的方式，并重新标记对应图像，达到强化静态手语数据集的目的。最终数据集如表1所示，其中每个字母训练集图片均为2500张、合计15000张，测试集均为500张、合计2500张。用LabelImg程序进行人工标记得到真实目标标签文件。

表1静态手语数据集表

步骤3：利用基于区域卷积神经网络Faster R-CNN网络进行手势检测识别。该网络核心分为三个部分：特征提取网络、RPN区域建议网络和Fast R-CNN网络。该网络原理概括为：先由特征提取网络VGG16提取手势特征，该特征图分为两部分，第一部分直接进入FastR-CNN网络再做深层次卷积，第二部分进入RPN网络产生区域建议后输入Fast R-CNN网络，与第一部分得到的特征图共同进入RoI池化层，再经全联接层后得到位置回归于手势类别分数，最终实现手势检测识别。

区域建议网络(Region Proposal Networks,RPN)的提出，用于解决Fast R-CNN中候选区域的生成方式是基于选择性搜索(Selective Search)的方法，由于该方法计算量大，极大的影响算法的速度。区域建议网络如图2所示，RPN具体流程如下：使用一个小卷积核(通常为3*3大小)在最后一层卷积得到的特征图上做滑框扫描，该滑动卷积核每次与特征图上的n*n的窗口全连接(本发明VGG16采用228像素)，然后得到一个低维向量(VGG16是512d)，最后将这个低维向量送到两个全连接层，即边框位置回归层(reg layer)和目标分类层(clslayer)，边框位置回归层用于预测建议框的锚对应的坐标，目标分类层用于判断建议框是目标还是背景。

经过RPN网络的损失函数由两部分组成：1)用于分类的损失函数L_cls，来描述某图像区域是否为目标；2)回归损失函数L_reg，来描述RP区域与真实目标(Ground Truth)之间的差距。该部分总损失函数表示为：

其中，p_i是第i个锚(Anchor)矩形框是目标的概率，是样本标签(1对应的锚矩阵是目标，0则反之)；t_i是用来表示预测得到的参数化边框坐标、是一个四维坐标，是正样本的参数化坐标具体如式(1-4)所示。N_cls表示输入网络中最小批图像数量，N_reg表示锚坐标的总数，二者都为归一化权重参数。λ用以调节式子两部分的平衡。对于边框分类损失函数L_cls，使用log损失函数表示；对于边框回归损失函数L_reg，计算方法如下：

由式(1-1)知，当样本为正时，即时才会激活边框回归损失函数。边框回归作用是矫正锚矩形框和真实框的坐标，使二者更接近，它使用参数化的坐标进行计算：

式中，x,y,w,h分别表示预测边框的中心点坐标，边框的宽和高；x_a,y_a,w_a,h_a分别表示候选边框中心店的坐标，边框的宽和高；x^*,y^*,w^*,h^*分别表示实际边框的中心点坐标，边框的宽和高；t_x，t_w，用于计算回归损失，即从建议区域边框到附近的真实边框的回归。

根据定义的多任务损失函数，本发明采用的优化算法是SGD，以求得最优的权重参数。

在训练RPN网络的时候，通过反向传播(Back-Propagation,BP)和随机梯度下降(Stochastic Gradient Descent,SGD)进行端到端(end-to-end)训练。

本发明中，RPN机制与Fast R-CNN采用特征共享机制，即共享13层的VGG的卷积层，采用交替训练(Alternating training)阶段卷积层特征共享，避免在Faster R-CNN网络中要学习两个网络。

步骤4：利用步骤2的手势训练集采用分阶段训练方式训练步骤3的区域卷积神经网络，设置四个阶段设置的迭代次数分别为40k、20k、40k和40k次，每个阶段都采用固定学习率的方式，学习率固定为0.001，采用随机梯度下降方法优化结果。图3是网络训练流程图。经多次对网络进行微调，选择一组效果较好的模型参数作为最终模型，用于实验测试。

图4是本发明手势检测识别的实验结果图。随机抽取部分实验结果，每张图中手势识别结果包含手势类别标签及概率大小。可以看到采用本实施方式的基于区域卷积神经网络的方法，对手势检测识别非常有效。

不难发现，本发明不需要使用手工设计语言来描述汉字手手势特征，采用的卷积神经网络能得到更深层次的特征信息，使得模型的范性好；采用RPN机制做区域建议它能和整个检测网络共享全图的卷积特征，使得区域建议所用时间更少，利于算法速度提高；用Fast R-CNN网络实现最终手势目标的检测和识别；以上所有特性，使得本发明方案有着较好的识别速度，特别的在手势检测识别准确率上有很大的提高。

Claims

1.一种基于区域卷积神经网络高效的手势检测识别方法，其特征在于，包括以下步骤：

(1)对汉字手势字母样本图像进行预处理；

(2)构建并强化手势图像数据集，分为训练集和测试集；

2.根据权利要求1所述的基于区域卷积神经网络高效的手势检测识别方法，其特征在于，所述步骤(1)具体为：录制汉字手势字母视频，并将视频抽帧为图像，去除拖影严重和遮挡严重的图像，并对图像采用高通滤波的方法进行增强处理。

3.根据权利要求1所述的基于区域卷积神经网络高效的手势检测识别方法，其特征在于，所述步骤(2)中构建的手势图像数据集包含原始样本图像及对原始样本图像进行手工标注后的标签图像，其中，标注信息记录的图像标记框与原始图像一一对应；采用对原始图像做镜面对称处理的方式重新标记对应图像，以达到强化静态手语数据集的目的。

4.根据权利要求1所述的基于区域卷积神经网络高效的手势检测识别方法，其特征在于，所述步骤(3)中的特征提取网络为去掉3层全连接层的13层VGG16网络。

5.根据权利要求1所述的基于区域卷积神经网络高效的手势检测识别方法，其特征在于，所述步骤(3)中的RPN区域建议网络是使用CNN卷积神经网络直接产生区域建议，通过滑动窗口在最后的卷积层上滑动一遍得到多尺度多长宽比的区域建议以提取检测区域，所述RPN区域建议网络还通过反向传播和随机梯度下降进行端到端训练。

6.根据权利要求5所述的基于区域卷积神经网络高效的手势检测识别方法，其特征在于，所述RPN区域建议网络采用一个卷积核在最后一层卷积得到的特征图上做滑框扫描，该滑动卷积核每次与特征图上的窗口全连接，得到一个低维向量，将这个低维向量送到两个全连接层，即边框位置回归层和目标分类层，所述边框位置回归层用于预测建议框的锚对应的坐标，所述目标分类层用于判断建议框是目标还是背景。

7.根据权利要求5所述的基于区域卷积神经网络高效的手势检测识别方法，其特征在于，所述RPN区域建议网络的损失函数为其中，p_i是第i个锚矩形框是目标的概率，是样本标签；t_i是用来表示预测得到的参数化边框坐标，是正样本的参数化坐标；N_cls表示输入网络中最小批图像数量，N_reg表示锚坐标的总数；L_cls为用于分类的损失函数；L_reg为回归损失函数。

8.根据权利要求1所述的基于区域卷积神经网络高效的手势检测识别方法，其特征在于，所述步骤(3)中RPN区域建议网络和FastR-CNN网络采用特征共享机制，采用交替训练阶段卷积层特征共享。