CN108629288A

CN108629288A - 一种手势识别模型训练方法、手势识别方法及***

Info

Publication number: CN108629288A
Application number: CN201810314455.9A
Authority: CN
Inventors: 桑农; 倪子涵; 陈佳; 高常鑫
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-04-09
Filing date: 2018-04-09
Publication date: 2018-10-09
Anticipated expiration: 2038-04-09
Also published as: CN108629288B

Abstract

本发明公开了一种手势识别模型训练方法、手势识别方法及***，其中训练方法包括采集多种场景下的手势图片样本，在手势样本上进行随机裁剪，得到新的手势样本，将手势图片样本和新的手势样本作为样本集；构建Light YOLO网络，利用样本集对Light YOLO网络进行训练，得到第一Light YOLO网络；在第一Light YOLO网络的每一层卷积层后面加一个selective‑dropout层，得到第二Light YOLO网络，利用样本集对第二Light YOLO网络进行训练收敛，然后进行通道裁剪，进而得到手势识别模型。本发明提升了网络对分辨率较小的手势的检测性能。使得本发明的手势识别方法准确率高以及实时性好。同时使得本发明***能直接从图片得到识别结果，可以进行端到端的优化。

Description

一种手势识别模型训练方法、手势识别方法及***

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种手势识别模型训练方法、手势识别方法及***。

背景技术

手势作为最自然的肢体语言之一，将其应用在人机交互领域可以使得交互过程更自然，其中对人手的识别是目前人机交互领域研究的重点。国内外学者都对基于视觉的手势识别技术展开了诸多研究。

传统的手势识别***一般先进行手势分割获取手势区域，然后提取手势特征，最后利用手势特征进行分类。传统的方法需要人工设计特征，例如颜色特征、HOG特征等等，这些特征的泛化能力较差，针对不同的任务需要设计不同的特征。由于人工神经网络具有抗干扰、自组织、自学习和抗噪声能力强等特点，其被越来越多的运用在手势分类上。随着基于神经网络的目标检测网络的发展，基于目标检测网络的手势识别技术开始发展。然而基于神经网络的手势识别技术比传统的机器学习方法上升了准确率，但是也存在网络计算量大、模型复杂、实时性不强等缺点。

由此可见，复杂场景下现有的手势识别方法存在准确率低以及实时性差的技术问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种手势识别模型训练方法、手势识别方法及***，由此解决复杂场景下现有的手势识别方法存在准确率低以及实时性差的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种手势识别模型训练方法，包括：

(1)采集多种场景下的手势图片样本，标记手势图片样本中的手势位置和手势类别，然后在手势样本上进行随机裁剪，得到新的手势样本，将手势图片样本和新的手势样本作为样本集；

(2)基于YOLOv2目标检测网络，移除其最后一个最大池化层以及第六组卷积层组，将YOLOv2目标检测网络中第14、15、17层卷积层的通道数减为原来的一半，利用一个通道数与第15层卷积层相同的卷积层将第8层卷积层输出的特征图进行降采样编码，得到LightYOLO网络，利用样本集对Light YOLO网络进行训练，得到第一Light YOLO网络；

(3)将样本集输入第一Light YOLO网络，第一Light YOLO网络的每一层卷积层均输出特征图，利用一阶泰勒展开对特征图进行重要性评估，选择重要性最低的A个特征图作为待裁剪特征图，在第一Light YOLO网络的每一层卷积层后面加一个selective-dropout层，得到第二Light YOLO网络，利用样本集对第二Light YOLO网络进行训练至第二LightYOLO网络收敛，对收敛的第二Light YOLO网络中待裁剪特征图对应的卷积核进行裁剪，得到第三Light YOLO网络，利用样本集对第三Light YOLO网络进行训练，进而得到手势识别模型。

进一步地，步骤(1)包括：

采集多种场景下的手势图片样本，标记手势图片样本中的手势位置和手势类别，得到手势数据库，将手势数据库中的手势图片样本分为训练集和测试集；在训练集中的手势图片样本上进行随机裁剪，得到新的手势样本，将训练集中的手势图片样本和新的手势样本作为样本集。

进一步地，步骤(2)包括：

(2-1)首先移除其最后一个最大池化层以及第六组卷积层组，并将YOLOv2目标检测网络中第14、15、17层卷积层的通道数减为原来的一半，然后再利用一个通道数与第15层卷积层相同的卷积层将第8层卷积层输出的特征图进行降采样编码，并将降采样后的特征图与第15层卷积层输出的特征图进行连接，由此得到Light YOLO网络；

(2-2)利用ImageNet数据库训练YOLOv2目标检测网络，得到YOLOv2网络参数作为Light YOLO网络的初始网络参数，将样本集输入Light YOLO网络，使用随机梯度下降法对Light YOLO网络进行训练，得到初始Light YOLO网络；

(2-3)利用测试集对初始Light YOLO网络进行测试，将初始Light YOLO网络输出的有最大置信度的候选框作为预测手势框，若预测手势框与真实手势框冲得率大于0.6，则认为识别正确，否则认为识别错误，当识别正确率大于等于识别阈值时，得到第一LightYOLO网络及其网络参数。

进一步地，步骤(3)包括：

(3-1)将样本集输入第一Light YOLO网络，第一Light YOLO网络的每一层卷积层均输出特征图，通过第一Light YOLO网络的前传得到特征图的激励值，再通过第一LightYOLO网络反向传播得到目标函数对特征图的导数，将特征图的激励值与其对应的导数相乘，即得到所有特征图的泰勒展开值，选择泰勒展开值最低的A个特征图作为待裁剪特征图；

(3-2)在第一Light YOLO网络的每一层卷积层后面加一个selective-dropout层，所述selective-dropout层只对待裁剪特征图执行dropout操作，由此得到第二Light YOLO网络；

(3-3)利用样本集对第二Light YOLO网络进行训练至第二Light YOLO网络收敛，对收敛的第二Light YOLO网络中卷积层生成待裁剪特征图对应的卷积核进行裁剪，然后移除selective-dropout层，得到第三Light YOLO网络，利用样本集对裁剪后的第三LightYOLO网络进行训练以恢复网络性能；

(3-4)若裁剪次数小于B次，则将样本集输入步骤(3-3)得到的恢复网络性能后的第三Light YOLO网络中，然后执行步骤(3-1)；否则，完成裁剪，并对完成裁剪的Light YOLO网络进行训练至恢复性能，得到手势识别模型。

按照本发明的另一方面，提供了一种手势识别模型，所述手势识别模型由本发明的一种手势识别模型训练方法训练得到。

按照本发明的另一方面，提供了一种手势识别方法，包括：

利用本发明的一种手势识别模型训练方法训练得到的手势识别模型对待识别的图像进行手势识别，得到待识别的图像中的手势位置和手势类别。

按照本发明的另一方面，提供了一种手势识别***，包括：

样本采集模块，用于采集多种场景下的手势图片样本，标记手势图片样本中的手势位置和手势类别，然后在手势样本上进行随机裁剪，得到新的手势样本，将手势图片样本和新的手势样本作为样本集；

网络训练模块，用于基于YOLOv2目标检测网络，移除其最后一个最大池化层以及第六组卷积层组，将YOLOv2目标检测网络中第14、15、17层卷积层的通道数减为原来的一半，利用一个通道数与第15层卷积层相同的卷积层将第8层卷积层的输出特征图进行降采样编码，并将降采样后的特征图与第15层卷积层的输出特征图进行连接，由此得到LightYOLO网络，利用样本集对Light YOLO网络进行训练，得到第一Light YOLO网络；

网络裁剪模块，用于将样本集输入第一Light YOLO网络，第一Light YOLO网络的每一层卷积层均输出特征图，利用一阶泰勒展开对特征图进行重要性评估，选择重要性最低的A个特征图作为待裁剪特征图，在第一Light YOLO网络的每一层卷积层后面加一个selective-dropout层，得到第二Light YOLO网络，利用样本集对第二Light YOLO网络进行训练至第二Light YOLO网络收敛，对收敛的第二Light YOLO网络中待裁剪特征图对应的卷积核进行裁剪，得到第三Light YOLO网络，利用样本集对第三Light YOLO网络进行训练，进而得到手势识别模型；

手势识别模块，用于利用手势识别模型对待识别的图像进行手势识别，得到待识别的图像中的手势位置和手势类别。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明在构建Light YOLO网络时，为了增加网络顶层特征图上手势的语义信息，移除其最后一个最大池化层以及第六组卷积层组以减小网络步长，并将网络中第14、15、17层卷积层的通道数减为原来的一半以防止过拟合。此外，利用高低层特征融合的方式构建语义信息更丰富的顶层特征图。利用卷积层降采样能保留更多的空间信息，且能编码成指定的通道数。在优化Light YOLO网络时，为了每次迭代能裁剪较多的特征图而不影响网络性能，在Light YOLO的每一层卷积层后面都加一个selective-dropout层进行网络训练，这个层只对待裁剪特征图执行dropout操作，以减少网络对待裁剪特征图的依赖性；由于本发明的这些改进，解决了复杂场景下现有的手势识别方法存在准确率低以及实时性差的技术问题。提升了网络对分辨率较小的手势的检测性能。使得本发明的手势识别方法准确率高以及实时性好。同时使得本发明***能直接从图片得到识别结果，可以进行端到端的优化。

(2)本发明训练得到的手势识别模型从55MB裁剪到4MB，其前向推断速度从28FPS加速至125FPS。充分说明本发明训练得到的手势识别模型可以实现实时手势识别，且网络模型被压缩至4MB，计算量大大减少，方便移植到嵌入式平台上。

附图说明

图1本发明实施例提供的一种手势识别模型训练方法的流程图；

图2本发明实施例提供的Light YOLO的结构图；

图3本发明实施例提供的selective-dropout网络裁剪算法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，一种手势识别模型训练方法，包括：

(1)采集多种场景下的手势图片样本，主要包括简单背景、复杂背景、肤色背景、人手经过人脸、有其它非预定义手势等场景，采集者离相机的距离大概为2至3米。标记手势图片样本中的手势位置和手势类别，得到手势数据库，数据库包括5738张样本，将手势数据库中的手势图片样本按1∶1划分为训练集和测试集；在训练集中的手势图片样本上进行随机裁剪，得到新的手势样本，直至每一类的训练样本数量达到350张，将训练集中的手势图片样本和新的手势样本作为样本集。

(2)基于YOLOv2目标检测网络，移除其最后一个最大池化层以及第六组卷积层组，将YOLOv2目标检测网络中第14、15、17层卷积层的通道数减为原来的一半，利用一个通道数与第15层卷积层相同的卷积层将第8层卷积层输出的特征图进行降采样编码，得到LightYOLO网络，利用样本集对Light YOLO网络进行训练，得到第一Light YOLO网络；具体包括：

(2-1)首先移除其最后一个最大池化层以及第六组卷积层组，将网络中第14、15层卷积层的通道数减为512维，并将YOLOv2目标检测网络中第14、15、17层卷积层的通道数减为原来的一半，然后再利用一个卷积核大小为1×1、步长为2、通道数与第15层卷积层相同的卷积层将第8层卷积层输出的特征图进行降采样编码，并将降采样后的特征图与第15层卷积层输出的特征图进行连接，由此得到Light YOLO网络。如图2所示，Light YOLO网络总共由18个卷积层和4个最大池化层组成，且前17个卷积层后面都接有一个批规范化层和一个Leaky Relu层。具体每一层的参数描述如下：

Conv1：卷积核大小为3×3，输入通道数为3，输出通道数为32。

Maxpooling1：池化窗口大小为2×2，步长为2×2。

Conv2：卷积核大小为3×3，输入通道数为32，输出通道数为64。

Maxpooling2：池化窗口大小为2×2，步长为2×2。

Conv3：卷积核大小为3×3，输入通道数为64，输出通道数为128。

Conv4：卷积核大小为1×1，输入通道数为128，输出通道数为64。

Conv5：卷积核大小为3×3，输入通道数为64，输出通道数为128。

Maxpooling3：池化窗口大小为2×2，步长为2×2。

Conv6：卷积核大小为3×3，输入通道数为128，输出通道数为256。

Conv7：卷积核大小为1×1，输入通道数为256，输出通道数为128。

Conv8：卷积核大小为3×3，输入通道数为128，输出通道数为256。

Maxpooling4：池化窗口大小为2×2，步长为2×2。

Conv9：卷积核大小为3×3，输入通道数为256，输出通道数为512。

Conv10：卷积核大小为1×1，输入通道数为512，输出通道数为256。

Conv11：卷积核大小为3×3，输入通道数为256，输出通道数为512。

Conv12：卷积核大小为1×1，输入通道数为512，输出通道数为256。

Conv13：卷积核大小为3×3，输入通道数为256，输出通道数为512。

Conv14：卷积核大小为3×3，输入通道数为512，输出通道数为512。

Conv15：卷积核大小为3×3，输入通道数为512，输出通道数为512。

Conv16：卷积核大小为1×1，输入通道数为256，输出通道数为512，步长为2。

Conv17：卷积核大小为3×3，输入通道数为1024，输出通道数为512。

Conv18：卷积核大小为3×3，输入通道数为512，输出通道数为75。

(2-2)利用ImageNet数据库训练YOLOv2目标检测网络，得到YOLOv2网络参数作为Light YOLO网络的初始网络参数，将样本集输入Light YOLO网络，使用随机梯度下降法对Light YOLO网络进行训练，得到初始Light YOLO网络；对Light YOLO网络进行训练，其目标函数由坐标误差、置信度误差和分类误差三部分组成：

其中，λ_obj，λ_noobj分别是目标候选框置信度误差以及非目标候选框置信度误差的系数，x_i，y_i，w_i，h_i，C_i是候选框的左上角坐标、宽度、高度和置信度，是标记框的左上角坐标、宽度、高度和置信度，p_i(c)指网络预测这个候选框为类别c的概率，指候选框为类别c的真实概率。表示候选框i包含目标，表示候选框i不包含目标。

学习率的衰减规则为：前100次降为10^-5进行热身训练，再恢复到10^-4，分别在20周期和150周期时降为5e^-5和10^-5。

(3)将样本集输入第一Light YOLO网络，第一Light YOLO网络的每一层卷积层均输出特征图，利用一阶泰勒展开对特征图进行重要性评估，选择重要性最低的A个特征图作为待裁剪特征图，在第一Light YOLO网络的每一层卷积层后面加一个selective-dropout层，得到第二Light YOLO网络，利用样本集对第二Light YOLO网络进行训练至第二LightYOLO网络收敛，对收敛的第二Light YOLO网络中待裁剪特征图对应的卷积核进行裁剪，得到第三Light YOLO网络，利用样本集对第三Light YOLO网络进行训练，进而得到手势识别模型。如图3所示，具体包括：

我们将剪枝过程视作一个最优化过程，最优化的目的是找到最优的剪枝后的网络参数，使得剪枝前后损失函数的改变最小：|ΔL(h_i)|＝|L(D|W′)-L(D|W)|。其中，D为样本集，W，W′分别为LightYOLO网络剪枝前后的参数。我们认为卷积核的参数与由参数计算出来的特征图是等价地依赖于损失函数的，为了表示方便，我们进行如下表示：L(D，f_i)＝L(D|w_i)。则对任意一张特征图f_i进行剪枝，带来损失函数的变化可以表示为：

|ΔL(f_i)|＝|L(D，f_i＝0)-L(D，f_i)|

其中L(D，f_i＝0)代表特征图f_i被裁剪后的损失函数值，可以视作L(D，f_i)在f_i＝0处的泰勒展开。我们采用一阶泰勒展开公式对上式进行展开，由于高阶项会带来大量的计算，所以只采用一阶泰勒展开，并忽略掉一阶余项，最后得到公式：

其中，为目标函数对特征图的导数。

(3-2)在第一Light YOLO网络的每一层卷积层后面加一个selective-dropout层，所述selective-dropout层只对待裁剪特征图执行dropout操作，由此得到第二Light YOLO网络；对于卷积层l，原始特征图数目为K，selective-dropout之后有效的特征图数目为C，为了保证下一层神经元的输入的数值保证不变，需要将特征图除以C/K，如下式所示：

其中，代表第l层卷积层第k个特征图的激励值。

(3-3)利用样本集对第二Light YOLO网络训练10次使得第二Light YOLO网络收敛，学习率为10^-5，对收敛的第二Light YOLO网络中卷积层生成待裁剪特征图对应的卷积核进行裁剪，然后移除selective-dropout层，得到第三Light YOLO网络，利用样本集对裁剪后的第三Light YOLO网络进行训练10次以恢复网络性能，学习率为10^-5。

(3-4)若裁剪次数小于20次，则将样本集输入步骤(3-3)得到的恢复网络性能后的第三Light YOLO网络中，然后执行步骤(3-1)；否则，完成裁剪，并对完成裁剪的Light YOLO网络进行20次训练至恢复性能，得到手势识别模型。

本发明训练得到的手势识别模型从55MB裁剪到4MB，其前向推断速度从28FPS加速至125FPS。

一种手势识别***，包括：

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种手势识别模型训练方法，其特征在于，包括：

(3)将样本集输入第一Light YOLO网络，第一Light YOLO网络的每一层卷积层均输出特征图，利用一阶泰勒展开对特征图进行重要性评估，选择重要性最低的A个特征图作为待裁剪特征图，在第一Light YOLO网络的每一层卷积层后面加一个selective-dropout层，得到第二Light YOLO网络，利用样本集对第二Light YOLO网络进行训练至第二Light YOLO网络收敛，对收敛的第二Light YOLO网络中待裁剪特征图对应的卷积核进行裁剪，得到第三Light YOLO网络，利用样本集对第三Light YOLO网络进行训练，进而得到手势识别模型。

2.如权利要求1所述的一种手势识别模型训练方法，其特征在于，所述步骤(1)包括：

3.如权利要求2所述的一种手势识别模型训练方法，其特征在于，所述步骤(2)包括：

(2-2)利用ImageNet数据库训练YOLOv2目标检测网络，得到YOLOv2网络参数作为LightYOLO网络的初始网络参数，将样本集输入Light YOLO网络，使用随机梯度下降法对LightYOLO网络进行训练，得到初始Light YOLO网络；

(2-3)利用测试集对初始Light YOLO网络进行测试，将初始Light YOLO网络输出的有最大置信度的候选框作为预测手势框，若预测手势框与真实手势框冲得率大于0.6，则认为识别正确，否则认为识别错误，当识别正确率大于等于识别阈值时，得到第一Light YOLO网络及其网络参数。

4.如权利要求1或2所述的一种手势识别模型训练方法，其特征在于，所述步骤(3)包括：

(3-1)将样本集输入第一Light YOLO网络，第一Light YOLO网络的每一层卷积层均输出特征图，通过第一Light YOLO网络的前传得到特征图的激励值，再通过第一Light YOLO网络反向传播得到目标函数对特征图的导数，将特征图的激励值与其对应的导数相乘，即得到所有特征图的泰勒展开值，选择泰勒展开值最低的A个特征图作为待裁剪特征图；

(3-3)利用样本集对第二Light YOLO网络进行训练至第二Light YOLO网络收敛，对收敛的第二Light YOLO网络中卷积层生成待裁剪特征图对应的卷积核进行裁剪，然后移除selective-dropout层，得到第三Light YOLO网络，利用样本集对裁剪后的第三Light YOLO网络进行训练以恢复网络性能；

5.一种手势识别模型，其特征在于，所述手势识别模型由权利要求1-4任一所述的一种手势识别模型训练方法训练得到。

6.一种手势识别方法，其特征在于，包括：

利用权利要求1-4任一所述的一种手势识别模型训练方法训练得到的手势识别模型对待识别的图像进行手势识别，得到待识别的图像中的手势位置和手势类别。

7.一种手势识别***，其特征在于，包括：

网络训练模块，用于基于YOLOv2目标检测网络，移除其最后一个最大池化层以及第六组卷积层组，将YOLOv2目标检测网络中第14、15、17层卷积层的通道数减为原来的一半，利用一个通道数与第15层卷积层相同的卷积层将第8层卷积层的输出特征图进行降采样编码，并将降采样后的特征图与第15层卷积层的输出特征图进行连接，由此得到Light YOLO网络，利用样本集对Light YOLO网络进行训练，得到第一Light YOLO网络；