CN108629288A - 一种手势识别模型训练方法、手势识别方法及*** - Google Patents
一种手势识别模型训练方法、手势识别方法及*** Download PDFInfo
- Publication number
- CN108629288A CN108629288A CN201810314455.9A CN201810314455A CN108629288A CN 108629288 A CN108629288 A CN 108629288A CN 201810314455 A CN201810314455 A CN 201810314455A CN 108629288 A CN108629288 A CN 108629288A
- Authority
- CN
- China
- Prior art keywords
- gesture
- light
- yolo
- networks
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000001514 detection method Methods 0.000 claims abstract description 21
- 238000013138 pruning Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 230000005284 excitation Effects 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种手势识别模型训练方法、手势识别方法及***,其中训练方法包括采集多种场景下的手势图片样本,在手势样本上进行随机裁剪,得到新的手势样本,将手势图片样本和新的手势样本作为样本集;构建Light YOLO网络,利用样本集对Light YOLO网络进行训练,得到第一Light YOLO网络;在第一Light YOLO网络的每一层卷积层后面加一个selective‑dropout层,得到第二Light YOLO网络,利用样本集对第二Light YOLO网络进行训练收敛,然后进行通道裁剪,进而得到手势识别模型。本发明提升了网络对分辨率较小的手势的检测性能。使得本发明的手势识别方法准确率高以及实时性好。同时使得本发明***能直接从图片得到识别结果,可以进行端到端的优化。
Description
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种手势识别模型训练方法、手势识别方法及***。
背景技术
手势作为最自然的肢体语言之一,将其应用在人机交互领域可以使得交互过程更自然,其中对人手的识别是目前人机交互领域研究的重点。国内外学者都对基于视觉的手势识别技术展开了诸多研究。
传统的手势识别***一般先进行手势分割获取手势区域,然后提取手势特征,最后利用手势特征进行分类。传统的方法需要人工设计特征,例如颜色特征、HOG特征等等,这些特征的泛化能力较差,针对不同的任务需要设计不同的特征。由于人工神经网络具有抗干扰、自组织、自学习和抗噪声能力强等特点,其被越来越多的运用在手势分类上。随着基于神经网络的目标检测网络的发展,基于目标检测网络的手势识别技术开始发展。然而基于神经网络的手势识别技术比传统的机器学习方法上升了准确率,但是也存在网络计算量大、模型复杂、实时性不强等缺点。
由此可见,复杂场景下现有的手势识别方法存在准确率低以及实时性差的技术问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种手势识别模型训练方法、手势识别方法及***,由此解决复杂场景下现有的手势识别方法存在准确率低以及实时性差的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种手势识别模型训练方法,包括:
(1)采集多种场景下的手势图片样本,标记手势图片样本中的手势位置和手势类别,然后在手势样本上进行随机裁剪,得到新的手势样本,将手势图片样本和新的手势样本作为样本集;
(2)基于YOLOv2目标检测网络,移除其最后一个最大池化层以及第六组卷积层组,将YOLOv2目标检测网络中第14、15、17层卷积层的通道数减为原来的一半,利用一个通道数与第15层卷积层相同的卷积层将第8层卷积层输出的特征图进行降采样编码,得到LightYOLO网络,利用样本集对Light YOLO网络进行训练,得到第一Light YOLO网络;
(3)将样本集输入第一Light YOLO网络,第一Light YOLO网络的每一层卷积层均输出特征图,利用一阶泰勒展开对特征图进行重要性评估,选择重要性最低的A个特征图作为待裁剪特征图,在第一Light YOLO网络的每一层卷积层后面加一个selective-dropout层,得到第二Light YOLO网络,利用样本集对第二Light YOLO网络进行训练至第二LightYOLO网络收敛,对收敛的第二Light YOLO网络中待裁剪特征图对应的卷积核进行裁剪,得到第三Light YOLO网络,利用样本集对第三Light YOLO网络进行训练,进而得到手势识别模型。
进一步地,步骤(1)包括:
采集多种场景下的手势图片样本,标记手势图片样本中的手势位置和手势类别,得到手势数据库,将手势数据库中的手势图片样本分为训练集和测试集;在训练集中的手势图片样本上进行随机裁剪,得到新的手势样本,将训练集中的手势图片样本和新的手势样本作为样本集。
进一步地,步骤(2)包括:
(2-1)首先移除其最后一个最大池化层以及第六组卷积层组,并将YOLOv2目标检测网络中第14、15、17层卷积层的通道数减为原来的一半,然后再利用一个通道数与第15层卷积层相同的卷积层将第8层卷积层输出的特征图进行降采样编码,并将降采样后的特征图与第15层卷积层输出的特征图进行连接,由此得到Light YOLO网络;
(2-2)利用ImageNet数据库训练YOLOv2目标检测网络,得到YOLOv2网络参数作为Light YOLO网络的初始网络参数,将样本集输入Light YOLO网络,使用随机梯度下降法对Light YOLO网络进行训练,得到初始Light YOLO网络;
(2-3)利用测试集对初始Light YOLO网络进行测试,将初始Light YOLO网络输出的有最大置信度的候选框作为预测手势框,若预测手势框与真实手势框冲得率大于0.6,则认为识别正确,否则认为识别错误,当识别正确率大于等于识别阈值时,得到第一LightYOLO网络及其网络参数。
进一步地,步骤(3)包括:
(3-1)将样本集输入第一Light YOLO网络,第一Light YOLO网络的每一层卷积层均输出特征图,通过第一Light YOLO网络的前传得到特征图的激励值,再通过第一LightYOLO网络反向传播得到目标函数对特征图的导数,将特征图的激励值与其对应的导数相乘,即得到所有特征图的泰勒展开值,选择泰勒展开值最低的A个特征图作为待裁剪特征图;
(3-2)在第一Light YOLO网络的每一层卷积层后面加一个selective-dropout层,所述selective-dropout层只对待裁剪特征图执行dropout操作,由此得到第二Light YOLO网络;
(3-3)利用样本集对第二Light YOLO网络进行训练至第二Light YOLO网络收敛,对收敛的第二Light YOLO网络中卷积层生成待裁剪特征图对应的卷积核进行裁剪,然后移除selective-dropout层,得到第三Light YOLO网络,利用样本集对裁剪后的第三LightYOLO网络进行训练以恢复网络性能;
(3-4)若裁剪次数小于B次,则将样本集输入步骤(3-3)得到的恢复网络性能后的第三Light YOLO网络中,然后执行步骤(3-1);否则,完成裁剪,并对完成裁剪的Light YOLO网络进行训练至恢复性能,得到手势识别模型。
按照本发明的另一方面,提供了一种手势识别模型,所述手势识别模型由本发明的一种手势识别模型训练方法训练得到。
按照本发明的另一方面,提供了一种手势识别方法,包括:
利用本发明的一种手势识别模型训练方法训练得到的手势识别模型对待识别的图像进行手势识别,得到待识别的图像中的手势位置和手势类别。
按照本发明的另一方面,提供了一种手势识别***,包括:
样本采集模块,用于采集多种场景下的手势图片样本,标记手势图片样本中的手势位置和手势类别,然后在手势样本上进行随机裁剪,得到新的手势样本,将手势图片样本和新的手势样本作为样本集;
网络训练模块,用于基于YOLOv2目标检测网络,移除其最后一个最大池化层以及第六组卷积层组,将YOLOv2目标检测网络中第14、15、17层卷积层的通道数减为原来的一半,利用一个通道数与第15层卷积层相同的卷积层将第8层卷积层的输出特征图进行降采样编码,并将降采样后的特征图与第15层卷积层的输出特征图进行连接,由此得到LightYOLO网络,利用样本集对Light YOLO网络进行训练,得到第一Light YOLO网络;
网络裁剪模块,用于将样本集输入第一Light YOLO网络,第一Light YOLO网络的每一层卷积层均输出特征图,利用一阶泰勒展开对特征图进行重要性评估,选择重要性最低的A个特征图作为待裁剪特征图,在第一Light YOLO网络的每一层卷积层后面加一个selective-dropout层,得到第二Light YOLO网络,利用样本集对第二Light YOLO网络进行训练至第二Light YOLO网络收敛,对收敛的第二Light YOLO网络中待裁剪特征图对应的卷积核进行裁剪,得到第三Light YOLO网络,利用样本集对第三Light YOLO网络进行训练,进而得到手势识别模型;
手势识别模块,用于利用手势识别模型对待识别的图像进行手势识别,得到待识别的图像中的手势位置和手势类别。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明在构建Light YOLO网络时,为了增加网络顶层特征图上手势的语义信息,移除其最后一个最大池化层以及第六组卷积层组以减小网络步长,并将网络中第14、15、17层卷积层的通道数减为原来的一半以防止过拟合。此外,利用高低层特征融合的方式构建语义信息更丰富的顶层特征图。利用卷积层降采样能保留更多的空间信息,且能编码成指定的通道数。在优化Light YOLO网络时,为了每次迭代能裁剪较多的特征图而不影响网络性能,在Light YOLO的每一层卷积层后面都加一个selective-dropout层进行网络训练,这个层只对待裁剪特征图执行dropout操作,以减少网络对待裁剪特征图的依赖性;由于本发明的这些改进,解决了复杂场景下现有的手势识别方法存在准确率低以及实时性差的技术问题。提升了网络对分辨率较小的手势的检测性能。使得本发明的手势识别方法准确率高以及实时性好。同时使得本发明***能直接从图片得到识别结果,可以进行端到端的优化。
(2)本发明训练得到的手势识别模型从55MB裁剪到4MB,其前向推断速度从28FPS加速至125FPS。充分说明本发明训练得到的手势识别模型可以实现实时手势识别,且网络模型被压缩至4MB,计算量大大减少,方便移植到嵌入式平台上。
附图说明
图1本发明实施例提供的一种手势识别模型训练方法的流程图;
图2本发明实施例提供的Light YOLO的结构图;
图3本发明实施例提供的selective-dropout网络裁剪算法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,一种手势识别模型训练方法,包括:
(1)采集多种场景下的手势图片样本,主要包括简单背景、复杂背景、肤色背景、人手经过人脸、有其它非预定义手势等场景,采集者离相机的距离大概为2至3米。标记手势图片样本中的手势位置和手势类别,得到手势数据库,数据库包括5738张样本,将手势数据库中的手势图片样本按1∶1划分为训练集和测试集;在训练集中的手势图片样本上进行随机裁剪,得到新的手势样本,直至每一类的训练样本数量达到350张,将训练集中的手势图片样本和新的手势样本作为样本集。
(2)基于YOLOv2目标检测网络,移除其最后一个最大池化层以及第六组卷积层组,将YOLOv2目标检测网络中第14、15、17层卷积层的通道数减为原来的一半,利用一个通道数与第15层卷积层相同的卷积层将第8层卷积层输出的特征图进行降采样编码,得到LightYOLO网络,利用样本集对Light YOLO网络进行训练,得到第一Light YOLO网络;具体包括:
(2-1)首先移除其最后一个最大池化层以及第六组卷积层组,将网络中第14、15层卷积层的通道数减为512维,并将YOLOv2目标检测网络中第14、15、17层卷积层的通道数减为原来的一半,然后再利用一个卷积核大小为1×1、步长为2、通道数与第15层卷积层相同的卷积层将第8层卷积层输出的特征图进行降采样编码,并将降采样后的特征图与第15层卷积层输出的特征图进行连接,由此得到Light YOLO网络。如图2所示,Light YOLO网络总共由18个卷积层和4个最大池化层组成,且前17个卷积层后面都接有一个批规范化层和一个Leaky Relu层。具体每一层的参数描述如下:
Conv1:卷积核大小为3×3,输入通道数为3,输出通道数为32。
Maxpooling1:池化窗口大小为2×2,步长为2×2。
Conv2:卷积核大小为3×3,输入通道数为32,输出通道数为64。
Maxpooling2:池化窗口大小为2×2,步长为2×2。
Conv3:卷积核大小为3×3,输入通道数为64,输出通道数为128。
Conv4:卷积核大小为1×1,输入通道数为128,输出通道数为64。
Conv5:卷积核大小为3×3,输入通道数为64,输出通道数为128。
Maxpooling3:池化窗口大小为2×2,步长为2×2。
Conv6:卷积核大小为3×3,输入通道数为128,输出通道数为256。
Conv7:卷积核大小为1×1,输入通道数为256,输出通道数为128。
Conv8:卷积核大小为3×3,输入通道数为128,输出通道数为256。
Maxpooling4:池化窗口大小为2×2,步长为2×2。
Conv9:卷积核大小为3×3,输入通道数为256,输出通道数为512。
Conv10:卷积核大小为1×1,输入通道数为512,输出通道数为256。
Conv11:卷积核大小为3×3,输入通道数为256,输出通道数为512。
Conv12:卷积核大小为1×1,输入通道数为512,输出通道数为256。
Conv13:卷积核大小为3×3,输入通道数为256,输出通道数为512。
Conv14:卷积核大小为3×3,输入通道数为512,输出通道数为512。
Conv15:卷积核大小为3×3,输入通道数为512,输出通道数为512。
Conv16:卷积核大小为1×1,输入通道数为256,输出通道数为512,步长为2。
Conv17:卷积核大小为3×3,输入通道数为1024,输出通道数为512。
Conv18:卷积核大小为3×3,输入通道数为512,输出通道数为75。
(2-2)利用ImageNet数据库训练YOLOv2目标检测网络,得到YOLOv2网络参数作为Light YOLO网络的初始网络参数,将样本集输入Light YOLO网络,使用随机梯度下降法对Light YOLO网络进行训练,得到初始Light YOLO网络;对Light YOLO网络进行训练,其目标函数由坐标误差、置信度误差和分类误差三部分组成:
其中,λobj,λnoobj分别是目标候选框置信度误差以及非目标候选框置信度误差的系数,xi,yi,wi,hi,Ci是候选框的左上角坐标、宽度、高度和置信度,是标记框的左上角坐标、宽度、高度和置信度,pi(c)指网络预测这个候选框为类别c的概率,指候选框为类别c的真实概率。表示候选框i包含目标,表示候选框i不包含目标。
学习率的衰减规则为:前100次降为10-5进行热身训练,再恢复到10-4,分别在20周期和150周期时降为5e-5和10-5。
(2-3)利用测试集对初始Light YOLO网络进行测试,将初始Light YOLO网络输出的有最大置信度的候选框作为预测手势框,若预测手势框与真实手势框冲得率大于0.6,则认为识别正确,否则认为识别错误,当识别正确率大于等于识别阈值时,得到第一LightYOLO网络及其网络参数。
(3)将样本集输入第一Light YOLO网络,第一Light YOLO网络的每一层卷积层均输出特征图,利用一阶泰勒展开对特征图进行重要性评估,选择重要性最低的A个特征图作为待裁剪特征图,在第一Light YOLO网络的每一层卷积层后面加一个selective-dropout层,得到第二Light YOLO网络,利用样本集对第二Light YOLO网络进行训练至第二LightYOLO网络收敛,对收敛的第二Light YOLO网络中待裁剪特征图对应的卷积核进行裁剪,得到第三Light YOLO网络,利用样本集对第三Light YOLO网络进行训练,进而得到手势识别模型。如图3所示,具体包括:
(3-1)将样本集输入第一Light YOLO网络,第一Light YOLO网络的每一层卷积层均输出特征图,通过第一Light YOLO网络的前传得到特征图的激励值,再通过第一LightYOLO网络反向传播得到目标函数对特征图的导数,将特征图的激励值与其对应的导数相乘,即得到所有特征图的泰勒展开值,选择泰勒展开值最低的A个特征图作为待裁剪特征图;
我们将剪枝过程视作一个最优化过程,最优化的目的是找到最优的剪枝后的网络参数,使得剪枝前后损失函数的改变最小:|ΔL(hi)|=|L(D|W′)-L(D|W)|。其中,D为样本集,W,W′分别为LightYOLO网络剪枝前后的参数。我们认为卷积核的参数与由参数计算出来的特征图是等价地依赖于损失函数的,为了表示方便,我们进行如下表示:L(D,fi)=L(D|wi)。则对任意一张特征图fi进行剪枝,带来损失函数的变化可以表示为:
|ΔL(fi)|=|L(D,fi=0)-L(D,fi)|
其中L(D,fi=0)代表特征图fi被裁剪后的损失函数值,可以视作L(D,fi)在fi=0处的泰勒展开。我们采用一阶泰勒展开公式对上式进行展开,由于高阶项会带来大量的计算,所以只采用一阶泰勒展开,并忽略掉一阶余项,最后得到公式:
其中,为目标函数对特征图的导数。
(3-2)在第一Light YOLO网络的每一层卷积层后面加一个selective-dropout层,所述selective-dropout层只对待裁剪特征图执行dropout操作,由此得到第二Light YOLO网络;对于卷积层l,原始特征图数目为K,selective-dropout之后有效的特征图数目为C,为了保证下一层神经元的输入的数值保证不变,需要将特征图除以C/K,如下式所示:
其中,代表第l层卷积层第k个特征图的激励值。
(3-3)利用样本集对第二Light YOLO网络训练10次使得第二Light YOLO网络收敛,学习率为10-5,对收敛的第二Light YOLO网络中卷积层生成待裁剪特征图对应的卷积核进行裁剪,然后移除selective-dropout层,得到第三Light YOLO网络,利用样本集对裁剪后的第三Light YOLO网络进行训练10次以恢复网络性能,学习率为10-5。
(3-4)若裁剪次数小于20次,则将样本集输入步骤(3-3)得到的恢复网络性能后的第三Light YOLO网络中,然后执行步骤(3-1);否则,完成裁剪,并对完成裁剪的Light YOLO网络进行20次训练至恢复性能,得到手势识别模型。
本发明训练得到的手势识别模型从55MB裁剪到4MB,其前向推断速度从28FPS加速至125FPS。
一种手势识别***,包括:
样本采集模块,用于采集多种场景下的手势图片样本,标记手势图片样本中的手势位置和手势类别,然后在手势样本上进行随机裁剪,得到新的手势样本,将手势图片样本和新的手势样本作为样本集;
网络训练模块,用于基于YOLOv2目标检测网络,移除其最后一个最大池化层以及第六组卷积层组,将YOLOv2目标检测网络中第14、15、17层卷积层的通道数减为原来的一半,利用一个通道数与第15层卷积层相同的卷积层将第8层卷积层的输出特征图进行降采样编码,并将降采样后的特征图与第15层卷积层的输出特征图进行连接,由此得到LightYOLO网络,利用样本集对Light YOLO网络进行训练,得到第一Light YOLO网络;
网络裁剪模块,用于将样本集输入第一Light YOLO网络,第一Light YOLO网络的每一层卷积层均输出特征图,利用一阶泰勒展开对特征图进行重要性评估,选择重要性最低的A个特征图作为待裁剪特征图,在第一Light YOLO网络的每一层卷积层后面加一个selective-dropout层,得到第二Light YOLO网络,利用样本集对第二Light YOLO网络进行训练至第二Light YOLO网络收敛,对收敛的第二Light YOLO网络中待裁剪特征图对应的卷积核进行裁剪,得到第三Light YOLO网络,利用样本集对第三Light YOLO网络进行训练,进而得到手势识别模型;
手势识别模块,用于利用手势识别模型对待识别的图像进行手势识别,得到待识别的图像中的手势位置和手势类别。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种手势识别模型训练方法,其特征在于,包括:
(1)采集多种场景下的手势图片样本,标记手势图片样本中的手势位置和手势类别,然后在手势样本上进行随机裁剪,得到新的手势样本,将手势图片样本和新的手势样本作为样本集;
(2)基于YOLOv2目标检测网络,移除其最后一个最大池化层以及第六组卷积层组,将YOLOv2目标检测网络中第14、15、17层卷积层的通道数减为原来的一半,利用一个通道数与第15层卷积层相同的卷积层将第8层卷积层输出的特征图进行降采样编码,得到LightYOLO网络,利用样本集对Light YOLO网络进行训练,得到第一Light YOLO网络;
(3)将样本集输入第一Light YOLO网络,第一Light YOLO网络的每一层卷积层均输出特征图,利用一阶泰勒展开对特征图进行重要性评估,选择重要性最低的A个特征图作为待裁剪特征图,在第一Light YOLO网络的每一层卷积层后面加一个selective-dropout层,得到第二Light YOLO网络,利用样本集对第二Light YOLO网络进行训练至第二Light YOLO网络收敛,对收敛的第二Light YOLO网络中待裁剪特征图对应的卷积核进行裁剪,得到第三Light YOLO网络,利用样本集对第三Light YOLO网络进行训练,进而得到手势识别模型。
2.如权利要求1所述的一种手势识别模型训练方法,其特征在于,所述步骤(1)包括:
采集多种场景下的手势图片样本,标记手势图片样本中的手势位置和手势类别,得到手势数据库,将手势数据库中的手势图片样本分为训练集和测试集;在训练集中的手势图片样本上进行随机裁剪,得到新的手势样本,将训练集中的手势图片样本和新的手势样本作为样本集。
3.如权利要求2所述的一种手势识别模型训练方法,其特征在于,所述步骤(2)包括:
(2-1)首先移除其最后一个最大池化层以及第六组卷积层组,并将YOLOv2目标检测网络中第14、15、17层卷积层的通道数减为原来的一半,然后再利用一个通道数与第15层卷积层相同的卷积层将第8层卷积层输出的特征图进行降采样编码,并将降采样后的特征图与第15层卷积层输出的特征图进行连接,由此得到Light YOLO网络;
(2-2)利用ImageNet数据库训练YOLOv2目标检测网络,得到YOLOv2网络参数作为LightYOLO网络的初始网络参数,将样本集输入Light YOLO网络,使用随机梯度下降法对LightYOLO网络进行训练,得到初始Light YOLO网络;
(2-3)利用测试集对初始Light YOLO网络进行测试,将初始Light YOLO网络输出的有最大置信度的候选框作为预测手势框,若预测手势框与真实手势框冲得率大于0.6,则认为识别正确,否则认为识别错误,当识别正确率大于等于识别阈值时,得到第一Light YOLO网络及其网络参数。
4.如权利要求1或2所述的一种手势识别模型训练方法,其特征在于,所述步骤(3)包括:
(3-1)将样本集输入第一Light YOLO网络,第一Light YOLO网络的每一层卷积层均输出特征图,通过第一Light YOLO网络的前传得到特征图的激励值,再通过第一Light YOLO网络反向传播得到目标函数对特征图的导数,将特征图的激励值与其对应的导数相乘,即得到所有特征图的泰勒展开值,选择泰勒展开值最低的A个特征图作为待裁剪特征图;
(3-2)在第一Light YOLO网络的每一层卷积层后面加一个selective-dropout层,所述selective-dropout层只对待裁剪特征图执行dropout操作,由此得到第二Light YOLO网络;
(3-3)利用样本集对第二Light YOLO网络进行训练至第二Light YOLO网络收敛,对收敛的第二Light YOLO网络中卷积层生成待裁剪特征图对应的卷积核进行裁剪,然后移除selective-dropout层,得到第三Light YOLO网络,利用样本集对裁剪后的第三Light YOLO网络进行训练以恢复网络性能;
(3-4)若裁剪次数小于B次,则将样本集输入步骤(3-3)得到的恢复网络性能后的第三Light YOLO网络中,然后执行步骤(3-1);否则,完成裁剪,并对完成裁剪的Light YOLO网络进行训练至恢复性能,得到手势识别模型。
5.一种手势识别模型,其特征在于,所述手势识别模型由权利要求1-4任一所述的一种手势识别模型训练方法训练得到。
6.一种手势识别方法,其特征在于,包括:
利用权利要求1-4任一所述的一种手势识别模型训练方法训练得到的手势识别模型对待识别的图像进行手势识别,得到待识别的图像中的手势位置和手势类别。
7.一种手势识别***,其特征在于,包括:
样本采集模块,用于采集多种场景下的手势图片样本,标记手势图片样本中的手势位置和手势类别,然后在手势样本上进行随机裁剪,得到新的手势样本,将手势图片样本和新的手势样本作为样本集;
网络训练模块,用于基于YOLOv2目标检测网络,移除其最后一个最大池化层以及第六组卷积层组,将YOLOv2目标检测网络中第14、15、17层卷积层的通道数减为原来的一半,利用一个通道数与第15层卷积层相同的卷积层将第8层卷积层的输出特征图进行降采样编码,并将降采样后的特征图与第15层卷积层的输出特征图进行连接,由此得到Light YOLO网络,利用样本集对Light YOLO网络进行训练,得到第一Light YOLO网络;
网络裁剪模块,用于将样本集输入第一Light YOLO网络,第一Light YOLO网络的每一层卷积层均输出特征图,利用一阶泰勒展开对特征图进行重要性评估,选择重要性最低的A个特征图作为待裁剪特征图,在第一Light YOLO网络的每一层卷积层后面加一个selective-dropout层,得到第二Light YOLO网络,利用样本集对第二Light YOLO网络进行训练至第二Light YOLO网络收敛,对收敛的第二Light YOLO网络中待裁剪特征图对应的卷积核进行裁剪,得到第三Light YOLO网络,利用样本集对第三Light YOLO网络进行训练,进而得到手势识别模型;
手势识别模块,用于利用手势识别模型对待识别的图像进行手势识别,得到待识别的图像中的手势位置和手势类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810314455.9A CN108629288B (zh) | 2018-04-09 | 2018-04-09 | 一种手势识别模型训练方法、手势识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810314455.9A CN108629288B (zh) | 2018-04-09 | 2018-04-09 | 一种手势识别模型训练方法、手势识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108629288A true CN108629288A (zh) | 2018-10-09 |
CN108629288B CN108629288B (zh) | 2020-05-19 |
Family
ID=63705035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810314455.9A Expired - Fee Related CN108629288B (zh) | 2018-04-09 | 2018-04-09 | 一种手势识别模型训练方法、手势识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108629288B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447034A (zh) * | 2018-11-14 | 2019-03-08 | 北京信息科技大学 | 基于YOLOv3网络的自动驾驶中交通标识检测方法 |
CN109828578A (zh) * | 2019-02-22 | 2019-05-31 | 南京天创电子技术有限公司 | 一种基于YOLOv3的仪表巡检机器人最优路线规划方法 |
CN109885677A (zh) * | 2018-12-26 | 2019-06-14 | 中译语通科技股份有限公司 | 一种多方位大数据采集整理***及方法 |
CN109978069A (zh) * | 2019-04-02 | 2019-07-05 | 南京大学 | 降低ResNeXt模型在图片分类中过拟合现象的方法 |
CN110032925A (zh) * | 2019-02-22 | 2019-07-19 | 广西师范大学 | 一种基于改进胶囊网络与算法的手势图像分割与识别方法 |
CN110033453A (zh) * | 2019-04-18 | 2019-07-19 | 国网山西省电力公司电力科学研究院 | 基于改进YOLOv3的输变电线路绝缘子航拍图像故障检测方法 |
CN110096968A (zh) * | 2019-04-10 | 2019-08-06 | 西安电子科技大学 | 一种基于深度模型优化的超高速静态手势识别方法 |
CN110135398A (zh) * | 2019-05-28 | 2019-08-16 | 厦门瑞为信息技术有限公司 | 基于计算机视觉的双手脱离方向盘检测方法 |
CN111046796A (zh) * | 2019-12-12 | 2020-04-21 | 哈尔滨拓博科技有限公司 | 一种基于双摄像头深度信息的低成本空间手势控制方法及*** |
CN113167495A (zh) * | 2018-12-12 | 2021-07-23 | 三菱电机株式会社 | 空调控制装置和空调控制方法 |
CN113191243A (zh) * | 2021-04-25 | 2021-07-30 | 华中科技大学 | 基于相机距离的人手三维姿态估计模型建立方法及其应用 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930514A (zh) * | 2012-09-27 | 2013-02-13 | 西安电子科技大学 | 基于大气物理散射模型的快速图像去雾方法 |
US9286524B1 (en) * | 2015-04-15 | 2016-03-15 | Toyota Motor Engineering & Manufacturing North America, Inc. | Multi-task deep convolutional neural networks for efficient and robust traffic lane detection |
CN106355248A (zh) * | 2016-08-26 | 2017-01-25 | 深圳先进技术研究院 | 一种深度卷积神经网络训练方法及装置 |
CN106529578A (zh) * | 2016-10-20 | 2017-03-22 | 中山大学 | 一种基于深度学习的车辆品牌型号精细识别方法与*** |
CN106779068A (zh) * | 2016-12-05 | 2017-05-31 | 北京深鉴智能科技有限公司 | 调整人工神经网络的方法和装置 |
CN107368885A (zh) * | 2017-07-13 | 2017-11-21 | 北京智芯原动科技有限公司 | 基于多粒度剪枝的网络模型压缩方法及装置 |
CN107463965A (zh) * | 2017-08-16 | 2017-12-12 | 湖州易有科技有限公司 | 基于深度学习的面料属性图片采集和识别方法及识别*** |
CN107590449A (zh) * | 2017-08-31 | 2018-01-16 | 电子科技大学 | 一种基于加权特征谱融合的手势检测方法 |
CN107590432A (zh) * | 2017-07-27 | 2018-01-16 | 北京联合大学 | 一种基于循环三维卷积神经网络的手势识别方法 |
CN107688850A (zh) * | 2017-08-08 | 2018-02-13 | 北京深鉴科技有限公司 | 一种深度神经网络压缩方法 |
CN107729854A (zh) * | 2017-10-25 | 2018-02-23 | 南京阿凡达机器人科技有限公司 | 一种机器人的手势识别方法、***及机器人 |
-
2018
- 2018-04-09 CN CN201810314455.9A patent/CN108629288B/zh not_active Expired - Fee Related
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930514A (zh) * | 2012-09-27 | 2013-02-13 | 西安电子科技大学 | 基于大气物理散射模型的快速图像去雾方法 |
US9286524B1 (en) * | 2015-04-15 | 2016-03-15 | Toyota Motor Engineering & Manufacturing North America, Inc. | Multi-task deep convolutional neural networks for efficient and robust traffic lane detection |
CN106355248A (zh) * | 2016-08-26 | 2017-01-25 | 深圳先进技术研究院 | 一种深度卷积神经网络训练方法及装置 |
CN106529578A (zh) * | 2016-10-20 | 2017-03-22 | 中山大学 | 一种基于深度学习的车辆品牌型号精细识别方法与*** |
CN106779068A (zh) * | 2016-12-05 | 2017-05-31 | 北京深鉴智能科技有限公司 | 调整人工神经网络的方法和装置 |
CN107368885A (zh) * | 2017-07-13 | 2017-11-21 | 北京智芯原动科技有限公司 | 基于多粒度剪枝的网络模型压缩方法及装置 |
CN107590432A (zh) * | 2017-07-27 | 2018-01-16 | 北京联合大学 | 一种基于循环三维卷积神经网络的手势识别方法 |
CN107688850A (zh) * | 2017-08-08 | 2018-02-13 | 北京深鉴科技有限公司 | 一种深度神经网络压缩方法 |
CN107463965A (zh) * | 2017-08-16 | 2017-12-12 | 湖州易有科技有限公司 | 基于深度学习的面料属性图片采集和识别方法及识别*** |
CN107590449A (zh) * | 2017-08-31 | 2018-01-16 | 电子科技大学 | 一种基于加权特征谱融合的手势检测方法 |
CN107729854A (zh) * | 2017-10-25 | 2018-02-23 | 南京阿凡达机器人科技有限公司 | 一种机器人的手势识别方法、***及机器人 |
Non-Patent Citations (2)
Title |
---|
CHEN L C等: "Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs", 《COMPUTER SCIENCE》 * |
杨红玲等: "基于卷积神经网络的手势识别", 《计算机技术与发展》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447034A (zh) * | 2018-11-14 | 2019-03-08 | 北京信息科技大学 | 基于YOLOv3网络的自动驾驶中交通标识检测方法 |
CN113167495A (zh) * | 2018-12-12 | 2021-07-23 | 三菱电机株式会社 | 空调控制装置和空调控制方法 |
CN109885677A (zh) * | 2018-12-26 | 2019-06-14 | 中译语通科技股份有限公司 | 一种多方位大数据采集整理***及方法 |
CN109828578B (zh) * | 2019-02-22 | 2020-06-16 | 南京天创电子技术有限公司 | 一种基于YOLOv3的仪表巡检机器人最优路线规划方法 |
CN109828578A (zh) * | 2019-02-22 | 2019-05-31 | 南京天创电子技术有限公司 | 一种基于YOLOv3的仪表巡检机器人最优路线规划方法 |
CN110032925A (zh) * | 2019-02-22 | 2019-07-19 | 广西师范大学 | 一种基于改进胶囊网络与算法的手势图像分割与识别方法 |
CN109978069A (zh) * | 2019-04-02 | 2019-07-05 | 南京大学 | 降低ResNeXt模型在图片分类中过拟合现象的方法 |
CN109978069B (zh) * | 2019-04-02 | 2020-10-09 | 南京大学 | 降低ResNeXt模型在图片分类中过拟合现象的方法 |
CN110096968A (zh) * | 2019-04-10 | 2019-08-06 | 西安电子科技大学 | 一种基于深度模型优化的超高速静态手势识别方法 |
CN110096968B (zh) * | 2019-04-10 | 2023-02-07 | 西安电子科技大学 | 一种基于深度模型优化的超高速静态手势识别方法 |
CN110033453A (zh) * | 2019-04-18 | 2019-07-19 | 国网山西省电力公司电力科学研究院 | 基于改进YOLOv3的输变电线路绝缘子航拍图像故障检测方法 |
CN110033453B (zh) * | 2019-04-18 | 2023-02-24 | 国网山西省电力公司电力科学研究院 | 基于改进YOLOv3的输变电线路绝缘子航拍图像故障检测方法 |
CN110135398A (zh) * | 2019-05-28 | 2019-08-16 | 厦门瑞为信息技术有限公司 | 基于计算机视觉的双手脱离方向盘检测方法 |
CN111046796A (zh) * | 2019-12-12 | 2020-04-21 | 哈尔滨拓博科技有限公司 | 一种基于双摄像头深度信息的低成本空间手势控制方法及*** |
CN113191243A (zh) * | 2021-04-25 | 2021-07-30 | 华中科技大学 | 基于相机距离的人手三维姿态估计模型建立方法及其应用 |
Also Published As
Publication number | Publication date |
---|---|
CN108629288B (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108629288A (zh) | 一种手势识别模型训练方法、手势识别方法及*** | |
CN110781838B (zh) | 一种复杂场景下行人的多模态轨迹预测方法 | |
CN109902677A (zh) | 一种基于深度学习的车辆检测方法 | |
CN110443969A (zh) | 一种火点检测方法、装置、电子设备及存储介质 | |
CN108549893A (zh) | 一种任意形状的场景文本端到端识别方法 | |
CN110263833A (zh) | 基于编码-解码结构的图像语义分割方法 | |
CN110334705A (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN107818302A (zh) | 基于卷积神经网络的非刚性多尺度物体检测方法 | |
CN110188720A (zh) | 一种基于卷积神经网络的目标检测方法及*** | |
CN108564097A (zh) | 一种基于深度卷积神经网络的多尺度目标检测方法 | |
CN106372597B (zh) | 基于自适应上下文信息的cnn交通检测方法 | |
CN107229904A (zh) | 一种基于深度学习的目标检测与识别方法 | |
CN107423398A (zh) | 交互方法、装置、存储介质和计算机设备 | |
CN108537147A (zh) | 一种基于深度学习的手势识别方法 | |
CN114842208A (zh) | 一种基于深度学习的电网危害鸟种目标检测方法 | |
CN107657625A (zh) | 融合时空多特征表示的无监督视频分割方法 | |
CN110210462A (zh) | 一种基于卷积神经网络的仿生海马认知地图构建方法 | |
CN109145836A (zh) | 基于深度学习网络和卡尔曼滤波的船只目标视频检测方法 | |
CN114360005B (zh) | 一种基于AU区域和多层级Transformer融合模块的微表情分类方法 | |
CN109993803A (zh) | 城市色调的智能分析与评价方法 | |
CN109753853A (zh) | 一种同时完成行人检测与行人重识别的方法 | |
CN110163069A (zh) | 用于辅助驾驶的车道线检测方法 | |
CN112183435A (zh) | 一种两阶段的手部目标检测方法 | |
CN109801225A (zh) | 基于多任务全卷积神经网络的人脸网纹污迹去除方法 | |
CN108229432A (zh) | 人脸标定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200519 |