CN107808143A

CN107808143A - 基于计算机视觉的动态手势识别方法

Info

Publication number: CN107808143A
Application number: CN201711102008.9A
Authority: CN
Inventors: 王爽; 焦李成; 方帅; 王若静; 杨孟然; 权豆; 孙莉; 侯彪; 马晶晶; 刘飞航
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2018-03-16
Anticipated expiration: 2037-11-10
Also published as: CN107808143B

Abstract

本发明公开了一种基于计算机视觉的动态手势识别方法。解决了在复杂背景下手势的动态识别问题。其实现步骤为：采集手势数据集并进行人工标注，对标注的图像集真实框进行聚类获得训练的先验框，构建端到端的可同时预测目标位置、大小和类别的卷积神经网络，训练网络获得权重，加载权重到网络，输入手势图像进行识别，非极大值抑制方法处理获得的位置坐标及所属类别信息，获得最终的识别结果图像，实时记录识别信息获得动态手势解译结果。本发明克服了现有技术中手势识别中手部检测和类别识别分步进行的缺陷，极大的简化了手势识别的过程，提高了识别的准确度和速度，增强了识别***的鲁棒性，并且实现了对动态手势解译的功能。

Description

基于计算机视觉的动态手势识别方法

技术领域

本发明属于图像处理技术领域，更进一步涉及图像的目标识别技术，具体是一种基于计算机视觉的动态手势识别方法。可用于对图像中手势的位置检测和状态识别，以便为手势识别后续的手语翻译、游戏互动等应用提供更准确的信息。

背景技术

近年来，随着计算机视觉和机器学***台的自然用户界面为操作者提供了更为直观、舒适的交互体验，其中包括人脸识别、手势识别以及体势识别等。其中日常生活中的手势作为自然直观的交流方式，拥有着很好的应用前景：利用规定好的手势对虚拟现实中的智能设备进行控制；用作手语翻译，解决聋哑人的交流问题；无人驾驶自动识别交警手势。因此，手势识别有着很重要的研究价值和意义。

手势识别主要集中在两个方面，一种是基于传感设备(如：数据手套+位置跟踪仪)的手势识别，另一种是基于视觉的手势识别。由于基于视觉的手势识别能够使操作者以更加自然的方式进行人机交互，且灵活性更大，所以得到了更多的研究和关注。目前多数手势识别都是基于对图像中的手势进行位置检测及识别，采用先检测手部位置，再确定手势类别的两步识别方法。

Zhi-hua Chen等人发表的论文“Real-Time Hand Gesture Recognition UsingFinger Segmentation”(The scientific world journal,2014(3):267872)中提出了一种基于手部检测和形状检测的方法。该方法首先利用背景差法提取出手部区域并二值化，然后分割出手指和手掌，再利用手指的数量和内容(内容是指手指的名称，如：大拇指、食指、中指等)从原有的13个模板中对手势目标进行分类。但是，该方法对图像背景要求严格，只有在单一的背景下才能分割出手部位置。另外，此方法识别的手势形状单一，鲁棒性差，难以推广。

Pei Xu发表的论文“A Real-time Hand Gesture Recognition and Human-Computer Interaction System”(In CVPR，IEEE，2017)中提出了一种基于手部检测和CNN识别的算法。该方法利用滤波、形态学等基本图像处理方法得到只包含手部的二值化图像，然后将其输入到卷积神经网络LeNet中进行特征提取并识别，以提高准确度。但是，该方法需要对图像进行预处理，对背景颜色要求高，而且手势的检测和识别分两步进行，即先得到手势的位置，再对当前手势进行分类得到状态，识别步骤繁琐且耗时。

发明内容

本发明的目的在于针对已有技术的不足，提出一种准确率更高、效率更高的基于计算机视觉的动态手势识别方法。

本发明是一种基于计算机视觉的动态手势识别方法，其特征在于，包括有如下步骤：

(1)采集手势图像：将采集的手势图像划分为训练集和测试集，分别对其中的手势进行人工标注，得到真实数据框的类别和坐标数据；

(2)聚类获得先验框：对人工标注的真实数据框聚类，以框的面积的重叠程度作为损失度量，得到几个初试先验框；

(3)构建端到端的可同时预测目标手势的位置、大小及类别的卷积神经网络：以改进的GoogLeNet网络作为网络框架，以同时约束目标位置、类别的损失函数构建端到端的卷积神经网络；

(4)训练端到端网络：

(4a)批量读入训练集样本的手势图像；

(4b)采用双线性插值方法对图像进行随机缩放，尺寸大小选择为32的倍数，得到缩放后的读入的手势图像；

(4c)采用双线性插值的方法对输入图像进行尺寸缩放，缩放至固定大小，得到能输入到卷积网络中的图像；

(4d)采用步骤(4c)得到的固定大小图像对步骤(3)构建的卷积神经网络进行训练，得到构建的卷积神经网络对应的权重；

(5)加载权重：将步骤(4d)得到的卷积神经网络对应的权重加载到步骤(3)构建的卷积神经网络中；

(6)预测手势的位置和类别：读入待识别的手势图像，输入到加载好权重的卷积神经网络中进行识别，同时获得待识别的手势目标识别的位置坐标及所属类别信息；

(7)去除冗余预测框：采用非极大值抑制方法处理获得的位置坐标及所属类别信息，获得最终的预测框：

(7a)将所有预测框的得分降序排列，选中最高分及其对应的框；

(7b)遍历其余的框，如果和当前最高分框的重叠面积IOU大于一定阈值，就将此框删除；

(7c)从未处理的框中继续选一个得分最高的，重复上述过程，即执行(7a)到(7c)，得到保留下来的预测框数据；

(8)预测结果的可视化：将预测框数据映射到原图中，在原图中画出预测框并且标出手势目标所属类别标签；

(9)记录和分析：实时记录手势的类别和位置信息，分析所得的实时数据，对动态手势进行解译，将解译结果直接显示在屏幕。

本发明利用深度卷积神经网络对手势进行端到端的识别，不仅能够对动态手势实时识别，而且能在复杂背景下保持较高的准确率。

本发明与现有的技术相比具有以下优点：

1、本发明使用卷积神经网络对手势进行识别，图像中手势目标的位置检测与识别一步完成，步骤简洁，识别速度快，克服了现有技术中两步分开处理，先检测手部位置，再识别手势时无法保证实时性的缺陷。同时网络能很好地提取手势图像的特征，在任何角度对手势的识别都有很高的准确率，且对图像的背景没有要求，即使是在复杂的背景下也能准确识别出手势，克服了现有技术中图像背景要求单一的缺陷；

2、本发明在训练卷积神经网络时采用随机缩放手势图像尺寸的方法，每迭代几次都会改变手势图像的尺寸输入到卷积神经网络中。算法采用每10个批次，网络就会随机地选择一个新的图片尺寸，让网络在不同的输入尺寸上都能达到一个很好的预测效果，同一网络能在不同分辨率上进行检测。从而使得，相同的网络可以预测不同分辨率的检测，鲁棒性和泛化性更强。

附图说明

图1是本发明的流程图；

图2是本发明在仿真实验中使用的自然场景手势图；

图3是在仿真实验中得到的手势目标识别结果图；

图4是本发明对动态手势的识别结果图，其中图4(a)是手语中语义为“对象”的动态手势的某一帧，图4(b)是该过程检测结果的某一帧；

图5是对动态手势识别过程手势中心点坐标的记录图。

具体实施方式

下面结合附图对本发明做详细描述。

实施例1

手势作为自然直观的交流方式，拥有着很好的应用前景：利用规定好的手势对虚拟现实中的智能设备进行控制；用作手语翻译，解决聋哑人的交流问题；无人驾驶自动识别交警手势等。目前针对基于视觉的手势识别技术大致都采用传统方法，即先分割出手势，再对手势进行分类，这种方式对照片质量要求高，且难以处理在复杂背景下的手势。因此限制了手势识别应用的发展。本发明针对上述现状，展开了研究与创新，提出一种基于计算机视觉的动态手势识别方法，参见图1，包括有如下步骤：

(1)采集手势图像：将采集的手势图像划分为训练集和测试集，训练集用于训练卷积神经网络、测试集用于计算该网络识别的准确率。标记采集到的手势图像上的手势，得到最贴近手势的矩形框大小和中心点坐标，以及对应手势的类别。实现对其中的手势进行人工标注，得到真实数据框的类别和坐标数据。

(2)聚类获得先验框：选取聚类中心数目，对人工标注的真实数据框聚类，按框的面积的重叠程度作为损失度量进行聚类，得到几个初试先验框。在本例中设置聚类中心数设为9，经过以重叠程度作为损失度量的聚类后，得到的9个初试先验框，以此9个初试先验框作为卷积神经网络的初试预测框，能够缩短卷积神经网络的收敛时间。通常，聚类中心数的大小取决于图片中目标数目的密集程度，及图片中目标数目越多，设置的聚类的中心数越多。

(3)构建端到端的可同时预测目标手势的位置、大小及类别的卷积神经网络：以改进的GoogLeNet网络作为网络框架，配合同时约束目标位置、大小、类别的损失函数构建端到端的卷积神经网络。设计一个能够同时约束目标位置和类别的端到端的卷积神经网络，该网络能够同时预测目标手势的位置、大小和类别。本发明构建的卷积神经网络利用了同时约束目标位置、大小及其类别的损失函数，使得该网络具备同时预测目标位置、大小及类别的功能。该网络计算量小，且易于收敛，在ImageNet数据集上能对9000目标分类。

(4)训练端到端卷积神经网络：为了增强卷积神经网络对图像尺寸的鲁棒性，批量读入手势图像后，对读入的手势图像进行两次缩放。第一次是从原始输入的手势图像随机缩放到任意尺寸，第二次是从缩放后的任意尺寸图像再次缩放到指定尺寸，最后将缩放到指定尺寸的手势图像输入卷积神经网络中进行训练，得到训练权重，具体包括如下步骤：

(4a)批量读入训练集样本的手势图像；

(4b)采用双线性插值方法对读入的手势图像进行随机缩放，使得缩放后的手势图像尺寸大小为32的倍数，得到缩放后的读入的手势图像。这样做是为了增加数据的尺度多样性，增强网络的鲁棒性，进而提高识别准确率。

(4c)再采用双线性插值的方法对输入图像进行尺寸缩放，缩放至固定大小，得到能输入到卷积网络中的图像，在本例中，固定大小的尺寸是672*672。图像缩放至固定大小与卷积神经网络的结构有关。

(4d)采用步骤(4c)得到的固定大小图像对步骤(3)构建的卷积神经网络进行训练，得到卷积神经网络对应的权重。

(5)加载权重：将步骤(4d)得到的网络权重加载到步骤(3)构建的卷积神经网络中；此权重即为预测时所需的网络参数。

(6)预测手势的位置和类别：读入待识别的手势图像，网络先将输入的手势图像缩放至4(c)中的尺寸，再输入到加载好权重的网络中进行识别，同时获得手势目标识别的位置坐标、大小及所属类别信息。

(7)去除冗余预测框：采用非极大值抑制方法处理获得手势图像中手势的位置坐标及所属类别信息，获得最终的预测框。同一目标的预测结果可能得到多个识别框，用非极大抑制算法去除冗余的识别框，保留置信度最大的一个识别框的数据，具体操作如下：

(7a)将所有框的置信度得分降序排列，选中置信度最高分对应的框；

(7b)遍历其余的框，如果和当前置信度得分最高的框的重叠面积IOU大于一定阈值，就将框删除；

(7c)从未处理的框中继续选一个得分最高的，重复上述过程，即执行(7a)到(7c)，得到保留下来的预测框数据；预测框的数据包括框的位置、大小、类别。

(8)预测结果的可视化：预测识别框的坐标数据及大小是相对4(c)尺寸下的，也就是缩放的固定尺寸，将固定尺寸下的预测框数据映射到原图尺寸中，原图尺寸即待识别的手势图像尺寸，在原图中画出预测框并标出手势目标所属类别标签。

(9)记录和分析：本发明对单张照片的识别仅需0.02秒，可达实时手势识别的要求。通过opencv调用摄像头，用该训练好的卷积神经网络，实时记录手势的类别和位置信息，分析所得的实时数据，对动态手势进行解译，将解译结果直接显示在屏幕。

本发明以同时约束目标位置、类别的损失函数构建端到端的卷积神经网络，同时预测目标的位置、大小和类别，以简化手势识别步骤，提高识别的速率；在训练阶段，随机缩放待识别的手势图像送入卷积神经网络中训练，增强了网络的鲁棒性，提高了识别的准确率。

实施例2

基于计算机视觉的动态手势识别方法同实施例1，本发明步骤(2)中的对人工标注的真实数据框聚类，具体包括有如下步骤：

(2a)读取训练集和测试集样本的人工标注的真实框数据；

(2b)设置聚类中心数目、采用k-means聚类算法，按照下式的损失度量d(box,centroid)进行聚类，获得先验框：

d(box,centroid)＝1-IOU(box,centroid)

其中，centroid表示随机选取的聚类中心框，box表示除中心框外的其他真实框，IOU(box,centroid)表示其他框与中心框的相似程度，也就是两个框的重叠面积的比例，通过中心框和其他框二者的交集除以并集计算。

本发明通过聚类能够得到人工采集的真实框最具代表性的几个先验框，先验框即为神经网络预测的初试框。先验框的确定能够减少卷积神经网络的预测范围，加快网络的收敛。

实施例3

基于计算机视觉的动态手势识别方法同实施例1-2，本发明步骤(3)中的构建卷积神经网络，包括有如下步骤：

(3a)以GoogLeNet卷积神经网络为基础，使用简单的1*1和3*3卷积核，构建包含G个卷积层和5个池化层的卷积神经网络，本例中G取25。

(3b)按照下式的损失函数训练构建的卷积网络：

其中，损失函数的第一项为预测目标框的中心点坐标损失，其中λ_coord为坐标损失系数，1≤λ_coord≤5，本例中取为3，这一点是要保证预测手势的位置信息准确；S²表示图片划分网格的个数，B表示每个网格预测框的个数；表示有目标时，第i个网格中的第j个预测框是否负责这个目标的预测；(x_i,y_i)表示目标真实框中心点坐标，表示预测框中心点坐标。函数第二项为预测框宽高损失，(w_i,h_i)表示真实框的宽高，表示预测框的宽高。函数第三项和第四项是预测框中包含目标的概率损失，其中λ_noobj表示不包含目标时的损失系数，0.1≤λ_coord≤1本例中取1，以保证卷积神经网络能够区分目标和背景块；表示不含有目标时，第i个网格中的第j个预测框是否负责这个目标的预测；C_i表示包含目标的真实概率，表示预测包含目标的概率。函数第五项是预测类别概率损失，表示第i个网格含有目标中心点；p_i(c)表示真实目标类别，表示预测的目标类别；c表示类别数。

本发明实施例中手势的位置检测和类别识别一步完成。采用卷积神经网络对原始手势图像进行特征提取，然后通过减少位置损失和类别损失训练网络，使网络在检测手势位置的同时识别手势种类。

实施例4

基于计算机视觉的动态手势识别方法同实施例1-3，本发明步骤(4b)所述的采用双线性插值方法对图像进行随机缩放，尺寸大小选择为32的倍数，得到缩放后的输入图像，按如下步骤进行：

4b1：读入一幅待识别的开关柜图像。

4b2：采用双线性插值方法对图像进行随机缩放，尺寸大小选择为32的倍数，得到缩放后的输入图像。

本发明实施例中输入的待处理的高压柜开关图像如附图2所示，开关图像的像素范围为[600-1000]，缩放后图像尺寸大小选择为32的倍数{480，512…832}，最小480*480，最大832*832，得到缩放后的输入图像。

本发明在训练卷积神经网络时随机缩放手势图像尺寸，以增加卷积神经网络对图像尺寸的鲁棒性。算法采用每10个批次，就将手势图像随机地缩放，让网络在不同的输入尺寸上都能达到一个很好的预测效果，同一网络能在不同分辨率上进行检测。使得相同的网络可以预测不同分辨率的手势图像，鲁棒性和泛化性更强。

下面结合附图，给出一个更加完整的例子对本发明做进一步的描述。

实施例5

基于计算机视觉的动态手势识别方法同实施例1-4。参见附图1，具体实施步骤包括：

步骤1：采集手势图像，用相机拍摄手势图像，包括有：“石头”、“剪刀”、“布”、“棒”、“OK”、“爱心”等，参见图2(a)-(f)。图2(a)为正反面握拳手势、图2(b)为正反面“剪刀”手势，图2(c)为正反面手掌手势，图2(d)为树大拇指手势，图2(e)为“OK”手势，图2(f)为“爱心”手势。每副手势图像中还包含一些复杂背景，且同一手势具备各种不同的旋转角度。将采集的手势图像划分为训练集和测试集，分别对采集的手势图像中的手势进行人工标注，得到真实框的类别和坐标数据。

采集的自然场景手势图像集共2500幅，本例中选取具有代表性的6种手势，均匀分为2000幅的训练集和500幅的测试集，参见附图2。图像集的拍摄采用1200万的手机摄像头，对拍摄的图像进行筛选和人工标注

步骤2：聚类获得先验框。

读取训练集和测试集样本的真实框数据。

本实施例中，训练集和测试集样本的真实框是图像中人工标注的目标框坐标和类别信息。

采用k-means聚类算法，按照下式的损失度量d(box,centroid)进行聚类，获得先验框：

d(box,centroid)＝1-IOU(box,centroid)

其中，centroid表示随机选取的聚类中心框，box表示除中心框外的其他真实框，IOU(box,centroid)表示其他框与中心框的相似程度，通过二者的交集除以并集计算。

本例中选取的聚类中心框个数为5，IOU(box,centroid)按照下式计算获得：

其中，∩表示centroid和box两个框的交集区域面积，∪表示centroid和box两个框的并集区域面积。

步骤3：构建卷积神经网络。

以GoogLeNet卷积神经网络为基础，使用简单的1*1和3*3卷积核，构建包含G个卷积层和5个池化层的卷积神经网络，本例中G取23。

按照下式的损失函数训练构建的卷积网络：

其中，损失函数的第一项为预测目标框的中心点坐标损失，其中λ_coord为坐标损失系数，本例中取为5；函数第三项和第四项是预测框中包含目标的概率损失，其中λ_noobj表示不包含目标时的损失系数，本例中取0.5。

即使是同一个手势，不同的拍摄角度也会得到不同的图像。在现有的方法中很难做到对同一手势的不同角度的稳定识别，但本发明构建的卷积神经网络能够克服同一手势具备多旋转角度难以识别的问题，对手势识别具有很好的稳定性。

步骤4：训练网络。

批量读入训练集样本的手势图像。本实施例中，网络每批次读入的训练集图像是64幅。

采用双线性插值方法对图像进行随机缩放，缩放后的手势图像尺寸大小选择为32的倍数，得到缩放后的输入图像。

本实施例中输入的待处理的手势图像如附图2所示，手势图像的像素范围为[500-800]，缩放后图像尺寸大小选择为32的倍数{480，512…732}，最小480*480，最大732*732，得到缩放后的手势图像。

采用双线性插值的方法对缩放后的手势图像再次进行尺寸缩放，缩放至固定大小，得到能输入到卷积网络中的图像。本例中，手势图像缩放至固定大小的尺寸为608*608。

采用固定大小的手势图像输入到构建的卷积神经网络进行训练，得到卷积神经网络权重，权重就是卷积神经网络的参数，作为测试时使用。采用训练集样本训练网络，迭代2万次得到权重，训练完成。

步骤5：将步骤4得到的网络权重即参数加载到步骤3构建的卷积神经网络中，为测试做准备。

步骤6：读入测试集中待识别的手势图像，输入到加载好权重的网络中进行识别，获得手势目标识别的大小、位置坐标及所属类别信息，参见图3，图3(a)-(f)均是本发明对应图2(a)-(f)的识别结果。

步骤7：采用非极大值抑制方法处理获得的位置及所属类别信息，获得最终的预测框。

将所有预测框按照置信度得分降序排列，选中最高分及其对应的框；

遍历其余的预测框，如果和当前置信度得分最高的框的重叠面积IOU大于一定阈值，就将框删除；

从未处理的框中继续选一个得分最高的，重复上述过程，得到保留下来的预测框数据；

步骤8：将预测框数据映射到原图中，得到手势的类别和位置信息，在原图中画出预测框并且标出目标所属类别标签，参见附图3，图3(a)-3(f)，每幅图的每个预测框左上角即为预测的手势类别标签。

步骤9：实时记录手势的类别和位置信息，参见附图4，分析所得的实时数据，对动态手势进行解译，将解译结果直接显示在屏幕，参见表1。

表1动态手势识别实时检测结果

预测手势中心点横坐标	预测手势中心点纵坐标	手势类别
			1164	371	Scissor
318	372	Scissor
			1152	373	Scissor
364	384	Scissor
			1097	380	Scissor
388	388	Scissor
			1061	381	Scissor
1027	383	Scissor
			430	409	Scissor
452	395	Scissor
			1001	380	Scissor
465	397	Scissor
			989	381	Scissor
510	395	Scissor
			960	381	Scissor
524	392	Scissor
			951	384	Scissor
557	395	Scissor
			918	394	Scissor
561	396	Scissor

表1的数据是本发明对图4所表示的两手势从两侧向内水平移动的动态过程的部分记录数据。图4(a)是手语中语义为“对象”的动态手势的某一帧，图4(b)是该动态手势过程检测结果的某一帧。从表1的数据分析可见，手势保持“剪刀”的状态不变。对表1的坐标数据可视化，转换为图表示，即为图5，图5中横坐标表示手势中心点在当前帧图像的横坐标，纵坐标表示手势中心点在当前帧图像的纵坐标。图5中的点表示手势中心点在当前帧图像的坐标，是两个“剪刀”手势，从外向内动态移动的坐标记录。从图5中可知，图中显示的动态手势的中心点纵坐标基本不变，横坐标变化较大，说明该过程是两个“剪刀”手势水平靠拢，对应手语中“对象”的含义，参见图4。

本发明实施例中，通过计算运动轨迹的分布直方图，来判断手势的运动情况，再结合运动中手势状态的变化，来判断手势在整个动态过程中表达含义，既包含了静态的手势识别，又包含了动态的手势解译分析。

下面结合仿真对本发明的技术效果再做说明。

实施例6

基于计算机视觉的动态手势识别方法同实施例1-5。

仿真实验条件：

本发明仿真实验的硬件平台是：戴尔计算机Intel(R)Core5处理器，主频3.20GHz，内存64GB；仿真软件平台是：Visual Studio软件(2015)版。

仿真实验内容与结果分析：

本发明的仿真实验具体分为两个仿真实验。

先手工标记采集的数据集位置坐标及类别数据，并制作成PASCAL VOC格式数据集，其中数据集的80％作为训练集样本，20％作为测试集样本。

仿真实验1：本发明与现有技术的对比：采用本发明与现有技术中基于手部检测和形状检测的方法、基于手部检测和CNN识别的方法，分别用相同训练集样本进行训练，再用相同测试集样本对各种方法进行评价。评价结果如表2所示，表2中的Alg1表示本发明的方法，Alg2表示基于手部检测和形状检测的方法，Alg3表示基于手部检测和CNN识别的方法。

表2三种方法仿真实验测试集准确率

测试图像	Alg1	Alg2	Alg3
				准确率(％)	98.0	31.3	78.6
每幅时间(s)	0.02	0.13	0.94

从表2中可以看出，本发明相比于基于手部检测和形状检测的方法、基于手部检测和CNN识别的方法，手势识别准确率有明显的优势，识别率分别提高近67％和20％，识别速度相对于其他两种方法也分别快于6倍和47倍。本发明识别率高于其他两种算法的原因是，本发明能对复杂背景、手势的多种角度都能保证很高的识别率。本发明识别速度高于其他两种算法的原因是，本发明构建了一个端到端的卷积神经网络，能够同时预测手势的位置和类别，而不需要分两部进行。仿真结果表明，本发明在进行手势目标识别时有识别率高、速度快等更好的性能，特别是在复杂背景条件下。

实施例7

基于计算机视觉的动态手势识别方法同实施例1-5，仿真条件和内容同实施例6。

仿真实验2：采用本发明方法，在测试集上分别使用不同的开关图像缩放尺寸作为网络的输入，测试评价结果如表2所示。

表3不同网络输入尺寸的识别结果

从表3中可以看出，本发明在输入图像缩放到一定尺寸时，目标识别准确率不再有明显变化，所以综合识别率和识别速率等考虑，选择固定尺寸为608*608大小手势图像作为卷积神经网络的最佳尺寸。

本发明提出的基于计算机视觉的动态手势识别方法对手势目标识别能取得更好的识别准确率，并且可以进行实时的手势识别。

综上所述，本发明公开的一种基于计算机视觉的动态手势识别方法。解决了在复杂背景下手势的动态识别问题。其步骤为：采集手势数据集并进行人工标注；对标注的图像集真实框进行聚类获得训练的先验框；构建端到端的可同时预测目标位置、大小和类别的卷积神经网络；训练网络获得权重；加载权重到网络；输入手势图像进行识别；非极大值抑制方法处理获得的位置坐标及所属类别信息；获得最终的识别结果图像；实时记录识别信息获得动态手势解译结果。本发明克服了现有技术中手势识别中手部检测和类别识别分步进行的缺陷，极大的简化了手势识别的过程，提高了识别的准确度和速度，增强了识别***的鲁棒性，并且实现了对动态手势解译的功能。本发明可应用于对虚拟现实中的人机交互、手语翻译、无人驾驶交警手势自动识别等领域。

Claims

1.一种基于计算机视觉的动态手势识别方法，其特征在于，包括有如下步骤：

(4a)批量读入训练集样本的手势图像；

(4c)采用双线性插值的方法对步骤4(b)得到的缩放后的手势图像再次进行尺寸缩放，缩放至固定大小，得到能输入到卷积网络中的图像；

(4d)采用步骤(4c)得到的固定大小图像对步骤(3)构建的卷积神经网络进行训练，得到卷积神经网络对应的权重；

(5)加载权重：将步骤(4d)得到的网络权重加载到步骤(3)构建的卷积神经网络中；

(6)预测手势的位置和类别：读入待识别的手势图像，输入到加载好权重的网络中进行识别，同时获得手势目标识别的位置坐标及所属类别信息；

(7a)将所有框的得分降序排列，选中最高分及其对应的框；

(7b)从未处理的框中继续选一个得分最高的，重复上述过程，即执行(7a)到(7c)，得到保留下来的预测框数据；

(7c)从未处理的框中继续选一个得分最高的，重复上述过程，得到保留下来的预测框数据；

2.根据权利要求1所述的基于计算机视觉的动态手势识别方法，其特征在于，其中步骤(2)所述的对人工标注的真实数据框聚类，具体包括有如下步骤：

(2a)读取手势图像训练集和测试集样本的真实框数据；

(2b)采用k-means聚类算法，按照下式的损失度量d(box,centroid)进行聚类，获得先验框：

d(box,centroid)＝1-IOU(box,centroid)

3.根据权利要求1所述的基于计算机视觉的动态手势识别方法，其特征在于，其中步骤(3)所述的构建卷积神经网络，包括有如下步骤：

(3a)以GoogLeNet卷积神经网络为基础，使用简单的1*1和3*3卷积核，构建包含G个卷积层和5个池化层的卷积神经网络；

(3b)按照下式的损失函数训练构建的卷积网络：

<mrow> <mi>l</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> <mo>=</mo> <msub> <mi>&lambda;</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> </mrow> </msub> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msup> <mi>S</mi> <mn>2</mn> </msup> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>B</mi> </munderover> <msubsup> <mi>I</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mi>o</mi> <mi>b</mi> <mi>j</mi> </mrow> </msubsup> <mo>&lsqb;</mo> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mover> <mi>x</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>&rsqb;</mo> </mrow>

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mo>+</mo> <msub> <mi>&lambda;</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> </mrow> </msub> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msup> <mi>S</mi> <mn>2</mn> </msup> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>B</mi> </munderover> <msubsup> <mi>I</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mi>o</mi> <mi>b</mi> <mi>j</mi> </mrow> </msubsup> <mo>&lsqb;</mo> <msup> <mrow> <mo>(</mo> <msqrt> <msub> <mi>w</mi> <mi>i</mi> </msub> </msqrt> <mo>-</mo> <msqrt> <msub> <mover> <mi>w</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> </msqrt> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <msqrt> <msub> <mi>h</mi> <mi>i</mi> </msub> </msqrt> <mo>-</mo> <msqrt> <msub> <mover> <mi>h</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> </msqrt> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>&rsqb;</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msup> <mi>S</mi> <mn>2</mn> </msup> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>B</mi> </munderover> <msubsup> <mi>I</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mi>o</mi> <mi>b</mi> <mi>j</mi> </mrow> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mover> <mi>C</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msub> <mi>&lambda;</mi> <mrow> <mi>n</mi> <mi>o</mi> <mi>o</mi> <mi>b</mi> <mi>j</mi> </mrow> </msub> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msup> <mi>S</mi> <mn>2</mn> </msup> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>B</mi> </munderover> <msubsup> <mi>I</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mi>n</mi> <mi>o</mi> <mi>o</mi> <mi>b</mi> <mi>j</mi> </mrow> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mover> <mi>C</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msup> <mi>S</mi> <mn>2</mn> </msup> </munderover> <msubsup> <mi>I</mi> <mi>i</mi> <mrow> <mi>o</mi> <mi>b</mi> <mi>j</mi> </mrow> </msubsup> <munder> <mo>&Sigma;</mo> <mrow> <mi>c</mi> <mo>&Element;</mo> <mi>c</mi> <mi>l</mi> <mi>a</mi> <mi>s</mi> <mi>s</mi> <mi>e</mi> <mi>s</mi> </mrow> </munder> <msup> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>(</mo> <mi>c</mi> <mo>)</mo> <mo>-</mo> <msub> <mover> <mi>p</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mo>(</mo> <mi>c</mi> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> </mtable> </mfenced>

其中，损失函数的第一项为预测目标框的中心点坐标损失，其中λ_coord为坐标损失系数，本例中取为5；S²表示图片划分网格的个数，B表示每个网格预测框的个数；表示有目标时，第i个网格中的第j个预测框是否负责这个目标的预测；(x_i,y_i)表示目标真实框中心点坐标，表示预测框中心点坐标。函数第二项为预测框宽高损失，(w_i,h_i)表示真实框的宽高，表示预测框的宽高。函数第三项和第四项是预测框中包含目标的概率损失，其中λ_noobj表示不包含目标时的损失系数，本文中取0.5；表示不含有目标时，第i个网格中的第j个预测框是否负责这个目标的预测；C_i表示包含目标的真实概率，表示预测包含目标的概率。函数第五项是预测类别概率损失，表示第i个网格含有目标中心点；p_i(c)表示真实目标类别，表示预测的目标类别；c表示类别数。

4.根据权利要求1所述的基于计算机视觉的动态手势识别方法，其中步骤(4b)所述的采用双线性插值方法对图像进行随机缩放，手势图像尺寸大小选择为32的倍数，得到缩放后的输入图像，按如下步骤进行：

4b1：读入一幅待识别的手势图像；

4b2：采用双线性插值方法对手势图像进行随机缩放，尺寸大小选择为32的倍数，得到缩放后的读入的手势图像。