CN111444764A

CN111444764A - 一种基于深度残差网络的手势识别方法

Info

Publication number: CN111444764A
Application number: CN202010110942.0A
Authority: CN
Inventors: 张浩川; 谢胜利; 孙为军
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2020-07-24

Abstract

为了解决现有技术中的手势识别需要的条件较多、模型的计算量较大的问题，本发明提出了一种基于深度残差网络的手势识别方法包括以下步骤：S1.采集视频数据，将人的手部作为检测目标进行目标检测，并将检测到的人的手部作为图像进行存储；S2.根据S1步骤采集到的人的手部图像获得手部位置坐标，再通过基于深度残差网络的关节识别模型进行手势关键点检测，得到手部关键点坐标；S3.将S2步骤获得的手势关键点坐标输入到SoftMax分类器进行分离，得到各种手势的分类，最终识别手势。本发明识别手势的速度相比其他方案更快。

Description

一种基于深度残差网络的手势识别方法

技术领域

本发明涉及手势识别技术领域，特别涉及一种基于深度残差网络的手势识别方法。

背景技术

手势识别这个术语指的是跟踪人类手势、识别其表示和转换为语义上有意义的命令的整个过程。手势识别的研究旨在设计和开发可以将用于设备控制的手势识别为输入并且通过将命令映射为输出的***。一般而言，从手势交互信息采集的途径是接触式还是非接触式的，可将手势交互***划分为基于接触式的传感器和基于非接触类的传感器的两类。

基于接触式传感器的手势识别通常基于使用多个传感器的数据手套、加速度计、多点触摸屏等技术。2004年，Kevin等人设计了一种用于手势识别的无线仪器手套。2008年，北京航空航天大学的任程等人用头盔和数据手套研究了虚拟现实***中的虚拟手。2015年，山东师范大学的吕蕾等人研究了基于数据手套的静态手势识别方法，能识别25种手势，正确率达98.9％。2007年，Bourke等人提出了一种用加速度计来检测在我们的日常活动中使用的正常手势的识别***。2017年，电子科技大学的王琳琳等人研究了基于惯性传感器的手势交互方法，准确率达96.7％。2014年，中国科学院大学的薛姣等人研究了一种基于触摸屏的手势遥控***，平均识别率达99％。

基于非接触式传感器的手势识别通常基于使用光学传感、雷达探测等技术。2002年，提出了使用摄像头采集多尺度颜色特征的手势识别。2010年，清华大学的沙亮等人研究了基于无标记全手势视觉的人机交互技术，提出了一种使用通用摄像头的车载手势视觉交互***的解决方案，复杂环境识别率达80％。2011年，微软公司公布了Kinect，该摄像头可以借助红外线来识别手势运动。2015年，江南大学的姜克等人使用Kinect研究了基于深度图像的3D手势识别，识别率达76.6％。2015年，谷歌ATAP部门公布了Project Soli，该项目采用微型雷达来识别手势运动，可以捕捉微小动作。

虽然现有技术在不同的手势数据集上实现了较为准确的识别，但是仍然存在以下不足：(1)预处理和特征提取的一些关键参数需要凭人工经验设定。(2)对于各种环境下的手势，仅仅依靠某一独立的特征进行手势识别往往并不能够满足手势识别的要求。

人机交互技术正逐步从以计算机为中心转变为以人为中心，手势识别作为一种重要的人机交互方式受到广泛的关注。手势识别技术是最早通过可穿戴感应手套传感器获取手指的弯曲程度和手部的活动状态来判断用户的手势操作。这种技术需要佩戴专门的设备，成本高且交互方式不够自然，已逐渐被图像识别技术所取代。

传统图像识别技术通过图像的边缘、明亮程度、色彩等特征来分析辨别手势类型，容易受光线变换、遮挡盲区及复杂背景等因素影响，算法鲁棒性低。随着2006年深度学习的提出，基于深度学习的手势识别技术因其较低的硬件需求、更快的识别速度以及更高的识别精度成为研究热点。由于人手是复杂的变形体，手势具有多样性、多义性以及时间上的差异等特点，基于深度学习的手势识别技术目前也存在一些难点。

在当前的多种不同方法在不同测试数据集的表现情况下，目前大多数方法都实现了孤立手场景下的手势识别，但复杂背景环境下的手势识别仍是一项挑战，为此，一些判别性的方法试图加入深度信息来降低手部渲染的难度。有文献最先提出实现两个强相互作用的手的关节运动跟踪方法。该方法使用54维参数空间表示两只手的各种可能外形结构，其中每一维参数表示具有26个自由度的运动结构，同时加入粒子群优化算法进行渐进随机优化，从而找到最能解释RGB-D传感器提供的观测结果中的双手外形结构；但该方法主要关注于实现手部重叠情况下模型进行精确识别的能力，对于实时手势检测的速度并未提及。也有方法同样希望解决出现客观遮挡或盲区下的手势识别问题，提出在手指上使用有区别的学习并将手指的区别点特征与手势进行关联，同时也考虑了图像的边缘、光流和碰撞等条件，在手与手、手与物体有互动的情况下能提供非常精确的识别效果；但由于识别需要的条件较多、模型的计算量较大，在实际的人机交互应用中并不适用。

发明内容

为了解决现有技术中的手势识别需要的条件较多、模型的计算量较大的问题，本发明提出了一种基于深度残差网络的手势识别方法。

本发明解决上述技术问题所采取的技术方案是：一种基于深度残差网络的手势识别方法，其特征在于，包括以下步骤：

S1.采集视频数据，将人的手部作为检测目标进行目标检测，并将检测到的人的手部作为图像进行存储；

S2.根据S1步骤采集到的人的手部图像获得手部位置坐标，再通过基于深度残差网络的关节识别模型进行手势关键点检测，得到手部关键点坐标；

S3.将S2步骤获得的手势关键点坐标输入到SoftMax分类器进行分离，得到各种手势的分类，最终识别手势。

所述的S1步骤中将人的手部作为检测目标进行目标检测的具体方法是：

S101.将人的手部视频作为图像经过卷积神经网络，将得到的特征图生成不同尺寸的候选框；

S102.将S101步骤所述的候选框与训练样本标定框进行匹配与判断，得到目标样本；

S103.由预测框与标定框的位置偏移损失和分类结果损失加权和得到的总损失函数来更新S101所述卷积神经网络的参数设置，得到更准确的用于人手目标检测的模型，最终得到含有人的手部的图像。

所述的S102步骤中的匹配判断的准则为：当一个候选框与已标定的手部框的重叠面积比例大于其余所有的候选框重叠面积比时，认为该候选框匹配成功；当某一候选框与已标定的手部框的匹配度大于一定的阈值时，认为该候选框匹配成功；满足以上两个条件之一则判断为匹配成功，当候选框判断为成功后，则该候选框被激发为一个得到预测结果的正样本，反之则为负样本。

所述的S2步骤中基于深度残差网络的关节识别模型进行手势关键点检测的具体方法是：

S201.在训练识别模型时，采集同一手势在同一时刻不同角度的二维图像，并用预训练检测器对上述测试视频数据中的所有手部关键点进行检测，得到不同角度下同一点的识别结果；

S202.将S201步骤获得的不同角度下同一点的识别结果，通过RANSAC算法构建每个关键点的三维位置以及整个手部的三维模型，使得每一时刻成为具有三维关节点特征的画面帧，以获得手部关节点标定的输出图像；

S203.此时将预训练检测器中的已标定手部图像与S202步骤获得的手部关节点标定的输出图像作为新的训练样本继续对上述模型进行训练更新，得到多视角引导对二维输入图像；

S204.最后，采用Multiview Bootstrapping算法对S203步骤所述的多视角引导对二维输入图像进行识别，得到手部关键点坐标。

本发明的有益效果是：本发明利用深度学习中深度残差网络的多种优化架构进行混合，实现了可以进行独立手势识别功能的方法，该方法在保证识别结果高精确度和高鲁棒性的同时，能达到流畅识别的速度；同时，本发明所述方法在应用识别时，使用单一摄像头或少量摄像头在复杂背景的场景下识别到的手势相比其他方法更多，传统图像识别技术通过图像的边缘、明亮程度、色彩等特征来分析辨别手势类型，容易受光线，角度变换等因素影响，算法鲁棒性低，本发明对采集图像进行预处理并在后续步骤进行关键点检测，角度、光线等因素变化对结果影响较小，识别响应时间相比其他方案更快。

附图说明

图1为本发明的工作流程图。

图2为手势目标检测网络结构。

具体实施方式

下面结合附图对本发明进行进一步的说明。

如图1，所述的一种基于深度残差网络的手势识别方法，包括以下步骤：

步骤(1)：输入视频数据进行多尺度的人手检测，将人的手部作为检测目标进行目标检测，并将检测到的人的手部作为图像进行存储；

人手检测是一个标准的目标检测问题。传统的目标检测方法是通过提取图片中不同颜色模块的感知信息来定位并将其中的目标物体进行分类。但对于计算机来说，其面对的是RGB像素矩阵，很难从图像中直接得到目标物(如猫、狗)的抽象概念并定位其位置，再加上有多个物体和杂乱的背景混合的影响，目标检测更加困难。虽然在传统视觉领域对某些特定的研究方向如人脸检测、行为检测等有很多常用特征集，但由于检测过程复杂，计算速度很难得到提升。基于深度学习的目标检测方法最早被提出时，需要区域提名及区域分类两步。区域提名即在输入图像进入卷积神经网络前先密集提取出图像中可能感兴趣的区域，然后再对各个提名区域进行识别分类。该方法对目标检测的准确度有很好的保证，相比于传统视觉方法，其检测速度有较大提升，但仍然无法满足实时性的要求。

基于此，本步骤进一步优化目标检测模型，提出省去区域提名这一步，直接将整张输入图像放入深度残差网络后产生物体的位置坐标值。

人手目标检测模型利用开源手部数据库进行训练。输入图像经过卷积神经网络，得到的特征图的点预先生成不同尺寸的候选框，之后与训练样本标定框进行匹配与判断，得到目标样本。该目标样本包括下述的正样本与负样本。

匹配判断的准则为：当一个候选框与已标定的手部框的重叠面积比例大于其余所有的候选框重叠面积比时，认为该候选框匹配成功；当某一候选框与已标定的手部框的匹配度大于一定的阈值时，认为该候选框匹配成功。满足以上两个条件之一则判断为匹配成功，当候选框判断为成功后，则该候选框被激发为一个得到预测结果的正样本，反之则为负样本。之后再计算由预测框与标定框的位置偏移损失和分类结果损失加权和得到的总损失函数来更新卷积神经网络的参数设置，得到更准确的用于人手目标检测的模型，具体检测流程如专利附图2所示。由该人手检测模型可获得输入图像中所有检测到的人手位置坐标，并以此为基础，进行下一步的手势关键点识别。

步骤(2)：在确认输入图像中存在人手且获得人手位置坐标后，我们需要对检测到的手的具体坐标进行识别分析。由于手的关节点较多同时手与手、手与一般物体间容易产生丰富的互动情景，因此，准确识别出来源于同一人的同一手部关节点是坐标识别的重要基础。

本发明采用Multiview Bootstrapping算法通过多视角引导对二维输入图像实现复杂环境下的手势识别。

在训练识别模型时，使用多个摄像头捕捉同一手势在同一时刻不同角度的二维图像，并用由少量已标定的手部图像生成的预训练检测器对未标定的测试视频数据中的所有手部关键点进行检测。

对于不同角度下同一点的识别结果，通过RANSAC算法构建每个关键点的三维位置以及整个手的三维模型，使得每一时刻成为具有三维关节点特征的画面帧，并获得有手部关节点标定的输出图像。此时将最初的少量标定素材与预训练检测器检测得到的标定图像作为新的训练样本继续对模型进行训练更新。

步骤(3)：由手部关键点检测器可以得到各个手部关键点位置坐标的向量形式输出，将其直接输入到SoftMax分类器进行分离，得到各种手势的分类，从而实现手势识别。

具体的，SoftMax分类器通过将需要分离的信号映射至相应的标签上，经过卷积神经网络训练后的信号将得到一个分类结果。将该结果与相应的标签数据进行比较，获得相对误差值，由多次神经网络训练得到不断缩小的分类误差并得到分类能力较好的模型。

具体实施例I：SoftMax分类器使用在ImageNet预训练的ResNet-50作为特征提取模型，根据数据集的ID数设置输出层的维度。图像分类器的训练过程中，冻结ResNet-50网络中BN层、conv1层以及res2层的参数，参数更新使用的是mini-batch SGD。一个batch中的样本数量、最大迭代次数和动量分别设置为16、50和0.9。学习率使用阶级衰减策略，初始学习率为0.001，在40个epoch之后学习率衰减为0.0001，直至训练结束。

本发明所述的SoftMax分类器的损失函数如下：

其中y_ik表示真实标签信息，p_ik表示模型预测样本，N是总训练样本数，K是样本的类别，正则化参数λ＝0.0005，对W＝{W₁…W₁₀₂₄}，其中W_i的维度等于输出维度。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易变化或替换，都属于本发明的保护范围之内。因此本发明的保护范围所述以权利要求的保护范围为准。

Claims

1.一种基于深度残差网络的手势识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度残差网络的手势识别方法，其特征在于，所述的S1步骤中将人的手部作为检测目标进行目标检测的具体方法是：

3.根据权利要求1所述的一种基于深度残差网络的手势识别方法，其特征在于，所述的S102步骤中的匹配判断的准则为：当一个候选框与已标定的手部框的重叠面积比例大于其余所有的候选框重叠面积比时，认为该候选框匹配成功；当某一候选框与已标定的手部框的匹配度大于一定的阈值时，认为该候选框匹配成功；满足以上两个条件之一则判断为匹配成功，当候选框判断为成功后，则该候选框被激发为一个得到预测结果的正样本，反之则为负样本。

4.根据权利要求1所述的一种基于深度残差网络的手势识别方法，其特征在于，所述的S2步骤中基于深度残差网络的关节识别模型进行手势关键点检测的具体方法是：

5.根据权利要求1所述的一种基于深度残差网络的手势识别方法，其特征在于，所述的SoftMax分类器的损失函数如下：