CN110096991A

CN110096991A - 一种基于卷积神经网络的手语识别方法

Info

Publication number: CN110096991A
Application number: CN201910340257.4A
Authority: CN
Inventors: 肖秦琨; 秦敏莹
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2019-08-06

Abstract

本发明公开一种基于卷积神经网络的手语识别方法，具体的步骤为：步骤1，采集若干含有手语的深度图像；步骤2，经过预处理步骤将所有的深度图像中的手型部分从背景中分割出来，得到完整无噪声的手型图像，建立手语图像数据库；将手语图像数据库中的手型图像分为为两部分，一部分作为训练样本，另一部分作为测试样本；构建一个卷积神经网络模型；步骤3，利用所述训练样本对卷积神经网络模型对进行训练；步骤4，用已经训练好的卷积神经网络模型对测试样本进行识别，并输出分类识别的结果。本发明的能够提供一种基于卷积神经网络的手语识别方法，避免了传统手语识别方法对于数据量较大的任务效率较低的问题。

Description

一种基于卷积神经网络的手语识别方法

技术领域

本发明属于手语识别技术领域，涉及一种基于卷积神经网络的手语识别方法。

背景技术

手语是听障人群与正常人群互相交流的唯一途径。正是有手语识别*** 的存在，聋哑人群的生活和工作空间才没有因此被限制。另一方面，随着人工智能技术的发展，手语作为新型的、更加便捷的人机交互方式也已经成为当今各行业交互方式的新趋势。

传统的手语识别方法主要涉及特征提取以及学习识别两个步骤。人工设计特征主要包括有梯度方向直方图(HOG)和光流方向直方图(HOF)，用于时序建模的传统模型和方法主要有隐马尔科夫模型(HMM)动态时间规整(DTW)和条件随机场(CRF)等。迄今为止,对这两个问题进行了大量的研究工作。但由于人工设计的特征较为单一，且建模过程较为繁琐，在处理数据量较大的任务时效率较低。

发明内容

本发明的目的是提供一种基于卷积神经网络的手语识别方法，避免了传统手语识别方法对于数据量较大的任务效率较低的问题。

本发明所采用的技术方案是，

一种基于卷积神经网络的手语识别方法，具体的步骤如下：

步骤1，采集若干含有手语的深度图像；

步骤2，经过预处理步骤将所有的深度图像中的手型部分从背景中分割出来，得到完整无噪声的手型图像，建立手语图像数据库；将手语图像数据库中的手型图像分为为两部分，一部分作为训练样本，另一部分作为测试样本；

构建一个卷积神经网络模型；

步骤3：用训练样本对卷积神经网络模型进行训练。

步骤4：用已经训练好的卷积神经网络模型对测试样本进行识别，并输出分类识别的结果。

本发明的特点还在于，

其中步骤一中采用Kinect深度摄像头采集图像，采集数据时，Kinect 深度摄像头距离打手语者约0.8～1.2米，距离地面约1.0～1.4米，帧率为 30FPS；

其中步骤二中图像预处理步骤具体如下：

步骤2.1：将手语图像数据库中深度图像经过高斯滤波，除去较大的噪声，得到较为平滑的图像集；

步骤2.2：对步骤2.1得到的图像集进行深度阈值分割，深度阈值分割的具体方法为：建立目标图像的深度直方图，设定深度直方图中第一个波谷点的值为阈值，大于该阈值的像素点为背景部分，将它们置1；小于该阈值的像素点为前景部分，将它们置0，最后得到分割后的手型图像集；

步骤2.3：将步骤2.2得到的分割后的手型图像集做高斯去噪处理，除去噪声；

步骤2.4：除去步骤2.3得到的手型图像集的小连通区域，具体步骤为：标记图像的连通区域并计算连通区域的像素个数，设置阈值，当像素个数小于阈值时，即判定该连通区域为噪音，将该连通区域的像素均置为1；最终得到完整的手型部分。

其中步骤2中的卷积神经网络模型为16层卷积神经网络模型，按照信息处理顺序依次为：图像输入层、卷积层1、ReLU层1、归一化层1、池化层1、卷积层2、ReLU层2、归一化层2、池化层2、卷积层3、ReLU层3、归一化层3、全连接层1、全连接层2、softmax层和图像输出层；其中每一层的输出即为下一层的输入。其中参数设置为：

卷积层1中，设置卷积核为3×3，步长为1，填充值为0，滤波器数量为8；

池化层1中，设置池化窗口为2×2，步长为2，滤波器数量为8；

卷积层2中，设置卷积核为3×3，步长为1，填充值为0，滤波器数量为16；

池化层2中，设置池化窗口为2×2，步长为2，滤波器数量为8；

卷积层3中，设置卷积核为3×3，步长为1，填充值为0，滤波器数量为32；

Softmax层中，MaxIter设置为280，epoch设置为4。

本发明的有益效果是，

本发明提出的一种基于卷积神经网络的手语识别方法，克服了传统手语识别过程人工设计特征较为复杂，且时序建模过程较为繁琐，对于数据量较大的任务效率较低的问题。可以避免光照比较敏感，对环境要求高，鲁棒性不强等因素的影响，能够自动识别手势动作。

附图说明

图1是本发明一种基于卷积神经网络的手语识别方法的流程图；

图2是本发明一种基于卷积神经网络的手语识别方法所用的卷积神经网络模型的示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

一种基于卷积神经网络的手语识别方法，如图1所示，具体的步骤如下：

步骤1：采用Kinect深度摄像头采集若干含有手语的深度图像；

采集数据时，Kinect深度摄像头距离打手语者约0.8～1.2米，距离地面约1.0～1.4米，帧率为30FPS；

步骤2：对手语图像数据库中深度图像进行图像预处理，得到完整无噪声的手型图像，建立手语图像数据库；将手语图像数据库中的手型图像分为为两部分，一部分作为训练样本，另一部分作为测试样本；

构建一个的卷积神经网络模型。

其中预处理的具体步骤如下：

步骤2.4：除去步骤2.3得到的手型图像集的小连通区域，具体步骤为：标记图像的连通区域并计算连通区域的像素个数，设置阈值，当连通域的像素个数小于阈值时，即判定该连通区域为噪音，将该连通区域的像素均置为 1；最终得到完整的手型部分。

其中卷积神经网络模型为16层卷积神经网络模型，包括1个图像输入层(ImageInput Layer)、3个卷积层(Convolution Layer)、3个ReLU(ReLU Layer)层、3个归一化层((Batch Normalization Layer))、2个池化层 (MaxPooling Layer)、2个全连接层(Fully-connected layers)、一个softmax 层和一个图像输出层。按照信息处理顺序依次为：图像输入层、卷积层1、 ReLU层1、归一化层1、池化层1、卷积层2、ReLU层2、归一化层2、池化层2、卷积层3、ReLU层3、归一化层3、全连接层1、全连接层2、softmax 层和图像输出层。每层的

卷积层：对输入图像采用卷积模板在三个通道上，对图像进行卷积操作。得到特征图向量。假定卷积层有L个输出通道和K个输入通道，于是需要 KL个卷积核实现通道数目的转换，则卷积运算公式为：

其中，X^*表示第k个输入通道的二维特征图，Y_l表示第l个输出通道的二维特征图，H_kl表示第k行、第l列二维卷积核。假定卷积核大小是I*J，每个输出通道的特征图大小是M*N，则该层每个样本做一次前向传播时卷积层的计算量是：Calculations(MAC)＝I*J*M*N*K*L。

ReLU层：在ReLU层中采用线性整流函数(Rectified Linear Unit,ReLU) 对得到的特征图进行运算，线性整流函数为：φ(x)＝max(0,x)。

其中x为ReLU层的输入向量，f(x)为输出向量，作为下一层的输入。 ReLU层能更加有效率的梯度下降以及反向传播，避免了梯度***和梯度消失问题。同时ReLU层简化了计算过程，没有了其他复杂激活函数中诸如指数函数的影响；同时活跃度的分散性使得卷积神经网络整体计算成本下降。

在每个卷积操作之后，都有ReLU的附加操作，其目的是在CNN中加入非线性，因为使用CNN来解决的现实世界的问题都是非线性的，而卷积运算是线性运算，所以必须使用一个如ReLU的激活函数来加入非线性的性质。

归一化层：归一化有助于快速收敛；对局部神经元的活动创建竞争机制，使得其中响应比较大的值变得相对更大，并抑制其他反馈较小的神经元，增强了模型的泛化能力。

池化层：对输入的特征图进行压缩，一方面使特征图变小，简化网络计算复杂度；一方面进行特征压缩，提取主要特征。池化层可以在保持最重要的信息的同时降低特征图的维度。如果对矩阵A进行不重叠分块，每块大小为λ×τ，则其中第ij个块可以表示为：

用大小为λ×τ的块对矩阵A进行不重叠下采样，结果定义为：

全连接层：全连接层是一个传统的多层感知器，它起到将学到的“分布式特征表示”映射到样本标记空间的作用。全连接层的目的是根据训练数据集将输入的图像特征分为不同的全连接层的主要计算类型是矩阵-向量乘 (GEMV)。假设输入节点组成的向量是x，维度是D，输出节点组成的向量是y，维度是V，则全连接层计算可以表示为y＝Wx。其中W是V*D的权值矩阵。全连接层的参数量为params＝V*D，其单个样本前向传播的计算量也是Calculations(MAC)＝V*DC；

也就是CPR＝Calculations/params＝1，其权值利用率很低。可以将一批大小为B的样本x_i逐列拼接成矩阵X，一次性通过全连接层，得到一批输出向量构成的矩阵Y，相应地前面的矩阵—向量乘运算升为矩阵-矩阵乘计算 (GEMM)：Y＝WX。这样全连接层前向计算量提高了B倍，CPR相应提高了B倍，权重矩阵在多个样本之间实现了共享，可提高计算速度。

步骤3：用训练样本对卷积神经网络模型进行训练。

步骤3.1，初始化所有卷积神经网络模型的参数和权重值；

步骤3.2，将训练图像作为输入，用训练样本对卷积神经网络模型进行训练。

步骤3.3，计算输出层的总误差Error(对所有类进行求和)，即代价函数。比较常用的代价函数有平方和函数，即总误差。

步骤3.4，使用反向传播计算网络中所有权重的误差梯度。并使用梯度下降更新所有滤波器值、权重和参数值，以最大限度地减少输出误差，也就是代价函数的值尽量小。滤波器数量，滤波器大小，网络结构等参数在步骤 3.1之前都已经固定，并且在训练过程中不会改变，只更新滤波器矩阵和连接权值。使用标准卷积神经网络的反向传播算法如下：

输入：训练S＝{(x^l,y^l),1≤l≤N}、网络结构、层数R。

输出：网络参数

(1).随机初始化所有权值和偏置；

(2).计算

(3).计算

(4).计算

(5).计算

(6).令

(7).计算

(8).令计算

(9).计算

(10).计算

(11).计算

(12).计算

(13).计算

(14).计算

(15).更新所有的网络参数。

步骤5：用已经训练好的网络模型对测试样本进行识别，并输出分类识别的结果。

本发明提出的一种基于卷积神经网络的手语识别方法，克服了传统手语识别过程人工设计特征较为复杂，且时序建模过程较为繁琐，对于数据量较大的任务效率较低的问题。通过与传统的手势识别方法对比实验结果证明了本文所构建的CNN手语识别模型识别准确率有大幅度的提升，并克服了肤色对识别结果的影响，又可以避免光照比较敏感，对环境要求高，鲁棒性不强等因素的影响。能够实现自动识别手势动作。

实施例1

步骤1：利用Kinect深度摄像头采集手语图像，数据采集时，Kinect深度摄像头距离人大约1米，距离地面大约1.2米。本实施例的手语图像数据库包含30类不同语义的手语动作，每1类中包含1000帧图像，分别由5 人记录完成，每一个数据集中包含30*1000＝30000帧静态手势图像。

通过使用MATLA中的Image AcquisitionToolbox工具箱获取图像，将从 Kinec深度摄像头获得的手语图像数据库输入MATLAB中以.jpg的格式保存到本地。随机将彩色手语数据集和深度手语数据集中的数据分为训练集、交叉验证集和测试集，训练集和交叉验证集用于训练卷积神经网络模型并评估识别模型的性能，测试集作为用于手语识别的测试数据；MATLAB程序如下：

[imdsTrain，imdsValidation，TestData]＝splitEachLabel(imds，0.6，0.1， 'randomize')；

执行该句程序后生成训练数据和测试数据的静态手语数据库。其中， imdsTrain为训练集；imdsValidation为交叉验证样本；TestData为测试样本；

为了缩短计算量以及训练时间，本实施例将所有的图片归一化为大小为 28×28的.jpg格式的图片。

步骤2：对手语图像数据库中深度图像进行图像预处理，预处理的具体步骤如下：

步骤2.4：除去步骤2.3得到的手型图像集的小连通区域，具体步骤为：标记图像的连通区域并计算连通区域中的像素数，设置阈值为10，当连通域像素数阈值时，即判定该连通区域为噪音，将该连通区域的像素均置为1；最终得到完整的手型部分。

构建一个卷积神经网络模型，其中高精度卷积神经网络模型为16层卷积神经网络模型，包括1个图像输入层、3个卷积层、3个ReLU层、3个归一化层、2个池化层、2个全连接层、一个softmax层和一个图像输出层。按照信息处理顺序依次为：图像输入层、卷积层1、ReLU层1、归一化层1、池化层1、卷积层2、ReLU层2、归一化层2、池化层2、卷积层3、ReLU 层3、归一化层3、全连接层1、全连接层2、softmax层和图像输出层。其中每一层的输出即为下一层的输入。其中参数设置为：

池化层1中，设置池化窗口为2×2，步长为2，滤波器数量为8；

池化层2中，设置池化窗口为2×2，步长为2，滤波器数量为8；

Softmax层中，MaxIter设置为280，epoch设置为4。

步骤3：用训练样本对卷积神经网络模型进行训练。

根据本实施例输出结果统计出识别的准确率。其中以识别精度(Accuarcy) 作为评价***的主要指标，它的计算方式为：

从表1中可以看出，在对复杂背景下获取的彩色手语图像进行识别时，单手手语的识别精度为90.3％，双手手语的识别精度为94.9％，测试数据集中只有7类手势能够完全被正确识别，大部分手势不能够被正确分类。比如，像手势“2”、手势“3”、手势“4”、手势“5”、手势“内卡钳”、手势“柱子”、手势“家”等，在识别的过程中，较多的手势图像被错误分类为其它的类。

表1.识别结果与统计

这一缺陷在对简单背景下的手语识别过程中得到明显改善，为了排除背景等因素对识别精度的影响，对简单背景获取的深度图像经过预处理的过只获得图像中的手型及上肢部分，从表1可以看出，简单背景下单手手语的识别精度达到99.3％，双手手语的识别精度达到99.8％。比如，复杂背景下测试数据集的死别结果中，对于手势“椅子”、手势“柱子”、手势 “直角”在表达的形式上比较相似的手语：手势“柱子”有1个被错误识别为手势“椅子”、有66个被错误识别为手势“直角”，但是相比于复杂背景下的识别结果，这些相似度比较高的手语基本能够被全部正确分类。总体来说，相对于基于复杂背景下的手语识别，简单背景下的深度图像在识别中既可以克服了肤色对识别结果的影响，也可以避免光照比较敏感，对环境要求高，鲁棒性不强等因素的影响，单双手手语的识别精度都得到很大的提升，总体的识别率提高6.95％。

表2不同方法的识别结果

表2为采用不同方法对手语的识别结果，其中F+DTW为傅里叶描述与DTW分类器结合的方法；F+PNN为傅里叶描述与PNN分类器结合的方法；CNN^(Color)为采用本发明中的卷积神经网络对彩色图像数据集进行识别的方法；CNN^(Depth)为本发明采用的方法，基于CNN的静态手语识别结果与传统的静态手语识别方法的识别结果进行比较，传统识别方法首先从获取的手势图像中分割出手型部分；如表2所示，对彩色数据集的识别率表示复杂背景下ColorDataset数据集中单双手手语的平均识别准确率为92.6％，对深度数据集的识别率表示简单背景下DepthDataset数据集中单双手手语的平均识别准确率为99.55％。可以看出，本发明中所构建的CNN识别模型识别准确率相比传统的识别结果有了大幅度的提升。

Claims

1.一种基于卷积神经网络的手语识别方法，其特征在于，具体的步骤如下：

步骤1，采集若干含有手语的深度图像；

构建一个卷积神经网络模型；

步骤3，利用所述训练样本对卷积神经网络模型对进行训练；

步骤4，用已经训练好的卷积神经网络模型对测试样本进行识别，并输出分类识别的结果。

2.如权利要求1所述的一种基于卷积神经网络的手语识别方法，其特征在于，所述步骤一中采用Kinect深度摄像头进行图像采集。

3.如权利要求2所述的一种基于卷积神经网络的手语识别方法，其特征在于，采集数据时，所述Kinect深度摄像头距离打手语者约0.8～1.2米，距离地面约1.0～1.4米，帧率为30FPS。

4.如权利要求1所述的一种基于卷积神经网络的手语识别方法，其特征在于，步骤2中所述预处理步骤具体如下：

步骤2.4：除去步骤2.3得到的手型图像集的小连通区域最终得到完整的手型图像。

5.如权利要求4所述的一种基于卷积神经网络的手语识别方法，其特征在于，所述步骤2.4的具体方法为：标记图像的连通区域并计算连通区域的像素个数，设置阈值，当连通域的像素个数小于阈值时，即判定该连通区域为噪音，将该连通区域的像素均置为1。

6.如权利要求1所述的一种基于卷积神经网络的手语识别方法，其特征在于，步骤2所述的卷积神经网络模型为16层卷积神经网络模型，按照信息处理顺序依次为：图像输入层、卷积层1、ReLU层1、归一化层1、池化层1、卷积层2、ReLU层2、归一化层2、池化层2、卷积层3、ReLU层3、归一化层3、全连接层1、全连接层2、softmax层和图像输出层；其中每一层的输出即为下一层的输入。

7.如权利要求6所述的一种基于卷积神经网络的手语识别方法，其特征在于，步骤2所述的卷积神经网络模型中的参数设置为：

池化层1中，设置池化窗口为2×2，步长为2，滤波器数量为8；

池化层2中，设置池化窗口为2×2，步长为2，滤波器数量为8；

Softmax层中，MaxIter设置为280，epoch设置为4。