CN104834922A

CN104834922A - 基于混合神经网络的手势识别方法

Info

Publication number: CN104834922A
Application number: CN201510280013.3A
Authority: CN
Inventors: 纪禄平; 尹力; 周龙; 王强; 卢鑫; 黄青君; 杨洁
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-05-27
Filing date: 2015-05-27
Publication date: 2015-08-12
Anticipated expiration: 2035-05-27
Also published as: CN104834922B

Abstract

本发明公开了一种基于混合神经网络的手势识别方法，对于待识别手势图像和手势图像训练样本，首先采用脉冲耦合神经网络检测得到噪声点，再利用复合去噪算法对噪声点进行处理，然后采用细胞神经网络提取手势图像中的边缘点，根据提取到的边缘点得到连通区域，利用曲率对每个连通区域进行指尖检测得到待定指尖点，排除人脸部分干扰得到手势区域，然后根据手势形状特点进行分割，根据分割后手势区域的轮廓点得到保留相位信息的傅里叶描述子，选择前若干个傅里叶描述子作为手势特征；根据手势图像训练样本的手势特征训练BP神经网络，将待识别手势图像的手势特征输入BP神经网络进行识别。本发明通过多种神经网络的运用，提高了对手势识别的准确率。

Description

基于混合神经网络的手势识别方法

技术领域

本发明属于手势识别技术领域，更为具体地讲，涉及一种基于混合神经网络的手势识别方法。

背景技术

随着计算机技术的突飞猛进，人机交互技术在人们的生活中越来越普及。人机交互(Human-Computer Interaction,HCI)技术是指用户与计算机之间使用某种操作方式而执行的一种人与计算机之间的交互过程。它的发展大致经历了纯手工作业阶段、语言命令控制阶段、用户界面阶段等，然而随着近年来人工智能等技术的不断发展，逐渐引起对人机交互技术发展的重视。

现在随着计算机在应用领域方面的不断拓展，现有的人机交互方式已经不能满足人们对日常需求的更高层次的要求，急需一种更加简洁、友好的新型人机相互交互的方式。由于人机交互的最终目的是为了实现人与机器之间自然地交流，而在日常生活中人与人之间大部分是通过肢体语言或者面部表情来传达信息的，只有一小部分是通过自然语言来完成的，这就表明肢体语言表达人类情感或者意图方面具有更大的优势。由于在肢体语言当中，手扮演着极为重要的角色，因此，基于手势行为的交互方式即手势行为识别***，也即手势识别***受到人们的广泛关注。

一般情况下，手势识别***主要由以下几个部分组成：手势预处理、手势分割、手势建模、手势特征提取、手势识别。对于手势预处理操作，主要是手势图像的去噪操作，目前常见的去噪算法包括：均值滤波、中值滤波、空间低通滤波、频域低通滤波以及脉冲耦合神经网络等，但是对于多种噪声存在的情况下，目前的算法的去噪能力都不能达到能好的去噪效果，因此设计一个良好的去噪算法对于后期的识别过程至关重要。对于手势分割操作，目前常用的手势分割方法有基于肤色信息的分割方法、基于运动信息的分割方法以及基于边缘信息的分割方法。由于基于肤色信息的分割方法容易受到背景信息的干扰，基于边缘信息的分割方法又不能达到很好的分割效果，因此如何设计一个良好有效地分割算法也是至关重要的。对于手势特征提取操作，目前应用最广的是基于傅里叶描述子的特征提取方法，但是由于该方法的旋转不变性使得该方法对于手势旋转之后的手势的特征变化不大，因此如何设计一个不具有旋转不变性的傅里叶描述子也是至关重要的。对于手势识别操作，目前常见的方法有模板匹配技术、支持向量机、神经网络方法、隐马尔可夫模型等，因此如何选用一个良好的手势识别方法对于手势识别***同样至关重要。

神经网络方法是指利用一些简单的处理单元来模拟人脑神经元，并把这些简单的处理单元以某种方式连接成网络来实现对人脑模拟的一门科学。神经网络方法往往具有以下优势：并行计算，分布式存储，健壮性，非线性的处理以及良好的自适应性和容错性能力。因此，神经网络方法能够在多个场景下得到应用。例如：手势识别、图像分割、噪声处理等。

目前，神经网络方法已经在手势行为识别领域得到了越来越多的应用。然而，神经网络方法在手势行为识别领域的应用也仅限于手势识别这个阶段，在针对手势行为识别的其他阶段的应用很少。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于混合神经网络的手势识别方法，利用脉冲耦合神经网络提高手势图像的去噪效果，利用细胞神经网络进行手势分割，采用具有旋转可变性的傅里叶描述子作为手势特征，利用BP神经网络进行手势识别，从而提高手势识别的准确率

为实现上述发明目的，本发明基于混合神经网络的手势识别方法，包括以下步骤：

S1：提取待识别手势图像和手势图像训练样本的特征，具体步骤包括：

S1.1：建议手势灰度图像的脉冲耦合神经网络模型，将当前手势灰度图像各像素点的灰度值作为脉冲耦合神经网络中对应神经元的输入，利用脉冲耦合神经网络的发放特性对手势图像的像素点进行检测，如果像素点的输出状态为点火状态，则将检测结果矩阵中该像素点对应的元素置为1，否则置为0；遍历检测结果矩阵的每个元素，如果元素值为1，则以该元素为降噪处理窗口的中心，降噪处理窗口的大小根据实际情况设置，统计降噪处理窗口中除中心点元素以外的其他元素的值，如果值为0的元素数量大于预设阈值，说明该中心点是噪声点，其他情况则不是噪声点；

分别按以下公式计算噪声点的两种噪声估计值H(i,j)和V(i,j)：

H(i,j)＝|a(i,j)-b(i,j)|

其中，a(i,j)是图像中像素点(i,j)处的灰度值，b(i,j)为该像素点进行中值滤波后的中值输出灰度值；

V (i, j) = \frac{| m_{1} (i, j) - a (i, j) | + | m_{2} (i, j) - a (i, j) |}{2}

其中，m₁(i,j)和m₂(i,j)分别代表像素点(i,j)所在邻域中与x(i,j)灰度值最接近的两个点的灰度值；

如果H(i,j)≥T₁，并且V(i,j)≥T₂，则采用中值滤波对该噪声点进行处理，否则采用均值滤波对该噪声点进行处理；

S1.2：对经步骤S1.1去噪后的手势灰度图像进行直方图均衡化；

S1.3：建立手势灰度图像的细胞神经网络模型，将均衡化后的手势灰度图像各像素点(i,j)的灰度值作为细胞神经网络模型中对应细胞的输入u_ij，按照状态转移过程的公式进行迭代，直到整个细胞神经网络收敛，得到每个细胞的输出y_ij(t)；遍历细胞神经网络中每个像素点对应的细胞元的输出值，当某个像素点的输出值在[0,1]范围内，如果其对应邻域内其他像素点的像素值和大于预设阈值，则本像素不是边缘像素，否则是边缘像素点；当输出值在[-1,0)范围内，不是边缘像素点；

S1.4：根据步骤S1.3得到的边缘像素点得到连通区域，提取得到连通区域的轮廓，对每个连通区域分别进行指尖检测，指尖检测方法为：

遍历连通区域中的每个轮廓像素点，将该像素点作为基准点，坐标记为p(p_x,p_y,0)，预设一个距离常数L，沿轮廓方向取p点前面的第L个点p₁(p_1x,p_1y,0)，取点p后面的第L个点p₂(p_2x,p_2y,0)，计算向量与向量之间夹角的余弦值cosα，如果cosα大于预设曲率阈值T，则判定该点为待定指尖点，否则不作为待定指尖点；

根据遍历方向确定指尖位置向量积的符号，如果按照手势区域整体轮廓的顺时针遍历时，向量积符号应为负，否则为正，计算待定指尖点向量与向量之间的向量积如果该向量积的符号与指尖位置对应的符号相同，则保留为待定指尖点，否则不保留；

判断该连通区域中检测到的所有待定指尖点中，y坐标最大的待定指尖点与y坐标最小的待定指尖点的y坐标差值是否超过人脸高度的一半，如果是，该连通区域不是手势区域，否则作为待定手势区域；再进一步判断的每个待定手势区域中待定指尖点数量是否超过预设的数量阈值，如果是，则该连通区域为手势区域，否则不是；

求取手势区域的主方向，根据主方向按照手势长度与宽度比值为2对手势区域进行分割，得到分割后的手势区域；

S1.5：将经步骤S1.4分割后得到的手势区域，将手势区域的轮廓点坐标以复数形式表示，将所有轮廓点坐标构成离散序列，记轮廓点数量为n，对该离散序列进行傅里叶变换，得到n个傅里叶系数z(k)，k＝0,1,…,n-1，计算傅里叶描述子

其中k′＝1,2,…,n-1，表示手势区域主方向与x轴的夹角。

在傅里叶描述子中选择前Q个构成特征向量；

S2：将训练样本手势图像的特征向量作为训练样本输入BP神经网络，其对应的手势图像类别作为BP神经网络的输出，对BP神经网络进行训练；

S3：将待识别手势图像的特征向量输入步骤S2训练好的BP神经网络中，输出识别得到的手势图像类别。

本发明基于混合神经网络的手势识别方法，对于待识别手势图像和手势图像训练样本，首先采用脉冲耦合神经网络进行噪声点和边缘点的区分检测，再利用复合去噪算法对噪声点进行处理，然后采用细胞神经网络提取手势图像中的边缘点，根据提取到的边缘点得到连通区域，利用曲率对每个连通区域进行指尖检测得到待定指尖点，再排除人脸部分的干扰，得到手势区域，然后根据手形形状特点进行分割，得到分割后的手势区域；根据手势区域的轮廓点得到保留相位信息的傅里叶描述子，选择前若干个傅里叶描述子作为手势特征；根据手势图像训练样本的手势特征训练BP神经网络，将待识别手势图像的手势特征输入BP神经网络进行识别。

本发明具有以下有益效果：

(1)利用脉冲耦合神经网络进行噪声点和边缘点的区分，结合复合去噪算法对手势图像进行去噪，可以提高去噪效果；

(2)手势分割结合了细胞神经网络的粗分割与基于手势形状特征的细分割，可以提高手势分割的准确度；

(3)手势特征采用傅里叶描述子，保留了相位信息，可以提高识别率。

附图说明

图1是本发明基于混合神经网络的手势识别方法的流程图

图2是本发明中手势图像特征提取的流程图

图3是结合手势形状特性进行手势细分割的流程图

图4是本发明指尖检测的示意图；

图5是手势粗分割的示例图；

图6是手势细分割的示例图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于混合神经网络的手势识别方法的流程图。如图1所示，本发明基于混合神经网络的手势识别方法包括以下步骤：

S101：提取待识别样本和训练样本的特征：

首先需要对待识别手势图像和手势图像训练样本进行特征提取。图2是本发明中手势图像特征提取的流程图。如图2所示，本发明中手势图像特征提取包括以下步骤：

S201：手势图像去噪预处理：

本发明采用基于脉冲耦合神经网络(PCNN-Pulse Coupled Neural Network)和复合去噪算法相结合的去噪算法进行手势灰度图像的去噪，先通过采用脉冲耦合神经网络对手势图像进行噪声点和边缘点的区分检测，之后根据噪声点的类型采用复合去噪算法进行去噪操作，从而达到在保留边缘信息的前提下去除多种噪声的目的。

脉冲耦合神经网络的每个神经元由三个部分组成：接收部分、调制部分和脉冲产生器。脉冲耦合神经网络是图像降噪预处理的一种常用方法，其主要作用在于去除椒盐噪声。当脉冲耦合神经网络用于图像降噪领域时，可以理解成一个二维单层的局部连接网络，在这个网络中神经元与待处理灰度图像中的像素点是一一对应的，并且相邻神经元之间也是相互连接的关系。在降噪处理过程中，待处理图像的每个像素点的灰度值可以理解为神经元的反馈输入，同时每个神经元的输出只作为相邻神经元的输入，并且每个神经元的输出状态只有两种：点火状态和不点火状态，可分别记为1和0。由于噪声对应的像素点与周围的像素点区别较大，因此可以利用脉冲耦合神经网络的发放特性结合噪声的自身特性进行噪声点的判断，具体判断方法如下：

建立手势灰度图像的脉冲耦合神经网络模型；将当前手势灰度图像各像素点的灰度值作为脉冲耦合神经网络中对应神经元的输入，然后利用脉冲耦合神经网络的发放特性对整个图像的像素点进行检测，如果像素点的输出状态为点火状态，则将检测结果矩阵中该像素点对应的元素置为1，否则置为0，可见检测结果矩阵和待处理图像的大小相同；设置降噪处理窗口大小，本实施例中为3×3；遍历检测结果矩阵的每个元素，如果元素值为1，也就是为点火状态，则以该元素为降噪处理窗口的中心，统计降噪处理窗口中除中心点元素以外的其他元素的值(即中心点对应像素点点以外其他像素点的检测结果)，如果值为0(即不点火状态)的元素数量大于预设阈值，说明该中心点是噪声点，其他情况则该中心点不是噪声点。从而达到对噪声点和边缘点进行判断区分的目的。数量阈值一般是降噪处理窗口中元素数量的一半。

在判断得到噪声点后，再采用复合去噪算法进行相应的去噪操作，其主要方法为：

假设a(i,j)是图像中像素点(i,j)处的灰度值，1≤i≤M,1≤j≤N，M表示手势灰度图像每行的像素点数量(即列数)，N表示手势灰度图像每列的像素点数量(即行数)，b(i,j)为该像素点进行中值滤波后的中值输出灰度值。为了达到对高斯噪声的目的，采用噪声点的像素值和中值输出灰度值的差值作为噪声估计值，如下式(1)所示

H(i,j)＝|a(i,j)-b(i,j)| (1)

由于噪声的类型不同，如果单纯地使用上述的估计方法，不能达到区分多种噪声的目的，因此在上述公式的基础上，又引入了另外一个噪声估计值V(i,j)，该参数即像素点(i,j)处的像素值a(i,j)与相近的两个点m₁(i,j)和m₂(i,j)的梯度和的平均值，如下式(3)所示

V (i, j) = \frac{| m_{1} (i, j) - a (i, j) | + | m_{2} (i, j) - a (i, j) |}{2} - - - (2)

其中，m₁(i,j)和m₂(i,j)分别代表像素点(i,j)所在邻域中与x(i,j)灰度值最接近的两个点的灰度值。

设置阈值为T₁和T₂，则通过上述两种噪声估计值与阈值之间的关系，实现对不同噪声的对应处理，具体方法为：

如果H(i,j)≥T₁，并且V(i,j)≥T₂，则判定该噪声点的类型为椒盐噪声或者脉冲噪声，采用中值滤波对该噪声点进行处理，即将该噪声点的灰度值修改为中值滤波输出值，如果H(i,j)＜T₁，或者H(i,j)≥T₁并且V(i,j)＜T₂，则判定该噪声类型为高斯噪声，采用均值滤波对该噪声点进行处理，即将该噪声点的灰度值修改为均值滤波输出值。

在上述算法中，阈值T₁和T₂的选取对复合去噪算法结果的好坏至关重要。其中目前常用的阈值选取方法为平均绝对离差算法即MAD算法。根据该算法可知，T₁＝3.5δ_ij，δ_ij表示像素点(i,j)的去噪窗口内所有像素点的平均绝对离差。阈值T₂的选择主要是针对手势图像中可能出现的纹理，依据MAD算法和实验经验，T₂的值通常选择为6～10的整数。

S202：直方图均衡化：

直方图均衡化处理是指利用图像直方图对图像的对比度进行调整的方法，从而把原始图像的灰度直方图从比较集中的某个灰度区域变成在全局范围内均匀分布。本发明对步骤S201去噪处理后的手势灰度图像进行直方图均衡化处理，是为了扩大手势图像前景和后景部分灰度值的差别。直方图均衡化是目前一种常用的图像对比度增强的方法，其具体步骤在此不再赘述。

S203：基于细胞神经网络的手势粗分割：

与脉冲耦合神经网络一样，细胞神经网络中的神经元与手势灰度图像中的像素点一一对应，记第i行第j列的细胞为C(i,j)(对应手势灰度图像中的像素点(i,j))，细胞C(i,j)均由四部分组成：输入变量u_ij、状态转移变量x_ij、输出变量y_ij以及阀值I。细胞神经网络的细胞之间是局部互联的，细胞C(i,j)只与它的邻域N_r(i,j)中的细胞相互连接，而与其他的细胞无直接的连接关系。细胞C(i,j)邻域N_r(i,j)可以定义为：

N_r(i,j)＝C(k,l)|max(k-i,l-j)≤r (3)

其中，r为正整数，1≤i,k≤M,1≤j,l≤N，M表示手势灰度图像每行的像素点数量，N表示手势灰度图像每列的像素点数量。即细胞C(i,j)的邻域是以C(i,j)为中心，边长为2r+1的正方形所包括的范围。

细胞神经网络的主要公式为：

状态转移过程：

C \frac{{δx}_{i j} (t)}{δ t} = - \frac{1}{R_{x}} x_{i j} (t) + \underset{C (k, l) &Element; N_{r} (i, j)}{Σ} A (k, l) y_{k l} (t) + \underset{C (k, l) &Element; N_{r} (i, j)}{Σ} B (k, l) u (k, l) + I - - - (4)

输出方程：

y_{i j} (t) = \frac{1}{2} (| x_{i j} (t) + 1 | - | x_{i j} (t) - 1 |) = \{\begin{matrix} 1, & x_{i j} (t) &GreaterEqual; 1 \\ x_{i j} (t), & | x_{i j} (t) | < 1 \\ - 1 & x_{i j} (t) \leq - 1 \end{matrix} - - - (5)

其中，1≤i,k≤M，1≤j,l≤N；t表示迭代次数；A(k,l)代表细胞C(i,j)所处的邻域N_r(i,j)内的细胞C(k,l)的反馈权重；B(k,l)则代表细胞C(i,j)所处的邻域N_r(i,j)内的细胞C(k,l)的控制权重，也即模板B中除中心位置元素之外的其他元素。这里(k,l)的取值依据邻域N_r(i,j)的定义决定。

反馈模板A和控制模块B都是(2r+1)×(2r+1)的矩阵，I代表细胞神经网络的阀值模板，A、B和I的值综合决定了细胞神经网络的输入量u_ij、输出量y_ij以及状态转移量x_ij的对应关系。因此对于细胞神经网络模型来说，如何正确地设计反馈模板A、控制模板B以及阀值I的取值至关重要。

本发明采用的模板设计方法是基于代数结与前人模板设计经验相结合的模板设计方法，模板A、B、I的格式一般设计如下：

A (k, l) = \{\begin{matrix} a, & k = i, l = j \\ 0, & k &NotEqual; i, l &NotEqual; j \end{matrix} - - - (6)

B (k, l) = \{\begin{matrix} b, & k = i, l = j \\ - c, & k &NotEqual; i, l &NotEqual; j \end{matrix} - - - (7)

I＝-d (8)

其中，a,b,c,d均为正常数。

建立手势灰度图像的细胞神经网络模型，将均衡化后手势灰度图像各像素点(i,j)的灰度值作为细胞神经网络模型中对应细胞的输入u_ij，按照状态转移过程的公式进行迭代，直到整个细胞神经网络收敛，每个细胞存在输出y_ij(t)。根据输出方程可知，细胞神经网络的输出值y_ij(t)介于1和-1之间，当y_ij(t)为1时，代表全黑；当y_ij(t)为-1时，代表全白。

判断某像素点是否为边缘点的基本原理为：当某个像素值为全黑，即为+1时，如果其对应邻域内的各个像素值的和大于设定的阈值参数，则本像素不是边缘像素，此时像素值趋于全白；反之，如果，其对应邻域内的各个像素值的和小于设定的阀值参数，则本像素代表边缘像素，此时像素值趋于全黑。当本像素值为全白，即-1时，则无论其对应邻域内各个像素的值大小如何，本像素值都将趋于全白。

根据以上原理，本发明中判断某像素点是否为边缘点的方法为：遍历细胞神经网络中每个像素点对应的细胞元的输出值，当某个像素点的输出值在[0,1]范围内，如果其对应邻域内其他像素点的像素值和大于预设阈值，则本像素不是边缘像素，否则是边缘像素点；当输出值在[-1,0)范围内，不是边缘像素点。邻域像素值和的阈值是根据实际情况来设置的。

S204：结合手势形状特性进行手势细分割：

图3是结合手势形状特性进行手势细分割的流程图。如图3所示，本发明手势细分割包括以下步骤：

S301：提取连通区域及轮廓：

根据采用细胞神经网络得到的边缘像素点，求取连通区域，从而去除其他背景信息的干扰，只保留人的手部和脸部区域。本实施例中求取连通区域采用的算法为two_pass算法。然后提取连通区域的轮廓，本实施例采用搜索标记方法提取轮廓，具体流程为：对上面提取连通区域后的图像进行***性地扫描，如果遇到连通区域内的某一个点，则以该点为起始点，然后跟踪它的边缘，并对边缘上面的像素进行标记。当扫描的轮廓达到完整闭合，则回到上一个位置继续扫描，直到发现新的像素信息。提取连通区域和轮廓也可以根据需要选用其他方法。

S302：对每个连通区域进行指尖检测：

对于得到的每个连通区域分别进行指尖检测，从而判断是否为手势区域。一般情况下在进行手势识别时，手指都是分开的，因此可以通过曲率计算来进行指尖检测。图4是本发明指尖检测的示意图。如4所示，指尖检测的方法为：

遍历连通区域中的每个轮廓像素点，将该像素点作为基准点，坐标记为p(p_x,p_y,0)，(p_x,p_y)即表示该基准点在手势图像中的二维坐标，预设一个距离常数L，沿轮廓方向取p点前面的第L个点p₁(p_1x,p_1y,0)，则点p与点p₁组成一条直线，接着沿轮廓方向取点p后面的第L个点p₂(p_2x,p_2y,0)，则点p与点p₂也可以组成一条直线，这两条之间会形成一个夹角，该夹角记为α；将向量与向量之间夹角的余弦值作为将要计算的曲率结果，即曲率计算公式为：

c o s α = \frac{\overset{&RightArrow;}{{pp}_{1}} \cdot \overset{&RightArrow;}{{pp}_{2}}}{| \overset{&RightArrow;}{{pp}_{1}} | | \overset{&RightArrow;}{{pp}_{2}} |} - - - (9)

如果cosα大于预设曲率阈值T，则判定该点为待定指尖点。阈值T的大小是根据距离常数L来设置的，当距离常数L越大，阈值T也就越大。距离常数L通常也不能过小或过大，一般按照手指平均长度的四分之一到二分之一来设置。

对于手指的凹槽部分的干扰来说，可以通过向量与向量之间的向量积的符号来确定。通过图4可以看出，当点p位于指尖位置时向量积的符号与点p位于凹槽位置时向量积的符号不同，因此可以通过的符号来判断点p的位置。正是出于这个目的，才将点p、p₁和p₂的坐标以三维直角坐标方式表示。指尖位置的向量积的符号与遍历方向有关，当按照手势区域整体轮廓的顺时针遍历时，根据向量积的右手定则，指尖位置的向量积垂直于图像向内，即为负，当按照手势区域整体轮廓的逆时针遍历时(如图4中所示遍历方向)，指尖位置的向量积垂直于图像向外，即为正。根据指尖位置的向量积的符号，从而去除凹槽部分的干扰。即判断待定指尖点向量积的符号，如果与指尖位置对应的符号相同，则保留为待定指尖点，否则不保留。

S303：判定手势区域：

在检测到指尖点后，还需要对指尖点进行判断，从而去除人脸部分的某些部分因为角度问题而引起的曲率大于阈值的干扰，判定得到手势区域。本发明采用了两重判定方法：

首先判断连通区域中检测到的即y坐标最大的待定指尖点与检测到的y坐标最小的待定指尖点之间的y坐标差值是否超过人脸高度的一半，如果是，该连通区域不是手势区域，否则作为待定手势区域。这里之所以将距离大小设置为人脸高度的一半，是通过实验测试得出的，这样就可以在完整保留正确指尖点的前提下，去除人脸部分的干扰。

再进一步判断的每个待定手势区域中待定指尖点数量是否超过预设的数量阈值，如果是，则该连通区域为手势区域，否则不是。实际手势区域得到的指尖点数量的多少与曲率阈值T有关，因此在实际应用中，指尖点数量的阈值可以通过对若干个手势训练样本的实验结果进行统计得到。

S304：手势区域分割：

通过以上操作去除了人脸等其他连通区域的干扰，得到了手势区域。然而手势区域里面有可能不单单包括人的手掌部分，有可能还有手腕等部分。一般情况下，人的手势的有效信息都集中在人的手掌部分，手腕等部分的信息基本可以忽略。因此为了使得后期特征提取和跟踪的高效和有效，需要对手势区域进行分割，达到只保留手指和手掌部分的目的。

根据人手的形状特征，本发明根据手势的长度与手势的宽度的比值约等于2来实现对手势的分割。在进行分割之前，需要先知道手势区域的主方向，本实施例中求取手势主方向的方法为：求取手势区域的质心，然后求得质心向各个指尖点的向量，将这些向量进行平均，该平均向量的方向即为手势区域主方向。然后再根据手势区域的主方向进行手势的分割。本实施例采用的分割方法为：按手势区域主方向得到手势区域的外接矩形，与主方向平行所在边为长，与主方向垂直的边为宽，选择指尖点所在的宽边，从该宽边开始、沿长边截取距离为2倍宽边长度的外接矩形，该外接矩形内所包含的手势区域即为分割所要得到的只保留手指和手掌部分的手势区域。

S205：采用保留相位信息的傅里叶描述子提取手势特征：

对于步骤S204分割得到的手势区域，本发明设计了一种保留相位信息的傅里叶描述子以提取手势特征信息，从而去除传统傅里叶描述子的旋转不变性，达到区分旋转手势的目的。

离散傅里叶系数z(k)可以表示为：

z (k) = \frac{1}{n} Σ_{i = 1}^{n} p (i) e^{- j \frac{2 π i k}{n}}, k = 0, 1, ..., n - 1 - - - (10)

其中，p(i)表示离散序列中的第i个数据，n表示离散序列中的数据数量，e表示自然常数，j为虚数单位。本发明中，由于需要进行变换的是手势轮廓，因此离散序列p(i)是步骤S104分割得到的手势区域轮廓像素点中坐标的复数形式。

傅里叶逆变换可以表示为：

p (i) = Σ_{k = 0}^{n - 1} z (k) e^{j \frac{2 π i k}{n}}, i = 0, 1, ..., n - 1 - - - (11)

根据傅里叶变换的基本性质z(k)＝z^*(n-k)去除傅里叶变换形式z中的从K+1到n-K-1的高频部分，其中，这里的z*代表z的共轭复数形式；K的取值范围为：[0,n/2]。然后再对去除高频部分的z进行傅里叶逆变换，将得到和原傅里叶变换近似的曲线，但是该曲线变得更加平滑，这个曲线成为原傅里叶变化曲线的第K近似曲线。其中，上述所描述的傅里叶系数的子集{z(k)|n-K＜k≤K}则就是要用来提取手势特征的傅里叶描述子。

傅里叶描述子与形状的尺度、方向和曲线的起始位置都有一定的关系。因此，为了保证识别算法具有旋转、平移和尺度不变性，则需要对傅里叶描述子进行归一化操作。根据傅里叶变化的基本性质可以证明，用傅里叶系数表示轮廓时，系数幅值||z(k)||具有旋转不变性、平移不变性以及起点位置无关性，其中，0≤k≤n-1，又由于Z[0]不具有平移不变性，故将k的取值范围设置为[1,n-1]。为了实现傅里叶描述子的尺度不变性，可以将除Z[0]以外的每一个系数的幅值||Z(k)||除以||Z(1)||，从而达到尺度不变的特性。归一化操作之后的傅里叶描述子S[k′]可以表示为：

S [k^{'}] = \frac{| | z (k^{'}) | |}{| | z (1) | |} - - - (12)

其中，1≤k′≤n-1；|| ||代表取模运算符。

归一化傅里叶描述子的详细说明可以参见文献“宋瑞华.基于傅里叶描绘子的手势识别算法[D].西安电子科技大学，2008”。

本发明为了去除传统傅里叶描述子的旋转不变性，保留了旋转之后的相位信息，改进之后的傅里叶描述子的归一化形式可以表示为：

其中，表示手势区域主方向与x轴的夹角，j是虚数单位。上面的傅里叶描述子S[k′]保留了手势旋转的相位信息，故该描述子不具有旋转不变性。因此本发明采用除以外的的系数作为手势区域的特征。该特征具有平移和尺度不变性，并且与手势轮廓曲线的起始位置无关，同时又具有旋转可变性，该特征向量可以达到对旋转手势区分的目的。由于不同手势区域的轮廓点数量不一定相同，因此在实际应用中，只在傅里叶描述子中统一选择前Q个构成特征向量，Q的大小可以根据实际情况进行确定。

S102：根据训练样本训练BP神经网络：

将训练样本手势图像的特征向量作为训练样本输入BP神经网络，其对应的手势图像类别作为BP神经网络的输出，对BP神经网络进行训练。BP神经网络是一种常用的神经网络，其网络的具体构成和参数以及训练方法，在此不再赘述。

S103：对待识别样本进行手势识别：

将待识别手势图像的特征向量输入步骤S102训练好的BP神经网络中，输出识别得到的手势图像类别。

为了说明本发明的技术效果，对本发明进行了实验验证。选择的手势训练样本分为手势朝上、手势朝下、手势朝左、手势朝右四个部分，每部分的训练样本数量为80，同样从这四类图像中再选择测试样本，每部分测试样本数量40。为了展示方便，此处只选取手势朝上样本来进行实施过程说明，样本中每张图片的尺寸为256×256，灰度级为256。

首先需要对朝上样本进行图像去噪。由于样本图片的尺度大小为256×256，由于脉冲耦合神经网络用于图像降噪领域时，其神经元个数与待处理图像像素点是一一对应的，因此脉冲耦合神经网络的神经元个数设置为65536个，本实施例采用的脉冲耦合神经网络模型的参数设置为：神经元迭代次数τ＝10，神经元连接强度β＝3，动态门限参数θ_ij＝1，阈值输出的放大系数V_θ＝20，阈值函数的衰减系数a_θ＝0.2，然后利用发放特性对脉冲耦合神经网络进行检测，再通过检测结果判定得到噪声点，然后根据噪声点的类型，采用复合去噪算法进行去噪操作，其中复合去噪算法的参数设置为T₁＝3.5δ_ij，，其中S_k表示噪声窗口，噪声窗口大小和脉冲耦合神经网络的检测窗口大小一致，大小为3×3，T₂＝8。

对去噪后的手势图像进行直方图均衡化后，采用细胞神经网络检测得到手势图像中手势的边缘，实现对手势图像的粗分割，本实施例中，细胞神经网络中每个细胞的邻域的大小为3*3，所采用的模板为：

A = (\begin{matrix} 0 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 0 \end{matrix}), B = (\begin{matrix} - 1 & - 1 & - 1 \\ - 1 & 6 & - 1 \\ - 1 & - 1 & - 1 \end{matrix}), I = - 0.1

图5是手势粗分割的示例图。

然后结合手势形状特征对手势图像进行细分割。其中常数L的大小为80，曲率计算的阈值T的大小为0.5。图6是手势细分割的示例图。可以看到，进行手势细分割后，可以消除人脸等区域的影响，得到较为准确的手势区域。

然后再将细分割得到的手势区域的轮廓点坐标构建离散序列，进行傅里叶变换后得到傅里叶系数，然后根据式(13)进行归一化，将归一化后的傅里叶描述子中选择前200个构成手势特征向量。

采用训练样本的手势特征向量对BP神经网络进行训练，其中BP神经网络的输入层的个数由手势特征向量决定，输出层的个数由手势样本种类决定，本发明采用的输入层的个数为200，隐藏层的个数为10，输出层的个数为4。输出结果可以由二进制形式0001,0010,0100,1000表示，其中0001表示手势朝上，0010表示手势朝下，0100表示手势朝左，1000表示手势朝右，根据手势输出的结果判定手势属于何种类型。

为了验证本发明设计的基于脉冲耦合神经网络和复合去噪算法相结合的新型去噪算法的降噪效果的好坏，将本发明设计的去噪算法与单纯复合去噪算法和中值滤波做了对比分析，对比的主要指标是峰值信噪比PSNR。表1是本发明去噪算法与对比算法的PSNR对照表。

表1

从表1可以看出，在相同的噪声密度的情况下，本发明提出的去噪方法其PSNR的值明显高于中值滤波和单纯复合去噪算法的值。由此可见，本发明设计的结合脉冲耦合神经网络和复合去噪算法的去噪算法具有良好的去噪效果。

此外，还采用传统的傅里叶描述子的识别效果进行对比，对比指标为手势样本的识别率。表2是传统傅里叶描述子的手势样本识别结果统计表。表3是本发明傅里叶描述子的手势样本识别结果统计表。

表2

表3

通过对比表2和表3的结果可知，传统的傅里叶描述子不能很好的识别旋转较大的手势，识别率仅有71％左右，识别率较低，因此该方法用于旋转手势具有不同含义的场景时，效果不是很好。本发明改进的傅里叶描述子可以在容忍手势旋转一定的角度，虽然在角度旋转过大时会认为是两种不同的图像，但是通过实验验证本发明仍然达到了91％左右的识别率，取得了很好的手势识别效果。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于混合神经网络的手势识别方法，其特征在于，包括以下步骤：

分别按以下公式计算噪声点的两种噪声估计值H(i,j)和V(i,j)：

H(i,j)＝|a(i,j)-b(i,j)|

V (i, j) = \frac{| m_{1} (i, j) - a (i, j) | + | m_{2} (i, j) - a (i, j) |}{2}

其中k′＝1,2,…,n-1，表示手势区域主方向与x轴的夹角。

在傅里叶描述子中选择前Q个构成特征向量；

2.根据权利要求1所述的手势识别方法，其特征在于，步骤S1.1中阈值T₁＝3.5δ_ij，δ_ij表示像素点(i,j)的去噪窗口内所有像素点的平均绝对离差；阈值T₂为6～10的整数。

3.根据权利要求1所述的手势识别方法，其特征在于，步骤S1.3中，细胞神经网络中的反馈模板A为：

A (k, l) = {\begin{matrix} a, & k = i, l = j \\ 0, & k &NotEqual; i, l &NotEqual; j \end{matrix},

控制模板B为：

B (k, l) = \{\begin{matrix} b, & k = i, l = j \\ - c, & k &NotEqual; i, l &NotEqual; j \end{matrix},

阈值I＝-d，

其中(k,l)是以细胞神经网络中细胞C(i,j)为中心、边长为2r+1的邻域N_r(i,j)中的点，a,b,c,d均为正常数。

4.根据权利要求1所述的手势识别方法，其特征在于，步骤S1.4中，求取手势区域主方向的方法为：求取手势区域的质心，然后求得质心向各个指尖点的向量，将这些向量进行平均，该平均向量的方向即为手势区域主方向。