CN107133647A

CN107133647A - 一种快速手写体识别方法

Info

Publication number: CN107133647A
Application number: CN201710308717.6A
Authority: CN
Inventors: 欧阳建权; 胡谦磊; 唐欢容
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2017-05-04
Filing date: 2017-05-04
Publication date: 2017-09-05

Abstract

本发明涉及一种快速识别手写体数字的方法，其步骤包括：进行训练样本的HOG特征提取；将训练样本的HOG特征作为极限学习机的输入，并训练极限学习机的网络模型；将待识别图像提取HOG特征；通过训练的极限学习机识别图像。该方法，通过采用HOG特征提取和极限学习达到快速识别的手写字体的目的，具有快捷、方便、对待识别的图像像素质量要求度不高的特点。

Description

一种快速手写体识别方法

技术领域

本发明涉及一种识别方法，特别涉及一种手写体识别方法；属于计算机视觉、图像处理、机器学习领域。

背景技术

手写体数字识别具有广泛的应用前景，如邮政编码、统计报表、银行票据等。另外，近年来神经网络以其强大的学习能力和非线性映射能力解决了许多传统难题。同时，随着大数据时代的到来和云计算的兴起，许多学者都成功地采用神经网络的方法解决了手写体数字识别问题，并取得了不错的成果。随着计算机计算能力的提高和分布式计算的兴起，越来越多的学者都在成功采用神经网络的方法解决了手写体数字识别问题，并取得了不错的成果。但许多神经网络方法的训练时间过长，不适用于实时的手写数字识别场景中。如公开于2016年10月12日的申请号为CN201610346450.5的中国专利公开了一种基于动态样本选择策略的BP神经网络手写体识别***，其利用样本离决策边界的距离来动态选择样本，同时采用梯度下降算法优化网络权重，该方法虽能够取得较好的识别效果，但训练时间过长，不利于推广。而且对于模糊图像的识别不具有可靠性。为了减少训练时间，南洋理工大学黄广斌教授于2004年提出极限学习机(简称ELM)模型。

极限学习机，全称Extreme Learning Machine，简称ELM，由于其输入权值和隐层偏置是被随机赋予，无需迭代调整，所以它的网络训练速度远远超出其他分类器。同时因为没有采用梯度下降算法，因此避免了局部极小值问题。与CNN等深度学习模型相比，极限学习机的训练速度是它们的几十至几百倍。但是ELM的识别准确率依靠训练样本和待识别图像的清晰度，当训练样本或待识别图像的像素质量不高时，其分类的准确度将大幅降低。而梯度方向直方图特征提取方法能够较好的解决这一问题。

梯度方向直方图(Histogram of Oriented Gradient,简称HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。它对图像几何的和光学的形变都能保持很好的不变性。

发明内容

针对现有技术中基于动态样本选择策略的BP神经网络手写体识别***训练时间过长，极限学***衡，而且对于图像拍摄不清晰、模糊等情况下也能够具有较高识别率。

根据本发明的实施方案，提供一种快速手写体识别方法。

一种快速手写体识别方法，该方法包括以下步骤：

1)对图像样本进行HOG特征处理：对图像样本进行HOG处理，收集HOG特征，将HOG特征组合为HOG特征矩阵；

2)设置极限学习机网络模型参数：以图像样本的HOG特征矩阵作为极限学习机的网络输入，设置极限学习机网络模型的激活函数、隐层节点个数，并进行网络的训练；

3)读取快速手写体的待识别图像，并将图像转化为灰度图；

4)识别图像：对快速手写体的待识别图像的灰度图进行HOG特征处理，获取待识别图像的HOG特征，将待识别图像的HOG特征作为极限学习机的的参数输入极限学习机，进行图像识别。

在本发明中，所述步骤1)具体为：

1.1)整个图像规范化：采用gamma校正法将图像样本的颜色空间进行标准化，获得标准化图像；

1.2)计算图像梯度：分别计算标准化图像样本中每一个像素点横坐标和纵坐标方向的梯度，并据此计算每个像素位置的梯度方向值；

1.3)对原始图像进行切分：将原始图像分为n个细胞单元cell，每个细胞单元cell的大小为m*m，将a*a个相邻的细胞单元cell组成为一个联通区间block，相邻的联通区间block有重叠overlap，构建每一个细胞单元cell的特征向量；其中：n≥4，n＞m≥3，m＞a≥2；

1.4)为每个细胞单元cell构建梯度方向直方图：采用b个二进制bin的直方图来统计图像样本像素的梯度信息，也就是将细胞单元cell的梯度方向360度分成b个方向块；对细胞单元cell内每个像素用梯度方向在直方图中进行加权投影，可以得到这个细胞单元cell的梯度方向直方图，梯度大小就是作为投影的权值；其中：b≥2；

1.5)构建每一个联通区间block梯度方向直方图：将一个联通区间block内多有的细胞单元cell的特征向量串联起来，获得联通区间block的HOG特征；

1.6)联通区间block的HOG特征归一化：将联通区间block的HOG特征进行对比度归一化，获得联通区间block的归一化HOG特征；

1.7)收集HOG特征：将所有联通区间block的归一化HOG特征收集，组合成HOG特征矩阵。

作为优选，像素范围一般为20-100。n的范围16-64，m的范围4-28，a为2-8。

在本发明中，所述步骤1.1)中gamma校正法的gamma压缩公式为：I(x,y)＝I(x,y)^gamma，其中gamma为0.4-0.5，优选为0.42-0.48；gamma设为定值。

在本发明中，图像样本的颜色空间进行标准化为将图像灰度化。

在本发明中，所述步骤1.2)计算图像梯度，图像中像素点(x,y)计算方法如下：

G_x(x,y)＝H(x+1,y)-H(x-1,y)，

G_y(x,y)＝H(x,y+1)-H(x,y-1)，

式中G_X(x,y)，G_y(x,y)，H(x,y)分别表示输入图像中像素点(x,y)处的水平方向梯度、垂直方向梯度和像素值；像素点(x,y)处的梯度幅值和梯度方向分别为：

在本发明中，所述步骤1.3)中相邻的联通区间block有二分之一的区域重叠overlap。

在本发明中，所述步骤1.4)中加权投影是将每个像素用梯度方向映射到固定的角度范围。优选的是，角度范围为0-360度。

在本发明中，所述步骤1.6)归一化具体为：

设V为联通区间block的未归一化的HOG特征向量，归一化因子设为：其中：ε为很小的标准化产量，防止除数为0，取值范围在1e^-3到5e^-2之间的效果最好；v为图像的特征向量，是指v的二阶范数。

V_i取值如下：

若V_i>0.2,则截断取值为0.2，重新计算归一化因子；

通过归一化后，能对光照变化和阴影获得更好的效果。

在本发明中，所述将图像灰度化(或将图像转化为灰度图)采用rgb2gray函数。优选为，像素点I处的像素为I(R,G,B)，则I处的灰度化像素点的256级灰度转化公式为：I(x)＝0.29900×R+0.58700×G+0.11400×B。

在本发明中，所述激活函数为sigmoid。

在本发明中，所述隐层节点个数为600-1000，优选为700-900，例如800。

在本发明中，所述图像样本来源于MNIST数据集(http://yann.lecun.com/exdb/mnist/)和USPS数据集(http://www-i6.informatik.rwth-aachen.de/～keysers/usps.html)。

在本发明中，为了减少光照因素的影响，首先需要将整个图像进行规范化。在图像的纹理强度中，局部的表层曝光贡献的比重较大，所以，这种压缩处理能够有效地降低图像局部的阴影和光照变化。因为颜色信息作用不大，通常先转化为灰度图。

在本发明中，每一个联通区间block间是互有重叠的，这就意味着：每一个单元格的特征会以不同的结果多次出现在最后的特征向量中。我们将归一化之后的块描述符(向量)就称之为HOG描述符。相邻的联通区间block有二分之一的区域重叠(当重叠区域选为二分之一时，特征提取效果最好。

与现有技术相比较，本发明具有以下有益技术效果：

1、识别快速，且无需强大硬件作为支撑。特别适合触屏手机、IPad等移动终端设备。

2、在达到近似准确率时，本发明的训练时间远远少于其他方法，能够大大降低***的时间复杂度。

3、对于待识别的图像的清晰度和拍摄角度要求不高，适合在昏暗或比较复杂的拍摄情况下进行图像识别。

附图说明

图1为本发明一个具体实施例的流程图；

图2为本发明中使用的HOG特征的梯度方向分块示意图；

图3为为本发明中使用的HOG特征的block分块示意图，以一张图像的部分(前14行)为例进行说明。

具体实施方式

为了使本领域的技术人员更好的理解本申请的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

根据本发明的实施方案，提供一种快速手写体识别方法。

一种快速手写体识别方法，该方法包括以下步骤：

3)读取快速手写体的待识别图像，并将图像转化为灰度图；

在本发明中，所述步骤1)具体为：

G_x(x,y)＝H(x+1,y)-H(x-1,y)，

G_y(x,y)＝H(x,y+1)-H(x,y-1)，

在本发明中，所述步骤1.6)归一化具体为：

V_i取值如下：

若V_i>0.2,则截断取值为0.2，重新计算归一化因子；

通过归一化后，能对光照变化和阴影获得更好的效果。

在本发明中，所述激活函数为sigmoid。

实施例1

一种快速手写体识别方法，包括以下步骤：

A、对样本进行HOG特征处理：

A1、采用gamma校正法将图像样本的颜色空间进行标准化：其中Gamma压缩公式为：

I(x,y)＝I(x,y)^gamma，其中gamma＝0.45；

A2、分别计算图像梯度：计算图像横坐标和纵坐标方向的梯度，并据此计算每个像素位置的梯度方向值。图中像素点(x,y)计算方法如下：

G_x(x,y)＝H(x+1,y)-H(x-1,y)

G_y(x,y)＝H(x,y+1)-H(x,y-1)

式中G_X(x,y)，G_y(x,y)，H(x,y)分别表示输入图像中像素点(x,y)处的水平方向梯度、垂直方向梯度和像素值。像素点(x,y)处的梯度幅值和梯度方向分别为：

A3、对原始图像(像素为28*28)进行切分。我们将原始图像分为16个细胞单元(cell)，每个cell的大小为7*7，将2*2个相邻的cell单元组成为一个联通区间(block)。每个block的overlap为0.5(二分之一)，即每个block有1/2的区域重叠。所以block共有9个。这样，一个block内所有cell的特征向量串联起来便得到该block的HOG特征。

A4、为每个细胞单元构建梯度方向直方图：将图像分成16个细胞单元(cell)后，我们采用9个bin的直方图来统计这28*28个像素的梯度信息。也就是将cell的梯度方向360度分成9个方向块。对cell内每个像素用梯度方向在直方图中进行加权投影，可以得到这个cell的梯度方向直方图，就是该cell对应的9维特征向量(因为有9个bin)。梯度大小就是作为投影的权值的。这个像素的梯度方向是20-40度，假设其梯度大小是0.8，那么直方图第2个bin的计数就是0.8。

A5、构建block梯度方向直方图：将每2*2个cell组成一个block，一个block内所有cell的特征向量串联起来便得到该block的HOG特征。

A6、把这些局部直方图在图像的block进行对比度归一化。设V为block的未归一化的HOG特征向量，归一化因子设为：

(ε为很小的标准化产量，防止除数为0，取值范围在1e^-3到5e^-2之间的效果最好)。V_i取值如下：

若V_i>0.2,则截断取值为0.2，重新计算归一化因子。

通过归一化后，能对光照变化和阴影获得更好的效果。

A7、收集HOG特征：将检测窗口中所有block进行HOG特征的收集，并将它们结合成最终的特征向量供分类使用。

A、设置极限学习机网络模型参数，包括：激活函数、隐层节点个数。并进行网络的训练；

C、读取图片，并转化为灰度图。设像素点I处的像素为I(R,G,B),则I处的灰度化像

素点的256级灰度转化公式为：

I(x)＝0.29900×R+0.58700×G+0.11400×B；

D、识别图像，包括：

D1、对待识别图像按照A步骤进行HOG特征处理；

D2、将待识别图像的HOG特征作为极限学习机的输入，进行图像识别；

实施例2

步骤A，在服务端进行极限学习机的网络训练：

A1、以MNIST训练集为例(无需标准化gamma空间和颜色空间)，将训练样本进行HOG特征提取，并组成训练样本的HOG特征矩阵，HOG特征提取的参数选择如下：

bin的个数选为9个，即cell的梯度方向360度分成9个方向块，采用9个bin的直方图来统计像素的梯度信息；每一个细胞单元(cell)的大小选为7*7；每4个细胞单元(cell)组成一个联通区间(称为block)；每个block的之间有0.5的区域重叠，即overlap＝0.5，所以block共有9个。每个block有4个cell，每个cell有9个bin，统计每个bin上的像素梯度，所以每个cell对应9维特征向量。进而可以推出进行HOG特征提取后的数据从28*28降为4(cell)*9(bin)*9(block)；

A2、以HOG特征矩阵作为极限学习机的网络输入，训练极限学习机网络，隐层节点设置为800，激活函数选为sigmoid；

步骤B，客户端进行待识别图像获取，可通过照相或扫描等方式；

步骤C，待识别图像识别：

C1、对输入图像进行灰度化，采用MATLAB自带的rgb2gray函数；

C2、对待识别图像进行HOG特征提取；

C3、将待识别图像的HOG特征作为极限学习机的输入，输出即为该图像的分类类别。

Claims

1.一种快速手写体识别方法，该方法包括以下步骤：

3)读取快速手写体的待识别图像，并将图像转化为灰度图；

2.根据权利要求1所述的方法，其特征在于：所述步骤1)具体为：

3.根据权利要求2所述的方法，其特征在于：所述步骤1.1)中gamma校正法的gamma压缩公式为：I(x,y)＝I(x,y)^gamma，其中gamma为0.4-0.5，优选为0.42-0.48；和/或

图像样本的颜色空间进行标准化为将图像灰度化。

4.根据权利要求2所述的方法，其特征在于：所述步骤1.2)计算图像梯度，图像中像素点(x,y)计算方法如下：

G_x(x,y)＝H(x+1,y)-H(x-1,y)，

G_y(x,y)＝H(x,y+1)-H(x,y-1)，

<mrow> <mi>&alpha;</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>tan</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>G</mi> <mi>y</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>G</mi> <mi>x</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>.</mo> </mrow> 1

5.根据权利要求2所述的方法，其特征在于：所述步骤1.3)中相邻的联通区间block有二分之一的区域重叠overlap；和/或

所述步骤1.4)中加权投影是将每个像素用梯度方向映射到固定的角度范围。

6.根据权利要求2所述的方法，其特征在于：所述步骤1.6)归一化具体为：

设V为联通区间block的未归一化的HOG特征向量，归一化因子设为：其中：ε为很小的标准化产量，防止除数为0，取值范围在1e^-3到5e^-2之间；v为图像的特征向量，是指v的二阶范数；

V_i取值如下：

若V_i>0.2,则截断取值为0.2，重新计算归一化因子，

通过归一化后，能对光照变化和阴影获得更好的效果。

7.根据权利要求1-6中任一项所述的方法，其特征在于：所述将图像灰度化采用rgb2gray函数；优选为，像素点I处的像素为I(R,G,B)，则I处的灰度化像素点的256级灰度转化公式为：I(x)＝0.29900×R+0.58700×G+0.11400×B。

8.根据权利要求1所述的方法，其特征在于：所述激活函数为sigmoid；和/或

所述隐层节点个数为600-1000，优选为700-900。

9.根据权利要求1所述的方法，其特征在于：所述图像样本来源于MNIST数据集和USPS数据集。