CN104766101B

CN104766101B - 一种基于寻找特征值的k近邻手写识别***算法

Info

Publication number: CN104766101B
Application number: CN201510192532.4A
Authority: CN
Inventors: 姚剑敏; 郭太良; 林志贤; 叶芸; 林金堂; 郭明勇; 周雄图
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2015-04-22
Filing date: 2015-04-22
Publication date: 2018-02-06
Anticipated expiration: 2035-04-22
Also published as: CN104766101A

Abstract

本发明涉及一种基于寻找特征值的K近邻手写识别***算法，包括以下步骤：步骤S1：对字符图像进行预处理，将所述字符图像转化成1*A²二维矩阵；步骤S2：取不同字符的对照图像各B张作为训练集，经矩阵合并，阈值设定及数值重置得到其各字符对应的特征矩阵M；步骤S3：根据所述特征矩阵M及最近邻算法确定最终匹配的字符。本发明极大地降低了原本knn的计算复杂度和所需的存储空间，加快了手写输入的识别速度，让极大规模的最近邻的数据处理变为可能，并且该算法使每个训练集的字符都保持相对的独立，可以极大方便的将其转变为并行计算模型，进一步提升算法的执行速度和实用性。

Description

一种基于寻找特征值的K近邻手写识别***算法

技术领域

本发明涉及一种基于寻找特征值的K近邻手写识别***算法。

背景技术

手写字符识别是当前模式识别领域的研究热点，也是有难度的公开问题，由于其在生活中应用广泛，因此其具有深远的应用需求，近年来随着计算机技术和数字图像处理技术的飞速发展，手写识别在文字输入、电子商务、机器自动输入等场合已经获得成功的实际应用。

对于手写字符的识别，目前已经发展了很多种方法，其中有基于神经网络算法，基于概率统计算法，基于傅里叶变换算法，基于模板匹配算法和基于fisher分类算法等等，由于手写字体变体极多，识别效果仍然不理想。因此研究简单高效的手写识别依然是一个重要的研究方向。

发明内容

为实现上述目的，本发明采用如下技术方案：一种基于寻找特征值的K近邻手写识别***算法，其特征在于包括以下步骤：

步骤S1：对字符图像进行预处理，将所述字符图像转化成1*A²二维矩阵，且A=32；

步骤S2：取不同字符的对照图像各B张作为训练集，经矩阵合并，阈值设定及数值重置得到其各字符对应的特征矩阵M，且B=100；

步骤S3：根据所述特征矩阵M及最近邻算法确定最终匹配的字符。

在本发明一实施例中，所述步骤S1的具体内容如下：先将所述字符图像变成A*A像素的0-1图像，再将所述A*A像素的0-1图像展平成1*A²二维矩阵，其中0代表没有手写笔迹的地方，1代表有手写笔迹的地方；

在本发明一实施例中，所述步骤S2的具体内容如下：

步骤S21：取同一字符的对照图像B张作为训练集，对每一张对照图像进行如步骤S1所述的预处理，可得到B个1*A²二维矩阵，进行合并得到一个B*A²二维矩阵；

步骤S22：将所述B*A²二维矩阵中相同列的值进行相加，得到一个新的1*A²二维矩阵，所述新的1*A²二维矩阵中每个数的取值范围为（0，B）；

步骤S23：设定一阈值n，取步骤S22得到的1*A²二维矩阵中数值最大的n列，并将该n列的数值重置为1，其余A²-n列的数值重置为0，最终得到一个1*A²的0-1取值的二维矩阵M，M即为该字符的特征矩阵；

步骤S24：取其余字符按步骤S21至步骤S23处理，分别得到其相应的特征矩阵M。

在本发明一实施例中，所述步骤S3的具体内容如下：

步骤S31：将待识别图像按步骤S1处理，转化成1*A²二维矩阵；

步骤S32：将步骤S31得到的1*A²二维矩阵分别与步骤S2得到若干个特征矩阵M的倒置相乘，得到若干个特征值；

步骤S33：取所述若干个特征值最大的前i个特征值对应的B*A²二维矩阵，运用最近邻算法将i个B*A²二维矩阵分别与待识别图像对应的1*A²二维矩阵求得的欧式距离进行比较，取其中的最小值，所述最小值对应的字符即为最终匹配的字符。

本发明与现有技术相比具有以下有益效果：本发明极大减少了直接使用最近邻算法（knn）进行文字识别时的计算复杂度的问题及其所需要的大量存储空间，当直接使用knn进行100*1024的二维矩阵的匹配时，需要为每个测试向量做2000次距离计算，每个距离计算包括1024个维度浮点运算，总共要执行900次，而这个在匹配超过10⁷以上的字符时，其计算复杂度将是不可接受的。

附图说明

图1是本发明方法流程图。

图2是本发明实施例字符0的32*32像素0-1矩阵图。

图3是本发明实施例字符1的32*32像素0-1矩阵图。

图4是本发明实施例字符2的32*32像素0-1矩阵图。

图5是本发明实施例字符0生成的100*1024矩阵局部图。

图6是本发明实施例字符0特征矩阵局部图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于寻找特征值的K近邻手写识别***算法，其特征在于包括以下步骤：

步骤S1：对字符图像进行预处理，将所述字符图像转化成1*A²二维矩阵，于本实施例中基于计算精确度及方便计算机储存的角度出发，将A设为32，即生成1*1024二维矩阵，具体内容如下：先将所述字符图像变成32*32像素的0-1图像，再将所述32*32像素的0-1图像展平成1*1024二维矩阵，其中0代表没有手写笔迹的地方，1代表有手写笔迹的地方，如图2、图3、图4所示分别为字符0、1、2的32*32像素0-1矩阵图。

步骤S2：取不同字符的对照图像各B张作为训练集，经矩阵合并，阈值设定及数值重置得到其各字符对应的特征矩阵M，于本实施例中基于计算精确度及方便计算机储存的角度出发，将B设为100；

所述步骤S2的具体内容如下：

步骤S21：取同一字符的对照图像100张作为训练集，对每一张对照图像进行如步骤S1所述的预处理，可得到100个1*1024二维矩阵，进行合并得到一个100*1024二维矩阵；如图5所示为字符0生成的100*1024矩阵局部图。

步骤S22：将所述100*1024二维矩阵中相同列的值进行相加，得到一个新的1*1024二维矩阵，所述新的1*1024二维矩阵中每个数的取值范围为（0，100）；

步骤S23：设定一阈值n，取步骤S22得到的1*1024二维矩阵中数值最大的n列，并将该n列的数值重置为1，其余1024-n列的数值重置为0，最终得到一个1*1024的0-1取值的二维矩阵M，M即为该字符的特征矩阵，图6所示为字符0特征矩阵局部图。

所述步骤S3的具体内容如下：

步骤S31：将待识别图像按步骤S1处理，转化成1*1024二维矩阵；

步骤S33：取所述若干个特征值最大的前i个特征值对应的100*1024二维矩阵，运用最近邻算法将i个100*1024二维矩阵分别与待识别图像对应的1*1024二维矩阵求得的欧式距离进行比较，取其中的最小值，所述最小值对应的字符即为最终匹配的字符。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于寻找特征值的K近邻手写识别***方法，其特征在于包括以下步骤：

2.根据权利要求1所述的基于寻找特征值的K近邻手写识别***方法，其特征在于：所述步骤S1的具体内容如下：先将所述字符图像变成A*A像素的0-1图像，再将所述A*A像素的0-1图像展平成1*A²二维矩阵，其中0代表没有手写笔迹的地方，1代表有手写笔迹的地方。

3.根据权利要求1所述的基于寻找特征值的K近邻手写识别***方法，其特征在于：所述步骤S2的具体内容如下：

4.根据权利要求1所述的基于寻找特征值的K近邻手写识别***方法，其特征在于：所述步骤S3的具体内容如下：

步骤S31：将待识别图像按步骤S1处理，转化成1*A²二维矩阵；

步骤S32：将步骤S31得到的1*A²二维矩阵分别与步骤S2得到若干个特征矩阵M的转置相乘，得到若干个特征值；