CN109271882B

CN109271882B - 一种区分颜色的手写体汉字提取方法

Info

Publication number: CN109271882B
Application number: CN201810984203.7A
Authority: CN
Inventors: 彭艺; 尹玉梅; 祁俊辉
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2020-05-15
Anticipated expiration: 2038-08-28
Also published as: CN109271882A

Abstract

本发明涉及一种区分颜色的手写体汉字提取方法，属于图像文字处理技术领域。本发明获取具有多种颜色手写体汉字的图片后，首先进行灰度化、二值化处理，去除多余痕迹；然后利用均值滤波去除图片中的高斯加性白噪声，再次利用二值化去除图片中的背景信息；接着利用阈值逼近法对汉字进行行分割、列分割等操作，再对其进行单字符归一化处理和细化处理，并对其进行特征提取；最后对待识别字符的特征向量与标准手写体样本数据库中字符的特征向量运用马氏距离公式求二者的距离，选择对应距离最小的字符识别输出。本发明增加了当前依靠计算机对多种颜色手写体汉字进行识别的有效性和准确性。

Description

一种区分颜色的手写体汉字提取方法

技术领域

本发明涉及一种区分颜色的手写体汉字提取方法，属于图像文字处理技术领域。

背景技术

中小学生在平时写作业时，老师批改到比较好的作文，家长认为有保存价值，就想将其做成电子档，若用人工操作方式，不仅效率低还容易出错。若能够利用计算机技术实现去除老师批改痕迹后的作文并将其识别出来作为电子档保存，则具有很大的实用意义和现实意义。

目前，对于去除图片上的多余痕迹，主要依靠Photoshop技术，这一工作既耗时又繁琐，并且对个人的操作能力还有严格的要求，导致并没有大范围的流行开来。倘若采用一种智能的方法，就完全可以避免这些问题。现在对手写体汉字识别的技术也在逐步成熟，运用的领域也越来越广，将其运用到日常生活中，无疑会给人们的生活带来极大的方便。

发明内容

本发明要解决的技术问题是针对现有技术的局限和不足，提供一种区分颜色的手写体汉字提取方法，以解决现有技术对具有多种颜色手写体汉字进行识别时，针对性差、效率低等现象，致力于增加当前依靠计算机对多种颜色手写体汉字进行识别的有效性和准确性。

本发明的技术方案是：一种区分颜色的手写体汉字提取方法，其特征在于：获取具有多种颜色手写体汉字的图片后，首先进行灰度化、二值化处理，去除多余痕迹；然后利用均值滤波去除图片中的高斯加性白噪声，再次利用二值化去除图片中的背景信息；接着利用阈值逼近法对汉字进行行分割、列分割等操作，再对其进行单字符归一化处理和细化处理，并对其进行特征提取；最后对待识别字符的特征向量与标准手写体样本数据库中字符的特征向量运用马氏距离公式求二者的距离，选择对应距离最小的字符识别输出。

具体步骤为：

Step1：采集老师批改后的手写体汉字作文图片{P₁,P₂,…,P_N}，并将其生成数据库P存储在电脑本地；

Step2：对图片P_i,i∈[1,N]进行灰度化处理后，利用阈值M1进行二值化阈值处理，去除老师的批改痕迹，得到新的图片P′_i,i∈[1,N]，并生成新的数据库P′；

Step3：对图片P′_i,i∈[1,N]进行图片预处理，包括平滑去噪、二值化、行字切分、归一化和细化，具体如Step3.1～Step3.5所示；

Step3.1：平滑去噪；采用均值滤波法将图片P′_i,i∈[1,N]中的高频成分滤除；

Step3.2：二值化；将图片P′_i,i∈[1,N]利用阈值M2进行二值化阈值处理，从而保留图片中的汉字而去除图片中的背景；

Step3.3：行字切分；采用阈值逼近算法进行行分割，在此基础上进行字分割，考虑到手写字有重叠、连体等情况出现，采用分割线细化算法、消除过分割算法和交叠字断笔处理算法这三种算法来具体实现字分割，得到单个字符数据Q:{q₁,q₂,…,q_n,…,q_m}；

Step3.4：归一化；汉字经过行字切分后，得到的特征块大小不一，故采取归一化操作来统一特征块图像的尺寸，得到归一化的单个字符数据Q′:{q₁′,q₂′,…,q_n′,…,q_m′}；

Step3.5：细化；采用查表法对数据Q′进行细化，得到细化后的单个字符数据Q″:{q₁″,q₂″,…,q_n″,…,q_m″}；

Step4：对数据Q″中的汉字进行基于弹性网格的特征提取，包括粗***特征提取、外轮廓特征提取、内轮廓提取和方向像素特征提取，具体如Step4.1～Step4.4所示；

Step4.1：粗***特征提取；首先对Q″中的骨架图像进行内部区域填充处理，若像素点P为白色，则检测其上下左右四个方向是否有笔画，若都有笔画则认为该点为内部区域，将白色置为黑色，依次处理完所有白点；然后将填充图分成4×4共16个小块，统计每一小块黑色点数数量，构成16维粗***特征；

Step4.2：外轮廓特征提取；对Q″中的图像沿上下左右4个方向进行扫描，用弹性网格对扫描区域进行划分，统计每个区域第一次碰到笔画的面积，每个方向被分为了4个区域，每个区域阴影面积是1维特征，处理后，得到4×4＝16维特征；

Step4.3：内轮廓提取；对Q″中的图像沿上下左右4个方向扫描，扫描方式同外轮廓特征提取，统计第一次穿过笔画与第二次再次碰到笔画之间的面积，构成16维内轮廓特征；

Step4.4：方向像素特征提取；对Q′中的图像进行一阶微分运算，得到汉字的外部轮廓线图像；将外轮廓线图像分成8×8＝64个区域，统计每个小块中有效像素的方向线素累积和；

Step5：识别输出；最小距离分类器在特征空间中，用一个基准模板作为某一模式类的代表把待识别样本的特征向量与此基准模板之间的距离作为实现分类判决的依据，并将待识别样本与第Ι类基准样本的最小距离作为识别结果；采用马氏距离d_m(X,μ_i)来对距离进行测量，其具体表达式如式(1)所示；

其中，X＝(x₁,x₂,…,x_n)^T表示待识别样本A的特征向量，μ_i＝(μ_i1,μ_i2,…,μ_in)^T表示第Ι类模式的均值向量，σ_i＝(σ_i1,σ_i2,…,σ_in)^T表示第Ι类模式的均方差。

进一步地，所述步骤Step2中，根据二值化阈值法，调节阈值参数M1，对老师的笔迹与学生的笔迹进行二值化，令老师的笔迹的像素值为0，学生的笔迹的像素值为255；其中阈值参数M1可根据实际进行选取。

进一步地，所述步骤Step3.2中，根据二值化阈值法，调节阈值参数M2，从而保留图片中的汉字而去除图片中的背景；其中阈值参数M2可根据实际进行选取。

进一步地，所述步骤Step3.4中，对图像依次进行坐标中心化、X-shearing归一化、缩放归一化、旋转归一化，最后得到64×64大小的汉字点阵。

进一步地，所述步骤Step3.5中，图像细化指从原来的图中去掉一些点，但仍要保持原来的形状；判断一个点是否能去掉是以8个相邻点的情况来作为判据的，即必须满足内部点不能删除、孤立点不能删除、直线端点不能删除、如果P是边界点，去掉P后，如果连通分量不增加，则P可删除。

进一步地，所述步骤Step4中，弹性网格就是根据汉字图像的笔画分布用非均匀的网线划分汉字得到的非均匀网格；而非均匀网线是根据汉字图像在水平、垂直两个方向上的直方图投影来确定的。

进一步地，所述步骤Step5中，选取的模板标准库是国家“863”标准手写体汉字样本数据库-HCL2000。

本发明的有益效果是：主要解决了现有技术对具有多种颜色手写体汉字进行识别时，针对性差、效率低等现象，增加了当前依靠计算机对多种颜色手写体汉字进行识别的有效性和准确性。

附图说明

图1是本发明总流程示意图；

图2是本发明图像预处理示意图；

图3是本发明字符特征提取流程示意图；

图4是本发明字符识别示意图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1-4所示，一种区分颜色的手写体汉字提取方法，其特征在于：获取具有多种颜色手写体汉字的图片后，首先进行灰度化、二值化处理，去除多余痕迹；然后利用均值滤波去除图片中的高斯加性白噪声，再次利用二值化去除图片中的背景信息；接着利用阈值逼近法对汉字进行行分割、列分割等操作，再对其进行单字符归一化处理和细化处理，并对其进行特征提取；最后对待识别字符的特征向量与标准手写体样本数据库中字符的特征向量运用马氏距离公式求二者的距离，选择对应距离最小的字符识别输出。

具体步骤为：

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种区分颜色的手写体汉字提取方法，其特征在于：获取具有多种颜色手写体汉字的图片后，首先进行灰度化、二值化处理，去除多余痕迹；然后利用均值滤波去除图片中的高斯加性白噪声，再次利用二值化去除图片中的背景信息；接着利用阈值逼近法对汉字进行行分割、列分割，再对其进行单字符归一化处理和细化处理，并对其进行特征提取；最后对待识别字符的特征向量与标准手写体样本数据库中字符的特征向量运用马氏距离公式求二者的距离，选择对应距离最小的字符识别输出；

具体步骤为：

Step3.3：行字切分；采用阈值逼近算法进行行分割，在此基础上进行字分割，考虑到手写字有重叠、连体出现，采用分割线细化算法、消除过分割算法和交叠字断笔处理算法这三种算法来具体实现字分割，得到单个字符数据Q:{q₁,q₂,…,q_n,…,q_m}；

2.根据权利要求1所述的区分颜色的手写体汉字提取方法，其特征在于：所述步骤Step2中，根据二值化阈值法，调节阈值参数M1，对老师的笔迹与学生的笔迹进行二值化，令老师的笔迹的像素值为0，学生的笔迹的像素值为255。

3.根据权利要求1所述的区分颜色的手写体汉字提取方法，其特征在于：所述步骤Step3.2中，根据二值化阈值法，调节阈值参数M2，从而保留图片中的汉字而去除图片中的背景。

4.根据权利要求1所述的区分颜色的手写体汉字提取方法，其特征在于：所述步骤Step3.4中，对图像依次进行坐标中心化、X-shearing归一化、缩放归一化、旋转归一化，最后得到64×64大小的汉字点阵。

5.根据权利要求1所述的区分颜色的手写体汉字提取方法，其特征在于：所述步骤Step3.5中，图像细化指从原来的图中去掉一些点，但仍要保持原来的形状；判断一个点是否能去掉是以8个相邻点的情况来作为判据的，即必须满足内部点不能删除、孤立点不能删除、直线端点不能删除、如果P是边界点，去掉P后，如果连通分量不增加，则P可删除。

6.根据权利要求1所述的区分颜色的手写体汉字提取方法，其特征在于：所述步骤Step4中，弹性网格就是根据汉字图像的笔画分布用非均匀的网线划分汉字得到的非均匀网格；而非均匀网线是根据汉字图像在水平、垂直两个方向上的直方图投影来确定的。

7.根据权利要求1所述的区分颜色的手写体汉字提取方法，其特征在于：所述步骤Step5中，选取的模板标准库是国家“863”标准手写体汉字样本数据库-HCL2000。