CN110020655A

CN110020655A - 一种基于二值化的字符去噪方法及终端

Info

Publication number: CN110020655A
Application number: CN201910316926.4A
Authority: CN
Inventors: 庄国金; 郝占龙; 杜保发; 陈文传; 吴建杭; 林玉玲; 方恒凯
Original assignee: Xiamen Shang Ji Network Technology Co Ltd
Current assignee: Xiamen Shang Ji Network Technology Co Ltd
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2019-07-16
Anticipated expiration: 2039-04-19
Also published as: CN110020655B

Abstract

本发明涉及一种基于二值化的字符去噪方法及终端，属于数据处理领域。本发明通过利用所有数字和字母的最大垂直穿越数为3这一现象，先从单字符图像中识别出数字或字母字符的主连通域，再将单字符图像中的其它连通域依次与主连通域作为一个整体看待，若将主连通域与单字符图像中的一个除主连通域之外的连通域作为整体时，其最大垂直穿越数大于3，则说明该连通域不能与主连通域组合形成一个数字或字母，该连通域是噪点连通域，应将其删除。提高了去除英文和数字字符图像的噪点连通域的准确度。

Description

一种基于二值化的字符去噪方法及终端

技术领域

本发明涉及一种基于二值化的字符去噪方法及终端，属于数据处理领域。

背景技术

为了提高字符识别的准确度，在识别字符之前需要先对字符图像进行去噪处理，以减少干扰。常用的对字符图像进行去噪的方法具体为，搜索二值化的字符图像中面积较小的无效连通区域，并将其删除。例如，面积小于5个像素点的连通区域被自动认为孤立的噪点连通域，将孤立的噪点连通域删除，以减少干扰信息。但是，上述方法只能够识别面积较小的噪点连通域，无法识别出面积较大的噪点连通域，去噪效果差。

发明内容

本发明所要解决的技术问题是：如何提高去除英文和数字字符图像的噪点连通域的准确度。

为了解决上述技术问题，本发明采用的技术方案为：

本发明提供一种基于二值化的字符去噪方法，包括：

S1、二值化一单字符的字符图像，得到单字符图像；

S2、检测所述单字符图像的连通域，得到第一连通域集合；

S3、统计所述第一连通域集合中所有连通域的高度的平均值，得到平均高度；

S4、从所述第一连通域集合中获取高度大于所述平均高度的二分之一的连通域，得到第二连通域集合；

S5、标记所述第二连通域集合中像素点个数最多的一连通域为主连通域；

S6、获取所述单字符图像中的第三连通域和所述主连通域所在的区域，得到第一待去噪图像；所述第三连通域为所述第一连通域集合中除所述主连通域之外的任一连通域；

S7、按序获取位于所述第一待去噪图像同一列的像素点，得到第一像素点有序集合；

S8、统计所述第一像素点有序集合中，一黑色像素点的下一个像素点为白色的次数；将所述次数加一，得到垂直穿越次数；

S9、遍历所述第一待去噪图像的所有列，得到最大垂直穿越次数；

S10、若所述第一待去噪图像的最大垂直穿越数大于3，则在所述单字符图像上删除所述第三连通域；

S11、重复步骤S6至步骤S10，直至所述第二连通域集合被遍历。

优选地，还包括：

S12、从第三连通域集合中获取一连通域，得到第四连通域；所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域；

S13、获取所述单字符图像中的第四连通域和所述主连通域所在的区域，得到第二待去噪图像；

S14、按序获取位于所述第二待去噪图像同一行的像素点，得到第二像素点有序集合；

S15、统计所述第二像素点有序集合中，一黑色像素点的下一个像素点为白色的次数；将所述次数加一，得到水平穿越次数；

S16、遍历所述第二待去噪图像的所有行，得到最大水平穿越次数；

S17、若所述第二待去噪图像的最大水平穿越数大于4，则在所述单字符图像上删除所述第四连通域；

S18、重复步骤S12至步骤S17，直至所述第三连通域集合被遍历。

优选地，还包括：

S19、从第三连通域集合中获取一连通域，得到第五连通域；所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域；

S20、获取所述单字符图像中的第五连通域和所述主连通域所在的区域，得到第三待去噪图像；

S21、获取所述第五连通域中的一像素点，得到第五像素点；

S22、从所述单字符图像中获取所述第五像素点所在行的图像，得到第五行图像；

S23、从所述单字符图像中获取所述第五像素点所在列的图像，得到第五列图像；

S24、若所述第五行图像中，所述第五像素点的左方和所述第五像素点的右方都存在所述主连通域的像素点，且所述第五列图像中，所述第五像素点的上方和所述第五像素点的下方都存在所述主连通域的像素点，则从所述单字符图像中删除所述第五连通域；

S25、重复执行步骤S21至步骤S24，直至所述第五连通域被遍历，或所述第五连通域被删除；

S26、重复执行步骤S19至步骤S25，直至所述第三连通域集合被遍历。

优选地，还包括：

S27、从第三连通域集合中获取一连通域，得到第六连通域；所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域；

S28、预设第六噪点数的值为零；

S29、获取所述第六连通域中的一像素点，得到第六像素点；

S30、从所述单字符图像中获取所述第六像素点所在行的图像，得到第六行图像；

S31、从所述单字符图像中获取所述第六像素点所在列的图像，得到第六列图像；

S32、若所述第六行图像中，所述第六像素点的左方和所述第六像素点的右方都存在所述主连通域的像素点，且所述第六列图像中，所述第六像素点的下方存在所述主连通域的像素点，则将所述第六噪点数的值加一；

S33、重复执行步骤S29至步骤S32，直至所述第六连通域被遍历；

S34、若所述第六噪点数与所述第六连通域的像素点总数的比值小于五分之四，则删除所述第六连通域；

S35、重复执行步骤S27至步骤S34，直至所述第三连通域集合被遍历。

优选地，还包括：

S36、从第三连通域集合中获取一连通域，得到第七连通域；所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域；

S37、预设第七噪点数的值为零；

S38、获取所述第七连通域中的一像素点，得到第七像素点；

S39、从所述单字符图像中获取所述第七像素点所在行的图像，得到第七行图像；

S40、从所述单字符图像中获取所述第七像素点所在列的图像，得到第七列图像；

S41、若所述第七行图像中，所述第七像素点的右方存在所述主连通域的像素点，且所述第七列图像中，所述第七像素点的上方和所述第七像素点的下方都存在所述主连通域的像素点，则将所述第七噪点数的值加一；

S42、重复执行步骤S38至步骤S41，直至所述第七连通域被遍历；

S43、若所述第七噪点数与所述第七连通域的像素点总数的比值小于五分之四，则删除所述第七连通域；

S44、重复执行步骤S36至步骤S43，直至所述第三连通域集合被遍历。

优选地，还包括：

S45、从第三连通域集合中获取一连通域，得到第八连通域；所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域；

S46、预设第八噪点数的值为零；

S47、获取所述第八连通域中的一像素点，得到第八像素点；

S48、从所述单字符图像中获取所述第八像素点所在行的图像，得到第八行图像；

S49、从所述单字符图像中获取所述第八像素点所在列的图像，得到第八列图像；

S50、若所述第八行图像中，所述第八像素点的左方和右方都存在所述主连通域的像素点，且所述第八列图像中，所述第八像素点的上方存在所述主连通域的像素点，则将所述第八噪点数的值加一；

S51、重复执行步骤S47至步骤S50，直至所述第八连通域被遍历；

S52、若所述第八噪点数与所述第八连通域的像素点总数的比值小于五分之四，则删除所述第八连通域；

S53、重复执行步骤S45至步骤S52，直至所述第三连通域集合被遍历。

优选地，还包括：

S54、从第三连通域集合中获取一连通域，得到第九连通域；所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域；

S55、获取所述第八连通域中的一像素点，得到第九像素点；

S56、从所述单字符图像中获取所述第九像素点所在行的图像，得到第九行图像；

S57、从所述单字符图像中获取所述第九像素点所在列的图像，得到第九列图像；

S58、若所述第九行图像中，所述第九像素点的左方存在所述主连通域的像素点，且所述第九列图像中，所述第九像素点的上方和所述第九像素点的下方均存在所述主连通域的像素点，则删除所述第九连通域；

S59、重复执行步骤S55至步骤S58，直至所述第九连通域被遍历或所述第九连通域被删除；

S60、重复执行步骤S54至步骤S59，直至所述第三连通域集合被遍历。

本发明还提供一种基于二值化的字符去噪终端，包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

S1、二值化一单字符的字符图像，得到单字符图像；

S2、检测所述单字符图像的连通域，得到第一连通域集合；

优选地，还包括：

S21、获取所述第五连通域中的一像素点，得到第五像素点；

S26、重复执行步骤S19至步骤S25，直至所述第三连通域集合被遍历；

S28、预设第六噪点数的值为零；

S29、获取所述第六连通域中的一像素点，得到第六像素点；

S35、重复执行步骤S27至步骤S34，直至所述第三连通域集合被遍历；

S37、预设第七噪点数的值为零；

S38、获取所述第七连通域中的一像素点，得到第七像素点；

S44、重复执行步骤S36至步骤S43，直至所述第三连通域集合被遍历；

S46、预设第八噪点数的值为零；

S47、获取所述第八连通域中的一像素点，得到第八像素点；

S53、重复执行步骤S45至步骤S52，直至所述第三连通域集合被遍历；

S55、获取所述第八连通域中的一像素点，得到第九像素点；

本发明具有如下有益效果：

1、本发明提供一种基于二值化的字符去噪方法及终端，本发明利用所有数字和字母的最大垂直穿越数为3这一现象，先从单字符图像中识别出数字或字母字符的主连通域，再将单字符图像中的其它连通域依次与主连通域作为一个整体看待，若将主连通域与单字符图像中的一个除主连通域之外的连通域作为整体时，其最大垂直穿越数大于3，则说明该连通域不能与主连通域组合形成一个数字或字母，该连通域是噪点连通域，应将其删除。区别于现有技术只能识别出面积较小的噪点连通域，本发明利用所有数字和字母的最大垂直穿越数为3这一现象，能够精确识别出不符合这一现象的所有噪点连通域，提高了去除英文和数字字符图像的噪点连通域的准确度。

2、进一步地，本发明利用所有数字和字母的最大水平穿越数为4这一现象，先从单字符图像中识别出数字或字母字符的主连通域，再将单字符图像中的其它连通域依次与主连通域作为一个整体看待，若将主连通域与单字符图像中的一个除主连通域之外的连通域作为整体时，其最大水平穿越数大于4，则说明该连通域不能与主连通域组合形成一个数字或字母，该连通域是噪点连通域，应将其删除。区别于现有技术只能识别出面积较小的噪点连通域，本发明利用所有数字和字母的最大水平穿越数为4这一现象，能够精确识别出不符合这一现象的所有噪点连通域，提高了去除英文和数字字符图像的噪点连通域的准确度。

3、进一步地，针对字符abdegopqBDOQ0，出现在封闭区域内的噪点沿上下左右四个方向均能够找到主连通域，本发明利用这一现象，精确地删除上述字符封闭区域内的噪点连通域，有利于提高去除英文和数字字符图像的噪点连通域的准确度。

4、进一步地，针对字符jyuxkYJUHXKNZ2，部分噪点沿左右下三个方向均能够找到主连通域。同时，为了避免“W”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象，本发明限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时，才认为该连通域是噪点连通域。本发明利用这一现象，精确地删除被上述字符三边包含的噪点连通域，有利于提高去除英文和数字字符图像的噪点连通域的准确度。

5、进一步地，针对字符xX3，部分噪点沿右上下三个方向均能够找到主连通域。同时，为了避免“3”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象，本发明限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时，才认为该连通域是噪点连通域。本发明利用这一现象，精确地删除被上述字符三边包含的噪点连通域，有利于提高去除英文和数字字符图像的噪点连通域的准确度。

6、进一步地，针对字符hkAHXRKN，部分噪点沿左右上三个方向均能够找到主连通域。同时，为了避免“M”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象，本发明限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时，才认为该连通域是噪点连通域。本发明利用这一现象，精确地删除被上述字符三边包含的噪点连通域，有利于提高去除英文和数字字符图像的噪点连通域的准确度。

7、进一步地，针对字符ceksxzRCEFKGXZ2，部分噪点沿左上下三个方向均能够找到主连通域。本发明利用这一现象，精确地删除被上述字符三边包含的噪点连通域，有利于提高去除英文和数字字符图像的噪点连通域的准确度。

附图说明

图1为本发明提供的一种基于二值化的字符去噪方法的具体实施方式的流程框图；

图2为“E”的单字符图像示意图；

图3为“M”的单字符图像示意图；

图4为“D”的单字符图像示意图；

图5为“U”的单字符图像示意图；

图6为“3”的单字符图像示意图；

图7为“R”的单字符图像示意图；

图8为“G”的单字符图像示意图；

图9为“W”的单字符图像示意图；

图10为“3”的另一单字符图像示意图；

图11为“M”的单字符图像示意图；

图12为本发明提供的一种基于二值化的字符去噪终端的具体实施方式的结构框图；

标号说明：

1、处理器； 2、存储器。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

请参照图1至图12，

本发明的实施例一为：

如图1所示，本实施例提供一种基于二值化的字符去噪方法，包括：

S1、二值化一单字符的字符图像，得到单字符图像。

其中，图像二值化就是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的黑白效果的过程。例如，本实施例将字符图像中的单字符设置为黑色，将字符图像的背景设置为白色。先将字符图像进行二值化处理能够有效区分出字符和背景，为后续去除噪声提高效率。

S2、检测所述单字符图像的连通域，得到第一连通域集合。

其中，连通域指一个所有的彼此连通的点构成的集合，彼此连通的点形成了一个区域，而不连通的点形成了不同的区域。

例如，图2为单字符“E”的示意图，该单字符图像中包含两个连通域。

S5、标记所述第二连通域集合中像素点个数最多的一连通域为主连通域。

其中，在正常情况下，字母和数字都只有一个连通域。若出现断笔或存在噪点连通域等情况，可能会存在多个连通域。本发明通过高度和像素点个数从多个连通域中筛选出字符的主干区域，即主连通域。

例如，图2所示的单字符图像的主连通域为“E”。

S6、获取所述单字符图像中的第三连通域和所述主连通域所在的区域，得到第一待去噪图像；所述第三连通域为所述第一连通域集合中除所述主连通域之外的任一连通域。

例如，图2中除主连通域之外只有一个连通域，因此，图2即为第一待去噪图像。

S7、按序获取位于所述第一待去噪图像同一列的像素点，得到第一像素点有序集合。

例如，获取图2中，E的中心点所在列的像素点，得到第一像素点有序集合。

S8、统计所述第一像素点有序集合中，一黑色像素点的下一个像素点为白色的次数；将所述次数加一，得到垂直穿越次数。

例如，图2中，E的中心点所在列的垂直穿越次数为4。

S9、遍历所述第一待去噪图像的所有列，得到最大垂直穿越次数。

例如，遍历图2的所有列，得到图2的最大垂直穿越次数为4。

S10、若所述第一待去噪图像的最大垂直穿越数大于3，则在所述单字符图像上删除所述第三连通域。

其中，将不属于字母或数字字符的噪点连通域删除即去噪。

例如，第一待去燥图像的最大垂直穿越数大于3，说明第三连通域（即图2中“E”上方的线段）不能与主连通域（E）组成一个数字或字母，将第三连通域删除。

其中，将单字符图像中除主连通域之外的所有连通域依次与主连通域组合，判断是噪点连通域还是字符区域。

其中，统计0~9和a~z、A~Z,正常的英文数字垂直穿越数最多为3个。正常字符如果有部分断笔，断笔的连通域是不会导致穿越数超过正常字符的最大垂直穿越数，所以我们可以根据是否造成最大穿水平越数异常来决定是否可以去除噪点。噪点连通域会造成该区域大于3条垂直穿越数，可以统计到所有英文数字字符的垂直穿越数为3的有字符：egszBGESZ25689，噪点连通域会造成这些字符垂直穿越数超出3。这些噪点可以不限位置，只要造成字符最大连通域大于正常的最大值，如正常字符中垂直最大连通域最大为3，如果噪点连通域造成了整体字符大于3，应该将此连通域视为噪点剔除。

本实施例利用所有数字和字母的最大垂直穿越数为3这一现象，先从单字符图像中识别出数字或字母字符的主连通域，再将单字符图像中的其它连通域依次与主连通域作为一个整体看待，若将主连通域与单字符图像中的一个除主连通域之外的连通域作为整体时，其最大垂直穿越数大于3，则说明该连通域不能与主连通域组合形成一个数字或字母，该连通域是噪点连通域，应将其删除。区别于现有技术只能识别出面积较小的噪点连通域，本实施例利用所有数字和字母的最大垂直穿越数为3这一现象，能够精确识别出不符合这一现象的所有噪点连通域，提高了去除英文和数字字符图像的噪点连通域的准确度。

S12、从第三连通域集合中获取一连通域，得到第四连通域；所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域。

例如，图3为“M”的单字符图像，“M”为主连通域，“M”右边的线段为第四连通域。

S13、获取所述单字符图像中的第四连通域和所述主连通域所在的区域，得到第二待去噪图像。

例如，图3中除主连通域之外只有一个连通域，因此，图3即为第二待去噪图像。

S14、按序获取位于所述第二待去噪图像同一行的像素点，得到第二像素点有序集合。

例如，第二像素点有序集合为“M”中心点所在行的所有像素点。

S15、统计所述第二像素点有序集合中，一黑色像素点的下一个像素点为白色的次数；将所述次数加一，得到水平穿越次数。

例如，图3中“M”中心点所在行的水平穿越次数为5。

S16、遍历所述第二待去噪图像的所有行，得到最大水平穿越次数。

例如，遍历图3的所有行，得到图3的最大水平穿越次数为4。

S17、若所述第二待去噪图像的最大水平穿越数大于4，则在所述单字符图像上删除所述第四连通域。

例如，第二待去燥图像的最大水平穿越数大于4，说明第四连通域（即图3中“M”右边的线段）不能与主连通域（M）组成一个数字或字母，将第四连通域删除。

其中，统计0~9和a~z、A~Z,正常的英文数字水平穿越数最多为4个。正常字符如果有部分断笔，断笔的连通域是不会导致穿越数超过正常字符的最大水平穿越数，所以我们可以根据是否造成最大水平穿越数异常来决定是否可以去除噪点。噪点连通域会造成该区域大于4条水平穿越数，噪点连通域会造成这些字符垂直穿越数超出3。统计字符水平穿越数为4的有字符：mwMW，噪点连通域会造成这些字符的水平穿越数超出4，这些噪点可以不限位置，只要造成字符最大连通域大于正常的最大值，应该将此连通域视为噪点剔除。

本实施例利用所有数字和字母的最大水平穿越数为4这一现象，先从单字符图像中识别出数字或字母字符的主连通域，再将单字符图像中的其它连通域依次与主连通域作为一个整体看待，若将主连通域与单字符图像中的一个除主连通域之外的连通域作为整体时，其最大水平穿越数大于4，则说明该连通域不能与主连通域组合形成一个数字或字母，该连通域是噪点连通域，应将其删除。区别于现有技术只能识别出面积较小的噪点连通域，本实施例利用所有数字和字母的最大水平穿越数为4这一现象，能够精确识别出不符合这一现象的所有噪点连通域，提高了去除英文和数字字符图像的噪点连通域的准确度。

S19、从第三连通域集合中获取一连通域，得到第五连通域；所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域。

例如，图4为“D”的单字符图像，“D”为主连通域，“D”内部的点为第五连通域。

S20、获取所述单字符图像中的第五连通域和所述主连通域所在的区域，得到第三待去噪图像。

例如，图4中除主连通域之外只有一个连通域，因此，图4即为第三待去噪图像。

S21、获取所述第五连通域中的一像素点，得到第五像素点。

例如，图4中第五连通域只存在一个像素点，即图4中“D”的封闭区域内部的点即为第五像素点。

S22、从所述单字符图像中获取所述第五像素点所在行的图像，得到第五行图像。

S23、从所述单字符图像中获取所述第五像素点所在列的图像，得到第五列图像。

S24、若所述第五行图像中，所述第五像素点的左方和所述第五像素点的右方都存在所述主连通域的像素点，且所述第五列图像中，所述第五像素点的上方和所述第五像素点的下方都存在所述主连通域的像素点，则从所述单字符图像中删除所述第五连通域。

例如，第五像素点沿着上、下、左、右四个方向都能够到达主连通域，则第五像素点所属的第五连通域为噪点连通域，不能与主连通域构成数字或字母，应删除。

S25、重复执行步骤S21至步骤S24，直至所述第五连通域被遍历，或所述第五连通域被删除。

其中，若第五连通域已被删除，说明通过之前遍历的像素点已经确认第五连通域为噪点连通域，无需继续遍历操作。若第五连通域的所有像素点都被遍历了，这说明第五连通域属于数字或字母字符的一部分。

其中，针对字符abdegopqBDOQ0，出现在封闭区域内的噪点沿上下左右四个方向均能够找到主连通域，本实施例利用这一现象，精确地删除上述字符封闭区域内的噪点连通域，有利于提高去除英文和数字字符图像的噪点连通域的准确度。

S27、从第三连通域集合中获取一连通域，得到第六连通域；所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域。

例如，图5为“U”的单字符图像，“U”为主连通域，“U”内部的线段为第六连通域。

S28、预设第六噪点数的值为零。

其中，第七噪点数的初始值为0。

S29、获取所述第六连通域中的一像素点，得到第六像素点。

例如，如图5所示，当前的第六像素点为“U”内部线段（第六连通域）最下方的像素点。

S30、从所述单字符图像中获取所述第六像素点所在行的图像，得到第六行图像。

S31、从所述单字符图像中获取所述第六像素点所在列的图像，得到第六列图像。

S32、若所述第六行图像中，所述第六像素点的左方和所述第六像素点的右方都存在所述主连通域的像素点，且所述第六列图像中，所述第六像素点的下方存在所述主连通域的像素点，则将所述第六噪点数的值加一。

例如，如图5所示，第六行图像为“U”内部线段最下方的像素点（第六像素点）所在行，在第六行图像中，第六像素点的左方和右方都存在主连通域的像素点。第六列图像为“U”内部线段最下方的像素点（第六像素点）所在列，在第六列图像中，第六像素点的下方存在主连通域的像素点。因此，第六像素点被主连通域“U”的左右下三边包含，第六像素点极有可能是噪点，第六噪点数的值加一。

S33、重复执行步骤S29至步骤S32，直至所述第六连通域被遍历。

例如，如图5所示，在第六连通域被遍历后，经统计得出，第六连通域中被主连通域三边包围的噪点数（第六噪点数）为4，第六连通域的像素点总数为6。

S34、若所述第六噪点数与所述第六连通域的像素点总数的比值小于五分之四，则删除所述第六连通域。

例如，如图5所示，第六噪点数与所述第六连通域的像素点总数的比值为六分之四，小于五分之四，因此，判断第六连通域为噪点连通域，删除第六连通域。

例如，如图9所示，由于字母W存在断笔的情况，W具有两个连通域（第一连通域和第二连通域），其中，第一连通域为主连通域，包含W的大部分像素点。虽然第二连通域中的像素点都被主连通域的左右下三边包围，但是第二连通域并不是噪点连通域。因此，本实施例为了避免“W”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象，本实施例限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时，才认为该连通域是噪点连通域。

其中，针对字符jyuxkYJUHXKNZ2，部分噪点沿左右下三个方向均能够找到主连通域。同时，为了避免“W”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象，本实施例限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时，才认为该连通域是噪点连通域。本实施例利用这一现象，精确地删除被上述字符三边包含的噪点连通域，有利于提高去除英文和数字字符图像的噪点连通域的准确度。

S36、从第三连通域集合中获取一连通域，得到第七连通域；所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域。

例如，图6为“3”的单字符图像，“3”为主连通域，“3”左侧的线段为第七连通域。

S37、预设第七噪点数的值为零。

其中，第七噪点数的初始值为0。

S38、获取所述第七连通域中的一像素点，得到第七像素点。

例如，如图6所示，当前的第七像素点为“3”左侧线段（第七连通域）最右方的像素点。

S39、从所述单字符图像中获取所述第七像素点所在行的图像，得到第七行图像。

S40、从所述单字符图像中获取所述第七像素点所在列的图像，得到第七列图像。

S41、若所述第七行图像中，所述第七像素点的右方存在所述主连通域的像素点，且所述第七列图像中，所述第七像素点的上方和所述第七像素点的下方都存在所述主连通域的像素点，则将所述第七噪点数的值加一。

例如，如图6所示，第七行图像为“3”左侧线段最右方的像素点（第七像素点）所在行，在第七行图像中，第七像素点的右方存在主连通域的像素点。第七列图像为“3”左侧线段最右方的像素点（第七像素点）所在列，在第七列图像中，第七像素点的上方和下方都存在主连通域的像素点。因此，第七像素点被主连通域“3”的右上下三边包含，第七像素点极有可能是噪点，第七噪点数的值加一。

S42、重复执行步骤S38至步骤S41，直至所述第七连通域被遍历。

例如，如图6所示，在第七连通域被遍历后，经统计得出，第七连通域中被主连通域三边包围的噪点数（第七噪点数）为3，第七连通域的像素点总数为8。

S43、若所述第七噪点数与所述第七连通域的像素点总数的比值小于五分之四，则删除所述第七连通域。

例如，如图6所示，第七噪点数与所述第七连通域的像素点总数的比值为八分之三，小于五分之四，因此，判断第七连通域为噪点连通域，删除第七连通域。

例如，如图10所示，由于数字3存在断笔的情况，3具有两个连通域（第一连通域和第二连通域），其中，第一连通域为主连通域，包含3的大部分像素点。虽然第二连通域中的像素点都被主连通域的右上下三边包围，但是第二连通域并不是噪点连通域。因此，本实施例为了避免“3”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象，本实施例限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时，才认为该连通域是噪点连通域。

其中，针对字符xX3，部分噪点沿右上下三个方向均能够找到主连通域。同时，为了避免“3”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象，本实施例限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时，才认为该连通域是噪点连通域。本实施例利用这一现象，精确地删除被上述字符三边包含的噪点连通域，有利于提高去除英文和数字字符图像的噪点连通域的准确度。

S45、从第三连通域集合中获取一连通域，得到第八连通域；所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域。

例如，图7为“R”的单字符图像，“R”为主连通域，“R”下方的线段为第八连通域。

S46、预设第八噪点数的值为零。

其中，第七噪点数的初始值为0。

S47、获取所述第八连通域中的一像素点，得到第八像素点。

例如，如图7所示，当前的第八像素点为“R”下方线段（第八连通域）最上方的像素点。

S48、从所述单字符图像中获取所述第八像素点所在行的图像，得到第八行图像。

S49、从所述单字符图像中获取所述第八像素点所在列的图像，得到第八列图像。

S50、若所述第八行图像中，所述第八像素点的左方和右方都存在所述主连通域的像素点，且所述第八列图像中，所述第八像素点的上方存在所述主连通域的像素点，则将所述第八噪点数的值加一。

例如，如图7所示，第八行图像为“R”下方线段最上方的像素点（第八像素点）所在行，在第八行图像中，第八像素点的左方和右方都存在主连通域的像素点。第八列图像为“R”下方线段最上方的像素点（第八像素点）所在列，在第八列图像中，第八像素点的上方存在主连通域的像素点。因此，第八像素点被主连通域“R”的左右上三边包含，第八像素点极有可能是噪点，第八噪点数的值加一。

S51、重复执行步骤S47至步骤S50，直至所述第八连通域被遍历。

例如，如图7所示，在第八连通域被遍历后，经统计得出，第八连通域中被主连通域三边包围的噪点数（第八噪点数）为4，第七连通域的像素点总数为11。

S52、若所述第八噪点数与所述第八连通域的像素点总数的比值小于五分之四，则删除所述第八连通域。

例如，如图7所示，第八噪点数与所述第八连通域的像素点总数的比值为十一分之四，小于五分之四，因此，判断第八连通域为噪点连通域，删除第八连通域。

例如，如图11所示，由于字母M存在断笔的情况，M具有两个连通域（第一连通域和第二连通域），其中，第一连通域为主连通域，包含M的大部分像素点。虽然第二连通域中的像素点都被主连通域的左右上三边包围，但是第二连通域并不是噪点连通域。因此，本实施例为了避免“M”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象，本实施例限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时，才认为该连通域是噪点连通域。

其中，针对字符hkAHXRKN，部分噪点沿左右上三个方向均能够找到主连通域。同时，为了避免“M”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象，本实施例限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时，才认为该连通域是噪点连通域。本实施例利用这一现象，精确地删除被上述字符三边包含的噪点连通域，有利于提高去除英文和数字字符图像的噪点连通域的准确度。

S54、从第三连通域集合中获取一连通域，得到第九连通域；所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域。

例如，图8为“G”的单字符图像，“G”为主连通域，“G”右侧的线段为第九连通域。

S55、获取所述第八连通域中的一像素点，得到第九像素点。

例如，如图8所示，当前的第九像素点为“G”右侧线段（第九连通域）最左侧的像素点。

S56、从所述单字符图像中获取所述第九像素点所在行的图像，得到第九行图像。

S57、从所述单字符图像中获取所述第九像素点所在列的图像，得到第九列图像。

S58、若所述第九行图像中，所述第九像素点的左方存在所述主连通域的像素点，且所述第九列图像中，所述第九像素点的上方和所述第九像素点的下方均存在所述主连通域的像素点，则删除所述第九连通域。

例如，如图8所示，第九行图像为“G”右侧线段最左侧的像素点（第九像素点）所在行，在第九行图像中，第九像素点的左方存在主连通域的像素点。第九列图像为“G”右侧线段最左侧的像素点（第九像素点）所在列，在第九列图像中，第九像素点的上方和下方都存在主连通域的像素点。因此，第九连通域中存在一第九像素点被主连通域“G”的左上下三边包围，第九连通域为噪点连通域，应删除。

S59、重复执行步骤S55至步骤S58，直至所述第九连通域被遍历或所述第九连通域被删除。

其中，若第九连通域被遍历后均不存在一像素点被主连通域左上下三边包围，则判断第九连通域不是噪点连通域。若第九连通域中存在一像素点被主连通域的左上下三边包围，则第九连通域是噪点连通域，应删除。

其中，针对字符ceksxzRCEFKGXZ2，部分噪点沿左上下三个方向均能够找到主连通域。本实施例利用这一现象，精确地删除被上述字符三边包含的噪点连通域，有利于提高去除英文和数字字符图像的噪点连通域的准确度。

本发明的实施例二为：

如图12所示，本实施例提供一种终端，包括一个或多个处理器1及存储器2，所述存储器2存储有程序，并且被配置成由所述一个或多个处理器1执行以下步骤：

S1、二值化一单字符的字符图像，得到单字符图像。

S2、检测所述单字符图像的连通域，得到第一连通域集合。

例如，图2所示的单字符图像的主连通域为“E”。

例如，图2中，E的中心点所在列的垂直穿越次数为4。

例如，遍历图2的所有列，得到图2的最大垂直穿越次数为4。

例如，图3中“M”中心点所在行的水平穿越次数为5。

例如，遍历图3的所有行，得到图3的最大水平穿越次数为4。

S21、获取所述第五连通域中的一像素点，得到第五像素点。

S28、预设第六噪点数的值为零。

其中，第七噪点数的初始值为0。

S29、获取所述第六连通域中的一像素点，得到第六像素点。

S37、预设第七噪点数的值为零。

其中，第七噪点数的初始值为0。

S38、获取所述第七连通域中的一像素点，得到第七像素点。

S46、预设第八噪点数的值为零。

其中，第七噪点数的初始值为0。

S47、获取所述第八连通域中的一像素点，得到第八像素点。

S55、获取所述第八连通域中的一像素点，得到第九像素点。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于二值化的字符去噪方法，其特征在于，包括：

S1、二值化一单字符的字符图像，得到单字符图像；

S2、检测所述单字符图像的连通域，得到第一连通域集合；

2.根据权利要求1所述的基于二值化的字符去噪方法，其特征在于，还包括：

3.根据权利要求1所述的基于二值化的字符去噪方法，其特征在于，还包括：

S21、获取所述第五连通域中的一像素点，得到第五像素点；

4.根据权利要求1所述的基于二值化的字符去噪方法，其特征在于，还包括：

S28、预设第六噪点数的值为零；

S29、获取所述第六连通域中的一像素点，得到第六像素点；

5.根据权利要求1所述的基于二值化的字符去噪方法，其特征在于，还包括：

S37、预设第七噪点数的值为零；

S38、获取所述第七连通域中的一像素点，得到第七像素点；

6.根据权利要求1所述的基于二值化的字符去噪方法，其特征在于，还包括：

S46、预设第八噪点数的值为零；

S47、获取所述第八连通域中的一像素点，得到第八像素点；

7.根据权利要求1所述的基于二值化的字符去噪方法，其特征在于，还包括：

S55、获取所述第八连通域中的一像素点，得到第九像素点；

8.一种基于二值化的字符去噪终端，其特征在于，包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

S1、二值化一单字符的字符图像，得到单字符图像；

S2、检测所述单字符图像的连通域，得到第一连通域集合；

9.根据权利要求8所述的基于二值化的字符去噪终端，其特征在于，还包括：

10.根据权利要求8所述的基于二值化的字符去噪终端，其特征在于，还包括：

S21、获取所述第五连通域中的一像素点，得到第五像素点；

S28、预设第六噪点数的值为零；

S29、获取所述第六连通域中的一像素点，得到第六像素点；

S37、预设第七噪点数的值为零；

S38、获取所述第七连通域中的一像素点，得到第七像素点；

S46、预设第八噪点数的值为零；

S47、获取所述第八连通域中的一像素点，得到第八像素点；

S55、获取所述第八连通域中的一像素点，得到第九像素点；