CN110020655A - 一种基于二值化的字符去噪方法及终端 - Google Patents
一种基于二值化的字符去噪方法及终端 Download PDFInfo
- Publication number
- CN110020655A CN110020655A CN201910316926.4A CN201910316926A CN110020655A CN 110020655 A CN110020655 A CN 110020655A CN 201910316926 A CN201910316926 A CN 201910316926A CN 110020655 A CN110020655 A CN 110020655A
- Authority
- CN
- China
- Prior art keywords
- pixel
- connected domain
- image
- domain
- main
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Facsimile Image Signal Circuits (AREA)
Abstract
本发明涉及一种基于二值化的字符去噪方法及终端,属于数据处理领域。本发明通过利用所有数字和字母的最大垂直穿越数为3这一现象,先从单字符图像中识别出数字或字母字符的主连通域,再将单字符图像中的其它连通域依次与主连通域作为一个整体看待,若将主连通域与单字符图像中的一个除主连通域之外的连通域作为整体时,其最大垂直穿越数大于3,则说明该连通域不能与主连通域组合形成一个数字或字母,该连通域是噪点连通域,应将其删除。提高了去除英文和数字字符图像的噪点连通域的准确度。
Description
技术领域
本发明涉及一种基于二值化的字符去噪方法及终端,属于数据处理领域。
背景技术
为了提高字符识别的准确度,在识别字符之前需要先对字符图像进行去噪处理,以减少干扰。常用的对字符图像进行去噪的方法具体为,搜索二值化的字符图像中面积较小的无效连通区域,并将其删除。例如,面积小于5个像素点的连通区域被自动认为孤立的噪点连通域,将孤立的噪点连通域删除,以减少干扰信息。但是,上述方法只能够识别面积较小的噪点连通域,无法识别出面积较大的噪点连通域,去噪效果差。
发明内容
本发明所要解决的技术问题是:如何提高去除英文和数字字符图像的噪点连通域的准确度。
为了解决上述技术问题,本发明采用的技术方案为:
本发明提供一种基于二值化的字符去噪方法,包括:
S1、二值化一单字符的字符图像,得到单字符图像;
S2、检测所述单字符图像的连通域,得到第一连通域集合;
S3、统计所述第一连通域集合中所有连通域的高度的平均值,得到平均高度;
S4、从所述第一连通域集合中获取高度大于所述平均高度的二分之一的连通域,得到第二连通域集合;
S5、标记所述第二连通域集合中像素点个数最多的一连通域为主连通域;
S6、获取所述单字符图像中的第三连通域和所述主连通域所在的区域,得到第一待去噪图像;所述第三连通域为所述第一连通域集合中除所述主连通域之外的任一连通域;
S7、按序获取位于所述第一待去噪图像同一列的像素点,得到第一像素点有序集合;
S8、统计所述第一像素点有序集合中,一黑色像素点的下一个像素点为白色的次数;将所述次数加一,得到垂直穿越次数;
S9、遍历所述第一待去噪图像的所有列,得到最大垂直穿越次数;
S10、若所述第一待去噪图像的最大垂直穿越数大于3,则在所述单字符图像上删除所述第三连通域;
S11、重复步骤S6至步骤S10,直至所述第二连通域集合被遍历。
优选地,还包括:
S12、从第三连通域集合中获取一连通域,得到第四连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S13、获取所述单字符图像中的第四连通域和所述主连通域所在的区域,得到第二待去噪图像;
S14、按序获取位于所述第二待去噪图像同一行的像素点,得到第二像素点有序集合;
S15、统计所述第二像素点有序集合中,一黑色像素点的下一个像素点为白色的次数;将所述次数加一,得到水平穿越次数;
S16、遍历所述第二待去噪图像的所有行,得到最大水平穿越次数;
S17、若所述第二待去噪图像的最大水平穿越数大于4,则在所述单字符图像上删除所述第四连通域;
S18、重复步骤S12至步骤S17,直至所述第三连通域集合被遍历。
优选地,还包括:
S19、从第三连通域集合中获取一连通域,得到第五连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S20、获取所述单字符图像中的第五连通域和所述主连通域所在的区域,得到第三待去噪图像;
S21、获取所述第五连通域中的一像素点,得到第五像素点;
S22、从所述单字符图像中获取所述第五像素点所在行的图像,得到第五行图像;
S23、从所述单字符图像中获取所述第五像素点所在列的图像,得到第五列图像;
S24、若所述第五行图像中,所述第五像素点的左方和所述第五像素点的右方都存在所述主连通域的像素点,且所述第五列图像中,所述第五像素点的上方和所述第五像素点的下方都存在所述主连通域的像素点,则从所述单字符图像中删除所述第五连通域;
S25、重复执行步骤S21至步骤S24,直至所述第五连通域被遍历,或所述第五连通域被删除;
S26、重复执行步骤S19至步骤S25,直至所述第三连通域集合被遍历。
优选地,还包括:
S27、从第三连通域集合中获取一连通域,得到第六连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S28、预设第六噪点数的值为零;
S29、获取所述第六连通域中的一像素点,得到第六像素点;
S30、从所述单字符图像中获取所述第六像素点所在行的图像,得到第六行图像;
S31、从所述单字符图像中获取所述第六像素点所在列的图像,得到第六列图像;
S32、若所述第六行图像中,所述第六像素点的左方和所述第六像素点的右方都存在所述主连通域的像素点,且所述第六列图像中,所述第六像素点的下方存在所述主连通域的像素点,则将所述第六噪点数的值加一;
S33、重复执行步骤S29至步骤S32,直至所述第六连通域被遍历;
S34、若所述第六噪点数与所述第六连通域的像素点总数的比值小于五分之四,则删除所述第六连通域;
S35、重复执行步骤S27至步骤S34,直至所述第三连通域集合被遍历。
优选地,还包括:
S36、从第三连通域集合中获取一连通域,得到第七连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S37、预设第七噪点数的值为零;
S38、获取所述第七连通域中的一像素点,得到第七像素点;
S39、从所述单字符图像中获取所述第七像素点所在行的图像,得到第七行图像;
S40、从所述单字符图像中获取所述第七像素点所在列的图像,得到第七列图像;
S41、若所述第七行图像中,所述第七像素点的右方存在所述主连通域的像素点,且所述第七列图像中,所述第七像素点的上方和所述第七像素点的下方都存在所述主连通域的像素点,则将所述第七噪点数的值加一;
S42、重复执行步骤S38至步骤S41,直至所述第七连通域被遍历;
S43、若所述第七噪点数与所述第七连通域的像素点总数的比值小于五分之四,则删除所述第七连通域;
S44、重复执行步骤S36至步骤S43,直至所述第三连通域集合被遍历。
优选地,还包括:
S45、从第三连通域集合中获取一连通域,得到第八连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S46、预设第八噪点数的值为零;
S47、获取所述第八连通域中的一像素点,得到第八像素点;
S48、从所述单字符图像中获取所述第八像素点所在行的图像,得到第八行图像;
S49、从所述单字符图像中获取所述第八像素点所在列的图像,得到第八列图像;
S50、若所述第八行图像中,所述第八像素点的左方和右方都存在所述主连通域的像素点,且所述第八列图像中,所述第八像素点的上方存在所述主连通域的像素点,则将所述第八噪点数的值加一;
S51、重复执行步骤S47至步骤S50,直至所述第八连通域被遍历;
S52、若所述第八噪点数与所述第八连通域的像素点总数的比值小于五分之四,则删除所述第八连通域;
S53、重复执行步骤S45至步骤S52,直至所述第三连通域集合被遍历。
优选地,还包括:
S54、从第三连通域集合中获取一连通域,得到第九连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S55、获取所述第八连通域中的一像素点,得到第九像素点;
S56、从所述单字符图像中获取所述第九像素点所在行的图像,得到第九行图像;
S57、从所述单字符图像中获取所述第九像素点所在列的图像,得到第九列图像;
S58、若所述第九行图像中,所述第九像素点的左方存在所述主连通域的像素点,且所述第九列图像中,所述第九像素点的上方和所述第九像素点的下方均存在所述主连通域的像素点,则删除所述第九连通域;
S59、重复执行步骤S55至步骤S58,直至所述第九连通域被遍历或所述第九连通域被删除;
S60、重复执行步骤S54至步骤S59,直至所述第三连通域集合被遍历。
本发明还提供一种基于二值化的字符去噪终端,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
S1、二值化一单字符的字符图像,得到单字符图像;
S2、检测所述单字符图像的连通域,得到第一连通域集合;
S3、统计所述第一连通域集合中所有连通域的高度的平均值,得到平均高度;
S4、从所述第一连通域集合中获取高度大于所述平均高度的二分之一的连通域,得到第二连通域集合;
S5、标记所述第二连通域集合中像素点个数最多的一连通域为主连通域;
S6、获取所述单字符图像中的第三连通域和所述主连通域所在的区域,得到第一待去噪图像;所述第三连通域为所述第一连通域集合中除所述主连通域之外的任一连通域;
S7、按序获取位于所述第一待去噪图像同一列的像素点,得到第一像素点有序集合;
S8、统计所述第一像素点有序集合中,一黑色像素点的下一个像素点为白色的次数;将所述次数加一,得到垂直穿越次数;
S9、遍历所述第一待去噪图像的所有列,得到最大垂直穿越次数;
S10、若所述第一待去噪图像的最大垂直穿越数大于3,则在所述单字符图像上删除所述第三连通域;
S11、重复步骤S6至步骤S10,直至所述第二连通域集合被遍历。
优选地,还包括:
S12、从第三连通域集合中获取一连通域,得到第四连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S13、获取所述单字符图像中的第四连通域和所述主连通域所在的区域,得到第二待去噪图像;
S14、按序获取位于所述第二待去噪图像同一行的像素点,得到第二像素点有序集合;
S15、统计所述第二像素点有序集合中,一黑色像素点的下一个像素点为白色的次数;将所述次数加一,得到水平穿越次数;
S16、遍历所述第二待去噪图像的所有行,得到最大水平穿越次数;
S17、若所述第二待去噪图像的最大水平穿越数大于4,则在所述单字符图像上删除所述第四连通域;
S18、重复步骤S12至步骤S17,直至所述第三连通域集合被遍历。
优选地,还包括:
S19、从第三连通域集合中获取一连通域,得到第五连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S20、获取所述单字符图像中的第五连通域和所述主连通域所在的区域,得到第三待去噪图像;
S21、获取所述第五连通域中的一像素点,得到第五像素点;
S22、从所述单字符图像中获取所述第五像素点所在行的图像,得到第五行图像;
S23、从所述单字符图像中获取所述第五像素点所在列的图像,得到第五列图像;
S24、若所述第五行图像中,所述第五像素点的左方和所述第五像素点的右方都存在所述主连通域的像素点,且所述第五列图像中,所述第五像素点的上方和所述第五像素点的下方都存在所述主连通域的像素点,则从所述单字符图像中删除所述第五连通域;
S25、重复执行步骤S21至步骤S24,直至所述第五连通域被遍历,或所述第五连通域被删除;
S26、重复执行步骤S19至步骤S25,直至所述第三连通域集合被遍历;
S27、从第三连通域集合中获取一连通域,得到第六连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S28、预设第六噪点数的值为零;
S29、获取所述第六连通域中的一像素点,得到第六像素点;
S30、从所述单字符图像中获取所述第六像素点所在行的图像,得到第六行图像;
S31、从所述单字符图像中获取所述第六像素点所在列的图像,得到第六列图像;
S32、若所述第六行图像中,所述第六像素点的左方和所述第六像素点的右方都存在所述主连通域的像素点,且所述第六列图像中,所述第六像素点的下方存在所述主连通域的像素点,则将所述第六噪点数的值加一;
S33、重复执行步骤S29至步骤S32,直至所述第六连通域被遍历;
S34、若所述第六噪点数与所述第六连通域的像素点总数的比值小于五分之四,则删除所述第六连通域;
S35、重复执行步骤S27至步骤S34,直至所述第三连通域集合被遍历;
S36、从第三连通域集合中获取一连通域,得到第七连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S37、预设第七噪点数的值为零;
S38、获取所述第七连通域中的一像素点,得到第七像素点;
S39、从所述单字符图像中获取所述第七像素点所在行的图像,得到第七行图像;
S40、从所述单字符图像中获取所述第七像素点所在列的图像,得到第七列图像;
S41、若所述第七行图像中,所述第七像素点的右方存在所述主连通域的像素点,且所述第七列图像中,所述第七像素点的上方和所述第七像素点的下方都存在所述主连通域的像素点,则将所述第七噪点数的值加一;
S42、重复执行步骤S38至步骤S41,直至所述第七连通域被遍历;
S43、若所述第七噪点数与所述第七连通域的像素点总数的比值小于五分之四,则删除所述第七连通域;
S44、重复执行步骤S36至步骤S43,直至所述第三连通域集合被遍历;
S45、从第三连通域集合中获取一连通域,得到第八连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S46、预设第八噪点数的值为零;
S47、获取所述第八连通域中的一像素点,得到第八像素点;
S48、从所述单字符图像中获取所述第八像素点所在行的图像,得到第八行图像;
S49、从所述单字符图像中获取所述第八像素点所在列的图像,得到第八列图像;
S50、若所述第八行图像中,所述第八像素点的左方和右方都存在所述主连通域的像素点,且所述第八列图像中,所述第八像素点的上方存在所述主连通域的像素点,则将所述第八噪点数的值加一;
S51、重复执行步骤S47至步骤S50,直至所述第八连通域被遍历;
S52、若所述第八噪点数与所述第八连通域的像素点总数的比值小于五分之四,则删除所述第八连通域;
S53、重复执行步骤S45至步骤S52,直至所述第三连通域集合被遍历;
S54、从第三连通域集合中获取一连通域,得到第九连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S55、获取所述第八连通域中的一像素点,得到第九像素点;
S56、从所述单字符图像中获取所述第九像素点所在行的图像,得到第九行图像;
S57、从所述单字符图像中获取所述第九像素点所在列的图像,得到第九列图像;
S58、若所述第九行图像中,所述第九像素点的左方存在所述主连通域的像素点,且所述第九列图像中,所述第九像素点的上方和所述第九像素点的下方均存在所述主连通域的像素点,则删除所述第九连通域;
S59、重复执行步骤S55至步骤S58,直至所述第九连通域被遍历或所述第九连通域被删除;
S60、重复执行步骤S54至步骤S59,直至所述第三连通域集合被遍历。
本发明具有如下有益效果:
1、本发明提供一种基于二值化的字符去噪方法及终端,本发明利用所有数字和字母的最大垂直穿越数为3这一现象,先从单字符图像中识别出数字或字母字符的主连通域,再将单字符图像中的其它连通域依次与主连通域作为一个整体看待,若将主连通域与单字符图像中的一个除主连通域之外的连通域作为整体时,其最大垂直穿越数大于3,则说明该连通域不能与主连通域组合形成一个数字或字母,该连通域是噪点连通域,应将其删除。区别于现有技术只能识别出面积较小的噪点连通域,本发明利用所有数字和字母的最大垂直穿越数为3这一现象,能够精确识别出不符合这一现象的所有噪点连通域,提高了去除英文和数字字符图像的噪点连通域的准确度。
2、进一步地,本发明利用所有数字和字母的最大水平穿越数为4这一现象,先从单字符图像中识别出数字或字母字符的主连通域,再将单字符图像中的其它连通域依次与主连通域作为一个整体看待,若将主连通域与单字符图像中的一个除主连通域之外的连通域作为整体时,其最大水平穿越数大于4,则说明该连通域不能与主连通域组合形成一个数字或字母,该连通域是噪点连通域,应将其删除。区别于现有技术只能识别出面积较小的噪点连通域,本发明利用所有数字和字母的最大水平穿越数为4这一现象,能够精确识别出不符合这一现象的所有噪点连通域,提高了去除英文和数字字符图像的噪点连通域的准确度。
3、进一步地,针对字符abdegopqBDOQ0,出现在封闭区域内的噪点沿上下左右四个方向均能够找到主连通域,本发明利用这一现象,精确地删除上述字符封闭区域内的噪点连通域,有利于提高去除英文和数字字符图像的噪点连通域的准确度。
4、进一步地,针对字符jyuxkYJUHXKNZ2,部分噪点沿左右下三个方向均能够找到主连通域。同时,为了避免“W”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象,本发明限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时,才认为该连通域是噪点连通域。本发明利用这一现象,精确地删除被上述字符三边包含的噪点连通域,有利于提高去除英文和数字字符图像的噪点连通域的准确度。
5、进一步地,针对字符xX3,部分噪点沿右上下三个方向均能够找到主连通域。同时,为了避免“3”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象,本发明限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时,才认为该连通域是噪点连通域。本发明利用这一现象,精确地删除被上述字符三边包含的噪点连通域,有利于提高去除英文和数字字符图像的噪点连通域的准确度。
6、进一步地,针对字符hkAHXRKN,部分噪点沿左右上三个方向均能够找到主连通域。同时,为了避免“M”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象,本发明限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时,才认为该连通域是噪点连通域。本发明利用这一现象,精确地删除被上述字符三边包含的噪点连通域,有利于提高去除英文和数字字符图像的噪点连通域的准确度。
7、进一步地,针对字符ceksxzRCEFKGXZ2,部分噪点沿左上下三个方向均能够找到主连通域。本发明利用这一现象,精确地删除被上述字符三边包含的噪点连通域,有利于提高去除英文和数字字符图像的噪点连通域的准确度。
附图说明
图1为本发明提供的一种基于二值化的字符去噪方法的具体实施方式的流程框图;
图2为“E”的单字符图像示意图;
图3为“M”的单字符图像示意图;
图4为“D”的单字符图像示意图;
图5为“U”的单字符图像示意图;
图6为“3”的单字符图像示意图;
图7为“R”的单字符图像示意图;
图8为“G”的单字符图像示意图;
图9为“W”的单字符图像示意图;
图10为“3”的另一单字符图像示意图;
图11为“M”的单字符图像示意图;
图12为本发明提供的一种基于二值化的字符去噪终端的具体实施方式的结构框图;
标号说明:
1、处理器; 2、存储器。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
请参照图1至图12,
本发明的实施例一为:
如图1所示,本实施例提供一种基于二值化的字符去噪方法,包括:
S1、二值化一单字符的字符图像,得到单字符图像。
其中,图像二值化就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。例如,本实施例将字符图像中的单字符设置为黑色,将字符图像的背景设置为白色。先将字符图像进行二值化处理能够有效区分出字符和背景,为后续去除噪声提高效率。
S2、检测所述单字符图像的连通域,得到第一连通域集合。
其中,连通域指一个所有的彼此连通的点构成的集合,彼此连通的点形成了一个区域,而不连通的点形成了不同的区域。
例如,图2为单字符“E”的示意图,该单字符图像中包含两个连通域。
S3、统计所述第一连通域集合中所有连通域的高度的平均值,得到平均高度;
S4、从所述第一连通域集合中获取高度大于所述平均高度的二分之一的连通域,得到第二连通域集合;
S5、标记所述第二连通域集合中像素点个数最多的一连通域为主连通域。
其中,在正常情况下,字母和数字都只有一个连通域。若出现断笔或存在噪点连通域等情况,可能会存在多个连通域。本发明通过高度和像素点个数从多个连通域中筛选出字符的主干区域,即主连通域。
例如,图2所示的单字符图像的主连通域为“E”。
S6、获取所述单字符图像中的第三连通域和所述主连通域所在的区域,得到第一待去噪图像;所述第三连通域为所述第一连通域集合中除所述主连通域之外的任一连通域。
例如,图2中除主连通域之外只有一个连通域,因此,图2即为第一待去噪图像。
S7、按序获取位于所述第一待去噪图像同一列的像素点,得到第一像素点有序集合。
例如,获取图2中,E的中心点所在列的像素点,得到第一像素点有序集合。
S8、统计所述第一像素点有序集合中,一黑色像素点的下一个像素点为白色的次数;将所述次数加一,得到垂直穿越次数。
例如,图2中,E的中心点所在列的垂直穿越次数为4。
S9、遍历所述第一待去噪图像的所有列,得到最大垂直穿越次数。
例如,遍历图2的所有列,得到图2的最大垂直穿越次数为4。
S10、若所述第一待去噪图像的最大垂直穿越数大于3,则在所述单字符图像上删除所述第三连通域。
其中,将不属于字母或数字字符的噪点连通域删除即去噪。
例如,第一待去燥图像的最大垂直穿越数大于3,说明第三连通域(即图2中“E”上方的线段)不能与主连通域(E)组成一个数字或字母,将第三连通域删除。
S11、重复步骤S6至步骤S10,直至所述第二连通域集合被遍历。
其中,将单字符图像中除主连通域之外的所有连通域依次与主连通域组合,判断是噪点连通域还是字符区域。
其中,统计0~9和a~z、A~Z,正常的英文数字垂直穿越数最多为3个。正常字符如果有部分断笔,断笔的连通域是不会导致穿越数超过正常字符的最大垂直穿越数,所以我们可以根据是否造成最大穿水平越数异常来决定是否可以去除噪点。噪点连通域会造成该区域大于3条垂直穿越数,可以统计到所有英文数字字符的垂直穿越数为3的有字符:egszBGESZ25689,噪点连通域会造成这些字符垂直穿越数超出3。这些噪点可以不限位置,只要造成字符最大连通域大于正常的最大值,如正常字符中垂直最大连通域最大为3,如果噪点连通域造成了整体字符大于3,应该将此连通域视为噪点剔除。
本实施例利用所有数字和字母的最大垂直穿越数为3这一现象,先从单字符图像中识别出数字或字母字符的主连通域,再将单字符图像中的其它连通域依次与主连通域作为一个整体看待,若将主连通域与单字符图像中的一个除主连通域之外的连通域作为整体时,其最大垂直穿越数大于3,则说明该连通域不能与主连通域组合形成一个数字或字母,该连通域是噪点连通域,应将其删除。区别于现有技术只能识别出面积较小的噪点连通域,本实施例利用所有数字和字母的最大垂直穿越数为3这一现象,能够精确识别出不符合这一现象的所有噪点连通域,提高了去除英文和数字字符图像的噪点连通域的准确度。
S12、从第三连通域集合中获取一连通域,得到第四连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域。
例如,图3为“M”的单字符图像,“M”为主连通域,“M”右边的线段为第四连通域。
S13、获取所述单字符图像中的第四连通域和所述主连通域所在的区域,得到第二待去噪图像。
例如,图3中除主连通域之外只有一个连通域,因此,图3即为第二待去噪图像。
S14、按序获取位于所述第二待去噪图像同一行的像素点,得到第二像素点有序集合。
例如,第二像素点有序集合为“M”中心点所在行的所有像素点。
S15、统计所述第二像素点有序集合中,一黑色像素点的下一个像素点为白色的次数;将所述次数加一,得到水平穿越次数。
例如,图3中“M”中心点所在行的水平穿越次数为5。
S16、遍历所述第二待去噪图像的所有行,得到最大水平穿越次数。
例如,遍历图3的所有行,得到图3的最大水平穿越次数为4。
S17、若所述第二待去噪图像的最大水平穿越数大于4,则在所述单字符图像上删除所述第四连通域。
例如,第二待去燥图像的最大水平穿越数大于4,说明第四连通域(即图3中“M”右边的线段)不能与主连通域(M)组成一个数字或字母,将第四连通域删除。
S18、重复步骤S12至步骤S17,直至所述第三连通域集合被遍历。
其中,将单字符图像中除主连通域之外的所有连通域依次与主连通域组合,判断是噪点连通域还是字符区域。
其中,统计0~9和a~z、A~Z,正常的英文数字水平穿越数最多为4个。正常字符如果有部分断笔,断笔的连通域是不会导致穿越数超过正常字符的最大水平穿越数,所以我们可以根据是否造成最大水平穿越数异常来决定是否可以去除噪点。噪点连通域会造成该区域大于4条水平穿越数,噪点连通域会造成这些字符垂直穿越数超出3。统计字符水平穿越数为4的有字符:mwMW,噪点连通域会造成这些字符的水平穿越数超出4,这些噪点可以不限位置,只要造成字符最大连通域大于正常的最大值,应该将此连通域视为噪点剔除。
本实施例利用所有数字和字母的最大水平穿越数为4这一现象,先从单字符图像中识别出数字或字母字符的主连通域,再将单字符图像中的其它连通域依次与主连通域作为一个整体看待,若将主连通域与单字符图像中的一个除主连通域之外的连通域作为整体时,其最大水平穿越数大于4,则说明该连通域不能与主连通域组合形成一个数字或字母,该连通域是噪点连通域,应将其删除。区别于现有技术只能识别出面积较小的噪点连通域,本实施例利用所有数字和字母的最大水平穿越数为4这一现象,能够精确识别出不符合这一现象的所有噪点连通域,提高了去除英文和数字字符图像的噪点连通域的准确度。
S19、从第三连通域集合中获取一连通域,得到第五连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域。
例如,图4为“D”的单字符图像,“D”为主连通域,“D”内部的点为第五连通域。
S20、获取所述单字符图像中的第五连通域和所述主连通域所在的区域,得到第三待去噪图像。
例如,图4中除主连通域之外只有一个连通域,因此,图4即为第三待去噪图像。
S21、获取所述第五连通域中的一像素点,得到第五像素点。
例如,图4中第五连通域只存在一个像素点,即图4中“D”的封闭区域内部的点即为第五像素点。
S22、从所述单字符图像中获取所述第五像素点所在行的图像,得到第五行图像。
S23、从所述单字符图像中获取所述第五像素点所在列的图像,得到第五列图像。
S24、若所述第五行图像中,所述第五像素点的左方和所述第五像素点的右方都存在所述主连通域的像素点,且所述第五列图像中,所述第五像素点的上方和所述第五像素点的下方都存在所述主连通域的像素点,则从所述单字符图像中删除所述第五连通域。
例如,第五像素点沿着上、下、左、右四个方向都能够到达主连通域,则第五像素点所属的第五连通域为噪点连通域,不能与主连通域构成数字或字母,应删除。
S25、重复执行步骤S21至步骤S24,直至所述第五连通域被遍历,或所述第五连通域被删除。
其中,若第五连通域已被删除,说明通过之前遍历的像素点已经确认第五连通域为噪点连通域,无需继续遍历操作。若第五连通域的所有像素点都被遍历了,这说明第五连通域属于数字或字母字符的一部分。
S26、重复执行步骤S19至步骤S25,直至所述第三连通域集合被遍历。
其中,将单字符图像中除主连通域之外的所有连通域依次与主连通域组合,判断是噪点连通域还是字符区域。
其中,针对字符abdegopqBDOQ0,出现在封闭区域内的噪点沿上下左右四个方向均能够找到主连通域,本实施例利用这一现象,精确地删除上述字符封闭区域内的噪点连通域,有利于提高去除英文和数字字符图像的噪点连通域的准确度。
S27、从第三连通域集合中获取一连通域,得到第六连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域。
例如,图5为“U”的单字符图像,“U”为主连通域,“U”内部的线段为第六连通域。
S28、预设第六噪点数的值为零。
其中,第七噪点数的初始值为0。
S29、获取所述第六连通域中的一像素点,得到第六像素点。
例如,如图5所示,当前的第六像素点为“U”内部线段(第六连通域)最下方的像素点。
S30、从所述单字符图像中获取所述第六像素点所在行的图像,得到第六行图像。
S31、从所述单字符图像中获取所述第六像素点所在列的图像,得到第六列图像。
S32、若所述第六行图像中,所述第六像素点的左方和所述第六像素点的右方都存在所述主连通域的像素点,且所述第六列图像中,所述第六像素点的下方存在所述主连通域的像素点,则将所述第六噪点数的值加一。
例如,如图5所示,第六行图像为“U”内部线段最下方的像素点(第六像素点)所在行,在第六行图像中,第六像素点的左方和右方都存在主连通域的像素点。第六列图像为“U”内部线段最下方的像素点(第六像素点)所在列,在第六列图像中,第六像素点的下方存在主连通域的像素点。因此,第六像素点被主连通域“U”的左右下三边包含,第六像素点极有可能是噪点,第六噪点数的值加一。
S33、重复执行步骤S29至步骤S32,直至所述第六连通域被遍历。
例如,如图5所示,在第六连通域被遍历后,经统计得出,第六连通域中被主连通域三边包围的噪点数(第六噪点数)为4,第六连通域的像素点总数为6。
S34、若所述第六噪点数与所述第六连通域的像素点总数的比值小于五分之四,则删除所述第六连通域。
例如,如图5所示,第六噪点数与所述第六连通域的像素点总数的比值为六分之四,小于五分之四,因此,判断第六连通域为噪点连通域,删除第六连通域。
例如,如图9所示,由于字母W存在断笔的情况,W具有两个连通域(第一连通域和第二连通域),其中,第一连通域为主连通域,包含W的大部分像素点。虽然第二连通域中的像素点都被主连通域的左右下三边包围,但是第二连通域并不是噪点连通域。因此,本实施例为了避免“W”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象,本实施例限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时,才认为该连通域是噪点连通域。
S35、重复执行步骤S27至步骤S34,直至所述第三连通域集合被遍历。
其中,将单字符图像中除主连通域之外的所有连通域依次与主连通域组合,判断是噪点连通域还是字符区域。
其中,针对字符jyuxkYJUHXKNZ2,部分噪点沿左右下三个方向均能够找到主连通域。同时,为了避免“W”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象,本实施例限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时,才认为该连通域是噪点连通域。本实施例利用这一现象,精确地删除被上述字符三边包含的噪点连通域,有利于提高去除英文和数字字符图像的噪点连通域的准确度。
S36、从第三连通域集合中获取一连通域,得到第七连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域。
例如,图6为“3”的单字符图像,“3”为主连通域,“3”左侧的线段为第七连通域。
S37、预设第七噪点数的值为零。
其中,第七噪点数的初始值为0。
S38、获取所述第七连通域中的一像素点,得到第七像素点。
例如,如图6所示,当前的第七像素点为“3”左侧线段(第七连通域)最右方的像素点。
S39、从所述单字符图像中获取所述第七像素点所在行的图像,得到第七行图像。
S40、从所述单字符图像中获取所述第七像素点所在列的图像,得到第七列图像。
S41、若所述第七行图像中,所述第七像素点的右方存在所述主连通域的像素点,且所述第七列图像中,所述第七像素点的上方和所述第七像素点的下方都存在所述主连通域的像素点,则将所述第七噪点数的值加一。
例如,如图6所示,第七行图像为“3”左侧线段最右方的像素点(第七像素点)所在行,在第七行图像中,第七像素点的右方存在主连通域的像素点。第七列图像为“3”左侧线段最右方的像素点(第七像素点)所在列,在第七列图像中,第七像素点的上方和下方都存在主连通域的像素点。因此,第七像素点被主连通域“3”的右上下三边包含,第七像素点极有可能是噪点,第七噪点数的值加一。
S42、重复执行步骤S38至步骤S41,直至所述第七连通域被遍历。
例如,如图6所示,在第七连通域被遍历后,经统计得出,第七连通域中被主连通域三边包围的噪点数(第七噪点数)为3,第七连通域的像素点总数为8。
S43、若所述第七噪点数与所述第七连通域的像素点总数的比值小于五分之四,则删除所述第七连通域。
例如,如图6所示,第七噪点数与所述第七连通域的像素点总数的比值为八分之三,小于五分之四,因此,判断第七连通域为噪点连通域,删除第七连通域。
例如,如图10所示,由于数字3存在断笔的情况,3具有两个连通域(第一连通域和第二连通域),其中,第一连通域为主连通域,包含3的大部分像素点。虽然第二连通域中的像素点都被主连通域的右上下三边包围,但是第二连通域并不是噪点连通域。因此,本实施例为了避免“3”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象,本实施例限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时,才认为该连通域是噪点连通域。
S44、重复执行步骤S36至步骤S43,直至所述第三连通域集合被遍历。
其中,将单字符图像中除主连通域之外的所有连通域依次与主连通域组合,判断是噪点连通域还是字符区域。
其中,针对字符xX3,部分噪点沿右上下三个方向均能够找到主连通域。同时,为了避免“3”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象,本实施例限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时,才认为该连通域是噪点连通域。本实施例利用这一现象,精确地删除被上述字符三边包含的噪点连通域,有利于提高去除英文和数字字符图像的噪点连通域的准确度。
S45、从第三连通域集合中获取一连通域,得到第八连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域。
例如,图7为“R”的单字符图像,“R”为主连通域,“R”下方的线段为第八连通域。
S46、预设第八噪点数的值为零。
其中,第七噪点数的初始值为0。
S47、获取所述第八连通域中的一像素点,得到第八像素点。
例如,如图7所示,当前的第八像素点为“R”下方线段(第八连通域)最上方的像素点。
S48、从所述单字符图像中获取所述第八像素点所在行的图像,得到第八行图像。
S49、从所述单字符图像中获取所述第八像素点所在列的图像,得到第八列图像。
S50、若所述第八行图像中,所述第八像素点的左方和右方都存在所述主连通域的像素点,且所述第八列图像中,所述第八像素点的上方存在所述主连通域的像素点,则将所述第八噪点数的值加一。
例如,如图7所示,第八行图像为“R”下方线段最上方的像素点(第八像素点)所在行,在第八行图像中,第八像素点的左方和右方都存在主连通域的像素点。第八列图像为“R”下方线段最上方的像素点(第八像素点)所在列,在第八列图像中,第八像素点的上方存在主连通域的像素点。因此,第八像素点被主连通域“R”的左右上三边包含,第八像素点极有可能是噪点,第八噪点数的值加一。
S51、重复执行步骤S47至步骤S50,直至所述第八连通域被遍历。
例如,如图7所示,在第八连通域被遍历后,经统计得出,第八连通域中被主连通域三边包围的噪点数(第八噪点数)为4,第七连通域的像素点总数为11。
S52、若所述第八噪点数与所述第八连通域的像素点总数的比值小于五分之四,则删除所述第八连通域。
例如,如图7所示,第八噪点数与所述第八连通域的像素点总数的比值为十一分之四,小于五分之四,因此,判断第八连通域为噪点连通域,删除第八连通域。
例如,如图11所示,由于字母M存在断笔的情况,M具有两个连通域(第一连通域和第二连通域),其中,第一连通域为主连通域,包含M的大部分像素点。虽然第二连通域中的像素点都被主连通域的左右上三边包围,但是第二连通域并不是噪点连通域。因此,本实施例为了避免“M”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象,本实施例限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时,才认为该连通域是噪点连通域。
S53、重复执行步骤S45至步骤S52,直至所述第三连通域集合被遍历。
其中,将单字符图像中除主连通域之外的所有连通域依次与主连通域组合,判断是噪点连通域还是字符区域。
其中,针对字符hkAHXRKN,部分噪点沿左右上三个方向均能够找到主连通域。同时,为了避免“M”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象,本实施例限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时,才认为该连通域是噪点连通域。本实施例利用这一现象,精确地删除被上述字符三边包含的噪点连通域,有利于提高去除英文和数字字符图像的噪点连通域的准确度。
S54、从第三连通域集合中获取一连通域,得到第九连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域。
例如,图8为“G”的单字符图像,“G”为主连通域,“G”右侧的线段为第九连通域。
S55、获取所述第八连通域中的一像素点,得到第九像素点。
例如,如图8所示,当前的第九像素点为“G”右侧线段(第九连通域)最左侧的像素点。
S56、从所述单字符图像中获取所述第九像素点所在行的图像,得到第九行图像。
S57、从所述单字符图像中获取所述第九像素点所在列的图像,得到第九列图像。
S58、若所述第九行图像中,所述第九像素点的左方存在所述主连通域的像素点,且所述第九列图像中,所述第九像素点的上方和所述第九像素点的下方均存在所述主连通域的像素点,则删除所述第九连通域。
例如,如图8所示,第九行图像为“G”右侧线段最左侧的像素点(第九像素点)所在行,在第九行图像中,第九像素点的左方存在主连通域的像素点。第九列图像为“G”右侧线段最左侧的像素点(第九像素点)所在列,在第九列图像中,第九像素点的上方和下方都存在主连通域的像素点。因此,第九连通域中存在一第九像素点被主连通域“G”的左上下三边包围,第九连通域为噪点连通域,应删除。
S59、重复执行步骤S55至步骤S58,直至所述第九连通域被遍历或所述第九连通域被删除。
其中,若第九连通域被遍历后均不存在一像素点被主连通域左上下三边包围,则判断第九连通域不是噪点连通域。若第九连通域中存在一像素点被主连通域的左上下三边包围,则第九连通域是噪点连通域,应删除。
S60、重复执行步骤S54至步骤S59,直至所述第三连通域集合被遍历。
其中,将单字符图像中除主连通域之外的所有连通域依次与主连通域组合,判断是噪点连通域还是字符区域。
其中,针对字符ceksxzRCEFKGXZ2,部分噪点沿左上下三个方向均能够找到主连通域。本实施例利用这一现象,精确地删除被上述字符三边包含的噪点连通域,有利于提高去除英文和数字字符图像的噪点连通域的准确度。
本发明的实施例二为:
如图12所示,本实施例提供一种终端,包括一个或多个处理器1及存储器2,所述存储器2存储有程序,并且被配置成由所述一个或多个处理器1执行以下步骤:
S1、二值化一单字符的字符图像,得到单字符图像。
其中,图像二值化就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。例如,本实施例将字符图像中的单字符设置为黑色,将字符图像的背景设置为白色。先将字符图像进行二值化处理能够有效区分出字符和背景,为后续去除噪声提高效率。
S2、检测所述单字符图像的连通域,得到第一连通域集合。
其中,连通域指一个所有的彼此连通的点构成的集合,彼此连通的点形成了一个区域,而不连通的点形成了不同的区域。
例如,图2为单字符“E”的示意图,该单字符图像中包含两个连通域。
S3、统计所述第一连通域集合中所有连通域的高度的平均值,得到平均高度;
S4、从所述第一连通域集合中获取高度大于所述平均高度的二分之一的连通域,得到第二连通域集合;
S5、标记所述第二连通域集合中像素点个数最多的一连通域为主连通域。
其中,在正常情况下,字母和数字都只有一个连通域。若出现断笔或存在噪点连通域等情况,可能会存在多个连通域。本发明通过高度和像素点个数从多个连通域中筛选出字符的主干区域,即主连通域。
例如,图2所示的单字符图像的主连通域为“E”。
S6、获取所述单字符图像中的第三连通域和所述主连通域所在的区域,得到第一待去噪图像;所述第三连通域为所述第一连通域集合中除所述主连通域之外的任一连通域。
例如,图2中除主连通域之外只有一个连通域,因此,图2即为第一待去噪图像。
S7、按序获取位于所述第一待去噪图像同一列的像素点,得到第一像素点有序集合。
例如,获取图2中,E的中心点所在列的像素点,得到第一像素点有序集合。
S8、统计所述第一像素点有序集合中,一黑色像素点的下一个像素点为白色的次数;将所述次数加一,得到垂直穿越次数。
例如,图2中,E的中心点所在列的垂直穿越次数为4。
S9、遍历所述第一待去噪图像的所有列,得到最大垂直穿越次数。
例如,遍历图2的所有列,得到图2的最大垂直穿越次数为4。
S10、若所述第一待去噪图像的最大垂直穿越数大于3,则在所述单字符图像上删除所述第三连通域。
例如,第一待去燥图像的最大垂直穿越数大于3,说明第三连通域(即图2中“E”上方的线段)不能与主连通域(E)组成一个数字或字母,将第三连通域删除。
S11、重复步骤S6至步骤S10,直至所述第二连通域集合被遍历。
其中,将单字符图像中除主连通域之外的所有连通域依次与主连通域组合,判断是噪点连通域还是字符区域。
其中,统计0~9和a~z、A~Z,正常的英文数字垂直穿越数最多为3个。正常字符如果有部分断笔,断笔的连通域是不会导致穿越数超过正常字符的最大垂直穿越数,所以我们可以根据是否造成最大穿水平越数异常来决定是否可以去除噪点。噪点连通域会造成该区域大于3条垂直穿越数,可以统计到所有英文数字字符的垂直穿越数为3的有字符:egszBGESZ25689,噪点连通域会造成这些字符垂直穿越数超出3。这些噪点可以不限位置,只要造成字符最大连通域大于正常的最大值,如正常字符中垂直最大连通域最大为3,如果噪点连通域造成了整体字符大于3,应该将此连通域视为噪点剔除。
本实施例利用所有数字和字母的最大垂直穿越数为3这一现象,先从单字符图像中识别出数字或字母字符的主连通域,再将单字符图像中的其它连通域依次与主连通域作为一个整体看待,若将主连通域与单字符图像中的一个除主连通域之外的连通域作为整体时,其最大垂直穿越数大于3,则说明该连通域不能与主连通域组合形成一个数字或字母,该连通域是噪点连通域,应将其删除。区别于现有技术只能识别出面积较小的噪点连通域,本实施例利用所有数字和字母的最大垂直穿越数为3这一现象,能够精确识别出不符合这一现象的所有噪点连通域,提高了去除英文和数字字符图像的噪点连通域的准确度。
S12、从第三连通域集合中获取一连通域,得到第四连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域。
例如,图3为“M”的单字符图像,“M”为主连通域,“M”右边的线段为第四连通域。
S13、获取所述单字符图像中的第四连通域和所述主连通域所在的区域,得到第二待去噪图像。
例如,图3中除主连通域之外只有一个连通域,因此,图3即为第二待去噪图像。
S14、按序获取位于所述第二待去噪图像同一行的像素点,得到第二像素点有序集合。
例如,第二像素点有序集合为“M”中心点所在行的所有像素点。
S15、统计所述第二像素点有序集合中,一黑色像素点的下一个像素点为白色的次数;将所述次数加一,得到水平穿越次数。
例如,图3中“M”中心点所在行的水平穿越次数为5。
S16、遍历所述第二待去噪图像的所有行,得到最大水平穿越次数。
例如,遍历图3的所有行,得到图3的最大水平穿越次数为4。
S17、若所述第二待去噪图像的最大水平穿越数大于4,则在所述单字符图像上删除所述第四连通域。
例如,第二待去燥图像的最大水平穿越数大于4,说明第四连通域(即图3中“M”右边的线段)不能与主连通域(M)组成一个数字或字母,将第四连通域删除。
S18、重复步骤S12至步骤S17,直至所述第三连通域集合被遍历。
其中,将单字符图像中除主连通域之外的所有连通域依次与主连通域组合,判断是噪点连通域还是字符区域。
其中,统计0~9和a~z、A~Z,正常的英文数字水平穿越数最多为4个。正常字符如果有部分断笔,断笔的连通域是不会导致穿越数超过正常字符的最大水平穿越数,所以我们可以根据是否造成最大水平穿越数异常来决定是否可以去除噪点。噪点连通域会造成该区域大于4条水平穿越数,噪点连通域会造成这些字符垂直穿越数超出3。统计字符水平穿越数为4的有字符:mwMW,噪点连通域会造成这些字符的水平穿越数超出4,这些噪点可以不限位置,只要造成字符最大连通域大于正常的最大值,应该将此连通域视为噪点剔除。
本实施例利用所有数字和字母的最大水平穿越数为4这一现象,先从单字符图像中识别出数字或字母字符的主连通域,再将单字符图像中的其它连通域依次与主连通域作为一个整体看待,若将主连通域与单字符图像中的一个除主连通域之外的连通域作为整体时,其最大水平穿越数大于4,则说明该连通域不能与主连通域组合形成一个数字或字母,该连通域是噪点连通域,应将其删除。区别于现有技术只能识别出面积较小的噪点连通域,本实施例利用所有数字和字母的最大水平穿越数为4这一现象,能够精确识别出不符合这一现象的所有噪点连通域,提高了去除英文和数字字符图像的噪点连通域的准确度。
S19、从第三连通域集合中获取一连通域,得到第五连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域。
例如,图4为“D”的单字符图像,“D”为主连通域,“D”内部的点为第五连通域。
S20、获取所述单字符图像中的第五连通域和所述主连通域所在的区域,得到第三待去噪图像。
例如,图4中除主连通域之外只有一个连通域,因此,图4即为第三待去噪图像。
S21、获取所述第五连通域中的一像素点,得到第五像素点。
例如,图4中第五连通域只存在一个像素点,即图4中“D”的封闭区域内部的点即为第五像素点。
S22、从所述单字符图像中获取所述第五像素点所在行的图像,得到第五行图像。
S23、从所述单字符图像中获取所述第五像素点所在列的图像,得到第五列图像。
S24、若所述第五行图像中,所述第五像素点的左方和所述第五像素点的右方都存在所述主连通域的像素点,且所述第五列图像中,所述第五像素点的上方和所述第五像素点的下方都存在所述主连通域的像素点,则从所述单字符图像中删除所述第五连通域。
例如,第五像素点沿着上、下、左、右四个方向都能够到达主连通域,则第五像素点所属的第五连通域为噪点连通域,不能与主连通域构成数字或字母,应删除。
S25、重复执行步骤S21至步骤S24,直至所述第五连通域被遍历,或所述第五连通域被删除。
其中,若第五连通域已被删除,说明通过之前遍历的像素点已经确认第五连通域为噪点连通域,无需继续遍历操作。若第五连通域的所有像素点都被遍历了,这说明第五连通域属于数字或字母字符的一部分。
S26、重复执行步骤S19至步骤S25,直至所述第三连通域集合被遍历。
其中,将单字符图像中除主连通域之外的所有连通域依次与主连通域组合,判断是噪点连通域还是字符区域。
其中,针对字符abdegopqBDOQ0,出现在封闭区域内的噪点沿上下左右四个方向均能够找到主连通域,本实施例利用这一现象,精确地删除上述字符封闭区域内的噪点连通域,有利于提高去除英文和数字字符图像的噪点连通域的准确度。
S27、从第三连通域集合中获取一连通域,得到第六连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域。
例如,图5为“U”的单字符图像,“U”为主连通域,“U”内部的线段为第六连通域。
S28、预设第六噪点数的值为零。
其中,第七噪点数的初始值为0。
S29、获取所述第六连通域中的一像素点,得到第六像素点。
例如,如图5所示,当前的第六像素点为“U”内部线段(第六连通域)最下方的像素点。
S30、从所述单字符图像中获取所述第六像素点所在行的图像,得到第六行图像。
S31、从所述单字符图像中获取所述第六像素点所在列的图像,得到第六列图像。
S32、若所述第六行图像中,所述第六像素点的左方和所述第六像素点的右方都存在所述主连通域的像素点,且所述第六列图像中,所述第六像素点的下方存在所述主连通域的像素点,则将所述第六噪点数的值加一。
例如,如图5所示,第六行图像为“U”内部线段最下方的像素点(第六像素点)所在行,在第六行图像中,第六像素点的左方和右方都存在主连通域的像素点。第六列图像为“U”内部线段最下方的像素点(第六像素点)所在列,在第六列图像中,第六像素点的下方存在主连通域的像素点。因此,第六像素点被主连通域“U”的左右下三边包含,第六像素点极有可能是噪点,第六噪点数的值加一。
S33、重复执行步骤S29至步骤S32,直至所述第六连通域被遍历。
例如,如图5所示,在第六连通域被遍历后,经统计得出,第六连通域中被主连通域三边包围的噪点数(第六噪点数)为4,第六连通域的像素点总数为6。
S34、若所述第六噪点数与所述第六连通域的像素点总数的比值小于五分之四,则删除所述第六连通域。
例如,如图5所示,第六噪点数与所述第六连通域的像素点总数的比值为六分之四,小于五分之四,因此,判断第六连通域为噪点连通域,删除第六连通域。
例如,如图9所示,由于字母W存在断笔的情况,W具有两个连通域(第一连通域和第二连通域),其中,第一连通域为主连通域,包含W的大部分像素点。虽然第二连通域中的像素点都被主连通域的左右下三边包围,但是第二连通域并不是噪点连通域。因此,本实施例为了避免“W”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象,本实施例限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时,才认为该连通域是噪点连通域。
S35、重复执行步骤S27至步骤S34,直至所述第三连通域集合被遍历。
其中,将单字符图像中除主连通域之外的所有连通域依次与主连通域组合,判断是噪点连通域还是字符区域。
其中,针对字符jyuxkYJUHXKNZ2,部分噪点沿左右下三个方向均能够找到主连通域。同时,为了避免“W”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象,本实施例限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时,才认为该连通域是噪点连通域。本实施例利用这一现象,精确地删除被上述字符三边包含的噪点连通域,有利于提高去除英文和数字字符图像的噪点连通域的准确度。
S36、从第三连通域集合中获取一连通域,得到第七连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域。
例如,图6为“3”的单字符图像,“3”为主连通域,“3”左侧的线段为第七连通域。
S37、预设第七噪点数的值为零。
其中,第七噪点数的初始值为0。
S38、获取所述第七连通域中的一像素点,得到第七像素点。
例如,如图6所示,当前的第七像素点为“3”左侧线段(第七连通域)最右方的像素点。
S39、从所述单字符图像中获取所述第七像素点所在行的图像,得到第七行图像。
S40、从所述单字符图像中获取所述第七像素点所在列的图像,得到第七列图像。
S41、若所述第七行图像中,所述第七像素点的右方存在所述主连通域的像素点,且所述第七列图像中,所述第七像素点的上方和所述第七像素点的下方都存在所述主连通域的像素点,则将所述第七噪点数的值加一。
例如,如图6所示,第七行图像为“3”左侧线段最右方的像素点(第七像素点)所在行,在第七行图像中,第七像素点的右方存在主连通域的像素点。第七列图像为“3”左侧线段最右方的像素点(第七像素点)所在列,在第七列图像中,第七像素点的上方和下方都存在主连通域的像素点。因此,第七像素点被主连通域“3”的右上下三边包含,第七像素点极有可能是噪点,第七噪点数的值加一。
S42、重复执行步骤S38至步骤S41,直至所述第七连通域被遍历。
例如,如图6所示,在第七连通域被遍历后,经统计得出,第七连通域中被主连通域三边包围的噪点数(第七噪点数)为3,第七连通域的像素点总数为8。
S43、若所述第七噪点数与所述第七连通域的像素点总数的比值小于五分之四,则删除所述第七连通域。
例如,如图6所示,第七噪点数与所述第七连通域的像素点总数的比值为八分之三,小于五分之四,因此,判断第七连通域为噪点连通域,删除第七连通域。
例如,如图10所示,由于数字3存在断笔的情况,3具有两个连通域(第一连通域和第二连通域),其中,第一连通域为主连通域,包含3的大部分像素点。虽然第二连通域中的像素点都被主连通域的右上下三边包围,但是第二连通域并不是噪点连通域。因此,本实施例为了避免“3”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象,本实施例限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时,才认为该连通域是噪点连通域。
S44、重复执行步骤S36至步骤S43,直至所述第三连通域集合被遍历。
其中,将单字符图像中除主连通域之外的所有连通域依次与主连通域组合,判断是噪点连通域还是字符区域。
其中,针对字符xX3,部分噪点沿右上下三个方向均能够找到主连通域。同时,为了避免“3”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象,本实施例限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时,才认为该连通域是噪点连通域。本实施例利用这一现象,精确地删除被上述字符三边包含的噪点连通域,有利于提高去除英文和数字字符图像的噪点连通域的准确度。
S45、从第三连通域集合中获取一连通域,得到第八连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域。
例如,图7为“R”的单字符图像,“R”为主连通域,“R”下方的线段为第八连通域。
S46、预设第八噪点数的值为零。
其中,第七噪点数的初始值为0。
S47、获取所述第八连通域中的一像素点,得到第八像素点。
例如,如图7所示,当前的第八像素点为“R”下方线段(第八连通域)最上方的像素点。
S48、从所述单字符图像中获取所述第八像素点所在行的图像,得到第八行图像。
S49、从所述单字符图像中获取所述第八像素点所在列的图像,得到第八列图像。
S50、若所述第八行图像中,所述第八像素点的左方和右方都存在所述主连通域的像素点,且所述第八列图像中,所述第八像素点的上方存在所述主连通域的像素点,则将所述第八噪点数的值加一。
例如,如图7所示,第八行图像为“R”下方线段最上方的像素点(第八像素点)所在行,在第八行图像中,第八像素点的左方和右方都存在主连通域的像素点。第八列图像为“R”下方线段最上方的像素点(第八像素点)所在列,在第八列图像中,第八像素点的上方存在主连通域的像素点。因此,第八像素点被主连通域“R”的左右上三边包含,第八像素点极有可能是噪点,第八噪点数的值加一。
S51、重复执行步骤S47至步骤S50,直至所述第八连通域被遍历。
例如,如图7所示,在第八连通域被遍历后,经统计得出,第八连通域中被主连通域三边包围的噪点数(第八噪点数)为4,第七连通域的像素点总数为11。
S52、若所述第八噪点数与所述第八连通域的像素点总数的比值小于五分之四,则删除所述第八连通域。
例如,如图7所示,第八噪点数与所述第八连通域的像素点总数的比值为十一分之四,小于五分之四,因此,判断第八连通域为噪点连通域,删除第八连通域。
例如,如图11所示,由于字母M存在断笔的情况,M具有两个连通域(第一连通域和第二连通域),其中,第一连通域为主连通域,包含M的大部分像素点。虽然第二连通域中的像素点都被主连通域的左右上三边包围,但是第二连通域并不是噪点连通域。因此,本实施例为了避免“M”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象,本实施例限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时,才认为该连通域是噪点连通域。
S53、重复执行步骤S45至步骤S52,直至所述第三连通域集合被遍历。
其中,将单字符图像中除主连通域之外的所有连通域依次与主连通域组合,判断是噪点连通域还是字符区域。
其中,针对字符hkAHXRKN,部分噪点沿左右上三个方向均能够找到主连通域。同时,为了避免“M”等字符出现断笔时也会造成部分连通域被主连通域三边包围的现象,本实施例限定只有当一连通域被主连通域包围的像素点总数小于该连通域像素点总数的五分之四时,才认为该连通域是噪点连通域。本实施例利用这一现象,精确地删除被上述字符三边包含的噪点连通域,有利于提高去除英文和数字字符图像的噪点连通域的准确度。
S54、从第三连通域集合中获取一连通域,得到第九连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域。
例如,图8为“G”的单字符图像,“G”为主连通域,“G”右侧的线段为第九连通域。
S55、获取所述第八连通域中的一像素点,得到第九像素点。
例如,如图8所示,当前的第九像素点为“G”右侧线段(第九连通域)最左侧的像素点。
S56、从所述单字符图像中获取所述第九像素点所在行的图像,得到第九行图像。
S57、从所述单字符图像中获取所述第九像素点所在列的图像,得到第九列图像。
S58、若所述第九行图像中,所述第九像素点的左方存在所述主连通域的像素点,且所述第九列图像中,所述第九像素点的上方和所述第九像素点的下方均存在所述主连通域的像素点,则删除所述第九连通域。
例如,如图8所示,第九行图像为“G”右侧线段最左侧的像素点(第九像素点)所在行,在第九行图像中,第九像素点的左方存在主连通域的像素点。第九列图像为“G”右侧线段最左侧的像素点(第九像素点)所在列,在第九列图像中,第九像素点的上方和下方都存在主连通域的像素点。因此,第九连通域中存在一第九像素点被主连通域“G”的左上下三边包围,第九连通域为噪点连通域,应删除。
S59、重复执行步骤S55至步骤S58,直至所述第九连通域被遍历或所述第九连通域被删除。
其中,若第九连通域被遍历后均不存在一像素点被主连通域左上下三边包围,则判断第九连通域不是噪点连通域。若第九连通域中存在一像素点被主连通域的左上下三边包围,则第九连通域是噪点连通域,应删除。
S60、重复执行步骤S54至步骤S59,直至所述第三连通域集合被遍历。
其中,将单字符图像中除主连通域之外的所有连通域依次与主连通域组合,判断是噪点连通域还是字符区域。
其中,针对字符ceksxzRCEFKGXZ2,部分噪点沿左上下三个方向均能够找到主连通域。本实施例利用这一现象,精确地删除被上述字符三边包含的噪点连通域,有利于提高去除英文和数字字符图像的噪点连通域的准确度。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于二值化的字符去噪方法,其特征在于,包括:
S1、二值化一单字符的字符图像,得到单字符图像;
S2、检测所述单字符图像的连通域,得到第一连通域集合;
S3、统计所述第一连通域集合中所有连通域的高度的平均值,得到平均高度;
S4、从所述第一连通域集合中获取高度大于所述平均高度的二分之一的连通域,得到第二连通域集合;
S5、标记所述第二连通域集合中像素点个数最多的一连通域为主连通域;
S6、获取所述单字符图像中的第三连通域和所述主连通域所在的区域,得到第一待去噪图像;所述第三连通域为所述第一连通域集合中除所述主连通域之外的任一连通域;
S7、按序获取位于所述第一待去噪图像同一列的像素点,得到第一像素点有序集合;
S8、统计所述第一像素点有序集合中,一黑色像素点的下一个像素点为白色的次数;将所述次数加一,得到垂直穿越次数;
S9、遍历所述第一待去噪图像的所有列,得到最大垂直穿越次数;
S10、若所述第一待去噪图像的最大垂直穿越数大于3,则在所述单字符图像上删除所述第三连通域;
S11、重复步骤S6至步骤S10,直至所述第二连通域集合被遍历。
2.根据权利要求1所述的基于二值化的字符去噪方法,其特征在于,还包括:
S12、从第三连通域集合中获取一连通域,得到第四连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S13、获取所述单字符图像中的第四连通域和所述主连通域所在的区域,得到第二待去噪图像;
S14、按序获取位于所述第二待去噪图像同一行的像素点,得到第二像素点有序集合;
S15、统计所述第二像素点有序集合中,一黑色像素点的下一个像素点为白色的次数;将所述次数加一,得到水平穿越次数;
S16、遍历所述第二待去噪图像的所有行,得到最大水平穿越次数;
S17、若所述第二待去噪图像的最大水平穿越数大于4,则在所述单字符图像上删除所述第四连通域;
S18、重复步骤S12至步骤S17,直至所述第三连通域集合被遍历。
3.根据权利要求1所述的基于二值化的字符去噪方法,其特征在于,还包括:
S19、从第三连通域集合中获取一连通域,得到第五连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S20、获取所述单字符图像中的第五连通域和所述主连通域所在的区域,得到第三待去噪图像;
S21、获取所述第五连通域中的一像素点,得到第五像素点;
S22、从所述单字符图像中获取所述第五像素点所在行的图像,得到第五行图像;
S23、从所述单字符图像中获取所述第五像素点所在列的图像,得到第五列图像;
S24、若所述第五行图像中,所述第五像素点的左方和所述第五像素点的右方都存在所述主连通域的像素点,且所述第五列图像中,所述第五像素点的上方和所述第五像素点的下方都存在所述主连通域的像素点,则从所述单字符图像中删除所述第五连通域;
S25、重复执行步骤S21至步骤S24,直至所述第五连通域被遍历,或所述第五连通域被删除;
S26、重复执行步骤S19至步骤S25,直至所述第三连通域集合被遍历。
4.根据权利要求1所述的基于二值化的字符去噪方法,其特征在于,还包括:
S27、从第三连通域集合中获取一连通域,得到第六连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S28、预设第六噪点数的值为零;
S29、获取所述第六连通域中的一像素点,得到第六像素点;
S30、从所述单字符图像中获取所述第六像素点所在行的图像,得到第六行图像;
S31、从所述单字符图像中获取所述第六像素点所在列的图像,得到第六列图像;
S32、若所述第六行图像中,所述第六像素点的左方和所述第六像素点的右方都存在所述主连通域的像素点,且所述第六列图像中,所述第六像素点的下方存在所述主连通域的像素点,则将所述第六噪点数的值加一;
S33、重复执行步骤S29至步骤S32,直至所述第六连通域被遍历;
S34、若所述第六噪点数与所述第六连通域的像素点总数的比值小于五分之四,则删除所述第六连通域;
S35、重复执行步骤S27至步骤S34,直至所述第三连通域集合被遍历。
5.根据权利要求1所述的基于二值化的字符去噪方法,其特征在于,还包括:
S36、从第三连通域集合中获取一连通域,得到第七连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S37、预设第七噪点数的值为零;
S38、获取所述第七连通域中的一像素点,得到第七像素点;
S39、从所述单字符图像中获取所述第七像素点所在行的图像,得到第七行图像;
S40、从所述单字符图像中获取所述第七像素点所在列的图像,得到第七列图像;
S41、若所述第七行图像中,所述第七像素点的右方存在所述主连通域的像素点,且所述第七列图像中,所述第七像素点的上方和所述第七像素点的下方都存在所述主连通域的像素点,则将所述第七噪点数的值加一;
S42、重复执行步骤S38至步骤S41,直至所述第七连通域被遍历;
S43、若所述第七噪点数与所述第七连通域的像素点总数的比值小于五分之四,则删除所述第七连通域;
S44、重复执行步骤S36至步骤S43,直至所述第三连通域集合被遍历。
6.根据权利要求1所述的基于二值化的字符去噪方法,其特征在于,还包括:
S45、从第三连通域集合中获取一连通域,得到第八连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S46、预设第八噪点数的值为零;
S47、获取所述第八连通域中的一像素点,得到第八像素点;
S48、从所述单字符图像中获取所述第八像素点所在行的图像,得到第八行图像;
S49、从所述单字符图像中获取所述第八像素点所在列的图像,得到第八列图像;
S50、若所述第八行图像中,所述第八像素点的左方和右方都存在所述主连通域的像素点,且所述第八列图像中,所述第八像素点的上方存在所述主连通域的像素点,则将所述第八噪点数的值加一;
S51、重复执行步骤S47至步骤S50,直至所述第八连通域被遍历;
S52、若所述第八噪点数与所述第八连通域的像素点总数的比值小于五分之四,则删除所述第八连通域;
S53、重复执行步骤S45至步骤S52,直至所述第三连通域集合被遍历。
7.根据权利要求1所述的基于二值化的字符去噪方法,其特征在于,还包括:
S54、从第三连通域集合中获取一连通域,得到第九连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S55、获取所述第八连通域中的一像素点,得到第九像素点;
S56、从所述单字符图像中获取所述第九像素点所在行的图像,得到第九行图像;
S57、从所述单字符图像中获取所述第九像素点所在列的图像,得到第九列图像;
S58、若所述第九行图像中,所述第九像素点的左方存在所述主连通域的像素点,且所述第九列图像中,所述第九像素点的上方和所述第九像素点的下方均存在所述主连通域的像素点,则删除所述第九连通域;
S59、重复执行步骤S55至步骤S58,直至所述第九连通域被遍历或所述第九连通域被删除;
S60、重复执行步骤S54至步骤S59,直至所述第三连通域集合被遍历。
8.一种基于二值化的字符去噪终端,其特征在于,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
S1、二值化一单字符的字符图像,得到单字符图像;
S2、检测所述单字符图像的连通域,得到第一连通域集合;
S3、统计所述第一连通域集合中所有连通域的高度的平均值,得到平均高度;
S4、从所述第一连通域集合中获取高度大于所述平均高度的二分之一的连通域,得到第二连通域集合;
S5、标记所述第二连通域集合中像素点个数最多的一连通域为主连通域;
S6、获取所述单字符图像中的第三连通域和所述主连通域所在的区域,得到第一待去噪图像;所述第三连通域为所述第一连通域集合中除所述主连通域之外的任一连通域;
S7、按序获取位于所述第一待去噪图像同一列的像素点,得到第一像素点有序集合;
S8、统计所述第一像素点有序集合中,一黑色像素点的下一个像素点为白色的次数;将所述次数加一,得到垂直穿越次数;
S9、遍历所述第一待去噪图像的所有列,得到最大垂直穿越次数;
S10、若所述第一待去噪图像的最大垂直穿越数大于3,则在所述单字符图像上删除所述第三连通域;
S11、重复步骤S6至步骤S10,直至所述第二连通域集合被遍历。
9.根据权利要求8所述的基于二值化的字符去噪终端,其特征在于,还包括:
S12、从第三连通域集合中获取一连通域,得到第四连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S13、获取所述单字符图像中的第四连通域和所述主连通域所在的区域,得到第二待去噪图像;
S14、按序获取位于所述第二待去噪图像同一行的像素点,得到第二像素点有序集合;
S15、统计所述第二像素点有序集合中,一黑色像素点的下一个像素点为白色的次数;将所述次数加一,得到水平穿越次数;
S16、遍历所述第二待去噪图像的所有行,得到最大水平穿越次数;
S17、若所述第二待去噪图像的最大水平穿越数大于4,则在所述单字符图像上删除所述第四连通域;
S18、重复步骤S12至步骤S17,直至所述第三连通域集合被遍历。
10.根据权利要求8所述的基于二值化的字符去噪终端,其特征在于,还包括:
S19、从第三连通域集合中获取一连通域,得到第五连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S20、获取所述单字符图像中的第五连通域和所述主连通域所在的区域,得到第三待去噪图像;
S21、获取所述第五连通域中的一像素点,得到第五像素点;
S22、从所述单字符图像中获取所述第五像素点所在行的图像,得到第五行图像;
S23、从所述单字符图像中获取所述第五像素点所在列的图像,得到第五列图像;
S24、若所述第五行图像中,所述第五像素点的左方和所述第五像素点的右方都存在所述主连通域的像素点,且所述第五列图像中,所述第五像素点的上方和所述第五像素点的下方都存在所述主连通域的像素点,则从所述单字符图像中删除所述第五连通域;
S25、重复执行步骤S21至步骤S24,直至所述第五连通域被遍历,或所述第五连通域被删除;
S26、重复执行步骤S19至步骤S25,直至所述第三连通域集合被遍历;
S27、从第三连通域集合中获取一连通域,得到第六连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S28、预设第六噪点数的值为零;
S29、获取所述第六连通域中的一像素点,得到第六像素点;
S30、从所述单字符图像中获取所述第六像素点所在行的图像,得到第六行图像;
S31、从所述单字符图像中获取所述第六像素点所在列的图像,得到第六列图像;
S32、若所述第六行图像中,所述第六像素点的左方和所述第六像素点的右方都存在所述主连通域的像素点,且所述第六列图像中,所述第六像素点的下方存在所述主连通域的像素点,则将所述第六噪点数的值加一;
S33、重复执行步骤S29至步骤S32,直至所述第六连通域被遍历;
S34、若所述第六噪点数与所述第六连通域的像素点总数的比值小于五分之四,则删除所述第六连通域;
S35、重复执行步骤S27至步骤S34,直至所述第三连通域集合被遍历;
S36、从第三连通域集合中获取一连通域,得到第七连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S37、预设第七噪点数的值为零;
S38、获取所述第七连通域中的一像素点,得到第七像素点;
S39、从所述单字符图像中获取所述第七像素点所在行的图像,得到第七行图像;
S40、从所述单字符图像中获取所述第七像素点所在列的图像,得到第七列图像;
S41、若所述第七行图像中,所述第七像素点的右方存在所述主连通域的像素点,且所述第七列图像中,所述第七像素点的上方和所述第七像素点的下方都存在所述主连通域的像素点,则将所述第七噪点数的值加一;
S42、重复执行步骤S38至步骤S41,直至所述第七连通域被遍历;
S43、若所述第七噪点数与所述第七连通域的像素点总数的比值小于五分之四,则删除所述第七连通域;
S44、重复执行步骤S36至步骤S43,直至所述第三连通域集合被遍历;
S45、从第三连通域集合中获取一连通域,得到第八连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S46、预设第八噪点数的值为零;
S47、获取所述第八连通域中的一像素点,得到第八像素点;
S48、从所述单字符图像中获取所述第八像素点所在行的图像,得到第八行图像;
S49、从所述单字符图像中获取所述第八像素点所在列的图像,得到第八列图像;
S50、若所述第八行图像中,所述第八像素点的左方和右方都存在所述主连通域的像素点,且所述第八列图像中,所述第八像素点的上方存在所述主连通域的像素点,则将所述第八噪点数的值加一;
S51、重复执行步骤S47至步骤S50,直至所述第八连通域被遍历;
S52、若所述第八噪点数与所述第八连通域的像素点总数的比值小于五分之四,则删除所述第八连通域;
S53、重复执行步骤S45至步骤S52,直至所述第三连通域集合被遍历;
S54、从第三连通域集合中获取一连通域,得到第九连通域;所述第三连通域集合包含所述第二连通域集合中除所述主连通域之外的所有连通域;
S55、获取所述第八连通域中的一像素点,得到第九像素点;
S56、从所述单字符图像中获取所述第九像素点所在行的图像,得到第九行图像;
S57、从所述单字符图像中获取所述第九像素点所在列的图像,得到第九列图像;
S58、若所述第九行图像中,所述第九像素点的左方存在所述主连通域的像素点,且所述第九列图像中,所述第九像素点的上方和所述第九像素点的下方均存在所述主连通域的像素点,则删除所述第九连通域;
S59、重复执行步骤S55至步骤S58,直至所述第九连通域被遍历或所述第九连通域被删除;
S60、重复执行步骤S54至步骤S59,直至所述第三连通域集合被遍历。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910316926.4A CN110020655B (zh) | 2019-04-19 | 2019-04-19 | 一种基于二值化的字符去噪方法及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910316926.4A CN110020655B (zh) | 2019-04-19 | 2019-04-19 | 一种基于二值化的字符去噪方法及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110020655A true CN110020655A (zh) | 2019-07-16 |
CN110020655B CN110020655B (zh) | 2021-08-20 |
Family
ID=67191946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910316926.4A Active CN110020655B (zh) | 2019-04-19 | 2019-04-19 | 一种基于二值化的字符去噪方法及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110020655B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1696976A (zh) * | 2003-09-25 | 2005-11-16 | 旭上绘图股份有限公司 | 使用可程式化遮光器的反图形失真线像素覆盖计算 |
CN101452532A (zh) * | 2008-12-18 | 2009-06-10 | 清华大学 | 一种文本无关笔迹鉴别的方法和装置 |
CN101944174A (zh) * | 2009-07-08 | 2011-01-12 | 西安电子科技大学 | 车牌字符的识别方法 |
CN102930277A (zh) * | 2012-09-19 | 2013-02-13 | 上海珍岛信息技术有限公司 | 一种基于识别反馈的字符图像验证码识别方法 |
CN103116751A (zh) * | 2013-01-24 | 2013-05-22 | 河海大学 | 一种车牌字符自动识别方法 |
CN104318233A (zh) * | 2014-10-19 | 2015-01-28 | 温州大学 | 车牌图像水平倾斜校正方法 |
CN104636747A (zh) * | 2013-11-11 | 2015-05-20 | 北京大学 | 一种字符去粘连的方法及*** |
CN105184292A (zh) * | 2015-08-26 | 2015-12-23 | 北京云江科技有限公司 | 自然场景图像中手写体数学公式结构分析与识别方法 |
CN107122775A (zh) * | 2017-03-29 | 2017-09-01 | 南京航空航天大学 | 一种基于特征匹配的安卓手机身份证字符识别方法 |
WO2017148282A1 (zh) * | 2016-03-01 | 2017-09-08 | 夏普株式会社 | 文本检测方法和设备 |
US20180096216A1 (en) * | 2015-02-13 | 2018-04-05 | Grg Banking Equipment Co., Ltd. | Character segmentation and recognition method |
CN108564079A (zh) * | 2018-05-08 | 2018-09-21 | 东华大学 | 一种便携式字符识别装置及方法 |
CN108734189A (zh) * | 2017-04-20 | 2018-11-02 | 天津工业大学 | 浓雾天气下基于大气散射模型和深度学习的车牌识别*** |
EP3401842A1 (en) * | 2016-01-05 | 2018-11-14 | Tencent Technology (Shenzhen) Company Limited | Text image processing method and apparatus |
CN109002821A (zh) * | 2018-07-19 | 2018-12-14 | 武汉科技大学 | 一种基于连通域和切线斜率的网银盾数字识别方法 |
-
2019
- 2019-04-19 CN CN201910316926.4A patent/CN110020655B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1696976A (zh) * | 2003-09-25 | 2005-11-16 | 旭上绘图股份有限公司 | 使用可程式化遮光器的反图形失真线像素覆盖计算 |
CN101452532A (zh) * | 2008-12-18 | 2009-06-10 | 清华大学 | 一种文本无关笔迹鉴别的方法和装置 |
CN101944174A (zh) * | 2009-07-08 | 2011-01-12 | 西安电子科技大学 | 车牌字符的识别方法 |
CN102930277A (zh) * | 2012-09-19 | 2013-02-13 | 上海珍岛信息技术有限公司 | 一种基于识别反馈的字符图像验证码识别方法 |
CN103116751A (zh) * | 2013-01-24 | 2013-05-22 | 河海大学 | 一种车牌字符自动识别方法 |
CN104636747A (zh) * | 2013-11-11 | 2015-05-20 | 北京大学 | 一种字符去粘连的方法及*** |
CN104318233A (zh) * | 2014-10-19 | 2015-01-28 | 温州大学 | 车牌图像水平倾斜校正方法 |
US20180096216A1 (en) * | 2015-02-13 | 2018-04-05 | Grg Banking Equipment Co., Ltd. | Character segmentation and recognition method |
CN105184292A (zh) * | 2015-08-26 | 2015-12-23 | 北京云江科技有限公司 | 自然场景图像中手写体数学公式结构分析与识别方法 |
EP3401842A1 (en) * | 2016-01-05 | 2018-11-14 | Tencent Technology (Shenzhen) Company Limited | Text image processing method and apparatus |
WO2017148282A1 (zh) * | 2016-03-01 | 2017-09-08 | 夏普株式会社 | 文本检测方法和设备 |
CN107122775A (zh) * | 2017-03-29 | 2017-09-01 | 南京航空航天大学 | 一种基于特征匹配的安卓手机身份证字符识别方法 |
CN108734189A (zh) * | 2017-04-20 | 2018-11-02 | 天津工业大学 | 浓雾天气下基于大气散射模型和深度学习的车牌识别*** |
CN108564079A (zh) * | 2018-05-08 | 2018-09-21 | 东华大学 | 一种便携式字符识别装置及方法 |
CN109002821A (zh) * | 2018-07-19 | 2018-12-14 | 武汉科技大学 | 一种基于连通域和切线斜率的网银盾数字识别方法 |
Non-Patent Citations (2)
Title |
---|
UDIT ROY等: "Text Detection on Camera Acquired Document Images using Supervised Classification of Connected Components in Wavelet Domain", 《21ST INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION》 * |
蔡锋等: "基于连通域分析和支持向量机的传真图像关键词定位", 《计算机应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110020655B (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Constrained R-CNN: A general image manipulation detection model | |
CN108805889B (zh) | 边缘引导的精细化显著性物体分割方法与***、设备 | |
CN108846319A (zh) | 基于直方图的虹膜图像增强方法、装置、设备及存储介质 | |
CN105719306B (zh) | 一种高分辨率遥感影像中的建筑物快速提取方法 | |
JP6923159B2 (ja) | 情報処理装置 | |
CN110517246A (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN109815762B (zh) | 远距离识别二维码的方法、存储介质 | |
CN110490913A (zh) | 基于角点与单线段编组的特征描述算子进行影像匹配方法 | |
CN112950477A (zh) | 一种基于双路径处理的高分辨率显著性目标检测方法 | |
CN109308465A (zh) | 表格线检测方法、装置、设备及计算机可读介质 | |
CN112200274B (zh) | 一种目标检测方法、装置、电子设备和存储介质 | |
Rebelo et al. | Staff line detection and removal in the grayscale domain | |
CN115187456A (zh) | 基于图像强化处理的文本识别方法、装置、设备及介质 | |
CN109815100B (zh) | 一种利用图像对比分析对叫号宝软件的行为监控方法 | |
CN108876701B (zh) | 一种基于游程的单次扫描连通域标记方法及其硬件结构 | |
CN110020655A (zh) | 一种基于二值化的字符去噪方法及终端 | |
Jia et al. | A super-resolution network using channel attention retention for pathology images | |
CN113051901B (zh) | 一种身份证文本识别方法、***、介质及电子终端 | |
CN110533673A (zh) | 一种信息获取方法、装置、终端及介质 | |
US20050238235A1 (en) | Run length based connected components and contour following for enhancing the performance of circled region extraction algorithm | |
CN106529370A (zh) | 一种多qr码识别方法 | |
CN112541507A (zh) | 多尺度卷积神经网络特征提取方法、***、介质及应用 | |
CN110097065A (zh) | 一种基于FreeMan链码的直线检测方法及终端 | |
Cao et al. | A fast thinning algorithm of square hmong character handwriting using template matching mechanism | |
CN115272249B (zh) | 一种缺陷检测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |