CN110059695B - 一种基于垂直投影的字符分割方法及终端 - Google Patents

一种基于垂直投影的字符分割方法及终端 Download PDF

Info

Publication number
CN110059695B
CN110059695B CN201910328657.3A CN201910328657A CN110059695B CN 110059695 B CN110059695 B CN 110059695B CN 201910328657 A CN201910328657 A CN 201910328657A CN 110059695 B CN110059695 B CN 110059695B
Authority
CN
China
Prior art keywords
character
distance
value
string image
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910328657.3A
Other languages
English (en)
Other versions
CN110059695A (zh
Inventor
庄国金
陈文传
杜保发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Shangji Network Technology Co ltd
Original Assignee
Xiamen Shangji Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Shangji Network Technology Co ltd filed Critical Xiamen Shangji Network Technology Co ltd
Priority to CN201910328657.3A priority Critical patent/CN110059695B/zh
Publication of CN110059695A publication Critical patent/CN110059695A/zh
Application granted granted Critical
Publication of CN110059695B publication Critical patent/CN110059695B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明涉及一种基于垂直投影的字符分割方法及终端,属于数据处理领域。本发明通过采用垂直投影法分割第一字符串图像中的字符,得到第二字符串图像;获取与所述第二字符串图像对应的标准距离值;所述标准距离值为所述第二字符串图像中两个相邻字符的间距的标准值;若所述第二字符串图像中,两相邻字符的中心点的间距大于所述标准距离值,则:将所述两相邻字符中的一字符分割为两个字符;若所述第二字符串图像中,两相邻字符的中心点的间距小于所述标准距离值,则:获取所述两相邻字符中的一字符,得到第一字符;获取与所述第一字符相邻的一字符,得到第二字符;合并所述第一字符和所述第二字符。实现提高字符分割的准确度。

Description

一种基于垂直投影的字符分割方法及终端
技术领域
本发明涉及一种基于垂直投影的字符分割方法及终端,属于数据处理领域。
背景技术
随着电子信息化的发展,很多应用场景需将物理载体上的信息转换为计算机可处理的数字信息。例如,停车场出入口对车牌进行识别,根据识别到的车牌号计算停车费用。在车牌识别这一应用场景中,需先对车牌拍照,获取车牌照片,再识别车牌照片上得到车牌号。为了提高识别的准确性,减少字符之间的干扰,应先对车牌照片上的字符进行分割,再分别对每一个单字符进行识别。
申请号为201710858247.0的专利文献提供公开了一种身份证字符分割方法。首先通过专用设备采集身份证图像,再对身份证图像中的黑色字体采用二值化阈值随图像底色的变化而变化的二值化处理方式,得到二值图像,并将反向的二值图像旋转180度得到正向的二值图像;然后,对二值图像做水平投影,基于水平投影结果获取身份证号码部分的上下边界,对身份证号码图像做垂直投影,基于垂直投影得到号码的左右边界,以及每个号码的位置;并基于汉字部分与号码部分的对应位置关系,得到汉字部分的左、右边界,从而基于汉字部分图像的水平投影,垂直投影得到姓名、民族和家庭地址部分的单个字符的分割。本发明用于提取身份信息的字符分割,其分割准确,且成本开销低。
上述专利文献利用垂直投影法分割身份证号码,这种方法对于黏连较小、或断笔较少的字符串图像能够得到较好的字符分割效果,但是对于干扰严重或数据丢失严重的情况,易造成误分割。例如,黏连的两字符未分割开,同一字符被分割成两个字符。
发明内容
本发明所要解决的技术问题是:如何提高字符分割的准确度。
为了解决上述技术问题,本发明采用的技术方案为:
本发明提供一种基于垂直投影的字符分割方法,还包括:
采用垂直投影法分割第一字符串图像中的字符,得到第二字符串图像;
获取所述第二字符串图像中两相邻字符间的标准距离值;
若所述第二字符串图像中,两相邻字符的中心点的间距大于所述标准距离值,则将所述两相邻字符中的一字符分割为两个字符;
若所述第二字符串图像中,两相邻字符的中心点的间距小于所述标准距离值,则:获取所述两相邻字符中的一字符,得到第一字符;获取与所述第一字符相邻的一字符,得到第二字符;合并所述第一字符和所述第二字符。
优选地,将所述两相邻字符中的一字符分割为两个字符,具体为:
获取所述一字符的中心点的横坐标,得到中心点横坐标;
预设像素个数;
垂直投影所述第二字符串图像中横坐标的取值范围为(x-a,x+a)的区域,得到垂直投影直方图;其中,所述x为所述中心点横坐标,所述a为所述像素个数;所述垂直投影直方图的横坐标表示一像素点在所述第二字符串图像中的横坐标;所述垂直投影直方图的纵坐标表示像素点个数;
获取所述垂直投影直方图中,像素点个数最小的横坐标值,得到断点坐标;
根据所述断点坐标分割所述一字符。
优选地,获取所述第二字符串图像中两相邻字符间的标准距离值,具体为:
获取所述第二字符串图像中的一字符,得到第三字符;
获取与所述第三字符相邻的一字符,得到第四字符;所述第四字符位于所述第三字符左侧;
获取与所述第三字符相邻的一字符,得到第五字符;所述第五字符位于所述第三字符的右侧;
计算所述第三字符的高度、所述第四字符的高度和所述第五字符的高度的平均值,得到高度均值;
获取所述第三字符的中心点与所述第四字符的中心点的距离,得到第一间距;
获取所述第三字符的中心点与所述第五字符的中心点的距离,得到第二间距;
计算所述第一间距与所述第二间距的平均值,得到间距均值;
若所述第一间距与所述第二间距的差值小于预设的间距阈值,且所述间距均值与所述高度均值的比值在预设的比值范围内,则设置所述间距均值为所述标准距离值。
本发明还提供一种字符分割终端,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
采用垂直投影法分割第一字符串图像中的字符,得到第二字符串图像;
获取所述第二字符串图像中两相邻字符间的标准距离值;
若所述第二字符串图像中,两相邻字符的中心点的间距大于所述标准距离值,则将所述两相邻字符中的一字符分割为两个字符;
若所述第二字符串图像中,两相邻字符的中心点的间距小于所述标准距离值,则:获取所述两相邻字符中的一字符,得到第一字符;获取与所述第一字符相邻的一字符,得到第二字符;合并所述第一字符和所述第二字符。
优选地,将所述两相邻字符中的一字符分割为两个字符,具体为:
获取所述一字符的中心点的横坐标,得到中心点横坐标;
预设像素个数;
垂直投影所述第二字符串图像中横坐标的取值范围为(x-a,x+a)的区域,得到垂直投影直方图;其中,所述x为所述中心点横坐标,所述a为所述像素个数;所述垂直投影直方图的横坐标表示一像素点在所述第二字符串图像中的横坐标;所述垂直投影直方图的纵坐标表示像素点个数;
获取所述垂直投影直方图中,像素点个数最小的横坐标值,得到断点坐标;
根据所述断点坐标分割所述一字符。
优选地,获取所述第二字符串图像中两相邻字符间的标准距离值,具体为:
获取所述第二字符串图像中的一字符,得到第三字符;
获取与所述第三字符相邻的一字符,得到第四字符;所述第四字符位于所述第三字符左侧;
获取与所述第三字符相邻的一字符,得到第五字符;所述第五字符位于所述第三字符的右侧;
计算所述第三字符的高度、所述第四字符的高度和所述第五字符的高度的平均值,得到高度均值;
获取所述第三字符的中心点与所述第四字符的中心点的距离,得到第一间距;
获取所述第三字符的中心点与所述第五字符的中心点的距离,得到第二间距;
计算所述第一间距与所述第二间距的平均值,得到间距均值;
若所述第一间距与所述第二间距的差值小于预设的间距阈值,且所述间距均值与所述高度均值的比值在预设的比值范围内,则设置所述间距均值为所述标准距离值。
本发明具有如下有益效果:
1、现有技术单纯利用垂直投影法分割字符,只能单纯的将存在空隙的两个字符分割开。采用垂直投影法分割字符会有以下两个问题:若两个字符存在黏连,则无法正确分割;若一个字符存在断笔,该字符由于断笔两部分间均在空隙,垂直投影法会误将一个字符分割成两个字符。本发明提供一种基于垂直投影的字符分割方法及终端,通过一字符串图像中字符间的标准距离值矫正垂直投影法的分割结果,以避免由于黏连造成两字符未分割开,或由于断笔或信息丢失将一个字符误分割成两个字符的情况。本发明涉及的字符串图像中相邻字符的间距相同,例如,身份证上的身份证号码。本发明提供的标准距离值是字符串图像中两个相邻字符的间距的标准值。例如,一身份证图像的身份证号码区域,两两数字的间隔在5个像素点附近浮动。本发明在采用垂直投影法对第一字符串图像进行初步分割后,依次分析每两个相邻字符之间的间距与标准距离值的大小关系,可以判断出根据垂直投影法分割的结果是否存在黏连或误分割的情形。例如,采用垂直投影法对一身份证图像进行初步字符分割得到11个字符,其中,若第三个字符和第四个字符之间的间距为10个像素点,大于标准距离值,则第三个字符或第四个字符可能存在黏连的情况,需要进一步分割;若第三个字符和第四个字符之间的间距为2个像素点,小于标准距离值,则第三个字符或第四个字符可能存在误分割的情况,即第三个字符或第四个字符不完整,只有一半,需与相邻字符合并以达到正确分割字符的目的。本发明使用两个相邻字符的间距的标准值对垂直投影法的分割结果进行校正,可以提高分割字符串图像的准确度。
2、进一步地,当需要将一个字符分割为两个字符时,若使用整个字符进行投影,取整个字符的垂直投影直方图中像素点个数最小的横坐标值进行字符分割,极有可能存在误分割的情况。由于本发明涉及的字符串图像中两相邻字符的间距大致相同,则每一字符的字符宽度大致相同。因此,本发明只将待分割字符的中心区域进行垂直投影,有利于提高分割字符的准确度。
3、进一步地,本发明遍历第二字符串图像,直到找到连续的三个字符符合以下条件:(1)中间字符与左右相邻字符的间距大致相同;(2)两字符的间距与三个字符的高度均值的比值与预设的比值范围相符。当存在连续的三个字符符合上述条件时,表示采用垂直投影法分割这三个字符的字符分割结果正确,这三个字符均不存在黏连或误分割等异常情况,以这三个字符的平均字符间距作为标准距离值,能够提高对其它采用垂直投影法分割异常的字符进行分割校正的准确度。
附图说明
图1为本发明提供的一种基于垂直投影的字符分割方法的具体实施方式的流程框图;
图2为采用垂直投影法分割第一字符串图像的分割结果示意图;
图3为本发明提供的一种基于垂直投影的字符分割终端的具体实施方式的结构框图;
标号说明:
1、处理器; 2、存储器。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
请参照图1至图3,
本发明的实施例一为:
如图1所示,本实施例提供一种基于垂直投影的字符分割方法,还包括:
S1、采用垂直投影法分割第一字符串图像中的字符,得到第二字符串图像。
其中,可采用现有的垂直投影法对第一字符串图像进行分割,得到第二字符串图像。例如,申请号为201810751647.6的专利文献即是在垂直投影法的基础上实现对车牌进行字符分割。采用垂直投影法分割第一字符串图像的字符,具体为:对第一字符串图像进行垂直投影,得到垂直投影直方图。垂直投影直方图用于统计黑色像素点分布情况,即第一字符串图像中每一列包含的黑色像素点个数。若第一字符串图像中有一列的黑色像素点个数为零,则说明这一列上不存在任何的痕迹,极有可能是两个字符间的分界线。本实施例根据这一原理,对字符串图像进行初步分割。例如,图2为采用垂直投影法对原始字符串图像(第一字符串图像)进行字符分割的分割结果示意图(第二字符串图像)。
S2、获取与所述第二字符串图像对应的标准距离值;所述标准距离值为所述第二字符串图像中两个相邻字符的间距的标准值。具体为:
S21、获取所述第二字符串图像中的一字符,得到第三字符。
例如,如图2所示,选取第二字符串图像中的“数”作为第三字符为。
S22、获取与所述第三字符相邻的一字符,得到第四字符;所述第四字符位于所述第三字符左侧。
例如,如图2所示,与所述第三字符“数”相邻,且位于所述第三字符“数”左侧的字符为“大”,即第四字符为“大”。
S23、获取与所述第三字符相邻的一字符,得到第五字符;所述第五字符位于所述第三字符的右侧。
例如,如图2所示,与所述第三字符“数”相邻,且位于所述第三字符右侧的字符为“据”,即第五字符为“据”。
S24、计算所述第三字符的高度、所述第四字符的高度和所述第五字符的高度的平均值,得到高度均值。
例如,如图2所示,第三字符“数”的高度为:33,第四字符“大”的高度为:32,第五字符“据”的高度为:32,这三个字符的高度平均值为:32.22。
S25、获取所述第三字符的中心点与所述第四字符的中心点的距离,得到第一间距。
其中,对第二字符串图像进行连通域检测,连通域指一个所有的彼此连通的点构成的集合,彼此连通的点形成了一个区域,而不连通的点形成了不同的区域。通过连通域检测可初步识别到第二字符串图像中各个字符的位置。本实施例将连通域的中心点作为字符的中心点。
例如,如图2所示,第三字符“数”的中心点与第四字符“大”的中心点的距离为:35。
S26、获取所述第三字符的中心点与所述第五字符的中心点的距离,得到第二间距。
例如,如图2所示,第三字符“数”的中心点与第四字符“据”的中心点的距离为:34。
S27、计算所述第一间距与所述第二间距的平均值,得到间距均值。
例如,如图2所示,间距均值为34像素。
S28、若所述第一间距与所述第二间距的差值小于预设的间距阈值,且所述间距均值与所述高度均值的比值在预设的比值范围内,则设置所述间距均值为所述标准距离值。
其中,本发明遍历第二字符串图像,直到找到连续的三个字符符合以下条件:(1)中间字符与左右相邻字符的间距大致相同;(2)两字符的间距与三个字符的高度均值的比值与预设的比值范围相符。当存在连续的三个字符符合上述条件时,表示采用垂直投影法分割这三个字符的字符分割结果正确,这三个字符均不存在黏连或误分割等异常情况,以这三个字符的平均字符间距作为标准距离值,能够提高对其它采用垂直投影法分割异常的字符进行分割校正的准确度。
例如,如图2所示,第一间距与第二间距的差值为1,小于预设的间距阈值6,并且间距均值与高度均值的比值为34:32,在预设的比值范围[27.2:32,40.8:32]内,则设置间距均值:34作为本实施例的标准距离值。
其中,第一间距与第二间距的差值越小,代表这三个字符异常概率越小,本实施例的间距差值阈值取三个字符平均高度的1/5作为经验阈值,即((32+33+33)/3)/5=6。
预设的比值范围这里取区域[标准比值*80%,标准比值*120%]。标准比值在不同场景下很多都有固定比例,如身份证、驾驶证、行驶证等字符都具有排版规范特征,因此标准比值也固定;但在通用文档中就不具有固定规则,则此值需要计算:分别对相邻字符间距和字符高度进行直方图统计,求出最佳中心间距和最佳高度,这两个参数比例记为标准比值。以标准高度计算为例:在横坐标代表的字符高度,纵坐标代表字符个数的直方图中统计出宽度分布最多(最密集)的区域,最佳高度一般都落在这个区域里,最后取这个区域的中心点作为标准高度值。具体步骤:
循环横坐标从1到最大字符高度max,每个横坐标处都分别累计固定步长(例如5)对应的字符个数和,如横坐标为Xn时,累加数为Xn-2~Xn+2区域的纵坐标值总和SUMn,在这些累加数SUM1~SUMmax中最大值对应的横坐标值可确认为最符合的字符高度。
例如,图2中可计算出最佳中心点间距为34,最佳高度为32,标准比值即为34:32,根据预设的比值范围=[标准比值*80%,标准比值*120%],预设的比值范围最终确认为[27.2:32 ,40.8:32]。
S3、根据所述标准距离值分割或合并所述第二字符串图像中的字符。具体为:
S31、若所述第二字符串图像中,两相邻字符的中心点的间距大于所述标准距离值,则:
将所述两相邻字符中的一字符分割为两个字符。
例如,图2中的字符“是一”的中心点与左侧相邻字符“网”的中心点的间距为:53,大于所述标准距离值:34,且53-34=19,大于间距阈值6。因此,第二字符串图像中的字符“是一”或字符“网”可能存在黏连的情况。本实施例先将“是一”进行分割操作。
其中,将所述两相邻字符中的一字符分割为两个字符,具体为:
S311、获取所述一字符的中心点的横坐标,得到中心点横坐标。
例如,获取字符“是一”的中心点横坐标50。
S312、预设像素个数。
其中,预设像素个数的取值为2。
S313、垂直投影所述第二字符串图像中横坐标的取值范围为(x-a,x+a)的区域,得到垂直投影直方图;其中,所述x为所述中心点横坐标,所述a为所述像素个数;所述垂直投影直方图的横坐标表示一像素点在所述第二字符串图像中的横坐标;所述垂直投影直方图的纵坐标表示像素点个数。
其中,a值取一般取一个经验值,如2。在小范围区域内寻找最佳分割点。
例如,将第二字符串图像中,横坐标的取值范围为(48,52)的区域进行垂直投影。
S314、获取所述垂直投影直方图中,像素点个数最小的横坐标值,得到断点坐标。
S315、根据所述断点坐标分割所述一字符。
其中,当需要将一个字符分割为两个字符时,若使用整个字符进行投影,取整个字符的垂直投影直方图中像素点个数最小的横坐标值进行字符分割,极有可能存在误分割的情况。由于本发明涉及的字符串图像中两相邻字符的间距大致相同,则每一字符的字符宽度大致相同。因此,本发明只将待分割字符的中心区域进行垂直投影,有利于提高分割字符的准确度。
例如,像素点个数最小的横坐标值为50,即字符“是一”的中心点黑色像素点个数最少。以横坐标50为端点将字符“是一”分割成“是”和“一”。
将图2中的字符“是一”拆分成两个字符“是”和“一”之后,字符“是”与字符“网”之间的间距符合要求,因此,“网”字不存在黏连或误分割的情况,无需再对“网”进行操作。
S32、若所述第二字符串图像中,两相邻字符的中心点的间距小于所述标准距离值,则:获取所述两相邻字符中的一字符,得到第一字符;获取与所述第一字符相邻的一字符,得到第二字符;合并所述第一字符和所述第二字符。
例如,如图2所示,字符“石”与其左侧相邻的字符“基”之间的间距为:26,小于所述标准距离值34,且34-26=8,大于间距阈值6。字符“石”与其右侧相邻的字符“出”之间的间距为:16,小于所述标准距离值34,且34-16=18,大于间距阈值6。
因此,字符“基”、字符“石”和字符“出”均可能存在误分割的情况。本实施例先将字符“石”和与“石”右侧相邻的字符“出”合并,得到“础”。合并后,“础”与“基”的间距符合要求,因此,“基”字符不存在黏连或误分割的情况,无需再对“网”进行操作。
其中,若两相邻字符的中心点的间距大于标准距离值,则说明两相邻字符中有一字符存在黏连的情况,需进行分割处理;若两相邻字符的中心点的间距小于标准距离值,则说明两相邻字符中有一字符不完整,需进行合并处理。
本实施例提供一种基于垂直投影的字符分割方法及终端,本发明涉及的字符串图像中相邻字符的间距相同,例如,身份证上的身份证号码。本发明提供的标准距离值是字符串图像中两个相邻字符的间距的标准值。例如,一身份证图像的身份证号码区域,两两数字的间隔在5个像素点附近浮动。本发明在采用垂直投影法对第一字符串图像进行初步分割后,依次分析每两个相邻字符之间的间距与标准距离值的大小关系,可以判断出根据垂直投影法分割的结果是否存在黏连或误分割的情形。例如,采用垂直投影法对一身份证图像进行初步字符分割得到11个字符,其中,若第三个字符和第四个字符之间的间距为10个像素点,大于标准距离值,则第三个字符或第四个字符可能存在黏连的情况,需要进一步分割;若第三个字符和第四个字符之间的间距为2个像素点,小于标准距离值,则第三个字符或第四个字符可能存在误分割的情况,即第三个字符或第四个字符不完整,只有一半,需与相邻字符合并以达到正确分割字符的目的。本发明使用两个相邻字符的间距的标准值对垂直投影法的分割结果进行校正,可以提高分割字符串图像的准确度。本发明所涉及的字符串图像,两相邻字符的间距相同。
本发明的实施例二为:
如图3所示,本实施例提供一种基于垂直投影的字符分割终端,包括一个或多个处理器1及存储器2,所述存储器2存储有程序,并且被配置成由所述一个或多个处理器1执行以下步骤:
S1、采用垂直投影法分割第一字符串图像中的字符,得到第二字符串图像。
其中,可采用现有的垂直投影法对第一字符串图像进行分割,得到第二字符串图像。具体为:对第一字符串图像进行垂直投影,得到垂直投影直方图。垂直投影直方图用于统计黑色像素点分布情况,即第一字符串图像中每一列包含的黑色像素点个数。若第一字符串图像中有一列的黑色像素点个数为零,则说明这一列上不存在任何的痕迹,极有可能是两个字符间的分界线。本实施例根据这一原理,对字符串图像进行初步分割。例如,图2为采用垂直投影法对原始字符串图像(第一字符串图像)进行字符分割的分割结果示意图(第二字符串图像)。
S2、获取与所述第二字符串图像对应的标准距离值;所述标准距离值为所述第二字符串图像中两个相邻字符的间距的标准值。具体为:
S21、获取所述第二字符串图像中的一字符,得到第三字符。
例如,如图2所示,选取第二字符串图像中的“数”作为第三字符为。
S22、获取与所述第三字符相邻的一字符,得到第四字符;所述第四字符位于所述第三字符左侧。
例如,如图2所示,与所述第三字符“数”相邻,且位于所述第三字符“数”左侧的字符为“大”,即第四字符为“大”。
S23、获取与所述第三字符相邻的一字符,得到第五字符;所述第五字符位于所述第三字符的右侧。
例如,如图2所示,与所述第三字符“数”相邻,且位于所述第三字符右侧的字符为“据”,即第五字符为“据”。
S24、计算所述第三字符的高度、所述第四字符的高度和所述第五字符的高度的平均值,得到高度均值。
例如,如图2所示,第三字符“数”的高度为:33,第四字符“大”的高度为:32,第五字符“据”的高度为:32,这三个字符的高度平均值为:32.22。
S25、获取所述第三字符的中心点与所述第四字符的中心点的距离,得到第一间距。
其中,对第二字符串图像进行连通域检测,连通域指一个所有的彼此连通的点构成的集合,彼此连通的点形成了一个区域,而不连通的点形成了不同的区域。通过连通域检测可初步识别到第二字符串图像中各个字符的位置。本实施例将连通域的中心点作为字符的中心点。
例如,如图2所示,第三字符“数”的中心点与第四字符“大”的中心点的距离为:35。
S26、获取所述第三字符的中心点与所述第五字符的中心点的距离,得到第二间距。
例如,如图2所示,第三字符“数”的中心点与第四字符“据”的中心点的距离为:34。
S27、计算所述第一间距与所述第二间距的平均值,得到间距均值。
例如,如图2所示,间距均值为34像素。
S28、若所述第一间距与所述第二间距的差值小于预设的间距阈值,且所述间距均值与所述高度均值的比值在预设的比值范围内,则设置所述间距均值为所述标准距离值。
其中,本发明遍历第二字符串图像,直到找到连续的三个字符符合以下条件:(1)中间字符与左右相邻字符的间距大致相同;(2)两字符的间距与三个字符的高度均值的比值与预设的比值范围相符。当存在连续的三个字符符合上述条件时,表示采用垂直投影法分割这三个字符的字符分割结果正确,这三个字符均不存在黏连或误分割等异常情况,以这三个字符的平均字符间距作为标准距离值,能够提高对其它采用垂直投影法分割异常的字符进行分割校正的准确度。
例如,如图2所示,第一间距与第二间距的差值为1,小于预设的间距阈值6,并且间距均值与高度均值的比值为34:32,在预设的比值范围[27.2:32,40.8:32]内,则设置间距均值:34作为本实施例的标准距离值。
其中,第一间距与第二间距的差值越小,代表这三个字符异常概率越小,本实施例的间距差值阈值取三个字符平均高度的1/5作为经验阈值,即((32+33+33)/3)/5=6。
预设的比值范围这里取区域[标准比值*80%,标准比值*120%]。标准比值在不同场景下很多都有固定比例,如身份证、驾驶证、行驶证等字符都具有排版规范特征,因此标准比值也固定;但在通用文档中就不具有固定规则,则此值需要计算:分别对相邻字符间距和字符高度进行直方图统计,求出最佳中心间距和最佳高度,这两个参数比例记为标准比值。以标准高度计算为例:在横坐标代表的字符高度,纵坐标代表字符个数的直方图中统计出宽度分布最多(最密集)的区域,最佳高度一般都落在这个区域里,最后取这个区域的中心点作为标准高度值。具体步骤:
循环横坐标从1到最大字符高度max,每个横坐标处都分别累计固定步长(例如5)对应的字符个数和,如横坐标为Xn时,累加数为Xn-2~Xn+2区域的纵坐标值总和SUMn,在这些累加数SUM1~SUMmax中最大值对应的横坐标值可确认为最符合的字符高度。
例如,图2中可计算出最佳中心点间距为34,最佳高度为32,标准比值即为34:32,根据预设的比值范围=[标准比值*80%,标准比值*120%],预设的比值范围最终确认为[27.2:32 ,40.8:32]。
S3、根据所述标准距离值分割或合并所述第二字符串图像中的字符。具体为:
S31、若所述第二字符串图像中,两相邻字符的中心点的间距大于所述标准距离值,则:
将所述两相邻字符中的一字符分割为两个字符。
例如,图2中的字符“是一”的中心点与左侧相邻字符“网”的中心点的间距为:53,大于所述标准距离值:34,且53-34=19,大于间距阈值6。因此,第二字符串图像中的字符“是一”或字符“网”可能存在黏连的情况。本实施例先将“是一”进行分割操作。
其中,将所述两相邻字符中的一字符分割为两个字符,具体为:
S311、获取所述一字符的中心点的横坐标,得到中心点横坐标。
例如,获取字符“是一”的中心点横坐标50。
S312、预设像素个数。
其中,预设像素个数的取值为2。
S313、垂直投影所述第二字符串图像中横坐标的取值范围为(x-a,x+a)的区域,得到垂直投影直方图;其中,所述x为所述中心点横坐标,所述a为所述像素个数;所述垂直投影直方图的横坐标表示一像素点在所述第二字符串图像中的横坐标;所述垂直投影直方图的纵坐标表示像素点个数。
其中,a值取一般取一个经验值,如2。在小范围区域内寻找最佳分割点。
例如,将第二字符串图像中,横坐标的取值范围为(48,52)的区域进行垂直投影。
S314、获取所述垂直投影直方图中,像素点个数最小的横坐标值,得到断点坐标。
S315、根据所述断点坐标分割所述一字符。
其中,当需要将一个字符分割为两个字符时,若使用整个字符进行投影,取整个字符的垂直投影直方图中像素点个数最小的横坐标值进行字符分割,极有可能存在误分割的情况。由于本发明涉及的字符串图像中两相邻字符的间距大致相同,则每一字符的字符宽度大致相同。因此,本发明只将待分割字符的中心区域进行垂直投影,有利于提高分割字符的准确度。
例如,像素点个数最小的横坐标值为50,即字符“是一”的中心点黑色像素点个数最少。以横坐标50为端点将字符“是一”分割成“是”和“一”。
将图2中的字符“是一”拆分成两个字符“是”和“一”之后,字符“是”与字符“网”之间的间距符合要求,因此,“网”字不存在黏连或误分割的情况,无需再对“网”进行操作。
S32、若所述第二字符串图像中,两相邻字符的中心点的间距小于所述标准距离值,则:获取所述两相邻字符中的一字符,得到第一字符;获取与所述第一字符相邻的一字符,得到第二字符;合并所述第一字符和所述第二字符。
例如,如图2所示,字符“石”与其左侧相邻的字符“基”之间的间距为:26,小于所述标准距离值34,且34-26=8,大于间距阈值6。字符“石”与其右侧相邻的字符“出”之间的间距为:16,小于所述标准距离值34,且34-16=18,大于间距阈值6。
因此,字符“基”、字符“石”和字符“出”均可能存在误分割的情况。本实施例先将字符“石”和与“石”右侧相邻的字符“出”合并,得到“础”。合并后,“础”与“基”的间距符合要求,因此,“基”字符不存在黏连或误分割的情况,无需再对“网”进行操作。
其中,若两相邻字符的中心点的间距大于标准距离值,则说明两相邻字符中有一字符存在黏连的情况,需进行分割处理;若两相邻字符的中心点的间距小于标准距离值,则说明两相邻字符中有一字符不完整,需进行合并处理。
本实施例提供一种基于垂直投影的字符分割方法及终端,本发明涉及的字符串图像中相邻字符的间距相同,例如,身份证上的身份证号码。本发明提供的标准距离值是字符串图像中两个相邻字符的间距的标准值。例如,一身份证图像的身份证号码区域,两两数字的间隔在5个像素点附近浮动。本发明在采用垂直投影法对第一字符串图像进行初步分割后,依次分析每两个相邻字符之间的间距与标准距离值的大小关系,可以判断出根据垂直投影法分割的结果是否存在黏连或误分割的情形。例如,采用垂直投影法对一身份证图像进行初步字符分割得到11个字符,其中,若第三个字符和第四个字符之间的间距为10个像素点,大于标准距离值,则第三个字符或第四个字符可能存在黏连的情况,需要进一步分割;若第三个字符和第四个字符之间的间距为2个像素点,小于标准距离值,则第三个字符或第四个字符可能存在误分割的情况,即第三个字符或第四个字符不完整,只有一半,需与相邻字符合并以达到正确分割字符的目的。本发明使用两个相邻字符的间距的标准值对垂直投影法的分割结果进行校正,可以提高分割字符串图像的准确度。本发明所涉及的字符串图像,两相邻字符的间距相同。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (4)

1.一种基于垂直投影的字符分割方法,其特征在于,还包括:
采用垂直投影法分割第一字符串图像中的字符,得到第二字符串图像;具体为:对第一字符串图像进行垂直投影,得到垂直投影直方图;垂直投影直方图用于统计黑色像素点分布情况,即第一字符串图像中每一列包含的黑色像素点个数;
获取与所述第二字符串图像对应的标准距离值;所述标准距离值为所述第二字符串图像中两个相邻字符的间距的标准值;
若所述第二字符串图像中,两相邻字符的中心点的间距大于所述标准距离值,则:将所述两相邻字符中的一字符分割为两个字符;
若所述第二字符串图像中,两相邻字符的中心点的间距小于所述标准距离值,则:获取所述两相邻字符中的一字符,得到第一字符;获取与所述第一字符相邻的一字符,得到第二字符;合并所述第一字符和所述第二字符;
获取所述第二字符串图像中两相邻字符间的标准距离值,具体为:
获取所述第二字符串图像中的一字符,得到第三字符;
获取与所述第三字符相邻的一字符,得到第四字符;所述第四字符位于所述第三字符左侧;
获取与所述第三字符相邻的一字符,得到第五字符;所述第五字符位于所述第三字符的右侧;
计算所述第三字符的高度、所述第四字符的高度和所述第五字符的高度的平均值,得到高度均值;
获取所述第三字符的中心点与所述第四字符的中心点的距离,得到第一间距;
获取所述第三字符的中心点与所述第五字符的中心点的距离,得到第二间距;
计算所述第一间距与所述第二间距的平均值,得到间距均值;
若所述第一间距与所述第二间距的差值小于预设的间距阈值,且所述间距均值与所述高度均值的比值在预设的比值范围内,则设置所述间距均值为所述标准距离。
2.根据权利要求1所述的基于垂直投影的字符分割方法,其特征在于,将所述两相邻字符中的一字符分割为两个字符,具体为:
获取所述一字符的中心点的横坐标,得到中心点横坐标;
预设像素个数;
垂直投影所述第二字符串图像中横坐标的取值范围为(x-a,x+a)的区域,得到垂直投影直方图;其中,所述x为所述中心点横坐标,所述a为所述像素个数;所述垂直投影直方图的横坐标表示一像素点在所述第二字符串图像中的横坐标;所述垂直投影直方图的纵坐标表示像素点个数;
获取所述垂直投影直方图中,像素点个数最小的横坐标值,得到断点坐标;
根据所述断点坐标分割所述一字符。
3.一种字符分割终端,其特征在于,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
采用垂直投影法分割第一字符串图像中的字符,得到第二字符串图像;具体为:对第一字符串图像进行垂直投影,得到垂直投影直方图;垂直投影直方图用于统计黑色像素点分布情况,即第一字符串图像中每一列包含的黑色像素点个数;
获取所述第二字符串图像中两相邻字符间的标准距离值;
若所述第二字符串图像中,两相邻字符的中心点的间距大于所述标准距离值,则将所述两相邻字符中的一字符分割为两个字符;
若所述第二字符串图像中,两相邻字符的中心点的间距小于所述标准距离值,则:获取所述两相邻字符中的一字符,得到第一字符;获取与所述第一字符相邻的一字符,得到第二字符;合并所述第一字符和所述第二字符;
获取所述第二字符串图像中两相邻字符间的标准距离值,具体为:
获取所述第二字符串图像中的一字符,得到第三字符;
获取与所述第三字符相邻的一字符,得到第四字符;所述第四字符位于所述第三字符左侧;
获取与所述第三字符相邻的一字符,得到第五字符;所述第五字符位于所述第三字符的右侧;
计算所述第三字符的高度、所述第四字符的高度和所述第五字符的高度的平均值,得到高度均值;
获取所述第三字符的中心点与所述第四字符的中心点的距离,得到第一间距;
获取所述第三字符的中心点与所述第五字符的中心点的距离,得到第二间距;
计算所述第一间距与所述第二间距的平均值,得到间距均值;
若所述第一间距与所述第二间距的差值小于预设的间距阈值,且所述间距均值与所述高度均值的比值在预设的比值范围内,则设置所述间距均值为所述标准距离值。
4.根据权利要求3所述的字符分割终端,其特征在于,将所述两相邻字符中的一字符分割为两个字符,具体为:
获取所述一字符的中心点的横坐标,得到中心点横坐标;
预设像素个数;
垂直投影所述第二字符串图像中横坐标的取值范围为(x-a,x+a)的区域,得到垂直投影直方图;其中,所述x为所述中心点横坐标,所述a为所述像素个数;所述垂直投影直方图的横坐标表示一像素点在所述第二字符串图像中的横坐标;所述垂直投影直方图的纵坐标表示像素点个数;
获取所述垂直投影直方图中,像素点个数最小的横坐标值,得到断点坐标;
根据所述断点坐标分割所述一字符。
CN201910328657.3A 2019-04-23 2019-04-23 一种基于垂直投影的字符分割方法及终端 Active CN110059695B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910328657.3A CN110059695B (zh) 2019-04-23 2019-04-23 一种基于垂直投影的字符分割方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910328657.3A CN110059695B (zh) 2019-04-23 2019-04-23 一种基于垂直投影的字符分割方法及终端

Publications (2)

Publication Number Publication Date
CN110059695A CN110059695A (zh) 2019-07-26
CN110059695B true CN110059695B (zh) 2021-08-27

Family

ID=67320310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910328657.3A Active CN110059695B (zh) 2019-04-23 2019-04-23 一种基于垂直投影的字符分割方法及终端

Country Status (1)

Country Link
CN (1) CN110059695B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598104B (zh) * 2020-06-30 2023-05-12 成都鹏业软件股份有限公司 一种车牌字符识别方法及其***
CN115410209B (zh) * 2022-10-31 2023-01-31 山东济矿鲁能煤电股份有限公司阳城煤矿 一种基于图像处理的煤矿工单识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043959A (zh) * 2010-12-28 2011-05-04 青岛海信网络科技股份有限公司 车牌字符分割方法
CN102222226A (zh) * 2011-06-21 2011-10-19 杭州电子科技大学 一种基于先验分析的迭代式车牌字符分割方法
CN102496019A (zh) * 2011-12-08 2012-06-13 银江股份有限公司 一种车牌字符分割方法
CN103324930A (zh) * 2013-06-28 2013-09-25 浙江大学苏州工业技术研究院 一种基于灰度直方图二值化的车牌字符分割方法
CN103729636A (zh) * 2013-12-18 2014-04-16 小米科技有限责任公司 字符切割方法、装置及电子设备
CN105426891A (zh) * 2015-12-14 2016-03-23 广东安居宝数码科技股份有限公司 基于图像的车牌字符分割方法及其***
CN108171237A (zh) * 2017-12-08 2018-06-15 众安信息技术服务有限公司 一种文本行图像单字切分方法和装置
CN108491845A (zh) * 2018-03-02 2018-09-04 深圳怡化电脑股份有限公司 字符分割位置的确定、字符分割方法、装置及设备
CN108805128A (zh) * 2017-05-05 2018-11-13 北京京东金融科技控股有限公司 一种字符分割方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100713250B1 (ko) * 2005-02-18 2007-05-02 하종은 에지 투영을 사용한 문자 분리 방법
CN107729899B (zh) * 2016-08-11 2019-12-20 杭州海康威视数字技术股份有限公司 一种车牌号码识别方法及装置
CN107622268B (zh) * 2017-09-21 2021-04-30 电子科技大学 一种身份证字符分割的方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043959A (zh) * 2010-12-28 2011-05-04 青岛海信网络科技股份有限公司 车牌字符分割方法
CN102222226A (zh) * 2011-06-21 2011-10-19 杭州电子科技大学 一种基于先验分析的迭代式车牌字符分割方法
CN102496019A (zh) * 2011-12-08 2012-06-13 银江股份有限公司 一种车牌字符分割方法
CN103324930A (zh) * 2013-06-28 2013-09-25 浙江大学苏州工业技术研究院 一种基于灰度直方图二值化的车牌字符分割方法
CN103729636A (zh) * 2013-12-18 2014-04-16 小米科技有限责任公司 字符切割方法、装置及电子设备
CN105426891A (zh) * 2015-12-14 2016-03-23 广东安居宝数码科技股份有限公司 基于图像的车牌字符分割方法及其***
CN108805128A (zh) * 2017-05-05 2018-11-13 北京京东金融科技控股有限公司 一种字符分割方法和装置
CN108171237A (zh) * 2017-12-08 2018-06-15 众安信息技术服务有限公司 一种文本行图像单字切分方法和装置
CN108491845A (zh) * 2018-03-02 2018-09-04 深圳怡化电脑股份有限公司 字符分割位置的确定、字符分割方法、装置及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《一种基于字符分割与字符识别的LPR方法》;张剑等;《计算技术与自动化》;20070630;第26卷(第2期);第112页右栏第2-4段 *
《基于图像的铁路货车车号定位与识别》;杨菊花等;《兰州交通大学学报》;20140831;第33卷(第4期);第3.1节第1-2段 *
《牌照字符分割中的区域***与合并》;曹迪铭等;《计算机工程》;20001031;第26卷(第10期);第1节第1段,第2节第1段,第3节第1-2段,第4节第1-2段 *

Also Published As

Publication number Publication date
CN110059695A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
CN107729899B (zh) 一种车牌号码识别方法及装置
CN109886896B (zh) 一种蓝色车牌分割与矫正方法
CN111382704B (zh) 基于深度学习的车辆压线违章判断方法、装置及存储介质
Shi et al. Automatic license plate recognition system based on color image processing
CN103093181B (zh) 一种车牌图像定位的方法和装置
US20160210507A1 (en) Image processing system with layout analysis and method of operation thereof
CN106815583B (zh) 一种基于mser和swt相结合的夜间车辆车牌定位方法
CN108108734B (zh) 一种车牌识别方法及装置
CN110647882A (zh) 图像校正方法、装置、设备及存储介质
CN108830275B (zh) 点阵字符、点阵数字的识别方法及装置
CN107180230B (zh) 通用车牌识别方法
CN105868759A (zh) 分割图像字符的方法及装置
WO2023279966A1 (zh) 一种多车道线检测方法、装置及检测设备
CN110059695B (zh) 一种基于垂直投影的字符分割方法及终端
CN108734161B (zh) 冠字号区域的识别方法、装置、设备及存储介质
CN111178359A (zh) 车牌号码识别方法、装置和设备及计算机存储介质
Swaileh et al. Multi-script iterative steerable directional filtering for handwritten text line extraction
CN112115800A (zh) 一种基于深度学习目标检测的车辆组合识别***及方法
Çavdaroğlu et al. A character segmentation method to increase character recognition accuracy for Turkish number plates
Choi et al. Localizing slab identification numbers in factory scene images
JP4224328B2 (ja) 車番認識装置
CN110135382B (zh) 一种人体检测方法和装置
CN115438682B (zh) 用于确定解码方向的方法、装置及解码设备
CN115410191B (zh) 文本图像识别方法、装置、设备和存储介质
CN109726722B (zh) 一种字符分割方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant