CN104751142B - 一种基于笔划特征的自然场景文本检测方法 - Google Patents
一种基于笔划特征的自然场景文本检测方法 Download PDFInfo
- Publication number
- CN104751142B CN104751142B CN201510152830.0A CN201510152830A CN104751142B CN 104751142 B CN104751142 B CN 104751142B CN 201510152830 A CN201510152830 A CN 201510152830A CN 104751142 B CN104751142 B CN 104751142B
- Authority
- CN
- China
- Prior art keywords
- stroke
- text
- value
- characters
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于笔划特征的自然场景文本检测算法,它包括:图像预处理、笔划宽度特征提取、候选文本字符的生成、候选文本字符的过滤、文本行生成和文本行过滤等多个步骤。本发明通过对获取图像的预处理,提取和突出图像的边缘特征,采用基于笔划宽度和颜色的双重约束,得到像素的笔划宽度值,通过区域生长算法得到候选文本字符,最后采用两层分类的方式分别过滤掉非文本字符和非文本区域而得到最终的文本区域。
Description
技术领域
本发明涉及基于图像内容的检索领域,特别是涉及一种基于笔划特征的自然场景文本检测方法。
背景技术
传统的OCR技术经过多年的研究进展,可以高质量、准确地识别印刷文档,已达到实用要求,很多公司推出了这方面的商业软件。然而传统的OCR技术只能识别分辨率高,背景简单,布局不太复杂的扫描图像。而在现实环境中则是存在大量的文本图像很难符合这样的要求,比如车牌,路标,广告牌、视频图像等自然场景中的文本。这些场景中的文本信息很丰富,例如新闻视频文本中的字幕,包含了事件发生的时间、地点和人物等关键信息。准确地识别出这些文本,对于信息检索,网页检索,身份识别和电子导游设备有重要的意义,但是由于自然场景中字符大小,字体颜色变化大,背景复杂,畸形等特点使得文本识别远远没有达到人们的期望,如果通过计算机自动地获取,是一件极具挑战和实际意义的工作。
自然场景文本检测是是图像内容的信息提取技术的关键一环,文本检测和定位的好坏对最终的识别结果有着极其重要的影响,国内外广大研究人员做了大量的研究工作,提出了很多的文本检测方法。但由于自然场景复杂性特点,试图设计一套通用的自然场景文本检测***仍然是十分困难的。如何从复杂的自然场景中快速准确地定位出文本区域及如何尽可能降低遗漏率,这就是目前自然场景文本检测在图像领域的一个研究热点和难点。
目前的自然场景文本检测技术主要分为两类,基于区域的和基于纹理的。基于区域的方法主要自下而上的聚合和自上而下的剪枝两部分组成,自下而上的聚合采用过程完成初始候选文本字符的确定,文本行的生成等,自上而下的剪枝则是在字符水平和文本行水平对非文本字符和非文本区域进行过滤。而基于纹理的方法则是把文本区域视为一种特殊的纹理,采用滑动窗的方法,通过采用Gabor滤波,直方图统计等方法,观察响应,从而确定滑动窗所在的区域是否是文本区域,后期通过***和合并方法得到最终的文本区域。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于笔划特征的自然场景文本检测方法,能够从任意的自然场景图像中检测出文本区域的位置,克服了传统文本检测方法对自然场景图像中文字的字体、大小、颜色等特征敏感的不足,并且提高了方法的计算速度,在保证准确度的同时,相比于基于纹理的检测方法,大大降低了计算量,为在便携式智能设备上应用提供了条件。
本发明的目的是通过以下技术方案来实现的:一种基于笔划特征的自然场景文本检测方法,它包括以下多个步骤:
S1:图像预处理
进入输入图像处理,获取自然场景图像,通过图像预处理模块对自然场景图像进行预处理,提取和突出图像的边缘特征。
S2:笔划宽度特征提取
通过笔划宽度特征提取模块提出笔画宽度特征,利用步骤S1中的边缘检测结果和颜色一致化信息进行笔划特征提取,过滤掉背景区域,得到每个边缘像素点的笔划宽度值。
S3:候选文本字符的生成和过滤
通过字符水平过滤模块完成候选文本字符的生成和候选文本字符的过滤处理,采用基于笔划宽度和颜色的区域生长方法得到候选文本字符;字符水平过滤模块中包括笔划滤波器,通过笔划滤波器完成候选文本字符的过滤处理,采用笔划滤波响应和MSER区域限制滤除由笔划宽度像素聚合成的非文本候选文本字符。
S4:文本行生成和文本行过滤
通过文本行生成模块完成文本行的生成,对所有的候选文本字符按照一定的聚对规则进行聚对处理,得到字符对,然后再将字符对按照一定的合并规则进行合并处理,生成文本行;通过文本行过滤模块完成文本行过滤处理,在字符水平层次和文本行水平层次进行两层分类,分别对字符水平和文本行水平进行过滤,剔除非文本字符和非文本区域而得到最终的文本区域。
步骤S2所述笔划宽度特征提取的具体过程为:
S201:在图像边缘上选择一个起始像素点p,其梯度方向为dP,从p点开始沿着梯度方向作射线r直到寻找到另一个边缘终止像素点q,q点的梯度方向为dq,若dP和dq方向大致相反,即满足公式:则此次射线寻找有效。
所述的射线r的计算公式为:其中,n为射线r的步长。
S202:否则,此次射线寻找无效,重新规划起始像素点p的寻找方向为然后沿着射线r的方向重新开始查找,知道寻找到另一个边缘终止像素点q′,若此时dp′和dq′满足公式:则此次射线寻找结果有效。
S203:否则,重新选择新的边缘起始像素点,继续S201~S202的寻找过程。
S204:在射线查找有效的情况下,计算笔划宽度值sw,其计算过程如下:计算起始点p和终止点q之间的线段长度遍历射线上p和q之间的所有点,若该点没有被赋予笔划宽度值,则赋予笔划宽度值sw,若该点已经被赋予过笔划宽度值,则比较其笔划宽度值sw和线段长度w的大小,取其较小者作为该起始点p的笔划宽度值sw。
S205:重复S201~S204过程,计算出所有候选文本像素的笔划宽度值sw。
所述的步骤S2还包括笔划宽度修正子步骤:
S206:笔划宽度值的修正
在笔划宽度值不能准确地表征其笔划属性时,应对其进行修正,包括以下一种或多种情况;
①拐角处笔划像素修正:重新遍历所有有效的射线,计算其像素笔划宽度中值,重新设置该射线上笔划宽度超过中值的为笔划宽度中值;
②孤立笔划点的消除:统计笔划点周围5×5范围内计算有效笔划点的个数,消除孤立笔划点;
③局部极大笔划点抑制:对笔划点周围超出平均值3倍的极大笔划点进行抑制,消除字符间的干扰笔划线。
步骤S3中所述的区域生长方法为:
用4维向量{sw,Ir,Ig,Ib}表征笔划宽度特征图上的像素点,其中,sw表示该像素点的归一化的笔划宽度值,Ir、Ig、Ib分别表征该像素点的归一化的R、G、B通道的颜色值,利用区域生长方法得到候选文本区域,其相似性计算公式为:
式中,Spq为像素点p和像素点的相似度,swp为起始像素点的笔划宽度值,swq为终止像素点的笔划宽度值,Irp、Igp、Ibp分别为起始像素点的归一化的R、G、B通道的颜色值,Irq、Igq、Ibq分别为终止像素点的归一化的R、G、B通道的颜色值。
其区域生长的终止条件是Spq≥0.5。
步骤S3中所述的候选文本字符的过滤的过程为:对候选文本字符的坐标进行归一化处理,构造描述文本字符向量的特征向量,利用随机森林方法对候选文本字符进行分类,得出每个候选文本字符的置信阈值Tc,并利用该置信阈值Tc对候选文本字符进行过滤。
该阶段包括基于启发式规则的过滤和基于机器学习方法的过滤。
基于启发式规则的过滤过程:剔除不满足以下条件的候选字符。
①对候选文本字符的尺寸限制:尺寸限制包括其外接矩形的宽度和高度的比值,其有效范围为[0.1,1]。
②对候选文本字符的笔划宽度一致性限制:笔划宽度一致性定义为候选字符笔划宽度方差和笔划宽度均值的比,其有效范围为[0.1,1]。
③对候选文本字符的占空比限制:占空比定义为候选字符文本像素区域面积与外接矩形框面积的比值,其有效范围为[0.1,1]。
基于机器学习方法的过滤用来提取候选文本字符的以下特征:
①候选文本字符的轮廓特征:其定义为字符轮廓的方向梯度直方图响应。
②候选文本字符的尺寸特征:其定义为其外接矩形的宽度和高度的和。
③候选文本字符的字符占空比特征:其定义为候选字符文本像素区域面积与外接矩形框面积的比值。
④候选文本字符的笔划宽度一致性特征:其定义为候选字符笔划宽度方差和笔划宽度均值的比。
⑤候选文本字符的宽高比特征:其定义为外接矩形的宽度和高度的比值。
⑥候选文本字符的笔划滤波响应特征:通过笔划滤波器对强笔划响应区和弱笔划响应区进行过滤,取笔划滤波器中间瓣的宽度值为sw′,其中sw′为候选文本字符的笔划宽度值sw的平均值。
⑦候选文本字符的MSER响应特征:MSER响应定义,其中q(c)为候选字符前景像素区域面积,m(c)为候选字符前景像素对应区域是MSER区域的区域面积。
MSER区域限制用于解决因边缘模糊和低对比度造成的笔划宽度检测失败而导致候选文本字符的提取失败的问题。
所述的笔划滤波器的对像素点p(x,y)的滤波响应定义为:
式中,RB(x,y)为像素点p(x,y)的笔划滤波响应值;
为在方向为α、笔划滤波器中间瓣的宽度值为d时笔划滤波器的响应;
α为笔划滤波器与x轴正向的夹角值;
d为笔划滤波器中间瓣1的宽度值;
x为像素点p(x,y)的横坐标值;
y为像素点p(x,y)的纵坐标值;
B代表该笔划滤波器求的是灰度图像的亮度值;
μ1表示笔划滤波器中间瓣的面积;
μ2表示笔划滤波器左瓣的面积;
μ3表示笔划滤波器右瓣的面积;
σ表示笔划滤波器中间瓣的方差。
步骤S3所述的候选文本字符的生成和候选文本字符的过滤处理过程之间还包括候选文本字符修正过程:通过形态学闭操作,消除候选文本字符内部的细小孔洞。
步骤S4所述的文本行生成处理过程为:
S411:对所有的候选文本字符按照一定的聚对规则进行聚对处理,得到字符对;
所述的聚对规则为:每两个候选文本字符满足下述条件,则该两个字符聚成字符对;
①该两个候选文本字符的笔划宽度中值大于0.5或者小于2,所述的笔划宽度中值为该两个候选文本字符的笔划宽度值的平均值;
②该两个候选文本字符的字符高度值大于0.5或者小于2;
③该两个候选文本字符的字符间距小于3倍字符笔划宽度值sw。
S412:对于不能聚对的单独候选文本字符,则重新评估其笔划滤波响应值和MSER响应值。
S413:若满足滤波响应值大于0.4或MSER响应值大于0.8,则把其当成单独的字符对。
S414:将字符对按照一定的合并规则进行合并处理,生成文本行。
步骤S4所述的文本行过滤处理过程为:提取文本行的文本行特征,根据文本行特征构造描述文本行的特征向量,利用随机森林方法对文本行进行分类,得出文本行的置信阈值Tl,并利用该置信阈值Tl对文本行进行分类。分类模式中将文本行的置信度值与文本行置信阈值Tl相比,置信度值大于置信阈值Tl的是文本行,反之,则不是。
所述的文本行特征包括:
①文本行中的字符个数;
②归一化的平均字符水平间距;
③归一化的平均字符中心连线的余弦值;
④文本行中所有字符平均置信值;
⑤文本行字符笔划宽度一致性:文本行内所有文本字符笔划宽度均值的方差;
⑥文本行字符尺寸一致性:文本行内所有文本字符尺寸的方差。
本发明的有益效果是:
1)本发明提出了一种基于笔划特征的自然场景文本检测方法,该方法对文本的字体、大小、颜色变化等具有很强的鲁棒性,大大提高了文本检测的召回率。通过提取像素水平的笔划宽度特征很好地过滤掉了绝大部分的背景区域,而采用的笔划滤波响应和MSER区域限制则有效地滤除由笔划宽度像素聚合成的非文本候选文本字符,最后通过随机森林方法的进行字符水平和文本行水平两层过滤,提高了文本检测的准确率,更增强了本发明方法的适应性。
2)本发明改进笔划宽度特征更能表征文本的属性。
3)通过笔划颜色在笔划宽度计算的限制性约束,可以避免在部分边缘缺失的情况下对笔划宽度计算带来的错误。
4)MSER区域和笔划滤波响应约束的限制可以在笔划宽度检测失败的情况下对可能是文本的区域进行修补,提高文本检测的召回率,因为加入了笔划滤波响应约束的限制,同时还可以对笔划特征不明显的极值区域进行过滤。
附图说明
图1为本发明自然场景文本检测方法的流程图;
图2为本发明自然场景文本检测方法的处理过程示意图;
图3为本发明笔划特征示意图;
图4为本发明笔划特征修正示意图之一;
图5为本发明笔划特征修正示意图之二;
图6为本发明笔划滤波器的设计原理图;
图中,1-笔划滤波器中间瓣,2-笔划滤波器左瓣,3-笔划滤波器右瓣。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
由于自然场景图像中的文本广泛存在着以下多种情况:
1)文本畸变;
2)文本字符尺寸变化大;
3)文本字符排列和对齐方式随意;
4)背景图像复杂;
5)背景噪声干扰和低对比度。
笔划特征相对于文字的其它特征如纹理、角点、颜色、连通域、直方图、边缘等更能表征文本的属性,更接近于文本的固有特征,而笔划特征是文本本身固有的特征,利用此特征可以在以上几种情况下更好地将文本区域和非文本区域进行区分,因此,本发明提出一种基于笔划宽度的自然场景文本检测方法。
本发明所提出的方法建立在文本具有连续一致性笔划宽度特征的基础上,同时利用了文本笔划方向特性,提取出笔划特征,包括笔划的宽度、颜色和方向特性等,在像素水平上很好地对文本像素和背景像素进行了区分,在连通域分析的基础上,本发明利用机器学***和文本行水平进行过滤,有效地剔除了非文本字符和非文本区域。
如图1所示,本发明所提出的一种基于笔划特征的自然场景文本检测方法包括:图像预处理、笔划宽度特征提取、候选文本字符的生成、候选文本字符的过滤、文本行生成和文本行过滤等多个步骤。
本发明通过对获取图像的预处理,提取和突出图像的边缘特征,采用基于笔划宽度和颜色的双重约束,得到像素的笔划宽度值,通过区域生长方法得到候选文本字符,最后采用两层分类的方式分别过滤掉非文本字符和非文本区域而得到最终的文本区域。
如图2所示,图2为基于笔划特征的自然场景文本检测方法的处理过程示意图。首先获取自然场景图像,以亮色文本在暗色背景上的情况为例,首先对自然场景图像进行笔划特征提取,利用中值和高斯滤波过滤掉图像中的噪声,根据Niblack分割方法对其进行分割处理,再通过形态学原理对其进行修补,得到笔划特征图,通过基于启发式和具有MSER区域限制的笔划滤波器聚合生成候选文本字符,再通过聚合和裁剪得到文本字符,然后将文本字符聚合成文本行,通过聚合和裁剪处理分割出文本区域和非文本区域,从而得到文本定位的结果,对于暗色文本在亮色背景上图像的处理,在计算笔划特征的时候取梯度的负方向进行笔划查找,其它相应的处理流程不变,融合两种情况下的定位结果,得到最终的文本定位结果。
(一)图像预处理
进入输入图像处理,从ICDAR数据集中获取自然场景图像,通过图像预处理模块对自然场景图像进行预处理,包括过滤噪声点处理、图像平滑处理、增强输入图像的对比度、边缘检测处理、边缘增强处理、计算图像的水平梯度和计算图像的竖直梯度,提取和突出图像的边缘特征。
这部分利用快速中值滤波方法和金字塔分解方法过滤掉图像中的噪声点,然后利用高斯滤波进行图像平滑处理,通过直方图均衡化处理增强输入图像的对比度,根据Niblack分割方法对其进行分割处理,再采用Canny方法对其进行边缘检测,边缘增强,最后再根据Sobel方法求出该自然场景图像的水平梯度值和竖直梯度值。
(二)笔划宽度特征提取
通过笔划宽度特征提取模块提出笔画宽度特征,利用步骤S1中的边缘检测结果和颜色一致化信息进行笔划特征提取,过滤掉背景区域,得到每个边缘像素点的笔划宽度值。
(1)笔划宽度特征提取
如图3所示,图3为笔划特征示意图。本发明中所述笔划宽度特征提取的具体过程为:
S201:在图像边缘上选择一个起始像素点p,其梯度方向为dP,从p点开始沿着梯度方向作射线r直到寻找到另一个边缘终止像素点q,q点的梯度方向为dq,若dP和dq方向大致相反,即满足公式:则此次射线寻找有效。
所述的射线r的计算公式为:r=p+n□dp(n>0),其中,n为射线r的步长。
S202:否则,此次射线寻找无效,重新规划起始像素点p的寻找方向为然后沿着射线r的方向重新开始查找,知道寻找到另一个边缘终止像素点q′,若此时dp′和dq′满足公式:则此次射线寻找结果有效。
S203:否则,重新选择新的边缘起始像素点,继续S201~S202的寻找过程。
S204:在射线查找有效的情况下,计算笔划宽度值sw,其计算过程如下:计算起始点p和终止点q之间的线段长度遍历射线上p和q之间的所有点,若该点没有被赋予笔划宽度值,则赋予笔划宽度值sw。
如图4所示,若该像素点已经被赋予过笔划宽度值,则比较其笔划宽度值sw和线段长度w的大小,取其较小者作为该起始点p的笔划宽度值sw。
图4中,该像素点既处于横向的笔划线中,同时也处于竖直的笔划线中,但横向的笔划线即图4中的虚线才能表示真正的笔划宽度值,由于无法事先确定究竟是先被赋予横向笔划宽度值还是纵向的笔划宽度值,因此需在此进行校正处理,取其较小者作为该像素点的笔划宽度值sw。
S205:重复S201~S204过程,计算出所有候选文本像素的笔划宽度值sw。
(2)笔划宽度值的修正
笔划宽度特征提取过程还包括笔划宽度修正子步骤:
S206:笔划宽度值的修正
在笔划宽度值不能准确地表征其笔划属性时,应对其进行修正,包括以下一种或多种情况;
①拐角处笔划像素修正:如图5所示,该像素点真实的笔划宽度值应该是图5中虚线段的长度,但在笔划宽度特征提取步骤中由于搜索方向的限制,其被赋予的是经过该点的垂直或者竖直笔划线的宽度,因此需要在这一步进行校正处理;重新遍历所有有效的射线,计算其像素笔划宽度中值,重新设置该射线上笔划宽度超过中值的为笔划宽度中值;
②孤立笔划点的消除:统计笔划点周围5×5范围内计算有效笔划点的个数,消除孤立笔划点;
③局部极大笔划点抑制:对笔划点周围超出平均值3倍的极大笔划点进行抑制,消除字符间的干扰笔划线。
(三)候选文本字符的生成和过滤
通过字符水平过滤模块完成候选文本字符的生成和候选文本字符的过滤处理,采用基于笔划宽度和颜色的区域生长方法得到候选文本字符;字符水平过滤模块中包括笔划滤波器,采用笔划滤波响应和MSER区域限制滤除由笔划宽度像素聚合成的非文本候选文本字符。
(1)区域生长方法
所述的区域生长方法为:用4维向量{sw,Ir,Ig,Ib}表征经过平滑滤波处理后的输入图像上的一个像素点,其中,sw表示该像素点的归一化的笔划宽度值,Ir、Ig、Ib分别表征该像素点的归一化的R、G、B通道的颜色值,利用区域生长方法得到候选文本区域,其相似性计算公式为:
式中,Spq为像素点p和像素点q的相似度,swp为起始像素点的笔划宽度值,swq为终止像素点的笔划宽度值,Irp、Igp、Ibp分别为起始像素点的归一化的R、G、B通道的颜色值,Irq、Igq、Ibq分别为终止像素点的归一化的R、G、B通道的颜色值。
其区域生长的终止条件是Spq≥0.5。
(2)候选文本字符修正
所述的候选文本字符的生成和候选文本字符的过滤处理过程之间还包括候选文本字符修正过程:通过形态学闭操作,消除候选文本字符内部的细小孔洞。
(3)候选文本字符的过滤
所述的候选文本字符的过滤的过程为:对候选文本字符的坐标进行归一化处理,构造描述文本字符向量的特征向量,利用随机森林方法对候选文本字符进行分类,得出每个候选文本字符的置信阈值Tc,并利用该置信阈值Tc对候选文本字符进行过滤。
该阶段包括基于启发式规则的过滤和基于机器学习方法的过滤。
基于启发式规则的过滤过程为:剔除不满足以下条件的候选字符。
①对候选文本字符的尺寸限制:尺寸限制包括其外接矩形的宽度和高度的比值,其有效范围为[0.1,1]。
②对候选文本字符的笔划宽度一致性限制:笔划宽度一致性定义为候选字符笔划宽度方差和笔划宽度均值的比,其有效范围为[0.1,1]。
③对候选文本字符的占空比限制:占空比定义为候选字符文本像素区域面积与外接矩形框面积的比值,其有效范围为[0.1,1]。
基于机器学习方法的过滤用来提取候选字符的以下特征:
①候选文本字符的轮廓特征:其定义为字符轮廓的方向梯度直方图响应。
②候选文本字符的尺寸特征:其定义为其外接矩形的宽度和高度的和。
③候选文本字符的字符占空比特征:其定义为候选字符文本像素区域面积与外接矩形框面积的比值。
④候选文本字符的笔划宽度一致性特征:其定义为候选字符笔划宽度方差和笔划宽度均值的比。
⑤候选文本字符的宽高比特征:其定义为外接矩形的宽度和高度的比值。
⑥候选文本字符的笔划滤波响应特征:通过笔划滤波器对强笔划响应区和弱笔划响应区进行过滤,取笔划滤波器中间瓣1的宽度值d为sw′,其中sw′为候选文本字符的笔划宽度值sw的平均值;
如何进行笔划滤波响应限制:利用设计的笔划滤波器对候选字符进行滤波,然后进行二值化,计算强滤波响应区域(前景区域)面积与字符外接矩形框的面积比,以这个比值作为候选字符的笔划滤波响应,剔除响应值小于0.1的候选字符。
笔划宽度值sw′的作用和意义:笔划宽度值sw′是笔划滤波器设计的关键,其过大或过小都会破坏笔划滤波器在笔划处的响应,这里取笔划宽度值sw的平均值可以保证在笔划出取得较大响应,而在非笔划处响应较小。
⑦对候选文本字符的MSER区域限制:MSER响应定义,其中q(c)为候选字符前景像素区域面积,m(c)为候选字符前景像素对应区域是MSER区域的区域面积。
MSER区域限制用于解决因边缘模糊和低对比度造成的笔划宽度检测失败而导致候选文本字符的提取失败的问题;
如图6所示,图6为笔划滤波器的设计原理图,笔划滤波响应基于字符是由一些线段、笔划等基本结构组成,这些结构具有宽度一致性,而且方向相对固定,主要集中在0,pi/4,pi/2,3pi/4四个方向上,而非文本字符往往不具有这些特性。该笔划滤波器对条状物体具有很强的响应,而对非条状物体进行抑制,因此使得字符区域的响应更强,利于后面的进一步处理。其中d为滤波器中间瓣1的宽度值,也是笔划滤波器的宽度值,d1,d2为笔划滤波器左瓣2和笔划滤波器右瓣3的宽度值,w为笔划滤波器的长度。
所述的笔划滤波器的对像素点p(x,y)的滤波响应定义为:
式中,RB(x,y)为像素点p(x,y)的笔划滤波响应值;
为在方向为α、笔划滤波器中间瓣1的宽度值为d时笔划滤波器的响应;
α为笔划滤波器与x轴正向的夹角值,
d为笔划滤波器中间瓣1的宽度值,d∈[3,5,7],w=2d;
x为像素点p(x,y)的横坐标值;
y为像素点p(x,y)的纵坐标值;
B代表该笔划滤波器求的是灰度图像的亮度值;
μ1表示笔划滤波器中间瓣1的面积;
μ2表示笔划滤波器左瓣2的面积;
μ3表示笔划滤波器右瓣2的面积;
σ表示笔划滤波器中间瓣1的方差。
笔划滤波器的设计基于笔划特征的以下三个特性:
a.笔划区域在颜色和亮度上基本保持一致;
b.笔划区和非笔划区在颜色和亮度上差异很大;
c.非笔划区在一定范围内变换很小。
(四)文本行生成和文本行过滤
通过文本行过滤模块完成文本行生成和文本行过滤处理,利用提取的字符水平和文本行水平的特征,在字符水平和文本行水平两个层次上分别用训练好的分类器进行分类,对字符水平和文本行水平进行过滤,剔除非文本字符和非文本区域而得到最终的文本区域。
(1)文本行的生成
所述的文本行生成处理过程为:
S411:对所有的候选文本字符按照一定的聚对规则进行聚对处理,得到字符对。
所述的聚对规则为:每两个候选文本字符满足下述条件,则该两个字符聚成字符对。
①笔划宽度中值大于0.5或者小于2,所述的笔划宽度中值为该两个候选文本字符的笔划宽度值的平均值;
②该两个候选文本字符的字符高度值大于0.5或者小于2;
③该两个候选文本字符的字符间距小于3倍字符笔划宽度值sw。
S412:对于不能聚对的单独候选文本字符,则重新评估其笔划滤波响应值和MSER响应值。
S413:若满足滤波响应值大于0.4或MSER响应值大于0.8,则把其当成单独的字符对。
S414:将字符对按照一定的合并规则进行合并处理,生成文本行。
首先,将文本字符合并字符对其合并规则如下:
①具有相似的字符尺寸:考虑到文本字符的大小写混合的情况,这里要求组成字符对的两个字符的外接矩形框的高度比例小于2;
②具有相似的字符笔划宽度:要求组成文本对的两个字符的平均像素笔划宽度值的比例小于2;
③具有相似的颜色:要求组成文本对的两个字符在RGB颜色值的上下误差为20;
④在空间上相邻:字符中心间的距离不超过两个连通域中较大高度值的3倍。
然后,对文本对进行合并处理形成文本行,并基于以下的准则进行合并文本对:
①至少共享一个终端,共享一个终端指文本对C1和文本对C2至少有一个字符是重合的。
②具有相似的方向和尺寸。
文本对的方向相似性计算公式如下:
式中,S0(C1,C2)γ(C1,C2)为文本对C1,C2的方向夹角。
(2)文本行的过滤
步骤S4所述的文本行过滤处理过程为:提取文本行的文本行特征,根据文本行特征构造描述文本行的特征向量,利用随机森林方法对文本行进行分类,得出文本行的置信阈值Tl,并利用该置信阈值Tl对文本行进行分类,分类模式中将文本行的置信度值与文本行置信阈值Tl相比,置信度值大于置信阈值Tl的是文本行,反之,则不是。
这里采用的是机器学习的方法,原理就是文本行和非文本在下述的几种文本行特征上具有差异行,通过提取文本行特征向量,通过随机森林的分类方法训练分类模式,然后利用这个分类模式对待分类候选文本行进行分类。
所述的文本行特征包括:
①文本行中的字符个数。
②归一化的平均字符水平间距。
③归一化的平均字符中心连线的余弦值。
④文本行中所有字符的平均字符置信值。
⑤文本行字符笔划宽度一致性:文本行内所有文本字符笔划宽度均值的方差。
⑥文本行字符尺寸一致性:文本行内所有文本字符尺寸的方差。
Claims (7)
1.一种基于笔划特征的自然场景文本检测方法,其特征在于:它包括以下多个步骤:
S1,图像预处理:进入输入图像处理,获取自然场景图像,通过图像预处理模块对自然场景图像进行预处理,提取和突出图像的边缘特征;
S2,笔划宽度特征提取:
利用步骤S1中的边缘检测结果和颜色一致化信息进行笔划特征提取,过滤掉背景区域,得到每个边缘像素点的笔划宽度值;
S3,候选文本字符的生成:
采用基于笔划宽度和颜色的区域生长算法得到候选文本字符;
步骤S2所述笔划宽度特征提取的具体过程为:
S201:在图像边缘上选择一个起始像素点p,其梯度方向为dP,从p点开始沿着梯度方向作射线r直到寻找到另一个边缘终止像素点q,q点的梯度方向为dq,若dP和dq方向大致相反,即满足公式:则此次射线寻找有效;
所述的射线r的计算公式为:r=p+n·dp(n>0),其中,n为射线r的步长;
S202:否则,此次射线寻找无效,重新规划起始像素点p的寻找方向为然后沿着射线r的方向重新开始查找,直到寻找到另一个边缘终止像素点q′,若此时dp′和dq′满足公式:则此次射线寻找结果有效;
S203:否则,重新选择新的边缘起始像素点,继续S201~S202的寻找过程;
S204:在射线查找有效的情况下,计算笔划宽度值sw,其计算过程如下:计算起始点p和终止点q之间的线段长度遍历射线上p和q之间的所有点,若该点没有被赋予笔划宽度值,则赋予笔划宽度值sw,若该点已经被赋予过笔划宽度值,则比较其笔划宽度值sw和线段长度w的大小,取其较小者作为该起始点p的笔划宽度值sw;
S205:重复S201~S204过程,计算出所有候选文本像素的笔划宽度值sw;
所述的步骤S2还包括笔划宽度修正子步骤:
在笔划宽度值不能准确地表征其笔划属性时,应对其进行修正,包括以下一种或多种情况:
①拐角处笔划像素修正:重新遍历所有有效的射线,计算其像素笔划宽度中值,重新设置该射线上笔划宽度超过中值的为笔划宽度中值;
②孤立笔划点的消除:统计笔划点周围5×5范围内计算有效笔划点的个数,消除孤立笔划点;
③局部极大笔划点抑制:对笔划点周围超出平均值3倍的极大笔划点进行抑制,消除字符间的干扰笔划线。
2.根据权利要求1所述的一种基于笔划特征的自然场景文本检测方法,其特征在于:步骤S3中所述的区域生长算法为:
用4维向量{sw,Ir,Ig,Ib}表征笔划宽度特征图上的像素点,其中,sw表示该像素点的归一化的笔划宽度值,Ir、Ig、Ib分别表征该像素点的归一化的R、G、B通道的颜色值,利用区域生长算法得到候选文本区域,其相似性计算公式为:
<mrow>
<msub>
<mi>S</mi>
<mrow>
<mi>p</mi>
<mi>q</mi>
</mrow>
</msub>
<mo>=</mo>
<msqrt>
<mrow>
<mn>0.6</mn>
<mrow>
<mo>|</mo>
<mrow>
<msub>
<mi>s</mi>
<mrow>
<mi>w</mi>
<mi>p</mi>
</mrow>
</msub>
<mo>-</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>w</mi>
<mi>q</mi>
</mrow>
</msub>
</mrow>
<mo>|</mo>
</mrow>
<mo>+</mo>
<mn>0.3</mn>
<mrow>
<mo>|</mo>
<mrow>
<msub>
<mi>I</mi>
<mrow>
<mi>r</mi>
<mi>p</mi>
</mrow>
</msub>
<mo>-</mo>
<msub>
<mi>I</mi>
<mrow>
<mi>r</mi>
<mi>q</mi>
</mrow>
</msub>
</mrow>
<mo>|</mo>
</mrow>
<mo>+</mo>
<mn>0.2</mn>
<mrow>
<mo>|</mo>
<mrow>
<msub>
<mi>I</mi>
<mrow>
<mi>g</mi>
<mi>p</mi>
</mrow>
</msub>
<mo>-</mo>
<msub>
<mi>I</mi>
<mrow>
<mi>g</mi>
<mi>q</mi>
</mrow>
</msub>
</mrow>
<mo>|</mo>
</mrow>
<mo>+</mo>
<mn>0.1</mn>
<mrow>
<mo>|</mo>
<mrow>
<msub>
<mi>I</mi>
<mrow>
<mi>b</mi>
<mi>p</mi>
</mrow>
</msub>
<mo>-</mo>
<msub>
<mi>I</mi>
<mrow>
<mi>b</mi>
<mi>q</mi>
</mrow>
</msub>
</mrow>
<mo>|</mo>
</mrow>
</mrow>
</msqrt>
</mrow>
式中,Spq为像素点p和像素点q的相似度,swp为起始像素点的笔划宽度值,swq为终止像素点的笔划宽度值,Irp、Igp、Ibp分别为起始像素点的归一化的R、G、B通道的颜色值,Irq、Igq、Ibq分别为终止像素点的归一化的R、G、B通道的颜色值;
其区域生长的终止条件是Spq≥0.5。
3.根据权利要求1所述的一种基于笔划特征的自然场景文本检测方法,其特征在于:所述的步骤S3还包括候选文本字符的过滤子步骤:通过笔划滤波器完成候选文本字符的过滤处理,采用笔划滤波响应和MSER区域限制滤除由笔划宽度像素聚合成的非文本候选文本字符;
所述的候选文本字符的过滤的过程为:对候选文本字符的坐标进行归一化处理,构造描述文本字符向量的特征向量,利用随机森林算法对候选文本字符进行分类,得出每个候选文本字符的置信阈值Tc,并利用该置信阈值Tc对候选文本字符进行过滤。
4.根据权利要求3所述的一种基于笔划特征的自然场景文本检测方法,其特征在于:所述的笔划滤波器的对像素点p(x,y)的滤波响应定义为:
<mrow>
<msup>
<mi>R</mi>
<mi>B</mi>
</msup>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>,</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
</mrow>
<mrow>
<mo>(</mo>
<mi>a</mi>
<mo>,</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
</munder>
<msubsup>
<mi>R</mi>
<mrow>
<mi>a</mi>
<mo>,</mo>
<mi>d</mi>
</mrow>
<mi>B</mi>
</msubsup>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>,</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mi>R</mi>
<mrow>
<mi>a</mi>
<mo>,</mo>
<mi>d</mi>
</mrow>
<mi>B</mi>
</msubsup>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>,</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mn>2</mn>
<msub>
<mi>u</mi>
<mn>1</mn>
</msub>
<mo>-</mo>
<msub>
<mi>u</mi>
<mn>2</mn>
</msub>
<mo>-</mo>
<msub>
<mi>u</mi>
<mn>3</mn>
</msub>
<mo>-</mo>
<mrow>
<mo>|</mo>
<mrow>
<msub>
<mi>u</mi>
<mn>2</mn>
</msub>
<mo>-</mo>
<msub>
<mi>u</mi>
<mn>3</mn>
</msub>
</mrow>
<mo>|</mo>
</mrow>
</mrow>
<mi>&sigma;</mi>
</mfrac>
</mrow>
式中,RB(x,y)为像素点p(x,y)的笔划滤波响应值;
为在方向为a、笔划滤波器中间瓣(1)的宽度值为d时笔划滤波器的响应;
a为笔划滤波器与x轴正向的夹角值;
d为笔划滤波器中间瓣(1)的宽度值;
x为像素点p(x,y)的横坐标值;
y为像素点p(x,y)的纵坐标值;
B代表该笔划滤波器求的是灰度图像的亮度值;
μ1表示笔划滤波器中间瓣(1)的面积;
μ2表示笔划滤波器左瓣(2)的面积;
μ3表示笔划滤波器右瓣(3)的面积;
σ表示笔划滤波器中间瓣(1)的方差。
5.根据权利要求3所述的一种基于笔划特征的自然场景文本检测方法,其特征在于:步骤S3所述的候选文本字符的生成和候选文本字符的过滤处理过程之间还包括候选文本字符修正过程:通过形态学闭操作,消除候选文本字符内部的细小孔洞。
6.根据权利要求1所述的一种基于笔划特征的自然场景文本检测方法,其特征在于:它还包括步骤S4文本行生成处理:对所有的候选文本字符按照一定的聚对规则进行聚对处理,得到字符对,然后再将字符对按照一定的合并规则进行合并处理,生成文本行;
所述的文本行生成处理的具体过程为:
S411:对所有的候选文本字符按照一定的聚对规则进行聚对处理,得到字符对;
S412:对于不能聚对的单独候选文本字符,则重新评估其笔划滤波响应值和MSER响应值;
S413:若满足滤波响应值大于0.4或MSER响应值大于0.8,则把其当成单独的字符对;
S414:将字符对按照一定的合并规则进行合并处理,生成文本行。
7.根据权利要求6所述的一种基于笔划特征的自然场景文本检测方法,其特征在于:所述的步骤S4还包括文本行过滤处理:在字符水平层次和文本行水平层次进行两层分类,分别对字符水平和文本行水平进行过滤,剔除非文本字符和非文本区域而得到最终的文本区域;
所述的文本行过滤处理的具体过程为:提取文本行的文本行特征,根据文本行特征构造描述文本行的特征向量,利用随机森林算法对文本行进行分类,得出文本行的置信阈值Tl,并利用该置信阈值Tl对文本行进行分类,分类模式中将文本行的置信度值与文本行置信阈值Tl相比,其中,置信度值大于置信阈值Tl的是文本行,置信度值不大于置信阈值Tl的不是文本行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510152830.0A CN104751142B (zh) | 2015-04-01 | 2015-04-01 | 一种基于笔划特征的自然场景文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510152830.0A CN104751142B (zh) | 2015-04-01 | 2015-04-01 | 一种基于笔划特征的自然场景文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104751142A CN104751142A (zh) | 2015-07-01 |
CN104751142B true CN104751142B (zh) | 2018-04-27 |
Family
ID=53590799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510152830.0A Active CN104751142B (zh) | 2015-04-01 | 2015-04-01 | 一种基于笔划特征的自然场景文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104751142B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260428A (zh) * | 2015-09-29 | 2016-01-20 | 北京奇艺世纪科技有限公司 | 图片处理方法和装置 |
CN107545223B (zh) * | 2016-06-29 | 2021-06-11 | 腾讯科技(深圳)有限公司 | 图像识别方法及电子设备 |
CN107784316A (zh) * | 2016-08-26 | 2018-03-09 | 阿里巴巴集团控股有限公司 | 一种图像识别方法、装置、***和计算设备 |
CN106446920B (zh) * | 2016-09-05 | 2019-10-01 | 电子科技大学 | 一种基于梯度幅度约束的笔画宽度变换方法 |
CN106650579B (zh) * | 2016-09-26 | 2019-06-14 | 西安交通大学 | 一种用以增强文字与背景差异的边缘响应统计变换方法 |
CN106846339A (zh) * | 2017-02-13 | 2017-06-13 | 广州视源电子科技股份有限公司 | 一种图像检测方法和装置 |
CN108573251B (zh) * | 2017-03-15 | 2021-09-07 | 北京京东尚科信息技术有限公司 | 文字区域定位方法和装置 |
CN107066972B (zh) * | 2017-04-17 | 2019-06-21 | 武汉理工大学 | 基于多通道极值区域的自然场景文本检测方法 |
CN107622710A (zh) * | 2017-08-30 | 2018-01-23 | 中南出版传媒集团股份有限公司湖南教育出版社分公司 | 数字化书写练习方法及*** |
CN107748888B (zh) * | 2017-10-13 | 2019-11-08 | 众安信息技术服务有限公司 | 一种图像文本行检测方法及装置 |
CN108038481A (zh) * | 2017-12-11 | 2018-05-15 | 江苏科技大学 | 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法 |
CN108154151B (zh) * | 2017-12-20 | 2022-05-17 | 南京邮电大学 | 一种快速多方向文本行检测方法 |
CN108376244B (zh) * | 2018-02-02 | 2022-03-25 | 北京大学 | 一种自然场景图片中的文本字体的识别方法 |
CN110345954A (zh) * | 2018-04-03 | 2019-10-18 | 奥迪股份公司 | 导航***和方法 |
CN109409356B (zh) * | 2018-08-23 | 2021-01-08 | 浙江理工大学 | 一种基于swt的多方向中文印刷体文字检测方法 |
CN109558876B (zh) * | 2018-11-20 | 2021-11-16 | 浙江口碑网络技术有限公司 | 字符识别处理方法及装置 |
CN110008950A (zh) * | 2019-03-13 | 2019-07-12 | 南京大学 | 一种对形状鲁棒的自然场景中文本检测的方法 |
CN110647866B (zh) * | 2019-10-08 | 2022-03-25 | 杭州当虹科技股份有限公司 | 一种检测文字笔画的方法 |
CN112488107A (zh) * | 2020-12-04 | 2021-03-12 | 北京华录新媒信息技术有限公司 | 一种视频字幕的处理方法及处理装置 |
CN115937843B (zh) * | 2023-01-09 | 2023-05-26 | 苏州浪潮智能科技有限公司 | 图像的文本检测方法、装置、存储介质和电子设备 |
CN116152818A (zh) * | 2023-02-16 | 2023-05-23 | 中国工业互联网研究院 | 一种提高旋转图像文本行的识别准确率的方法及*** |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101082836A (zh) * | 2007-06-29 | 2007-12-05 | 华中科技大学 | 一种整合语音输入和手写输入功能的汉字输入*** |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8320674B2 (en) * | 2008-09-03 | 2012-11-27 | Sony Corporation | Text localization for image and video OCR |
KR101309782B1 (ko) * | 2008-09-30 | 2013-09-23 | 삼성전자주식회사 | 문서 처리장치 및 문서 처리방법 |
CN103377379A (zh) * | 2012-04-27 | 2013-10-30 | 佳能株式会社 | 文本检测设备、文本信息提取***及其方法 |
-
2015
- 2015-04-01 CN CN201510152830.0A patent/CN104751142B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101082836A (zh) * | 2007-06-29 | 2007-12-05 | 华中科技大学 | 一种整合语音输入和手写输入功能的汉字输入*** |
Non-Patent Citations (1)
Title |
---|
"Text Extraction from Natural Images Based on Stroke Width Map;Chunmei Liu;《Image Information Processing (ICIIP),2013 IEEE Second International Conference on》;20140109;第556-559页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104751142A (zh) | 2015-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104751142B (zh) | 一种基于笔划特征的自然场景文本检测方法 | |
CN111401372B (zh) | 一种扫描文档图文信息提取与鉴别的方法 | |
Gatos et al. | Automatic table detection in document images | |
Shen et al. | Improving OCR performance with background image elimination | |
CN108121991B (zh) | 一种基于边缘候选区域提取的深度学习舰船目标检测方法 | |
CN107045634B (zh) | 一种基于最大稳定极值区域与笔画宽度的文本定位方法 | |
WO2018145470A1 (zh) | 一种图像检测方法和装置 | |
TW201732651A (zh) | 一種單詞的分割方法和裝置 | |
CN107491730A (zh) | 一种基于图像处理的化验单识别方法 | |
CN104361336A (zh) | 一种水下视频图像的文字识别方法 | |
CN108154151B (zh) | 一种快速多方向文本行检测方法 | |
CN107766854B (zh) | 一种基于模板匹配实现快速页码识别的方法 | |
Gupta et al. | Image Segmentation for Text Extraction | |
CN109271882B (zh) | 一种区分颜色的手写体汉字提取方法 | |
Islam et al. | An approach to extract text regions from scene image | |
Dhar et al. | Bangladeshi license plate recognition using adaboost classifier | |
Giri | Text information extraction and analysis from images using digital image processing techniques | |
Wang et al. | A video text location method based on background classification | |
Gui et al. | A fast caption detection method for low quality video images | |
Karanje et al. | Survey on text detection, segmentation and recognition from a natural scene images | |
CN110826360A (zh) | Ocr图像预处理与文字识别 | |
Zhang et al. | A novel approach for binarization of overlay text | |
CN110619331A (zh) | 一种基于颜色距离的彩色影像字段定位方法 | |
CN108171750A (zh) | 基于视觉的箱子装卸定位识别*** | |
Patel et al. | Text segmentation from images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |