CN108038481A - 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法 - Google Patents

一种结合最大极值稳定区域和笔画宽度变化的文本定位方法 Download PDF

Info

Publication number
CN108038481A
CN108038481A CN201711310281.0A CN201711310281A CN108038481A CN 108038481 A CN108038481 A CN 108038481A CN 201711310281 A CN201711310281 A CN 201711310281A CN 108038481 A CN108038481 A CN 108038481A
Authority
CN
China
Prior art keywords
image
stroke width
text
gradient
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711310281.0A
Other languages
English (en)
Inventor
张再跃
潘立
刘亮亮
刘嘎琼
武子毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Science and Technology
Marine Equipment and Technology Institute Jiangsu University of Science and Technology
Original Assignee
Jiangsu University of Science and Technology
Marine Equipment and Technology Institute Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology, Marine Equipment and Technology Institute Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN201711310281.0A priority Critical patent/CN108038481A/zh
Publication of CN108038481A publication Critical patent/CN108038481A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种结合最大极值稳定区域和笔画宽度变化的文本方法,使用MSER对图像进行文本检测;然后对图像进行边缘化处理;并沿边缘像素点的梯度方向计算笔画宽度值;使用形态学操作去除噪点、填充间隙并计算获得连通域;最后根据规则过滤非文本域并合并连通域。本发明的优点在于:本发明通过MSER检测获取粗糙文本域,结合边缘化处理、笔画宽度变化特征及形态学操作,实现了在自然场景图像中进行文本定位,经实验证明,本发明准确率高,有利于之后文本分割和文本识别工作,在自然场景文本定位领域中具有十分明显的实用意义,可广泛推广使用。

Description

一种结合最大极值稳定区域和笔画宽度变化的文本定位方法
技术领域
本发明涉及人工智能计算机领域中的图像处理,特别涉及一种利用图像处理来实现自然场景中的文本定位方法。
背景技术
在进行自然场景文本定位的过程中,有一个基本的而且不可避免的问题:对有着复杂自然背景的图像来说,如何避免文本布局、字体类型、光照强度及拍摄角度等因素影响,准确获取文本位置。
文本定位在文本检测过程中是至关重要的,文本定位效果的好坏直接决定了之后文本分割以及文本识别的准确度。文本定位在自然场景中的应用越来越广泛,然而复杂的自然场景环境给这项技术带来了许多挑战。不同于传统的文本定位技术,自然场景中有着大量的干扰物,同时拍摄角度及字体等因素会使文本发生形变,使文本定位更加困难。因此,需要寻找文本特征,使文本定位过程不受这些因素的影响。
自然场景中文本定位的方法有很多,主要分为滑动窗口方法和连通域分析方法两类。滑动窗口方法利用一个移动的窗口对图像的所有位置进行文本检测,连通域分析方法通过选取图像特征来获取候选连通域,筛选合并后实现文本定位。
在自然场景文本定位中,常遇到几个难题需要解决:
1)文本特征提取是一个自然场景中文本定位的步骤,因此在提取文本特征前需要进行图像预处理,然后提取图像中所需的文本特征,并根据所提取的特征生成候选连通域。
2)如何来区分文本域和非文本域,自然场景中存在这大量与文本具有十分类似特征的干扰物,如植物、路标、栏杆等。因此在获得候选连通域以后,需要区分其中的非文本域并滤除。
3)自然场景中的文本形式多种多样,包含了不同的字体以及语言。因此如何使定位方法能够兼容各种语言及字体是需要解决的问题。
因此想要实现在自然场景中进行文本定位并获得较高的准确率,需要考虑如下有待解决的问题:
技术问题1:自然场景图像预处理后文本特征的提取。如何选择要提取的文本特征,使得定位方法可以有效的克服自然场景干扰因素以及多字体兼容问题;
技术问题2:候选连通域过滤问题。如何设计规则来生成候选连通域并过滤区分非文本域;
技术问题3:单字连通域合并问题。如何筛选单字连通域并合并成文本域;
针对上述难题和问题,本发明提出并且实现了结合最大极值稳定区域和笔画宽度变化特征的自然场景文本定位方法。
发明内容
本发明要解决的技术问题是提供一种结合最大极值稳定区域和笔画宽度变化的文本定位方法,以实现在自然场景图像中实现准确的文本定位。
为解决上述技术问题,本发明的技术方案为:一种结合最大极值稳定区域和笔画宽度变化的文本定位方法,其创新点在于:所述文本定位方法包括如下步骤:
(1)利用MSER进行对文本域进行检测:对原始图像进行灰度化,并用0-255的整数来表示图像中各像素点的灰度值;在图像灰度值范围内任取一阈值,灰度值小于阈值的像素点定义为黑色,大于阈值的像素点为白色,当阈值为0时,整个图像为白色,在阈值从0到255变化过程中,黑色区域稳定不变且区域梯度最小,则该区域为最大稳定极值区域;
(2)Canny算子边缘化处理图像:利用高斯滤波器平滑图像,对滤波后的图像计算其梯度幅度和梯度方向,对梯度幅度进行非极大值抑制,找出图像梯度中的局部极大值点,并将非局部最大值点置零,以此细化图像边缘,用双阈值算法检测和连接边缘;
(3)获取图像笔画宽度特征:对每一个边缘像素点,在垂直于边缘的梯度方向上定义一条射线,沿射线方向寻找对应的另一边缘像素点,在梯度方向上找到另一边缘像素点,且该点的梯度方向与原梯度方向近似相反,则这两个边缘像素点的距离被认为是笔画宽度;未找到对应像素点或对应像素点梯度方向不近似相反,则丢弃该射线,在更为复杂的笔画环境中,沿未舍弃的射线计算所有像素点的笔画宽度中值m,并将射线上所有笔画宽度值大于m的像素点笔画宽度中值都设为m;
(4)形态学运算处理图像:对图像使用开、闭运算,开运算先对图像进行腐蚀操作,去除图像的边缘毛刺,然后进行膨胀操作,填充图像细小缝隙和小孔,闭运算先进行膨胀操作,填补图像的断裂区域,轮廓缺口,然后进行腐蚀操作,平滑图像边缘;
(5)候选文本域生成:将文本像素点根据规则聚集成候选文本域,相邻像素点笔画宽度值在阈值范围内则归为同一连通域,计算连通域的宽高比及面积比,将超过阈值范围的连通域作为非文本域滤除;
(6)文本域合并:对单字文本域作进一步过滤,相邻单字文本域内笔画宽度均值比、高度比、及像素点颜色均值比超过阈值,将偏差较大的连通域作为噪声滤除,将剩余连通域聚集成连,形成连续文本域。
进一步地,所述利用MSER进行对文本域进行检测的步骤中,最大稳定极值区域是一种依赖于区域内部和边界像素关系,根据稳定性判定条件来获取最大稳定极值区域的算法;对于输入图像进行灰度化,在0-255的图像灰度值范围内任取一阈值,Q1,….,Qi,…是一系列嵌套极值区域,且满足q(i)=|Qi+Δ\Qi-Δ|/|Qi|在i*有局部最小值,则Qi*是最大极值稳定区域MSER。
进一步地,所述的Canny算子边缘检测是基于最优化思想的边缘检测算子,该算法采用合适的二维高斯函数分别按行和列对图像进行平滑去噪,计算图像梯度的幅度和方向,并通过对梯度幅度的最大值抑制,来找到图像梯度中的局部极大值点,置零非局部极大值点,使边缘得以细化,采用T1、T2双阈值算法检测,用T1来获得每一条线段,用T2来在线段两边寻找断裂处,并连接边缘;其中,所述二维高斯函数为:
I(x,y)=G(x,y)*f(x,y);
所述梯度幅度和梯度方向的计算公式为:
θ(x,y)=arctan(gy/gx);其中σ是高斯曲线的标准差,(gx,gy)表示梯度。
进一步地,所述笔画宽度计算的步骤中,所述笔画宽度值为dswt;所述笔画宽度值的计算步骤包括:将每个边缘像素点p的梯度方向称为dp,梯度方向dp垂直于边缘方向,定义一条射线r=p+n·dp,n>0,沿射线方向找另一个边缘像素点q,若q的梯度方向dq与dp近似相反(dq=-dq+π/6),则该像素点笔画宽度值dswt为:其中xp、yp分别是像素点p的横、纵坐标,xq、yq分别是像素点q的横、纵坐标;在更为复杂的笔画环境中,上述计算流程获得的笔画宽度值并不准确,沿未舍弃的射线计算所有像素点的笔画宽度中值m,并将射线上所有笔画宽度值大于m的像素点笔画宽度中值都设为m。
进一步地,所述利用形态学运算处理图像的步骤中,主要包括了开、闭运算,开运算先对图像进行腐蚀操作,去除图像的边缘毛刺,然后进行膨胀操作,填充图像细小缝隙和小孔,闭运算先进行膨胀操作,填补图像的断裂区域,轮廓缺口,然后进行腐蚀操作,平滑图像边缘;所述的开运算记为定义为:所述的闭运算记为A·B,定义为:其中A为图像,B为结构元素。
进一步地,所述候选文本域生成的步骤中,主要通过计算连通域属性并设置规则和阈值来滤除非文本域,所包括的规则有:笔画宽度方差、宽高比、面积比;所述笔画宽度方差用来判断像素点是否属于同一连通域,若笔画宽度值相似,则将这像素点归为同一连通域。笔画宽度值均值μswt与方差σswt 2的计算公式为: 其中N是连通域内像素点总数,是第i个像素点的笔画宽度值;所述宽高比用来滤除因噪声干扰而产生的细小狭长的连通域,连通域宽高比r=dheight/dwidth,宽高比阈值为2;所述面积比用来过滤面积过大或过小的连通域,连通域面积比阈值为2。
进一步地,所述文本域合并的步骤中,对单字候选域作进一步筛选,并将剩余单字连通域聚集成链,形成连续的文本域,单字连通域的筛选条件有笔画宽度比、高度比、颜色均值差;所述笔画宽度比用来判断相邻单字文本域是否属于同一文本域,相邻单字文本域笔画宽度比阈值为2;所述高度比用来判断相邻单字文本域是否属于同一水平方向文本域,相邻单字文本域高度比阈值为2;所述颜色均值用来判断相邻单字文本域是否属于同一文本域,相邻单字文本域颜色均值差阈值为40。
本发明的优点在于:本发明利用最大极值稳定区域的仿射不变性对图像进行MSER文本检测获取多个候选文本域;在此基础上通过Canny算子对图像进行边缘化处理;针对所有边缘像素点提取笔画宽度特征获得连通域;再对非文本域做进一步过滤,合并单字文本域,实现了自然场景中文本定位,经实验证明,本发明准确率高,可广泛推广使用。如结合之后的文本分割及文本识别,可以很好的实现在自然场景中进行文本检测的目的,在图像处理领域中具有十分明显的实用意义。
本发明采用ICDAR2003文本定位竞赛数据集测试数据进行实验,实验结果表明:本发明提供的结合最大极值稳定区域和笔画宽度特征的方法能有效的在自然场景中进行文本定位。统计分析后得知,本发明提供的结合最大极值稳定区域和笔画宽度特征的自然场景文本定位方法,其定位的准确率达74.1%。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明结合最大极值稳定区域和笔画宽度变化的文本定位方法的流程图。
具体实施方式
下面的实施例可以使本专业的技术人员更全面地理解本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例
如图1所示,本实施例提供的结合最大极值稳定区域和笔画宽度特征的文本定位方法,包括以下步骤:
1.利用MSER对输入图像进行文本检测的步骤,包括:
笔画宽度特征的提取依赖于图像的边缘特征效果,本发明结合MSER对图像进行文本检测,获取粗略的文本位置,提高了之后图像边缘化以及笔画宽度特征提取的准确度。
所述最大稳定极值区域是一种依赖区域内部和边界像素关系的算法,对灰度图像I:其最大稳定极值区域的定义为:S是全序的,S=(0,1,…,255},且满足反对称性、传递性、完全性;定义4邻域的邻域关系当p,q∈D,如果满足p,q是邻接的,记作pAq;区域Q是D的一个连续子集,对于任意p,q∈Q,存在一个序列p,a1,a2,...,an,q,使得pAa1,…,aiAai+1,…,anAq;区域的边界区域Q的边缘是一像素集合,至少有一个像素与区域Q邻接但不属于区域Q;极值区域是一个区域,对于所有p∈Q,如果I(p)>I(q),则区域Q是极大区域,反之为极小区域;设Q1,…,Qi-1,Qi,…是一系列嵌套极值区域,有如果满足q(i)=|Qi+Δ\Qi-Δ|/|Qi|在i*有局部最小值,则Qi*是最大极值稳定区域MSER。
2.Canny算子边缘化处理图像的步骤,包括:
采用合适的二维高斯函数分别按行和列对图像进行平滑去噪,计算图像梯度的幅度和方向;
所述二维高斯函数为:
I(x,y)=G(x,y)*f(x,y) (2);
所述梯度幅度和梯度方向的计算公式为:
θ(x,y)=arctan(gy/gx) (4);
其中σ是高斯曲线的标准差,(gx,gy)表示梯度;
对梯度图像进行非极大值抑制处理,沿梯度方向比较每一个像素的8邻域的梯度幅度。若在梯度方向上的两个像素的幅度值均小于该像素点自身的幅度值,那么该像素点可能是边缘像素点,否则将该像素点的梯度幅度设为0。根据梯度直方图计算得到低阈值t1和高阈值t2,并对图像按t1、t2进行两次阈值处理,若梯度小于阈值,则将其灰度值设为0。
3.笔画宽度特征的提取步骤,包括:
将每个元素的初始笔画宽度值设为无穷大,在用Canny算子获取到边缘信息以后,将每个边缘像素点p的梯度方向称为dp,由于边缘像素点p是在边缘上的,因此梯度方向dp一定垂直于边缘方向;定义一条射线r=p+n·dp,n>0,沿着这条射线方向找另一个边缘像素点q,如果q的梯度方向dq与dp方向近似相反(dq=-dp+π/6),则该像素点笔画宽度值dswt为:
如果没有找到对应的边缘像素点q或者边缘像素点q的梯度方向dq和dp不相反,则将该射线r丢弃;
然而在如笔画拐角这样更为复杂的笔画环境中,根据上述的计算流程得到的笔画宽度值并不准确,因此需再次沿所有未被舍弃的射线,计算其所有像素点的笔画宽度中值m,将射线上所有大于m的像素点的笔画宽度中值都设置为m。
4.形态学运算处理图像的步骤,包括:
开运算操作可以使图像边缘更加平滑,去掉边缘上的一些参差的毛刺,去除狭窄的区域。闭运算操作相反,它能去除区域中的噪声,填充狭窄断裂的部分以及边缘的缺口,设整数空间Z中有图像A和集合B,将B对A的开运算记为定义为:
相应的将结构元素B对图像A的闭运算记为A·B,定义为:
其中A为图像,B为结构元素。
5.候选文本域生成的步骤,包括:
候选文本域生成的步骤中,主要通过计算连通域属性并设置规则和阈值来滤除非文本域,所包括的规则有:笔画宽度方差、宽高比、面积比;
所述笔画宽度方差用来判断像素点是否属于同一连通域,若笔画宽度值相似,则将这像素点归为同一连通域,笔画宽度值均值μswt与方差σswt 2的计算公式为:
其中N是连通域内像素点总数,是第i个像素点的笔画宽度值;
所述宽高比用来滤除因噪声干扰而产生的细小狭长的连通域,连通域宽高比r=dheight/dwidth,宽高比阈值为2;
所述面积比用来过滤面积过大或过小的连通域,连通域面积比阈值为2。
6.文本域合并的步骤,包括:
对单字候选域作进一步筛选,并将剩余单字连通域聚集成链,形成连续的文本域,单字连通域的筛选条件有笔画宽度比、高度比、颜色均值差;
所述笔画宽度比用来判断相邻单字文本域是否属于同一文本域,相邻单字文本域笔画宽度比阈值为2;
所述高度比用来判断相邻单字文本域是否属于同一水平方向文本域,相邻单字文本域高度比阈值为2;
所述颜色均值用来判断相邻单字文本域是否属于同一文本域,相邻单字文本域颜色均值差阈值为40。
实验:利用本发明采用ICDAR2003文本定位竞赛数据集测试数据进行实验。实验结果表明:本发明提供的结合最大极值稳定区域和笔画宽度特征的方法能有效的在自然场景中进行文本定位。统计分析后得知,本发明提供的结合最大极值稳定区域和笔画宽度特征的自然场景文本定位方法,其定位的准确率达74.1%。从实验结果可见,本发明能有效的在自然场景中实现文本定位,准确率高,具有非常广泛的使用价值。
以上显示和描述了本发明的基本原理和主要特征以及本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.一种结合最大极值稳定区域和笔画宽度变化的文本定位方法,其特征在于:所述文本定位方法包括如下步骤:
(1)利用MSER进行对文本域进行检测:对原始图像进行灰度化,并用0-255的整数来表示图像中各像素点的灰度值;在图像灰度值范围内任取一阈值,灰度值小于阈值的像素点定义为黑色,大于阈值的像素点为白色,当阈值为0时,整个图像为白色,在阈值从0到255变化过程中,黑色区域稳定不变且区域梯度最小,则该区域为最大稳定极值区域;
(2)Canny算子边缘化处理图像:利用高斯滤波器平滑图像,对滤波后的图像计算其梯度幅度和梯度方向,对梯度幅度进行非极大值抑制,找出图像梯度中的局部极大值点,并将非局部最大值点置零,以此细化图像边缘,用双阈值算法检测和连接边缘;
(3)获取图像笔画宽度特征:对每一个边缘像素点,在垂直于边缘的梯度方向上定义一条射线,沿射线方向寻找对应的另一边缘像素点,在梯度方向上找到另一边缘像素点,且该点的梯度方向与原梯度方向近似相反,则这两个边缘像素点的距离被认为是笔画宽度;未找到对应像素点或对应像素点梯度方向不近似相反,则丢弃该射线,在更为复杂的笔画环境中,沿未舍弃的射线计算所有像素点的笔画宽度中值m,并将射线上所有笔画宽度值大于m的像素点笔画宽度中值都设为m;
(4)形态学运算处理图像:对图像使用开、闭运算,开运算先对图像进行腐蚀操作,去除图像的边缘毛刺,然后进行膨胀操作,填充图像细小缝隙和小孔,闭运算先进行膨胀操作,填补图像的断裂区域,轮廓缺口,然后进行腐蚀操作,平滑图像边缘;
(5)候选文本域生成:将文本像素点根据规则聚集成候选文本域,相邻像素点笔画宽度值在阈值范围内则归为同一连通域,计算连通域的宽高比及面积比,将超过阈值范围的连通域作为非文本域滤除;
(6)文本域合并:对单字文本域作进一步过滤,相邻单字文本域内笔画宽度均值比、高度比、及像素点颜色均值比超过阈值,将偏差较大的连通域作为噪声滤除,将剩余连通域聚集成连,形成连续文本域。
2.根据权利要求1所述的结合最大极值稳定区域和笔画宽度变化的文本定位方法,其特征在于:所述利用MSER进行对文本域进行检测的步骤中,最大稳定极值区域是一种依赖于区域内部和边界像素关系,根据稳定性判定条件来获取最大稳定极值区域的算法;对于输入图像进行灰度化,在0-255的图像灰度值范围内任取一阈值,Q1,….,Qi,…是一系列嵌套极值区域,且满足q(i)=|Qi+Δ\Qi-Δ|/|Qi|在i*有局部最小值,则Qi*是最大极值稳定区域MSER。
3.根据权利要求1所述的结合最大极值稳定区域和笔画宽度变化的文本定位方法,其特征在于:所述的Canny算子边缘检测是基于最优化思想的边缘检测算子,该算法采用合适的二维高斯函数分别按行和列对图像进行平滑去噪,计算图像梯度的幅度和方向,并通过对梯度幅度的最大值抑制,来找到图像梯度中的局部极大值点,置零非局部极大值点,使边缘得以细化,采用T1、T2双阈值算法检测,用T1来获得每一条线段,用T2来在线段两边寻找断裂处,并连接边缘;其中,所述二维高斯函数为:
<mrow> <mi>G</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <msup> <mi>&amp;pi;&amp;sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <mrow> <msup> <mi>x</mi> <mn>2</mn> </msup> <mo>+</mo> <msup> <mi>y</mi> <mn>2</mn> </msup> </mrow> <mrow> <mn>2</mn> <msup> <mi>&amp;sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
I(x,y)=G(x,y)*f(x,y);
所述梯度幅度和梯度方向的计算公式为:
<mrow> <mi>M</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <msubsup> <mi>g</mi> <mi>x</mi> <mn>2</mn> </msubsup> <mo>+</mo> <msubsup> <mi>g</mi> <mi>y</mi> <mn>2</mn> </msubsup> </mrow> </msqrt> <mo>;</mo> </mrow>
θ(x,y)=arctan(gy/gx);其中σ是高斯曲线的标准差,(gx,gy)表示梯度。
4.根据权利要求1所述的结合最大极值稳定区域和笔画宽度变化的文本定位方法,其特征在于:所述笔画宽度计算的步骤中,所述笔画宽度值为dswt;所述笔画宽度值的计算步骤包括:将每个边缘像素点p的梯度方向称为dp,梯度方向dp垂直于边缘方向,定义一条射线r=p+n·dp,n>0,沿射线方向找另一个边缘像素点q,若q的梯度方向dq与dp近似相反(dq=-dp+π/6),则该像素点笔画宽度值dswt为:其中xp、yp分别是像素点p的横、纵坐标,xq、yq分别是像素点q的横、纵坐标;在更为复杂的笔画环境中,上述计算流程获得的笔画宽度值并不准确,沿未舍弃的射线计算所有像素点的笔画宽度中值m,并将射线上所有笔画宽度值大于m的像素点笔画宽度中值都设为m。
5.根据权利要求1所述的结合最大极值稳定区域和笔画宽度变化的文本定位方法,其特征在于:所述利用形态学运算处理图像的步骤中,主要包括了开、闭运算,开运算先对图像进行腐蚀操作,去除图像的边缘毛刺,然后进行膨胀操作,填充图像细小缝隙和小孔,闭运算先进行膨胀操作,填补图像的断裂区域,轮廓缺口,然后进行腐蚀操作,平滑图像边缘;所述的开运算记为定义为:所述的闭运算记为A·B,定义为:其中A为图像,B为结构元素。
6.根据权利要求1所述的结合最大极值稳定区域和笔画宽度变化的文本定位方法,其特征在于:所述候选文本域生成的步骤中,主要通过计算连通域属性并设置规则和阈值来滤除非文本域,所包括的规则有:笔画宽度方差、宽高比、面积比;所述笔画宽度方差用来判断像素点是否属于同一连通域,若笔画宽度值相似,则将这像素点归为同一连通域。笔画宽度值均值μswt与方差σswt 2的计算公式为:其中N是连通域内像素点总数,是第i个像素点的笔画宽度值;所述宽高比用来滤除因噪声干扰而产生的细小狭长的连通域,连通域宽高比r=dheight/dwidth,宽高比阈值为2;所述面积比用来过滤面积过大或过小的连通域,连通域面积比阈值为2。
7.根据权利要求1所述的结合最大极值稳定区域和笔画宽度变化的文本定位方法,其特征在于:所述文本域合并的步骤中,对单字候选域作进一步筛选,并将剩余单字连通域聚集成链,形成连续的文本域,单字连通域的筛选条件有笔画宽度比、高度比、颜色均值差;所述笔画宽度比用来判断相邻单字文本域是否属于同一文本域,相邻单字文本域笔画宽度比阈值为2;所述高度比用来判断相邻单字文本域是否属于同一水平方向文本域,相邻单字文本域高度比阈值为2;所述颜色均值用来判断相邻单字文本域是否属于同一文本域,相邻单字文本域颜色均值差阈值为40。
CN201711310281.0A 2017-12-11 2017-12-11 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法 Pending CN108038481A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711310281.0A CN108038481A (zh) 2017-12-11 2017-12-11 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711310281.0A CN108038481A (zh) 2017-12-11 2017-12-11 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法

Publications (1)

Publication Number Publication Date
CN108038481A true CN108038481A (zh) 2018-05-15

Family

ID=62102252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711310281.0A Pending CN108038481A (zh) 2017-12-11 2017-12-11 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法

Country Status (1)

Country Link
CN (1) CN108038481A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344824A (zh) * 2018-09-21 2019-02-15 泰康保险集团股份有限公司 一种文本行区域检测方法、装置、介质和电子设备
CN109448000A (zh) * 2018-10-10 2019-03-08 中北大学 一种交通指路标志图像的分割方法
CN109472221A (zh) * 2018-10-25 2019-03-15 辽宁工业大学 一种基于笔画宽度变换的图像文本检测方法
CN109670500A (zh) * 2018-11-30 2019-04-23 平安科技(深圳)有限公司 一种文字区域获取方法、装置、存储介质及终端设备
CN109978781A (zh) * 2019-03-14 2019-07-05 北京工业大学 一种基于极值区域检测的血管内超声图像分割方法
CN109993742A (zh) * 2019-04-04 2019-07-09 哈尔滨工业大学 基于对角倒数算子的桥梁裂缝快速识别方法
CN110032997A (zh) * 2019-01-07 2019-07-19 武汉大学 一种基于图像分割的自然场景文本定位方法
CN110245600A (zh) * 2019-06-11 2019-09-17 长安大学 自适应起始快速笔画宽度无人机道路检测方法
CN110944237A (zh) * 2019-12-12 2020-03-31 成都极米科技股份有限公司 一种字幕区域定位方法、装置和电子设备
CN110991448A (zh) * 2019-11-27 2020-04-10 云南电网有限责任公司电力科学研究院 电力设备铭牌图像的文本检测方法及装置
CN112488107A (zh) * 2020-12-04 2021-03-12 北京华录新媒信息技术有限公司 一种视频字幕的处理方法及处理装置
CN112633197A (zh) * 2020-12-28 2021-04-09 宁波江丰生物信息技术有限公司 一种用于荧光切片进行组织区域识别的方法和***
CN113298054A (zh) * 2021-07-27 2021-08-24 国际关系学院 一种基于嵌入空间像素聚类的文本区域检测方法
CN115546232A (zh) * 2022-10-12 2022-12-30 什维新智医疗科技(上海)有限公司 一种肝脏超声图像工作区域提取方法、***及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6526170B1 (en) * 1993-12-14 2003-02-25 Nec Corporation Character recognition system
CN104751142A (zh) * 2015-04-01 2015-07-01 电子科技大学 一种基于笔划特征的自然场景文本检测算法
CN104794479A (zh) * 2014-01-20 2015-07-22 北京大学 基于局部笔画宽度变换的自然场景图片中文本检测方法
CN106127118A (zh) * 2016-06-15 2016-11-16 珠海迈科智能科技股份有限公司 一种英语单词识别方法和装置
CN106446920A (zh) * 2016-09-05 2017-02-22 电子科技大学 一种基于梯度幅度约束的笔画宽度变换方法
CN107045634A (zh) * 2017-05-02 2017-08-15 电子科技大学 一种基于最大稳定极值区域与笔画宽度的文本定位方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6526170B1 (en) * 1993-12-14 2003-02-25 Nec Corporation Character recognition system
CN104794479A (zh) * 2014-01-20 2015-07-22 北京大学 基于局部笔画宽度变换的自然场景图片中文本检测方法
CN104751142A (zh) * 2015-04-01 2015-07-01 电子科技大学 一种基于笔划特征的自然场景文本检测算法
CN106127118A (zh) * 2016-06-15 2016-11-16 珠海迈科智能科技股份有限公司 一种英语单词识别方法和装置
CN106446920A (zh) * 2016-09-05 2017-02-22 电子科技大学 一种基于梯度幅度约束的笔画宽度变换方法
CN107045634A (zh) * 2017-05-02 2017-08-15 电子科技大学 一种基于最大稳定极值区域与笔画宽度的文本定位方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344824A (zh) * 2018-09-21 2019-02-15 泰康保险集团股份有限公司 一种文本行区域检测方法、装置、介质和电子设备
CN109344824B (zh) * 2018-09-21 2022-06-10 泰康保险集团股份有限公司 一种文本行区域检测方法、装置、介质和电子设备
CN109448000A (zh) * 2018-10-10 2019-03-08 中北大学 一种交通指路标志图像的分割方法
CN109448000B (zh) * 2018-10-10 2021-07-30 中北大学 一种交通指路标志图像的分割方法
CN109472221A (zh) * 2018-10-25 2019-03-15 辽宁工业大学 一种基于笔画宽度变换的图像文本检测方法
CN109670500A (zh) * 2018-11-30 2019-04-23 平安科技(深圳)有限公司 一种文字区域获取方法、装置、存储介质及终端设备
CN109670500B (zh) * 2018-11-30 2024-06-28 平安科技(深圳)有限公司 一种文字区域获取方法、装置、存储介质及终端设备
CN110032997A (zh) * 2019-01-07 2019-07-19 武汉大学 一种基于图像分割的自然场景文本定位方法
CN109978781B (zh) * 2019-03-14 2021-03-16 北京工业大学 一种基于极值区域检测的血管内超声图像分割方法
CN109978781A (zh) * 2019-03-14 2019-07-05 北京工业大学 一种基于极值区域检测的血管内超声图像分割方法
CN109993742A (zh) * 2019-04-04 2019-07-09 哈尔滨工业大学 基于对角倒数算子的桥梁裂缝快速识别方法
CN110245600A (zh) * 2019-06-11 2019-09-17 长安大学 自适应起始快速笔画宽度无人机道路检测方法
CN110991448A (zh) * 2019-11-27 2020-04-10 云南电网有限责任公司电力科学研究院 电力设备铭牌图像的文本检测方法及装置
CN110944237A (zh) * 2019-12-12 2020-03-31 成都极米科技股份有限公司 一种字幕区域定位方法、装置和电子设备
CN110944237B (zh) * 2019-12-12 2022-02-01 成都极米科技股份有限公司 一种字幕区域定位方法、装置和电子设备
CN112488107A (zh) * 2020-12-04 2021-03-12 北京华录新媒信息技术有限公司 一种视频字幕的处理方法及处理装置
CN112633197A (zh) * 2020-12-28 2021-04-09 宁波江丰生物信息技术有限公司 一种用于荧光切片进行组织区域识别的方法和***
CN113298054B (zh) * 2021-07-27 2021-10-08 国际关系学院 一种基于嵌入空间像素聚类的文本区域检测方法
CN113298054A (zh) * 2021-07-27 2021-08-24 国际关系学院 一种基于嵌入空间像素聚类的文本区域检测方法
CN115546232A (zh) * 2022-10-12 2022-12-30 什维新智医疗科技(上海)有限公司 一种肝脏超声图像工作区域提取方法、***及电子设备

Similar Documents

Publication Publication Date Title
CN108038481A (zh) 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法
CN104751142B (zh) 一种基于笔划特征的自然场景文本检测方法
US9235755B2 (en) Removal of underlines and table lines in document images while preserving intersecting character strokes
Gatos et al. ICFHR 2010 handwriting segmentation contest
CN104361336A (zh) 一种水下视频图像的文字识别方法
CN106295648B (zh) 一种基于多光谱成像技术的低质量文档图像二值化方法
Paunwala et al. A novel multiple license plate extraction technique for complex background in Indian traffic conditions
Gilly et al. A survey on license plate recognition systems
CN105809673A (zh) 基于surf算法和合并最大相似区域的视频前景分割方法
CN105447489A (zh) 一种图片ocr识别***的字符与背景粘连噪声消除方法
CN108256518B (zh) 文字区域检测方法及装置
Wu et al. Contour restoration of text components for recognition in video/scene images
Kumar An efficient text extraction algorithm in complex images
Feild et al. Scene text recognition with bilateral regression
Giri Text information extraction and analysis from images using digital image processing techniques
Dhar et al. Bangladeshi license plate recognition using adaboost classifier
Jin et al. A color image segmentation method based on improved K-means clustering algorithm
Mol et al. Text recognition using poisson filtering and edge enhanced maximally stable extremal regions
CN111191534B (zh) 一种模糊航空图像中的道路提取方法
Sushma et al. Text detection in color images
Liao et al. An integrated approach for multilingual scene text detection
CN107153823B (zh) 一种基于视觉关联双空间的车道线特征提取方法
Deb et al. Vehicle license plate extraction based on color and geometrical features
Shekar et al. Text localization in video/scene images using Kirsch Directional Masks
Wadhawan et al. Automated Recognition of Text in images: A survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180515

RJ01 Rejection of invention patent application after publication