CN106446920B - 一种基于梯度幅度约束的笔画宽度变换方法 - Google Patents

一种基于梯度幅度约束的笔画宽度变换方法 Download PDF

Info

Publication number
CN106446920B
CN106446920B CN201610802472.8A CN201610802472A CN106446920B CN 106446920 B CN106446920 B CN 106446920B CN 201610802472 A CN201610802472 A CN 201610802472A CN 106446920 B CN106446920 B CN 106446920B
Authority
CN
China
Prior art keywords
stroke width
edge
pixel
value
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610802472.8A
Other languages
English (en)
Other versions
CN106446920A (zh
Inventor
徐进
傅志中
赵宇
周宁
李晓峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201610802472.8A priority Critical patent/CN106446920B/zh
Publication of CN106446920A publication Critical patent/CN106446920A/zh
Application granted granted Critical
Publication of CN106446920B publication Critical patent/CN106446920B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/36Applying a local operator, i.e. means to operate on image points situated in the vicinity of a given point; Non-linear local filtering operations, e.g. median filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • G06V10/473Contour-based spatial representations, e.g. vector-coding using gradient analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Nonlinear Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

本发明公开了一种基于梯度幅度约束的字符笔画宽度变换算法,包括:使用引导滤波器对灰度图进行处理,保持图像梯度及边缘特性,使用梯度幅度约束条件减少边缘点无效连接,结合字符颜色信息生成字符连通域。这种笔画宽度变换算法能够更为完整地提取字符连通区域,同时结合字符颜色信息进行连通域的生成,可以有效减少背景对字符区域的干扰。

Description

一种基于梯度幅度约束的笔画宽度变换方法
技术领域
本发明属于模式识别技术领域,具体地说,是一种基于梯度幅度约束的笔画宽度变换方法。
背景技术
自然场景图像中的文本检测的目的是通过检测定位图像中的文本,分析其中的语义信息。自然场景图像中常常包含着大量用于表达图像内容的文本字符,比如建筑物LOGO、警示牌、产品说明书等,这些图像中的语义信息跟图像内容息息相关。因此,有效可靠地检测出自然场景中的文本信息,对场景图像的内容分析、检索等是必不可少的,并且未来可以广泛应用于盲人导航和机器人等重要场景,势必极大地便利人们的生活。而字符候选区域提取作为文本检测的前提,如何准确有效地提取出字符候选区域,对文本检测算法的有效性至关重要。
现有的自然场景文本检测技术主要分为3类:基于边缘的方法、基于纹理的方法、基于连通域的方法。基于边缘的方法虚警较高,如何有效地去除虚警至关重要。Y.Cui等人在文献“An edge-based approach for sign text extraction.Image Technology,2006”中使用Roberts算子计算边缘,它采用自适应阈值进行二值化处理,然后利用腐蚀操作去除非线性的影响并增强线型特征。该方法在背景比较复杂时存在较多虚警。基于纹理的方法利用字符和背景明显不同的结构特征,通过纹理分析方法将图像变换到频域,然后在特定区域进行文本分析,如文献“Text feature extraction of natural scenes using Gaborwavelet transformation based on scale overlapping.6th International ForumonStrategic Technology,2011”所描述。基于连通域的方法相对于基于边缘和纹理的方法来说,能够快速获取文本的二值图像,方便送入后续OCR模块进行字符识别,避免了基于边缘和纹理的方法需要进行图像分割的过程。L.Neumann等人在文献“A method for textlocalization and recognition in real-world images.ACCV,2010”中使用最大稳定极值区域(MSER)来检测候选字符区域,MSER区域检测算法对图像模糊比较敏感,容易导致候选字符自检相互粘连。B.Epshtein等人在文献“Detecting text in natural scenes withstroke width transform.IEEE Conference onComputer Vision and PatternRecognition,2010”中提出了一种基于笔画边缘对称性的笔画宽度变换算法,该算法在边缘的基础上得到图像的笔画宽度图,然后将笔画宽度相近的像素点聚合来得到候选字符连通域。但是该方法依赖图像边缘检测,并且对字符“X”、“K”等存在笔画拐角的进行笔画宽度变换时,容易造成字符连通域存在空洞的问题,同时图像背景中的边缘点也会对字符连通域造成干扰。
发明内容
本发明的发明目的在于:针对笔画宽度变换算法对图像边缘检测效果的依赖性、字符连通域存在空洞以及图像背景边缘容易对字符连通域造成干扰的缺陷,本发明提出了一种基于梯度幅度约束的笔画宽度变换方法。本发明首先采用引导滤波器进行图像平滑,在滤除噪声过程可以有效保持图像边缘及梯度信息,通过增大角度同时结合梯度幅度值约束来避免字符连通域在拐角处存在的空洞。同时,结合图像颜色信息减少背景对字符连通域的干扰,该方法获得字符笔画宽度信息,直接得到图像中的文本二值图像。
本发明的基于梯度幅度约束的笔画宽度变换方法,包括下列步骤:
步骤1:对输入的自然场景图像进行灰度化后,采用引导滤波器对灰度图进行滤波,并对滤波后的图像进行边缘检测,得到边缘图像;
步骤2:计算边缘图像的边缘点的梯度幅度值的二值化阈值,将边缘点的梯度幅度值分为两类,即大于或等于二值化阈值的为一类,小于的为另一类;
步骤3:在边缘图像中查找有效边缘点对,并将有效边缘点对射线中的各像素点赋予有效边缘点对笔画宽度值(边缘点对中的两个边缘点之间的欧式距离),得到笔画宽度图,所述有效边缘点对笔画宽度值为;所述有效边缘点对包括两种情况下的边缘点对,即:
(1)边缘点间的梯度方向夹角小于θ1且属于同一类梯度幅度值的两个边缘点;
(2)边缘点间的梯度方向夹角小于θ2的两个边缘点;
其中,θ1的取值范围为[0 π/2]、θ2的取值范围为[0 π/6];
步骤4:基于笔画宽度图和自然场景图像,将笔画宽度值与颜色相近的像素点聚合成一个字符连通域,生成候选字符连通域。
由于采用了上述技术方案,本发明的有益效果是:利用引导滤波器保持图像梯度及边缘细节的特性,对灰度图进行预处理,同时边缘点对的约束条件能够在完整提取字符连通域的同时,有效减少边缘点对的无效连接。通过结合笔画宽度值及自然场景图像的颜色信息来生成字符连通域,减少了背景对字符连通域的干扰。有效地提取自然场景图像中的候选字符连通域,对后续进行文本字符检测有很好的启发性。
附图说明
图1是笔画宽度变换流程图;
图2是边缘点对寻找流程图;
图3是笔画宽度计算示意图;
图4是边缘检测图,4-a为直接对灰度图进行边缘检测得到的边缘检测图,4-b为采用引导滤波器后的边缘检测图;
图5是梯度幅度图的直方图;
图6是笔画宽度图,其中6-a为原始笔画宽度图,6-b为调整后的笔画宽度图;
图7是字符连通域图,其中7-a为原始笔画宽度变换得到的符连通域图,7-b为调整后的笔画宽度变换得到的符连通域图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
参见图1,本发明的实现包括输入自然场景图像,对输入图像进行预处理(灰度化、边缘检测),以及笔画宽度生成,最后基于笔画宽度图和自然场景图像,将笔画宽度值与颜色相近的像素点聚合成一个字符连通域,生成候选字符连通域,其具体实现过程为:
第一步,输入待处理的自然场景图像。
第二步,对输入图像的预处理过程,对自然场景图像进行灰度化,然后利用引导滤波器在进行图像平滑过程中可以保持图像梯度和边缘细节的特性,使用引导滤波器对灰度图进行图像平滑,得到平滑后的图像Ig。使用Canny算子对图像Ig进行边缘检测,得到边缘图像Ie。如图4所示,其中图4-a是灰度图的边缘检测图,图4-b是使用引导滤波器后的边缘检测图,可以看出,引导滤波器可以有效平滑图像噪声,同时保持字符边缘。
第三步,对边缘图像Ig中的像素点进行边缘点对寻找,即遍历图像Ig中的所有边缘像素点,寻找有效边缘点对,并将有效边缘点对的射线上的所有像素值赋予其笔画宽度值,笔画宽度值为构成有效边缘点对的两点间的欧氏距离。
参见图2,有效边缘点对的查找流程包括下列步骤:
301:遍历边缘图像Ig中的所有边缘像素点,判断是否存在尚未遍历的边缘像素点。若是,转入302;否则结束循环。
302:将当前边缘像素点标记为p,然后从p点开始沿着其梯度方向dp寻找边缘像素点q。
303:判断是否在其梯度方向上找到边缘像素点q。若是,转入304;否则转入301。
304:判断边缘点对p、q是否满足条件一:梯度方向夹角小于π/2且属于同一类梯度幅度值的两个边缘点,若是,则则转入306;否则转入305。
在查找有效边缘点对之前,需要先采用大津法计算边缘图像Ig的边缘点的梯度幅度值的自适应二值化阈值L将边缘点的梯度幅度值分为两类,如图5所示的梯度幅度图的直方图,即大于或等于二值化阈值L的为一类,小于的为另一类,通过设置不同的像素标签来区分所划分的两个类别,例如红色和绿色。
具体的,可以根据如下公式来判断当前边缘点对p、q是否满足条件一:
用dp、dq以及Gp、Gq分别表示边缘像素点p、q的梯度方向以及梯度幅度值,若且(Gp-L)×(Gq-L)≥0,则认为当前边缘点对p、q满足条件一。
305:判断边缘点对p、q是否满足条件二:梯度方向夹角小于π/6,即若是,转入306;否则转入301。
306:将当前边缘点对p、q标记为有效边缘点对,p、q之间的射线记录为有效射线。
上述步骤执行完,则得到边缘图像Ig中的所有有效射线,对有效射线上的所有像素点赋予笔画宽度值,笔画宽度值由射线起点p和终点q的欧氏距离表示,如图3所示,深色像素表示笔画像素,白色像素表示背景像素,将边缘点p和q确定的有效射线经过的像素点笔画宽度值设为p、q的欧氏距离,假设当前得到的欧式距离为5,即将图3中数字为5的像素点的像素值的笔画宽度值设置5。若像素点同时处于多条有效射线中,则该像素点的笔画宽度值是多条有效射线的最小值。
进一步的,还可以对每条有效射线中的笔画宽度值进行调整,从而减少了字符连通域的空洞。即将有效射线上所有笔画宽度值大于其笔画宽度中值的像素点,修改该像素点的笔画宽度值为笔画宽度中值。笔画宽度中值为该有效射线上所有笔画宽度值集合按数值大小排序后的中间值。经处理后得到的笔画宽度图如图6-b所示,其中图6-a未经调整处理的笔画宽度图,即原始笔画宽度图,可以看出,经调整处理后所生成的笔画宽度图减少了字符连通域的空洞。
第四步,生成候选字符连通域,将笔画宽度图中笔画宽度值及颜色相近的像素点聚合成字符连通域。其中相邻像素点的笔画宽度值的比值不大于3,且自然场景图像中的R、G、B色彩空间的欧氏距离小于T,本实施例中T设置为40。用公式可以表示为:其中swp、swq表示像素点p、q的笔画宽度值,rp和rq、gp和gq、bp和bq分别表示像素点p、q的R、G、B空间像素值。
最终,基于调整处理后所生成的笔画宽度图和自然场景图像得到的候选字符连通域如图7-a所示,基于原始笔画宽度图和自然场景图像得到的候选字符连通域如图7-b所示,可以看出,经调整处理后所生成的候选字符连通域,可以有效减少背景对字符区域的干扰。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (5)

1.一种基于梯度幅度约束的笔画宽度变换方法,其特征在于,包括下列步骤:
步骤1:对输入的自然场景图像进行灰度化后,采用引导滤波器对灰度图进行滤波,并对滤波后的图像进行边缘检测,得到边缘图像;
步骤2:计算边缘图像的边缘点的梯度幅度值的二值化阈值,将边缘点的梯度幅度值分为两类;
步骤3:在边缘图像中查找有效边缘点对,并将有效边缘点对的射线上的各像素点赋予有效边缘点对笔画宽度值,得到笔画宽度图;
查找有效边缘点对具体包括下列步骤:
步骤301:遍历边缘图像中的所有边缘像素点,判断是否存在尚未遍历的边缘像素点;若是,转入302;否则结束循环;
302:将当前边缘像素点标记为p,然后从p点开始沿着其梯度方向dp寻找边缘像素点q;
303:判断是否在其梯度方向上找到边缘像素点q,若是,转入304;否则转入301;
304:判断边缘点对p、q是否满足条件一,若是,则则转入306;否则转入305;
其中条件一为:且(Gp-L)×(Gq-L)≥0,dp、dq以及Gp、Gq分别表示边缘像素点p、q的梯度方向以及梯度幅度值,L表示边缘图像的边缘点的梯度幅度值的二值化阈值;
305:判断边缘点对p、q是否满足条件二,若是,转入306;否则转入301;
其中条件二为:
306:将当前边缘点对p、q标记为有效边缘点对,p、q之间的射线记录为有效射线;
所述有效边缘点对笔画宽度值为边缘点对中的两个边缘点之间的欧式距离;
步骤4:基于笔画宽度图和自然场景图像,将笔画宽度值与颜色相近的像素点聚合成一个字符连通域,生成候选字符连通域;
笔画宽度值与颜色相近的像素点具体为:笔画宽度值的比值小于或等于3,且自然场景图像的色彩空间的欧式距离小于或等于阈值T;
其中,色彩空间的欧式距离为:其中rp和rq、gp和gq、bp和bq分别表示像素点p、q的R、G、B空间像素值;且阈值T的取值范围为[30,50]。
2.如权利要求1所述的方法,其特征在于,步骤3中还包括对笔画宽度值进行调整:将有效边缘点对的射线上所有笔画宽度值大于其笔画宽度中值的像素点,修改该像素点的笔画宽度值为笔画宽度中值,其中笔画宽度中值为当前射线上所有笔画宽度值集合按数值大小排序后的中间值。
3.如权利要求1所述的方法,其特征在于,步骤2中,采用大津法计算边缘图像的边缘点的梯度幅度值的二值化阈值。
4.如权利要求1所述的方法,其特征在于,步骤1中,采用Canny算子进行边缘检测。
5.如权利要求1所述的方法,其特征在于,步骤4中,阈值T的取值为40。
CN201610802472.8A 2016-09-05 2016-09-05 一种基于梯度幅度约束的笔画宽度变换方法 Expired - Fee Related CN106446920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610802472.8A CN106446920B (zh) 2016-09-05 2016-09-05 一种基于梯度幅度约束的笔画宽度变换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610802472.8A CN106446920B (zh) 2016-09-05 2016-09-05 一种基于梯度幅度约束的笔画宽度变换方法

Publications (2)

Publication Number Publication Date
CN106446920A CN106446920A (zh) 2017-02-22
CN106446920B true CN106446920B (zh) 2019-10-01

Family

ID=58163816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610802472.8A Expired - Fee Related CN106446920B (zh) 2016-09-05 2016-09-05 一种基于梯度幅度约束的笔画宽度变换方法

Country Status (1)

Country Link
CN (1) CN106446920B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038481A (zh) * 2017-12-11 2018-05-15 江苏科技大学 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法
CN108664980A (zh) * 2018-05-14 2018-10-16 昆明理工大学 一种基于引导滤波和小波变换的太阳冕环结构识别方法
CN111709419A (zh) * 2020-06-10 2020-09-25 中国工商银行股份有限公司 一种纸币冠字号的定位方法、***、设备及可读存储介质
CN112487245A (zh) * 2020-12-04 2021-03-12 北京华录新媒信息技术有限公司 一种基于视频内容的分类聚合方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663383A (zh) * 2012-04-26 2012-09-12 北京科技大学 一种定位自然场景图像中文本的方法
CN103093228A (zh) * 2013-01-17 2013-05-08 上海交通大学 一种在自然场景图像中基于连通域的中文检测方法
CN103455816A (zh) * 2012-05-28 2013-12-18 阿里巴巴集团控股有限公司 一种笔画宽度提取方法、装置及一种文字识别方法、***
CN103942797A (zh) * 2014-04-24 2014-07-23 中国科学院信息工程研究所 基于直方图和超像素的场景图像文字检测方法及***
CN104751142A (zh) * 2015-04-01 2015-07-01 电子科技大学 一种基于笔划特征的自然场景文本检测算法
CN104834890A (zh) * 2015-02-13 2015-08-12 浙江大学 一种对书法作品中文字神采信息的提取方法
US9235759B2 (en) * 2008-05-19 2016-01-12 Microsoft Technology Licensing, Llc Detecting text using stroke width based text detection

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9076056B2 (en) * 2013-08-20 2015-07-07 Adobe Systems Incorporated Text detection in natural images

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9235759B2 (en) * 2008-05-19 2016-01-12 Microsoft Technology Licensing, Llc Detecting text using stroke width based text detection
CN102663383A (zh) * 2012-04-26 2012-09-12 北京科技大学 一种定位自然场景图像中文本的方法
CN103455816A (zh) * 2012-05-28 2013-12-18 阿里巴巴集团控股有限公司 一种笔画宽度提取方法、装置及一种文字识别方法、***
CN103093228A (zh) * 2013-01-17 2013-05-08 上海交通大学 一种在自然场景图像中基于连通域的中文检测方法
CN103942797A (zh) * 2014-04-24 2014-07-23 中国科学院信息工程研究所 基于直方图和超像素的场景图像文字检测方法及***
CN104834890A (zh) * 2015-02-13 2015-08-12 浙江大学 一种对书法作品中文字神采信息的提取方法
CN104751142A (zh) * 2015-04-01 2015-07-01 电子科技大学 一种基于笔划特征的自然场景文本检测算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于几何约束的笔划宽度变换(SWT)算法及其字幕文本定位应用;袁俊淼;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215(第2期);第2.1.1、3.1、3.2、4.3.1节 *
自然场景文本信息提取关键技术研究;刘晓佩;《中国博士学位论文全文数据库 信息科技辑》;20150515(第5期);第6.4.2节 *

Also Published As

Publication number Publication date
CN106446920A (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
CN104751142B (zh) 一种基于笔划特征的自然场景文本检测方法
Xiong et al. Degraded historical document image binarization using local features and support vector machine (SVM)
Shen et al. Improving OCR performance with background image elimination
CN106446920B (zh) 一种基于梯度幅度约束的笔画宽度变换方法
Roy et al. Fractional poisson enhancement model for text detection and recognition in video frames
Sun et al. A visual attention based approach to text extraction
Kumar et al. NESP: Nonlinear enhancement and selection of plane for optimal segmentation and recognition of scene word images
Kumar An efficient text extraction algorithm in complex images
Holtzman-Gazit et al. Salient edges: A multi scale approach
Grover et al. Text extraction from document images using edge information
Srivastav et al. Text detection in scene images using stroke width and nearest-neighbor constraints
Wang et al. A video text location method based on background classification
Ayoub et al. Visual saliency detection based on color frequency features under Bayesian framework
Chowdhury et al. Scene text detection using sparse stroke information and MLP
Wang et al. Character segmentation of color images from digital camera
Okyere et al. Traffic sign recognition using sparse representations and active contour models
Lai et al. Binarization by local k-means clustering for Korean text extraction
Mol et al. Text recognition using poisson filtering and edge enhanced maximally stable extremal regions
CN115578629A (zh) 一种公路护栏提取方法
Zhu Moving Objects Detection and Segmentation Based on Background Subtraction and Image Over-Segmentation.
Kumar An efficient approach for text extraction in images and video frames using gabor filter
Zhuge et al. Robust video text detection with morphological filtering enhanced MSER
Hidayat et al. Real-time Texture Boundary Detection from Ridges in the Standard Deviation Space.
Singh et al. An efficient hybrid scheme for key frame extraction and text localization in video
Shylaja et al. Feature extraction using marker based watershed segmentation on the human face

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20191001

CF01 Termination of patent right due to non-payment of annual fee