CN106446920B

CN106446920B - 一种基于梯度幅度约束的笔画宽度变换方法

Info

Publication number: CN106446920B
Application number: CN201610802472.8A
Authority: CN
Inventors: 徐进; 傅志中; 赵宇; 周宁; 李晓峰
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-09-05
Filing date: 2016-09-05
Publication date: 2019-10-01
Anticipated expiration: 2036-09-05
Also published as: CN106446920A

Abstract

本发明公开了一种基于梯度幅度约束的字符笔画宽度变换算法，包括：使用引导滤波器对灰度图进行处理，保持图像梯度及边缘特性，使用梯度幅度约束条件减少边缘点无效连接，结合字符颜色信息生成字符连通域。这种笔画宽度变换算法能够更为完整地提取字符连通区域，同时结合字符颜色信息进行连通域的生成，可以有效减少背景对字符区域的干扰。

Description

一种基于梯度幅度约束的笔画宽度变换方法

技术领域

本发明属于模式识别技术领域，具体地说，是一种基于梯度幅度约束的笔画宽度变换方法。

背景技术

自然场景图像中的文本检测的目的是通过检测定位图像中的文本，分析其中的语义信息。自然场景图像中常常包含着大量用于表达图像内容的文本字符，比如建筑物LOGO、警示牌、产品说明书等，这些图像中的语义信息跟图像内容息息相关。因此，有效可靠地检测出自然场景中的文本信息，对场景图像的内容分析、检索等是必不可少的，并且未来可以广泛应用于盲人导航和机器人等重要场景，势必极大地便利人们的生活。而字符候选区域提取作为文本检测的前提，如何准确有效地提取出字符候选区域，对文本检测算法的有效性至关重要。

现有的自然场景文本检测技术主要分为3类：基于边缘的方法、基于纹理的方法、基于连通域的方法。基于边缘的方法虚警较高，如何有效地去除虚警至关重要。Y.Cui等人在文献“An edge-based approach for sign text extraction.Image Technology,2006”中使用Roberts算子计算边缘，它采用自适应阈值进行二值化处理，然后利用腐蚀操作去除非线性的影响并增强线型特征。该方法在背景比较复杂时存在较多虚警。基于纹理的方法利用字符和背景明显不同的结构特征，通过纹理分析方法将图像变换到频域，然后在特定区域进行文本分析，如文献“Text feature extraction of natural scenes using Gaborwavelet transformation based on scale overlapping.6th International ForumonStrategic Technology,2011”所描述。基于连通域的方法相对于基于边缘和纹理的方法来说，能够快速获取文本的二值图像，方便送入后续OCR模块进行字符识别，避免了基于边缘和纹理的方法需要进行图像分割的过程。L.Neumann等人在文献“A method for textlocalization and recognition in real-world images.ACCV，2010”中使用最大稳定极值区域(MSER)来检测候选字符区域，MSER区域检测算法对图像模糊比较敏感，容易导致候选字符自检相互粘连。B.Epshtein等人在文献“Detecting text in natural scenes withstroke width transform.IEEE Conference onComputer Vision and PatternRecognition,2010”中提出了一种基于笔画边缘对称性的笔画宽度变换算法，该算法在边缘的基础上得到图像的笔画宽度图，然后将笔画宽度相近的像素点聚合来得到候选字符连通域。但是该方法依赖图像边缘检测，并且对字符“X”、“K”等存在笔画拐角的进行笔画宽度变换时，容易造成字符连通域存在空洞的问题，同时图像背景中的边缘点也会对字符连通域造成干扰。

发明内容

本发明的发明目的在于：针对笔画宽度变换算法对图像边缘检测效果的依赖性、字符连通域存在空洞以及图像背景边缘容易对字符连通域造成干扰的缺陷，本发明提出了一种基于梯度幅度约束的笔画宽度变换方法。本发明首先采用引导滤波器进行图像平滑，在滤除噪声过程可以有效保持图像边缘及梯度信息，通过增大角度同时结合梯度幅度值约束来避免字符连通域在拐角处存在的空洞。同时，结合图像颜色信息减少背景对字符连通域的干扰，该方法获得字符笔画宽度信息，直接得到图像中的文本二值图像。

本发明的基于梯度幅度约束的笔画宽度变换方法，包括下列步骤：

步骤1：对输入的自然场景图像进行灰度化后，采用引导滤波器对灰度图进行滤波，并对滤波后的图像进行边缘检测，得到边缘图像；

步骤2：计算边缘图像的边缘点的梯度幅度值的二值化阈值，将边缘点的梯度幅度值分为两类，即大于或等于二值化阈值的为一类，小于的为另一类；

步骤3：在边缘图像中查找有效边缘点对，并将有效边缘点对射线中的各像素点赋予有效边缘点对笔画宽度值(边缘点对中的两个边缘点之间的欧式距离)，得到笔画宽度图，所述有效边缘点对笔画宽度值为；所述有效边缘点对包括两种情况下的边缘点对，即：

(1)边缘点间的梯度方向夹角小于θ1且属于同一类梯度幅度值的两个边缘点；

(2)边缘点间的梯度方向夹角小于θ2的两个边缘点；

其中，θ1的取值范围为[0 π/2]、θ2的取值范围为[0 π/6]；

步骤4：基于笔画宽度图和自然场景图像，将笔画宽度值与颜色相近的像素点聚合成一个字符连通域，生成候选字符连通域。

由于采用了上述技术方案，本发明的有益效果是：利用引导滤波器保持图像梯度及边缘细节的特性，对灰度图进行预处理，同时边缘点对的约束条件能够在完整提取字符连通域的同时，有效减少边缘点对的无效连接。通过结合笔画宽度值及自然场景图像的颜色信息来生成字符连通域，减少了背景对字符连通域的干扰。有效地提取自然场景图像中的候选字符连通域，对后续进行文本字符检测有很好的启发性。

附图说明

图1是笔画宽度变换流程图；

图2是边缘点对寻找流程图；

图3是笔画宽度计算示意图；

图4是边缘检测图，4-a为直接对灰度图进行边缘检测得到的边缘检测图，4-b为采用引导滤波器后的边缘检测图；

图5是梯度幅度图的直方图；

图6是笔画宽度图，其中6-a为原始笔画宽度图，6-b为调整后的笔画宽度图；

图7是字符连通域图，其中7-a为原始笔画宽度变换得到的符连通域图，7-b为调整后的笔画宽度变换得到的符连通域图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

参见图1，本发明的实现包括输入自然场景图像，对输入图像进行预处理(灰度化、边缘检测)，以及笔画宽度生成，最后基于笔画宽度图和自然场景图像，将笔画宽度值与颜色相近的像素点聚合成一个字符连通域，生成候选字符连通域，其具体实现过程为：

第一步，输入待处理的自然场景图像。

第二步，对输入图像的预处理过程，对自然场景图像进行灰度化，然后利用引导滤波器在进行图像平滑过程中可以保持图像梯度和边缘细节的特性，使用引导滤波器对灰度图进行图像平滑，得到平滑后的图像I_g。使用Canny算子对图像I_g进行边缘检测，得到边缘图像I_e。如图4所示，其中图4-a是灰度图的边缘检测图，图4-b是使用引导滤波器后的边缘检测图，可以看出，引导滤波器可以有效平滑图像噪声，同时保持字符边缘。

第三步，对边缘图像I_g中的像素点进行边缘点对寻找，即遍历图像I_g中的所有边缘像素点，寻找有效边缘点对，并将有效边缘点对的射线上的所有像素值赋予其笔画宽度值，笔画宽度值为构成有效边缘点对的两点间的欧氏距离。

参见图2，有效边缘点对的查找流程包括下列步骤：

301：遍历边缘图像I_g中的所有边缘像素点，判断是否存在尚未遍历的边缘像素点。若是，转入302；否则结束循环。

302：将当前边缘像素点标记为p，然后从p点开始沿着其梯度方向d_p寻找边缘像素点q。

303：判断是否在其梯度方向上找到边缘像素点q。若是，转入304；否则转入301。

304：判断边缘点对p、q是否满足条件一：梯度方向夹角小于π/2且属于同一类梯度幅度值的两个边缘点，若是，则则转入306；否则转入305。

在查找有效边缘点对之前，需要先采用大津法计算边缘图像I_g的边缘点的梯度幅度值的自适应二值化阈值L将边缘点的梯度幅度值分为两类，如图5所示的梯度幅度图的直方图，即大于或等于二值化阈值L的为一类，小于的为另一类，通过设置不同的像素标签来区分所划分的两个类别，例如红色和绿色。

具体的，可以根据如下公式来判断当前边缘点对p、q是否满足条件一：

用d_p、d_q以及G_p、G_q分别表示边缘像素点p、q的梯度方向以及梯度幅度值，若且(G_p-L)×(G_q-L)≥0，则认为当前边缘点对p、q满足条件一。

305：判断边缘点对p、q是否满足条件二：梯度方向夹角小于π/6，即若是，转入306；否则转入301。

306：将当前边缘点对p、q标记为有效边缘点对，p、q之间的射线记录为有效射线。

上述步骤执行完，则得到边缘图像I_g中的所有有效射线，对有效射线上的所有像素点赋予笔画宽度值，笔画宽度值由射线起点p和终点q的欧氏距离表示，如图3所示，深色像素表示笔画像素，白色像素表示背景像素，将边缘点p和q确定的有效射线经过的像素点笔画宽度值设为p、q的欧氏距离，假设当前得到的欧式距离为5，即将图3中数字为5的像素点的像素值的笔画宽度值设置5。若像素点同时处于多条有效射线中，则该像素点的笔画宽度值是多条有效射线的最小值。

进一步的，还可以对每条有效射线中的笔画宽度值进行调整，从而减少了字符连通域的空洞。即将有效射线上所有笔画宽度值大于其笔画宽度中值的像素点，修改该像素点的笔画宽度值为笔画宽度中值。笔画宽度中值为该有效射线上所有笔画宽度值集合按数值大小排序后的中间值。经处理后得到的笔画宽度图如图6-b所示，其中图6-a未经调整处理的笔画宽度图，即原始笔画宽度图，可以看出，经调整处理后所生成的笔画宽度图减少了字符连通域的空洞。

第四步，生成候选字符连通域，将笔画宽度图中笔画宽度值及颜色相近的像素点聚合成字符连通域。其中相邻像素点的笔画宽度值的比值不大于3，且自然场景图像中的R、G、B色彩空间的欧氏距离小于T，本实施例中T设置为40。用公式可以表示为：且其中sw_p、sw_q表示像素点p、q的笔画宽度值，r_p和r_q、g_p和g_q、b_p和b_q分别表示像素点p、q的R、G、B空间像素值。

最终，基于调整处理后所生成的笔画宽度图和自然场景图像得到的候选字符连通域如图7-a所示，基于原始笔画宽度图和自然场景图像得到的候选字符连通域如图7-b所示，可以看出，经调整处理后所生成的候选字符连通域，可以有效减少背景对字符区域的干扰。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于梯度幅度约束的笔画宽度变换方法，其特征在于，包括下列步骤：

步骤2：计算边缘图像的边缘点的梯度幅度值的二值化阈值，将边缘点的梯度幅度值分为两类；

步骤3：在边缘图像中查找有效边缘点对，并将有效边缘点对的射线上的各像素点赋予有效边缘点对笔画宽度值，得到笔画宽度图；

查找有效边缘点对具体包括下列步骤：

步骤301：遍历边缘图像中的所有边缘像素点，判断是否存在尚未遍历的边缘像素点；若是，转入302；否则结束循环；

302：将当前边缘像素点标记为p，然后从p点开始沿着其梯度方向d_p寻找边缘像素点q；

303：判断是否在其梯度方向上找到边缘像素点q，若是，转入304；否则转入301；

304：判断边缘点对p、q是否满足条件一，若是，则则转入306；否则转入305；

其中条件一为：且(G_p-L)×(G_q-L)≥0，d_p、d_q以及G_p、G_q分别表示边缘像素点p、q的梯度方向以及梯度幅度值，L表示边缘图像的边缘点的梯度幅度值的二值化阈值；

305：判断边缘点对p、q是否满足条件二，若是，转入306；否则转入301；

其中条件二为：

306：将当前边缘点对p、q标记为有效边缘点对，p、q之间的射线记录为有效射线；

所述有效边缘点对笔画宽度值为边缘点对中的两个边缘点之间的欧式距离；

步骤4：基于笔画宽度图和自然场景图像，将笔画宽度值与颜色相近的像素点聚合成一个字符连通域，生成候选字符连通域；

笔画宽度值与颜色相近的像素点具体为：笔画宽度值的比值小于或等于3，且自然场景图像的色彩空间的欧式距离小于或等于阈值T；

其中，色彩空间的欧式距离为：其中r_p和r_q、g_p和g_q、b_p和b_q分别表示像素点p、q的R、G、B空间像素值；且阈值T的取值范围为[30，50]。

2.如权利要求1所述的方法，其特征在于，步骤3中还包括对笔画宽度值进行调整：将有效边缘点对的射线上所有笔画宽度值大于其笔画宽度中值的像素点，修改该像素点的笔画宽度值为笔画宽度中值，其中笔画宽度中值为当前射线上所有笔画宽度值集合按数值大小排序后的中间值。

3.如权利要求1所述的方法，其特征在于，步骤2中，采用大津法计算边缘图像的边缘点的梯度幅度值的二值化阈值。

4.如权利要求1所述的方法，其特征在于，步骤1中，采用Canny算子进行边缘检测。

5.如权利要求1所述的方法，其特征在于，步骤4中，阈值T的取值为40。