CN108038481A

CN108038481A - 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法

Info

Publication number: CN108038481A
Application number: CN201711310281.0A
Authority: CN
Inventors: 张再跃; 潘立; 刘亮亮; 刘嘎琼; 武子毅
Original assignee: Jiangsu University of Science and Technology; Marine Equipment and Technology Institute Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology; Marine Equipment and Technology Institute Jiangsu University of Science and Technology
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2018-05-15

Abstract

本发明涉及一种结合最大极值稳定区域和笔画宽度变化的文本方法，使用MSER对图像进行文本检测；然后对图像进行边缘化处理；并沿边缘像素点的梯度方向计算笔画宽度值；使用形态学操作去除噪点、填充间隙并计算获得连通域；最后根据规则过滤非文本域并合并连通域。本发明的优点在于：本发明通过MSER检测获取粗糙文本域，结合边缘化处理、笔画宽度变化特征及形态学操作，实现了在自然场景图像中进行文本定位，经实验证明，本发明准确率高，有利于之后文本分割和文本识别工作，在自然场景文本定位领域中具有十分明显的实用意义，可广泛推广使用。

Description

一种结合最大极值稳定区域和笔画宽度变化的文本定位方法

技术领域

本发明涉及人工智能计算机领域中的图像处理，特别涉及一种利用图像处理来实现自然场景中的文本定位方法。

背景技术

在进行自然场景文本定位的过程中，有一个基本的而且不可避免的问题：对有着复杂自然背景的图像来说，如何避免文本布局、字体类型、光照强度及拍摄角度等因素影响，准确获取文本位置。

文本定位在文本检测过程中是至关重要的，文本定位效果的好坏直接决定了之后文本分割以及文本识别的准确度。文本定位在自然场景中的应用越来越广泛，然而复杂的自然场景环境给这项技术带来了许多挑战。不同于传统的文本定位技术，自然场景中有着大量的干扰物，同时拍摄角度及字体等因素会使文本发生形变，使文本定位更加困难。因此，需要寻找文本特征，使文本定位过程不受这些因素的影响。

自然场景中文本定位的方法有很多，主要分为滑动窗口方法和连通域分析方法两类。滑动窗口方法利用一个移动的窗口对图像的所有位置进行文本检测，连通域分析方法通过选取图像特征来获取候选连通域，筛选合并后实现文本定位。

在自然场景文本定位中，常遇到几个难题需要解决：

1)文本特征提取是一个自然场景中文本定位的步骤，因此在提取文本特征前需要进行图像预处理，然后提取图像中所需的文本特征，并根据所提取的特征生成候选连通域。

2)如何来区分文本域和非文本域，自然场景中存在这大量与文本具有十分类似特征的干扰物，如植物、路标、栏杆等。因此在获得候选连通域以后，需要区分其中的非文本域并滤除。

3)自然场景中的文本形式多种多样，包含了不同的字体以及语言。因此如何使定位方法能够兼容各种语言及字体是需要解决的问题。

因此想要实现在自然场景中进行文本定位并获得较高的准确率，需要考虑如下有待解决的问题：

技术问题1：自然场景图像预处理后文本特征的提取。如何选择要提取的文本特征，使得定位方法可以有效的克服自然场景干扰因素以及多字体兼容问题；

技术问题2：候选连通域过滤问题。如何设计规则来生成候选连通域并过滤区分非文本域；

技术问题3：单字连通域合并问题。如何筛选单字连通域并合并成文本域；

针对上述难题和问题，本发明提出并且实现了结合最大极值稳定区域和笔画宽度变化特征的自然场景文本定位方法。

发明内容

本发明要解决的技术问题是提供一种结合最大极值稳定区域和笔画宽度变化的文本定位方法，以实现在自然场景图像中实现准确的文本定位。

为解决上述技术问题，本发明的技术方案为：一种结合最大极值稳定区域和笔画宽度变化的文本定位方法，其创新点在于：所述文本定位方法包括如下步骤：

(1)利用MSER进行对文本域进行检测：对原始图像进行灰度化，并用0-255的整数来表示图像中各像素点的灰度值；在图像灰度值范围内任取一阈值，灰度值小于阈值的像素点定义为黑色，大于阈值的像素点为白色，当阈值为0时，整个图像为白色，在阈值从0到255变化过程中，黑色区域稳定不变且区域梯度最小，则该区域为最大稳定极值区域；

(2)Canny算子边缘化处理图像：利用高斯滤波器平滑图像，对滤波后的图像计算其梯度幅度和梯度方向，对梯度幅度进行非极大值抑制，找出图像梯度中的局部极大值点，并将非局部最大值点置零，以此细化图像边缘，用双阈值算法检测和连接边缘；

(3)获取图像笔画宽度特征：对每一个边缘像素点，在垂直于边缘的梯度方向上定义一条射线，沿射线方向寻找对应的另一边缘像素点，在梯度方向上找到另一边缘像素点，且该点的梯度方向与原梯度方向近似相反，则这两个边缘像素点的距离被认为是笔画宽度；未找到对应像素点或对应像素点梯度方向不近似相反，则丢弃该射线，在更为复杂的笔画环境中，沿未舍弃的射线计算所有像素点的笔画宽度中值m，并将射线上所有笔画宽度值大于m的像素点笔画宽度中值都设为m；

(4)形态学运算处理图像：对图像使用开、闭运算，开运算先对图像进行腐蚀操作，去除图像的边缘毛刺，然后进行膨胀操作，填充图像细小缝隙和小孔，闭运算先进行膨胀操作，填补图像的断裂区域，轮廓缺口，然后进行腐蚀操作，平滑图像边缘；

(5)候选文本域生成：将文本像素点根据规则聚集成候选文本域，相邻像素点笔画宽度值在阈值范围内则归为同一连通域，计算连通域的宽高比及面积比，将超过阈值范围的连通域作为非文本域滤除；

(6)文本域合并：对单字文本域作进一步过滤，相邻单字文本域内笔画宽度均值比、高度比、及像素点颜色均值比超过阈值，将偏差较大的连通域作为噪声滤除，将剩余连通域聚集成连，形成连续文本域。

进一步地，所述利用MSER进行对文本域进行检测的步骤中，最大稳定极值区域是一种依赖于区域内部和边界像素关系，根据稳定性判定条件来获取最大稳定极值区域的算法；对于输入图像进行灰度化，在0-255的图像灰度值范围内任取一阈值，Q1，….，Qi，…是一系列嵌套极值区域，且满足q(i)＝|Q_i+Δ\Q_i-Δ|/|Q_i|在i^*有局部最小值，则Q_i*是最大极值稳定区域MSER。

进一步地，所述的Canny算子边缘检测是基于最优化思想的边缘检测算子，该算法采用合适的二维高斯函数分别按行和列对图像进行平滑去噪，计算图像梯度的幅度和方向，并通过对梯度幅度的最大值抑制，来找到图像梯度中的局部极大值点，置零非局部极大值点，使边缘得以细化，采用T₁、T₂双阈值算法检测，用T₁来获得每一条线段，用T₂来在线段两边寻找断裂处，并连接边缘；其中，所述二维高斯函数为：

I(x,y)＝G(x,y)*f(x,y)；

所述梯度幅度和梯度方向的计算公式为：

θ(x，y)＝arctan(g_y/g_x)；其中σ是高斯曲线的标准差，(g_x,g_y)表示梯度。

进一步地，所述笔画宽度计算的步骤中，所述笔画宽度值为d_swt；所述笔画宽度值的计算步骤包括：将每个边缘像素点p的梯度方向称为d_p，梯度方向d_p垂直于边缘方向，定义一条射线r＝p+n·d_p，n>0，沿射线方向找另一个边缘像素点q，若q的梯度方向d_q与d_p近似相反(d_q＝-d_q+π/6)，则该像素点笔画宽度值d_swt为:其中x_p、y_p分别是像素点p的横、纵坐标，x_q、y_q分别是像素点q的横、纵坐标；在更为复杂的笔画环境中，上述计算流程获得的笔画宽度值并不准确，沿未舍弃的射线计算所有像素点的笔画宽度中值m，并将射线上所有笔画宽度值大于m的像素点笔画宽度中值都设为m。

进一步地，所述利用形态学运算处理图像的步骤中，主要包括了开、闭运算，开运算先对图像进行腐蚀操作，去除图像的边缘毛刺，然后进行膨胀操作，填充图像细小缝隙和小孔，闭运算先进行膨胀操作，填补图像的断裂区域，轮廓缺口，然后进行腐蚀操作，平滑图像边缘；所述的开运算记为定义为：所述的闭运算记为A·B，定义为：其中A为图像，B为结构元素。

进一步地，所述候选文本域生成的步骤中，主要通过计算连通域属性并设置规则和阈值来滤除非文本域，所包括的规则有：笔画宽度方差、宽高比、面积比；所述笔画宽度方差用来判断像素点是否属于同一连通域，若笔画宽度值相似，则将这像素点归为同一连通域。笔画宽度值均值μ_swt与方差σ_swt ²的计算公式为：其中N是连通域内像素点总数，是第i个像素点的笔画宽度值；所述宽高比用来滤除因噪声干扰而产生的细小狭长的连通域，连通域宽高比r＝d_height/d_width，宽高比阈值为2；所述面积比用来过滤面积过大或过小的连通域，连通域面积比阈值为2。

进一步地，所述文本域合并的步骤中，对单字候选域作进一步筛选，并将剩余单字连通域聚集成链，形成连续的文本域，单字连通域的筛选条件有笔画宽度比、高度比、颜色均值差；所述笔画宽度比用来判断相邻单字文本域是否属于同一文本域，相邻单字文本域笔画宽度比阈值为2；所述高度比用来判断相邻单字文本域是否属于同一水平方向文本域，相邻单字文本域高度比阈值为2；所述颜色均值用来判断相邻单字文本域是否属于同一文本域，相邻单字文本域颜色均值差阈值为40。

本发明的优点在于：本发明利用最大极值稳定区域的仿射不变性对图像进行MSER文本检测获取多个候选文本域；在此基础上通过Canny算子对图像进行边缘化处理；针对所有边缘像素点提取笔画宽度特征获得连通域；再对非文本域做进一步过滤，合并单字文本域，实现了自然场景中文本定位，经实验证明，本发明准确率高，可广泛推广使用。如结合之后的文本分割及文本识别，可以很好的实现在自然场景中进行文本检测的目的，在图像处理领域中具有十分明显的实用意义。

本发明采用ICDAR2003文本定位竞赛数据集测试数据进行实验，实验结果表明：本发明提供的结合最大极值稳定区域和笔画宽度特征的方法能有效的在自然场景中进行文本定位。统计分析后得知，本发明提供的结合最大极值稳定区域和笔画宽度特征的自然场景文本定位方法，其定位的准确率达74.1％。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明结合最大极值稳定区域和笔画宽度变化的文本定位方法的流程图。

具体实施方式

下面的实施例可以使本专业的技术人员更全面地理解本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例

如图1所示，本实施例提供的结合最大极值稳定区域和笔画宽度特征的文本定位方法，包括以下步骤：

1.利用MSER对输入图像进行文本检测的步骤，包括：

笔画宽度特征的提取依赖于图像的边缘特征效果，本发明结合MSER对图像进行文本检测，获取粗略的文本位置，提高了之后图像边缘化以及笔画宽度特征提取的准确度。

所述最大稳定极值区域是一种依赖区域内部和边界像素关系的算法，对灰度图像I：其最大稳定极值区域的定义为：S是全序的，S＝(0,1,…，255}，且满足反对称性、传递性、完全性；定义4邻域的邻域关系当p，q∈D，如果满足p，q是邻接的，记作pAq；区域Q是D的一个连续子集，对于任意p，q∈Q，存在一个序列p，a₁，a₂，...，a_n，q，使得pAa₁，…，a_iAa_i+1，…，a_nAq；区域的边界区域Q的边缘是一像素集合，至少有一个像素与区域Q邻接但不属于区域Q；极值区域是一个区域，对于所有p∈Q，如果I(p)＞I(q)，则区域Q是极大区域，反之为极小区域；设Q₁，…，Q_i-1，Q_i，…是一系列嵌套极值区域，有如果满足q(i)＝|Q_i+Δ\Q_i-Δ|/|Q_i|在i^*有局部最小值，则Q_i*是最大极值稳定区域MSER。

2.Canny算子边缘化处理图像的步骤，包括：

采用合适的二维高斯函数分别按行和列对图像进行平滑去噪，计算图像梯度的幅度和方向；

所述二维高斯函数为：

I(x,y)＝G(x,y)*f(x,y) (2)；

所述梯度幅度和梯度方向的计算公式为：

θ(x，y)＝arctan(g_y/g_x) (4)；

其中σ是高斯曲线的标准差，(g_x,g_y)表示梯度；

对梯度图像进行非极大值抑制处理，沿梯度方向比较每一个像素的8邻域的梯度幅度。若在梯度方向上的两个像素的幅度值均小于该像素点自身的幅度值，那么该像素点可能是边缘像素点，否则将该像素点的梯度幅度设为0。根据梯度直方图计算得到低阈值t₁和高阈值t₂，并对图像按t₁、t₂进行两次阈值处理，若梯度小于阈值，则将其灰度值设为0。

3.笔画宽度特征的提取步骤，包括：

将每个元素的初始笔画宽度值设为无穷大，在用Canny算子获取到边缘信息以后，将每个边缘像素点p的梯度方向称为d_p，由于边缘像素点p是在边缘上的，因此梯度方向d_p一定垂直于边缘方向；定义一条射线r＝p+n·dp，n>0，沿着这条射线方向找另一个边缘像素点q，如果q的梯度方向d_q与d_p方向近似相反(d_q＝-d_p+π/6)，则该像素点笔画宽度值d_swt为：

如果没有找到对应的边缘像素点q或者边缘像素点q的梯度方向d_q和d_p不相反，则将该射线r丢弃；

然而在如笔画拐角这样更为复杂的笔画环境中，根据上述的计算流程得到的笔画宽度值并不准确，因此需再次沿所有未被舍弃的射线，计算其所有像素点的笔画宽度中值m，将射线上所有大于m的像素点的笔画宽度中值都设置为m。

4.形态学运算处理图像的步骤，包括：

开运算操作可以使图像边缘更加平滑，去掉边缘上的一些参差的毛刺，去除狭窄的区域。闭运算操作相反，它能去除区域中的噪声，填充狭窄断裂的部分以及边缘的缺口，设整数空间Z中有图像A和集合B，将B对A的开运算记为定义为：

相应的将结构元素B对图像A的闭运算记为A·B，定义为：

其中A为图像，B为结构元素。

5.候选文本域生成的步骤，包括：

候选文本域生成的步骤中，主要通过计算连通域属性并设置规则和阈值来滤除非文本域，所包括的规则有：笔画宽度方差、宽高比、面积比；

所述笔画宽度方差用来判断像素点是否属于同一连通域，若笔画宽度值相似，则将这像素点归为同一连通域，笔画宽度值均值μ_swt与方差σ_swt ²的计算公式为：

其中N是连通域内像素点总数，是第i个像素点的笔画宽度值；

所述宽高比用来滤除因噪声干扰而产生的细小狭长的连通域，连通域宽高比r＝d_height/d_width，宽高比阈值为2；

所述面积比用来过滤面积过大或过小的连通域，连通域面积比阈值为2。

6.文本域合并的步骤，包括：

对单字候选域作进一步筛选，并将剩余单字连通域聚集成链，形成连续的文本域，单字连通域的筛选条件有笔画宽度比、高度比、颜色均值差；

所述笔画宽度比用来判断相邻单字文本域是否属于同一文本域，相邻单字文本域笔画宽度比阈值为2；

所述高度比用来判断相邻单字文本域是否属于同一水平方向文本域，相邻单字文本域高度比阈值为2；

所述颜色均值用来判断相邻单字文本域是否属于同一文本域，相邻单字文本域颜色均值差阈值为40。

实验：利用本发明采用ICDAR2003文本定位竞赛数据集测试数据进行实验。实验结果表明：本发明提供的结合最大极值稳定区域和笔画宽度特征的方法能有效的在自然场景中进行文本定位。统计分析后得知，本发明提供的结合最大极值稳定区域和笔画宽度特征的自然场景文本定位方法，其定位的准确率达74.1％。从实验结果可见，本发明能有效的在自然场景中实现文本定位，准确率高，具有非常广泛的使用价值。

以上显示和描述了本发明的基本原理和主要特征以及本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种结合最大极值稳定区域和笔画宽度变化的文本定位方法，其特征在于：所述文本定位方法包括如下步骤：

2.根据权利要求1所述的结合最大极值稳定区域和笔画宽度变化的文本定位方法，其特征在于：所述利用MSER进行对文本域进行检测的步骤中，最大稳定极值区域是一种依赖于区域内部和边界像素关系，根据稳定性判定条件来获取最大稳定极值区域的算法；对于输入图像进行灰度化，在0-255的图像灰度值范围内任取一阈值，Q1，….，Qi，…是一系列嵌套极值区域，且满足q(i)＝|Q_i+Δ\Q_i-Δ|/|Q_i|在i^*有局部最小值，则Q_i*是最大极值稳定区域MSER。

3.根据权利要求1所述的结合最大极值稳定区域和笔画宽度变化的文本定位方法，其特征在于：所述的Canny算子边缘检测是基于最优化思想的边缘检测算子，该算法采用合适的二维高斯函数分别按行和列对图像进行平滑去噪，计算图像梯度的幅度和方向，并通过对梯度幅度的最大值抑制，来找到图像梯度中的局部极大值点，置零非局部极大值点，使边缘得以细化，采用T₁、T₂双阈值算法检测，用T₁来获得每一条线段，用T₂来在线段两边寻找断裂处，并连接边缘；其中，所述二维高斯函数为：

<mrow> <mi>G</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <msup> <mi>&pi;&sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <mrow> <msup> <mi>x</mi> <mn>2</mn> </msup> <mo>+</mo> <msup> <mi>y</mi> <mn>2</mn> </msup> </mrow> <mrow> <mn>2</mn> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

I(x,y)＝G(x,y)*f(x,y)；

所述梯度幅度和梯度方向的计算公式为：

4.根据权利要求1所述的结合最大极值稳定区域和笔画宽度变化的文本定位方法，其特征在于：所述笔画宽度计算的步骤中，所述笔画宽度值为d_swt；所述笔画宽度值的计算步骤包括：将每个边缘像素点p的梯度方向称为d_p，梯度方向d_p垂直于边缘方向，定义一条射线r＝p+n·d_p，n>0，沿射线方向找另一个边缘像素点q，若q的梯度方向d_q与d_p近似相反(d_q＝-d_p+π/6)，则该像素点笔画宽度值d_swt为：其中x_p、y_p分别是像素点p的横、纵坐标，x_q、y_q分别是像素点q的横、纵坐标；在更为复杂的笔画环境中，上述计算流程获得的笔画宽度值并不准确，沿未舍弃的射线计算所有像素点的笔画宽度中值m，并将射线上所有笔画宽度值大于m的像素点笔画宽度中值都设为m。

5.根据权利要求1所述的结合最大极值稳定区域和笔画宽度变化的文本定位方法，其特征在于：所述利用形态学运算处理图像的步骤中，主要包括了开、闭运算，开运算先对图像进行腐蚀操作，去除图像的边缘毛刺，然后进行膨胀操作，填充图像细小缝隙和小孔，闭运算先进行膨胀操作，填补图像的断裂区域，轮廓缺口，然后进行腐蚀操作，平滑图像边缘；所述的开运算记为定义为：所述的闭运算记为A·B，定义为：其中A为图像，B为结构元素。

6.根据权利要求1所述的结合最大极值稳定区域和笔画宽度变化的文本定位方法，其特征在于：所述候选文本域生成的步骤中，主要通过计算连通域属性并设置规则和阈值来滤除非文本域，所包括的规则有：笔画宽度方差、宽高比、面积比；所述笔画宽度方差用来判断像素点是否属于同一连通域，若笔画宽度值相似，则将这像素点归为同一连通域。笔画宽度值均值μ_swt与方差σ_swt ²的计算公式为：其中N是连通域内像素点总数，是第i个像素点的笔画宽度值；所述宽高比用来滤除因噪声干扰而产生的细小狭长的连通域，连通域宽高比r＝d_height/d_width，宽高比阈值为2；所述面积比用来过滤面积过大或过小的连通域，连通域面积比阈值为2。

7.根据权利要求1所述的结合最大极值稳定区域和笔画宽度变化的文本定位方法，其特征在于：所述文本域合并的步骤中，对单字候选域作进一步筛选，并将剩余单字连通域聚集成链，形成连续的文本域，单字连通域的筛选条件有笔画宽度比、高度比、颜色均值差；所述笔画宽度比用来判断相邻单字文本域是否属于同一文本域，相邻单字文本域笔画宽度比阈值为2；所述高度比用来判断相邻单字文本域是否属于同一水平方向文本域，相邻单字文本域高度比阈值为2；所述颜色均值用来判断相邻单字文本域是否属于同一文本域，相邻单字文本域颜色均值差阈值为40。