CN105160300B

CN105160300B - 一种基于水平集分割的文本抽取方法

Info

Publication number: CN105160300B
Application number: CN201510474071.XA
Authority: CN
Inventors: 吕英俊; 李敏花; 柏猛; 吕雪菲
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2015-08-05
Filing date: 2015-08-05
Publication date: 2018-08-21
Anticipated expiration: 2035-08-05
Also published as: CN105160300A

Abstract

本发明公开了一种基于水平集分割的文本抽取方法，包括：读取图像数据信息，确定边界曲线；对读取的图像进行灰度化；抽取灰度特征值；根据灰度特征值采用水平集函数将图像分为两个区域；对分割出的两个区域进行二值化；对二值化后的两个区域分别进行连通元标定；对两个区域中标定的连通元进行滤波；对滤波后的区域进行极性判定，判断出文本像素区域和背景像素区域；对文本区域进行滤波，滤除背景噪声；输出文本抽取结果。本发明不仅能够抽取复杂背景中的文本信息，而且对含空心字的图像文本抽取也十分准确，具有一定的通用性和实用性。

Description

一种基于水平集分割的文本抽取方法

技术领域

本发明涉及图像处理领域中的文本抽取方法，尤其涉及一种基于水平集分割的文本抽取方法。

背景技术

随着网络和计算机技术的发展，越来越多的信息以图像或视频等多媒体的形式出现。图像或视频中含有丰富的文本信息，这些文本信息对图像或视频起着说明和诠释的作用。提取和识别这些文本信息对图像理解、视频内容分析、智能交通、机器视觉、智能控制等方面有着重要的意义。然而，由于文本信息通常处于复杂背景中，通用的OCR***很难识别出文本信息。因而文本检测出来在提交给OCR***之前还需要一个去除背景的过程即文本抽取过程。因此，如何从复杂背景图像中抽取文本信息，成为以文本信息为线索来理解图像内容的一个关键任务。

现有的图像文本抽取技术主要分为基于阈值的方法、基于聚类的方法和基于统计模型的方法。基于阈值的方法主要利用文本和背景颜色的分割，设定阈值将文本和背景分离。阈值的选取有全局阀值和局部阀值两种。该种方法抽取的效果取决于阀值对图像背景和文本的区分度，一般适用于图像背景比较单一的情况。基于聚类的方法一般利用颜色信息将文本块图像分为K类，然后根据某一聚类算法和设定的阀值将符合规则的类聚合，逐步的减少颜色的分类数。文本像素最后对应其中的一类，其余各类均为背景。这类方法但当背景中含有与文本颜色相同或相近的成分时，这些成分会被误分入文本类，从而产生大量的残余背景，影响OCR识别。基于统计模型的方法对文本块中的所有像素建立概率模型，然后设定合理的概率模型中的参数，然后根据最大似然法则确定每个像素是否属于文本像素。概率模型方法中模型参数一般需要统计学习得到，需要大量的学习样本。

上述各种文本抽取方法，只利用了图像底层局部的灰度或彩色信息，对复杂背景图像中的文本或空心字进行抽取时，往往存在残余背景，文本抽取效果不好。

发明内容

本发明的目的就是为了解决上述问题，提供一种基于水平集分割的文本抽取方法。首先采用水平集函数把图像分为两个区域，然后对两个域进行极性判断，判断出文本区域和背景区域，最后对文本区域滤波，去除背景噪声。该方法利用了图像的全图信息，不仅能够抽取复杂背景中的文本信息，而且对空心字图像的抽取效果也十分理想。具有一定的通用性和实用性。

为了实现上述目的，本发明采用如下技术方案：

一种基于水平集分割的文本抽取方法，包括：

读取图像数据信息，确定边界曲线；对读取的图像进行灰度化；抽取灰度特征值；根据灰度特征值采用水平集函数将图像分为边界曲线内区域和边界曲线外区域；对分割出的两个区域进行二值化；对二值化的两个区域分别进行连通元标定；对两个区域中标定的连通元进行滤波；对滤波后的区域进行极性判定，判断出文本像素区域和背景像素区域；对文本区域进行滤波，滤除背景噪声；输出文本抽取结果。

具体步骤包括：

步骤(1)：给定图像u₀(x,y),(x,y)∈Ω,Ω为图像区域，ω为Ω的开子集，C为ω的边界曲线，读取图像信息；

步骤(2)：对读取的图像灰度化；

步骤(3)：抽取图像的灰度特征值；

步骤(4)：采用水平集函数图像分割成边界曲线内区域和边界曲线外区域；

步骤(5)：判断分割是否完成，如果完成则进入步骤(6)，否则，返回步骤(4)；

步骤(6)：对分割的两个区域进行二值化，即曲线内区域用黑色像素表示，曲线外区域用白色像素表示；

步骤(7)：对二值化后的两个区域分别采用区域增长法进行连通元标定；

步骤(8)：判断连通元标定是否完成，如果完成进入步骤(9)，否则，返回步骤(7)；

步骤(9)：对两个区域中的连通元进行滤波；

步骤(10)：判断两个区域连通元滤波是否完成，如果完成进入步骤(11)，否则，返回步骤(9)；

步骤(11)：对滤波后的两个区域进行极性判定，以判断两个区域中哪个区域为文本区域；通过比较两个区域中连通元的数目，取连通元数目多的区域为文本区域，取连通元数目少的区域为背景区域；

步骤(12)：对确定的文本区域，进一步滤波去除残余背景；

步骤(13)：输出文本抽取结果。

所述步骤(4)中，水平集分割的能量函数为：

其中，μ,v,λ₁,λ₂均是正常数，c₁,c₂分别是图像u₀(x,y)中曲线边界C内部与外部的灰度平

均值，H(z)和δ(z)分别表示正则化的Heaviside函数H(z)和Dirac函数δ(z)；其中，

所述步骤(4)中的具体方法为：

步骤(4-1)：将边界曲线曲线C用水平集函数代替，如果点(x,y)在曲线C内部，则如果点(x,y)在曲线C外部，则如果点(x,y)在曲线C上，则

步骤(4-2)：初始化水平集函数，令k＝0；为常数值；

步骤(4-3)：最小化水平集的能量函数固定为第K次迭代的值，计算c₁ ^k和c₂ ^k的值；

步骤(4-4)：最小化水平集的能量函数固定c₁ ^k和c₂ ^k，计算其中表示第k次迭代时的值；

步骤(4-5)：判断的解是否趋于稳定，如果不是趋于稳定，则另k＝k+1，返回步骤(4-3)，继续迭代运算，否则停止迭代进入步骤(4-6)；

步骤(4-6)：输出水平集函数分割结果。

所述步骤(4-3)第k次迭代时计算c₁和c₂值的方法为：

其中，u₀(x,y)为给定图像上的点，为正则化的Heaviside函数。

计算的具体方法为：

利用步骤(4-3)中计算的c₁ ^k和c₂ ^k，按照下式先计算然后积分求出

其中，div代表散度算子、代表梯度算子，μ,v,λ₁,λ₂均是正常数，c₁,c₂分别是图像u₀(x,y)中曲线边界C内部与外部的灰度平均值。

所述步骤(7)中对二值化后的两个区域分别采用区域增长法进行连通元标定的方法为：

步骤(7-1)：对区域中的像素分别按从上到下、从左到右的顺序进行搜索，若搜索到像素点未进行标记，则赋该像素点新的标记号；

步骤(7-2)：以新标记的像素点为起始点进行8邻域搜索，若在其8邻域搜索到未标记的像素点，则为搜索到的未标记像素点赋相同标号，并以新标记的像素点为起始点进行8邻域搜索；

步骤(7-3)：若在8邻域内未搜索到未标记的像素点，则结束该次搜索；

步骤(7-4)：判断所有像素点标记是否完成；如果完成进入步骤(7-5)；如果未完成进入步骤(7-1)，对区域中所有未标记的像素点进行标记，直到完成所有像素点标记为止；

步骤(7-5)：将具有相同标号的像素点作为一个连通元。

所述步骤(9)中对连通元滤波的方法为：

分别判断两个区域中连通元的位置和连通元内像素点的个数，如果连通元与边界相连或者连通元内像素点数目小于设定阈值，则将该连通元删除。

所述步骤(11)中，对滤波后的两个区域进行极性判定的方法为：

步骤(11-1)：滤波后将两个区域中具有相同标号的像素点作为一个连通元；

步骤(11-2)：分别统计两个区域中连通元的数目，设两个区域中连通元的数目分别为n₁和n₂；

步骤(11-3)：比较n₁和n₂，如果n₁＞n₂，则n₁所对应的区域为文本区域，否则n₂所对应的区域为文本区域。

所述步骤(12)中，对确定的文本区域，进一步去除残余背景的方法为：

通过统计区域内每个连通元的灰度平均值，并将各连通元的灰度平均值按从小到大的顺序排列，然后计算相邻灰度平均值的差值，接着依次将灰度差值与设定的阈值进行比较，如果灰度差值大于设定阈值，则以此差值作为分段位置，所有差值判断结束后，得到N个分段位置，取各分段中所对应像素点个数最多的那一段为文本区域段，该文本区域段所对应的连通元为文本连通元，文本连通元所对应位置即为文本区域，图像中的其它区域为背景区域。

本发明的有益效果是：

本发明根据复杂背景图像中文本信息的特点，首先采用水平集函数对图像进行分割，然后对分割区域进行极性判断、背景滤除，得到文本抽取结果。该方法利用了文本图像的全局信息，不仅能够抽取复杂背景图像中的文本信息，而且对空心字的文本抽取效果也十分准确，具有一定的通用性和实用性，避免了残余背景对抽取结果的影响。该发明的成果可直接应用于图像理解、视频内容分析、智能交通、机器视觉、智能控制等领域，具有广阔的应用前景。

附图说明

图1是本发明一种基于水平集分割的文本抽取方法的流程图。

具体实施方式：

下面结合附图与实施例对本发明做进一步说明：

实现本发明的***结构所需的基本的硬件条件为：一台主频为2.4GHZ,内存为1G的计算机，所需软件条件为：编程环境为Visual C++。

一种基于水平集活动轮廓模型的文本分割方法，如图1所示，具体步骤如下：

步骤(1)：开始，读取图像；

步骤(2)：对读取的图像灰度化；

步骤(3)：抽取图像的灰度特征值；

步骤(4)：采用于水平集函数将图像分割成两个区域；

给定图像u₀(x,y),(x,y)∈Ω,Ω被称为图像区域，ω为Ω的开子集，C为ω的边界曲线，曲线C可用水平集函数代替，如果点(x,y)在曲线C内部，则如果点(x,y)在曲线C外部，则如果点(x,y)在曲线C上，则

水平集能量函数可表示为：

其中，μ,v,λ₁,λ₂是正常数，c₁,c₂是图像u₀(x,y)中曲线边界C内部与外部的灰度平均值，H(z)和δ(z)分别表示正则化的Heaviside函数H(z)和Dirac函数δ(z)

最小化能量函数，固定可以估计出c₁，c₂的值,

然后，固定c₁，c₂，最小化能量函数，可得到

具体实现步骤为：

步骤(4-1)：初始化水平集函数，令k＝0，本发明中选取5个圆作为水平集初始化曲线；

步骤(4-2)：根据公式(4)，(5)计算c₁ ^k和c₂ ^k；

步骤(4-3)：根据计算出来的c₁ ^k和c₂ ^k，根据公式(6)计算

步骤(4-4)：判断解是否趋于稳定，如果没有，另k＝k+1，转到步骤(4-2)，继续迭代运算，否则停止迭代进入步骤(4-5)；

步骤(4-5)：输出水平集分割结果。

步骤(5)：判断分割是否完成，如果完成则进入步骤(6)，如果未完成则进入步骤(4)；

步骤(7)：对分割出的两个区域采用区域增长法进行8连通元标定；

具体步骤为：

步骤(7-4)：判断所有像素点标记是否完成。如果完成进入步骤(7-5)；如果未完成进入步骤(7-1)，对区域中所有未标记的像素点进行标记，直到完成所有像素点标记为止；

步骤(7-5)：将具有相同标号的像素点作为一个连通元。

步骤(8)：判断连通元标定是否完成，如果完成进入步骤(9)，如果未完成返回步骤(7)；

步骤(9)：对两个区域中的连通元进行滤波，分别判断两个区域中连通元的位置和连通元内像素点的个数，如果连通元与边界相连或者连通元内像素点数目少于给定阈值，则将该连通元删除。

步骤(10)：判断两个区域连通元滤波是否完成，如果完成进入步骤(11)，如果未完成进入步骤(9)；

步骤(11)：对滤波后两个区域进行极性判定，以判断两个区域中哪个区域为文本区域。比较两个区域所含像素点的个数，取像素点个数多的区域为文本区域，像素点少的区域为背景区域；

具体步骤为：

步骤(11-3)：比较n₁和n₂，如果n₁＞n₂，则n₁所对应的区域为文本区域，否则n²所对应的区域为文本区域。

步骤(12)：对确定的文本区域，进一步滤波去除残余背景；

具体步骤为：

步骤(12-1)：求区域中每个连通元的灰度平均值；

步骤(12-2)：将每个连通元灰度平均值按照从小到大的顺序进行排列；

步骤(12-3)：计算每个灰度平均值与其后相邻的灰度平均值之间的差值；

步骤(12-4)：将步骤(12-3)获得的差值分别与设定的阈值进行比较，如果差值大于设定的阈值，则以此差值作为分段位置；

步骤(12-5)：判断所有的差值与阈值比较是否完成，如果完成进入步骤(12-6)，如果未完成进入步骤(12-4)；

步骤(12-6)：比较结束后共得到N个分段位置，该N个分段位置将各连通元分为N+1段；

步骤(12-7)：分别统计N+1段中各段所对应连通元所含像素点的个数，像素个数最多的分段所对应的连通元为文本连通元，文本连通元对应的区域为文本区域，其余分段对应的区域为背景区域。

步骤(12-8)：删除背景区域。

步骤(13)：输出文本抽取结果。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于水平集分割的文本抽取方法，其特征是，包括：

读取图像数据信息，确定边界曲线；对读取的图像进行灰度化；抽取灰度特征值；根据灰度特征值采用水平集函数将图像分为边界曲线内区域和边界曲线外区域；对分割出的两个区域进行二值化；对二值化的两个区域分别进行连通元标定；对两个区域中标定的连通元进行滤波；对滤波后的区域进行极性判定，判断出文本像素区域和背景像素区域；对文本区域进行滤波，滤除背景噪声；输出文本抽取结果；

具体步骤包括：

步骤(2)：对读取的图像灰度化；

步骤(3)：抽取图像的灰度特征值；

步骤(9)：对两个区域中的连通元进行滤波；

步骤(12)：对确定的文本区域，进一步滤波去除残余背景；

步骤(13)：输出文本抽取结果；

所述步骤(4)中，水平集分割的能量函数为：

其中，μ,v,λ₁,λ₂均是正常数，c₁,c₂分别是图像u₀(x,y)中边界曲线C内部与外部的灰度平均值，H(z)和δ(z)分别表示正则化的Heaviside函数H(z)和Dirac函数δ(z)；表示水平集函数，(x,y)∈Ω,Ω为图像区域；其中，

2.如权利要求1所述的一种基于水平集分割的文本抽取方法，其特征是，所述步骤(4)中的具体方法为：

步骤(4-1)：将边界曲线C用水平集函数代替，如果点(x,y)在边界曲线C内部，则如果点(x,y)在边界曲线C外部，则如果点(x,y)在边界曲线C上，则

步骤(4-2)：初始化水平集函数，令k＝0；为常数值；为水平集函数的初始值；

步骤(4-3)：最小化水平集的能量函数固定为第k次迭代的值，计算c₁ ^k和c₂ ^k的值；c₁ ^k为第k次迭代时边界曲线C内部的灰度平均值，c₂ ^k为第k次迭代时边界曲线C外部的灰度平均值；

步骤(4-4)：最小化水平集的能量函数固定c₁ ^k和c₂ ^k，计算其中表示第k+1次迭代时的值；

步骤(4-6)：输出水平集函数分割结果。

3.如权利要求2所述的一种基于水平集分割的文本抽取方法，其特征是，所述步骤(4-3)第k次迭代时计算c₁和c₂值的方法为：

其中，u₀(x,y)为给定图像，为正则化的Heaviside函数。

4.如权利要求2所述的一种基于水平集分割的文本抽取方法，其特征是，计算的具体方法为：

其中，div代表散度算子、▽代表梯度算子，μ,v,λ₁,λ₂均是正常数，c₁,c₂分别是图像u₀(x,y)中边界曲线C内部与外部的灰度平均值。

5.如权利要求1所述的一种基于水平集分割的文本抽取方法，其特征是，所述步骤(7)中对二值化后的两个区域分别采用区域增长法进行连通元标定的方法为：

步骤(7-5)：将具有相同标号的像素点作为一个连通元。

6.如权利要求1所述的一种基于水平集分割的文本抽取方法，其特征是，所述步骤(9)中对连通元滤波的方法为：

7.如权利要求1所述的一种基于水平集分割的文本抽取方法，其特征是，所述步骤(11)中，对滤波后的两个区域进行极性判定的方法为：

8.如权利要求1所述的一种基于水平集分割的文本抽取方法，其特征是，所述步骤(12)中，对确定的文本区域，进一步去除残余背景的方法为：