CN107133929A

CN107133929A - 基于背景估计和能量最小化的低质量文档图像二值化方法

Info

Publication number: CN107133929A
Application number: CN201710289747.7A
Authority: CN
Inventors: 熊炜; 徐晶晶; 李敏; 熊子婕; 王改华; 刘敏; 赵楠; 王鑫睿; 冯川
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2017-04-27
Filing date: 2017-04-27
Publication date: 2017-09-05
Anticipated expiration: 2037-04-27
Also published as: CN107133929B

Abstract

本发明公开了一种基于背景估计和能量最小化的低质量文档图像二值化方法，首先对彩色文档图像进行灰度预处理、采用双边滤波对图像进行降噪处理、图像背景估计、背景减除与图像增强、构造能量函数、构造网络图、最后采用基于增广路径的图割算法实现能量函数的最小化。本发明显著提高了复杂背景下的文档图像二值化效果，能够适用于多种颜色书写、笔画渐变、墨迹浸润、页面有污渍或纹理、光照不均、对比度低等复杂背景的文档图像二值化处理。

Description

基于背景估计和能量最小化的低质量文档图像二值化方法

技术领域

本发明属于数字图像处理、模式识别与机器学习技术领域，特别是涉及一种基于背景估计和能量最小化的低质量文档图像二值化方法。

背景技术

文档分析与识别(DAR)技术已广泛应用于古籍数字化、版面分析与文字识别、视频字幕提取、文本信息检索等领域，主要包括图像的采集、二值化、歪斜校正、字符分割与识别等过程。图像二值化是其中一个关键预处理环节，它是将灰度图像转换成二进制图像，从而实现字符前景与文档背景的分离。二值化算法的效果直接影响整个DAR***的性能，因此近年来很多学者对此进行了研究，并提出了很多算法；然而，受图像对比度差、墨迹浸润、页面污渍或光照不均等因素的影响，使得低质量文档图像二值化仍是一个挑战。

二值化算法可粗略分为全局阈值法和局部阈值法。全局阈值法采用单一的阈值将文档图像分为字符(前景)与背景两大类，如Otsu算法利用图像的灰度直方图选择一个最优阈值，使得经阈值分割后的前景与背景像素的类间方差最大。全局阈值法对于前景和背景差别较大，即直方图具有显著双峰特征的图像具有较好的分割效果，但在处理低质量文档图像时，会丢失部分甚至全部前景细节。

局部阈值法(也称为自适应阈值法)则通过滑动窗口与文档图像的卷积，从而实现在图像不同部分设定不同阈值，如Niblack、Sauvola、Wolf等算法利用像素邻域内的灰度均值和方差来构建阈值分割曲面，其算法性能有赖于滑动窗口的尺寸及字符笔画的粗细等。针对不同质量的文档图像需动态调整窗口尺寸，以获得最佳的阈值处理结果；当图像对比度较低时，会产生大量噪声点或造成误判。

此外，国内外研究人员还提出了很多更为复杂的算法，如局部对比度法、背景估计与笔画边缘检测法、拉普拉斯能量法、卷积神经网络法等。然而，以上这些方法都不能很好地解决在低对比度、墨迹浸润、渐变光照、带污迹和纹理等复杂文档背景下的图像二值化。

发明内容

为了解决上述技术问题，本发明提出了一种基于背景估计和能量最小化的低质量文档图像二值化方法，显著提高了复杂背景下的文档图像二值化效果，能够适用于多种颜色书写、笔画渐变、墨迹浸润、页面有污渍或纹理、光照不均、对比度低等复杂背景的文档图像二值化处理。

本发明所采用的技术方案是：一种基于背景估计和能量最小化的低质量文档图像二值化方法，其特征在于，包括以下步骤：

步骤1：对彩色文档图像进行灰度预处理；

步骤2：采用双边滤波对图像进行降噪处理；

步骤3：图像背景估计，具体包括以下子步骤：

步骤3.1：针对步骤2处理后的图像，进行笔画宽度变换；

步骤3.2：计算模拟距离和成像高度；

步骤3.3：针对步骤2处理后的图像，通过两次形态学闭操作削弱文档图像中的暗特征；

步骤3.4：结合步骤3.2和步骤3.3的结果，进行图像降采样和升采样；

步骤4：背景减除与图像增强，具体包括以下子步骤：

步骤4.1：背景减除；

计算步骤2中的双边滤波图像与步骤3中的背景估计图像间的绝对差值，差值图像中灰度为零的像素点属于高置信背景像素点，并将其灰度值设为255；

步骤4.2：直方图均衡；

对背景减除图像中非零像素点进行取反，得到该点对应的灰度值，然后对整幅图像进行直方图均衡化，增大图像前景和背景的对比度；

步骤5：构造能量函数；

步骤6：构造网络图；

步骤7：采用基于增广路径的图割算法实现能量函数的最小化。

本发明与现有算法相比，其显著优点在于：

(1)本发明采用最小均值法对彩色文档图像进行灰度预处理，所得灰度图像具有彩色无关性，既能增大前景与背景像素间的对比度，又能减小前景像素间的灰度方差；

(2)本发明采用非线性双边滤波算法实现图像降噪处理，由于同时考虑了图像的空间邻近度和灰度相似性，从而达到了保边去噪的目的；

(3)本发明采用笔画宽度变换的方法来估计文档图像中的笔画宽度，其优势在于，笔画特征基本上是属于文字独有的特征(当然也不排除某些退化因素的干扰，需要后续操作加以剔除)，对于不同语言的文本具有普适性；

(4)本发明基于视觉灵敏度测试模型，采用形态学闭操作实现图像背景估计，并对背景减除图像进行直方图均衡化，有效抑制了退化因素的影响，同时增强了图像的局部对比度；

(5)本发明基于最大流/最小割的组合优化算法实现文档图像二值化，该图割算法通用性强，可行性高，运行速度快(接近实时性能)，并且适用于多种退化类型的低质量文档图像。

附图说明

图1：为本发明实施例的流程图；

图2：为本发明实施例的视力测试模型的角度分辨率示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明主要思想是：当目标图像离观察者距离较远时，能观测到的目标图像的细节(笔画)信息越来越少，但感知到的背景灰度和深度不受距离的影响，因此可以通过模拟远距离观测图像的场景，估计出图像的大致背景，再对剔除估计背景后的图像构造能量函数，采用图割算法实现图像二值化。

请见图1，本发明提供的一种基于背景估计和能量最小化的低质量文档图像二值化方法，包括以下步骤：

步骤1：最小均值灰度化；

本发明采用最小均值法对彩色文档图像f(x,y)进行灰度预处理，具体计算公式为：

其中，f_i(x,y)分别为R、G、B彩色分量图像，f_gray(x,y)为变换后的灰度图像。

所得灰度图像具有彩色无关性，即灰度图像中，前景与背景像素间具有较大的对比度，同时前景像素间的灰度差异性较小。

步骤2：双边滤波去噪；

本发明采用非线性双边滤波算法进行图像降噪处理，其输出像素值依赖于邻域S内像素值f(k,l)的加权组合，具体计算公式为：

其中，权重系数w(i,j,k,l)取决于定义域核和值域核的乘积，即和分别表示高斯距离方差和高斯灰度方差。

由于双边滤波器同时考虑了图像的空间邻近度和灰度相似性，可以达到保边去噪的目的。

步骤3：图像背景估计；

步骤3.1笔画宽度变换(SWT)：采用Canny算子对双边滤波后的灰度图像进行边缘检测，并对每一个边缘像素点p按其梯度方向查找与之对应的另一个边缘像素点q，两点间的欧式距离||p-q||即为[p,q]路径上所有像素点的笔画宽度估计，除非该像素点已经被指定了一个更小的宽度值，则图像的笔画宽度SWE为所有非零像素点笔画宽度估计的数学期望，具体计算公式为：

其中，n为笔画宽度变换输出图像s(x,y)中非零值像素点总数。

步骤3.2计算模拟距离和成像高度：基于视觉灵敏度测试模型，人眼的最小分辨角(1′的角度)所能感知的即为最小图像，如图2所示。由于低质量文档图像的对比度通常都低于视力表上的二值图像，对应目标的最小视角也通常大于视力测试的最小视角，并且图像的笔画越粗，不能感知到笔画细节所需的观测距离就会越远，因此，本发明将文档图像的笔画宽度对应的分辨角假定为3′，并根据步骤3.1估计得到的笔画宽度确定模拟观测距离d₀，具体计算公式为：

d₀＝SWE×cotθ，

其中，θ为观测分辨角，此处为3′视角。

由于人眼的晶状体类似于凸透镜，根据透镜成像规律和焦距方程，可得到在距离目标图像为d₀时视网膜上的成像高度h_i，具体计算公式为：

其中，f为人眼晶状体与视网膜间距，即透镜焦距(约17mm)，h₀为目标图像原始高度。

步骤3.3形态学闭操作：通过两次形态学闭操作削弱文档图像中的暗特征(字符笔画)，两次闭操作均采用圆形结构元素。本发明将第一次结构元素的直径设置为图像的笔画宽度，第二次结构元素的直径则比图像的笔画宽度大12个像素。

步骤3.4图像降采样和升采样：距离目标图像为d₀时观测到的图像高度为h_i，因此，将形态学闭操作后的图像通过双线性降采样缩放到h_i高度；然后采用双线性内插法将缩放后的图像恢复到原始尺寸大小，得到的图像即为估计的背景图像。在进行图像缩放时，保持图像宽高比不变。

步骤4：背景减除与图像增强；

步骤4.1背景减除：计算双边滤波图像与背景估计图像间的绝对差值，差值图像中灰度为零的像素点属于高置信背景像素点，并将其灰度值设为255(白色)。

步骤4.2直方图均衡：对背景减除图像中非零像素点进行取反，得到该点对应的灰度值，然后对整幅图像进行直方图均衡化，增大图像前景和背景的对比度。

步骤5：构造能量函数；

拉普拉斯能量函数的具体形式为：

其中，数据项表示给像素点赋予某个标签的代价，如是指给像素p_ij赋予标签0(1)的代价；边界项表示相邻像素不连续的代价，即将两相邻像素赋予不同标签时的代价。

图像的拉普拉斯变换可以反映图像灰度突变的地方，当图像中某像素点的拉普拉斯值符号为正时，对应的像素点一般位于灰度图的波谷处(暗)；反之，当图像某像素点的拉普拉斯值符号为负时，对应的像素点就位于灰度图的波峰处(亮)。因此，本发明定义拉普拉斯能量函数的数据项具体表示为：

其中，表示像素p_ij处的拉普拉斯值；

边界项可分为水平方向的边界项和竖直方向的边界项本发明采用Canny边缘检测算子来确定边界项，位于边缘附近的像素不连续的可能性较大，可以直接将位于边缘两侧的像素间的不连续代价置为零，具体表示为：

其中，E_ij表示像素点p_ij处的边缘检测结果，I_ij表示像素p_ij处的灰度值，c为任意常数(>0)。

步骤6：构造网络图；

图像的每个像素点p_ij构成了网络图的中间节点，另外附加两个终端节点s和t。连接中间节点的边称为nlink，其权值由能量函数的边界项确定；连接中间节点与终端节点的边称为tlink，其权值由能量函数的数据项确定。边(p_ij,s)的权值为边(p_ij,t)的权值为边(p_ij,p_i+1,j)的权值为边(p_ij,p_i,j+1)的权值为

步骤7：采用基于增广路径的图割算法实现能量函数的最小化；

基于网络图建立两颗搜索树S和T，树的根节点分别位于源点s和汇点t，将搜索树的节点分为两类：主动节点和被动节点，主动节点可以由非饱和边将自由节点扩展为主动节点，实现树的生长。

步骤7.1生长阶段：两棵树不断生长，直到两棵树的主动节点相遇便找到了一条从源点到汇点的路径；

步骤7.2增广阶段：对步骤7.1获得的路径进行增广，增广会形成至少一条饱和边，连接该边的子节点就变成了孤立节点，树S和T则被拆分为多颗子树；

步骤7.3收养阶段：为每一个孤立节点寻找父节点，如果没有满足条件的父节点，将其变为自由节点，直至所有的孤立节点都被处理。

重复执行上面三个步骤，直至两棵树不再生长，被饱和边分开，便求出了图的最小割即能量函数的最小值，从而实现了图像的最终二值化。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于背景估计和能量最小化的低质量文档图像二值化方法，其特征在于，包括以下步骤：

步骤1：对彩色文档图像进行灰度预处理；

步骤2：采用双边滤波对图像进行降噪处理；

步骤3：图像背景估计，具体包括以下子步骤：

步骤3.1：针对步骤2处理后的图像，进行笔画宽度变换；

步骤3.2：计算模拟距离和成像高度；

步骤4：背景减除与图像增强，具体包括以下子步骤：

步骤4.1：背景减除；

步骤4.2：直方图均衡；

步骤5：构造能量函数；

步骤6：构造网络图；

2.根据权利要求1所述的基于背景估计和能量最小化的低质量文档图像二值化方法，其特征在于：步骤1中采用最小均值法对彩色文档图像f(x,y)进行灰度预处理，其中预处理公式为：

<mrow> <msub> <mi>f</mi> <mrow> <mi>g</mi> <mi>r</mi> <mi>a</mi> <mi>y</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>&lsqb;</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>i</mi> </munder> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <mn>1</mn> <mn>3</mn> </mfrac> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <msub> <mi>f</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>,</mo> </mrow>

3.根据权利要求1所述的基于背景估计和能量最小化的低质量文档图像二值化方法，其特征在于：步骤2中采用非线性双边滤波算法进行图像降噪处理，其输出像素值依赖于邻域S内像素值f(k,l)的加权组合，具体计算公式为：

<mrow> <mover> <mi>f</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munder> <mo>&Sigma;</mo> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> <mo>&Element;</mo> <mi>S</mi> </mrow> </munder> <mi>f</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mi>w</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mo>&Sigma;</mo> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> <mo>&Element;</mo> <mi>S</mi> </mrow> </munder> <mi>w</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>

4.根据权利要求1所述的基于背景估计和能量最小化的低质量文档图像二值化方法，其特征在于：步骤3.1中采用Canny算子对双边滤波后的灰度图像进行边缘检测，并对每一个边缘像素点p按其梯度方向查找与之对应的另一个边缘像素点q，两点间的欧式距离||p-q||即为[p,q]路径上所有像素点的笔画宽度估计，除非该像素点已经被指定了一个更小的宽度值，则图像的笔画宽度SWE为所有非零像素点笔画宽度估计的数学期望，具体计算公式为：

<mrow> <mi>S</mi> <mi>W</mi> <mi>E</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <mi>s</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>&NotEqual;</mo> <mn>0</mn> </mrow> </munder> <mi>s</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

其中，n为笔画宽度变换输出图像s(x,y)中非零值像素点总数。

5.根据权利要求1所述的基于背景估计和能量最小化的低质量文档图像二值化方法，其特征在于：步骤3.2中，并根据步骤3.1估计得到的笔画宽度SWE确定模拟观测距离d₀，具体计算公式为：

d₀＝SWE×cotθ，

其中，θ为观测分辨角；

根据透镜成像规律和焦距方程，得到在距离目标图像为d₀时视网膜上的成像高度h_i，具体计算公式为：

其中，f为人眼晶状体与视网膜间距，即透镜焦距，h₀为目标图像原始高度。

6.根据权利要求1所述的基于背景估计和能量最小化的低质量文档图像二值化方法，其特征在于：步骤3.3中，两次闭操作均采用圆形结构元素；第一次结构元素的直径设置为图像的笔画宽度，第二次结构元素的直径则比图像的笔画宽度大12个像素。

7.根据权利要求1所述的基于背景估计和能量最小化的低质量文档图像二值化方法，其特征在于：步骤3.4中，距离目标图像为d₀时观测到的图像高度为h_i，因此，将形态学闭操作后的图像通过双线性降采样缩放到h_i高度；然后采用双线性内插法将缩放后的图像恢复到原始尺寸大小，得到的图像即为估计的背景图像；在进行图像缩放时，保持图像宽高比不变。

8.根据权利要求1所述的基于背景估计和能量最小化的低质量文档图像二值化方法，其特征在于：步骤5中，拉普拉斯能量函数的具体形式为：

其中，数据项表示给像素点赋予某个标签的代价，是指给像素p_ij赋予标签0/1的代价；表示像素p_ij处的拉普拉斯值；边界项表示相邻像素不连续的代价，即将两相邻像素赋予不同标签时的代价；边界项分为水平方向的边界项和竖直方向的边界项E_ij表示像素点p_ij处的边缘检测结果，I_ij表示像素p_ij处的灰度值，c为任意常数，其c>0。

9.根据权利要求8所述的基于背景估计和能量最小化的低质量文档图像二值化方法，其特征在于，步骤6的具体实现过程是：图像的每个像素点p_ij构成了网络图的中间节点，另外附加两个终端节点s和t；连接中间节点的边称为nlink，其权值由能量函数的边界项确定；连接中间节点与终端节点的边称为tlink，其权值由能量函数的数据项确定；边(p_ij,s)的权值为边(p_ij,t)的权值为边(p_ij,p_i+1,j)的权值为边(p_ij,p_i,j+1)的权值为

10.根据权利要求1-9任意一项所述的基于背景估计和能量最小化的低质量文档图像二值化方法，其特征在于，步骤7的具体实现过程是：基于网络图建立两颗搜索树S和T，树的根节点分别位于源点s和汇点t，将搜索树的节点分为两类：主动节点和被动节点，主动节点可以由非饱和边将自由节点扩展为主动节点，实现树的生长；

步骤7.1：生长阶段；

两棵树不断生长，直到两棵树的主动节点相遇便找到了一条从源点到汇点的路径；

步骤7.2、增广阶段；

对步骤7.1获得的路径进行增广，增广会形成至少一条饱和边，连接该边的子节点就变成了孤立节点，树S和T则被拆分为多颗子树；

步骤7.3：收养阶段；

为每一个孤立节点寻找父节点，如果没有满足条件的父节点，将其变为自由节点，直至所有的孤立节点都被处理；

步骤7.4：重复执行上面三个步骤，直至两棵树不再生长，被饱和边分开，便求出了图的最小割即能量函数的最小值，从而实现了图像的最终二值化。