CN1310182C

CN1310182C - 用于增强文档图像和字符识别的方法和装置

Info

Publication number: CN1310182C
Application number: CNB2003101186847A
Authority: CN
Inventors: 胡欧; 李献
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-11-28
Filing date: 2003-11-28
Publication date: 2007-04-11
Anticipated expiration: 2023-11-28
Also published as: JP4164489B2; CN1622120A; US7505632B2; US20050180660A1; JP2005174323A

Abstract

本发明涉及用于增强文档图像和字符识别的方法、装置和存储介质。为了增强文档图像，尤其是半色调块图像，提高其识别率，将块图像分割为行图像，对行图像进行降噪。然后根据连通域密度，将降噪后的行图像归入包括普通行图像、断笔行图像和空心笔划行图像的三种类型。根据其类型及其它属性，增强降噪后的行图像，得到增强的行图像，其全体构成增强的块图像。

Description

用于增强文档图像和字符识别的方法和装置

技术领域

本发明涉及用于增强文档图像的方法、装置和存储介质，以及利用它们进行字符识别的方法、装置和存储介质。

背景技术

OCR(光学字符识别)是识别手写字符或者扫描字符的公知技术。

如图1所示，为了进行文档图像102的字符识别，要进行一个块分割步骤104以从整个二值文档图像102中分离出包含所有字符的最小区域。换句话说，块分割步骤104是要除去文档图像102的页边空白。所得到的通常是矩形区域的块图像由一个行分割步骤108进一步处理，从而抽出每一个行图像形式的字符行。然后对每一个行图像进行字符分割步骤112，从而将对应于要识别的每一个字符的字符图像提取出来。最后一步是基于每个字符图像的单字符识别步骤116，识别结果118例如被输出到文本处理应用程序等。

当识别扫描的文档图像时，如果图像质量高，当前的OCR产品的识别结果是令人满意的。但是，如果文档图像的质量不那么完美，或者如果文档图像的质量很坏，则识别率急剧降低。

例如，传统的OCR引擎不能很好地识别彩色或者灰度图像。这是因为OCR系基于二值图像识别。为了用二值图像格式扫描、存储和识别彩色或者灰度图像原件，发展出了半色调图像技术。在半色调图像中，一个“像素”是由一个小的二值图像构成的，从而能够模拟不同的颜色或者灰度。一个所谓的“像素”实际上包括一个二值像素阵列，对应于原件中具有特定颜色或者灰度级的一个小区域。因此，与一般的二值文档图像相比，或者与原件相比，半色调文档图像的质量低得多。

也就是说，传统的OCR引擎不能很好地识别彩色或者灰度图像是因为它不能很好地识别半色调图像。具体原因如下。

当原件具有特定的颜色或者灰度级时，在要识别的半色调文档图像中，会有许多由所述颜色或者灰度级造成的背景噪声，如图2所示。

对于字符，如果在原件中不是黑的，则在半色调文档图像的字符笔划中，相应的像素不会全是黑的，会出现一些白像素。那么，在不同情况下，笔划看起来就好像断了(如图3所示)、变成空心(如图所示4)或者具有锯齿轮廓(如图5所示)。

显然，断笔，空心笔划和锯齿形笔划会严重地扭曲字符图像的特征提取。传统的OCR算法不能区分如上所述的半色调文档图像中的各种缺陷，从而不能做相应的恢复，因此识别率非常低。

噪声会严重影响块分割、行分割、字符分割和单字符识别。如果进行降噪，则断笔、空心笔划和锯齿形笔划的现象会更为严重。在这种情况下，传统的OCR算法甚至不能进行正确的行分割。这是因为传统的OCR算法是针对普通的文档图像的，而普通文档图像的噪声少得多，相应地在传统的OCR算法中的降噪温和得多。即使对于普通文档图像，如果进行强降噪，笔划也会受影响，降低识别率。

另外，还有其它一些应用，例如复印装置，需要增强文档图像，比如从非黑白原件获取的文档图像。

发明内容

因此，本发明的目的是提供一种新技术，能够增强半色调文档图像，将其“恢复”为普通文档图像的状态。

本发明的另一个目的是提高文档图像的识别率，尤其是当文档图像是半色调图像时。

为达上述第一个目的，本发明的基本思想是识别存在于图像中的不同缺陷，然后用相应的算法消除掉这些缺陷。换句话说，基本的思想是将文档图像分为不同的类型，然后用相应的算法增强。

在多数情况下，同一行中的字符具有相同的大小和字体，其图像通常具有相同的特性。因此，我们假设同一行中的所有字符具有相同的特性。基于此假设，可以确定行图像而不是单个字符图像的特性，从而可以对整个行图像而不是逐个对每一个字符图像进行相应的恢复。

具体来说，在本发明的一个方面，提供了一种文档图像增强方法，包括下述步骤：标记图像中的连通域；根据连通域的密度，将图像分为三种类型，包括普通行图像、断笔行图像和空心笔划行图像；根据分类结果对图像进行增强。

在本发明的另一方面，提供了一种文档图像增强方法，包括以下步骤：对原始块图像降噪，得到降噪后的块图像；分割降噪后的块图像，获得行图像的位置信息；对原始块图像中的行图像和行间图像进行预分析，获得行图像和行间图像的特性；基于所述特性，对原始块图像中的行图像进行降噪，得到降噪后的行图像；标记降噪后的行图像中的连通域，获得降噪后的行图像中的不同连通域的数量；将降噪后的行图像分类为三种类型，包括普通行图像、断笔行图像和空心笔划行图像；基于其类型和所述特性增强降噪后的行图像，获得增强的行图像，增强的全体行图像连同原始块图像降噪步骤中获得的行间图像一起，构成增强的块图像。

在传统的OCR方法中应用上述增强方法，尤其是在块分割步骤104(图1)之后和行分割步骤108(图1)之前应用上述增强方法，可以使半色调文档图像的识别率更高。事实上，如果使用所述增强方法，行分割步骤108可以省略，因为在块图像增强过程中已经完成了行分割。

或者，块分割可以结合到本发明中来，从而本发明可以直接应用于通过扫描获得的原始文档。

为达上述目的，本发明还提供一种文档图像增强装置，包括：存储装置，用于存储要增强的原始块图像、中间图像和最终图像，以及其它的中间结果；第一噪声过滤器，用于对原始块图像降噪，得到降噪后的块图像；行分割装置，用于分割降噪后的块图像，生成行图像的位置信息；预分析器，用于对原始块图像中的行图像和行间图像进行预分析，得到行图像和行间图像的特性；第二噪声过滤器，用于根据所述特性对原始块图像中的行图像进行降噪，得到降噪后的行图像；标记装置，用于标记图像中的连通域，得到图像中不同连通域的密度，并用于对从第二噪声过滤器得到的降噪后的行图像和其它中间行图像进行标记；分类装置，用于将降噪后的行图像分为三种类型，包括普通行图像、断笔行图像和空心笔划行图像；普通行图像增强装置，用于根据上述特性，通过平滑行图像来增强普通行图像；空心笔划行图像增强装置，用于根据上述特性通过填充行图像中的笔划中的空心区域来增强空心笔划行图像；断笔行图像增强装置，用来根据所述特性，通过将行图像中的断笔连接起来来增强断笔行图像；和控制器，控制上述部件的操作，确保每一个行图像都得到处理。

本发明还提供一种字符识别装置，包括上述文档图像增强装置、用于将行图像分割为单字符图像的字符分割装置，以及用于识别每一个单字符的单字符识别装置。

还提供了存储介质，其中存储用于执行上述任何字符识别方法的程序代码。

利用本发明，可以增强文档图像，包括半色调图像，从而提高其识别率。

附图说明

本发明的其它目的、特征和优点将在阅读下文对优选实施例的详细说明后变得更为清楚。附图作为说明书的一部分用于图解本发明的实施例，并和说明书一起用于解释本发明的原理。在附图中：

图1是现有技术的OCR方法的流程图；

图2是具有许多噪声的半色调图像的例子；

图3是含有断笔的半色调图像的例子；

图4是含有空心笔划的半色调图像的例子；

图5是含有锯齿形笔划的半色调图像的例子；

图6是可实现本发明的信息处理***的框图；

图7A是本发明的文档图像增强方法的一个优选实施例的流程图；

图7B是图7A所示实施例的一个变型；

图7C是本发明的字符识别方法的一个优选实施例的流程图；

图8A和图8B是具有许多噪声的文档图像的样本，分别在用本发明进行处理之前和之后；

图9A和图9B是含有断笔的文档图像的样本，分别在用本发明进行处理之前和之后；

图10A和图10B是含有空心笔划的文档图像的样本，分别在用本发明进行处理之前和之后；

图11A和图11B是含有锯齿形笔划的文档图像的样本，分别在用本发明进行处理之前和之后；

图12是直方图，用于图示使用本发明的OCR引擎的性能；

图13是另一个直方图，用于图示使用本发明的OCR引擎的性能；

图14是本发明的文档图像增强装置的一个优选实施例的框图；

图15是图14中所示预分析器的框图；

图16是本发明的字符识别装置的框图。

具体实施方式

下面结合附图描述本发明的优选实施例。

计算机***举例

本发明的方法可以在任何信息处理设备中实现。所述信息处理设备例如是个人计算机(PC)、笔记本电脑、嵌入任何自动化设备例如邮件分拣装置中的单片机(SCM)，等等。对于本领域普通技术人员，很容易通过软件、硬件和/或固件实现本发明的方法。尤其应注意到，对于本领域普通技术人员显而易见的是，为了执行本方法的某些步骤或者步骤的组合，可能需要使用输入输出设备、存储设备以及微处理器比如CPU等。在下面对本发明的方法的说明中不见得提到这些设备，但实际上使用了这些设备。

作为上述信息处理设备，图6示出了一个计算机***的举例，在其中可以实现本发明的方法和设备。应注意的是，示于图6的计算机***只是用于说明，并非要限制本发明的范围。

从硬件的角度来讲，计算机201包括一个CPU206、一个硬盘(HD)205、一个RAM207、一个ROM208和输入输出设备212。输入输出设备可以包括输入装置比如键盘、触控板、跟踪球和鼠标等，输出装置比如打印机和监视器，以及输入输出装置比如软盘驱动器、光盘驱动器和通信端口。

从软件的角度讲，所述计算机主要包括操作***(OS)209、输入输出驱动程序211和各种应用程序。作为操作***，可以使用市场上可购买的任何操作***，比如Window系列以及基于Linux的操作***。输入输出驱动程序分别用于驱动所述输入输出设备。所述应用程序可以是任何应用程序，比如文本处理程序210、图像处理程序等，其中包括可以用在本发明中的或者可以利用本发明的已有程序以及专为本发明编制的、可调用所述已有程序或者被所述已有程序(比如OCR应用程序202)调用的应用程序。

这样，在本发明中，可以由操作***、应用程序和输入输出驱动程序在所述计算机的硬件中执行本发明的方法。

另外，计算机201还可以连接到一个图像源比如扫描仪204，以获取要识别的图像。利用本发明的OCR所获得的结果可以被输出到应用设备203，该应用设备根据所述结果执行适当的操作。所述应用设备可以是任何自动控制***，比如邮件分拣设备。所述应用设备也可以是在所述计算机201内部实现的、用于进一步处理所述图像的另一个应用程序(和硬件的结合)。例如，它可以是文本处理程序，比如Microsoft Word(Microsoft是微软公司拥有的商标)，用于编辑识别的文本。

文档图像增强方法

(优选实施例)

图7A示出了本发明的文档图像增强方法的一个优选实施例。

该方法始于从其它应用比如OCR程序或者扫描仪等获得的块图像702。不用说，块图像702被存储在某个地方，当被处理时需要被读出。还应注意到，对于本领域普通技术人员来说显而易见的是，当处理图像时，应当将原始图像和中间处理结果存储起来，使它们不被破坏，从而能够在后续的需要原始图像或者特定中间结果的处理步骤中使用。但是，为了简明起见，在下面的说明和附图中，省略了为上述目的进行的有关步骤，比如拷贝和存储之类。

第一步是对块图像702进行的块降噪704。该步骤的目的是改进块图像的质量，以便在下面的行分割步骤706中，块图像702能被正确地分割为行图像。在该步骤中，可以采用任何噪声过滤器，包括在现有技术的字符识别(OCR)方法或者装置中在行分割步骤中或者之前所使用的噪声过滤器，比如中值滤波器或者使用不同模板的均值滤波器(mean filter)。考虑到半色调图像中背景噪声的特征，最好使用3×3模板的中值滤波器。

然后基于降噪后的块图像进行行分割706，生成行图像的位置信息708。根据位置信息708，后续的步骤对原始块图像逐行进行处理。换句话说，当提及“行图像”被处理时，实际上是块图像中的由相应的位置信息限定的一个区域被处理。

在行分割706之后，对每一行图像进行增强操作。应当注意的是，如本领域普通技术人员所知，当需要对许多对象进行类似的处理时，算法可以是串行模式(即通过循环进行)或者并行模式，或者是混合模式，即某些步骤对不同的对象循环，而某些步骤对不同对象并行地执行。因此，在下面，只详细描述对一行的处理。

首先对行图像和相应的行间图像进行预分析，获得在后续步骤中将要使用的特性。但是，应注意的是，对于本领域的普通技术人员来说，该预分析步骤可以分散到后续步骤中去。也就是说，行图像和行间图像的必要特性可以在需要它们的有关后续步骤中计算，而不是预先计算。

(行图像的预分析)

预分析包括四个方面：

A.计算行图像中的字符数(下称“字符数”)。

字符数将在后续的标记步骤或者再标记步骤中用于生成连通域密度。

字符数可以用下述公式计算：

对于水平行：字符数＝K×行宽/行高

对于垂直行：字符数＝K×行高/行宽

K是反映语言类别的系数。例如，对于象形字符比如汉语和日语中的字符，K的值可以是1。对于例如英语的字母，K的值可以大于1。

B.标记连通域和计算连通域密度。

在本发明中，我们标记行图像中的黑八连通域、黑四连通域、白八连通域和白四连通域，从而获得行图像中的黑八连通域密度(以下称为“B8”)、黑四连通域密度(以下称为“B4”)、白八连通域密度(以下称为“W8”)和白四连通域密度(以下称为“W4”)。每个连通域密度用下述公式计算：

连通域密度＝连通域个数/字符数

请注意，在如下所述的后续的行降噪步骤712中，发明人提出了各种实施例，其中某些实施例不需要使用上述的某些连通域密度。显然，在这种情况下，所述的某些连通域密度就不需要在此步骤中计算，从而也不需要标记相应的连通域。如果行降噪步骤712不使用连通域密度，则该步骤可以取消。

下面说明“连通域”这个概念。例如，“黑八连通域”是一个八连通的区域。“黑”的意思是连通域按黑像素确定。

也就是说，“黑八连通域”是一块八连通的黑像素。

“像素连通性”的概念描述了两个或者更多个像素之间的关系。对于两个像素，要成为相互连通的，它们必须在像素亮度和空间相邻性方面满足一定的条件。

首先，对于两个像素，要成为相互连通的，其像素值必须均在同一个像素值集合V中。对于灰度级图像，V可以是任何灰度级范围，例如V＝{22，23，…40}。对于二值图像，可以是V＝{1}。

为了给出用于连通性的相邻性标准的公式，首先要引入“邻域”的概念。对于具有坐标(x，y)的像素P，像素集合：

N4(p)＝{(x+1，y)，(x-1，y)，(x，y+1)，(x，y-1)}

称为其4-邻域。其8-邻域为下述集合：

N8(p)＝N4(p)∪{(x+1，y+1)，(x+1，y-1)，(x-1，y+1)，(x-1，y-1)}

由此可以得到四连通和八连通的定义：

对于两个像素p和q，其像素值均属于集合V，那么，如果其属于集合N4(p)，则是四连通的，如果其属于集合N8(p)，则是八连通的。

C.计数行图像中的黑像素数，计算行图像中的黑像素密度(以下称为“黑像素密度”)。

黑像素密度＝行图像中的黑像素数/(行宽×行高)

这里的行宽和行高以像素计。

请注意，对于如下所述的后续的行降噪步骤712和分类步骤718之后的行增强步骤，发明人提出了各种实施例，其中某些实施例不使用黑像素密度。在这种情况下，该步骤显然就不是必要的。

D.计数行间噪声数，计算行间噪声密度。

任何两个相邻行图像之间的区域称为行间图像。多数情况下，行图像和行间图像中的噪声分布是类似的。因此，行间图像中的噪声密度会反映行图像中的噪声密度。

当计数行间图像中的噪声数(行间噪声数)和计算行间噪声密度时，可以考虑每一个行间图像的整个区域，或者仅仅考虑整个区域的一部分。另外，可以仅仅考虑与有关行图像相邻的一个行间图像，该行间图像可以是有关行图像上方或者下方的那个行间图像。但是，我们也可以同时考虑有关行图像上方以及下方的两个行间图像。

在一个优选实施例中，行间噪声密度等于分别选自行图像上方和下方的行间图像中的两个区域的噪声数除以所述两个区域的按像素计的面积。

在另一个优选实施例中，所述两个区域与有关的行图像相邻，分别具有与行图像宽度相同的宽度，以及等于行图像高度1/10的高度。对于垂直行来说，类似地，所述两个区域分别在有关行图像的左侧和右侧。

在预分析之后，就可以开始增强行图像。第一个增强步骤是行降噪步骤712，其中对行图像降噪，生成降噪后的行图像714。

在行降噪步骤712以及如下所述的普通行图像增强步骤720、断笔行图像增强步骤722和空心笔划行图像增强步骤724中，可以采用各种图像增强技术，包括去除孤立像素、中值滤波器、平滑、弱膨胀和强膨胀。

去除孤立像素的操作是去除行图像中离散的单个黑像素，是本领域普通技术人员熟知的常用算法。中值滤波器也是众所周知的技术。

平滑操作是平滑字符图像的边缘。可以采用任何具有平滑效果的算法。作为例子，可以有中值滤波器或者均值滤波器，使用不同大小和形状的模板。为了进一步改进本发明的效果，发明人提出了一种在使用3×3模板的中值滤波器的基础上改进的平滑算法。

膨胀也是本领域公知的通用算法，其效果根据模板的大小和形状而定或强或弱。模板例如是2×2模板、2×3模板、3×2模板或者3×3模板等等。在本发明中，为了获得最佳效果，可以使用采用2×2模板的膨胀算法作为弱膨胀，使用采用3×3模板的膨胀算法作为强膨胀。

为了获得更好的降噪效果，上述各种降噪技术可以根据行图像或者行间图像的特性而相互结合使用。

在本发明中，在降噪时，根据行间噪声密度和/或黑像素密度和/或连通域密度采用适当的降噪方法。

具体地，发明人对该行降噪步骤提供了三种实施例：

A：首先去除行图像中的孤立像素，然后，如果行间噪声密度＞＝N1，则平滑行图像。这里，阈值N1为0.5到1.5，最好是1。

B：如果行间噪声密度大于0但不大于N1，则去除孤立像素；如果行间噪声密度＞N1，则利用中值滤波器处理行图像。这里阈值N1为3-7，最好是5。这种方案意味着，如果行间噪声密度等于0，则行降噪是不必要的。这例如对应于普通文档图像，比如完美的二值图像(即非半色调图像)的情况。

C：在本步骤的优选实施例，根据表1所示条件进行降噪。也就是，如果左侧的条件得到满足，则进行右侧所示的相应操作。例如，如果黑像素密度＜＝N1并且B8＜＝N4，则不进行任何操作，直接将行图像作为结果输出。表1中最后一行的意思是在表1未示出的条件下，去除行图像中的孤立像素。

请注意在表1中，以及随后的表示条件和相应的操作的表中，不同的行代表不同的条件及其相应的操作。“条件”栏表示要满足的条件，“操作”栏表示要执行的相应操作。在同一条件行中，各单元格中的所有条件都要满足。。例如，在表1中，仅当“黑像素密度＞N1”且“行间噪声数＞0”且“(行间噪声密度＞＝N4或者B8＜＝N6)且(黑像素密度＞＝N7或者B8＜＝N8)”时，才执行“平滑”操作。

表1

条件			操作
条件			操作	黑像素密度＞N1	行间噪声数＞0	(行间噪声密度＞＝N5或者B8＜＝N6)且(黑像素密度＞＝N7或者B8＜＝N8)	平滑
行间噪声数＝0	W4＞＝N2且B8＞＝N3	无			行间噪声数＞0	(行间噪声密度＞＝N5或者B8＜＝N6)且(黑像素密度＞＝N7或者B8＜＝N8)	平滑
行间噪声数＝0	W4＞＝N2且B8＞＝N3	无	黑像素密度＜＝N1，且B8＜＝N4			无
其它			黑像素密度＜＝N1，且B8＜＝N4			无	去除孤立像素

这里，阈值N1到N8可以是如表2所示的值：

表2

阈值	N1	N2	N3	N4	N5	N6	N7	N8
阈值	N1	N2	N3	N4	N5	N6	N7	N8	取值范围	9-15	20-30	20-30	45-55	0.5-1.5	15-25	15-25	130-170
优选值	12	25	25	50	1	20	19	150	取值范围	9-15	20-30	20-30	45-55	0.5-1.5	15-25	15-25	130-170

如“背景技术”部分所述，取决于宏观可见的外观，文档图像(或者行图像，或者字符图像)可以分为四种类型：断笔，空心笔划，锯齿形笔划和多噪声。在真正的半色调文档图像中，这四种特性及其组合都是很常见的。

上述步骤已经对行图像进行了降噪，而不管行图像是何种类型。随后的步骤的主要任务是增强断笔行图像、空心笔划行图像和锯齿形笔划行图像。通过试验，发明人发现锯齿形笔划行图像与普通行图像最为接近。因此，使用术语“普通行图像”时，也包括锯齿形笔划行图像。

在现有技术中，很难增强或者识别半色调文档图像，因为其中的缺陷不全都是噪声。尽管人眼能够很容易地区分它们，但传统的机器(或者算法)不能区分所述三种图像类型(所以，迄今为止，还没有技术能够将文档图像分为所述三种类型，更不用说对其加以区别处理)。

通过大量的试验，发明人发现连通域密度可用来表征不同的图像类型(同样，请注意，本说明书中的所有阈值都是通过试验获得的)。

这样，为了对降噪后的行图像分类，需要标记降噪后的行图像714中的连通域，获得相应的连通域密度。这是标记步骤716。该步骤与“行图像的预分析”部分所说明的标记操作类似，因此在此省略其详细说明。如下文所述，普通行图像增强步骤720、断笔行图像增强步骤722和空心笔划行图像增强步骤724也可以使用标记步骤716的标记结果。在该步骤中我们可以获得B4、B8、W4和W8。但是，请注意，对于本领域普通技术人员来说显而易见的是，该标记步骤716可以分布到随后的各步骤中去。也就是说，B4、B8、W4和W8的值可以在随后的需要它们的有关步骤中计算，而不是预先计算。

还请注意的是，对于如下文所述的随后的分类步骤718和之后的行增强步骤，发明人提出了多种实施例，其中部分实施例不需要使用上述的某些连通域密度。如果是这种情况，那么显然，所述某些连通域密度就不需要在此步骤中计算，也不需要标记相应的连通域。

根据标记步骤716的标记结果，在分类步骤718中将行图像分类为如上所述的三种类型。

在分类步骤的第一个实施例中，使用表3所示的标准。例如，如果W8＜＝T1且B8＞＝T2，则行图像是断笔行图像。

表3

连通域密度	W8	B8
连通域密度	W8	B8	断笔行图像	＜＝T1	＞＝T2
空心笔划行图像	＞T1	任何值	断笔行图像	＜＝T1	＞＝T2
空心笔划行图像	＞T1	任何值	普通行图像(包括锯齿形笔划行图像)	＜＝T1	＜T2

这里，阈值T1为2-4，最好是3；和阈值T2为3-5，最好是4。

在上表3中，W8和B8的值用作分类标准。显然，W4和B4的值也可以被用作分类标准。事实上，W4、B4、W8和B8的任何组合都可以用作分类标准，相应的阈值可以通过试验获得。

分类步骤716将产生三种结果。如果行图像是普通行图像，则接下来是普通行图像增强步骤720；如果是断笔行图像，则接下来是断笔行图像增强步骤722；如果是空心笔划行图像，接下来就是空心笔划行图像增强步骤724。下面描述这三个步骤。

(普通行图像增强)

对于普通行图像，其中可能存在锯齿形笔划，因此普通行图像增强步骤720的目的是使可能存在的锯齿形笔划平滑。

在本发明中，根据连通域密度，和/或字符高度，和/或普通行图像是否已被平滑过的事实，对普通行图像进行平滑，从而增强普通行图像。

具体地，发明人认为该步骤的下述三个实施例是优选的。但是，通过阅读本说明书，可以想出其它的实施例。

A：首先平滑行图像。然后，如果DPI＜＝300，则用中值滤波器处理行图像。中值滤波器可以使用3×3模板。

DPI(点每英寸)是扫描的图像的分辨率，可以从要处理的图像中读取。通常，普通行图像的DPI越高，则锯齿越少，对识别率的影响就越小。因此，没有必要对具有高DPI的普通行图像进行平滑。

B：如果DPI＞300或者W4＞＝N1，则平滑行图像。这里，阈值N1是2-4，最好是3。

C：如果DPI＞300且行图像未在行降噪步骤712中被平滑过，或者如果DPI＜＝300但W4＞＝N1且字符高度＞＝N2，则平滑行图像。这里阈值N1为1.5-2.5，最好是2；阈值N2是25-40，最好是30。

这里，字符高度就是有关水平行图像的高度，或者有关垂直行图像的宽度。

(断笔行图像增强)

对于断笔行图像，断笔行图像增强步骤722的目的是将断笔连接起来。

增强断笔行图像的核心是行图像的膨胀。如果必要，可以进行平滑操作。

A：首先对行图像进行强膨胀，然后用中值滤波器处理得到的行图像，该中值滤波器可以使用3×3模板。

B：如果W4＜N1，则对行图像进行弱膨胀。如果W4＞＝N1，则首先平滑行图像，然后重新标记得到的行图像，获得新的B8值，如果B8＞N2，则对得到的已平滑的行图像进行强膨胀。这里，阈值N1为3-7，最好是5，阈值N2为2-6，最好是4。

请注意，在断笔行图像增强步骤722的本实施例中，有一个重新标记操作，其类似于标记步骤716，因此在此省略其详细说明。

C：在断笔行图像增强步骤722的一个优选实施例中，进行如表4所示的操作。也就是，当W4＜N1时，根据字符高度值进行强膨胀或者弱膨胀，从而完成增强操作。

如果W4＞＝N1，则根据表4所示条件，对行图像进行平滑或者不进行平滑(如果在此步骤中平滑行图像，则对得到的平滑后的行图像进行重新标记，得到新的B8)。然后，对于该行图像(W4＞＝N1)，判断是否B8＞＝N5。如果B8＞＝N5，则对行图像进行强膨胀，而不管在此步骤中或者在行降噪步骤712是否对其进行过平滑。

同样请注意，断笔行图像增强步骤722的本实施例中，有一个重新标记操作，其类似于标记步骤716，因此在此省略其详细说明。

表4

条件		操作
条件		操作		W4＜N1	字符高度＞＝N2	强膨胀
字符高度＜N2	弱膨胀				字符高度＞＝N2	强膨胀
字符高度＜N2	弱膨胀		W4＞＝N1		W4＜N3且黑像素密度＞N4，且行图像未在行降噪步骤712中平滑过	平滑，然后重新标记	如果B8＞＝N5，则强膨胀
否则	无				W4＜N3且黑像素密度＞N4，且行图像未在行降噪步骤712中平滑过	平滑，然后重新标记

阈值N1到N5的值如表5所示：

表5

阈值	N1	N2	N3	N4	N5
阈值	N1	N2	N3	N4	N5	取值范围	9-15	30-60	15-30	8-15	3-5
优选值	10	45	20	12	4	取值范围	9-15	30-60	15-30	8-15	3-5

(空心笔划行图像增强)

对于空心笔划行图像，空心笔划行图像增强步骤724的目的是填充笔划中的空心区。

在本发明中，空心笔划行图像是通过平滑行图像然后对得到的行图像进行膨胀而进行增强的。

A：首先，用中值滤波器处理行图像，该中值滤波器可以使用3×3模板。然后，如果W4＞N1，则对得到的行图像进行强膨胀。这里，阈值N1是40-80，最好是60。这里，W4的值是在标记步骤716获得的值，但也可以在用中值滤波器进行处理后重新标记。如果重新标记，阈值的范围和优选值会发生变化，本领域的普通技术人员不需付出创造性劳动，仅仅通过试验即可获得所述范围和优选值。

B：首先平滑行图像。然后，如果W4＞N1，则对得到的行图像进行强膨胀。这里，阈值N1为40-80，最好是60。这里，类似地，W4的值是在标记步骤716获得的，但也可以在用中值滤波器进行处理后重新标记。如果重新标记，阈值的范围和优选值会发生变化，本领域的普通技术人员不需付出创造性劳动，仅仅通过试验即可获得所述范围和优选值。

C：如果在行降噪步骤中对行图像进行过平滑操作，并且如果B8＞＝N9，则对行图像进行强膨胀。如果未在行降噪步骤中对行图像进行过平滑，则对行图像进行第一处理步骤、再标记步骤和第二处理步骤。

第一处理步骤包括表6所示的操作：

表6：

条件		操作
条件		操作	黑像素密度＜＝N1		强膨胀
黑像素密度＞N1	B8＜N2且B4＜N4	平滑	黑像素密度＜＝N1		强膨胀
	B8＜N2且B4＜N4	平滑	B8＞N3	平滑
	N2＜＝B8＜＝N3	去除孤立像素，然后强膨胀	B8＞N3	平滑

再标记步骤类似于标记步骤716，因此在此省略其详细说明。通过对从第一处理步骤获得的行图像进行重新标记，获得新的W4、W8和B4、B8值。

第二处理步骤包括下述操作：如果B8＞＝N5且W4＞＝N8，则对从第一处理步骤获得的行图像进行强膨胀；如果B8＜N5且W8＞N6且W4＞N7，则对从第一处理步骤获得的行图像进行弱膨胀。

这里，阈值N1到N9可以是如表7所示的值：

表7：

阈值	N1	N2	N3	N4	N5	N6	N7	N8	N9
阈值	N1	N2	N3	N4	N5	N6	N7	N8	N9	取值范围	9-15	3-5	20-40	80-120	4-8	10-20	50-70	40-60	3-5
优选值	12	4	30	100	6	15	60	60	4	取值范围	9-15	3-5	20-40	80-120	4-8	10-20	50-70	40-60	3-5

在普通行图像增强步骤720、断笔行图像增强步骤722或者空心笔划行图像增强步骤724之后，获得增强的行图像。所有的增强的行图像，与在块降噪步骤704获得的行间图像一起，构成增强的块图像。

在上面已经详细描述了本发明的文档图像增强方法的优选实施例的步骤。几乎对每一步骤，都给出了不止一种实施方式。显然，各步骤的各种实施方式可以以任意方式加以组合，因此本发明的方法的优选实施例实际上包括许多变型。

(优选实施例的一个变型)

上述优选实施例旨在增强从原始文档图像分割出来的块图像。但是，本发明还可以包括一个块分割步骤104，如图7A所示，以便能够直接增强从扫描装置(比如复印装置的扫描装置)输入的原始文档图像。

图8A和8B到图11A和11B图解了本发明的效果。图8A、9A、10A和11A示出了分别具有背景噪声、断笔、空心笔划和锯齿形笔划的图像的例子。图8B、9B、10B和11B为相应的增强后的图像。可以看出，图像的视觉外观得到了很大的改善。因此本发明也可以用于一般的目的，例如用在复印装置中。

字符识别方法

本发明还提供利用本发明的文档图像增强方法的字符识别方法。

图7C图示了本发明的字符识别方法的一个实施例。除了图7A和7B所示的步骤之外，该方法还包括一个字符分割步骤112和单字符识别步骤116，这两个步骤都是已知技术。

应用本发明可以大大提高文档图像尤其是半色调文档图像的识别率。通过利用本发明的增强方法和不利用本发明的增强方法来识别一些样本，发明人评估了本发明。评估结果如图12和13所示。

用于评估的半色调文档图像是从杂志、打印文件、书籍和报纸上用“Canon Image Runner2800”拷贝下来的，并用本发明所定义的特性对图像进行分类。半色调文档图像的文件格式是“TIFF”，DPI包括300、400和600。字符总数为71244，其中：多噪声字符数为23339；断笔字符数为13961；空心笔划字符数为17689；锯齿形笔划字符数为16255。

如图12所示，在使用本发明的增强方法后，总体识别率大大提高。图13图示了有增强和无增强时各种类型的相应识别率。

本发明还提供一种文档图像增强装置和字符识别装置，下面对其进行详细说明。与前述方法类似，构成本发明的文档图像增强装置和字符识别装置的任何部件可以是前述任何信息处理设备的部件或者部件的组合，或者安装或结合在前述任何信息处理设备中的软件和/或硬件和/或固件的组合。对于本领域普通技术人员，很容易实现本发明的设备的所述部件。同样，对于本领域普通技术人员显而易见的是，每个所述部件的运行都涉及输入输出设备、存储设备、微处理器比如CPU等的使用。下文对本发明的装置的说明不一定提及这些设备，但实际上使用了这些设备。例如，原始图像和每一个中间处理结果必然临时地或者永久地存储在某处，直到完成所述过程。作为前述信息处理设备的一个具体实例，前文已经描述过一个计算机***，其描述在此不再赘述。

文档图像增强装置

(优选实施例)

图14图示了所述文档图像增强装置1400的优选实施例，下面描述其组件。

存储装置1406用来存储要增强的原始块图像、中间图像和最终图像，以及其它中间结果比如如下所述的行图像或者行间图像的特性。

第一噪声过滤器1404用来对原始块图像降噪，得到降噪后的块图像。第一噪声过滤器1404可以是上文结合文档图像增强方法所描述的任何过滤器。具体地，它可以是中值滤波器或者均值滤波器。使用3×3模板的中值滤波器最好。

行分割装置1408用来分割降噪后的块图像，产生行图像的位置信息。行分割装置属于已知技术。

预分析器1410用来分析原始块图像中的行图像和行间图像得到行图像和行间图像的特性。如上所述，这些特性可以包括每个行图像中的字符数、行间噪声数、行间噪声密度、每个行图像中的黑像素密度和连通域密度(可以包括W4、W8、B4或者B8)。相应地，预分析器1410可以，如图15所示，包括用来如上所述计算每一个行图像中的字符数的字符计数器1502，用来标记每一个行图像中的连通域、并根据连通域个数和从字符计数器1502获得的字符数计算相应的连通域密度的标记器1504，用来如上所述计数行间图像中的噪声数并如上所述计算行间噪声密度的行间噪声计数器1506，以及黑像素密度计算器1508，用来计算每一个行图像中的黑像素密度。这里，预分析器1410中的标记器1504可以省略，预分析器1410可以使用如下所述的标记装置。

第二噪声过滤器1416用来根据如上所述的特性对原始块图像中的行图像降噪，得到降噪后的行图像。降噪操作的具体方式已经在“文档图像增强方法”部分进行了描述。

标记装置1412用来标记图像中的连通域，得到图像中的各种连通域的密度，并用来标记从第二噪声过滤器得到的降噪后的行图像，如果需要，还标记其它中间行图像，比如在普通行图像增强装置1420、空心笔划行图像增强装置1422和断笔行图像增强装置1424中生成的行图像。标记装置1412基本上与如上所述的预分析器1410中的标记器1504相同，并且二者可以集成为一个部件。

分类装置1418用来根据从标记装置1412获得的连通域密度将降噪后的行图像分类为三种类型，包括普通行图像、断笔行图像和空心笔划行图像。具体分类方式上文已经进行了描述。

普通行图像增强装置1420用于根据上述特性通过平滑行图像来增强普通行图像。空心笔划行图像增强装置1422用来根据所述特性，通过填充行图像的笔划中的空心区域来增强空心笔划行图像。断笔行图像增强装置用来根据所述特性，通过将行图像中的断笔连接起来，来增强断笔行图像。所述增强装置的具体操作已经在上文的“文档图像增强方法”部分进行了描述。

普通行图像增强装置1420、空心笔划行图像增强装置1422和断笔行图像增强装置1424的操作有可能需要使用在标记装置1412中产生的连通域密度。并且，如上所述，增强装置可能要由所述标记装置重新标记器中间结果，并利用重新标记的结果来进一步增强行图像。

文档图像增强装置还包括一个控制器，用来控制上述部件的操作，确保每一个行图像都得到处理。

(优选实施例的一个变型)

上述优选实施例旨在增强已经从原始文档图像分割出来的块图像。但是，本发明的装置也可以包括一个块分割装置(图中未示出)，以便能够直接增强从扫描装置比如复印装置的扫描装置输入的原始文档图像。

字符识别装置

本发明还提供一种字符识别装置1600(图16)，其包括用来分割原始文档图像以获得块图像的块分割装置1602、上述文档图像增强装置1400、用来将增强的块图像中的行图像分割为单字符图像的字符分割装置1604，以及单字符识别装置1606，用来识别每一个单字符图像。块分割装置1602、字符分割装置1604和单字符识别装置1606均为现有技术。

存储介质

本发明的所述目的还可以通过在如上所述的可以与所述图像源和后续处理设备通信的任何信息处理设备上运行一个程序或者一组程序来实现。所述信息处理设备、图像源和后续处理设备为公知的通用设备。因此，本发明的所述目的也可以仅仅通过提供实现所述文档图像增强方法或者字符识别方法的程序代码来实现。也就是说，存储有实现所述文档图像增强方法或者字符识别方法的程序代码的存储介质构成本发明。

对于本领域技术人员来说，可以轻易地用任何程序语言编程实现所述文档图像增强方法或者字符识别方法。因此，在此省略了对所述程序代码的详细描述。

显然，所述存储介质可以是本领域技术人员已知的，或者将来所开发出来的任何类型的存储介质，因此也没有必要在此对各种存储介质一一列举。

尽管结合具体步骤和结构描述了本发明，但是本发明不局限于这里所描述的细节。本申请应当覆盖所有不偏离本发明的精神和范围的变化、修改和变型。例如，关于如上所述的文档图像增强装置和字符识别装置，各种组件可以独立实现，或者其中某些组件可以集成在一起，例如，各种存储器包括用于存储文档图像的存储器可以在物理上是一个存储器。任何组件的功能还可以分布到多于一个的组件中。另外，本发明的文档图像增强方法和装置不仅能应用于字符识别，而且能应用于各种目的的图像增强，比如用在复印装置中。另外，本发明中的评估结果和使用的阈值都是将本发明应用于汉字文档图像得到的。在阅读本说明书后，本领域的普通技术人员很容易将本发明应用于任何语言的文档图像，只需通过普通的试验将阈值稍许修改。因此，毫无疑问，本发明的保护范围覆盖任何语言的文档图像的增强和识别。

Claims

1.一种文档图像增强方法，包括下列步骤：

对原始块图像降噪，得到降噪后的块图像；

分割降噪后的块图像，得到行图像的位置信息；

预分析原始块图像中的行图像和行间图像，得到行图像和行间图像的特性；

根据所述特性对原始块图像中的行图像降噪，得到降噪后的行图像；

标记降噪后的行图像中的连通域，得到降噪后的行图像中各种连通域的密度；

根据所述连通域密度，将降噪后的行图像分类为三种类型，包括普通行图像、断笔行图像和空心笔划行图像；

根据其类型和所述特性增强降噪后的行图像，得到增强的行图像，全体行图像与在原始块图像降噪步骤获得的行间图像一起，构成增强的块图像。

2.如权利要求1所述的文档图像增强方法，其特征在于，所述特性包括至少下述之一：

连通域密度，等于行图像中的连通域个数除以该行图像中的字符数，包括黑八连通域密度、黑四连通域密度、白八连通域密度和白四连通域密度中的至少一种；

黑像素密度，等于行图像中的黑像素数除以行图像的以像素计的面积；

从有关行图像上方和下方的行间图像选取的预定区域中的行间噪声数；

行间噪声密度，等于所述行间噪声数除以所述区域的面积；

字符高度，等于有关行图像的高度；

DPI，从原始块图像读取。

3.根据权利要求2所述的文档图像增强方法，其特征在于，所述行图像降噪步骤包括：根据行间噪声密度，和/或黑像素密度，和/或连通域密度对行图像降噪。

4.根据权利要求1到3之一所述的文档图像增强方法，其特征在于，降噪后的行图像中的连通域密度等于降噪后的行图像中的连通域个数除以行图像中的字符数，包括黑八连通域密度、黑四连通域密度、白八连通域密度和白四连通域密度中的至少一种。

5.根据权利要求4所述的文档图像增强方法，其特征在于，在所述分类步骤，分类标准是：

如果白八连通域密度＜＝T1且黑八连通域密度＞＝T2，则行图像为断笔行图像；

如果白八连通域密度＞T1，则行图像为空心笔划行图像；

如果白八连通域密度＜＝T1且黑八连通域密度＜T2，则行图像为普通行图像；

其中阈值T1为2-4，阈值T2为3-5。

6.根据权利要求5所述的文档图像增强方法，其特征在于，T1为3且T2为4。

7.根据权利要求1到3之一所述的文档图像增强方法，其特征在于，在所述增强步骤中：

通过平滑所述普通行图像来增强所述普通行图像；

通过填充其笔划中的空心区域来增强所述空心笔划行图像；

通过将其中的断笔连接起来来增强所述断笔行图像。

8.根据权利要求7所述的文档图像增强方法，其特征在于，所述增强普通行图像的步骤包括：根据所述连通域密度，和/或字符高度，和/或普通行图像是否已被平滑过的事实，来平滑所述普通行图像。

9.根据权利要求7所述的文档图像增强方法，其特征在于，所述增强断笔行图像的步骤包括下述步骤：

对断笔行图像进行强膨胀；

用中值滤波器处理所得到的行图像。

10.根据权利要求7所述的文档图像增强方法，其特征在于，取决于连通域密度和/或字符高度，所述增强断笔行图像的步骤包括对行图像进行强膨胀的步骤或者对行图像进行弱膨胀的步骤。

11.根据权利要求10所述的文档图像增强方法，其特征在于，所述对行图像进行强膨胀的步骤还包括：平滑步骤，以及根据平滑后的行图像的连通域密度对行图像进行强膨胀的步骤。

12.根据权利要求11所述的文档图像增强方法，其特征在于，所述平滑步骤包括：根据所述连通域密度和行图像以前是否被平滑过的事实，平滑所述行图像。

13.根据权利要求7所述的文档图像增强方法，其特征在于，所述增强空心笔划行图像的步骤包括：平滑所述行图像的步骤，以及膨胀所得到的行图像的步骤。

14.根据权利要求13所述的文档图像增强方法，其特征在于，所述膨胀行图像的步骤包括：根据连通域密度判断是否进行膨胀的步骤，和/或根据连通域密度确定对行图像是进行强膨胀还是进行弱膨胀的步骤。

15.根据权利要求13所述的文档图像增强方法，其特征在于，平滑所述行图像的步骤包括：根据连通域密度以及行图像是否已被平滑过的事实判断是否对行图像进行平滑的步骤，和/或根据连通域密度确定平滑方法的步骤。

16.一种字符识别方法，包括下述步骤：

分割原始文档图像，得到原始块图像；

对原始块图像降噪，得到降噪后的块图像；

分割降噪后的块图像，得到行图像的位置信息；

根据其类型和所述特性增强降噪后的行图像，得到增强的行图像；

将增强的行图像分割为单字符图像；

识别所述单字符图像。

17.一种文档图像增强装置，包括：

存储装置，用于存储要增强的原始块图像、中间图像和最终图像，以及其它的中间结果；

第一噪声过滤器，用于对原始块图像降噪，得到降噪后的块图像；

行分割装置，用于分割降噪后的块图像，生成行图像的位置信息；

预分析器，用于对原始块图像中的行图像和行间图像进行预分析，得到行图像和行间图像的特性；

第二噪声过滤器，用于根据所述特性对原始块图像中的行图像进行降噪，得到降噪后的行图像；

标记装置，用于标记降噪后的行图像中的连通域，得到降噪后的行图像中的各种连通域的密度；

分类装置，用于将降噪后的行图像分为三种类型，包括普通行图像、断笔行图像和空心笔划行图像；

普通行图像增强装置，用于根据上述特性，通过平滑行图像来增强普通行图像；

空心笔划行图像增强装置，用于根据上述特性通过填充行图像中的笔划中的空心区域来增强空心笔划行图像；

断笔行图像增强装置，用来根据所述特性，通过将行图像中的断笔连接起来来增强断笔行图像；和

控制器，控制上述部件的操作，确保每一个行图像都得到处理。

18.根据权利要求17所述的文档图像增强装置，其特征在于，所述预分析器包括至少下述之一：

字符计数器，用来计算每一个行图像中的字符数；

标记器，用来标记每一个行图像中的连通域，根据所述连通域个数和从字符计数器获得的字符数计算相应的连通域密度；

行间噪声计数器，用来计数所述行间图像中的预定区域中的噪声数，计算所述预定区域中的行间噪声密度；和

黑像素密度计算器，用来计算每一个行图像中的黑像素密度。

19.根据权利要求18所述的文档图像增强装置，其特征在于，所述标记装置和所述预分析器中的标记器集成为一个部件。

20.根据权利要求17到19之一所述的文档图像增强装置，其特征在于，所述标记装置还用来重新标记普通行图像增强装置、空心笔划行图像增强装置或者断笔行图像增强装置的中间结果，所述增强装置利用重新标记结果进一步增强所述行图像。

21.一种字符识别装置，包括如权利要求17所述的文档图像增强装置，还包括用于分割原始文档图像以获得所述块图像的块分割装置，用于将行图像分割为单字符图像的字符分割装置，以及用于识别每一个单字符的单字符识别装置。

22.一种文档图像增强方法，包括下列步骤：

标记图像中的连通域；

根据连通域的密度，将图像分类为三种类型，包括普通行图像、断笔行图像和空心笔划行图像；

根据所述分类的类型增强所述图像。

23.根据权利要求22所述的文档图像增强方法，其特征在于，在增强步骤中：

通过平滑来增强普通行图像；

通过填充其笔划中的空心区域来增强空心笔划行图像；

通过将其中的断笔连接起来来增强断笔行图像。

24.根据权利要求23所述的文档图像增强方法，其特征在于，增强断笔行图像的步骤包括下列步骤：

对断笔行图像进行强膨胀；

用中值滤波器处理所得到的行图像。

25.根据权利要求23所述的文档图像增强方法，其特征在于，根据所述标记结果，增强断笔行图像的步骤包括对行图像进行强膨胀的步骤，或者对行图像进行弱膨胀的步骤。

26.根据权利要求23所述的文档图像增强方法，其特征在于，所述增强空心笔划行图像的步骤包括平滑所述行图像的步骤和膨胀所得到的行图像的步骤。