CN102782705B

CN102782705B - 包括经历ocr处理的文本的图像的分辨率调整

Info

Publication number: CN102782705B
Application number: CN201180012992.4A
Authority: CN
Inventors: D.尼耶姆塞维奇; M.乌德利亚; B.德雷塞维奇
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-03-09
Filing date: 2011-03-07
Publication date: 2015-11-25
Anticipated expiration: 2031-03-07
Also published as: US8311331B2; CA2790210C; WO2011112497A3; US20110222772A1; EP2545498A4; EP2545498A2; WO2011112497A2; EP2545498B1; CN102782705A; CA2790210A1

Abstract

一种光学字符识别处理通过它们的基线、中线和x-高度表征文本图像中的文本行。通过找出使第一吻合函数最大的参数曲线确定图像中的至少一个文本行的基线，该第一吻合函数取决于参数曲线通过的像素和在参数曲线下面的像素的数值。通过向上递增地将基线移动预定数量（例如，单个像素）直到使偏移基线的第二吻合函数最大来确定中线。第二吻合函数基本上就是第一吻合函数的反向。具体地说，第二吻合函数随着正好在偏移基线上面的像素的明亮度增大而增大，同时也随着偏移基线通过的像素的明亮度减小而增大。

Description

包括经历OCR处理的文本的图像的分辨率调整

背景技术

光学字符识别（OCR）是一般在标准编码方案下，文本的图像到作为机器可编辑文本的数字形式的基于计算机转换。这个过程消除了将文档手打到计算机***中的需要。由于差的图像质量、扫描过程造成的瑕疵等，可能引起许多不同的问题。例如，传统OCR引擎可以与扫描文本页面的平板扫描仪耦合。由于页面直接靠着扫描仪的扫描表面放置，因此扫描仪生成的图像通常呈现均匀的对比度和亮度、减小的扭曲和失真以及高的分辨率。因此，OCR引擎可以容易地将图像中的文本转换成机器可编辑文本。然而，当图像在对比度、亮度、扭曲等方面的质量较差时，OCR引擎的性能可能下降，并且处理时间可能由于处理图像中的所有像素而增加。例如，当图像由基于成像器的扫描仪生成时，可能就是这种情况，这是由于从远处、从变化取向以及以变化亮度扫描文本/图片。即使扫描过程的性能是好的，当正扫描相对低质量的文本页面时，OCR引擎的性能也可能下降。

发明内容

光学字符识别需要辨认文本图像中的文本行，以便辨认各个单词和字符。文本行可以通过它们的基线、中线和x-高度来表征。当扫描图像遭受非线性失真的一些类别的文档（例如，厚书）时，可能引起文本行不完全水平，当文本行不完全水平时，可能就变得难以确定这些特征。在这样的情况下，基线和中线在整个文本行中可能不是常数。

为了克服这些问题，在一种实现中，通过找出使第一吻合函数最大的参数曲线确定图像中的至少一个文本行的基线，该第一吻合函数取决于参数曲线通过的像素和在参数曲线下面的像素的数值。基线对应于使第一吻合函数最大的参数曲线。第一吻合函数被设计成随着正好在参数曲线下面的像素的明亮度或亮度增大而增大，同时也随着参数曲线通过的像素的明亮度减小而增大。

在一些实现中，可以通过向上递增地将基线移动预定数量（例如，单个像素）直到使偏移基线的第二吻合函数最大来确定中线。第二吻合函数基本上就是第一吻合函数的反向。具体地说，第二吻合函数随着正好在偏移基线上面的像素的明亮度增大而增大，同时也随着偏移基线通过的像素的明亮度减小而增大。

在一些实现中，可以从已经计算的基线和中线中确定x-高度。尤其，x-高度等于使基线向上移动以便使第二吻合函数最大的预定数量。

提供此发明内容部分是为了介绍下面在具体实施方式部分中进一步描述的简化形式的概念的选择。此发明内容部分不是打算辨认要求保护主题的关键特征或基本特征，也不是打算用于帮助确定要求保护主题的范围。

附图说明

图1示出用于图像中的光学字符识别（OCR）的***5的一个例示性例子。

图2示出扫描图像中不完全水平的文本行的例子。

图3例示扫描图像中的单个单词的文本行的基线。

图4是例示为不同文本行组确定x-高度的过程的流程图。

图5示出可以执行提取有关文本图像中的文本行的信息的过程的图像处理装置的一个例子。

具体实施方式

图1示出用于图像中的光学字符识别（OCR）的***5的一个例示性例子，该***5包括生成文档15的图像的数据捕获装置（例如，扫描仪10）。扫描仪10可以是将电荷耦合器件用作图像传感器来生成图像的基于成像器的扫描仪。扫描仪10处理图像以生成输入数据，并将输入数据发送给用于图像内的字符识别的处理装置（例如，OCR引擎20）。在这个特定例子中，OCR引擎20被并入扫描仪10中。但是，在其它例子中，OCR引擎20可以是像独立单元那样的分立单元或并入像PC、服务器等那样的另一台设备中的单元。

OCR引擎20接收文本图像作为文本行的位图。需要确定的那些文本行的三个参数是“基线”、“中线”和“x-高度”。将“基线”定义成通过一行文本中的大多数字符（除了下伸字母之外）的底端的水平线。其次，将“中线”定义成通过一行文本中的大多数字符（除了上行字母之外）的顶端的水平线。第三，将“x-高度”定义成基线与中线之间的垂直距离，其对应于该行中的大多数小写字母（除了下行字母和上行字母之外）的高度。

由于许多原因，尤其在相同形状的大写字母和小写字母之间区分时，知道精确的基线和x-高度是重要的。如果文本行完全水平并且只包含一种字体和大小，则基线和x-高度在整个行上都保持常数值。针对完全水平文本行计算这些值不是困难的任务。但是，当扫描一些类别的文档（例如，厚书）时，文档图像可能遭受非线性失真。在这样的情况下，基线坐标在整个文本行上将不会是常数。

包含这种重影的文本行的例子显示在图2中。可以看出，文本具有从行的中间向左或向右平均字母位置减小引起的“波浪状”外观。这种性质的重影使得更加难以确定基线。

从文本图像中提取x-高度信息也可能成问题。例如，有时大部分文本行（或甚至整个文本行）由大写字母或数字组成。在这样的情况下，将行的位图用作唯一信息源来提取x-高度是不可靠的。图2还示出基线、中线和x-高度。

如下详述，提供了一种以参数曲线的形式计算变形文本行的基线的方法。此外，使用从整个图像中获得的上下文信息估计给定行的最可能的x-高度值。

基线计算

首先，可以从基线定义中得到两个观察：

·由于大多数字体的性质，基线将与源自字母底部的大量暗像素重叠。

·正好在基线的下面没有暗像素（除了下降字母部分之外）。

与基线严格水平还是（在非线性变形的情况下）“波浪状”无关，应该可以根据从这些观察中获得的至少两个特性建立简单的吻合函数。

·特性1：随着正好在基线下面的像素变得更明亮（即，更亮），吻合函数的值将增大（反之亦然）。

·特性2：随着与基线重叠的像素变得更暗，吻合函数的值将增大（反之亦然）。

在给定文本行位图中找出基线的目标转换成找出具有最大吻合函数值的（曲）线的问题。

可以将光栅化基线实现成阵列：对于输入位图的每个x坐标，应该有一个且只有一个描述局部基线值的y坐标。考虑到这一点，吻合函数的简单推荐函数是：

其中：

·x和y分别是水平和垂直像素坐标（原点在左上角）

·img[y,x]是地点（y,x）上的输入位图的像素值

·width是输入位图的宽度

·baseline[x]是基线在位置x上的y坐标

可以观察到，吻合函数的公式满足特性1和特性2两者。由于典型灰度图像中的像素颜色从黑色（值：0）变到白色（值：255），所以如下各点保持成立：

·随着正好在基线下面的像素变得更明亮，公式中的第一被加数将变得更大。

·随着基线上的像素变得更暗，公式中的第二被加数变得更大。

在图3中展示了例示这种看法的文本的简图。可以从图3中观察到，基线与相对大量的暗像素重叠，而正好在基线下面的像素是完全白色的。

在定义了基线应该满足的准则之后，引起的另一个问题是当吻合函数达到最大时基线应当如何在文本行宽度之间“迅速”变化的。显然，这种变化率应该足以跟踪线的“波浪性”。

另一方面，变化率不应该太快，这是因为不希望下降字符的底部影响基线形状。解决这个问题的一种方式是通过一小组控制参数定义基线候选者，并限制每个参数可以采用的值的范围。这样，基线候选者的形状可以通过改变其控制参数来改变。

使吻合函数最大的曲线可以通过一组与直线段连接的控制点定义它来参数化。曲线的形状可以通过移动其控制点来改变。以获得良好性能结果的方式控制控制点的移动的一种方式只使控制点具有在垂直方向的运动自由度。这种做法已经证明，在模拟常见“波浪”基线时，一组4-6个等距离控制点就表现得很出色。

将基线的曲线参数化的第二种方式是将它定义成B-样条。改变其形状可以通过改变样条系数来完成。

一般说来，找出使某种吻合函数最大的确切形状可以认为是可以使用众所周知的技术求解的经典优化问题。取决于用于描述基线曲线的参数的数量和性质，可以使用遗传搜索、动态规划或一些其它技术。

如果进行遗传搜索，则初始群体可以是在某个合理范围内随机设置参数的一组曲线。通过采用两条高度吻合曲线并将它们的参数混合成新曲线形成新后代。通过稍微改变曲线参数可以发生突变。

曲线参数也可以通过动态规划来优化。该解决方案需要在服从常见曲线形状施加的空间约束的同时，找出从文本行的左侧出发并且朝着其右侧移动的最佳路径。

x-高度计算

中线（确定没有上升小写字母终止的线）可以以与上述基线计算过程非常类似的方式计算。实际上，将上述的吻合函数反向并重新运行该算法就足够了。也就是说，中线的吻合函数应该满足如下两个特性：

·特性1：随着正好在基线上面的像素变得更明亮，吻合函数的值将增大（反之亦然）。

一旦确定了中线，然后就可以通过简单相减相应中线和基线坐标提取x-高度。但是，这个过程带来了额外的计算负担，使整个特征提取执行时间实实在在地加倍。

实际上，本文所讨论的那种类型的非线性变形对各自字母尺度没有什么影响。换句话说，倘若该行包含相同字体和大小的字母，则x-高度从“波浪”文本行的一端到另一端不会改变。这个结论有助于计算x-高度的过程，这是因为这直接意味着中线和基线的曲线具有完全相同的形状。于是，可以以如下两种方式计算中线：向文本行的顶部逐个像素地平移基线的曲线，并且每当向上移动曲线时就计算反向吻合函数。当吻合函数达到其最大值时所得的偏移曲线就是中线。将基线曲线向上移动以获得中线的像素数量等于x-高度。

有时，各个文本行的输入位图不能用作在整个图像上为x-高度获取单个值的唯一信息源。例如，一些文本行可能是只由数字组成的短行。另一个例子是全部都是大写字母的标题。由于这样的情况，x-高度计算有时可能以有些更复杂的方式进行。

在这种实现中，在计算x-高度之前，确定是否应该将图像中的文本行划分成每一个有可能包含x-高度不同的文本行的不同组。这样的文本行组可以以多种多样的不同方式确定。例如，可以按照它们的主导字母笔划宽度将文本行分组。这种做法基本上假定了不同的x-高度是使用不同字体和字体大小引起的，并且每个这样的字体和字体大小通过不同主导笔划宽度来表征。因此，具有共同主导笔划宽度的文本行组有可能具有共同的x-高度。

主导笔划宽度可以在OCR处理的这个阶段确定，或可以在本文所述的文本行分析之前的较早处理阶段中确定。确定笔划宽度的方法的一个例子显示在美国专利申请第12/720,732号（代理人案号328299.01）中，特此通过引用将其全文并入本文中。

在一个可替代实施例中，取代通过它们的主导笔划宽度分组文本行，可以将各个单词划分成它们自己的组。

为了确定特定组的x-高度，从将中线候选者[j]定义成向上移动了j个像素的基线曲线开始。接着，对于每个组，建立共同缓冲量。对于组中的每个文本行，将中线候选者[j]的反向吻合函数加入该缓冲量中。在该过程结束时，缓冲量的元素j将包含特定组内所有中线候选者[j]的反向吻合函数的总和。特定组的最可能x-高度值对应于缓冲量具有其最大值的j的值。

例示为不同文本行组确定x-高度的过程的流程图显示在图4中。当通过像字体大小、主导笔划宽度等那样的任何适当准则将图像中的文本行划分成组时，该过程以步骤105开始。对于每个组，该过程从步骤110继续到步骤115，在步骤115中建立累计缓冲量并将其初始化成零的值。接着，对于组内的每个文本行，该过程从步骤120转到步骤125，在步骤125中将j初始化成零并将中线候选者初始化成基线。在步骤135中将j的值加1，这对应于将基线曲线向上移动一个像素。在步骤140中计算这种中线的吻合函数（对应于基线的反向吻合函数）。此外，在步骤140中，将累计缓冲量定义成其以前值与刚刚计算的吻合函数的值之和。然后，判定步骤145确定是否已到达累计缓冲量的最大值。如果是，则在步骤150中，将与这个最大值相对应的j的当前值确定为这个组的x-高度。可替代地，如果尚未达到累计缓冲量的最大值，则该过程从判定步骤145反转到步骤130，在步骤130中将当前中线向上移动1个像素。这个过程一直继续直到已经到达累计缓冲量的最大值为止。一旦为这个组确定了x-高度值，则该过程返回到步骤120，对文本行的任何其余组重复该过程，最后结束在步骤155上。

图5示出可以执行提取有关文本图像中的文本行的信息的过程的图像处理装置300的一个例子。可以并入OCR引擎中的该装置300可以被OCR引擎用于确定图像中的文本行的基线、中线和x-高度。该装置300包括接收输入图像的输入组件302、和找出与图像中的文本行的基线和中线相对应的参数曲线的参数化引擎310。参数化引擎310包括基线确定组件322、中线确定组件324和x-高度确定组件324。该装置300还包括以使OCR引擎的随后组件可以应用的形式生成有关文本行的信息的输出组件330。

如本申请所使用，术语“组件”、“模块”、“引擎”、“***”、“装置”、“接口”等一般意欲指计算机相关实体，如硬件、硬件和软件的组合、软件、或正在执行的软件。例如，一个组件可以是但不限于运行在处理器上的进程、处理器、目标代码、可执行代码、执行线程、程序和/或计算机。举例来说，运行在处理器上的应用程序和处理器两者都可以是组件。一个或多个组件可以驻留在进程和/或执行线程内，并且组件可以位于一台计算机上和/或分布在两台或更多台计算机之间。

而且，要求保护的主题可以使用标准编程和/或工程技术实现成方法、装置或制品，以便形成控制计算机实现所公开主题的软件、固件、硬件、或它们的任何组合。如本文使用的术语“制品”意欲包含可从任何计算机可读设备、载体或媒体访问的计算机程序。例如，计算机可读媒体可以包括但不限于磁存储设备（例如，硬盘、软盘、磁条…）、光盘（例如，致密盘（CD）、数字多功能盘（DVD）…）、智能卡和闪速存储设备（例如，存储卡、存储棒、密钥驱动器…）。当然，本领域的普通技术人员应该认识到，可以不偏离要求保护主题的范围或精神地对这种配置作许多修改。尽管用结构特征和/或方法行为特有的语言对主题作了描述，但要明白的是，限定在所附权利要求书中的主题未必局限于上面所述的特定特征或行为。而是，上面所述的特定特征和行为是作为实现权利要求书的示范性形式公开的。

Claims

1.一种提取表征图像中的文本行的信息的***，其包含：

输入组件，用于接收包括文本行的输入图像的位图；以及

参数化引擎，用于通过找出使吻合函数最大的参数曲线为图像中的至少一个文本行确定基线，该吻合函数取决于参数曲线通过的像素和在参数曲线下面的像素的数值，其中该基线对应于使吻合函数最大的参数曲线；

其中该参数化引擎被配置成将吻合函数定义成fitness(baseline)，并等于：

其中：

x和y分别是水平和垂直像素坐标；

img[y,x]是位图在地点（y,x）上的像素值；

width是位图输入图像的宽度；以及

baseline[x]是基线在位置x上的y坐标。

2.如权利要求1所述的***，其中该参数化引擎被配置成至少一个控制参数约束参数曲线的至少一种特征。

3.如权利要求2所述的***，其中该参数化引擎被配置成通过控制参数确定的参数曲线的特征是参数曲线沿着文本行的最大变化率。

4.如权利要求1所述的***，其中该参数化引擎被配置成该参数曲线包括通过直线连接的多个控制点，其中该控制点被约束成只在垂直方向移动。

5.如权利要求1所述的***，其中该参数化引擎被配置成将该参数曲线定义成具有通过其样条系数确定的形状的B-样条。

6.如权利要求1所述的***，其中该参数化引擎被配置成使用优化技术使吻合函数最大。

7.如权利要求6所述的***，其中该参数化引擎被配置成从由遗传搜索和动态规划组成的群组中选择所述优化技术。

8.如权利要求1所述的***，其中该参数化引擎进一步包含为至少一个文本行确定平均高度的平均高度确定组件。

9.如权利要求8所述的***，其中该平均高度确定组件通过针对第二参数曲线使第二吻合函数最大来确定平均高度，其中第二吻合函数随着正好在第二参数曲线上面的像素的明亮度增大而增大，并且还随着第二参数曲线通过的像素的明亮度减小而增大。

10.如权利要求9所述的***，其中该平均高度确定组件通过如下步骤确定平均高度：

向上递增地将基线移动预定数量直到使偏移基线的第二吻合函数最大，其中第二吻合函数随着正好在偏移基线上面的像素的明亮度增大而增大，并且也随着偏移基线通过的像素的明亮度减小而增大。

11.如权利要求10所述的***，进一步包含为至少一个文本行确定x-高度的x-高度确定组件，其中x-高度等于为了使第二吻合函数最大而将基线向上移动的预定数量之和。

12.如权利要求1所述的***，其中该参数化引擎为输入图像中的不同文本行组确定不同基线。

13.如权利要求11所述的***，其中该参数化引擎根据它们的主导笔划宽度将输入图像中的文本行划分到组。

14.一种提取表征图像中的文本行的信息的方法，其包含：

接收包括文本行的输入图像的位图；以及

通过找出使吻合函数最大的参数曲线为图像中的至少一个文本行确定基线，该吻合函数取决于参数曲线通过的像素和在参数曲线下面的像素的数值，其中该基线对应于使吻合函数最大的参数曲线；

其中该吻合函数被定义成fitness(baseline)，并等于：

其中：

x和y分别是水平和垂直像素坐标；

img[y,x]是位图在地点（y,x）上的像素值；

width是位图输入图像的宽度；以及

baseline[x]是基线在位置x上的y坐标。