CN101432761B

CN101432761B - 将包含文字的数字图像转换为用于再现的基于记号的文件的方法

Info

Publication number: CN101432761B
Application number: CN2007800155655A
Authority: CN
Inventors: A·B·考斯; F·Z·R·阿卡林; R·L·古德温; J·沙干
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2006-03-29
Filing date: 2007-03-22
Publication date: 2011-11-09
Anticipated expiration: 2027-03-22
Also published as: JP4987960B2; JP2009531788A; EP1999688A2; WO2007121029A2; US7460710B2; CN102176230A; EP1999688B1; CN102176230B; US20070237401A1; EP1999688A4; CN101432761A; WO2007121029A3

Abstract

提供了用于将通过扫描获得的电子图像转换为基于记号的文件的计算机实现的方法。该方法一般包括五个步骤。首先，识别电子图像中的各种记号(即，图形单元)。其次，识别的形状类似的记号被分类在一起，以形成一个记号组，从而形成多个记号组，每一个记号都包括形状类似的一个或多个记号。再其次，在每一个记号组中，发现代表性的记号，该代表性的记号在形态上代表组中包括的记号的形状。第四，每一个代表性的记号都被转换为矢量化记号，该矢量化记号是代表性的记号的形状的数学表示。第五，每一个矢量化记号都与记号在电子图像中的由矢量化记号代表的位置相关联。如此，在再现时，显示矢量化记号，从而创建只包括矢量化记号的清洁图像的页面图像。

Description

将包含文字的数字图像转换为用于再现的基于记号的文件的方法

技术领域

本发明涉及数字图像的处理，具体来说，涉及其中具有文字的内容的图像的处理。

背景技术

随着计算机和基于计算机的网络的应用越来越广，内容提供商以电子形式准备和分发越来越多的内容。此内容包括传统媒体，如以印刷的形式存在的书、杂志、报纸、时事通讯、手册、指南、参考书、文章、报告、文档等等，以及电子媒体，其中，前面所说的内容以数字形式存在，或是通过使用扫描设备从印刷形式转换为数字形式的。特别是，因特网，通过下载和显示内容的图像，有助于更广泛地发布数字内容。随着数据传输速度的提高，越来越多的内容的页面的图像出现在网上。页面图像可使读者看到内容的页面，如同出现在印刷品中那样。

尽管提供内容的数字图像有巨大吸引力，但是，许多内容提供商在生成和存储内容的图像时面临着许多挑战，特别是当识别图像中的文字的准确性非常重要时。例如，为使用户能从计算机屏幕上的书或杂志读取页面图像，或为将它们打印下来供以后阅读，图像必须足够清晰，才能呈现清晰的文字。当前，使用各种字符识别技术来将图像转换成计算机可读取的数据，如包括数字字符识别的光学字符识别(OCR)。虽然光学字符识别的准确性一般而言比较高，但是，某些页面图像，甚至在经过OCR处理之后，由于各种伪像，简直难以辨认。尽管手动校正是可以的，但是，以人工方式校正错误地识别的字符或***遗漏的字符的成本非常高，特别是在扫描大量的页面时。

数字内容提供商所面临的另一个挑战是存储内容的图像的成本。为降低存储成本，内容提供商希望使用于存储图像的文件的大小最小化。数字图像可以以各种分辨率来呈现，分辨率通常通过图像在水平方向和垂直方向的像素的数量来表示。通常，尽管不一定总是，较高分辨率的图像，其文件大小较大，存储时需要较大的存储器量。当考虑需要捕获并存储大量的诸如书、杂志等等之类的介质的图像的数量时，存储内容的图像的成本大大地翻倍。尽管缩小图像的大小和分辨率会降低存储图像的要求，但是，低分辨率图像最终会到达一个点，此时，图像，特别是其中包含的任何文字，在显示时，对于读者来说难以阅读。希望在页面图像上提供文字的内容提供商必须确保图像可以以足够高的分辨率来呈现，以便显示的文字将是清晰的。内容提供商所面临的再一个挑战是提供可缩放的页面图像，即，可以轻松地或缩小以便，例如，在各种大小的显示器上，以比较高的分辨率再现，同时确保最小质量和图像中的文字的易读性。

所需要的是，用于可靠地处理包括文字的通过扫描获得的页面图像的方法和***，以便页面图像中的文字，在再现时，将是清晰的，并且分辨率足够高，并进一步可缩放，无需过量的存储空间用来进行存储。

发明内容

为解决现有技术中的上文所描述的问题及其他缺点，本发明提供了一种可以在计算机中实现的方法，用于将通过扫描获得的内容的页面转换为“基于记号”的文件。如这里所使用的，记号是指一个图形单元，可以代表或者也可以不代表单一字符或符号。从通过扫描获得的页面图像，分离出很多记号。然后，形状类似的记号可以分组在一起，将它们的形状组合起来，以创建组合的记号，该组合记号在形态上是组中包括的所有记号的代表。组合的记号进一步被转换为矢量化记号，这是组合记号的数学表示，并能够以清楚的曲线表示组合的记号的形状。对于内容的通过扫描获得的页面，例如，一本书，如此创建了许多矢量化记号，每一个矢量化记号都代表一组形状类似的记号。此后，将构成一个组的每一个(原始，未处理的)记号的位置与代表记号组的矢量化记号相关联。例如，每一个记号的位置可以由页编号和记号出现的每一个页面内的位置的X-Y坐标进行定义，位置与指向对应的矢量化记号的指针相关联。如此，在再现时，是矢量化记号而不是原始记号显示在此位置，从而创建只包括矢量化记号的页面图像。因为矢量化记号是记号形状的数学表达式，它们可以以任何分辨率再现，包括高分辨率，当显示时，显得“清爽(crisp)”和易读。此外，由于形状类似的记号的多个位置仅仅与指向它们的代表性的矢量化记号的指针相关联，因此，页面图像的存储要求可以最小化。

根据本发明的一个实施例，提供了一种计算机实现的方法，用于将包含文字的电子图像转换为基于记号的文件。该方法一般包括五个步骤。首先，识别电子图像中的各种记号(即，图形单元)。其次，识别的形状类似的记号被分类在一起，以形成一个记号组。如此，形成了多个记号组，每一个记号组都包括形状类似的一个或多个记号。再其次，在每一个记号组中，产生(或发现)代表性的记号，该代表性的记号在形态上代表组中包括的记号的形状。例如，可以通过组合(例如，平均化)记号组中的记号的形状，产生代表性的记号。第四，每一个代表性的(例如，组合)记号都被转换为矢量化记号，该矢量化记号是代表性的记号的形状的数学表示。如此，此时，创建了多个矢量化记号，每一个矢量化记号都用数学方法表示了代表性的记号的形状，而代表性的记号的形状又在形态上代表了被分类到一个记号组的一个或多个记号的形状。第五，每一个矢量化记号都与由矢量化记号代表的记号的位置相关联，从而形成基于记号的文件。换句话说，将构成一个组的每一个记号的位置与代表记号组的矢量化记号相关联。如此，在再现时，是矢量化记号而不是原始记号显示在此位置，从而基于矢量化记号创建只包括锋利记号图像的页面图像。

根据本发明的一个方面，分离记号的步骤是通过使用连通分量(或“填充(flood fill)”)分析来执行的。根据本发明的另一个方面，分组形状类似的记号的步骤是通过执行下列步骤来执行的：计算每一个记号的质心，使用质心来校准记号，通过，例如，计算两个记号之间的均方根误差，计算一对记号之间的“距离”，分组彼此相隔预先定义的距离内的记号。根据本发明的再一个方面，矢量化每一个代表性的记号(例如，组合记号)以创建矢量化记号的步骤是基于光栅到矢量转换方法，使用诸如贝塞尔样条之类的数学表示来执行的。

根据本发明的再一个实施例，提供了用于将电子图像转换为基于记号的文件的***。***一般包括两个组件：用于存储诸如页面图像之类的包含文字的电子图像的页面图像数据库；以及，与页面图像数据库进行通信的计算设备。计算设备用于处理包含文字的电子图像，以识别其中的记号，并将识别的记号分类为多个记号组。计算设备进一步用于为每一个记号组创建矢量化记号，该矢量化记号用数学方法表示记号组中包括的记号的形状，并产生基于记号的文件，在该文件中，每一个矢量化记号都与由矢量化记号代表的记号的位置相关联。

根据本发明的更进一步实施例，提供了在其上具有编码的指令的计算机可访问的介质，以创建基于记号的文件。当由计算设备执行时，指令使计算设备(1)处理其中具有文字的图像，以识别其中的记号；(2)根据其形状，将识别的记号分类为多个记号组；(3)对于每一个记号组，创建用数学方法表示记号组中包括的记号的形状的矢量化记号；以及，(4)用矢量化记号替换由矢量化记号代表的记号。

附图说明

通过参考与附图一起进行的下面的详细描述，本发明的前述的方面和许多伴随的优点，将变得更加轻松地被理解，其中：

图1是可以用来实现本发明的实施例的示范性计算***的功能方框图；

图2是根据本发明的一个实施例的用于将包含文字的电子图像转换为基于记号的文件的示范性方法的流程图；

图3是概要显示了图2所示的将包含文字的电子图像转换为基于记号的文件的方法的一些步骤的示意图；以及

图4A-4C显示了根据本发明的各个实施例的将包含文字的电子图像转换为基于记号的文件的方法中的根据记号的形状来标识和分类记号的各种技术。

具体实施方式

本发明涉及用于将例如通过扫描获得的包含文字的电子(数字)图像转换为适合于高分辨率再现的基于记号的文件的方法、***，以及具有指令的计算机可访问的介质，无需过量的存储空间。在所显示的实施例中，可以在诸如数字显示器和打印介质之类的各种输出介质中进行基于记号的文件的再现。

下面的详细描述提供了本发明的示范性实现方式。虽然显示了特定***配置和流程图，但是，应该理解，所提供的示例不是详尽的，并且不将本发明限制到所说明的准确的形式。那些精通计算机和数字成像领域技术的普通人员将认识到这里所描述的组件和处理步骤可以与其他组件或步骤，或者，组件或步骤的组合互换，并仍能实现本发明的好处和优点。还应该理解，下面的描述在很大程度上是通过可以由常规计算机组件执行的逻辑和操作呈现的。可以分组在同一个位置或分布在比较宽的区域的这些计算机组件，一般包括计算机处理器、存储器设备、显示设备、输入设备等等。在计算机组件被分散放置的情况下，通过通信链路，计算机组件能够被彼此访问。

在下面的描述中，阐述了很多具体细节，以便提供对本发明的全面的了解。然而，对本领域技术人员显而易见的是，可以在没有某些或全部这些具体细节的情况下实施本发明。在其他情况下，没有对已知的处理步骤进行详细描述，以便不致不必要地至于使本发明变得模糊。

为提供用于描述本发明的实施例的上下文，图1显示了可以用来实现本发明的计算***10的功能方框图。那些精通计算机技术的普通人员将认识到，在市场上有大量的组件可以用来构成诸如图1 中所显示的计算***10之类的***。计算***10包括具有与各种计算元件(包括网络接口14、输入/输出接口16，以及存储器19)进行通信的处理器12的计算设备11。网络接口14使计算设备11能与计算机网络15(LAN、WAN、因特网等等)交换数据、控制信号、数据请求，及其他信息。例如，计算设备11可以从通过网络接口14连接到计算机网络15的页面图像数据库17接收包含书、杂志等等的页面图像的文件。基于记号的文件数据库18可以连接到计算机网络15，由计算设备11产生的基于记号的文件通过网络接口14发送到计算机网络15进行存储。本领域技术人员将认识到，计算机网络15可以是因特网，连接存储了关联文档和关联文件，脚本以及数据库的服务器的局域网或广域网，或包括机顶盒或提供对音频或视频文件、文档、脚本、数据库等等的访问的其他信息设备的广播通信网络。

输入/输出接口16使计算设备11能与各种本地输入和输出设备进行通信。与输入/输出接口16进行通信的输入设备20，可以包括向计算设备11提供输入信号的计算元件，如扫描仪、扫描笔、数字照相机、摄像机、复印机、键盘、鼠标、外部存储器、磁盘驱动器等等。例如包括扫描仪和照相机的输入设备，可以用来向计算设备11提供电子图像，如包括文字的页面图像，而计算设备11又根据本发明将这些电子图像转换为基于记号的文件。

与输入/输出接口16进行通信的输出设备22可以包括典型的输出设备，如计算机显示器(例如，CRT或LCD屏幕)、电视机、打印机、传真机、复印机等等。至于本发明，输出设备22可以用来显示基于记号的文件图像，以便操作员以人工方式确认它们的准确性和可识别性。

处理器12被配置为根据存储在诸如存储器19之类的存储器中的计算机程序指令进行操作。程序指令也可以以硬件形式存在，如以编程的数字信号处理器的形式存在。存储器19一般包括RAM、ROM，和/或永久性存储器。根据本发明，存储器19可以被配置为存储文字的数字图像，以便处理、传输和显示。存储器19存储了操作***23，用于控制计算设备11的一般操作。操作***23可以是诸如

操作***、

操作***，或

操作***。存储器19还可以进一步存储由程序代码构成的光学字符识别(OCR)应用程序24以及用于分析其中包含文字的数字图像的数据。所属领域的技术人员将认识到，有各式各样的算法和技术能够分析和识别图像中的文字。然而，对于本发明，没有必要让算法和技术实际如此识别单个字符或符号或解释它们的含义，如许多OCR例程实现的那样。市场上销售的OCR软件的示例包括ScanSoft，Inc.出品的OmniPage Pro^TM，以及SmartLink Corporation出品的FineReader^TM。存储器19另外存储基于记号的文件生成器应用程序25。基于记号的文件生成器应用程序25包含用于处理通过网络接口14、输入/输出接口16等等接收到的包含文字的电子图像的程序代码和数据，以产生基于记号的文件。然后，基于记号的文件可以发送到基于记号的文件数据库18并存储在那里。

图2是根据本发明的一个实施例的用于将一个或多个包含文字的电子图像转换为基于记号的文件的基于记号的文件生成器应用程序25实现的示范性方法30的流程图。应该理解，在本发明的上下文中，术语“文字”包括字母、字符、符号、数字、公式、图形、线条图、表边界等等可以用来以电子图像(例如，页面图像)表示信息的所有形式。方法30在方框31开始，计算设备11接收包含文字的电子图像(例如，页面图像)。例如，可以检索如预先扫描到页面图像数据库17中的页面图像(图1)，或者使用合适的扫描仪输入设备20(图1)扫描获取页面图像。接收到的图像的分辨率可以相对来说较低，如300dpi(每英寸点数)。接收到页面图像的格式可以变化，并可以包括其中的页面图像的内容以非文字可访问格式的页面图像，如JPEG、TIFF、GIF，以及BMP文件，或者，页面图像的内容以文字可访问格式表示，如Adobe可移植文档文件(PDF)。不管接收到的页面图像的格式如何，在执行基于记号的文件生成处理方法30之前，都可以对它们进行标准的OCR或类似于OCR的预处理，如对比度调节、歪斜校正、去除斑点，和/或页面旋转校正。

在方框32中，在接收到的其中具有文字的页面的图像中，标识记号。记号是指一个图形单元，可以代表或者也可以不代表单一字符或符号。更确切地说，记号是一种单元，其被识别为单纯在图形的意义上足够分离，从而能形成单一单元。在本发明的各种示范性实施例中，对电子图像中的记号进行的搜索是在背景区域(通常是白色)内进行的。假定记号出现在像素颜色与背景颜色偏差足够大的任何地方。然后，可以对初始像素应用于当前技术中已知的连通分量分析(或填充分析，以发现其所有相邻(或连通的)像素。在此示例中，与同一个连通分量相关联的所有像素被标识为记号。然而，在其他示例中，两个或更多连通分量可以被标识为记号。

请参看图3，附图标记42，基于连通分量技术，分析包括文本分量“every day”的电子图像，以作为单独的单元，即，作为记号，识别＂e，＂＂v，＂＂e，＂＂r，＂＂y，＂＂d，＂＂a，＂和＂y＂。此外，这些记号中的每一个记号都可以限定在边界框内，如图所显示的。可以使用存储在存储器19中的合适的OCR或类似于OCR的软件程序，执行连通分量分析，并发现边界框(图1)，在当前技术中是众所周知的。

在备选实施例中，也可以使用其他计算几何学技术来识别电子图像中的记号。例如，电子图像内的像素可以基于像素强度和边缘大小和方向，表示为具有边缘权重的图形。通过确定两组像素之间的最短路径，来进行连接决定。如果像素的组足够连通，则它们可以标识为联合地形成了同一个记号。

在某些情况下，两个字母(或字符)可以彼此接触，以形成单一连通分量，与图4A所示的“ra”的情况相同。在此情况下，基于连通分量分析，原始单词“raw”被分为两个记号“ra”50和“w”51。尽管本发明的方法将每一个字母识别为单独的记号不是关键的，但是，为了降低记号类型的数量，以便降低存储要求，这样做可能是理想的。如此，可以进行进一步的处理，以分出连通分量，该连通分量可以是两个或更多字母或符号的组合。例如，在图4A的情况下，可以判断，记号“ra”50的边界框，在其水平维度，太大，此记号难以是单一字母或符号的代表。一般而言，其边界框的水平维度比垂直维度更长的记号可以被怀疑潜在地表示两个或更多字母或符号。倘若如此判断，则再次使用合适的OCR或类似于OCR的软件程序(例如，迷宫算法)，对怀疑的记号进行进一步的分析，以识别从一边(例如，顶边)到另一边(例如，底边)的最短路径52，以将记号分为两个部分。在上面的示例中，OCR或类似于OCR的软件也可以用于认识到，“r”位于给定的位置，以便使得将它与它可能接触的相邻字母(即，在上面的示例中“a”)分离变得更加容易。更进一步，通过基于像素强度和边缘大小和方向，将像素表示为具有边缘权重的图形，可以计算出将记号分为两个部分的可能的路径。然后，可以在记号的相对的两边上两个点之间(例如，在顶边的中心和底边的中心之间)，发现最短路径52。在图4A的示例中，发现最短路径52将记号“50”切割为两个记号，“r”和“a”。此后，可以通过分别比较“r”和“a”记号与已经被准确地标识为记号的其他“r”和“a”记号，可以确认分隔的“r”和“a”记号的准确性。

在一个实施例中，将两个字母连接为一个记号(例如，上文所讨论的记号“ra”50)，比将一个字母分隔为两个记号(例如，将“H”分隔为两个垂直部分)更好。前者稍微提高了存储器要求，而后者产生了不正确的(或错误分离的)记号，在页面上显得错误。例如，字母“H”如果错误拆分成两个垂直部分，将表现为两个垂直部分，它们之间还有间隔。因此，可以评估模糊的记号(即，被怀疑包含两个或更多字母或符号的记号)，以便只有在所有明确的记号都已经被识别之后才潜在地分离为多个记号。例如，只有在所产生的分隔的部分将匹配某些准确地识别的记号的情况下，任何模糊的记号都可以分离成多个记号。作为特定示例，只有在每一个所产生的分隔的“r”和“a”记号将分别匹配准确地识别的记号“r”和“a”的情况下，图4A中的记号“ra”50才可以分离成“r”和“a”记号。如果每一个所产生的分隔的记号找不到与准确地识别的记号的接近的匹配，那么，模糊的记号不应该被分离成多个记号。

请回头参看图2，在方框33中，将分隔的记号彼此进行比较，形状类似的记号被分组在一起。例如，在图3中，在步骤43中，文字“every day”的两个“e”记号作为形状类似的记号被分组到“e”存储桶中，而相同文字中的两个“y”记号作为形状类似的记号被分组到“y”存储桶中。请注意，分组是基于记号的形态特征而进行的。如此，例如，常规的“e”和以黑体字出现的“e”可以被认为具有足够不同的形状而被分到两个不同的存储桶中。采取了这样的基于形态的或基于图像的识别和分类记号的方法，以便所产生的基于记号的文件，当再现时，将保持原始电子图像的全貌和感觉。相应地，文档中的单一字母数字字符可以通过一个以上的代表性的记号来表示。

也可以使用各种图案匹配或形状匹配方法来根据记号的形状对它们进行分类。在本发明的各种示范性实施例中，为每一个记号计算“质心”，并将其用来对记号进行校准，以便它们可以彼此进行比较。如这里所使用的，灰度级图像中的像素的“质量”被定义为其与背景颜色(通常是纯白)的偏差。如果灰度级图像被当做点质量的网格，则每一个像素的一个点质量，图像的“质心”可以被视为图像的代表点。如果使用带有也是彩色的背景的彩色图像，那么，仍可以通过使用任何合适的转换方法首先将彩色图像转换为灰度级图像，类似地计算“质量”和“质心”。然后，可以使用为每一个记号图像计算的质心来根据相应的质心值，校准记号图像。

在说明性实施例中，一旦校准了记号，可以比较已校准的记号，以判断记号是否足够类似。每一个(灰度)图像中的每一个像素都可以规范化，以便0.0表示白色，1.0表示黑色。此后，对于一对图像，计算出图像之间的“距离”，以弄清记号图像之间的形状的相似度。可以有各种方法用来计算这样的距离。在一个实施例中，可以通过均方根(RMS)误差来计算距离。具体来说，为比较两个记号图像，对于每一重合的像素对(即，相对于质心位于同一个位置的像素)，可以计算出灰度(彩色)值的差值的平方，求所有重合的像素的平方值的总和，将该总和除以重合的像素的数量，最后，求其平方根，以产生RMS误差值。RMS误差值0.0表示，两个图像相同，而任何较大的RMS误差值都表示，两个图像彼此越来越不同。在一个实施例中，如果RMS误差值不超过预先定义的阈值，如0.10，则两个记号图像可以被视为相同或彼此形状足够类似，以便属于同一台记号组。

图4B显示了边界框53中的记号“e”，其中，发现质心位于点“x”。也可以有各种用于基于质心值校准和/或比较记号的备选方法。例如，仍请参看图4B，可以使用通过质心点53′的水平线和垂直线将边界框分为多个部分，如四个部分54，55，56，以及57，如图所示。可以为这四个部分分别在四个点“x”找到质心值，如图所示。四个质心值可以表示为相对于被用作原点的质心点53′的(x，y)坐标值。然后，可以分别将四个质心值与一个记号组中的另一个记号的对应的质心值进行比较(例如，通过求两组四个质心值之间的平均平方差，以大致判断所涉及的记号可能属于哪一个记号组。只比较四个质心值，如在此示例中，显著地加快了预先的匹配过程，特别是在存在很多记号组需要比较记号的情况下。然而，如果根据此方法发现匹配，则可以使用比较综合的比较测试，如上文所描述的基于RMS误差的方法，确认真实的匹配。

另外地或者替代地使用四个质心值，如上文所讨论的，也可以使用各种其他方法来预先将记号分类为记号可能属于的候选记号组。例如，可以进行OCR或类似于OCR的处理，以获取字母信息，如检测到的实际字符，以及各种格式细节，如字体，近似的字体大小，字母是否是粗体、斜体或加下划线等等。如果检测到两个记号具有相同OCR字符以及大致一样的大小，则可以预先判断两个记号彼此形状类似。然而，如前所述，即使根据此方法发现匹配，仍可以使用比较综合的比较法，如基于RMS误差的方法，确认真实的匹配。

根据本发明，也可以使用用于估计和比较各种记号的形状的其他综合的图形分析技术，可以不一定使用上文所描述的RMS误差分析，对本领域技术人员是显而易见的。例如，也可以使用黑色分析的总和来比较各种记号的形状。另一个示例是交叉熵方法。给定两个记号A和B，可以通过使用A的记号图像中的信息作为参考，压缩B的记号图像，来计算B相对于A的交叉熵。然后，求出记号图像B的最后的已压缩文件中的比特的数量。类似地，通过使用B的记号图像中的信息，压缩A的记号图像，并通过求出记号图像A的最后的已压缩文件中的比特的数量，计算A相对于B的交叉熵。然后，求出A相对于B的交叉熵和B相对于A的交叉熵之间的最大值，并使用其作为两个记号图像之间的“距离”的度量(即，形状的相似度)。

继续参考方框33，在说明性实施例中，可以将形状类似的记号分类在一起，以形成记号组。图4C概要显示了适合用于将各种形状的记号分类到许多记号组中的一个技术。基本上，可以构建搜索树或分类树，以便加快分类过程。也在基于计算机的搜索和分类的技术中已知的，搜索树或分类树包括分支结构，其中，每一个状态(节点)都可以产生一组新的状态(子节点)，这些状态中的每一个状态又可以产生其自己的后继状态(孙子节点)，依次类推。通过根据其形状(例如，基于它们的相对于某一参考图像的RMS误差值)，构建这样的记号的树，并沿着树从根节点穿越到子节点，到孙子节点，依次类推，计算机例程可以快速地将新的记号分类到各种记号组中(形成叶节点)。

在图4C的示例中，已经形成了“e”，“a”，以及“b”的记号组。进一步，已经发现“e”和“a”的记号组之间的差值(例如，以“e”记号图像和“a”记号图像之间的RMS误差值表示)是0.3，发现“e”和“b”的记号组之间的差值是0.4。在此示例中，“e”记号组被用作参考点。然后，计算将被分类的“？”的下一个记号和“e”记号组之间的RMS误差值，作为“Δ”。如果Δ.x小于0.3，那么，可以将“？”分类到还没有产生的新的记号组中，因为没有现有的记号组与“e”记号组相差0.3以下。同样，如果Δ.x大于0.4，那么，可以将＂？＂分类到还没有产生的新的记号组中，因为没有现有的记号组与“e”记号组相差0.3以上。如此，只有在0.3≤Δ.x≤0.4的情况下，才需要将“？”分别与“a”和“b”的记号组进行比较，以查看“？”是属于这些记号组中的任何一个，还是也许属于还没有产生的新的记号组。可以，例如，通过计算“？”记号图像和“e”记号图像或“a”记号图像之间的RMS误差值，来进行比较。通过使用合适的搜索树或分类树，各种形状的记号可以根据其形状快速地分类到记号组中。

一旦在页面图像中(例如，在书中)发现的所有记号被分类到各种记号组中，则可以对每一组中的记号进行任何合适的图像处理或预处理。具体来说，请回头参看图2，在方框34中，可选地，可以将各种数字图像处理过滤器应用于分类在每一个组中的记号，以便，例如，使记号的轮廓平滑，移除明显的伪像等等。在这方面的各种过滤器在当前技术中是已知的，并可以是存储在存储器19中的市场上销售的OCR或类似于OCR的软件程序的一部分(图1)。

在方框35中，对于每一个记号组，发现在形态上表示分类在记号组中的所有记号的代表性的记号。例如，可以将记号组中的所有记号都组合起来，以获取一个组合的记号。可以有各种用于组合记号(或者，更具体地说，记号形状)的方法，如求平均值，求中值，等等，对本领域技术人员是显而易见的。在本发明的各种示范性实施例中，代表性的记号是作为平均记号发现的(图3)。平均化可以通过校准全部记号图像的质心点的中心并求每个像素位置的平均值来进行的(例如，通过求每一个重合像素，并计算每一个像素的平均颜色(灰度)值，通过求所有彩色(灰度)值的总和并将总和除以记号图像的数量)。另外，还可以执行内插法，以获取子像素级别的平均值。当通过对记号组中的所有记号图像进行平均而产生平均化记号时，可能存在于原始记号图像中的各种缺陷或伪像将被平均化(或最小化)，以产生一般平滑边缘，虽然存在弄模糊的风险。

应该指出的是，在某些实施例中，并非一个记号组中包括的所有的记号都需要组合起来(例如，平均化)，以产生组合的记号。例如，当一个记号组中有大量的记号时，如超过1000个记号，那么，可能不需要平均化所有记号，因为在几百个记号之后，平均化的记号图像的质量不会相当可观地提高。在这样的情况下，只能取100左右的“最接近的”记号图像来进行平均化，以产生平均化记号。

在方框36中，在形态上代表一个记号组中的全部记号的形状的代表性的(例如，组合的或平均化的)记号(但是带有某些模糊)，被转换为矢量化记号，这是代表性的记号的数学表示。如这里所使用的，术语“矢量化”是指发现最佳地代表代表性的记号的形状的轮廓并以数学公式(与合适的填充指令一起以填充任何被包围部分)表示轮廓的过程。根据本发明，用于将位图转换为矢量图的任何合适的光栅-到-矢量转换的软件都可以用来矢量化代表性的记号。在说明性实施例中，在方框36的矢量化之前，可以使用例如对比度调节、歪斜校正、去除斑点和/或页面旋转校正之类的额外的预处理。

在本发明的某些示范性实施例中，代表性的记号的轮廓是基于对记号区域的分析来发现的。具体来说，每一个代表性的记号都被分成两个或更多区域。例如，字母“e”具有三个区域：背景；表示“e”的实体部分；以及“e”的上部的半圆形孔。可以发现轮廓是任何相邻区域之间的边界的集合。例如，可以发现“e”的轮廓是背景和实体部分“e”之间的边界与实体部分和半圆形孔之间的另一个边界相结合。类似地，字母“i”具有三个区域：背景和两个实体部分；可以发现其轮廓是第一(顶部)实体部分和背景之间的边界与第二(底部)实体部分和背景之间的另一个边界相结合。

此外，可以有各种方法用来用数学方法表示代表性的记号的轮廓。例如，在计算机的字体再现技术中已知的贝塞尔弧线/曲线重现技术，可以用来基于控制点和控制点的每一个相邻对之间的曲线(包括直线)，表示任何轮廓。另外请参看图3，在46中，例如，矢量化记号“e”通过九个端点1-9来表示，数学公式表示每一个相邻端点对：1-2、2-3、3-4、4-5、5-6、6-7、7-1和8-9之间九条曲线。每一个相邻端点对还具有两个其他控制点，用于控制贝塞尔曲线的外观(或“弯曲度”)。在本发明的一个实施例中，用于定义代表性的记号的每一个曲线的贝塞尔曲线的数量可以随着代表性的记号(或，更具体地说，由代表性的记号代表的记号)出现在一个文档中的频繁度而变化。例如，某些记号在一个文档中会出现成千上万次，而其他记号可能只有出现几次。通过允许更多的贝塞尔曲线用来定义频繁出现的记号，可以改善文档中的绝大多数记号的图像质量，而仍能对不经常出现的记号的极好地压缩。

也可以使用其他数学表示技术，如B样条或厄米插值技术，来定义矢量化记号，这对本领域技术人员是显而易见的。因为矢量化记号是形状的数学表示，因此，可以以任何分辨率再现，例如，以如2400dpi之类的比较高的分辨率，或者甚至以19200dpi再现。此外，与它表示的任何一个原始记号相比，就其存储空间而言，矢量化记号被显著压缩。例如，在本发明的各种示范性实施例中，可以用少到180个字节来表示单一矢量化记号。

相应地，可以定义许多矢量化记号，每一个矢量化记号都表示形状类似的记号的组。例如，可以对有200页的书的页面图像进行处理，以产生超过2,000个矢量化记号，每一个矢量化记号都表示一组形状类似的记号。注意，最初识别的书上的所有记号现在都由2,000多个矢量化记号中的一个来代表。还要注意，本发明的方法定义了矢量化记号，没有将它们视为特定字符或某些字体类型。更确切地说，方法基于对原始文档中发现的全部记号的形态特征的分析，将矢量化记号单纯地定义为图像，如在通过扫描获得的书中那样。这种基于图像的对通过扫描获得的文档的处理方法是用于创建基于记号的文件的关键之一，这种基于记号的文件可以以高分辨率呈现，而与打印的原始文档保持相同的外观。

请参看图2，在方框37中，基于在方框36中预先定义的矢量化记号，创建基于记号的文件。在此文件中，给每一个矢量化记号分配了一个记号号码，构成记号组的每一个记号的位置与代表记号组的矢量化记号(或，更具体地说，其记号号码)相关联。例如，每一个记号的位置可以由页编号和记号出现的每一个页面内的位置的X-Y坐标进行定义，位置与指向对应的矢量化记号的指针相关联。如此，在再现时，是矢量化记号而不是原始记号显示在此位置，从而创建只包括矢量化记号的页面图像。因为矢量化记号是记号形状的数学表示，它们可以以任何分辨率呈现，包括高分辨率，并且当显示时，显得“清爽”和易读。此外，因为形状类似的记号的多个位置仅仅与指向它们的代表性的矢量化记号(具有小的存储容量)的指针相关联，因此，没有必要存储这些位置的原始记号，因此，页面图像的存储要求可以最小化。例如，平均起来，书可以转换为大致有2MB的存储容量的基于记号的文件。更进一步，由于每一个矢量化记号的存储容量都比较小(例如，180字节)，因此，可以非常快速地再现基于记号的文件。更进一步，基于记号的文件可以进一步呈现在任意数量的打印介质上。

尽管显示并描述了本发明的说明性实施例，但是，应了解，在不偏离本发明的精神和范围的情况下，可以作出许多更改。

Claims

1.一种计算机实现的用于处理电子图像的方法，包括：

识别所述电子图像中的一个或多个记号，其中，所述图像对应于书的扫描的图像；

根据所述记号的形状，将所述识别的记号分类为多个记号组；

对于每一个所述记号组，创建用数学方法表示所述记号组中包括的所述记号的形状的矢量化记号；

生成一组代表图像的矢量化记号，以呈现在输出介质上。

2.根据权利要求1所述的方法，其中，至少两个记号对应于同一个字母数字字符。

3.根据权利要求1所述的方法，其中，所述输出介质是手持式介质设备。

4.根据权利要求1所述的方法，其中，所述输出介质是打印介质。

5.根据权利要求1所述的方法，进一步包括：

将形状类似的记号分类为一个组，从而形成多个记号组；

识别每一个记号组中的在形态上表示记号的形状的代表性的记号，从而识别多个代表性的记号；

矢量化每一个代表性的记号，以创建用数学方法表示所述代表性的记号的形状的矢量化记号；以及

将每一个矢量化记号与由所述矢量化记号代表的记号的位置相关联。

6.根据权利要求5所述的方法，其中，将形状类似的记号分类为一个组的过程包括，将形状类似并且大小也类似的记号分类为一个组。

7.根据权利要求5所述的方法，其中，识别每一个记号组中的在形态上表示记号的形状的代表性的记号的过程包括，组合每一个记号组中的记号的形状，以创建代表性的记号，该代表性的记号是所述记号组中的记号的组合。

8.根据权利要求7所述的方法，其中，组合每一个记号组中的记号的形状的过程包括平均化记号的形状，以创建平均化的记号。

9.根据权利要求5所述的方法，其中，识别所述电子图像中的记号的过程包括使用连通分量分析。

10.根据权利要求9所述的方法，其中，识别所述电子图像中的记号的过程包括，当发现连通分量大于预先定义的阈值大小时，沿着其最短路径将所述连通分量分离，从而识别两个记号。

11.根据权利要求5所述的方法，其中，识别所述电子图像中的记号的过程包括使用边图分析，其中，基于像素强度、边缘大小以及方向，将像素表示为具有边缘权重的图形。

12.根据权利要求5所述的方法，其中，将形状类似的记号分类为一个组的过程包括：

计算每一个记号的质心；以及

根据记号的质心的值，校准所述记号。

13.根据权利要求12所述的方法，其中，计算每一个记号的质心的过程还包括：

将每一个记号分离为两个或更多部分；以及

计算每一个部分的质心。

14.根据权利要求5所述的方法，其中，将形状类似的记号分类为一个组的过程包括使用误差分析技术来比较记号。

15.根据权利要求14所述的方法，其中，将形状类似的记号分类为一个组的过程包括使用均方根(RMS)误差分析来比较记号。

16.根据权利要求5所述的方法，其中，矢量化每一个代表性的记号以创建矢量化记号的过程包括，用数学方法以贝塞尔曲线表示代表性的记号的形状。

17.根据权利要求5所述的方法，其中，将每一个矢量化记号与由所述矢量化记号代表的记号的位置相关联的过程包括，与所述位置相关联地存储指向所述矢量化记号的指针。