CN101802844B

CN101802844B - 用于将分割引擎应用于数字图像的不同映射的方法和设备

Info

Publication number: CN101802844B
Application number: CN2008800202078A
Authority: CN
Inventors: 史蒂文·J·西姆斯克; 马尔戈扎塔·M·斯特吉尔
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2007-06-14
Filing date: 2008-06-11
Publication date: 2013-06-12
Anticipated expiration: 2028-06-11
Also published as: WO2008156686A2; EP2156373A2; EP2156373A4; CN101802844A; US20080310715A1; WO2008156686A3; US9424488B2

Abstract

一种图像处理方法，包括：将分割引擎应用于数字图像的不同映射(120)；以及利用不同的被分割的映射来识别所述数字图像中的片段(130)。

Description

用于将分割引擎应用于数字图像的不同映射的方法和设备

背景技术

图像分割包括定义数字图像中的目标的区域边界。分割有助于诸如图像认知(例如光学字符识别、再利用、归档、复制、创建纯文本文档、域提取/标引、压缩、证明以及恢复)以及机器视觉(例如安全、检查、确认、检测、目标识别和跟踪)之类的任务。

分割的准确性可以因为差的图像质量而降低。例如，分割的准确性可以因为不定的或差的照明、噪声、低分辨率捕获、差的光学器件、差的或不定的对比度、阴影下的或渐变的背景等等而降低。分割的准确性还可以因为其它的因素例如归因于图像尺寸和文件格式的故障而降低。

附图说明

图1是根据本发明的实施例的图像分割方法的示例说明；

图2是不同的分割的映射中的不一致的片段的示例说明；

图3是根据本发明的实施例的方法的示例说明；

图4是根据本发明的实施例的执行分类和聚集的方法的示例说明；

图5是根据本发明的实施例的聚集的准确性度量的示例说明；

图6是根据本发明的实施例的图像处理方法的示例说明；

图7是根据本发明的实施例的图像处理方法的示例说明；以及

图8是根据本发明的实施例的***的示例说明。

具体实施方式

对图1进行参考，图1示例说明了处理数字图像的方法。该数字图像可以是彩色的或灰度的。

在框110处，生成数字图像的不同映射。如在此处所使用的那样，“映射”指已经被变换以显示某一特征的图像。示例性映射可以显示表1中所列出的十个特征中的任何一个。其它示例性映射可以显示但不限于纹理、亮度、色感一致性以及具有某一分割显著性的任何其它图像特征。这些映射的每一个都可以被看作是要被分割的图像的(至少部分)独立视图，因为每个映射显示了图像的不同数据表征。表1的十个特征不是完全独立的，因为(RGB)和(CMY)和(HIS)是互相计算的，并且在“整个图像”的层次上统计上仅包含三个自由度。然而，因为在图像的不同部分背景和调色板可以不同，所以通常的情况是这十个特征的每一个的映射都将具有不同的总体分割。

表1

R	数字图像的红色通道
		G	数字图像的绿色通道
B	数字图像的蓝色通道
		C	数字图像的青色通道
M	数字图像的洋红色通道
		Y	数字图像的黄色通道
H	数字图像的色调
		S	数字图像的饱和度
I	数字图像的亮度
		PV	数字图像的像素方差(“边缘”)空间

在框120处，将分割引擎应用于每个不同映射。所产生的结果是被分割的多个映射。对于彩色图像，分割引擎可以被应用于表1中列出的两个或多个特征的映射。对于灰度图像，分割引擎可以被应用于亮度映射和边缘映射。每个映射可以像灰度图像那样被处理，或者如已经被用阈值处理过了那样被处理，或者如被二值化为1位图像那样被处理。

分割不限于任何特定的引擎。在下面的文献：美国专利No.5767978；Wahl，F.M.、Wong，K.Y.和Casey，R.G.的“Blocksegmentation and text extraction in mixed/image documents”，Computer Vision Graphics and Image Processing，vol.2，pp.375-390，1982；和Shi，J.和Malik，J.的”Normalized cuts and imagesegmentation，”IEEE Trans.Pattern Analysis Machine Intelligence，vol.22，no.8，pp.888-905，2000中描述了示例性分割引擎。

在框130处，不同的被分割的映射被用来识别数字图像的片段。总体上，框130的目的是从不同的被分割的映射中的片段识别单组片段。如果不同映射中的片段不一致(即，如果被分割的映射没有显示相同的片段)，则执行这一功能。

对图2进行参考，图2示例说明了在不同的被分割的映射210和220中的不一致的片段。第一映射210的第一片段212与第二映射220的第一片段222不一致。第一映射210的第二片段214与第二映射220的第二片段224不一致。

另外对图3进行参考。在框310处，由被分割的映射生成基元。基元生成可以被看作是片段边界的合并。例如，图2中的被分割的映射210和220将产生三个基元232、234和236的一个组230。基元232由片段222和224之间的第一边界限定。基元236由片段212和214之间的第二边界限定。基元234由第一和第二边界限定。生成基元将确保不同的片段不会被丢失。

标识向量可以被分配给每个基元232、234和236。用于基元232的标识向量IDV1将包含像素组212a和222，用于基元234的标识向量IDV2将包含像素组212b和224a，并且用于基元236的标识向量IDV3将包含像素组214和224b。

在框320处，基元被分类。分类包括分型，例如文本、图像、商业图表等等。分类可以包括查看形状、形态、颜色内容等等。分类还可以查看文件扩展名、复杂性、布局度量、其它页面度量、来源和分组等等。分类的实例包括文本区域、照片区域、单色绘图区域、彩色绘图区域、等式、表格、图形、字幕、标题、链接、视频链接等等。

可以选择分类算法并且将其用于分类基元。可以使用传统的分类算法。

在框330处，执行基元的聚集。如果适当或需要的话，聚集包括聚类适当的基元组。聚集的实例包括将图像和字幕聚类成图形，将多个文本行组合成文本栏等等。

传统的分区引擎执行分割、分类和聚集。如果将传统的分区引擎应用于一映射，它将产生被分割的映射，并且它将分类该映射的每个片段。传统的分区引擎还将产生关于分类的统计。分割信息可以被用来生成基元。此外，分类信息可以被用来分类基元。

考虑下面的如果将传统的分区引擎应用于图2的不同映射210和220而可能会发生的问题。第一映射210的第一片段212具有不同于第二映射220的第一片段222的分类。因此，当将分类分配给所述第一基元232时必须做出决定。而且，第二映射220的第二片段224具有不同于第一映射210的第一片段212的分类，这使得所述第二基元234的分类甚至更困难。

现在对图4进行参考，图4示例说明了解决该问题的方法。可以通过评估每个映射的质量(框410)，并且分配那些具有最高质量的分类(框420)来分类基元。例如，如果第一映射210的第一片段212具有比第二映射220的第一片段222更高的质量，则第一基元232将被分配与所述第一片段212相同的分类。

分类的质量可以基于分类映射的置信度。接着，置信度可以基于其准确性。准确性指对于给定的一组答案的“正确的”答案的百分比。分类映射的准确性可以通过对照显示某一特征的已知的一组文件评估引擎(被称为“地面实况化”的过程)来确定。因此，对于给定的分区引擎，一个映射(特征)可能对于文本更准确，另一个映射(另一个特征)可能对于等式更准确，而另一个映射(又一个特征)可能对于照片更准确。

分类的质量还可以考虑对于每个映射的统计。分割引擎通常为所有可能的分割类型提供归一化的统计向量(p值或部分概率)。分类的质量可以是由统计加权的置信度。

考虑下面简单的实例。分割引擎仅允许将绘图、文本、废片(junk)、表格和照片区域作为片段类型。当应用于标志区域(小的绘图)的第一映射时，分割引擎提供下面的统计：绘图p值＝0.54；文本p值＝0.33；废片p值＝0.10；表格p值＝0.02；以及照片p值＝0.01。对该实例更进一步，对于该特定映射，分割引擎具有1.0的置信度。因此，总体(统计输出*置信值)统计也是：绘图p值＝0.54；文本p值＝0.33；废片p值＝0.10；表格p值＝0.02；以及照片p值＝0.01。

当应用于标志区域的第二映射时，分割引擎提供下面的统计：绘图p值＝0.19；文本p值＝0.70；废片p值＝0.07；表格p值＝0.02；以及照片p值＝0.02。对于该特定的映射，分割引擎具有0.3的置信度。因此，总体统计如下：p值＝0.06；文本p值＝0.21；废片p值＝0.02；表格p值＝0.01；以及照片p值＝0.01。

通过将它们添加到一起而组合统计。质量度量将是绘图p值＝0.60；文本p值＝0.54；废片p值＝0.12；表格p值＝0.03；以及照片p值＝0.02。基于该质量度量，片段被分类为绘图。

该实例可以扩展到多于两个映射。

通过使用附加的信息可以进一步改善质量度量。可以基于它们对特定文档文件类型的性能来进一步加权统计(例如，对于.DOC、.GIFF和.HTML的不同统计，或者甚至按照指示所使用的扫描仪的类型的文件扩展的等同物)。可以根据图像复杂性的各种度量(例如对片段的阈值处理、涂抹以及测量片段的数目、片段的平均尺寸、片段的分布、片段周围的平均白空间等等)进一步加权统计。还可以进一步根据布局度量来加权统计，布局度量例如(a)前景片段百分比、纯色片段百分比以及非纯色片段百分比；(b)文本片段百分比、非文本片段百分比以及片段从中心的分布(以防止由于颠倒和/或横向取向而引起的误分型)；(c)片段相对布局特征；(d)片段绝对布局特征。可以进一步根据来源、分组、目的等等来加权统计。例如，来自某个公司的所有文件被归类到一起；共享相同布局模板的文件被归类到一起；打算用于某些应用的文件被归类到一起；等等。

如果集合具有比不聚集的基元更高的准确性，则可以聚集这些基元(框430)。将结合的(集合)区域的准确性与不聚集的基元组的准确性进行比较。例如，将集合的准确性与这些基元的加权面积(例如平均准确性)进行比较。如果集合具有更高的准确性，则聚集这些基元。如果集合不具有更高的准确性，则不聚集这些基元。

集合的准确性不限于任何特定的度量。而且，可以使用多个准确性度量。作为第一实施例，这些片段具有更为矩形的非重叠布局(更为“Manhattan”)，准确性度量就会越好。完全的“Manhattan”布局具有确切地等于每个片段尺寸的凸包。

准确性的另一种度量是与模板或图样的最佳匹配。可以通过比较不同片段之间的区别背景中的差异确定最佳匹配。

现在对图5进行参考，图5示例说明了最佳匹配准确性度量的实例。交叉影线区502-504对应于第一被分割的映射510中的两个片段512-514和第二被分割的映射520中的四个片段522-528之间对背景像素的区别包含。交叉影线区不包含任何文本、图像等等，但是仅包含图像的“背景”(通常是白色像素)。如果交叉影线区502-504具有相当高的差异，则它们很可能不是背景区，并且因此第一被分割的映射510很可能更准确。否则第二映射520很可能更准确。由于与第一被分割的映射510的～1.7的凸包/区比率相比它具有更低的1.0的凸包/区比率，它也更准确。

集合的另一种准确性度量利用分类统计。将不聚集的基元的组的加权p值与聚集的基元的加权p值进行比较。考虑下面的实例，其中将表格的准确性与两个分类的基元的加权准确性进行比较。基元被分类为对于加框数据的“绘图”和对于表格表头的“文本”。表格准确性是p＝0.81，而绘图准确性是p＝0.78，并且文本(例如表格表头)是p＝0.83。如果绘图占据90％的表格面积，则绘图+文本的加权准确性是0.78*0.90+0.83*0.10＝0.702+0.083＝0.785，小于表格的0.81。因此，接受集合(表格)。

因此公开了一种包括将分割引擎应用于不同映射的方法。使用不同映射的一个优点是分割和分类的准确性的改进。通过生成基元，不会丢失不同的片段。

甚至在没有单个映射识别正确的分类的情况下，也可以找到正确的分类。多个映射的互补(即至少部分独立)行为可以创建“突现的”分类(即不存在于任何单独的映射中的分类)。考虑图2中的实例。假定已处理了第一和第三标识向量，并且它们的总体统计指示基元232和236最有可能分别是文本和绘图。假如没有生成基元，对应于基元234的像素可能已被分类为或者文本或者绘图。然而，第二标识向量被处理，并且其总体统计指示基元234是照片。该分类是突现的。

因为不同映射还可以去掉异常值，还可以增加准确性，该异常值归因于可能使分割和分类失真的差的图像质量。例如，取决于差的图像质量，色调映射可能与饱和度映射比较无关。补充的映射还趋向于降低异常值的影像。

另一个优点是分析来自许多不同的设备、不同的分辨率等等的图像的能力，甚至在这些设备、不同的分辨率和其它信息未知的情况下。即，盲图像恢复的问题可以通过对于不同设备、不同分辨率等等使用不同的映射(例如色调的第一映射、饱和度的第二映射以及亮度的第三映射)而简单地解决。更甚至在这些设备、分辨率和其它信息未知的情况下，可以为不同的可能性选择一组映射。

又一个优点是可以在没有必要首先改进数字图像的质量(例如对差的照明修正、降低背景噪声等等)的情况下执行分割和分类。替代地，可执行映射的预测选择(例如在图1中的框110)。图像的一些可测量属性可以被用来选择正确的映射。例如，如果怀疑差的照明，则色调和饱和度的映射可以被选择。预测的选择还可以基于对于图像等级的历史的/训练等等数据。

如果已知的话，预测的选择还可以基于捕获设备的图像能力和质量。如果成像设备的能力和质量已知，则可以相应地选择映射。例如，可以通过查看亮度的直方图来确定图像的白点和黑点。假设第一图像具有243个白点和13个黑点，并且第二图像具有207个白点和43个黑点。第二图像可被预测地分配到“稍微曝光不足的”等级，而第一图像被分配到“良好曝光的”等级。然后可以应用基于该图像度量的特定于等级的加权。

更一般地，预测选择可以被用来解决不同的图像问题。这些问题包括而不限于，图像质量、图像认知、再利用、匹配、分类、验证、检查和质量保证。

再一个优点是可以利用传统的分区引擎来生成、分类并且聚集基元。然而，根据本发明的实施例的方法不限于传统的分区引擎。可以定制分割、分类和聚集引擎。

根据本发明的实施例的方法不限于基于不同映射的分类来分类基元。例如，在生成基元之后，数字图像(不是其映射)被分割以示出那些基元。然后执行数字图像中的基元的分类和聚集。

根据本发明的方法不限于从不同的映射生成基元。考虑不同映射中的片段基本一致的实例(即所有的映射示出基本相同的片段)。这样的实例可能在简单文档中发生，其中片段边界上可能有少数背景像素的差异，但是这些片段基本上是相同的(例如页面通常在不同的被分割的映射中被分类成“全部文本”)。在该实例中，可以跳过生成基元，并且可以在每个片段上执行统计(组合)分类和聚集。

考虑对于不同映射分割相同的另一个实例。然而，某些片段在不同映射中被不同地分类。对于一些片段可能产生突现分类。

根据本发明的实施例的分割可以包括在图像处理流水线(pipeline)中。根据本发明的实施例的分类和聚集也可以包括在图像处理流水线中。

现在对图6进行参考，图6示例说明了处理数字图像的方法。在框610处，可以执行预处理。预处理可以包括下采样数字图像(例如从600ppi到75ppi)，因为通常分区分析不需要全分辨率。预处理还可以包括(如果需要的话)图像恢复(例如对比度调整、自动曝光、锐化、去噪等)以及可能的文件变换(例如从PDF或XML表示到光栅-TIFF、BMP等等)，从而层被变平到一起以用于分区。

在框620处，在经过预处理的数字图像上执行分区分析。分区分析可以包括分割、分类和聚集。分割包括将分割引擎应用于数字图像的不同映射。

在框630处，执行后处理。该后处理可以包括使用分区的图像的任何任务。

一个示例性任务包括安全“妨碍物”(包含可验证数据的印刷区)的处理。通常，妨碍物的图像质量是很不定的，并且捕获图像的设备的图像能力和质量通常未知。例如，检查员利用蜂窝电话照相机拍摄安全妨碍物(例如包装上的防伪图样)的图片。可能在差的照明条件下拍摄图片。可以如上面所述的那样分区产生的图片。可以从分割的图像提取妨碍物并且验证。用于基于某些特征(例如直方图、彩色频率等)提取妨碍物的示例性方法在受让人的2007年1月30日提交的美国序列号No.11/668670中被公开。

现在对图7进行参考，图7示例说明了另一种图像处理方法，在框710处，将多个分割引擎应用于单个数字图像或应用于数字图像的多个映射。如果使用多个映射，则多个分割引擎可以对相同一组映射进行操作，或者这些引擎可以对不同映射进行操作。所产生的结果是数字图像的不同分割版本。

如果没有其它约束，可以选择具有最高总体加权(置信因子乘以对于该子类中的文档中的区域的平均期望统计输出)的引擎。然而，可用的引擎越多，选择最优的组的算法将越复杂。较小的组可能需要成本函数(例如性能成本、准确性成本等等)的最优化，而较大的组可能需要聚类和/或其它特定的选择算法来确定最优的组。

在框720处，如果不同映射中的片段不一致，则从多个映射获得基元。在框730处，基于置信度将分类分配给基元。在框740处，执行基元的统计聚集。

使用单个分割引擎的一个问题是引擎可能对某一文件格式不工作。使用多个分割引擎可以克服该问题。

现在对图8进行参考，图8示例说明了根据本发明的实施例的机器810，其包括用于应用一个或多个分割引擎的处理器820。机器810不限于任何特定的类型。在不限制的情况下，机器810的实例包括图像捕获设备(例如数字照相机、扫描仪和一体化设备)、计算机和服务器。在一些实施例中，根据本发明的机器可以捕获数字图像并对其进行处理。实例包括手持式设备，例如手持式扫描仪、数字照相机和PDA/电话照相机。

处理器820可以由利用数据840编码的机器存储器830编程，以使得处理器820根据本发明的实施例处理数字图像。数据840可以采用软件或固件、web网络服务、小应用程序、独立型程序、较大的程序的部分或操作***的部分的形式，但这仅是一些实例。

Claims

1.一种图像处理方法，包括：

将分割引擎应用于数字图像的不同映射；

由被分割的映射生成基元，所述基元由不同的映射中的片段的边界来限定；以及

通过下列各项对所述基元进行分类：

评估每个映射的每个片段的质量；和

基于所述评估，把分类分配给每个基元。

2.根据权利要求1所述的方法，其中所述不同映射解决不同的图像问题。

3.根据权利要求1所述的方法，其中根据图像属性选择至少一个映射。

4.根据权利要求1所述的方法，其中所述不同映射包括色调的第一映射和饱和度的第二映射。

5.根据权利要求1所述的方法，其中分类被分配给不同映射的片段，并且其中具有最高质量的那些分类被分配给基元。

6.根据权利要求5所述的方法，还包括根据分类统计的准确性来执行基元的聚集。

7.根据权利要求1所述的方法，其中将分区引擎应用于不同映射，由此在每个不同映射上执行分割、分类和聚集；其中从所述被分割的映射生成基元，并且其中根据分类质量来分类基元。

8.一种图像处理的设备，包括：

用于将分割引擎应用于数字图像的不同映射的装置；

用于由被分割的映射生成基元的装置，所述基元由不同的映射中的片段的边界来限定；以及

用于评估每个映射的每个片段的质量的装置；和

用于基于所述评估，把分类分配给每个基元的装置。