CN110035195A

CN110035195A - 经扫描的硬拷贝媒体的分类

Info

Publication number: CN110035195A
Application number: CN201910181944.6A
Authority: CN
Inventors: 路易斯·詹姆斯·贝亚托
Original assignee: Kodak Alaris Inc
Current assignee: Kodak Alaris Inc
Priority date: 2013-06-03
Filing date: 2014-06-02
Publication date: 2019-07-19
Also published as: CN105379242A; EP3005676B1; JP6159022B2; JP2016526241A; US20140355073A1; US9307107B2; EP3005676A1; WO2014197358A1

Abstract

本申请涉及一种经扫描的硬拷贝媒体的分类。一种基于经扫描的硬拷贝媒体的物理尺寸自动地将其分类的方法。如果所确定的物理尺寸在预先确定的容差内匹配(225：Y)照片的常见物理尺寸中的一者，就将所述硬拷贝媒体分类(235)为照片，且如果所述所确定的物理尺寸在预先确定的容差内匹配(240：Y)文档的常见物理尺寸中的一者，就将所述硬拷贝媒体分类(250)为文档。否则(225：N及240：N)，就使用上下文处理(255)确定媒体分类。

Description

经扫描的硬拷贝媒体的分类

分案申请信息

本发明专利申请是申请日为2014年6月2日、申请号为201480036092.7、发明名称为“经扫描的硬拷贝媒体的分类”的发明专利申请案的分案申请。

相关申请案的交叉参考

本申请案主张2013年6月3日申请的标题为“经扫描的硬拷贝媒体的分类(CLASSIFICATION OF SCANNED HARDCOPY MEDIA)”的第13/908,034号美国专利申请案的优先权，该美国专利申请案的全文特此以引用的方式并入本文中。

技术领域

本发明涉及数字成像领域，且更特定来说，涉及基于物理尺寸及内容分类经扫描的图像。

背景技术

在智能文档理解领域中，基础第一步骤中的一者是识别已扫描的对象的类别。在高电平下，可将大多数对象分类为照片或文档。只要在页上的其它某处存在文本，含有照片的文档通常就也可被分类为文档。将有利的是，将文档从照片分离作为第一步骤。如此，可运用被调谐到图像类型的图像处理方法及算法来最大化图像质量。将照片与文档分离的另一原因是，使得能够使用不同的压缩方案优化存储及传输时间。针对其中可通常容许有损压缩的照片，压缩方案差别很大。通常使用无损方法压缩文档来保存图像及文本清晰度以进一步在光学字符辨识(OCR)中使用。

文档识别的方法通常依赖于文档的词汇特征。在标题为“统计自然语言处理的基础(Foundations of statistical natural language processing)”的书的章节16中，作者曼宁(Maning)及舒尔策(Schutze)提供对文本文档的分类程序的全面审查。包含决策树、最大熵模型、感知器以及k-近邻分类的所描述的方法依赖对文档内的上下文特征的分析。此类分析可能会耗费时间且并不适于分析不含文本的文档。

贝亚托(Beato)等人的标题为“自动确定经扫描的硬拷贝媒体的图像侧及非图像侧(Automatic determining image and non-image sides of scanned hardcopymedia)”的美国专利案7,920,296描述一种用于基于空间频率特性将摄影图像从其非图像侧分离的方法。表征空间频率特性的一种方法是通过计算经扫描的数字图像的压缩系数。众所周知，经扫描的具有高频率内容(例如照片)的数字图像将不会如经扫描的具有大面积低频率内容(例如许多文档)的数字图像压缩得一样好。虽然此方法可用于简单的照片与文档分类器中，但其将不会产生稳健的结果。举例来说，具有高密度文本或嵌入的图像的文档将错误地被分类为照片。

图克尔逊(Turkelson)等人的标题为“使用词汇及物理特征的自动文档分类(Automatic document classification using lexical and physical features)”的美国专利申请公开案2009/0067729描述一种使用物理特性及词汇信息以将文档分类(举例来说，分类为收据或商业名片)的***。可用于文档分类的物理特征的实例包含：颜色、定向、尺寸、边距宽度及水平与垂直投影。通过执行光学字符辨识及执行文本分析以确定一组词汇特征来确定词汇特性。一种机器学习***经训练以基于物理及词汇特征在已知类型的文档之间依序进行鉴别。

金森(Kanamori)等人的标题为“图像形成设备根据手稿的类型校正图像信息的密度(Image forming apparatus correcting the density of image informationaccording to the type of manuscript)”的美国专利5,953,450描述一种使用密度直方图设定白点及黑点以用于再现的***。还可使用密度直方图来区别照片与文本文档。

皮尔森(Peairs)等人的标题为“使用文本及图像的自动文档分类(Automaticdocument classification using text and images)”的美国专利7,039,856描述一种基于文本内容以及视觉外观的自动文档分类的***。基于比较新文档的特性与先前已存储于目录中的文档的特性，新文档被自动存储于一或多个目录中。通常此方法将为缓慢的，因为必须使用可能耗时的文本分析来检查每一未知文档。

仍需要一种用以自动区别照片与文档的稳健且有效的方法。

发明内容

本发明代表一种用于自动将经扫描的硬拷贝媒体分类的方法，其包括：

使用数字图像捕获装置扫描一件硬拷贝媒体以提供具有多个图像像素的经扫描的数字图像，所述多个图像像素具有像素值；

确定所述件硬拷贝媒体的物理尺寸；

接收指定照片的常见物理尺寸的常见的照片尺寸数据库；

接收指定文档的常见物理尺寸的常见的文档尺寸数据库；

如果所确定的物理尺寸在预先确定的容差内匹配照片的常见的物理尺寸中的一者，就将所述件经扫描的硬拷贝媒体分类为照片；

如果所确定的物理尺寸在预先确定的容差内匹配文档的常见的物理尺寸中的一者，就将所述件经扫描的硬拷贝媒体分类为文档；以及

将所确定的分类的指示存储到处理器可存取存储器中。

本发明具有以下优点：使用文档的物理尺寸来提供关于适当的文档分类的重要线索，借此提供具有改进的计算效率及精确度的文档分类方法。

其具有以下额外优点：可使用简单的表查找操作将大多数文档分类，相对于依赖于文本分析及机器学习过程的现有技术，所述表查找操作速度非常快。

附图说明

图1为展示根据本发明的实施例的用于将经扫描的硬拷贝媒体分类的***的组件的高级图；

图2为展示根据示范性实施例的将经扫描的摄影印刷品与文档分类的方法的流程图；

图3展示常见的照片尺寸数据库；

图4A展示常见的ISO文档尺寸数据库；

图4B展示常见的日本文档尺寸数据库；

图4C展示常见的北美及ANSI文档尺寸数据库；

图5为展示根据示范性实施例的图2的上下文处理步骤的额外细节的流程图；以及

图6展示从一组经扫描的***凭证获得的常见的词干数据库的一部分。

具体实施方式

在以下描述中，将以通常将被实施为软件程序的术语描述本发明的一些实施例。所属领域的技术人员将容易地认识到，此类软件的等效物也可被构建于硬件中。因为图像操纵算法及***为众所周知的，所以本描述将(尤其)针对形成根据本发明的方法的部分或更直接与其协作的算法及***。可从此项技术中已知的此类***、算法、组件及元件选择此类算法及***的其它方面以及用于产生与其相关的图像信号且(另外)处理与其相关的图像信号的硬件及软件(本文中未特定展示或描述)。考虑到在下文中如根据本发明描述的***，对于实施本发明有用的本文中未特定展示、论述或描述的软件为常规的且在此类领域中的普通技术内。

本发明包含本文中描述的实施例的组合。对“特定实施例”及类似物的引用指代在本发明的至少一个实施例中存在的特征。对“实施例”或“特定实施例”或类似物的单独引用并不一定指代相同实施例；然而，此类实施例并非互相排斥的，除非如此指示或如所属领域中的技术人员容易地显而易见。在指代“方法”及类似物方面，单数或复数的使用并非为限制的。应注意到的是，除非另外明确声明或由上下文要求，否则在本发明中以非排它意义上使用词“或”。

如本文中使用的短语“照片”指代任何经扫描的摄影硬拷贝数字图像。

图1为展示根据本发明的实施例的用于将经扫描的硬拷贝媒体分类的***的组件的高级图。所述***包含：数据处理***110、******120、用户接口***130及数据存储***140。******120、用户接口***130及数据存储***140被通信地连接到数据处理***110。

数据处理***110包含实施本发明的各种实施例的过程(包含本文中描述的实例过程)的一或多个数据处理装置。短语“数据处理装置”或“数据处理器”希望包含任何数据处理装置，例如中央处理单元(“CPU”)、台式计算机、膝上型计算机、大型计算机、个人数字助理、Blackberry^TM、数码相机、蜂窝电话或用于处理数据、管理数据或操作数据的任何其它装置(不论使用电气组件、磁性组件、光学组件、生物组件还是其它方式实施)。

数据存储***140包含经配置以存储信息的一或多个处理器可存取存储器，所述信息包含执行本发明的各种实施例的过程所需的信息，所述过程包含本文中描述的实例过程。数据存储***140可为分布式处理器可存取存储器***，所述分布式处理器可存取存储器***包含经由多个计算机或装置通信地连接到数据处理***110的多个处理器可存取存储器。另一方面，数据存储***140无须为分布式处理器可存取存储器***，且因此可包含位于单一数据处理器或装置内的一或多个处理器可存取存储器。

短语“处理器可存取存储器”希望包含任何处理器可存取数据存储装置，不论易失性或非易失性、电子、磁性、光学或其它，包含(但不限于)寄存器、软盘、硬盘、光盘、DVD、快闪存储器、ROM及RAM。

短语“通信地连接”希望包含装置、数据处理器或在其中可传达数据的程序之间的任何类型的连接，不论有线或无线。短语“通信地连接”希望包含在单一数据处理器内的装置或程序之间的连接、位于不同数据处理器中的装置或程序之间的连接，以及根本不位于数据处理器中的装置之间的连接。就此点而言，尽管与数据处理***110分开展示数据存储***140，但所属领域的技术人员应了解，数据存储***140可完全或局部存储在数据处理***110内。进一步就此点而言，尽管与数据处理***110分开展示******内120及用户接口***130，但所属领域的技术人员应了解，此类***中的一者或两者可完全或局部存储在数据处理***110内。

******120可包含经配置以将数字内容记录提供到数据处理***110的一或多个装置。举例来说，******120可包含数码静态相机、数码摄像机、蜂窝电话或其它数据处理器。数据处理***110在接收到来自******120中的装置的数字内容记录后可即刻将此类数字内容记录存储到数据存储***140中。

用户接口***130可包含鼠标、键盘、另一计算机或任何装置或将数据从其输入到数据处理***110的装置的组合。就此点而言，尽管与用户接口***130分开展示******120，但******120可被包含在内作为用户接口***130的部分。

用户接口***130还可包含显示装置、处理器可存取存储器或任何装置或将数据通过数据处理***110输出到的装置的组合。就此点而言，如果用户接口***130包含处理器可存取存储器，那么此类存储器可为数据存储***140的部分，即使在图1中单独展示用户接口***130及数据存储***140。

发明者已认识到，物理页特性(尤其是物理尺寸)对自动且快速地将已被放置到文档扫描仪中的文档及照片分类到对应的分类中为有用的。所述方法首先将经扫描的数字图像的物理尺寸与已知常见的照片尺寸及已知常见的文档尺寸作比较，且相应地当发现匹配时将图像分类。如果经扫描的数字图像不匹配已知常见的尺寸中的一者，那么应用上下文处理以用于进一步分析。此方法代表一种稳健的用于分离照片及文档的方法，其提供相对于依赖于文本处理及机器学习算法的现有技术方法的速度优势。

图2说明根据本发明的实施例的用于将经扫描的硬拷贝媒体分类的流程图。对方法的输入是物理硬拷贝媒体200。扫描媒体步骤205用于使用数字图像捕获装置来扫描硬拷贝媒体200，借此提供经扫描的数字图像210。数字扫描仪可为硬拷贝扫描仪或任何其它适当的数字图像捕获装置，例如数码相机或具有数码相机模块的移动电话。经扫描的数字图像210包含具有像素值的图像像素阵列。针对经扫描的数字图像210为彩色图像的情况，图像像素将具有针对多个色彩通道的像素值。

接着使用确定物理尺寸步骤215分析经扫描的数字图像210以确定硬拷贝媒体200的物理尺寸220。在优选的实施例中，通过使用数据处理***110(图1)确定物理尺寸220以自动分析经扫描的数字图像210的像素来识别对应于经扫描的硬拷贝媒体200的经扫描的数字图像210的区域。用于识别此区域的方法在此项技术中为众所周知的，且通常涉及检测经扫描的硬拷贝媒体200的边沿或根据已知背景检测明显不同的图像像素。经识别区域的水平及垂直维度中的像素的数目接着通过由扫描仪分辨率按比例缩放其而转换成物理尺寸，物理尺寸通常以每英寸点数(dpi)来测量。举例来说，可通过将水平区域尺寸(以像素计)除以水平分辨率(举例来说，以dpi计)来计算水平物理尺寸(举例来说，以英寸计)。同样地，可通过将垂直区域尺寸除以垂直分辨率来计算垂直物理尺寸。可以任何适当的物理单位(例如英寸或mm)表示物理尺寸220。

在替代实施例中，确定物理尺寸步骤215可使用硬拷贝扫描仪中的适当的传感器确定硬拷贝媒体200的物理尺寸220。可使用此项技术中已知的任何种类的传感器，包含机械传感器、光学传感器或电传感器。

使用常见的照片尺寸测试225比较所确定的物理尺寸220与存储于常见的照片尺寸数据库230中的一组常见的照片尺寸以确定是否应将硬拷贝媒体200分类为照片。常见的照片尺寸数据库230含有用于一组常见的照片尺寸的物理尺寸维度。

在照片打印中通常使用标准照片印刷品尺寸。用于打印照片的单页纸通常以这些尺寸出售。图3展示包含近年来已由摄影行业使用的常见的照片尺寸400的表的示范性常见的照片尺寸数据库230。常见的照片尺寸400的表以优先级排序，其中最常见的尺寸首先列于表中。通常使用格式“nR”的代码表示尺寸，其中数字n以英寸表示较短边沿的长度。举例来说，“4R”照片的尺寸为4 x 6英寸，且“8R”照片的尺寸为8 x 10英寸。在正常系列中，长边沿通常等于短边沿的长度加2英寸(10英寸或更小)或3英寸(11英寸及以上)。表示为“SnR”的替代超级系列具有3:2(或尽可能靠近)的纵横比，且因此对8英寸尺寸及以上的标准135胶片(35mm)提供更好的贴合。

常见的照片尺寸400的表包含以英寸及mm两者以及格式中的每一者的纵横比展示尺寸的若干列。所属领域的技术人员应认识到，各列中的信息为冗余的，且常见的照片尺寸数据库230应仅须根据一些适当的单位(举例来说，英寸)存储物理尺寸。

示范性常见的照片尺寸数据库230包含在过去40年期间由美国摄影行业已使用的大多数标准照片尺寸。在一些实施例中，常见的照片尺寸数据库230还可包含其它较不常见的照片尺寸(举例来说，对应于历史照片格式的照片尺寸)或对应于用于其它国家的标准照片格式的照片尺寸。举例来说，在日本，“L”格式相当于“3R”格式，而“2L”格式(尺寸的两倍)相当于“5R”格式。“KG”代表传统4 x 6英寸(4R)日本明信片的尺寸。参考457 x 560mm的全页尺寸界定“nP”或切割系列，其中较小数字(较少切割)指示较大尺寸。不同于ISO 216纸张尺寸，由于摄影印刷品的纵横比不同，所以精确的印刷品缩放比例并非始终可能。许多标准尺寸与片型胶片格式相同，且适于从这些胶片制造接触片。可根据在特定环境中通常扫描的照片的数量在任何时间将新的照片尺寸格式添加到常见的照片尺寸数据库230。

在优选的实施例中，常见的照片尺寸测试225循序地比较所确定的物理尺寸220与存储于常见的照片尺寸数据库230中的物理尺寸。如果发现所确定的物理尺寸220在预先确定的容差(举例来说，±2％)内匹配常见的物理尺寸中的一者，那么硬拷贝媒体200可被认为是照片，且将图像分类为照片步骤235用以指定“照片”的媒体分类260。如果发现物理尺寸220匹配常见的照片尺寸数据库230中的照片尺寸中的一者，那么为了计算效率，没必要比较物理尺寸220与常见的照片尺寸数据库230中的任何其它未测试的照片尺寸。出于此原因，有利的是组织常见的照片尺寸数据库230使得首先测试最常见的照片尺寸。

如果常见的照片尺寸测试225确定所确定的物理尺寸220不匹配常见的照片尺寸数据库230中的常见的照片尺寸中的任何者，那么过程继续到常见文档尺寸测试240。使用常见文档尺寸测试240比较所确定的物理尺寸220与存储于常见的文档尺寸数据库245中的一组常见的文档尺寸以确定是否应将硬拷贝媒体200分类为照片。常见的文档尺寸数据库245含有针对一组常见的文档尺寸的物理尺寸维度。

在优选的实施例中，常见的文档尺寸测试240循序地比较所确定的物理尺寸220与存储于常见的文档尺寸数据库245中的物理尺寸。如果发现所确定的物理尺寸220在预先确定的容差(举例来说，±2％)内匹配常见的文档尺寸中的一者，那么硬拷贝媒体200可认为是文档，且将图像分类为文档步骤250用以指定“文档”的媒体分类260。如果发现物理尺寸220匹配常见的文档尺寸数据库245中的文档尺寸中的一者，那么为了计算效率，不必要比较物理尺寸220与常见的文档尺寸数据库245中的任何其它未测试的文档尺寸。出于此原因，有利的是组织常见的文档尺寸数据库245使得首先测试最常见的文档尺寸。

标准的文档尺寸通常用于许多文档打印应用中。通常以这些尺寸出售用于打印文档的单页纸。在不同时期且在不同国家，许多纸张尺寸标准公约已存在。现今存在一种广泛的国际ISO标准(包含A4、B3、C4等等)及用于北美(包含信件、法律、总账等等)的本地标准。标准纸张尺寸用于书写纸、信纸、卡及一些打印的文档。标准还具有针对信封的有关尺寸。国际纸张尺寸标准ISO 216是基于德国DIN 476纸张尺寸标准。ISO纸张尺寸都基于单一纵横比或约1:1.4142。

图4A展示包含由常见的ISO文档尺寸500的表指定的文档尺寸的示范性常见的文档尺寸数据库245的一部分。标准文档尺寸被布置成三种系列：A系列、B系列及C系列。定义基础A0纸张尺寸以具有1m²的面积。取整到毫米，A0纸张尺寸为841mm x 1189mm(33.1in x46.8in)。通过将先前纸张尺寸沿着较大维度二等分来定义系列A1、A2、A3等等中的连续纸张尺寸。最常使用的纸张尺寸是测量为210mm x 297mm(8.3in x 11.7in)的A4。

此ISO***的明显优点是其按比例缩放：如果具有的纵横比的纸张被划分成平行于其最短侧的两个相同部分，那么两等份将再次具有的纵横比。可通过使用具有次大尺寸的纸张制造具有任何尺寸的折叠的小册子(举例来说，A4纸张可经折叠而制造A5小册子)。***允许在不损害从一种尺寸变化到如由办公复印机所提供的另一种的纵横比的情况下按比例缩放(举例来说，将A4扩大到A3或将A3缩减到A4)。类似地，在无需任何切割或页边空白的情况下两张A4纸可被按比例缩减且精确地配合在1张纸上。使用ISO***，也能容易地计算重量：由80g/m²纸张制成的标准A4纸重5克(由于其为A0页的16分之一，测量为1m²)，从而允许人们通过计算所使用的纸的数目容易地计算重量及相关联的邮费。

除了A系列之外，存在较不常见的B系列。B系列纸张的面积为连续A系列纸张的几何平均。所以，在尺寸方面B1在A0与A1之间，其中面积为0.707m²(m²)。因此，B0为1米宽，且B系列中的其它尺寸为一米宽的一半、四分之一或更小分数。虽然在办公用品中并不常见，但其用于各种特殊情形中。许多海报使用B系列纸张或近似值，例如50cm x 70cm；B5为书籍的相当常见的选择。B系列还用于信封或护照。B系列广泛使用于打印行业中以描述纸张尺寸与印刷机(包含数字印刷机)尺寸两者。使用B3纸张使用拼版并排打印两份US信件或A4页。类似地，四页将打印到B2上且八页将打印到B1上。

图4B展示包含在常见的日本文档尺寸510的表中给出的文档尺寸的示范性常见的文档尺寸数据库245的一部分。日本标准定义两种主要纸张尺寸系列。JIS A系列(图4B中未展示)与ISO A系列(参见图4A)相同，但具有稍微不同的容差。日本B系列纸张的面积是对应的A纸张(而不是ISO B系列的系数)的面积的1.5倍，所以长度比约为对应的A系列纸张的长度的1.22倍。纸张的纵横比与A系列纸张相同。在日本、台湾及中国，A系列与B系列纸张两者为广泛可用的，且大多数复印机装载有至少A4及A3、B4及B5纸张中的任一者。

还存在现在主要仅由打印机使用的若干传统日本纸张尺寸。这些老系列中的最常见的是Shiroku-ban及Kiku纸张尺寸，其在图4B的常见的日本文档尺寸510的表中展示。

图4C展示包含常见的北美文档尺寸520的表及常见的ANSI文档尺寸530的表中给出的文档尺寸的示范性常见的文档尺寸数据库245的一部分。北美的标准文档尺寸使用与世界上其他国家相比不同的帝国纸张尺寸***。当前标准尺寸对该大陆为独一无二的(尽管随着全球化，世界上的其它地区已逐渐对其熟悉)。日常活动目前为止最通常使用其的是“信件”、“法律”、“总账”及“文摘”。传统上“信件”尺寸纸张(8.5 x 11英寸)的精确维度的起源已丢失且不能很好的证实。北美以外，信件尺寸还被称为“美国Quarto”且所述尺寸实际上几乎正好是允许修剪0.5英寸的被称为Demy 4to(17.5 x 22.5英寸)的老帝国(英国)纸张尺寸的四分之一。

图4C中的常见的ANSI文档尺寸530的表展示1996年由美国国家标准学会采用的一组文件尺寸。这些文件尺寸被指定为ANSI/ASME Y14.1，其基于实际标准8.5x 11英寸“信件”尺寸定义正规系列的纸张尺寸，其被指定为“ANSI A”。此系列还包含被称为“ANSI B”的“总账”及“文摘”尺寸。此系列某种程度上类似于ISO标准，因为将纸张切割成两半将产生具有次小尺寸的两张纸。然而，不同于ISO标准，任意的纵横比迫使此系列具有两种交替的纵横比。即，“信件”(ANSI A)没有A4拉伸的长，而“总账/文摘”(ANSI B)比A3拉伸的长。

在一些实施例中，常见的文档尺寸数据库245可包含图4A到4C中展示的所有标准文档尺寸。在其它实施例中，仅可包含对特定的地理区域或特定的应用常见的那些文档尺寸。在一些应用中，可能存在通常遇到的(举例来说，标准收据尺寸)并不对应于上文论述的标准文档尺寸中的任何者的某些非标准文档尺寸。在此情况下，这些非标准文档尺寸也可包含于常见的文档尺寸数据库245中。

在一些实施例中，如果常见的文档尺寸测试240确定硬拷贝媒体200应被分类为文档，就可使用额外任选处理来确定文档类型。举例来说，可分析文档中的色彩及字母数字字符的存在及分布以将文档分类到各种文档分类中，例如文本文档分类、艺术线条文档分类或图形文档分类。可根据本发明使用用于确定此类文档分类的此项技术中已知的任何方法。举例来说，在一些实施例中，可使用赛义德(Said)的标题为“复合文档中的特征的分类(Classification of features in compound documents)”的第2003/0021471号美国专利申请公开案中描述的方法来确定适当的文档分类，所述公开案以引用的方式并入本文中。

如果常见的文档尺寸测试240确定所确定的物理尺寸220不匹配常见的照片尺寸数据库230中的常见照片尺寸中的任何者，那么过程继续到上下文处理步骤255以进一步分析以便使用上下文信息确定媒体分类260。可根据本发明使用此项技术中已知的任何适当的上下文处理方法。

在一些实施例中，分析经扫描的数字图像210以检测硬拷贝媒体200中存在的任何字母数字字符的存在，且如果所检测到的字母数字字符满足预先定义的标准，硬拷贝媒体200就被分类为文档。可根据本发明使用的简单的预先定义的标准的实例是计算经辨识的字母数字字符的总数及比较所确定的字符数目与预先定义的阈值。如果所确定的字符数目大于或等于预先定义的阈值，硬拷贝媒体200就被分类为文档，否则其被分类为照片。虽然照片可包含少量字符(举例来说，在包含于照片中的标志或T恤上)，但大量字符将指示硬拷贝媒体200为文档。在其它实施例中，预先定义的标准可将其它文本特征(例如检测到的字符的位置及图案或由经检测到的字符形成的词)考虑在内。举例来说，可将经辨识的字符数字字符群组与词典进行比较以识别经辨识的词。可接着将经辨识的词的数目与预先定义的阈值进行比较以确定是否应将硬拷贝媒体200分类为文档。在一些实施例中，经辨识的词的数目限于具有最小数目(举例来说，3)字符的词。下文将关于图5论述上下文处理步骤255的特定示范性实施例。

使用存储媒体分类步骤265将所确定的媒体分类260存储到处理器可存取的存储器中(举例来说，在RAM中)。在一些实施例中，可将所确定的媒体分类260存储为与用以存储经扫描的数字图像210的数字文件相关联的元数据。

虽然关于图2论述的方法描述两种媒体分类：照片分类及文档分类，但对所属领域的技术人员将显而易见的是，所述方法可被扩展到也包含额外媒体分类。举例来说，当确定经扫描的数字图像210为空白图像(举例来说，其中所有像素值都超过预先定义的阈值的图像)时，可指定空白页媒体分类。在一些实施例中，丢弃被确定为空白页的经扫描的数字图像210而不是将其保存到数字文件中。

在一些实施例中，可使用所确定的媒体分类260控制或选择被应用到经扫描的数字图像210的一或多个图像处理操作。举例来说，可响应于所确定的媒体分类260选择不同的色调/色彩处理操作、不同的噪声减小操作、不同的图像锐化操作或不同的图像压缩操作或用于控制此类图像处理操作的不同的参数。以此方式，图像处理操作的性能可经调谐以最大化特定媒体分类260的图像质量或性能。举例来说，有损压缩算法可经选择以与“照片”媒体分类一起使用以在不产生显著图像质量损失的情况下提供改进的压缩比，而无损压缩算法可经选择以与“文档”媒体分类一起使用以更好地保存文本清晰度以用于使用光学字符辨识(OCR)算法以进一步处理。

图5说明根据示范性实施例的上下文处理步骤255的分解图。当所确定的物理尺寸220(图2)不匹配常见的照片尺寸或常见的文档尺寸中的一者时使用此步骤确定媒体分类260。上下文处理以将光学字符辨识(OCR)处理应用到经扫描的数字图像借此产生ASCII文本310的OCR处理步骤305开始。可使用此项技术中已知的任何OCR算法执行OCR处理。使用OCR算法分析数字图像且识别其中含有的任何字母数字字符。存在若干无成本的可用的OCR软件包，包含Tesseract、GOCR、gnuOCR。还存在若干市售OCR软件包，包含Nuance、ABBYY、Iris及其它。

可使用计算词干步骤320分析ASCII文本310及确定一组词干330。在语言学上，词干仅仅为词的基础部分。例如，词：separate、separates、separating、separated，都具有相同的词干“separat”。此词干将代表词“separate”的时态、副词、形容词及类似物的所有不同变型。

计算词干步骤320可使用此项技术中已知的任何词干算法。在优选的实施例中，计算词干步骤320使用由M.F.波特(Porter)开发的众所周知的“波特词干算法”(或“波特分词法”)。波特词干算法是一种用于将更常见的形态学及有词尾变化的词尾从英文词移除的过程。其主要用途是作为通常当构建信息检索***时进行的术语规范化过程的部分。波特分词法基于英语语言(约1200)中的后缀主要由较小及较简单的后缀的组合而组成的理念。此波特词干算法使用五步过程，针对每一步骤应用一组规则。在每一步骤内，如果后缀规则被匹配到词，那么在将成为所得词干的内容上测试被附加到所述规则的条件(如果所述后缀被以由规则定义的方式移除)。举例来说，此类条件可为在词干(测量)中跟随辅音字母的元音字母的数目针对待应用的规则必须大于1。

波特分词法为广泛可用的，且已使用于许多应用中。此分词法的实施方案在由波特自己建立的网站处可获得，其中实施方案以Java、C及PERL为基础；网站还包含定义算法的文档编制。此算法的其它实施方案在因特网上可获得。在信息检索研究中波特的算法可能是最广泛使用的词干算法。

使用文档文本图案测试340来确定发现于经扫描的数字图像210中的所确定的词干330的组是否匹配文档将期望的特性。在最简单的实施例中，文档文本图案测试340将词干330的数目与预先定义的阈值(举例来说，10)进行比较，且如果词干330的数目大于或等于预先定义的阈值就执行将图像分类为文档步骤250以将媒体分类260设定到“文档”。否则，执行将图像分类为照片步骤235以将媒体分类260设定到“照片”。

在其它实施例中，文档文本图案测试340可使用更复杂的分析以确定经扫描的数字图像210是否为文档。举例来说，可将词干330与包含文档中通常存在的词干数据库的任选词干词典350进行比较。可接着计算匹配词干词典350中的词目的词干330的数目，且将词干330的数目与预先定义的阈值进行比较。词干词典350可包含在特定语言的文档中存在的词干或可包含一组相关语言中存在的词干。在一些实施例中，词干词典350可仅包含对应于感兴趣的特定文档类型(举例来说，***)的词干。图6展示针对英文***凭据的示范性词干词典350的一部分。所显示的部分展示发现在***凭据的示例数目的至少25％中存在的词干。类似词干词典350可具有一组不同的文档类型(举例来说，收据、商业信件、报告等等)。在此情况下，可将发现于经扫描的数字图像210中的词干330与词干词典350中的每一者进行比较，以不仅确定硬拷贝媒体200(图2)是否为文档，而且将文档的类型分类。

在一些应用中，输入硬拷贝媒体200的前侧及背侧两者经扫描以提供对应的经扫描的数字图像210。在此情况下，针对硬拷贝媒体200的前侧与背侧两者，可将本发明的方法独立地应用到经扫描的数字图像210。以此方式，可针对每一侧确定独立的媒体分类260。替代地，可以组合形式分析两侧。举例来说，前侧及背侧的物理尺寸通常将为相同的，且因此常见的照片尺寸测试225及常见的文档尺寸测试240应都产生相同的结果。因此，如果这些测试中的一者针对一侧产生肯定结果，相同的分类就也被采用到另一侧。

在一些实施例中，在双面型硬拷贝媒体被分类为照片的情况中，可使用额外标准以确定哪面是照片的前侧及哪面是照片的背侧。举例来说，可出于此目的使用前述美国专利案7,920,296中描述的方法。在此情况下，可希望将不同的处理应用到照片的前侧及背侧。举例来说，水印、背打印及在照片的背侧上书写的手写文本可经分析以确定可与照片的前侧上描绘的图像相关联的元数据。举例来说，贝亚托(Beato)等人的标题为“从数字化硬拷贝媒体自动产生动态数字元数据记录的方法(Method for Automatically Generatinga Dynamic Digital Metadata Record from Digitized Hardcopy Media)”的第2007/0250532号美国专利申请案公开案揭示通过分析包含水印及其它物理印刷品属性的特征以确定关于印刷品的信息而从数字化硬拷贝媒体自动产生一组动态的元数据。

计算机程序产品可包含一或多种非暂时性的有形计算机可读存储媒体，举例来说：磁性存储媒体，例如磁盘(例如软盘)或磁带；光学存储媒体，例如光盘，光带或机器可读条形码；固态电子存储装置，例如随机存取存储器(RAM)或只读存储器(ROM)；或用以存储具有用于控制一或多个计算机实践根据本发明的方法的指令的计算机程序的任何其它物理装置或媒体。

已特定参考本发明的某些优选实施例详细描述本发明，但应理解，在本发明的精神及范围内可实现多种变化及修改。

部件列表

110 数据处理***

120 ******

130 用户接口***

140 数据存储***

200 硬拷贝媒体

205 扫描媒体步骤

210 经扫描的数字图像

215 确定物理尺寸步骤

220 物理尺寸

225 常见的照片尺寸测试

230 常见的照片尺寸数据库

235 将图像分类为照片步骤

240 常见的文档尺寸测试

245 常见的文档尺寸数据库

250 将图像分类为文档步骤

255 上下文处理步骤

260 媒体分类

265 存储媒体分类步骤

305 光学字符辨识处理步骤

310 ASCII文本

320 计算词干步骤

330 词干

340 文档文本图案测试

350 词干词典

400 常见的照片尺寸表

500 常见的ISO文档尺寸表

510 常见的日本文档尺寸表

520 常见的北美文档尺寸表

530 常见的ANSI文档尺寸表

Claims

1.一种用于自动将经扫描的硬拷贝媒体分类的方法，其包括：

使用数字图像捕获装置扫描一件硬拷贝媒体以提供具有多个图像像素的经扫描的数字图像，所述多个图像像素具有像素值，所述扫描在确定所述件硬拷贝媒体的物理尺寸之前出现；

通过分析扫描的所述硬拷贝媒体的所述图像像素而不是分析实际的硬拷贝媒体来确定所述件硬拷贝媒体的所述物理尺寸；

接收指定照片的常见物理尺寸的常见的照片尺寸数据库；

接收指定文档的常见物理尺寸的常见的文档尺寸数据库；

如果所述所确定的物理尺寸在预先确定的容差内匹配照片的所述常见的物理尺寸中的一者，就将所述件经扫描的硬拷贝媒体分类为照片；

如果所述所确定的物理尺寸在预先确定的容差内匹配文档的所述常见的物理尺寸中的一者，就将所述件经扫描的硬拷贝媒体分类为文档；

其中如果所述所确定的物理尺寸在预先确定的容差内不匹配照片的所述常见的物理尺寸中的任何者或文档的所述常见的物理尺寸中的任何者，则：使用数据处理器分析所述经扫描的数字图像以检测所述件硬拷贝媒体中存在的任何字母数字字符的存在；如果所述经检测的字母数字字符满足预先定义的标准就将所述件经扫描的硬拷贝媒体分类为文档；以及

将所述所确定的分类的指示存储到处理器可存取的存储器中。

2.根据权利要求1所述的方法，其中通过使用数据处理器分析所述经扫描的数字图像的所述像素值确定所述件硬拷贝媒体的所述物理尺寸。

3.根据权利要求1所述的方法，其中通过使用与所述数字图像捕获装置相关联的一或多个传感器确定所述件硬拷贝媒体的所述物理尺寸。

4.根据权利要求1所述的方法，其进一步包含：将一或多个数字图像处理操作应用到所述经扫描的数字图像，其中响应于所述所确定的分类控制或选择所述数字图像处理操作中的至少一者。

5.根据权利要求1所述的方法，其中使用光学字符辨识算法分析所述件经扫描的硬拷贝媒体以识别所述件硬拷贝媒体中存在的任何字母数字字符。

6.根据权利要求5所述的方法，其中如果经辨识的字母数字字符的数目大于或等于预先确定的阈值，所述预先确定的标准被满足。

7.根据权利要求5所述的方法，其进一步包含：

将经辨识的字母数字字符群组与具有已知的词的词典进行比较以识别经辨识的词；

其中所述预先确定的标准将经辨识的词的数目与预先确定的阈值进行比较。

8.根据权利要求5所述的方法，其进一步包含：

分析经辨识的字母数字字符群组以确定对应的词干；

其中所述预先确定的标准响应于所述所确定的词干确定是否将所述件经扫描的硬拷贝媒体分类为文档。

9.根据权利要求8所述的方法，其中将所述所确定的词干与常见的文档词干词典进行比较。

10.根据权利要求9所述的方法，其中所述常见的文档词干词典为特定文档类型所特有。

11.根据权利要求1所述的方法，其进一步包含：分析所述经扫描的数字图像以确定所述件硬拷贝媒体是否为空白页。

12.根据权利要求11所述的方法，其进一步包含：丢弃被确定为空白页的任何经扫描的数字图像。

13.根据权利要求1所述的方法，其中使用数字扫描仪扫描所述件硬拷贝媒体的前侧与背侧两者以提供前侧数字图像及背侧数字图像，且其中分析所述前侧数字图像与所述背侧数字图像两者以确定所述分类。

14.根据权利要求1所述的方法，其中所述文档分类包含文本文档、艺术线条文档或图形文档。

15.根据权利要求1所述的方法，其进一步包含：将所述经扫描的数字图像存储到数字文件中，且其中将所述所确定的分类存储为与所述数字文件相关联的元数据。

16.一种***，其包括：

数字图像捕获装置；

数据处理***；

数据库存储器，其存储指定照片的常见物理尺寸的常见的照片尺寸数据库及指定文档的常见物理尺寸的常见的文档尺寸数据库；以及

存储器***，其通信地连接到所述数据处理***且存储经配置以致使所述数据处理***实施一种用于自动将经扫描的硬拷贝媒体分类的方法的指令，

其中所述方法包含：

使用所述数字图像捕获装置扫描一件硬拷贝媒体以提供具有多个图像像素的经扫描的数字图像，所述多个图像像素具有像素值，所述扫描在确定所述件硬拷贝媒体的物理尺寸之前出现；

其中如果所述所确定的物理尺寸在预先确定的容差内不匹配照片的所述常见的物理尺寸中的任何者或文档的所述常见的物理尺寸中的任何者，则进一步致使所述***执行：使用数据处理器分析所述经扫描的数字图像以检测所述件硬拷贝媒体中存在的任何字母数字字符的存在；如果所述经检测的字母数字字符满足预先定义的标准就将所述件经扫描的硬拷贝媒体分类为文档；以及