CN1945599A - 图像处理装置,图像处理方法和计算机程序产品 - Google Patents

图像处理装置,图像处理方法和计算机程序产品 Download PDF

Info

Publication number
CN1945599A
CN1945599A CNA2006101599928A CN200610159992A CN1945599A CN 1945599 A CN1945599 A CN 1945599A CN A2006101599928 A CNA2006101599928 A CN A2006101599928A CN 200610159992 A CN200610159992 A CN 200610159992A CN 1945599 A CN1945599 A CN 1945599A
Authority
CN
China
Prior art keywords
file area
language
area
unit
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101599928A
Other languages
English (en)
Other versions
CN100424716C (zh
Inventor
西田广文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of CN1945599A publication Critical patent/CN1945599A/zh
Application granted granted Critical
Publication of CN100424716C publication Critical patent/CN100424716C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Geometry (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Graphics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Processing Or Creating Images (AREA)
  • Character Input (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Image Analysis (AREA)

Abstract

第一区域提取单元通过将文件图像数据划分为文件区域单元而从文件图像数据中提取第一文件区域。语言确定单元确定文件图像数据中使用的语言的类型。第二区域提取单元基于对应于语言确定单元确定的语言类型的规则,通过划分或组合第一文件区域提取第二文件区域。

Description

图像处理装置,图像处理方法和计算机程序产品
技术领域
本发明涉及从图像数据中提取包括字符的区域的技术。
背景技术
本发明包括并引用了于2005年10月7日申请的日本优先权文件第2005-295412的全部内容。
通常,将由例如扫描仪和数码相机的图像输入装置输入到计算机中的文件图像分类为文件组成元素的过程,即分类为字符块、照片/图片/插图、表格和划线的过程称为“几何布局分析”或“页面分割”。通常对二进制文件图像进行“几何布局分析”或“页面分割”。此外,“几何布局分析”或“页面分割”和如预处理的“倾斜(skew)校正”相关,在“倾斜校正”过程中,校正输入时导致的倾斜。已经进行过倾斜校正的二进制文件图像的“几何布局分析”或“页面分割”分为两大类方法(由上而下的分析和由下而上的分析)。
下面解释由上而下的分析。由上而下的分析将页面分解为大的组成元素,然后再分解为较小的组成元素。这种方法中,将较大的组成成份分解为较小的成份;例如,将页面分解为列,将每列分解为段,将每段分解为字符行。由上而下的分析通过使用基于页面布局结构(例如,Manhattan布局中的字符行是竖式的矩形)假设的模型,而对简便计算是是有利的。然而如果假设对于数据无效,存在一缺点即会产生致命错误。对于复杂的布局,在大多数情况下建模也会变得复杂,因此不容易处理复杂布局。
接下来介绍由下而上的分析。在由下而上的分析中,如日本专利申请第2000-067158号和日本专利第3187895号中描述的那样,通过参考和相邻元素的位置关系来整合组成元素。这种方法中,将较小的组成元素分组到较大的元素下;例如,将相连的元素放成一行,将多行放成一栏。日本专利申请第2000-067158号中揭示了基于本地信息的由下而上的分析方法。尽管对于整个文件图像数据的布局来说,能够不过多依赖于假设就能处理多种布局,缺点在于本地产生的判断误差可能会被累积。如果错误地将跨越不同列的两个单词整合到一个字符行中,会错误地将两列作为一栏提取。此外,日本专利申请第3187895号中揭示的整合组成元素的方法需要知道字符序列的特征和每种语言的书写方向(垂直书写或水平书写)。
如上所述,两种方法是彼此互补的,并且有一些方法可用于弥补二者之间的不同。在这些方法中,有的方法和语言的差异无关。这些方法包括使用部分而不是使用字符的方法,即,对二进制文件图像使用“背景”或所谓的“白色背景”。使用背景或白色背景的优势在于:
(1)因为不必考虑处理的是何种语言(白色背景在大多数语言中都作为断点),所以不需要知道书写方向(垂直书写或水平书写)。
(2)广泛的处理不易导致累积的本地判断误差。
(3)能够灵活地处理复杂的布局。
在这些背景分析方法中,“最大白色块组页面分割”是典型的方法。
下面将会简要地介绍“最大白色块组页面分割”。在此之前,先定义一下“最大白色块问题”。首先,分配rb用于指示对应于整个文件图像数据的块区域,分配C=[r0,r1,...,rn](rirb;i=0,1,...,n)用于指示包括二进制文件图像的组合的黑色成份的块区域。图6描述了块区域的示例集。进一步地,为块引入满足下面描述的特征的评估函数Q。对于两个块r和r′,评估函数满足:
如果rr′,
则Q(r)≤Q(r′)
例如,当函数Q(r)是块r的区域时就满足上述特征。“最大白色块问题”是如何在和C,r0,r1,... ,rn(rirb;i=0,1,...n)元素不重叠的块中找到Q的最大值。对于这一问题的扩展,Document Image Analysis(H.Bunke,P.S.P.Wang,and H.S.Baird,Eds.),Singapore:World Scientific,1994,pp.17-34中H.S.Baird的“Background structure in document images”和Proceedings of IAPRWorkshop on Document Analysis Systems(Princeton,NJ,USA),2002中TMBreuel的“Two algorithms for geometric layout analysis”提出了针对“最大白色块”以降序排列提供Q值的算法,“最大白色块”即如果被进一步扩展将会和任一C元素重叠的白色块。
通过以上述方法中一组最大白色块覆盖背景区域(二进制文件图像的空白区域),预期能够将例如列和文字行的文件组成元素作为“没有被任一白色块覆盖的部分”提取出来。
然而,属于例如“最大白色块组页面分割”的背景分析的方法具有一个缺点:难于处理特定语言的复杂布局。
发明内容
本发明的目的是至少部分解决现有技术中存在的问题。根据本发明的一个方面的图像处理装置包括第一区域提取单元,用于通过将文件图像数据划分为文件区域单元,从文件图像数据中提取第一文件区域;语言确定单元,用于确定文件图像数据中使用的语言的类型;和第二区域提取单元,基于对应于语言确定单元确定的语言类型的规则,通过划分或组合第一文件区域提取第二文件区域。
根据本发明另一方面的图像处理方法包括通过将文件图像数据划分为文件区域单元,从文件图像数据提取第一文件区域;确定文件图像数据中使用的语言的类型;和基于对应于在语言确定时确定的语言类型的规则,通过划分或组合第一文件区域提取第二文件区域。
根据本发明的另一方面的计算机程序产品包括计算机可用的媒体,所述媒体具有计算机可读程序代码并且在被执行时使得计算机执行:通过将文件图像数据划分为文件区域单元,从文件图像数据提取第一文件区域;确定文件图像数据中使用的语言的类型;和基于对应于在语言确定时确定的语言类型的规则,通过划分或组合第一文件区域提取第二文件区域。
当阅读下述关于本发明的优选实施例的详细描述及参考附图时,能够更好地理解本发明上述和其它目的,特点,优势和技术及产业重要性。
附图说明
图1是描述根据本发明第一实施例的图像处理装置的结构的框图;
图2是描述根据第一实施例的存储在图像处理装置存储单元的提取规则对应表的结构的示意图;
图3是描述根据第一实施例的经过图像处理装置的图像输入处理单元的输入处理后的二元化图像数据的示例的示意图;
图4是描述最大白色块的示例的示意图;
图5是描述采用最大白色块组页面分割的布局分析处理的基本方法的示意图;
图6是描述根据第一实施例的第一区域提取单元的区域提取结果的示例的示意图;
图7是描述在划分区域的文件图像数据上执行的书写方向确定结果的示例的示意图;
图8是描述根据第一实施例的第二区域提取单元的结构的框图;
图9是描述根据第一实施例的经过日文垂直书写校正单元的区域提取的文件区域的示例的示意图;
图10是描述根据第一实施例的由例如日文垂直书写校正单元的后处理校正单元在每个文件区域执行的提取处理的结果的示意图;
图11是描述第一区域提取单元提取的包括大字体的文件图像数据的示例的示意图;
图12是描述根据第一实施例的大字体校正单元组合文件区域和再提取文件区域的结果的示例的示意图;
图13是描述根据第一实施例的在图像处理装置从输入文件图像数据到从文件图像数据提取文件区域的处理的流程图;
图14是描述根据第一实施例的区域提取单元执行的文件图像数据提取处理的步骤的流程图;
图15是描述根据第一实施例的日文垂直书写校正单元执行的文件区域再提取处理的步骤的流程图;
图16A是描述根据第一实施例的日文垂直书写校正单元所取的文件区域的垂直投影的示例的示意图;
图16B是描述根据第一实施例的日文垂直书写校正单元在文件区域的水平方向上执行划分后的文件区域的示意图;
图16C是描述根据第一实施例的日文垂直书写校正单元在文件区域的垂直方向上进一步执行划分后的文件区域的示意图;
图17是描述根据第一实施例的由日文大字体校正单元执行的组合大字体文件区域的处理的步骤的流程图;
图18是描述根据第二实施例的图像处理装置的结构的框图;
图19是描述根据第二实施例的由图像处理装置执行的从输入文件图像数据到提取文件区域的处理的步骤的流程图;
图20是描述根据第三实施例的图像处理装置的结构的框图;
图21是描述根据第三实施例的存储在图像处理装置的存储单元中的应用规则对应表的结构的示意图;
图22是描述根据第三实施例的由日文OCR-区域提取单元在每个文件区域执行的提取处理的结果的示例的示意图;
图23是描述根据第三实施例的由图像处理装置执行的从输入文件图像数据到提取文件区域的处理的流程图;
图24是描述根据第四实施例的图像处理装置的结构的框图;
图25是描述根据第四实施例的由图像处理装置执行的从输入文件图像数据到提取文件区域的处理的流程图;
图26是描述执行实现图像处理装置功能的程序的PC的硬件结构的示意图;
图27是描述数字多功能装置的概要的透视图;和
图28是描述服务器—客户端***的示意图。
具体实施方式
下面结合附图详细描述本发明的实施例。
图1是描述根据本发明第一实施例的图像处理装置的结构的框图。如图所示,图像处理装置100包括图像输入处理单元101,第一区域提取单元102,语言确定单元103,属性确定单元104,提取确定单元105,第二区域提取单元106和存储单元107。图像处理装置100对输入和处理过的图像数据执行布局分析处理,从而提取处包括字符串的区域。
存储单元107包括数据库。此外,存储单元107在这个数据库中存储了提取规则对应表。存储单元107是通常使用的存储设备,可由HDD、光盘、存储卡等组成。
图2是描述提取规则对应表的结构的示意图。如图所示,提取规则对应表存储语言、书写方向、字体大小和区域提取单元之间的关系。区域提取单元指示包括在第二区域提取单元106内的结构化元件,第二区域提取单元106将在下文中介绍。第二区域提取单元106的结构化元件依照特定规则划分或组合包括在图像数据中的区域,从而提取带有字符串的区域。换句话说,提取规则对应表存储了在第二区域提取单元106可用的、和语言及属性(书写方向和字体大小)相关的处理。下文中将会详细介绍提取规则对应表的使用。
图像输入处理单元101执行图像数据的输入处理。根据本实施例的图像输入处理单元101在输入处理中对图像数据执行二元化从而产生二进制图像数据。任何图像数据都能够由图像输入处理单元101的输入处理处理。例如,图像输入处理单元101可以对和图像处理装置100相连的图像数据(图未示)执行输入处理或者对通过网络从另一装置接收的图像数据执行输入处理。
换句话说,由输入处理处理的图像数据不限于黑和白,可以是彩色或灰色图像。当图像是彩色或灰色时,就会提供上述例如二元化的预处理。然后,对于输入处理经过二元化的图像数据被倾斜校正,不丧失一般性并具有作为黑色象素显示的字符。
图3是描述二元化图像数据的示例的示意图,图像输入处理单元101对所述二元化图像数据已执行过输入处理。在此图中,文字部分用黑色标出。和图中的二元化图像数据相似,根据本实施例的图像处理装置100将包括字符串的图像数据一个区域一个区域地提取出来(下文中,用“文件图像数据”表示包括这样字符串的图像数据)。
第一区域提取单元102包括白色块提取单元111和白色块划分单元112。第一区域提取单元102将经过图像输入处理单元101的输入处理的文件图像数据划分为字符串的例如列的特定组,并且提取区域(下文中,用“文件区域”表示)。和使用的语言无关,只要技术是划分文件图像数据并提取文件区域的,第一区域提取单元102可以采用任何区域提取过程。区域提取方法可以是例如属于背景分析的方法。根据本实施例,第一区域提取单元102在执行“最大白色块组页面分割”的划分之后,提取文件区域。
白色块提取单元111将最大白色块组从文件图像数据或从由白色块划分单元112划分的文件区域中提取出来,具体过程将在下文中介绍。
图4是描述最大白色块的示例图。此图中的白色块是正好包括二进制文件图像的组合的黑色成份的块区域。如果进一步扩展就会和这些块区域重叠的最大白色块,在此图中显示为屏障块(screened block)。
通过将最大白色块组作为分隔器,白色块划分单元112将包括由白色块提取单元111提取的最大白色块组的文件区域或文件图像数据划分为多个文件区域。通过在白色块提取单元111和白色块划分单元112重复所述步骤,划分文件图像数据,从而提取文件区域。
图5是描述采用最大白色块组页面分割的布局分析处理的基本方法的示意图。如图所示,通过使用最大白色块组页面分割,经由从较粗层次到较细层次对文件图像数据的递归划分执行分级处理。这提高了处理的效率。
下面概要介绍最大白色块组的页面分割。首先,在对于中止从整个文件图像数据提取最大白色块组以执行粗规格处理的情况下,白色块提取单元111为下限赋予低的值。从而提取白色块组。白色块划分单元112将提取的白色块组作为分隔器,从而将整个文件图像数据划分为多个文件区域。
接下来,白色块提取单元111减小中止最大白色块组提取情况的下限,并在划分取得的文件区域再次执行最大白色块组提取。白色块划分单元112然后使用提取的最大白色块组细化划分。以递归的方式执行这样的过程。能够根据文件区域的大小配置在分级处理中中止最大白色块组提取情况的下限。除了中止最大白色块组提取情况的下限,也可引入和白色块优选的形状或大小相关的约束条件。例如,可以去除不适合作为文件区域分隔器的白色块。由于长度或宽度小的块有可能位于字符之间,所以必需去除不适合作为文件区域分隔器的白色块。可以根据文件区域中使用的字符的推测的字体大小确定这些和长度和宽度相关的约束条件。下文中会详细介绍最大白色块组的页面分割的过程。
通过第一区域提取单元102递归地执行最大白色块组的提取和文件区域的划分,在文件区域提取过程通过从粗规格到较细规格的递归划分实现分级处理。因此,在布局分析处理能够取得高效率。
语言确定单元103确定整个文件图像数据的语言。确定语言的过程可以是任一过程,例如,能够自动执行或由用户输入。根据本实施例的语言确定单元103被设计用于自动确定语言。也能够采用任何技术进行自动语言确定。语言确定单元103采用了日本专利申请第2005-063419号中的已知的技术。
接下来将介绍语言确定的重要性。图6是描述根据本实施例的第一区域提取单元102的区域提取结果的示例的示意图。此图中以椭圆标记的文件区域501包括两个不同书写方向的文件区域,因为垂直书写段和水平书写段之间的距离小。这种现象在既采用了垂直书写也采用了水平书写的例如日文的语言中是固有的,但是这种现象不会出现在欧洲语言中,因为欧洲语言只采用水平书写。尽管通过引入额外的处理能够解决这个问题,但不能确保不发生意外的可能性。即需要特定于每种语言的处理,从而使得装置适用于复杂的特定语言的布局。因此,根据本实施例,语言确定单元103被设计用于语言确定。
此外,语言确定单元103从整个文件图像数据进行语言确定,即基于大量的文字信息进行语言确定。这使得语言确定有很高的准确性。
属性确定单元104确定第一区域提取单元102提取的每个文件区域的属性。任何属性都能用于确定。根据本实施例,书写方向和字体大小作为属性。进一步地,可以采用任何确定书写方向或字体大小的已知技术。根据本实施例的属性确定单元104使用日本专利申请第3220226号或日本专利申请第2000-113103号中揭示的确定书写方向的技术来确定书写方向。
图7是描述根据本实施例由属性确定单元104在划分区域的文件图像数据上执行的书写方向确定结果的示例的示意图。经过此图中描述的书写方向确定的文件图像数据和图6中描述的文件图像数据相同。属性确定单元104也对每个被提取的文件区域进行字体大小确定,其方式和书写方向确定类似,尽管在图中没有表示。
提取确定单元105确定是否根据文件区域的语言和属性对每个被提取的文件区域进行进一步的提取处理。根据本实施例,通过使用语言确定单元103确定的语言和以属性确定单元104确定的书写方向和字体大小作为关键字、搜索存储在存储单元107中的提取规则对应表去寻找是否存在相应记录,提取确定单元105确定是否执行提取。然后,在相应记录存在时提取确定单元105确定执行提取处理。提取确定单元105发现的相应记录并不限于一个,可以为多个。在这种情况下,下文中将会介绍的第二区域提取单元106执行多个处理。
通过设计提取确定单元105用于确定是否执行提取,只有当必要时才根据语言和属性执行提取处理。因此可以减少提取处理的负担。
提取确定单元105的一个确定示例是:当语言是日文时,提取确定单元105发现在提取规则对应表中有一条记录为“日文垂直书写校正单元”,文件区域的书写方向是垂直书写并且字体大小比预定大小小。相应地,下文中将会介绍的第二区域提取单元106的日文垂直书写校正单元在这个文件区域上执行提取处理。换句话说,在是否提取文件区域的确定中,当相应记录存在于提取规则对应表中时,第二区域提取单元106就执行提取处理,否则就不执行。根据本实施例,提取的确定并不限于使用这种提取规则对应表,任何标准都可用于提取的确定。
进一步地,根据本实施例,提取处理的确定是基于被提取文件区域的语言和属性的,但是提取处理的确定可以使用被提取文件区域的至少一个语言和属性。在另一个例子中,当只基于语言作出确定时,可以对每个区域或者整个文件图像数据都执行提取的确定。
第二区域提取单元106包括后处理校正单元121,大字体校正单元122和读取顺序校正单元123。第二区域提取单元106根据语言和属性,将提取确定单元105确定要执行提取的文件区域划分或组合,然后提取文件区域。
图8是描述第二区域提取单元106的结构的框图。如图所示,第二区域提取单元106以这样的顺序执行处理:后处理校正单元121、大字体校正单元122和读取顺序校正单元123。然后在后处理校正单元121、大字体校正单元122和读取顺序校正单元123包括的元件中,如上所述的提取确定单元105确定的相应记录的“区域提取单元”域中保存的元件执行处理。
下面将介绍提取确定单元105确定是否对语言为“日文”、书写方向为“垂直书写”并且字体大小“小于”预定大小的的文件区域执行提取。提取确定单元105从提取规则对应表中搜索“日文垂直校正单元”的记录。然后,提取确定单元105确定在第二区域提取单元106处执行提取。相应地,作为找到的记录中保存的元件的第二区域提取单元106的日文垂直书写校正单元701a划分或组合文件区域从而执行区域提取。
后处理校正单元121包括在第一区域提取单元102的提取处理之后对于执行校正处理所必需的元件,例如日文垂直书写校正单元701a,日文水平书写校正单元701b和欧洲语言校正单元701c。
在第一区域提取单元102的提取处理之后对于执行校正处理所必需的元件,例如日文垂直书写校正单元701a,日文水平书写校正单元701b和欧洲语言校正单元701c能够为各种语言执行任何已知的校正处理。
后处理校正单元121根据第一区域提取单元102的提取处理之后的语言和属性执行必需的处理。例如,在语言确定为“日文”、书写方向确定为“垂直书写”的文件区域,书写方向为“水平书写”的字符串可以包含在如图6中的文件区域501。另一方面,书写方向为“垂直书写”的字符串能够包含在书写方向已确定为“水平书写”的文件区域。后处理校正单元121包括的元件将区域划分为这样的文件区域,因此文件区域提取能够更好地实现。
图9是描述经过日文垂直书写校正单元701a的区域提取的文件区域的示例的示意图。图中所示文件区域描述了图6中文件区域501的实际的字符串。换句话说,第一区域提取单元102提取的文件区域包括垂直书写的字符串中的水平书写的字符串。日文垂直书写校正单元701a获得书写方向被确定为垂直书写的文件区域的垂直投影,并且当投影值持续不为0的区带满足特定要求时,执行再提取。这使得当书写方向为垂直书写的文件区域包括水平书写文件区域时能够执行提取。下文将详细介绍处理步骤。
图10是描述由例如日文垂直书写校正单元701a的后处理校正单元121在每个文件区域执行的提取处理的结果的示意图。如图所示,日文垂直书写校正单元701a能够提取垂直书写文件区域901、水平书写文件区域902和水平书写文件区域903。
图10中的椭圆部分被判断为在根据图6所示“最大白色块组页面分割”的区域提取时的单个文件区域,其垂直书写段和水平书写段之间的距离太小,不能作为不同书写方向的文件区域被提取。在例如日文垂直书写校正单元701a的后处理校正单元121执行的和语言相关的后处理中,实现了不同书写方向的文件区域的提取。
大字体校正单元122包括当字体为大字体时,为不同语言执行必需的处理的元件,例如日文大字体校正单元702a和欧洲语言大字体校正单元702b。
进一步地,大字体校正单元122校正包括大于预定大小的字体的文件区域的范围。
下面将介绍校正文件区域范围的重要性。例如有的文件在标题处采用大字体。和组成段和列的字符簇(cluster)不同,如果不使用和语言相关的规则很难恰当地实现对大字体字符的文件区域提取。这是因为很难统计地估计由少数几个单词组成的标题的字体大小、字符间距等等;标题使用的字体容易和图表以及照片混淆;单词结构以及字符串顺序根据语言的不同也有变化。
图11是描述第一区域提取单元102提取的包括大字体的文件图像数据的示例的示意图。如图所示,大字体的标题不一定作为标题的单个文件区域被提取,有可能作为单个字符的文件区域被提取。
接下来,为每种语言提供的大字体校正单元122的元件,例如日文大字体校正单元702a将包括大字体字符的文件区域校正为适当范围的文件区域。有了这些元件,具有大字体字符的文件区域的范围能够根据每种语言的适当的规则进行校正。下面将介绍校正文件区域的过程。
此外,大字体校正单元122通过组合元素产生包括适当字符的文件区域,即使当由于单个字符的多种组成元素(例如,中文字符里的左边元素和右边元素)因其大字体而被提取为多于一个区域时。任何已知的组合设备都可用于组合这种组成元素。
例如欧洲语言大字体校正单元702c的用于校正处理的结构能够执行每种语言所必需的任何已知的校正处理。这使得欧洲语言大字体校正单元702c等能够将由于大字体被作为各个文件区域提取的字符组合成一个部分(segment),从而取得适当的文件区域提取。
图12是描述大字体校正单元122组合文件区域和再提取文件区域的结果的示例的示意图。在这个结果的示例中,在如图11所示的文件图像数据上执行处理。如图所示,在将被划分为多个文件区域的单个字符重新放置在一起后,将用于标题的各个大字体字符的文件区域等进行组合并提取为单个文件区域。
读取顺序校正单元123包括基于每种语言读取顺序执行必需处理的元件,例如日文垂直书写读取顺序校正单元703a和欧洲语言读取顺序校正单元703b。
读取顺序校正单元123中用于各个语言的每个元件都基于各种语言特定的读取顺序将文件区域组合和划分,从而提取文件区域。例如,当由于宽行间隔而产生多个文件区域但是这些文件区域的读取顺序又彼此相关时,日文垂直书写读取顺序校正单元703a将这些文件区域组合并新提取为一个文件区域。换句话说,用于不同语言的读取顺序校正单元123的元件都可基于读取顺序通过划分和组合提取适当的文件区域。读取顺序校正单元123的每种元件都可采用任何已知的处理来确定读取顺序。
在第一区域提取单元102以和语言及任务无关的方式执行文件区域的提取之后,语言确定单元103确定文件图像的语言,属性确定单元104确定属性;其后,执行特定于每个文件区域的语言和属性的后处理或校正。图像处理装置100从而能够通过根据各个文件区域的各种语言和属性的划分或组合提取文件区域,使得区域提取适用于特别的复杂的布局。结果是,文件图像数据的布局分析处理的效率和准确性能够得到提高。
接下来,将介绍根据本实施例的如上所述的图像处理装置100执行的处理的过程,包括从输入文件图像数据的处理到从文件图像数据中提取文件区域的处理。图13是描述根据本实施例的图像处理装置100的处理的过程的流程图。
首先,图像输入处理单元101执行文件图像数据的输入处理和经过输入处理的文件图像数据的二元化处理(步骤S1101)。
接下来,第一区域提取单元102根据“最大白色块组页面分割”将已经过输入处理的文件图像数据进行划分,并提取每个文件区域(步骤S1102)。
然后,语言确定单元103从经过输入处理的整个文件图像数据确定语言(步骤S1103)。
接下来,属性确定单元104确定每个被提取的文件区域的属性(书写方向或字体大小)(步骤S1104)。
然后,提取确定单元105根据语言确定单元103确定的语言和属性确定单元104确定的文件区域的属性确定是否提取文件区域(步骤S1105)。提取确定单元105在确定是否执行提取时,使用存储在存储单元107中的提取规则对应表。当提取确定单元105确定不执行提取时(步骤S1105,否),第二区域提取单元106不执行提取处理。
当提取确定单元105确定执行提取时(步骤S1105,是),第二区域提取单元106通过将文件区域划分或组合而执行区域再提取(步骤S1106)。第二区域提取单元106以在后处理校正单元121、大字体校正单元122和读取顺序校正单元123这样的顺序执行处理。
提取确定单元105确定是否所有的文件区域都已经过步骤S1104的属性确定(步骤S1107)。当提取确定单元105确定有没有完成确定的文件区域时(步骤S1107,否),提取确定单元105对没有完成确定的文件区域开始属性确定(步骤S1104)。
当提取确定单元105确定所有的文件区域都经过确定时(步骤S1107,是),结束处理。
通过上述的处理步骤,可以从文件图像数据提取出适当的文件区域,同时,文件图像数据的布局分析处理的效率也能得到提高。上述处理步骤用于表示根据本实施例的从输入文件图像数据过程到从文件图像数据中提取文件区域的过程的处理步骤的示例,但是本发明并不局限于所述处理步骤。
接下来将介绍根据本实施例的第一区域提取单元102执行的文件图像数据提取处理。图14是描述根据本实施例的第一区域提取单元102执行的处理步骤的流程图。
首先,白色块提取单元111找到块区域集C=[r0,r1...,rn](riarb;i=0,1,...n)并将所述集C输入到算法(步骤S1201)。图4是描述块区域集示例的示意图。
接下来,白色块提取单元111从整个文件图像数据提取出最大白色块组(步骤S1202)。在提取最大白色块组的过程中,满足Q(r)≥t的最大白色块以Q(r)值降序计算,其中白色块r的评估函数Q(r)是白色块r的区域,根据正在处理的文件区域的大小确定下限。可以采用上述的非专利文件2中描述的方法。此外,下限t能够定义为:
t=a·min(w,h)
其中w和h分别指的是所述文件区域的宽和高,a是一个常量。进一步地,具有不适合作为文件区域分隔器的形状(例如太短或太窄)的白色块很可能位于单词之间。为了去除这些白色块,设置了限制规则。为了这个目的,基于文件区域内黑色块的大小的分布去除了字体大小s,且在计算时去除宽和高都小于b·s的最大白色块,其中b是常量。
接下来,白色块划分单元112通过将提取的白色块组作为分隔器,将整个文件图像数据划分为多个文件区域;白色块提取单元111提取使用白色块组的划分产生的文件区域(步骤S1203);被提取的文件区域放置于堆栈上(步骤S1204)。堆栈是后入先出的数据结构。图6是描述通过使用从整个文件图像数据中提取的最大白色块组,在划分图3所述块区域集后被提取的文件区域的示意图。
接下来,白色块提取单元111确定堆栈是否为空(步骤S1205)。
如果堆栈不为空(步骤S1205,否),白色块提取单元111重新获取堆栈最上方的文件区域(步骤S1206),并且从对应于所述文件区域的二进制文件图像中提取最大白色块组(步骤S1207)。
接下来,通过将提取的白色块组作为分隔器,白色块划分单元112将所述文件区域划分为多个文件区域。在白色块提取单元111提取使用白色块组产生的文件区域时(步骤S1208),过程进行到步骤S1205。换句话说,除非堆栈为空,否则重复步骤S1206到S1208的处理。
换句话说,当白色块提取单元111确定堆栈为空时(步骤S1205,是),第一区域提取单元102将从文件图像数据的区域提取结果进行输出(步骤S1209),结束处理。
如上所述,根据本实施例,当评估函数Q(r)的下限设为不同值时,能够以“深度优先”的顺序从较粗规格到较细规格分级地执行文件区域划分。堆栈放置于包括于图像处理装置100内的RAM中。
通过上述处理步骤,能够将包括不同书写方向的文件区域适当地划分并提取为根据书写方向划分的文件区域。上述处理步骤是直到根据本实施例的第一区域提取单元102提取的文件区域的再提取之前的处理步骤的示例,本发明不应局限于所述处理步骤。
在上述流程图中描述了第一区域提取单元102执行的区域提取处理。然而本发明并不局限于此。基于执行从较粗规格到较细规格的递归划分的分级处理的步骤S1209中的区域提取结果,从步骤S1201重复区域提取处理。
截止此处,已介绍了第一区域提取单元102执行的提取处理。处理独立于语言的不同(许多语言都采用白色背景作为分隔器)并且不需要知道书写方向(水平书写/垂直书写)。此外,因为是广泛的处理,本地做出的决定误差不易积累。因此,文件图像区域提取能够灵活地应用于复杂的布局。
接下来将介绍第二区域提取单元106的后处理校正单元121执行的进一步的提取文件区域的处理步骤。在下述处理步骤中,将考虑语言被确定为“日文”并且文件区域的书写方向被确定为“垂直书写“的情况。在这种情况下,提取确定单元105根据提取规则对应表选择日文垂直书写校正单元701a作为校正元件。
日文垂直书写校正单元701a执行文件区域的再提取。图15是描述根据上述的本实施例的日文垂直书写校正单元701a所采用的处理步骤的流程图。
首先日文垂直书写校正单元701a做出文件区域的垂直投影(步骤S1401)。图16A是描述文件区域垂直投影示例的示意图。
接下来,日文垂直书写校正单元701a基于投影值不是连续0的区带的宽度的统计(例如模式),去除字体宽度s(步骤S1402)。
日文垂直书写校正单元701a计算投影值不是连续0的区带的最大宽度w(步骤S1403)。在如图16A所示的例中,附图标记为1501的文件区域具有投影值不是连续0的区带的最大宽度w。
接下来,日文垂直书写校正单元701a确定计算的值w是否大于c·s(c是常量,例如10)(步骤S1404)。当日文垂直书写校正单元701a确定计算的值w小于c·s时(步骤S1404,否),结束处理。换句话说,日文垂直书写校正单元701a确定如果w大于参考字体宽度确定的特定宽度,就包括水平书写的文件区域。
进一步地,当日文垂直书写校正单元701a确定w大于c·s时(步骤S1404,是),它在水平方向划分宽度w两端的文件区域(步骤S1405)。图16B是描述日文垂直书写校正单元701a在水平方向划分区域后的文件区域的示意图。
其后,日文垂直书写校正单元701a采用切割的文件区域的水平投影(步骤S1406)。然后日文垂直书写校正单元701a计算连续投影值为0的任何区带的宽度(步骤S1407)。
接下来日文垂直书写校正单元701a确定计算的宽度是否大于d·s(d是常量,例如0.7)(步骤S1408)。当日文垂直书写校正单元701a确定宽度小于d·s时(步骤S1408,否),结束处理。
当日文垂直书写校正单元701a确定宽度大于d·s时(步骤S1408,是),它以宽度部分在垂直方向进一步划分文件区域(步骤S1409)。图16C是描述日文垂直书写校正单元701a在垂直方向进一步划分文件区域后的文件区域的示意图。
上述处理步骤使得能够将具有不同书写方向的文件区域能够作为具有适当的书写方向的文件区域提取。上述处理步骤是截止到根据本实施例的第一区域提取单元102提取的文件区域的再提取的处理步骤示例,但是本发明并不局限于所述处理步骤。
接下来将介绍第二区域提取单元106的大字体校正单元122根据字体大小组合文件区域并提取区域的处理步骤。在下述处理步骤中,假设语言确定为“日文”,文件区域的书写方向没有确定,文件区域的字体大小确定为“大”。在这种条件下,提取确定单元105根据提取规则对应表选择日文大字体校正单元702a作为校正元件。
日文大字体校正单元702a执行组合具有大字体的文件区域的处理。图17是描述根据本实施例的日文大字体校正单元702a的处理步骤的流程图。
首先,日文大字体校正单元702a搜索邻近目标文件区域的文件区域(步骤S1601)。
然后,日文大字体校正单元702a确定是否搜索过程中发现了未经检验的文件区域(步骤S1602)。
如果发现了未经检验的文件区域(步骤S1602,是),日文大字体校正单元702a确定发现的文件区域包括的字符是否为大字体并且字符大小是否和目标文件区域包括的字符大小相似(步骤S1603)。当日文大字体校正单元702a确定两个文件区域的字符大小不相同时(步骤S1603,否),再次搜索和目标文件区域邻近的文件区域(步骤S1601)。
当日文大字体校正单元702a确定两个文件区域的字符大小相同时(步骤S1603,是),进行组合两个文件区域的处理(步骤S1604)。
当日文大字体校正单元702a通过搜索找不到任何未经检验的文件区域时(步骤S1602,否),结束处理。
上述处理步骤使得由于大字体而一个字符一个字符产生的文件区域能够被组合并提取为适当的文件区域。上述处理步骤是根据本实施例的由日文大字体校正单元702a进行的、以用于组合大字体文件区域的处理步骤示例。但是本发明并不局限于所述处理步骤。
在本实施例中,介绍了一情况的示例,其中在第二区域提取单元106执行的和语言相关的处理:后处理校正、大字体校正和读取顺序校正,但是并不局限于这些过程。不同的处理也可作为语言相关的处理执行。
根据本实施例,在使用“最大白色块页面分割”划分并提取文件区域后,具有对应于各个语言的规则的第二区域提取单元106的结构化元件划分并且组合文件区域,从而提取文件区域。因此,提高了布局分析处理的效率,此外准确性也通过对应于语言的特色布局的区域划分得到了提高。
图18是描述根据第二实施例的图像处理装置1600的结构的框图。图像处理装置1600和根据第一实施例的图像处理装置100的不同之处在于:语言确定单元1601代替了语言确定单元103,用于执行不同的处理;提取确定单元1602代替了提取确定单元105,用于执行不同的处理。下面的介绍中通过赋予相同的参考标记,省略了和第一实施例中相同的结构化元件的描述。和根据第一实施例的基于整个文件图像数据确定语言的图像处理装置100不同,根据本实施例的图像处理装置1600对每个文件区域执行语言确定。
语言确定单元1601为第一区域提取单元102提取的各个文件区域确定语言。语言确定单元1601的其它处理和语言确定单元103相同,在此不再赘述。
提取确定单元1602根据语言确定单元103确定的每个文件区域的语言和属性确定单元104确定的每个文件区域的属性,确定是否执行对每个文件区域的进一步提取。提取确定单元1602和根据第一实施例的提取确定单元105不同之处只在于,确定是基于整个文件图像数据的语言还是每个被提取文件区域的语言,因此在此不再赘述。
接下来将介绍根据本实施例的上述图像处理装置1600、从输入文件图像数据处理到从文件图像数据中提取文件区域的处理的步骤。图19是描述根据本实施例图像处理装置1600处理步骤的流程图。
首先,以和根据第一实施例的图13所述的步骤S1101和S1102相似的方式执行文件图像数据的区域提取处理(步骤S1701和S1702)。
接下来,语言确定单元1601确定每个被提取文件区域的语言(步骤S1703)。其后,属性确定单元104确定每个被提取文件区域的属性(书写方向或字体大小)(步骤S1704)。
提取确定单元1602基于语言确定单元1602确定的语言和属性确定单元104确定的文件区域的属性确定是否提取文件区域(步骤S1705)。当确定是提取时,提取确定单元105使用存储在存储单元107中的提取规则对应表。
接下来,第二区域提取单元106对提取确定单元1602确定需要提取的文件区域执行提取(步骤S1706)。
提取确定单元1602确定是否对所有文件区域都完成了在步骤S1703的语言确定的(步骤S1707)。当提取确定单元1602确定不是所有的文件区域的确定都结束了时(步骤S1707,否),提取确定单元1602开始对没有确定的文件区域进行语言确定(步骤S1703)。
当提取确定单元1602确定所有的文件区域的确定都结束了时(步骤S1707,是),结束处理。
上述处理步骤使得即使不同的语言在不同文件区域使用时,也能够将文件图像数据提取为适当的文件区域,此外,文件图像数据的布局分析处理的效率也得到了提高。上述处理步骤作为根据本实施例从输入文件图像数据到提取文件区域的处理过程的示例,但是本发明并不局限于此。
如上所述,根据本实施例的图像处理装置1600确定每个被提取文件区域的语言,然后确定是否执行处理。因此,除了在第一实施例获取的优势之外,即使当不同的文件区域使用了不同的语言时,也能够适当地提取文件区域。
根据上述实施例的任何图像处理装置在第二区域提取单元106的提取处理之后都不执行任何处理。然而本发明并不局限于第一区域提取单元102和第二区域提取单元106执行的提取处理。下面将以根据第三实施例的图像处理装置1800,介绍带有进一步提取单元的结构。
图20是描述根据第三实施例的图像处理装置1800的结构的框图。图像处理装置1800和根据第一实施例的图像处理装置100的不同之处在于:存储单元1801存储的信息和存储单元107存储的信息不同,并且增加了特定目的提取确定单元1802和第三区域提取单元1803。在下面的介绍中,和第一实施例中相同的结构化元件具有相同的附图标记,因此在此不再赘述。
存储单元1801包括数据库。存储单元1801也在所述数据库中存储提取规则对应表和应用规则对应表。存储单元1801是存储设备,能够配置区域通常使用的任何存储设备,例如HDD,光盘和存储卡。由于提取规则对应表和根据第一实施例的存储在存储单元107中的提取规则对应表相同,因此在此不再赘述。
图21是描述应用规则对应表的结构的示意图。如图所示,应用规则对应表定义并存储目的应用(使用图像数据的目的)和特定应用区域提取单元之间的对应关系。此处的特定应用区域提取单元指的是下文中将会描述的第三区域提取单元1803中包括的结构化元件,用于根据为文件图像数据的各个应用所定义的规则划分和组合区域,并且提取区域。换句话说,应用规则对应表存储适用于第三区域提取单元1803的对应于目的应用的处理。下面将详细介绍所述应用规则对应表的使用。
特定目的提取确定单元1802根据使用被提取作为各个文件区域的文件图像数据的目的,或更具体地,根据应用和其任务,确定区域提取是否应该在第三区域提取单元1803处执行,第三区域提取单元1803将在下文中介绍。根据本实施例的特定目的提取确定单元1802通过搜索存储在存储单元1801中的应用规则对应表,使用预期的应用或任务作为关键字去寻找相应记录,从而确定是否提取。当存在对应记录时,特定目的提取确定单元1802确定执行提取处理。通过搜索发现的相应记录的数量并不局限于一个,可以为多个。如果是这种情况,第三区域提取单元1803执行多个处理。
在特定目的提取确定单元1802进行确定的例子中,如果应用是日文OCR,特定目的提取单元从应用规则对应表中搜索“日文OCR区域提取单元”的记录。相应地,将在下文介绍的第三区域提取单元1803的日文OCR-区域提取单元1811a执行文件区域提取处理。在文件区域提取的确定中,当从应用规则对应表中发现记录时,第三区域提取单元1803执行提取处理,否则就不执行。本实施例并不局限于使用这种提取规则对应表的提取处理的确定,任何标准都可用于提取的判断。此外,应用设置可以以任何的方式建立。例如,当输入文件图像数据时,用户可以输入应用。
进一步地,在本实施例中,除应用之外,例如任务的过程可以作为目的。
接下来将介绍基于应用和任务获得的不同区域提取结果。在例如OCR的应用中,例如,需要导致区域小于图10所示的提取结果的“一行一行”的划分。在另一个例子中,需要如图10所示的“一栏一栏”的划分,用于操作者编辑文件图像数据的任务。因为如果使用适用于OCR的“一行一行”的划分,操作者必须一行一行地进行编辑,这将会在编辑任务中产生大的负担。
“一行一行”的划分依语言的不同而不同。例如,和日文不同,例如英语的欧洲语言在任何两个单词之间包括一个空格,参考基准行放置的不同大小的字符稍稍高于或低于基准行。因此,根据本实施例,为第三区域提取单元1803提供对应于不同语言和不同应用及任务的结构化元件。这使得文件区域依照各个语言和各个应用及任务而被提取的。
第三区域提取单元1803包括适用于各个应用的提取处理的结构化元件,例如日文OCR-区域提取单元1811a和欧洲语言OCR-区域提取单元1811b。
适用于各个应用的进行提取处理的结构化元件之一,例如日文OCR-区域提取单元1811a和欧洲语言OCR-区域提取单元1811b,为每个被特定目的提取确定单元1802选择的文件区域进行提取处理。
例如,当要执行日文OCR处理时,需要将文字划分为行。当选择了日文OCR-区域提取单元1811a时,日文OCR-区域提取单元1811a将文件区域划分为行,然后提取被划分的文件区域。一行一行的划分可采用任何处理。在根据本实施例的日文OCR-区域提取单元1811a执行的行划分处理,使用了日本专利申请第2004-102796号中揭示的技术。
图22是描述由日文OCR-区域提取单元1811a在每个文件区域执行的提取处理的结果的示例的示意图。在日文OCR-区域提取单元1811a执行的提取处理之前的文件图像数据的状态和根据第一实施例的图10所示的例子相同。如图22所示,日文OCR-区域提取单元1811a将文件区域划分为较小区域,每个区域由一行组成,从而更适于日文OCR的读取。
其它例如欧洲语言OCR-区域提取单元1811b的结构化元件分别执行适合于特定应用的文件区域提取处理。这些元件能够为处理采用任何已知技术。
接下来将会介绍根据本实施例如上配置的图像处理装置1800执行的从输入文件图像数据处理到从文件图像数据中提取文件区域的处理的过程的步骤。图23是描述根据本实施例的图像处理装置1800的处理步骤的流程图。
首先,以和根据第一实施例的图13所示的步骤S1101至S1107中相同的方式将文件图像数据作为文件区域提取出来(步骤S2201至S2207)。
接下来,特定目的提取确定单元1802基于提取出文件区域的文件图像数据的预期应用或目的,确定是否进行进一步的文件区域提取(步骤S2208)。当特定目的确定单元1802确定不进行文件区域提取时(步骤S2208,否),结束处理并且第三区域提取单元1803不执行任何处理。
当特定目的确定单元1802确定进行文件区域提取时(步骤S2208,是),第三区域提取单元1803中包括的元件执行每个文件区域的区域提取(步骤S2209)。特定目的确定单元1802预先选择处执行文件区域执行的元件。当所有文件区域的提取处理都结束时,整个过程结束。
上述处理步骤使得能够将文件图像数据作为适当的文件区域提取,并且提高了文件图像数据的布局分析处理的效率。上述处理步骤用于指示根据本实施例的从输入文件图像数据处理到从文件图像数据中提取文件区域的处理的处理步骤的示例,但是本发明并不局限于所述处理步骤。
除了在第一实施例获取的优势之外,根据本实施例的图像处理装置1800的优势在于:通过选择对应于应用或任务的一或多个元件执行提取处理,为使用图像数据将特定区域提取方法包括进预期应用或任务。换句话说,能够根据目的适当地提取文件区域。这进一步提高了布局分析处理的效率和准确性。
图24是描述根据第四实施例的图像处理装置2400的结构的框图。图像处理装置2400和根据第三实施例的图像处理装置1800的不同之处在于:语言确定单元1601代替了语言确定单元103,用于执行不同的处理;提取确定单元1602代替了提取确定单元105,用于执行不同的过程。下面的介绍中对和第三实施例中相同的结构化元件提供相同的附图标记,且省略了描述。语言确定单元1601和提取确定单元1602与根据第二实施例的图像处理装置1600的结构化元件相同,在此不再赘述。
根据本实施例的图像处理装置2400在确定每个文件区域的语言并使得第二区域提取单元106提取区域之前,和图像处理装置1600的步骤相同,然后图像处理装置2400以和根据第三实施例的图像处理装置1800相似的方式执行对应用或任务合适的提取处理。
接下来将介绍根据本实施例如上所述配置的图像处理装置2400执行的从输入文件图像数据处理到从文件图像数据中提取文件区域的处理的处理步骤。图25是描述根据本实施例的图像处理装置2400的上述处理步骤的流程图。
首先,以和根据第二实施例的图19所述的步骤S1701到S1708相似的方式将文件图像数据作为文件区域提取出来(步骤S2501到S2507)。
然后,以和根据第三实施例的图23所述的步骤S2205到S2209相似的方式执行对某一应用或任务合适的提取处理(步骤S2508到S2509)。
上述处理步骤使得能够将文件图像数据作为适当的文件区域提取,并且提高了文件图像数据的布局分析处理的效率。上述处理步骤是根据本实施例的从输入文件图像数据处理到从文件图像数据中提取文件区域的处理的处理步骤的示例,但是本发明并不局限于所述处理步骤。
进一步地,根据本实施例的图像处理装置2400基于以和第二实施例相似的方式确定的是否执行处理,确定每个被提取文件区域的语言。因此,除了在第三实施例所述的优势外,本实施例在即使不同的文件区域使用了不同的语言的时候,也能提供适当地提取文件区域。
图26是描述根据上述实施例执行实现图像处理装置功能的程序的个人计算机(PC)的硬件结构的示意图。根据上述实施例的图像处理装置包括例如中央处理单元(CPU)2601的控制装置,例如只读存储器(ROM)2602和随机存取存储器(RAM)2603的存储装置,例如硬盘驱动(HDD)和光盘(CD)驱动装置的外部存储装置2604,例如显示器的显示装置2605,例如键盘和鼠标的输入装置2606,通信接口(I/F)2607,和连接这些设备的总线2608。图像处理装置具有使用普通计算机的硬件结构。
在上述实施例中已经介绍了作为图像处理装置的普通个人计算机,但是本发明并不局限于此。也可采用例如个人数字助理(PDA)、掌上PC、蜂窝电话或个人手机***(PHS)的移动信息终端。
软件程序实现上述图像处理装置的元件。当实时处理是最重要时,就需要加速。优选地,将逻辑电路(图未示)增加到结构中,用于执行计算处理。
将根据上述实施例的图像处理装置执行的图像处理程序作为可安装格式或可执行格式的文件记录在计算机可读的记录媒体中,例如CD-ROM、软驱(FD)、CD-R和数字化视频光盘(DVD)。
此外,根据上述实施例的图像处理装置执行的图像处理程序可以存储在连接至例如互联网的网络上的计算机中,从而可以通过网络下载程序。也可通过例如互联网的网络提供或分配根据上述实施例的图像处理装置执行的图像处理程序。
根据本实施例的图像处理程序可预先存储在ROM等中。
根据本实施例的图像处理装置执行的图像处理程序被配置为包括上述元件(图像输入处理单元、第一区域提取单元、语言确定单元、属性确定单元、提取确定单元、第二区域提取单元和在需要的情况下的特定目的区域确定单元和第三区域提取单元)的模块。作为实际的硬件装置,CPU从记录媒体中读取图像处理程序并且执行程序,从而将上述元件装载到主存储装置。在主存储装置上能够生成图像输入处理单元、第一区域提取单元、语言确定单元、属性确定单元、提取确定单元、第二区域提取单元和在需要的情况下的特定目的区域确定单元和第三区域提取单元。
进一步地,上述实施例采用例如PC的计算机作为图像处理装置,但是本发明并不局限于此。图像处理装置100可以是数字多功能产品(MFP)2700中包括的信息处理装置,如图27所示,用作包括作为图像读取单元的扫描单元2701和作为图像打印装置的打印单元2702的图像形成装置,其中数字多功能产品2700的扫描单元2701读取的扫描图像将会经过布局分析处理。图像处理装置并不局限于图像处理装置100,也可采用另一实施例中描述的图像处理装置。
此外,根据上述实施例的图像处理装置也采用本地***(例如,单独PC),但是本发明并不局限于此。例如,如图28所示,也能够应用于服务器—客户端***,其中客户端计算机C通过网络N连接至服务器计算机S。如果在这种情况下,每个客户端计算机C将图像传输至服务器计算机S(图像处理装置100),其中图像将要经过布局分析处理。包括的图像处理装置并不局限于图像处理装置100,也可使用另一实施例中描述的图像处理装置等。
根据本发明,在根据和语言不同无关的规则提取文件区域之后,根据对应于每种语言的规则划分或组合文件区域并提取文件区域。这有利地提高了布局分析处理的效率,并且同时实现了以对应于特定于一种语言的布局的方式划分区域的准确性。
本发明也提供了这样的优势:以只有在必要时才执行对应于特定语言的提取处理,提取处理的负担得到了减轻。
本发明的另一优势在于:由于根据相应于文件区域属性的规则和相应于特定语言的规则对文件区域进行划分和组合用于提取,因此能够以较高的准确性提取文件区域。
此外,本发明还具有优势在于:只在必要时才根据语言和属性执行提取处理,从而减轻了提取处理的负担。
本发明从整个文件图像数据确定处理的是哪种语言,即语言确定是基于宽范围信息的。因此,语言确定具有高准确性。
此外,本发明确定每个文件区域要处理的语言。因此通过为每个文件区域执行适当的提取,当不同文件区域使用不同语言的字符时,能够以高准确性提提取文件区域。
进一步地,本发明使得根据对应于预期使用的文件图像数据的规则提取文件区域成为可能。因此,优势在于能够提取适于使用的文件区域。
进一步地,本发明使得只有在必要时才根据文件图像数据的预期使用执行提取处理。因此,优势在于能够减轻提取处理的负担。
本发明确定书写方向和字体大小两者中至少一个,提供基于这些属性适当地提取文件区域的优势。
此外,根据本发明,通过递归执行最大白色块组的提取和文件区域的划分,经由从较粗规格到较细规格的递归划分而执行分级处理,作为提取文件区域的处理。因此,优势在于能够提高布局分析处理的效率。
本发明也存储语言、属性和提取规则的对应关系,并根据关系确定使用于处理的提取规则。因此能够实现更适合的提取处理。
根据本发明,包括具有不同书写方向的字符串的文件区域,要经过根据字符串书写方向划分文件区域的提取,包括大字体字符的文件区域的组合,以及根据读取文件区域的顺序的文件区域组合。因此能够实现更加合适的提取处理。
本发明在根据和语言差别无关的规则提取文件区域之后,根据和目标语言相关的规则划分或组合文件区域。因此,根据语言使用的特定布局以特定方式的区域划分能够取得高准确性,并且能够提高布局分析处理的效率。
本发明也使得只有在需要时才根据语言执行提取处理成为可能,从而提供了减轻提取处理的负担的优势。
进一步地,本发明通过根据相应于文件区域属性的规则和相应于各个语言的规则对文件区域进行划分和组合,从而提取文件区域。这进一步提高了提取文件区域的准确性。
本发明使得只在必要时才根据各个语言和属性执行提取处理,从而提供利润减轻提取处理的负担的优势。
此外,本发明基于整个文件图像数据确定处理的是哪种语言,即语言确定是基于宽范围信息的。因此,以高准确性确定语言。
本发明确定每个文件区域正处理的语言。因此当不同文件区域使用不同语言的字符时,通过为每个文件区域执行适当的提取,能够以高准确性实现提取文件区域。
此外,根据本发明,由于根据对应于文件图像数据的预期使用的规则提取文件区域,能够提取适于使用的文件区域。
此外,本发明使得只有在必要时才根据文件图像数据的预期使用执行提取处理,提供能够减轻提取处理的负担的优势。
进一步地,本发明确定书写方向和字体大小两者中至少一个,提供基于这些属性适当地提取文件区域的优势。
进一步地,根据本发明,通过递归执行最大白色块组的提取和文件区域的划分,经由从较粗规格到较细规格的递归划分而执行分级处理,作为提取文件区域的处理。因此,优势在于能够提高布局分析处理的效率。
本发明也存储语言、属性和提取规则的对应关系,并根据关系确定使用于处理的提取规则。因此能够实现更适合的提取处理。
根据本发明,包括具有不同书写方向的字符串的文件区域,要经过经由根据字符串书写方向划分文件区域的提取,包括大字体字符的文件区域的组合,以及根据读取这些文件区域的顺序的文件区域的组合。因此能够实现更加合适的提取处理。
最后,根据本发明,引入计算机以读取文件图像数据,从而可以用计算机实现上述任何图像处理方法,提供了和每个方法相同的优势。
尽管本发明为了完整清楚的揭示而参考特定实施例描述了本发明,但是并不限定本发明的权利要求。本领域的技术人员可以理解权利要求体现了落入本发明的基本教导范围内的各种改动和变型。

Claims (20)

1.一种图像处理装置,其包括:
第一区域提取单元,用于通过将文件图像数据划分为文件区域单元,从文件图像数据中提取第一文件区域;
语言确定单元,用于确定文件图像数据中使用的语言的类型;和
第二区域提取单元,基于对应于语言确定单元确定的语言类型的规则,通过划分或组合第一文件区域提取第二文件区域。
2.根据权利要求1所述的图像处理装置,其进一步包括:
提取确定单元,用于基于语言确定单元确定的语言类型,确定是否从第一文件区域执行适合于语言类型的文件区域的提取,其中
第二区域提取单元在提取确定单元确定执行提取时,提取第二文件区域。
3.根据权利要求1所述的图像处理装置,其进一步包括:
属性确定单元,用于确定第一文件区域的属性,其中
第二区域提取单元基于对应于语言确定单元确定的语言类型和属性确定单元确定的属性的规则,通过划分或组合第一文件区域提取第二文件区域。
4.根据权利要求3所述的图像处理装置,其进一步包括:
提取确定单元,基于语言确定单元确定的语言类型和属性确定单元确定的属性,确定是否从第一文件区域执行适合于语言类型和属性的文件区域提取,其中
第二区域提取单元在提取确定单元确定执行提取时,提取第二文件区域。
5.根据权利要求2所述的图像处理装置,其中
语言确定单元确定每个第一文件区域的语言类型,以及
提取确定单元基于语言确定单元确定的语言类型,确定是否为每个第一文件区域执行提取。
6.根据权利要求1所述的图像处理装置,其进一步包括:
第三区域提取单元,基于对应于使用文件图像数据的目的的规则,通过划分或组合第二文件区域提取第三文件区域。
7.根据权利要求3所述的图像处理装置,其中
属性确定单元确定第一文件区域中包括的字符的书写方向和字体大小二者之间至少一个作为属性。
8.根据权利要求1所述的图像处理装置,其中
第一提取单元包括
白色块提取单元,用于从二进制文件图像数据的背景区域提取如果进一步扩展就会包括黑色象素的最大白色块区域;以及
白色块划分单元,用于使用白色块提取单元提取的白色块区域作为分隔器,将文件图像数据划分为至少一个文件区域,
白色块提取单元在白色块划分单元执行划分后从文件区域中提取最大白色块组,和
白色块划分单元递归执行划分处理。
9.根据权利要求3所述的图像处理装置,其进一步包括:
存储单元,用于存储提取规则对应信息,以对应的方式包括语言类型、属性和提取规则,其中
第二区域提取单元基于存储单元中存储的提取规则对应信息的提取规则提取第二文件区域,所述存储单元中以对应的方式包括语言确定单元确定的语言类型和属性确定单元确定的属性。
10.根据权利要求1所述的图像处理装置,其中
第二区域提取单元通过在第一文件区域执行下述至少一种方式提取第二文件区域:将具有不同书写方向的字符行的文件区域划分为根据书写方向的文件区域,具有大字体字符的文件区域的组合,以及根据文件区域的读取顺序的文件区域的组合。
11.一种图像处理方法,其包括:
第一区域提取,包括
通过将文件图像数据划分为文件区域单元,从文件图像数据提取第一文件区域;
语言确定,包括
确定文件图像数据中使用的语言的类型;和
第二区域提取,包括
基于对应于在语言确定时确定的语言类型的规则,通过划分或组合第一文件区域提取第二文件区域。
12.根据权利要求11所述的图像处理方法,其进一步包括:
提取确定,包括
基于在语言确定时确定的语言类型,确定是否从第一文件区域执行适合于语言类型的文件区域的提取,其中
第二区域提取包括在提取确定时确定执行提取的情况下,提取第二文件区域。
13.根据权利要求11所述的图像处理方法,其进一步包括:
属性确定,包括
确定第一文件区域的属性,其中
第二区域提取包括基于对应于语言确定时确定的语言类型和属性确定时确定的属性的规则,通过划分或组合第一文件区域提取第二文件区域。
14.根据权利要求13所述的图像处理方法,其进一步包括:
提取确定,包括
基于语言确定时确定的语言类型和属性确定时确定的属性,确定是否从第一文件区域执行适合于语言类型和属性的文件区域的提取,其中
第二区域提取包括在提取确定时确定执行提取的情况下,提取第二文件区域。
15.根据权利要求12所述的图像处理方法,其中
语言确定包括为每个第一文件区域确定的语言类型,和
提取确定包括基于语言确定时确定的语言类型、确定是否为每个第一文件区域执行提取。
16.根据权利要求11所述的图像处理方法,其进一步包括:
第三区域提取,包括
基于对应于使用文件图像数据的目的的规则,通过划分或组合第二文件区域提取第三文件区域。
17.根据权利要求11所述的图像处理方法,其中
第一提取包括:
白色块提取,其包括从二进制文件图像数据的背景区域提取如果进一步扩展就会包括黑色象素的最大白色块区域;以及
白色块划分,其包括使用白色块提取时提取的最大白色块区域作为分隔器,将文件图像数据划分为至少一个文件区域,
白色块提取包括在白色块划分时执行划分后、从文件区域中提取最大白色块组,和
白色块划分包括递归执行划分处理。
18.根据权利要求13所述的图像处理方法,其中
第二区域提取包括基于存储单元中存储的提取规则对应信息的提取规则提取第二文件区域,所述存储单元中以对应的方式包括语言确定时确定的语言类型和属性确定时确定的属性。
19.根据权利要求11所述的图像处理方法,其中
第二区域提取通过在第一文件区域执行下述至少一种方式提取第二文件区域:将具有不同书写方向的字符行的文件区域划分为根据书写方向的文件区域,具有大字体字符的文件区域的组合,以及根据文件区域的读取顺序的文件区域的组合。
20.一种计算机程序产品,包括计算机可用的媒体,所述媒体具有计算机可读程序代码并且在被执行时使得计算机执行:
第一区域提取,包括
通过将文件图像数据划分为文件区域单元,从文件图像数据提取第一文件区域;
语言确定,包括
确定文件图像数据中使用的语言的类型;和
第二区域提取,包括
基于对应于在语言确定时确定的语言类型的规则,通过划分或组合第一文件区域提取第二文件区域。
CNB2006101599928A 2005-10-07 2006-09-29 图像处理装置,图像处理方法 Expired - Fee Related CN100424716C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005295412 2005-10-07
JP2005295412A JP4856925B2 (ja) 2005-10-07 2005-10-07 画像処理装置、画像処理方法及び画像処理プログラム
JP2005-295412 2005-10-07

Publications (2)

Publication Number Publication Date
CN1945599A true CN1945599A (zh) 2007-04-11
CN100424716C CN100424716C (zh) 2008-10-08

Family

ID=37910829

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006101599928A Expired - Fee Related CN100424716C (zh) 2005-10-07 2006-09-29 图像处理装置,图像处理方法

Country Status (3)

Country Link
US (1) US8041113B2 (zh)
JP (1) JP4856925B2 (zh)
CN (1) CN100424716C (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101626448A (zh) * 2008-07-10 2010-01-13 富士施乐株式会社 图像处理装置和图像处理方法
CN111630522A (zh) * 2018-01-30 2020-09-04 三菱电机株式会社 记入区域提取装置和记入区域提取程序

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4977452B2 (ja) * 2006-01-24 2012-07-18 株式会社リコー 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム
WO2008093569A1 (ja) * 2007-01-29 2008-08-07 Nec Corporation 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム
CN101276363B (zh) * 2007-03-30 2011-02-16 夏普株式会社 文档图像的检索装置及文档图像的检索方法
WO2009110550A1 (ja) * 2008-03-06 2009-09-11 日本電気株式会社 属性抽出方法、システム及びプログラム
JP5402099B2 (ja) * 2008-03-06 2014-01-29 株式会社リコー 情報処理システム、情報処理装置、情報処理方法およびプログラム
JP4577419B2 (ja) * 2008-07-10 2010-11-10 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP4577420B2 (ja) * 2008-07-10 2010-11-10 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP2010211439A (ja) * 2009-03-10 2010-09-24 Fuji Xerox Co Ltd 文字出力装置およびプログラム
JP5005005B2 (ja) 2009-07-30 2012-08-22 インターナショナル・ビジネス・マシーンズ・コーポレーション コンテンツ読み上げ順序を視覚化するための視覚化プログラム、視覚化方法、及び視覚化装置
US8000528B2 (en) * 2009-12-29 2011-08-16 Konica Minolta Systems Laboratory, Inc. Method and apparatus for authenticating printed documents using multi-level image comparison based on document characteristics
JP5812702B2 (ja) * 2011-06-08 2015-11-17 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文字の読み順を決定するための読み順決定装置、方法及びプログラム
JP5994251B2 (ja) * 2012-01-06 2016-09-21 富士ゼロックス株式会社 画像処理装置及びプログラム
JP5652428B2 (ja) * 2012-05-15 2015-01-14 コニカミノルタ株式会社 画像出力装置、画像出力方法、及び、プログラム
CN103049183B (zh) * 2012-12-07 2016-06-22 腾讯科技(深圳)有限公司 一种应用于社交平台的媒体内容展示方法及***
CN103902993A (zh) * 2012-12-28 2014-07-02 佳能株式会社 文档图像识别方法和设备
JP5865856B2 (ja) 2013-02-27 2016-02-17 京セラドキュメントソリューションズ株式会社 画像処理装置及びこれを備えた画像形成装置
CN104376317B (zh) * 2013-08-12 2018-12-14 福建福昕软件开发股份有限公司北京分公司 一种将纸质文件转换为电子文件的方法
JP6729486B2 (ja) * 2017-05-15 2020-07-22 京セラドキュメントソリューションズ株式会社 情報処理装置、情報処理プログラム及び情報処理方法
JP6954229B2 (ja) * 2018-05-25 2021-10-27 京セラドキュメントソリューションズ株式会社 画像処理装置及び画像形成装置
JP2020027598A (ja) * 2018-12-27 2020-02-20 株式会社シグマクシス 文字認識装置、文字認識方法及び文字認識プログラム
US11562593B2 (en) * 2020-05-29 2023-01-24 Microsoft Technology Licensing, Llc Constructing a computer-implemented semantic document
CN111832476A (zh) * 2020-07-13 2020-10-27 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
US11367296B2 (en) * 2020-07-13 2022-06-21 NextVPU (Shanghai) Co., Ltd. Layout analysis
CN113033338B (zh) * 2021-03-09 2024-03-29 太极计算机股份有限公司 电子报头版头条新闻位置识别方法及装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3187895B2 (ja) 1991-05-02 2001-07-16 株式会社リコー 文字領域抽出方法
DE69521575T2 (de) * 1994-09-12 2002-05-16 Adobe Systems Inc Verfahren und Anordnung zur Darstellung elektronischer Dokumente
JPH103516A (ja) * 1996-06-17 1998-01-06 Canon Inc 情報処理方法及び装置
JP3835652B2 (ja) * 1997-09-10 2006-10-18 株式会社リコー 文書画像の日本語英語判定方法および記録媒体
US6047251A (en) 1997-09-15 2000-04-04 Caere Corporation Automatic language identification system for multilingual optical character recognition
JP3850995B2 (ja) 1998-08-18 2006-11-29 株式会社リコー 文書画像処理方法および文書画像処理方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体
US6393145B2 (en) * 1999-01-12 2002-05-21 Microsoft Corporation Methods apparatus and data structures for enhancing the resolution of images to be rendered on patterned display devices
JP2001056837A (ja) * 1999-08-19 2001-02-27 Ricoh Co Ltd 文書認識方法および記録媒体
JP4521942B2 (ja) 2000-07-24 2010-08-11 キヤノン株式会社 文書管理装置及び方法
JP3962891B2 (ja) * 2000-08-09 2007-08-22 富士ゼロックス株式会社 文書画像処理装置、文書画像処理方法、及び記憶媒体
JP2002342343A (ja) * 2001-05-18 2002-11-29 Ricoh Co Ltd 文書管理システム
JP4616522B2 (ja) * 2001-07-12 2011-01-19 株式会社リコー 文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体
JP4111787B2 (ja) 2002-09-11 2008-07-02 株式会社リコー 行切り出し装置、行切り出し方法、プログラム及び記録媒体
US6810136B2 (en) * 2002-10-18 2004-10-26 Olive Software Inc. System and method for automatic preparation of data repositories from microfilm-type materials
JP4678712B2 (ja) 2003-07-31 2011-04-27 株式会社リコー 言語識別装置、プログラム及び記録媒体
CN100382096C (zh) 2003-08-20 2008-04-16 奥西-技术有限公司 文档扫描设备及方法
US20070035780A1 (en) * 2005-08-02 2007-02-15 Kabushiki Kaisha Toshiba System and method for defining characteristic data of a scanned document

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101626448A (zh) * 2008-07-10 2010-01-13 富士施乐株式会社 图像处理装置和图像处理方法
CN101626448B (zh) * 2008-07-10 2013-11-13 富士施乐株式会社 图像处理装置和图像处理方法
CN111630522A (zh) * 2018-01-30 2020-09-04 三菱电机株式会社 记入区域提取装置和记入区域提取程序
CN111630522B (zh) * 2018-01-30 2023-09-26 三菱电机株式会社 记入区域提取装置和计算机能读取的记录介质

Also Published As

Publication number Publication date
CN100424716C (zh) 2008-10-08
JP4856925B2 (ja) 2012-01-18
US8041113B2 (en) 2011-10-18
US20070081179A1 (en) 2007-04-12
JP2007102715A (ja) 2007-04-19

Similar Documents

Publication Publication Date Title
CN1945599A (zh) 图像处理装置,图像处理方法和计算机程序产品
CN1248138C (zh) 图像处理方法与图像处理***
CN1143239C (zh) 用来分析表格图像的方法和设备
CN1158627C (zh) 用于字符识别的方法和装置
CN1213382C (zh) 用于从多值图象提取划线的设备
CN1877598A (zh) 手机中使用图像识别进行名片信息的采集与录入的方法
CN1913573A (zh) 用于图像检索的图像处理设备及其控制方法
CN1542655A (zh) 信息处理装置和信息处理方法、以及存储媒体、程序
JP4920928B2 (ja) 画像処理装置及びその制御方法、プログラム
CN101048773A (zh) 文件分析***、以及文件适应***
CN1829273A (zh) 图像处理装置及其方法
CN1783933A (zh) 图像处理装置及其方法
CN1858786A (zh) 一种电子文档格式化批注***与方法
CN1719862A (zh) 图像处理***和图像处理方法
CN1217512A (zh) 文件图象处理设备及其方法
JP2005004724A (ja) 画像処理装置及びその制御方法、プログラム
CN1719864A (zh) 图像处理***及图像处理方法
CN1942899A (zh) 脸图像制作装置和方法
CN1859541A (zh) 图像处理设备及其控制方法
CN101080927A (zh) 内容推荐装置
CN1519753A (zh) 程序、字符输入编辑方法、装置及记录媒体
CN1773501A (zh) 图像检索和形成装置、方法及程序、以及记录介质
CN1627786A (zh) 图像处理***以及图像处理方法
CN1892559A (zh) 信息处理装置和信息处理控制方法
JP2004363786A (ja) 画像処理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081008

Termination date: 20190929