CN102883085B - 图像处理装置和图像处理方法 - Google Patents

图像处理装置和图像处理方法 Download PDF

Info

Publication number
CN102883085B
CN102883085B CN201210061280.8A CN201210061280A CN102883085B CN 102883085 B CN102883085 B CN 102883085B CN 201210061280 A CN201210061280 A CN 201210061280A CN 102883085 B CN102883085 B CN 102883085B
Authority
CN
China
Prior art keywords
unit
page
connection
image processing
judging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210061280.8A
Other languages
English (en)
Other versions
CN102883085A (zh
Inventor
清水淳
清水淳一
山田俊之
土渊清隆
新名博
胁山徹也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN102883085A publication Critical patent/CN102883085A/zh
Application granted granted Critical
Publication of CN102883085B publication Critical patent/CN102883085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/3872Repositioning or masking
    • H04N1/3873Repositioning or masking defined only by a limited number of coordinate points or parameters, e.g. corners, centre; for trimming

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Document Processing Apparatus (AREA)
  • Facsimiles In General (AREA)

Abstract

本发明公开一种图像处理装置和图像处理方法。所述图像处理装置包括:提取单元,其从包含有文档读取装置所读取的多页的图像数据的各页提取各表格区域图像;生成单元,其从所述提取单元所提取的各表格区域图像生成表格的各表格结构数据;判断单元,其基于所述生成单元所生成的各页的表格的表格结构数据判断各表格之间的连接可能性;确定单元,其基于所述判断单元所判定的表格之间的连接可能性来确定用于通过连接各表格恢复原始表格的连接顺序;以及恢复单元,其通过基于所述确定单元所确定的连接顺序连接各表格来恢复与分割之前的单个表格有关的数据。

Description

图像处理装置和图像处理方法
技术领域
本发明涉及图像处理装置和图像处理方法。
背景技术
JP-A-04-023185(专利文献1)披露了如下技术:从表格格式文档的图像数据中提取被格线包围的单元格,判断所提取单元格的属性,并且依据所判定的单元格属性识别各单元格内的文字。
JP-A-05-342408(专利文献2)披露了一种文档图像填充装置,其用于将来自所读取的文档图像的文字区域、照片区域和图形区域分离,对文字区域的图像执行文字识别并对图形区域的图像执行矢量绘图,并且填充图片区域作为图像数据。
JP-A-2002-73598(专利文献3)披露了一种文档处理器,其用于检测诸如来自电子文档的文本、图片和表格等内容,并且基于表示属性的信息记录并管理所检测到的内容。
JP-A-09-128480(专利文献4)披露了如下技术:通过判断等于或短于某一阈值的空格来提取直线作为现有图案,从所提取的直线提取边框,并且通过基于边框裁切该图案,即使当构成边框的直线模糊时也可以准确地提取图案区域。
JP-A-08-044827(专利文献5)披露了一种数字复印机,其用于对所读取的原始图像中的文字、表格和图形执行区域判断,收集所判定的各个区域中相同类型的区域,对文字区域执行文字识别,对表格区域执行表格边框识别处理,并且在矢量化图形区域之后执行图形识别处理。
JP-A-2005-128925(专利文献6)披露了一种文档编辑***,其用于从第一文档的图像信息提取模板信息,从第二文档的图像信息提取内容信息,并且通过组合模板信息与内容信息来生成组合文档。
发明内容
本发明的目的是提供一种图像处理装置和图像处理方法,其能够在单个表格被分割地打印在多页上的情况下通过读取所打印的多页原稿来恢复原始表格作为电子文档。
根据本发明的第一方面,提供了一种图像处理装置,包括:提取单元,其从包含有文档读取装置所读取的多页的图像数据的各页提取各表格区域图像;生成单元,其从所述提取单元所提取的各表格区域图像生成表格的各表格结构数据;判断单元,其基于所述生成单元所生成的各页的表格的表格结构数据判断各表格之间的连接可能性;确定单元,其基于所述判断单元所判定的表格之间的连接可能性来确定用于通过连接各表格恢复原始表格的连接顺序;以及恢复单元,其通过基于所述确定单元所确定的连接顺序连接各表格来恢复与分割之前的单个表格有关的数据。
根据本发明的第二方面,所述判断单元可以基于下列信息中的至少一项或多项的组合来判断各表格之间的连接可能性,所述信息包括:各表格的高度或宽度、各表格中包含的单元格的行数和列数、各单元格的高度或宽度、各单元格的属性、构成各表格的格线的粗细、或线型。
根据本发明的第三方面,所述确定单元可以基于所述提取单元所提取的表格数目确定用于判断连接可能性的表格组合。
根据本发明的第四方面,所述图像处理装置还可以包括:输入单元,其输入表示分割之前的原始表格如何沿行方向和列方向进行分割的表格分割数,所述确定单元基于与所述输入单元所输入的表格分割数有关的信息来确定用于判断连接可能性的表格组合。
根据本发明的第五方面,所述图像处理装置还可以包括:输入单元,其输入与分割之前的原始表格被分割地打印时的打印顺序有关的信息,所述确定单元基于所述输入单元所输入的与打印顺序有关的信息来确定用于判断连接可能性的表格组合。
根据本发明的第六方面,所述图像处理装置还可以包括:显示单元,其显示指示连接之后各表格在整个表格中的连接位置的信息,在显示的连接位置输入各表格之间的许可连接时,所述恢复单元通过连接各表格来恢复与分割之前的单个表格有关的信息。
根据本发明的第七方面,提供一种图像处理方法,包括:从包含有文档读取装置所读取的多页的图像数据的各页提取各表格区域图像;从所提取的各表格区域图像生成表格的各表格结构数据;基于所生成的各页的表格的表格结构数据判断各表格之间的连接可能性;基于所判定的表格之间的连接可能性来确定用于通过连接各表格恢复原始表格的连接顺序;以及通过基于所确定的连接顺序连接各表格来恢复与分割之前的单个表格有关的数据。
根据本发明的第一方面,即使单个表格被分割地打印成多页,也能够通过读取所打印的多页原稿来恢复原始表格作为电子文档。
根据本发明的第二方面,除了本发明第一方面所获得的效果之外,可以提供一种能够基于各表格的结构判断连接可能性的图像处理装置。
根据本发明的第三方面,除了本发明第一方面或第二方面所获得的效果之外,可以提供一种能够限制用于判断连接可能性的表格组合的图像处理装置。
根据本发明的第四方面,除了本发明第一方面或第二方面所获得的效果之外,可以提供一种能够限制用于判断连接可能性的表格组合的图像处理装置。
根据本发明的第五方面,除了本发明第一方面或第二方面所获得的效果之外,可以提供一种能够限制用于判断连接可能性的表格组合的图像处理装置。
根据本发明的第六方面,除了本发明第一方面至第五方面中任一方面所获得的效果之外,可以提供一种能够避免在错误判定状态下恢复原始表格的图像处理装置。
根据本发明的第七方面,即使单个表格被分割地打印成多页,也能够通过读取所打印的多页原稿来恢复原始表格作为电子文档。
附图说明
下面将基于下列附图详细描述本发明的示例性实施例:
图1是示出根据本发明示例性实施例的图像形成装置的构造的示意图;
图2是示出根据本发明示例性实施例的图像形成装置的硬件构造的框图;
图3是示出根据本发明示例性实施例的图像形成装置中的图像处理装置的功能构造的框图;
图4A至图4C是示出在大于打印用纸的表格被打印的情况下的打印状态的示意图;
图5A至图5D是示出当表格连接性判断单元判断两个表格的连接可能性时的具体操作的示意图;
图6A至图6F是示出在打印顺序为从左至右并且表格总数为12的情况下可能的表格连接状态的示意图;
图7A至图7F是示出在打印顺序为从上至下并且表格总数为12的情况下可能的表格连接状态的示意图;
图8A和图8B是示出基于表格分割数X/Y判断用于判断表格连接性的表格组合的情况的示意图;
图9A至图9C是示出当表格数据恢复单元基于各表格之间的连接可能性判断通过连接各表格来恢复原始表格的连接顺序时的操作的示意图;
图10是示出使用显示单元对表示连接之后各表格在整个表格中的连接位置的信息进行显示的示例性情况的示意图;
图11是示出当根据本发明示例性实施例的图像处理装置读取具有多页的文档时的操作的流程图;以及
图12是示出当根据本发明示例性实施例将图像处理装置读取的多页表格恢复为单个表格时的操作的流程图。
具体实施方式
下面将参照附图详细描述本发明的示例性实施例。
图1是示出根据本发明示例性实施例的图像形成装置10的构造的框图。
如图1所示,根据本发明示例性实施例的图像形成装置10包括网络接口单元14、用户界面单元15、扫描仪16、图像输出单元17、图像处理装置30以及控制器31。
扫描仪16通过读取放在托盘等中的文档来获取图像数据。扫描仪16通过扫描文档并对诸如电荷耦合器件(CCD)等元件所获得的信号输出执行模数转换(A/D)来获取数字图像数据。扫描仪16所读取的图像数据包括红色、绿色和蓝色(RGB)各色的颜色成分。
图像处理装置30对扫描仪16所读取的图像数据执行各种图像处理。图像输出单元17在控制器31的控制下基于图像处理装置30执行图像处理之后的图像数据打印图像。
网络接口单元14经由网络发送图像数据或者接收经由网络发送的图像数据。用户界面单元15接收来自用户的指示并且将指示内容发送给控制器31。
控制器31对在图像输出单元17中基于经由网络接口单元14接收的图像数据或者来自图像处理装置30的图像数据执行的打印操作执行控制。另外,控制器31还执行控制使得扫描仪16所获得的图像数据在图像处理装置30执行图像处理之后通过网络接口单元14经由网络被发送至期望的目的地。
另外,图像形成装置10是如下装置,其是具有诸如打印功能、扫描功能、复印功能和传真功能等多项功能的所谓多功能机。
接下来,图2示出根据本发明示例性实施例的图像形成装置10的硬件构造。
如图2所示,图像形成装置10包括CPU 11、存储器12、诸如硬盘驱动器(HDD)等存储装置13、用于经由网络与外部装置之间发送或接收数据的网络接口单元14、包括触摸屏或液晶显示器和键盘的用户界面单元15、扫描仪16以及图像输出单元17。这些元件经由控制总线18彼此相连。
CPU 11基于存储在存储器12或存储装置13中的控制程序执行预定处理,并且控制图像形成装置10的操作。另外,尽管在本实施例中说明的是CPU 11读取并执行存储在存储器12或存储装置13中的控制程序的情况,但是相应程序可以存储在诸如CD-ROM等存储介质中并被提供给CPU 11。
图3是示出通过执行上述控制程序实现的图像形成装置10中的图像处理装置30的功能构造的框图。
如图3所示,根据本发明示例性实施例的图像处理装置30包括图像数据储存单元41、表格区域提取单元42、表格结构数据生成单元43、表格数据恢复单元44、表格连接性判断单元45、输入单元46、显示单元47以及格式转换单元48。
图像数据储存单元41储存作为文档读取装置的扫描仪16所读取的图像数据。
表格区域提取单元42从包含有扫描仪16所读取并储存在图像数据储存单元41中的多页的图像数据的每一页提取表格区域图像。
例如,如果将打印图4A所示的表格数据并且该表格数据不适合单页打印用纸,则如图4B所示将该表格数据分割并打印至多页。在本示例性实施例中,通过如图4C所示根据打印顺序扫描文档来读取包含有以该方式分割并打印的多页的文档,作为图像数据。表格区域提取单元42从这样多页的图像数据中提取各表格区域。
表格区域提取单元42使用对象分离处理作为表格区域提取处理。也就是说,表格区域提取单元42对扫描仪16所读取的图像数据执行对象分离处理,并且针对包括表格图像、CG图像、图片图像、文字图像和线条图在内的每一对象分离图像数据。
表格结构数据生成单元43从表格区域提取单元42所提取的各表格区域图像生成表格的各表格结构数据。具体地说,表格结构数据生成单元43对表格区域提取单元42所分离出的表格对象执行布局分析,并且通过对文字对象执行文字识别处理(光学文字识别(OCR)处理)来获得表格结构数据。
表格连接性判断单元45基于表格结构数据生成单元43所生成的各页的表格的表格结构数据判断各表格之间的连接可能性。具体地说,表格连接性判断单元45基于下列信息中的至少一项或多项的组合来判断各表格之间的连接可能性,所述信息包括:各表格的高度或宽度、各表格中包含的单元格的行数和列数、各单元格的高度或宽度、各单元格的属性、构成各表格的格线的粗细、或线型。
图5A示出比较两个表格的高度来判断连接可能性的情况。另外,图5B示出比较两个表格的Y方向上的单元格数目来判断连接可能性的情况。图5C示出比较两个表格的各单元格的高度来判断连接可能性的情况。图5D示出比较两个表格的单元格的背景色、上方格线粗细和下方格线粗细来判断连接可能性的情况。
例如,表格连接性判断单元45可以为图5A至图5D所示的各比较项目预先设定值,对匹配项目的值做加法,并且以百分比(%)显示结果作为被比较表格之间的连接可能性。
另外,表格连接性判断单元45可以通过组合全部表格来判断左、右、上、下四个方向的连接可能性。如果保证以打印顺序扫描各页,并且判断某一表格与之后读取的表格之间的连接可能性,则可以只判断右方或下方的连接可能性。
另外,表格连接性判断单元45可以不对全部的表格组合判断连接可能性,而是基于表格区域提取单元42所提取的表格数目确定用于判断连接可能性的表格组合。
例如,假定提取表格数目为12,并且如打印的那样读取表格,则可以确定如图6A至图6F或图7A至图7F所示的连接顺序中的任一种成立。
输入单元46通过用户界面单元15输入表示分割之前的原始表格如何沿行方向和列方向进行分割的表格分割数X/Y、或与分割之前的原始表格被分割地打印时的打印顺序有关的信息。
表格连接性判断单元45可以基于输入单元46所输入的与打印顺序有关的信息来确定用于判断连接可能性的表格组合。
如果指定了表格数据被分割地打印时的打印顺序以及提取表格数目,则表格连接性判断单元45可以基于表格数目和打印顺序来限制用于判断连接可能性的表格组合。
例如,如果打印顺序是从左至右并且表格总数为12,则确定只有如图6A至图6F中的任一种连接状态。如果打印顺序是从上至下并且表格总数为12,则确定只有如图7A至图7F中的任一种连接状态成立。
表格连接性判断单元45可以基于输入单元46所输入的与表格分割数X/Y有关的信息来确定用于判断连接可能性的表格组合。表格分割数X/Y包括与X方向分割数DIVx有关的信息和与Y方向分割数DIVy有关的信息,表示原始表格在X方向和Y方向上分别被分割成多少部分。
例如,下面参照图8A和图8B说明X方向分割数DIVx被设定为4而Y方向分割数DIVy被设定为3的情况。在该情况下,如果打印方向是从上至下,则判断某一页(第n页)中右方的连接性所需的页是n+DIVy,判断下方的连接性所需的页是n+1。另外,存在如下条件:n+DIVy和n+1都不超过总页数(这里,设定为12)。例如,可以认识到,判断第8页的表格中右方的连接性所需的页是第11(=8+3)页的表格,判断下方的连接性所需的页是第9(=8+1)页的表格。
另外,如果打印方向是从左至右下,图8B所示,则判断某一页(第n页)中右方的连接性所需的页是n+1,判断下方的连接性所需的页是n+DIVx。这里,存在如下条件:n+1和n+DIVx都不超过总页数(这里,设定为12)。例如,判断第7页的表格中右方的连接性所需的页是第8(=7+1)页的表格,判断下方的连接性所需的页是第11(=7+4)页的表格。
表格数据恢复单元44基于表格连接性判断单元45所判定的各表格之间的连接可能性来确定用于通过连接各表格恢复原始表格的连接顺序。表格数据恢复单元44通过基于所确定的连接顺序连接各表格来恢复与分割之前的单个表格有关的数据。
例如,如果从第一页文档提取的表格与从第二页文档提取的表格之间在水平方向和竖直方向上的连接可能性分别为11%和92%,如图9A所示,则表格数据恢复单元44确定连接顺序使得第二页表格连接至第一页表格的下方。
如果从第二页文档提取的表格与从第三页文档提取的表格之间在竖直方向上的连接可能性为92%,从第一页文档提取的表格与从第三页文档提取的表格之间在水平方向上的连接可能性为8%,则表格数据恢复单元44确定连接顺序使得第三页表格连接至第二页表格的下方。
如果从第三页文档提取的表格与从第四页文档提取的表格之间在竖直方向上的连接可能性为8%,从第一页文档提取的表格与从第四页文档提取的表格之间在水平方向上的连接可能性为96%,则表格数据恢复单元44确定连接顺序使得第四页表格连接至第一页表格的右侧。以该方式,表格数据恢复单元44依次确定各页上表格的连接顺序。
显示单元47通过用户界面单元15显示指示连接之后各表格在整个表格中的连接位置的信息。例如,显示单元47向用户显示图10所示的内容。
表格数据恢复单元44可以构造成,在显示的连接位置输入表格之间的许可连接时,通过连接各表格来恢复与分割之前的单个表格有关的数据。
信息转换单元48将表格数据恢复单元44所恢复的与表格有关的数据转换为与诸如Excel(注册商标)等通用格式的表格有关的数据,并且将该数据经由网络接口单元14发送至指定为目的地的服务器或终端。
接下来参照附图详细说明使用根据示例性实施例的图像处理装置30通过从包含多页的文档读取与表格有关的数据来复现与单个表格有关的数据时的操作。
图11是示出当根据本发明示例性实施例的图像处理装置30读取包含多页的文档时的操作的流程图。
首先,通过将单个表格分割为多页而打印的文档图像被扫描仪16读取,并储存在图像数据储存单元41中(步骤S101)。页数(P)增加1(步骤S102),表格区域提取单元42从该图像数据提取表格区域(步骤S103),表格结构数据生成单元43分析表格结构(步骤S104)。
如果还有文档要读取(步骤S105中为“是”),则重复步骤S101至S104的处理从而读取全部页的表格图像。
图12是示出当根据本发明示例性实施例将图像处理装置30读取的多页表格恢复为与单个表格有关的数据时的操作的流程图。
如果读取了包含多页的文档并且从每页获取了表格结构数据,首先将X设定为1作为初始值(步骤S201)。表格连接性判断单元45提取X页的表格结构数据(步骤S202)。也就是说,这里提取第一页的表格结构数据。
将表示被比较页的值Y设定为X+1(步骤S203)。也就是说,这里将Y的初始值设定为1。然后,表格连接性判断单元45提取Y页的表格结构数据,即第二页的表格结构数据(步骤S204)。
表格连接性判断单元45判断第X表格与第Y表格之间的连接可能性,即第一页的提取表格与第二页的提取表格(步骤S205)。这里,表格连接性判断单元45可以判断第一页的表格与第二页的表格之间在左、右、上、下四个方向上的连接可能性。如果以打印顺序进行读取,则可以只对第一页的右方和下方的连接可能性进行判断。
表格连接性判断单元45更新X页,即第一页的表格的连接信息(步骤S206),并且使Y的值增加1(步骤S207)。如果Y的值不等于总页数P(步骤S208中为“否”),则表格连接性判断单元45重复步骤S204至S207的处理。也就是说,依次确定第一页的表格与第三至P页的表格之间的连接可能性。
如果Y的值等于总页数P(步骤S208中为“是”),则表格连接性判断单元45使X的值增加1(步骤S209)。如果X的值不等于总页数P(步骤S210中为“否”),则表格连接性判断单元45重复步骤S201至S208的处理。也就是说,表格连接性判断单元45依次确定第二页的表格与第三至P页的表格之间的连接可能性、第三页的表格与第四至P页的表格之间的连接可能性、…、第P-1页的表格与第P页的表格之间的连接可能性。
如果X的值等于总页数P(步骤S210中为“是”),则对全部页的连接可能性的判断结束,表格数据恢复单元44基于表格连接性判断单元45所判定的各表格之间的连接可能性来确定用于指明如何连接各表格的连接顺序(步骤S211)。另外,表格数据恢复单元44通过基于所确定的连接顺序连接各表格来恢复分割之前的单个原始表格(步骤S212)。
尽管如图12的流程图所示在确定连接顺序的处理中对全部组合确定了表格之间的连接可能性,但是可以基于总页数、表格分割数X/Y、打印顺序等限制用于判断连接可能性的表格组合。
出于示例和说明的目的提供了本发明的示例性实施例的上述说明。其意图不在于穷举或将本发明限制为所公开的确切形式。显然,对于本领域的技术人员而言许多修改和变型是显而易见的。选择和说明实施例是为了最佳地解释本发明的原理及其实际应用,从而使得本领域的其他人员能够理解各种实施例的发明和适合于特定预期应用的各种修改。其目的在于用所附权利要求书及其等同内容来限定本发明的范围。

Claims (4)

1.一种图像处理装置,包括:
提取单元,其从包含有文档读取装置所读取的多页的图像数据的各页提取各表格区域图像;
生成单元,其从所述提取单元所提取的各表格区域图像生成表格的各表格结构数据;
判断单元,其基于所述生成单元所生成的各页的表格的表格结构数据判断各表格之间的连接可能性;
确定单元,其基于所述判断单元所判定的表格之间的连接可能性来确定用于通过连接各表格恢复原始表格的连接顺序;以及
恢复单元,其通过基于所述确定单元所确定的连接顺序连接各表格来恢复与分割之前的单个表格有关的数据,
其中,所述判断单元基于下列信息中的至少一项或多项的组合来判断各表格之间的连接可能性,所述信息包括:各表格的高度或宽度、各表格中包含的单元格的行数和列数、各单元格的高度或宽度、各单元格的属性、构成各表格的格线的粗细、或线型,并且
所述确定单元基于预先设定的表格的读取顺序和所述提取单元所提取的表格数目确定用于判断连接可能性的表格组合。
2.一种图像处理装置,包括:
提取单元,其从包含有文档读取装置所读取的多页的图像数据的各页提取各表格区域图像;
生成单元,其从所述提取单元所提取的各表格区域图像生成表格的各表格结构数据;
判断单元,其基于所述生成单元所生成的各页的表格的表格结构数据判断各表格之间的连接可能性;
确定单元,其基于所述判断单元所判定的表格之间的连接可能性来确定用于通过连接各表格恢复原始表格的连接顺序;以及
恢复单元,其通过基于所述确定单元所确定的连接顺序连接各表格来恢复与分割之前的单个表格有关的数据,
其中,所述图像处理装置还包括:
输入单元,其输入表示分割之前的原始表格如何沿行方向和列方向进行分割的表格分割数,
其中,所述判断单元基于下列信息中的至少一项或多项的组合来判断各表格之间的连接可能性,所述信息包括:各表格的高度或宽度、各表格中包含的单元格的行数和列数、各单元格的高度或宽度、各单元格的属性、构成各表格的格线的粗细、或线型,并且
所述确定单元基于预先设定的表格的读取顺序和所述提取单元所提取的表格数目确定用于判断连接可能性的表格组合,并且
所述确定单元基于预先设定的表格的读取顺序和与所述输入单元所输入的表格分割数有关的信息来确定用于判断连接可能性的表格组合。
3.一种图像处理装置,包括:
提取单元,其从包含有文档读取装置所读取的多页的图像数据的各页提取各表格区域图像;
生成单元,其从所述提取单元所提取的各表格区域图像生成表格的各表格结构数据;
判断单元,其基于所述生成单元所生成的各页的表格的表格结构数据判断各表格之间的连接可能性;
确定单元,其基于所述判断单元所判定的表格之间的连接可能性来确定用于通过连接各表格恢复原始表格的连接顺序;以及
恢复单元,其通过基于所述确定单元所确定的连接顺序连接各表格来恢复与分割之前的单个表格有关的数据,
其中,所述图像处理装置还包括:
输入单元,其输入与分割之前的原始表格被分割地打印时的打印顺序有关的信息,
其中,所述判断单元基于下列信息中的至少一项或多项的组合来判断各表格之间的连接可能性,所述信息包括:各表格的高度或宽度、各表格中包含的单元格的行数和列数、各单元格的高度或宽度、各单元格的属性、构成各表格的格线的粗细、或线型,并且
所述确定单元基于预先设定的表格的读取顺序和所述提取单元所提取的表格数目确定用于判断连接可能性的表格组合,并且
所述确定单元基于预先设定的表格的读取顺序和所述输入单元所输入的与打印顺序有关的信息来确定用于判断连接可能性的表格组合。
4.根据权利要求1至3任一权利要求所述的图像处理装置,还包括:
显示单元,其显示指示连接之后各表格在整个表格中的连接位置的信息,
在显示的连接位置输入各表格之间的许可连接时,所述恢复单元通过连接各表格来恢复与分割之前的单个表格有关的信息。
CN201210061280.8A 2011-07-12 2012-03-09 图像处理装置和图像处理方法 Active CN102883085B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011153710A JP5769131B2 (ja) 2011-07-12 2011-07-12 画像処理装置およびプログラム
JP2011-153710 2011-07-12

Publications (2)

Publication Number Publication Date
CN102883085A CN102883085A (zh) 2013-01-16
CN102883085B true CN102883085B (zh) 2016-12-14

Family

ID=47484215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210061280.8A Active CN102883085B (zh) 2011-07-12 2012-03-09 图像处理装置和图像处理方法

Country Status (3)

Country Link
US (1) US8867050B2 (zh)
JP (1) JP5769131B2 (zh)
CN (1) CN102883085B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103988163A (zh) * 2011-12-07 2014-08-13 国际商业机器公司 用于显示电子文档的方法及其设备和计算机程序
JP6025803B2 (ja) * 2014-11-06 2016-11-16 京セラドキュメントソリューションズ株式会社 画像処理装置
JP2020511726A (ja) * 2017-03-22 2020-04-16 ドリリング・インフォ・インコーポレイテッド 電子文書からのデータ抽出
CN108399054B (zh) * 2018-02-28 2021-08-06 北京春草软件科技有限责任公司 一种文档切分打印方法
CN110008809B (zh) * 2019-01-04 2020-08-25 阿里巴巴集团控股有限公司 表格数据的获取方法、装置和服务器

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08320914A (ja) * 1995-05-24 1996-12-03 Hitachi Ltd 表認識方法および装置
JPH096765A (ja) * 1995-06-22 1997-01-10 Hitachi Ltd 情報処理装置
US6163623A (en) * 1994-07-27 2000-12-19 Ricoh Company, Ltd. Method and apparatus for recognizing images of documents and storing different types of information in different files
JP2007087238A (ja) * 2005-09-26 2007-04-05 Fujitsu Ltd データ変換プログラム、方法及び装置
JP2010097262A (ja) * 2008-10-14 2010-04-30 Keyence Corp データベース生成装置、データベース生成方法及びコンピュータプログラム
CN102710882A (zh) * 2011-03-28 2012-10-03 富士施乐株式会社 图像处理设备和图像处理方法
CN102708580A (zh) * 2011-03-28 2012-10-03 富士施乐株式会社 图像处理设备和图像处理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2740335B2 (ja) 1990-05-18 1998-04-15 富士ファコム制御株式会社 自動セル属性判定機能を有する表読取装置
JPH05342408A (ja) 1991-04-04 1993-12-24 Fuji Xerox Co Ltd 文書画像ファイリング装置
JP3642615B2 (ja) 1995-10-30 2005-04-27 富士通株式会社 パターン領域切り出し方式及びパターン抽出装置
JP2002073598A (ja) 2000-08-24 2002-03-12 Canon Inc 文書処理装置および方法
JP2005128925A (ja) 2003-10-27 2005-05-19 Seiko Epson Corp 文書編集システム、文書編集プログラム及び文書編集方法
JP4856235B2 (ja) * 2009-12-15 2012-01-18 富士通株式会社 帳票認識方法及び帳票認識装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6163623A (en) * 1994-07-27 2000-12-19 Ricoh Company, Ltd. Method and apparatus for recognizing images of documents and storing different types of information in different files
JPH08320914A (ja) * 1995-05-24 1996-12-03 Hitachi Ltd 表認識方法および装置
JPH096765A (ja) * 1995-06-22 1997-01-10 Hitachi Ltd 情報処理装置
JP2007087238A (ja) * 2005-09-26 2007-04-05 Fujitsu Ltd データ変換プログラム、方法及び装置
JP2010097262A (ja) * 2008-10-14 2010-04-30 Keyence Corp データベース生成装置、データベース生成方法及びコンピュータプログラム
CN102710882A (zh) * 2011-03-28 2012-10-03 富士施乐株式会社 图像处理设备和图像处理方法
CN102708580A (zh) * 2011-03-28 2012-10-03 富士施乐株式会社 图像处理设备和图像处理方法

Also Published As

Publication number Publication date
US8867050B2 (en) 2014-10-21
JP2013020477A (ja) 2013-01-31
CN102883085A (zh) 2013-01-16
JP5769131B2 (ja) 2015-08-26
US20130016381A1 (en) 2013-01-17

Similar Documents

Publication Publication Date Title
CN110363102B (zh) 一种pdf文件的对象识别处理方法及装置
US11182604B1 (en) Computerized recognition and extraction of tables in digitized documents
JP4742404B2 (ja) 画像認識装置、画像形成装置、画像認識方法および画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
US6351559B1 (en) User-enclosed region extraction from scanned document images
CN102883085B (zh) 图像处理装置和图像处理方法
CN114299528B (zh) 一种针对扫描文档的信息提取和结构化方法
US11418658B2 (en) Image processing apparatus, image processing system, image processing method, and storage medium
US7764923B2 (en) Material processing apparatus and method for grading material
CN1525378A (zh) 票据定义数据生成方法以及票据处理装置
US11941903B2 (en) Image processing apparatus, image processing method, and non-transitory storage medium
JP2008108114A (ja) 文書処理装置および文書処理方法
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP6680052B2 (ja) 表データ変換方法、プログラム、画像読取装置
JP4807487B2 (ja) 教材処理装置、教材処理方法および教材処理プログラム
CN112347831A (zh) 信息处理装置以及表识别方法
JP4501731B2 (ja) 画像処理装置
JP2005208934A (ja) 文書配信処理装置及び文書配信処理プログラム
JP5935376B2 (ja) 複写装置
JP4261883B2 (ja) 帳票処理装置及び帳票処理方法並びにプログラム
JP4863057B2 (ja) 画像処理装置、画像処理プログラムおよび画像処理方法
JP5298830B2 (ja) 画像処理プログラム、画像処理装置及び画像処理システム
JP5277750B2 (ja) 画像処理プログラム、画像処理装置及び画像処理システム
JP4651407B2 (ja) 画像処理装置およびコンピュータプログラムおよび記憶媒体
JP6743401B2 (ja) 帳票設計・読取設定支援装置、帳票設計・読取設定支援方法、及び、光学文字認識システム
JP2008186256A (ja) 文書処理装置、文書処理方法、コンピュータプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Tokyo

Patentee after: Fuji film business innovation Co.,Ltd.

Address before: Tokyo

Patentee before: Fuji Xerox Co.,Ltd.