CN101821752A - 信息处理装置和信息处理方法 - Google Patents

信息处理装置和信息处理方法 Download PDF

Info

Publication number
CN101821752A
CN101821752A CN200880100763A CN200880100763A CN101821752A CN 101821752 A CN101821752 A CN 101821752A CN 200880100763 A CN200880100763 A CN 200880100763A CN 200880100763 A CN200880100763 A CN 200880100763A CN 101821752 A CN101821752 A CN 101821752A
Authority
CN
China
Prior art keywords
line segment
rectangle
parameter information
extraction
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200880100763A
Other languages
English (en)
Other versions
CN101821752B (zh
Inventor
冲田邦夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of CN101821752A publication Critical patent/CN101821752A/zh
Application granted granted Critical
Publication of CN101821752B publication Critical patent/CN101821752B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种信息处理装置,包括:读取部,读取电子文件中包括的矢量信息;第一线段提取部,从矢量信息中提取线对象的线段参数信息;第二线段提取部,从矢量信息中提取多边形对象的多边形参数信息并且从提取的多边形参数信息中提取形成多边形对象的线段的线段参数信息;矩形提取部,基于线段参数提取矩形参数信息;最小矩形确定部,确定基于矩形参数信息形成的矩形是否是不能容纳其它矩形的最小矩形;以及最小矩形输出部,输出该最小矩形。

Description

信息处理装置和信息处理方法
技术领域
本发明通常涉及信息处理装置和信息处理方法。
背景技术
在用于扫描纸张上的表格并且对于该表格的每一项进行OCR(光学字符识别)处理的***中,需要***精确地获取前述表格的每个字段的位置信息。因此,通常,用户在显示单元的屏幕上显示表格的图像,并且指示每个字段的位置,从而将该表格的字段位置信息注册到前述***中。
然而,这样的操作耗费时间。日本专利No.3586911和日本专利No.3001950公开了通过对于表格的图像使用图像处理来搜索矩形信息的方法。可以基于图像数据实现自动地提取每个矩形(表格的每个字段)。另一方面,在日本专利No.3586911和日本专利No.3001950中公开的发明中存在问题。例如,由于每个矩形矩形是基于图像数据提取的,所以存在以下错误:将字母误读为结束线,或者反过来将结束线误读为表格中的字母。在表格的背景中嵌入背景图像数据和浅色色版的情况下,存在将背景图像和浅色背景误读为结束线的问题。由此,这些问题可能降低矩形提取精度。此外,在使用虚线绘制结束线的情况下,对于图像处理来说很将虚线识别为单线的线段。由此,图像处理可能不能提取由虚线绘制的矩形。此外,由于表格是由图像的像素单元成像的,该成像处理是离散的。在由某个离散的参数创建的离散空间和另一个离散空间之间可能存在差别。即,在对表格进行成像的条件下和另一个条件下(在以不同的分辨率从扫描、传真等接收的图像中)的矩形矩形的坐标之间存在差别,并且很难总是正确地读取表格。
总的来说,通过使用例如
Figure GPA00001009871500011
Word和Excel,
Figure GPA00001009871500012
Acrobat等应用软件来初始创建表格。关于字母和结束线的位置的信息在表格的电子文件中被保持为矢量信息。在电子文件中结束线信息和字母信息显著不同。即使在任何处理环境下生成图像,也可以通过使用离散参数分散矢量信息而不发生错误,以及读取矩形而不发生错误。
日本公开专利申请No.2005-190439公开了从电子文档中包括的矢量信息中提取线段并且进行区域指示。电子文档中的矢量信息被分解为垂直线段和水平线段,并且通过在屏幕上使用这些线段来指示区域。
在日本公开专利申请No.2005-190439中,通过提取线段来指示区域或提取矩形。仅可以处理简单的线段和矩形。由此,对于关于矢量信息的特殊情况,不可能正确地指示区域或提取矩形。例如,在实际的电子文件中,特殊情况是在屏幕上被看做线段的对象实际上被描述为矢量信息中的矩形绘制指令的情况,或者反过来,在屏幕上被看做矩形的对象实际上被描述为线段绘制指令。此外,在特殊情况下被提取的线段信息发生错误,并且可以确定不存在连接。作为矢量信息的结果可能发生这些问题。为了实现更准确的区域提取,必须解决上述问题。
发明内容
在本申请的一个方面,提供了信息处理装置和信息处理方法,其通过使用原始电子文件中包含的矢量信息对于表格提取高精度的矩形区域,并且允许用户恰当地对于表格的字段指示矩形区域。
在本申请的实例性实施例中,提供一种信息处理装置,包括用于输入包含矢量信息的电子文件的输入单元,该信息处理装置包括:读取部,用于读取在该电子文件中包含的矢量信息;第一线段提取部,用于从由该读取部读取的矢量信息中提取线对象的线段参数信息;第二线段提取部,用于从由该读取部读取的矢量信息中提取多边形对象的多边形参数信息并且从所提取的多边形参数信息中提取形成该多边形对象的线段的线段参数信息;矩形提取部,用于基于由该第一线段提取部和该第二线段提取部提取的线段参数提取矩形参数信息;最小矩形确定部,用于确定基于由该矩形提取部提取的矩形参数信息形成的矩形是否是不能容纳其它矩形的最小矩形;以及最小矩形输出部,用于输出由该最小矩形确定部确定的最小矩形。
信息处理装置可以进一步包括梯度获取部,用于获取由该第一线段提取部和该第二线段提取部提取的线段关于参考线的梯度,其中该矩形提取部基于与该线段相对应的线段参数信息和梯度来提取由彼此垂直的线段形成的矩形的矩形参数信息,其中该线段参数信息是由该第一线段提取部和该第二线段提取部提取的,并且梯度是由该梯度获取部获取的。
信息处理装置可以包括梯度获取部,用于基于由该第一线段提取部和该第二线段提取部提取的线段参数信息来获取线段的梯度;以及第三线段提取部,用于基于与该线段相对应的线段参数信息和梯度,来连接具有相同梯度并彼此重叠的两个线段并且获取被相互连接的两个线段的线段参数信息,其中,该线段参数信息是由该第一线段提取部和该第二线段提取部提取的,并且该梯度是由该梯度获取部获取的,其中,该矩形提取部基于排除了由该第三线段提取部连接的两个线段的线段参数信息的线段参数信息来提取矩形参数信息,并且,将由该第三线段提取部通过连接两个线段形成的单个线段的线段参数信息加入到该第一线段提取部和该第二线段提取部提取的线段参数信息中。
在信息处理装置中,当两个线段的梯度相同并且两个线段之间的距离小于预定长度时,该第三线段提取部连接两个线段。
在本发明的另一个实例实施例中,提供信息处理装置中的一种信息处理方法,该信息处理装置包括用于输入包含矢量信息的电子文件的输入单元,该信息处理方法包括:读取步骤,读取在该电子文件中包含的矢量信息;第一线段提取步骤,从在该读取步骤中读取的该矢量信息中提取线对象的线段参数信息;第二线段提取步骤,从从该电子文件中读取的该矢量信息中提取多边形对象的多边形参数信息,并且从该提取的多边形参数信息中提取形成该多边形对象的线段的线段参数信息;矩形提取步骤,基于在该第一线段提取步骤和该第二线段提取步骤中提取的线段参数来提取矩形参数信息;最小矩形确定步骤,确定基于在矩形提取步骤中提取的该矩形参数信息形成的矩形是否是不能容纳其它矩形的最小矩形;以及最小矩形输出步骤,输出在最小矩形确定步骤中确定的该最小矩形。
在本发明的另一个实例性实施例中,可以提供方法、装置、***、计算机程序、计算机可读记录介质等,其中应用了要素、表示或其组合。
附图说明
当结合附图读取下面的具体实施方式时,本发明的其它目的、特征和优势将变得更加清楚,其中:
图1是表示表格的图表;
图2是表示矢量信息的图表;
图3是表示将图形描述为矢量信息的图案的图表;
图4是表示信息处理装置的配置的图表;
图5是表示信息处理装置的功能配置的框图;
图6是表示基于矢量信息中的参数描述的矩形的图表;
图7是表示梯度获取的图表;
图8是用于说明由矩形搜索部进行的处理的流程图;
图9是用于说明连接两个线段的处理的图表;
图10是表示对线段进行分类的组的图表;
图11是表示具有交叉点的线段的图表;
图12是表示一个矩形的图表,该矩形容纳(connote)另一个矩形;
图13是表示从确定最小矩形得到的结果的图表;
图14是表示表格设置窗口的图表;以及
图15是表示关于表格中的线段和矩形的处理的图表。
具体实施方式
在下面的具体实施方式中将参考附图描述本发明的实施例。
【矢量信息】
在本发明中,从电子文件中包括的矢量信息中提取或指示高精度的矩形区域。
在矢量信息中,由包括指定类型、最远点的坐标、半径等代码的参数字符串描述类似于线性多边形状的划线(ruled line)以及例如圆形的几何结构。由例如
Figure GPA00001009871500041
Word和Excel、
Figure GPA00001009871500042
Acrobat等通用编辑器创建的每个电子文件(电子表格)包括文档信息作为矢量信息。电子文件中的矢量信息进一步包括关于结束线和划线的图形信息,以及描述文档中的字母串的字符信息,并且包括关于文档的背景图像和浅色色版(tint block)的信息。
图1是表示由PDF(可移植文档格式)创建的表格的图表。在图1中示出的表格对应于在PC终端显示表格的电子文件的情况或者在纸上打印出的情况。值得注意的是例如线段和矩形等图形等可以被表示为PDF格式的电子文件中的矢量格式。
图2中将示出在PDF格式的电子文件中包括的矢量信息。图2表示由PDF格式创建的电子文件中的矢量信息描述图形等的例子。矢量信息包括由BT201表示的文本对象(字符信息),由矩形202和线段203表示的图形对象,以及用于BT201、矩形202和线段203的参数。在这个例子中,如果图形对象是PDF格式的数据,图形对象是由例如“re(矩形)”和“l(线段)”的路径构造运算符(operator)表示的对象的信息。基于PDF格式的电子文件中包括的矢量信息来描述图1中示出的线段和矩形。
下面将描述要由矢量表示的图形特有的问题。在图1中,表格由两个矩形和两个线段可视地形成。另一方面,在矢量信息中,存在各种方法来由矢量表示这些矩形和线段。通过使用图3所示的多边形例子来描述各种方法。图3是图表表示实例,其中通过多种表示方法来表示相同的多边形30。图3所示的多边形30可以由矢量信息中的A、B、C和D四种模式的表示方法的任一种来表示。在模式A的表示方法中,由两个矩形组(侧边部分重叠)表示多边形30。在模式B的表示方法中,仅由线段形成多边形30。此外,在模式C的表示方法中,被看作线段的部分实际上是由小的细长矩形形成的。当提取形成多边形30的元素时,在模式A提取两个矩形,在模式B提取六个线段,并且在模式C提取六个矩形。在模式D的表示方法中,由三个矩形形成多边形30。在模式A、B、C和D中的每个构成被转换为图像之后,表示方法之间的差异并不是视觉可区别的。当将多边形30处理在电子文档中保护的矢量信息时必须注意这一点。即,即使多边形30在视觉上是相同的,可以由不同矢量信息中的不同元素形成多边形30。
在本实施例中将通过PDF格式的文件的例子来描述本发明。然而,本发明可以类似地应用于可以处理矢量信息的任意电子文件格式。
【信息处理装置】
下面将参考图4描述根据本发明的信息处理装置401。信息处理装置401是例如通用PC(个人计算机)等的通用计算机,并且包括CPU(中央处理单元)402、存储器403、存储单元(HDD)404、操作单元405、显示单元406、输入单元407、网络适配器408等。信息处理装置404可以从外部记录介质或通过网络读取电子文件。此外,将识别根据本发明的处理的程序存储在存储单元404中,并且在将该程序存储到存储器403之后由CPU 402进行执行。
【功能描述】
下面将参考图5描述在信息处理装置401中执行的根据本发明的功能。图5是表示信息处理装置401中执行的功能的框图。作为根据本发明的功能,信息处理装置401包括读取部501、线段提取部502、线段转换部503、梯度获取部504、矩形搜索部505、最小矩形确定部506以及最小矩形输出部507。首先,根据本发明的信息处理装置读取作为主体的电子文件(PDF文件等),并且提取记录在该电子文件中的矢量信息(例如图2)。随后,从从电子文件中读取的矢量信息中提取线段信息。信息处理装置401在将多边形转换为线段之后提取线段信息。如下所述,为了避免矢量信息特有的问题,将多边形分解为线段。然后,信息处理装置401提取可以通过组合所提取的线段而形成的矩形。然后,信息处理装置401获取和输出来自提取的矩形的最小矩形。通过处理部501到507来进行这些处理。
下面将详细描述读取部501、线段提取部502、线段转换部503、梯度获取部504、矩形搜索部505、最小矩形确定部506以及最小矩形输出部507。
【读取部】
首先,读取部501读取从输入单元407输入的要作为主体的电子文件(PDF文件等),并且提取在电子文件中记录的矢量信息。上面参考图3描述了矢量信息。
【线段提取部】
然后,线段提取部502从由读取部501读取的矢量信息中提取关于来自矢量信息的线段对象的线段参数信息。将参考附图2描述细节。线段203是关于矢量信息中的一个线段的信息。关于对象的“运算符”是“l(线段)”。“l(线段)”表示对象是线段。“参数”包括关于线段的信息。线段203包括关于在PDF文件的坐标空间中线段的起始点和结束点的X坐标和Y坐标的信息。从参数中可以指定一个线段是由起始点(10,200)和结束点(110,200)形成的。线段提取部502提取“运算符”中的“l(线段)”对象的参数(线段参数信息)。
【线段转换部】
线段转换部503从由读取部501提取的矢量信息中提取多边形对象的参数,并且提取形成多边形的线段的参数信息作为线段参数信息。在由读取部501读取的多边形对象中,混合了多边形(包括矩形)和曲线的多种图形。由此,将各种图形分解为作为最小单元的线段,并且从每个线段提取线段参数信息。为了克服矢量信息特有的上述问题,首先,将多边形分解为线段。
下面将参考图3所示的多边形30详细描述该分解处理。图3示例的多边形看起来由模式D所示的三个矩形形成。考虑如何通过使用矢量信息来表示多边形30,假设多边形30是由模式B所示的六个线段形成的。即使多边形30看起来是由模式D形成的,但是实际上,矢量信息并没有将多边形30表示为模式D。即,在这个例子中试图基于矢量信息提取矩形的情况下,确定在矢量信息中没有矩形,并且不能提取矩形。由此,为了通过使用矢量信息来提取矩形,需要将矩形分解为线段并且通过线段重新形成矩形。
下面将描述分解处理。在图2中,由矩形对象“re”指定矩形202。矩形202的参数表示值“10”(x坐标)、值“50”(y坐标),值“100”(宽度)以及值“50”(高度)。在图6中,通过使用参数在坐标系中表示矩形202。从形成矩形202的四个边(顶边、底边、左边和右边)提取四个线段。作为提取结果,对于四个线段的每一个获取线段参数信息。对于矩形202的底边,以线参数信息定义运算符“l”,其指示起始点的x坐标是“10”,起始点的y坐标是“50”,结束点的x坐标是“110”,以及结束点的y坐标是“50”。如上所述,线段转换部503将多边形30转换为线段。
【梯度获取部】
梯度获取部504基于由线段提取部502和线段转换部503提取的线段参数信息获取每个线段关于参考线的梯度。参考线是在PDF文件的坐标系中要成为参考的x坐标轴等。梯度获取部504获取线段关于参考线的梯度。参考线不局限于x坐标轴,其可以是能够被用作参考以确定线段的梯度的任意线。基于每个线段的线段参数信息,梯度获取部504获取对应于每个线段的梯度。图7是表示通过使用x坐标轴作为参考线来获取线段“a”和线段“b”的梯度的例子的图表。线段“a”是关于x坐标轴处于45度,并且线段“b”是关于x坐标轴处于150度。由此,梯度获取部504对于线段“a”和“b”获取45度的梯度和150度的梯度。下面将描述获取这些梯度的目的。
【矩形搜索部】
下面将描述矩形搜索部。矩形搜索部505基于由线段提取部502和线段转换部503提取的线段参数信息搜索矩形。通过合并线段,进行矩形搜索处理以形成矩形。下面将参考图8的流程图来描述矩形搜索处理。
首先,在步骤S801中,在搜索矩形之前,将线段分类为平行于x坐标轴的线段的组A和平行于y坐标轴的线段的组B。图10表示平行于x坐标轴的线段的组A,以及平行于y坐标轴的线段的组B。组A和组B不局限于平行于x坐标轴和y坐标轴的线段组,并且还可以是具有某个倾斜角的一组线段以及正交于被分类为一组的线段的另一组线段。在这个实施例中,因为以通常形式表示的图形是通过组合平行于x坐标轴的线和平行于y坐标轴的线形成的四边形(矩形),所以对于平行于x坐标轴的线段定义组A以及对平行于y坐标轴的线段定义组B,从而有效地提取四边形(矩形)。此外,由在顶点上彼此垂直的四个线段形成矩形。由此,进行矩形提取处理以从彼此正交的线段提取矩形,并且通过消除不必要的线段组合来有效地进行矩形搜索处理。
此外,在步骤S802中,从一个组(组A或组B)中提取(彼此平行的)任意两个线段。如果这两个线段是重叠的,则通过连接这两个线段来创建新的线段,并且使用新线段来替换这两个线段。可以减少线段的数量并且有效地进行矩形搜索处理。图9是表示线段的连接例子的图表。线段“a”是具有起始点(15,20)和结束点(25,20)的线段。线段“a”和“b”均平行于x坐标轴,并且被分类为组B,并且在xy坐标系具有重叠部分。由此,可以连接这些线段“a”和“b”以形成单个线段。通过连接线段“a”和线段“b”来形成线段“c”。将线段“c”添加到组B并且删除线段“a”和“b”。
此外,将说明线段“d”。线段“d”平行于线段“a”,但是与线段“a”不具有重叠的部分。然而,在这两个线段“a”和“d”之间距离为“l”(该距离是从y坐标轴计算的)。即使基于矢量信息线段“a”和“d”之间不存在彼此重叠的部分,线段“a”和“d”在显示屏幕或在打印的纸张上视觉上也彼此重叠。如果距离是“0.5”或“0.01”(例如单位是毫米),远小于两个线段“a”和“d”,则线段“a”和“d”可以被显著地看作一个线段。即,即使在基于矢量信息线段不具有重叠部分的情况下,如果两个线段之间的距离短于预定长度,则这两个线段可以被视觉地看作一个线段(两个线段彼此重叠)。由此,也可以连接这两个线段以形成单个线段。由此,连接线段“a”和线段“d”以形成线段“c”。在这种情况下的距离是通过绘制垂直于由线段“c”和线段“e”表示的两个线段的线而测量的最短距离。因为不存在由线段“f”到线段“c”垂直的线测量的距离,所以不连接线段“f”。如上所述,除了减少要被处理的线段的数目之外,也通过连接基于矢量信息不具有重叠部分但是实质上(视觉上)具有重叠部分的线段,可以灵活地搜索对应于表格上的项目字段的矩形。
下面开始矩形搜索处理。在步骤S803中,从平行于x坐标轴的线段的组A和平行于y坐标轴的线段的组B的每一组提取两个线段,检查四个线段的所有组合。如果在步骤S804从四个线段形成四个交叉点,获得具有四个交叉点的矩形(作为矩形参数信息),并且在步骤S805中将该矩形添加到矩形组R中。矩形组R被设置以存储由矩形搜索部505提取的矩形。
图10表示将线段分类到平行于x坐标轴的线段的组A和平行于y坐标轴的线段的组B中去的例子。从组A和组B的每一个中提取两个线段。如图11所示,如果在坐标系中形成四个交叉点,获得具有这四个交叉点的矩形(作为矩形参数信息)。在步骤S806,当处理四个线段的所有组合时,终止矩形搜索处理。
为了有效地进行矩形搜索处理,仅提取平行于x坐标轴或y坐标轴的线段,并且将其分类到组A和组B的各个中。然而,不局限于提取具有平行于x坐标轴和y坐标轴的线段的矩形。因为通常形式的图形是四边形(矩形),仅搜索具有平行于x坐标轴和y坐标轴的边的矩形。可选地,线段可以被分类到用于角度的组X,并且合并从组X中提取的线段。在这种情况下,矩形搜索处理不局限于四边形的角。即,不仅可以提取矩形的图形,还可以提取菱形等的图形(四个角不是90度的四边形)。此外,替代获取梯度,可以处理通过组合线段可能形成的所有类型的四边形。此外,根据应用环境等,恰当地检查n个线段的组合,并且提取具有n个边的n边形。
【最小矩形确定部】
下面将描述最小矩形确定部506。对于矩形组R中存储的要被处理的矩形执行最小矩形的确定。通过检查该矩形是否能够容纳其它矩形来确定基于矩形搜索部505获取的矩形参数信息形成的矩形是否是最小矩形。最小矩形是在该矩形的区域内不能容纳其它矩形的矩形。如果该矩形不能容纳其它矩形,对于该矩形额外地提供指示最小矩形的信息。否则,对于该矩形额外地提供指示该矩形不是最小矩形的信息。
如下执行是否容纳其它矩形的检查。图12表示矩形A容纳矩形B的情况。由(x11,y11)和(x12,y12)表示的矩形A的两个顶点的坐标分别与由(x21,y21)和(x22,y22)表示的矩形B的两个顶点的坐标比较。如果x11<x21,y11<y21,x12>x22,以及y12>y22,矩形A容纳矩形B。因为矩形A容纳矩形B,矩形A不是最小矩形。因为在矩形B中不存在容纳的矩形,矩形B是最小矩形。
在图13中被示出为表格的矩形组R包括项目“x坐标”、“y坐标”、“宽度”、“高度”以及“最小矩形标志”,并且存储由从组A和B提取的线段的组合形成的每个矩形的矩形参数信息。
对于被确定为最小矩形的矩形,例如,如图13所示,指示“真”的标志被设置为最小矩形标志。另一方面,如图13所示,对于不是最小矩形的矩形,指示“假”的标志被设置为最小矩形标志。
【最小矩形输出部】
最小矩形输出部507在显示单元406上输出和显示由最小矩形确定部506确定为最小矩形的矩形。图14表示“表格设置窗口的显示例子”。因为矩形被设置为最小矩形,所以显示了关于“四边形1”和“四边形2”的矩形。没有显示其它矩形,因为这些矩形没有被确定为最小矩形。
最小矩形输出部507在表格的图像上添加最小矩形信息,并且在屏幕上为用户显示以从表格设置字段位置信息。从矩形组R中提取指示“真”的最小矩形标志的矩形参数信息作为最小矩形信息。由此,用户可以通过使用最小矩形信息而容易地创建表格的设置。
可以将在图13中被确定为最小矩形的矩形的矩形参数信息添加到PDF格式的电子文件的矢量信息中。在图2的矢量信息中,“re”被添加作为“运算符”,并且最小矩形的矩形参数信息被添加作为“参数”。因为通过该添加至矢量信息而指定了最小矩形,所以不需要再次进行上述处理。
【对例外的线段和矩形的处理】
首先将说明对例外的线段的处理。在矢量信息中的线段参数信息包括指示“线宽”的参数。例如,如果“线宽”的值是相当大的值,例如“20”,将该线段视觉上考虑成矩形是恰当的。由此,如果线段的“线宽”大于预定值,该对象被处理为矩形而不是线段。可以在线段提取部502进行该处理,或者可以在矩形搜索部505中的矩形搜索处理之前进行该处理。“线宽”的预定值可以是在电子文件中定义的初始线宽的值,合作和可以由用户设定。
然后将说明对例外的矩形的处理。例如,如果“高度”值是相当小的值,例如“1”或“0.5”(例如以毫米为单位),将该矩形视觉上考虑为线段是恰当的。由此,如果矩形的“高度”小于预定值,该对象可以被处理为线段而不是矩形。可以在线段转换部503中进行该处理,或者可以在矩形搜索部505中的矩形搜索处理之前进行该处理。“高度”的预定值可以是在电子文件中定义的初始高度的值,或者可以由用户设定。
【图形字符的处理】
将描述图形字符的处理。图形字符是表示例如“□”、“◇”、“○”等的图形的字符,其通常被用作表格中的检验栏。因为图形字符是字符类型的,图形字符被表示为矢量信息中的文本对象。由此,当处理图形字符时,在“参数”中包括其中“BT”(文本对象)被设置为“运算符”的矢量信息和图形字符。从矢量信息中获得的图形字符被处理作为最小矩形。例如,因为图形字符“□”不能容纳其它矩形,图形字符“□”可以被确定为最小矩形。可以提供图形字符提取部并且用于进行该处理。对于用户可以指示示出图形字符的区域作为矩形。
【处理细节】
在本实施例中,将参考图15描述上述处理细节。在图15(a)中示出了电子文件的表格50。在表格50中示出图形51、字符52(不包括图形字符)以及字符串53。如图15(b)所示,图形51是由一个矩形和三个线段组成。
首先,线段提取部502对于三个线段的每一个提取线段信息。线段转换部503将图形51转化为四个线段。作为结果,如图15(c)所示,获取七个线段。
然后,梯度获取部504获取七个线段的梯度。基于获取的梯度,这七个线段被分类为平行于x坐标轴(组A)的三个线段和平行于y坐标轴(组B)的四个线段。因为没有彼此平行和重叠的线段,不连接七个线段的任一个。
矩形搜索部505合并四个线段,这四个线段中两个线段是从组A提取的,另两个线段是从组B提取的。作为搜索结果,如图15(d)所示形成了五个矩形。实际上,矩形具有四个交叉点。为了表示分离的线段的原因,图15(d)中没有示出交叉点。
然后,最小矩形确定部506确定在图15(d)中形成的五个矩形的每一个包括其它矩形。作为确定结果,不包括其它矩形的矩形e1、e2和e3被确定为图15(e)所示的最小矩形。在图15(f)中示出的其它矩形没有被确定为最小矩形。
最小矩形输出部507在图15(g)所示的“表格设置窗口”上输出和显示被确定为最小矩形的三个矩形。由此,用户指示在“表格设置窗口”上成像的表格上的区域。
根据本发明,通过使用原始电子文件中包括的矢量信息可以对表格提取高精度的矩形区域,并且用户可以对表格的字段恰当地矩形的区域。
本发明不局限于具体公开的实施例,并且可以进行变形和修改而不偏离本发明的范围。
本申请是基于2007年11月9日申请的日本优先权申请No.2007-292311,其全部内容结合于此作为参考。

Claims (15)

1.一种信息处理装置,所述信息处理装置包括用于输入电子文件的输入单元,所述电子文件包含矢量信息,所述信息处理装置包括:
读取部,用于读取在所述电子文件中包含的所述矢量信息;
第一线段提取部,用于从由所述读取部读取的所述矢量信息中提取线对象的线段参数信息;
第二线段提取部,用于从由所述读取部读取的所述矢量信息中提取多边形对象的多边形参数信息,并且从所提取的多边形参数信息中提取形成所述多边形对象的线段的线段参数信息;
矩形提取部,用于基于由所述第一线段提取部和所述第二线段提取部提取的线段参数提取矩形参数信息;
最小矩形确定部,用于确定基于由所述矩形提取部提取的矩形参数信息形成的矩形是否是不能容纳其它矩形的最小矩形;以及
最小矩形输出部,用于输出由所述最小矩形确定部确定的所述最小矩形。
2.根据权利要求1所述的信息处理装置,进一步包括梯度获取部,用于获取由所述第一线段提取部和所述第二线段提取部提取的线段关于参考线的梯度,
其中,所述矩形提取部基于与所述线段相对应的线段参数信息和所述梯度来提取由彼此垂直的线段形成的矩形的矩形参数信息,其中所述线段参数信息是由所述第一线段提取部和所述第二线段提取部提取的,并且所述梯度是由所述梯度获取部获取的。
3.根据权利要求1所述的信息处理装置,还包括:
梯度获取部,用于基于由所述第一线段提取部和所述第二线段提取部提取的线段参数信息来获取线段的梯度;以及
第三线段提取部,用于基于与所述线段相对应的所述线段参数信息和所述梯度,来连接具有相同梯度并彼此重叠的两个线段并且获取被相互连接的所述两个线段的线段参数信息,其中,所述线段参数信息是由所述第一线段提取部和所述第二线段提取部提取的,并且所述梯度是由所述梯度获取部获取的,
其中,所述矩形提取部基于排除了由所述第三线段提取部连接的所述两个线段的线段参数信息的线段参数信息来提取矩形参数信息,并且,将由所述第三线段提取部通过连接所述两个线段形成的单个线段的线段参数信息加入到所述第一线段提取部和所述第二线段提取部提取的线段参数信息中。
4.根据权利要求3所述的信息处理装置,其中当所述两个线段的梯度相同并且所述两个线段之间的距离小于预定长度时,所述第三线段提取部连接所述两个线段。
5.根据权利要求1所述的信息处理装置,还包括图形字符提取部,用于从由所述读取部读取的所述矢量信息中提取文本对象的图形字符信息,
其中,基于由所述图形字符提取部提取的图形字符信息形成图形字符。
6.根据权利要求5所述的信息处理装置,其中,所述图形字符是“□”、“◇”或“○”。
7.根据权利要求1所述的信息处理装置,还包括添加部,用于添加由所述最小矩形确定部确定的所述最小矩形的最小矩形参数信息。
8.一种信息处理装置中的信息处理方法,所述信息处理装置包括用于输入电子文件的输入单元,所述电子文件包含矢量信息,所述信息处理方法包括:
读取步骤,读取在所述电子文件中包含的所述矢量信息;
第一线段提取步骤,从在所述读取步骤中读取的所述矢量信息中提取线对象的线段参数信息;
第二线段提取步骤,从从所述电子文件中读取的所述矢量信息中提取多边形对象的多边形参数信息,并且从所提取的多边形参数信息中提取形成所述多边形对象的线段的线段参数信息;
矩形提取步骤,基于在所述第一线段提取步骤和所述第二线段提取步骤中提取的线段参数来提取矩形参数信息;
最小矩形确定步骤,确定基于在矩形提取步骤中提取的所述矩形参数信息形成的矩形是否是不能容纳其它矩形的最小矩形;以及
最小矩形输出步骤,输出在最小矩形确定步骤中确定的所述最小矩形。
9.根据权利要求8所述的信息处理方法,进一步包括:
梯度获取步骤,获取在所述第一线段提取步骤和所述第二线段提取步骤中提取的所述线段关于参考线的梯度,
其中,基于与所述线段相对应的线段参数信息和所述梯度来提取由彼此垂直的线段形成的矩形的矩形参数信息,其中所述线段参数信息是在所述第一线段提取步骤和所述第二线段提取步骤中提取的,并且所述梯度是在所述梯度获取步骤中获取的。
10.根据权利要求8所述的信息处理方法,还包括:
梯度获取步骤,基于在所述第一线段提取步骤和所述第二线段提取步骤中提取的线段参数信息来获取线段的梯度;以及
第三线段提取步骤,基于与所述线段相对应的所述线段参数信息和所述梯度来连接具有相同梯度并彼此重叠的两个线段,并且获取被相互连接的所述两个线段的线段参数信息,其中,所述线段参数信息是在所述第一线段提取步骤和所述第二线段提取步骤中提取的,并且所述梯度是在所述梯度获取步骤中获取的,
其中在矩形提取步骤中,基于排除了在所述第三线段提取步骤中连接的所述两个线段的线段参数信息的线段参数信息来提取矩形参数信息,并且,将在所述第三线段提取步骤中通过连接所述两个线段形成的单个线段的线段参数信息添加到在所述第一线段提取步骤和所述第二线段提取步骤中提取的线段参数信息中。
11.根据权利要求10所述的信息处理方法,其中当所述两个线段的梯度相同并且所述两个线段之间的距离小于预定长度时,在所述第三线段提取步骤中,所述两个线段被互相连接。
12.根据权利要求8所述的信息处理方法,还包括:
图形字符信息提取步骤,从在所述读取步骤中读取的所述矢量信息中提取文本对象的图形字符信息,
其中,基于在所述图形字符信息提取步骤中提取的图形字符信息形成图形字符。
13.根据权利要求12所述的信息处理方法,其中,所述图形字符是“□”、“◇”或“○”。
14.根据权利要求8所述的信息处理方法,还包括:
添加步骤,添加在所述最小矩形确定步骤中确定的所述最小矩形的最小矩形参数信息。
15.一种计算机可读编码介质,所述计算机可读编码介质记录有矩形提取程序,所述矩形提取程序包括代码以用于进行:
读取步骤,读取在所述电子文件中包含的所述矢量信息;
第一线段提取步骤,从在所述读取步骤中读取的所述矢量信息中提取线对象的线段参数信息;
第二线段提取步骤,从从所述电子文件中读取的所述矢量信息中提取多边形对象的多边形参数信息,并且从所提取的多边形参数信息中提取形成所述多边形对象的线段的线段参数信息;
矩形提取步骤,基于在所述第一线段提取步骤和所述第二线段提取步骤中提取的线段参数来提取矩形参数信息;
最小矩形确定步骤,确定基于在矩形提取步骤中提取的所述矩形参数信息形成的矩形是否是不能容纳其它矩形的最小矩形;以及
最小矩形输出步骤,输出在最小矩形确定步骤中确定的所述最小矩形。
CN2008801007636A 2007-11-09 2008-11-05 信息处理装置和信息处理方法 Expired - Fee Related CN101821752B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007-292311 2007-11-09
JP2007292311A JP4739309B2 (ja) 2007-11-09 2007-11-09 情報処理装置、及び情報処理方法
PCT/JP2008/070538 WO2009060980A1 (en) 2007-11-09 2008-11-05 Information processing apparatus and information processing method

Publications (2)

Publication Number Publication Date
CN101821752A true CN101821752A (zh) 2010-09-01
CN101821752B CN101821752B (zh) 2013-03-27

Family

ID=40625862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008801007636A Expired - Fee Related CN101821752B (zh) 2007-11-09 2008-11-05 信息处理装置和信息处理方法

Country Status (5)

Country Link
US (1) US8548250B2 (zh)
EP (1) EP2168077A1 (zh)
JP (1) JP4739309B2 (zh)
CN (1) CN101821752B (zh)
WO (1) WO2009060980A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542557A (zh) * 2010-12-30 2012-07-04 方正国际软件(北京)有限公司 从图像中提取线的方法与***
CN103460222A (zh) * 2011-03-04 2013-12-18 光荣株式会社 字符串切出方法以及字符串切出装置
CN110770798A (zh) * 2017-04-19 2020-02-07 小柳建设株式会社 信息处理装置、信息处理方法及程序

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100886611B1 (ko) * 2007-08-14 2009-03-05 한국전자통신연구원 영상에서 점진적 화소 확장에 의한 선분 추출 방법 및 장치
JP5402099B2 (ja) * 2008-03-06 2014-01-29 株式会社リコー 情報処理システム、情報処理装置、情報処理方法およびプログラム
JP2013003596A (ja) * 2011-06-10 2013-01-07 Sony Corp 情報処理装置、プログラム及び情報処理方法
CN107578438A (zh) * 2017-07-13 2018-01-12 南京协辰电子科技有限公司 圆识别方法、装置及电子设备
CN113238560A (zh) * 2021-05-24 2021-08-10 珠海市一微半导体有限公司 基于线段信息的机器人旋转地图方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5050222A (en) * 1990-05-21 1991-09-17 Eastman Kodak Company Polygon-based technique for the automatic classification of text and graphics components from digitized paper-based forms
JP3001950B2 (ja) 1990-10-03 2000-01-24 株式会社リコー 矩形抽出装置
US5787414A (en) * 1993-06-03 1998-07-28 Kabushiki Kaisha Toshiba Data retrieval system using secondary information of primary data to be retrieved as retrieval key
EP0724229B1 (en) * 1994-12-28 2001-10-10 Canon Kabushiki Kaisha Image processing apparatus and method
JP3586911B2 (ja) 1995-02-03 2004-11-10 松下電器産業株式会社 枠線認識装置
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
JP2001060247A (ja) * 1999-06-14 2001-03-06 Fuji Xerox Co Ltd 画像処理装置および画像処理方法
JP4624594B2 (ja) * 2000-06-28 2011-02-02 パナソニック株式会社 物体認識方法および物体認識装置
US6917877B2 (en) * 2001-08-14 2005-07-12 Navteq North America, Llc Method for determining the intersection of polygons used to represent geographic features
JP4263089B2 (ja) * 2003-12-26 2009-05-13 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム及び記録媒体
US7796785B2 (en) * 2005-03-03 2010-09-14 Fujifilm Corporation Image extracting apparatus, image extracting method, and image extracting program
JP2006331146A (ja) * 2005-05-27 2006-12-07 Ricoh Co Ltd 画像解析装置
US7933451B2 (en) * 2005-11-23 2011-04-26 Leica Geosystems Ag Feature extraction using pixel-level and object-level analysis
US7706610B2 (en) * 2005-11-29 2010-04-27 Microsoft Corporation Segmentation of objects by minimizing global-local variational energy
JP4621617B2 (ja) * 2006-03-28 2011-01-26 株式会社東芝 図形描画装置、図形描画方法、及びプログラム
JP5248806B2 (ja) * 2007-04-25 2013-07-31 キヤノン株式会社 情報処理装置、情報処理方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542557A (zh) * 2010-12-30 2012-07-04 方正国际软件(北京)有限公司 从图像中提取线的方法与***
CN103460222A (zh) * 2011-03-04 2013-12-18 光荣株式会社 字符串切出方法以及字符串切出装置
CN103460222B (zh) * 2011-03-04 2017-07-07 光荣株式会社 字符串提取方法以及字符串提取装置
CN110770798A (zh) * 2017-04-19 2020-02-07 小柳建设株式会社 信息处理装置、信息处理方法及程序
CN110770798B (zh) * 2017-04-19 2024-03-19 小柳建设株式会社 信息处理装置、信息处理方法及计算机可读存储介质

Also Published As

Publication number Publication date
US8548250B2 (en) 2013-10-01
WO2009060980A1 (en) 2009-05-14
EP2168077A1 (en) 2010-03-31
CN101821752B (zh) 2013-03-27
US20100189360A1 (en) 2010-07-29
JP2009116825A (ja) 2009-05-28
JP4739309B2 (ja) 2011-08-03

Similar Documents

Publication Publication Date Title
CN101821752B (zh) 信息处理装置和信息处理方法
JP4854491B2 (ja) 画像処理装置及びその制御方法
JP4461769B2 (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
EP2162859B1 (en) Image processing apparatus, image processing method, and computer program
JP4557765B2 (ja) 画像処理装置およびその方法
US8520006B2 (en) Image processing apparatus and method, and program
CN102117269A (zh) 对文档进行数字化的装置及方法
JP2004158036A (ja) 機械可読フォームのインスタンス上の領域を識別するコンピュータ・システム
US5265171A (en) Optical character reading apparatus for performing spelling check
CN102750794A (zh) 一种票据自动录入***及其应用方法
CN112487859A (zh) 信息处理装置、信息处理方法和计算机可读介质
JP7035656B2 (ja) 情報処理装置及びプログラム
CN111738901A (zh) 存储介质以及图像处理装置
EP3151159A1 (en) Information processing apparatus, information processing method and program
JP4983464B2 (ja) 帳票画像処理装置及び帳票画像処理プログラム
JP6780380B2 (ja) 画像処理装置及びプログラム
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JP2002073598A (ja) 文書処理装置および方法
JP2017187931A (ja) 表データ変換方法、プログラム、画像読取装置
JP2005234790A (ja) 手書き帳票処理システム、手書き帳票処理方法
JPWO2014171519A1 (ja) 誤記検出装置及び記録媒体
KR20180025402A (ko) 오프라인 문서 추적 방법 및 문서 추적 시스템
JP2006202197A (ja) 画像管理システム
US20110157658A1 (en) Imaging processing apparatus, method for controlling the same, and program
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130327

Termination date: 20141105

EXPY Termination of patent right or utility model