CN102089785B - 文档管理设备和文档管理方法 - Google Patents

文档管理设备和文档管理方法 Download PDF

Info

Publication number
CN102089785B
CN102089785B CN200980127100.8A CN200980127100A CN102089785B CN 102089785 B CN102089785 B CN 102089785B CN 200980127100 A CN200980127100 A CN 200980127100A CN 102089785 B CN102089785 B CN 102089785B
Authority
CN
China
Prior art keywords
group
objects
distance
document
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200980127100.8A
Other languages
English (en)
Other versions
CN102089785A (zh
Inventor
深泽裕辅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN102089785A publication Critical patent/CN102089785A/zh
Application granted granted Critical
Publication of CN102089785B publication Critical patent/CN102089785B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

形成有以列表格式集合了结构化文档中所包括的各对象的信息的对象列表LO。文档在垂直方向上的距离等于或小于阈值的对象包括在一个对象组中,并且将对象组G中的对象分组为一个组。之后,在对象组G中所包括的两个以上的对象各自的外接矩形在水平方向上的长度等于或大于垂直方向上的长度并且两个以上的对象至少之一在水平方向上的长度小于阈值的情况下,执行再次块形成处理。在该再次块形成处理中,在对象组G中的对象中,将水平方向上的距离等于或小于阈值的对象分组为一个对象组GC。

Description

文档管理设备和文档管理方法
技术领域
本发明涉及一种文档管理设备、文档管理方法以及计算机程序。更具体地,本发明适用于对文档中的图形、字符串或图像等的绘制对象进行块形成。 
背景技术
到目前为止,存在用于对文档图像的区域进行块形成(分割)的块形成技术。作为这种块形成技术,存在将图像区域分离(块选择)应用于文档的图像数据的方法。根据这种方法,通过使用诸如直方图或图分割方法等的技术来提取文档图像的区域。作为使用这种方法的技术,存在日本特开平05-40849号公报中所公开的技术。在日本特开平05-40849号公报中,首先,在横向方向上以及在垂直方向上扫描图像数据,并形成具有最长白色占据宽度的直方图。通过使用所形成的直方图来执行区域提取处理,并且将所提取的区域分类为字段分隔符区域、照片区域、图形区域以及其它字符区域其中之一的属性。 
然而,在前述现有技术中,前提为用作要进行块形成的对象的数据是图像。因此,在将现有技术应用于例如结构化文档的情况下,需要暂时光栅化结构化文档中的绘图数据,并进一步通过使用直方图或图分割等的技术进行图像区域分离。因此,存在有花费很长时间来完成块形成(区域提取)这一问题。 
考虑到这种问题作出了本发明,并且本发明的目的是使得能够以比现有技术中的速度高的速度来对文档图像的区域进行块形成。 
发明内容
为了解决上述问题,根据本发明,提供了一种文档管理设备,包括:第一分组单元,用于将第一距离等于或小于阈值的对象添加至第一对象组,由此进行分组,其中,所述第一距离是文档中的对象之间的距离并且是所述文档的第一方向上的距离;以及第二分组单元,用于在作为所述第一对象组中的多个对象之间的距离的第二距离不处于阈值以内的情况下,对组进行划分,以使该多个对象属于其它对象组,其中,所述第二距离是与所述第一距离的方向不同的方向上的距离。 
通过以下参考附图对典型实施例的说明,本发明的其它特征将变得明显。 
附图说明
图1是示出本发明实施例并示出用于执行页面布局(块形成处理)的文档管理设备的***结构的例子的图。 
图2是示出本发明实施例并示出对象列表的例子的图。 
图3是示出本发明实施例并示出存储在对象列表中的对象的信息与实际对象之间的关系的例子的图。 
图4是示出本发明实施例并概念性地示出从PDF格式的结构化文档读出矩形对象并提取该对象的信息的例子的图。 
图5是示出本发明实施例并说明文档管理设备的布局处理单元在对结构化文档的对象进行块形成时的处理的例子的流程图。 
图6是示出本发明实施例并说明两个对象在垂直方向上的距离的例子的图。 
图7是示出本发明实施例并示出文档以及通过利用图5的流程图对文档的对象进行块形成所获得的结果的例子的图。 
图8是示出本发明实施例并说明文档管理设备的布局处理单元在判断是否对通过图5所示的流程图的处理所形成的对象组中的对象进行再次块形成时的处理的例子的流程图。 
图9是示出本发明实施例并详细说明图8的步骤S 805中的再次块形成处理的例子的流程图。 
图10是示出本发明实施例并说明两个对象在水平方向上的距离的例子的图。 
图11是示出本发明实施例并示出通过基于图5的流程图对文档的对象进行块形成所获得的结果以及通过基于图8和9的流程图进一步对文档的对象进行块形成所获得的结果的例子的图。 
具体实施方式
下面将参考附图说明本发明的实施例。在本实施例中,将说明对结构化文档中包括的绘制对象(在下面的说明中,根据需要简称为对象)进行自动块形成的情况下的例子。结构化文档是由标记语言所形成的文档,并且是如下文档:在该文档中,通过将示出文档结构的标签***文档以执行计算机中的管理和处理,定义了逻辑结构。因此,尽管该文档是文本数据,但该文档是在具有复杂文档结构的同时能够在不受OS或软件的限制的情况下使用、并且通用度高的文档数据。 
图1是示出用于执行页面布局(块形成处理)的文档管理设备的***结构的例子的图。在图1中,诸如键盘132等的输入装置和诸如鼠标133等的指示装置等通过输入/输出接口(I/O接口)143连接至计算机模块101。显示设备144以及根据状况包括本地打印机145的输出设备连接至计算机模块101。输入/输出接口(I/O接口)138将计算机模块101与网络107相连接,并将计算机 模块101与其它外部计算机设备相连接,以使得计算机模块101可以与其它外部计算机设备进行通信。作为网络107,例如,可以列举出局域网(LAN)、广域网(WAN)或因特网。 
计算机模块101具有至少一个处理器单元(CPU)135。计算机模块101还具有由例如半导体随机存取存储器(RAM)以及半导体只读存储器(ROM)构成的存储器单元136。计算机模块101还具有:包括视频接口的输入/输出(I/O)接口137;以及前述用于将键盘132和鼠标133与计算机模块101相互连接的I/O接口143。 
此外,计算机模块101具有包括例如硬盘驱动器(HDD)140以及软盘驱动器(FDD)141的存储装置139。尽管图1中未示出,然而还存在如下情况:存储装置139中包括磁带驱动器等。提供了CD-ROM驱动器142作为非易失性数据源。计算机模块101通过使用以下部件来执行处理:诸如LINUX(注册商标)或WINDOWS(注册商标)等的操作***;以及通过互连总线134进行通信的计算机模块101的组件135~143。 
用于实现在下面的流程图中示出的过程的软件存储在例如包括存储装置139的“计算机模块101的可读介质”中。软件被从计算机模块101的可读介质载入存储器单元136中,并由处理器单元(CPU)135执行。通过计算机模块101使用计算机程序产品,可以使文档管理设备用作对文档的布局编辑有利的设备。 
图2是示出对象列表的例子的图。将图2所示的对象列表200存储在例如HDD 140中。在本实施例中,计算机模块101通过使用如图2所示的对象列表200来管理结构化文档中的对象的信息。如图2所示,各对象的信息已经作为列表结构存储在对象列表200中。各对象的信息包括对象ID 201、对象类型202、左上坐标203、右下坐标204、对象固有信息205。左上坐标203和右下坐标204是示出对象的位置的信息。 
图3是示出存储在对象列表200的对象的信息与实际对象间的关系的例子的图。如图3所示,将位于左上坐标203a等于(20,34)并且右下坐标204a等于(81,65)的位置处的矩形对象301的信息以图3的右侧的图所示的内容存储(登记)在对象列表200中。 
图4是概念性地示出从PDF格式的结构化文档读出如图3所示的矩形对象301并提取该对象的信息的例子的图。尽管在图4中作为结构化文档列举并例示出PDF格式的结构化文档401的例子,但是结构化文档并不限于这种文档。例如,还可以以与PDF格式的结构化文档相同的方式来处理XPS(XML纸张规格)或SVG(可缩放矢量图形)等的结构化文档。还可以以与PDF格式的结构化文档相同的方式来处理OOXML(办公开放XML)或ODF(开放文档格式)等的结构化文档。 
图5是说明文档管理设备的布局处理单元在对结构化文档的对象进行块形成时的处理的例子的流程图。在本实施例中,通过使用处理器单元(CPU)135、存储器单元136或HDD 140等来实现布局处理单元。流程图所示的过程已经存储在存储器单元(RAM或ROM)136或HDD 140中,并由处理器单元(CPU)135执行。 
首先,布局处理单元从对象列表LO中获得一个对象(步骤S501)。对象列表LO是例如图2所示的对象列表200。随后,布局处理单元形成新的对象组G(步骤S502)。对象组G具有与对象列表LO的格式相同的格式,并且具有可由布局处理单元作为一个对象进行操作的数据格式。随后,布局处理单元将在步骤S501中获得的对象添加至所形成的对象组G(步骤S503)。随后,布局处理单元从对象列表LO中删除添加至对象组G的对象(步骤S504)。 
随后,布局处理单元判断对象列表LO中是否仍剩余对象(步 骤S505)。如果作为判断的结果,对象列表LO中没有剩余对象,则布局处理单元将对象组G添加至对象列表LO(步骤S510)。根据图5的流程图的处理结束。 
如果在对象列表LO中剩余对象,则布局处理单元从对象列表LO中获得下一对象PO(步骤S511)。随后,布局处理单元从对象组G中获得一个对象GO(步骤S512)。随后,布局处理单元判断是否能够从对象组G中获得对象GO(步骤S513)。如果作为判断的结果,不能从对象组G中获得对象GO,则布局处理单元返回至上述步骤S502。如果能够从对象组G中获得对象GO,则布局处理单元计算步骤S511中获得的对象PO和步骤S512中获得的对象GO在垂直方向上的距离。 
图6是用于说明两个对象在垂直方向上的距离的例子的图。如图6所示,在本实施例中,对象之间的距离表示围绕对象601和602的外接矩形之间的最短距离。在图6所示的例子中,对象601是矩形,并且对象602是椭圆形。因此,布局处理单元形成椭圆形对象602的外接矩形603,并计算外接矩形603与矩形对象601在垂直方向上的最短距离604作为两个对象601和602在垂直方向上的距离。 
返回至图5的说明,布局处理单元判断在步骤S514中计算出的距离是否等于或者小于阈值(步骤S515)。如果作为判断的结果,步骤S514中计算出的距离大于阈值,则处理例程返回至上述步骤S512。该阈值表示在***中预先确定的特定值的距离。在本实施例中,利用距离的阈值在垂直方向上分离进行块形成的对象。 
如上所述,在本实施例中,例如,文档的垂直方向是第一方向的例子,步骤S514中计算出的距离是第一距离的例子,并且对象组G是第一对象组的例子。例如,通过执行步骤S503的 处理,实现第一分组单元的例子。 
图7是示出文档以及通过利用图5的流程图对文档的对象进行块形成所获得的结果的例子的图。如图7所示,对象711和712块形成在页面701上,由此形成一个块721。同样地,分别地,对象713和714块形成为一个块722,并且对象715和716块形成为一个块723。由于对象711和712相邻,因此这两个对象在垂直方向上的差被认为是0。因此,由于这两个对象在垂直方向上的差被设置为等于或小于阈值,因此块形成了这两个对象。 
如图7所示,在本实施例中,当页面布局改变时,不考虑通过最小分割得到的对象的所有距离,而是考虑由特定数量的对象所构成的“块之间的距离”。 
图8是用于说明文档管理设备的布局处理单元在判断是否对通过图5所示的流程图的处理所形成的对象组G中的对象进行再次块形成时的处理的例子的流程图。 
首先,布局处理单元从对象列表LO中获得图5的步骤S510中所添加的一个对象组G(步骤S801)。随后,布局处理单元判断步骤S801中获得的对象组G中的对象的数量是否仅为一个(步骤S802)。如果作为判断的结果,步骤S801中获得的对象组G中的对象的数量仅为一个,则布局处理单元判断在对象列表LO中是否剩余尚未参考的对象组G(步骤S806)。如果作为判断的结果,并没有剩余尚未参考的对象组G,则图8的流程图的处理结束。如果剩余有尚未参考的对象组G,则处理例程返回至上述步骤S801。 
如果在步骤S802中,步骤S801中获得的对象组G中的对象的数量不仅仅为一个(存在两个以上的对象),则布局处理单元执行下面的处理。也就是说,布局处理单元判断步骤S801中获得的对象组G的外接矩形的区域的垂直(垂直方向)长度是否长 于横向(水平方向)长度[高宽比(垂直长度/横向长度)是否大于1](步骤S803)。如果作为判断的结果,步骤S801中获得的对象组G的外接矩形的区域的垂直长度长于横向长度,则处理例程进入上述步骤S806。 
如果步骤S801中获得的对象组G的外接矩形的区域的垂直长度不长于横向长度,则布局处理单元执行下面的处理。也就是说,布局处理单元判断步骤S801中获得的对象组G中是否存在宽度(水平方向上的长度)等于或大于阈值的对象(步骤S804)。 
如果作为判断的结果,步骤S801中获得的对象组G中存在宽度等于或大于阈值的对象,则处理例程进入上述步骤S806。如果步骤S801中获得的对象组G中所有对象的宽度都小于阈值,则布局处理单元根据图9的流程图执行再次块形成处理(步骤S805),并进入上述步骤S806。如上所述,在本实施例中,例如,通过执行步骤S802的处理,实现了第一判断单元的例子。通过执行步骤S803的处理,实现了第二判断单元的例子。通过执行步骤S804的处理,实现了第三判断单元的例子。 
图9是用于说明图8的步骤S805中的再次块形成处理的例子的流程图。首先,布局处理单元从图8的步骤S801中获得的对象组G中获得一个对象(步骤S901)。步骤S801中获得的对象组的例子是图7中的组721。随后,布局处理单元形成新的对象组GC(步骤S902)。对象组GC具有与对象列表LO的格式相同的格式,并具有可由布局处理单元作为一个对象进行操作的数据格式。 
对象组GC与对象组G之间具有亲子关系。因此,当对象组G的对象ID 201等于“0001”时,布局处理单元分配“0001-1”等作为对象组GC的对象ID。在对象组GC的对象ID中示出对象组G与对象组GC之间具有亲子关系这一事实。然而,并非总是需要如上所述那样进行构建,在对象组G和GC的至少一个对象ID中示 出对象组G与对象组GC之间具有亲子关系这一事实就足够了。 
如上所述,根据本实施例,例如,对象组G的对象ID是第一组识别信息的例子,并且对象组GC的对象ID是第二组识别信息的例子。例如,通过由布局处理单元将对象ID分配至对象组G,实现了第一分配单元的例子。通过由布局处理单元将对象ID分配至对象组GC,实现了第二分配单元的例子。 
随后,布局处理单元将步骤S901中获得的对象添加至所形成的对象组GC(步骤S903)。在步骤S903中所添加的对象的例子是对象组721中的左边的对象。随后,布局处理单元判断对象组G中是否仍剩余有对象(步骤S904)。如果作为判断的结果,对象组G中没有剩余对象,则布局处理单元将对象组GC添加至对象列表LO(步骤S905)。根据图9的流程图的处理结束。 
如果在对象组G中剩余有对象,则布局处理单元从对象组G中获得下一对象PO(步骤S906)。步骤S906中获得的对象PO的例子是对象组721中的右边的对象。随后,布局处理单元从对象组GC中获得一个对象GO(步骤S907)。步骤S907中获得的对象的例子是对象组721中的左边的对象。随后,布局处理单元判断是否能够从对象组GC中获得对象GO(步骤S908)。如果作为判断的结果,不能从对象组GC中获得对象GO,则处理例程返回至上述步骤S902。如果能够从对象组GC中获得对象GO,则布局处理单元计算步骤S906中获得的对象PO和步骤S907中获得的对象GO在水平方向上的距离(步骤S909)。 
如上所述,在图5的步骤S514中,将围绕对象的外接矩形在垂直方向上的最短距离设置为对象之间的距离。另一方面,在图9的步骤S909中,将围绕对象的外接矩形在水平方向上的最短距离设置为对象之间的距离。 
图10是用于说明两个对象在水平方向上的距离的例子的 图。在图10所示的例子中,对象1001是矩形,并且对象1002是椭圆形。因此,布局处理单元形成椭圆形对象1002的外接矩形1003,并计算外接矩形1003与矩形对象1001在水平方向上的最短距离1004作为两个对象1001和1002在水平方向上的距离。 
返回至图9的说明,布局处理单元判断步骤S909中计算出的距离是否等于或者小于阈值(步骤S910)。如果作为判断的结果,步骤S909中计算出的距离大于阈值,则处理例程返回至上述步骤S907。例如,如果图7的组721中的对象之间的距离大于阈值,则在执行了S805的再次块形成之后,如图11所示,对组721中的两个(多个)对象进行分组以使其属于另一对象组。如果步骤S909中计算出的距离等于或者小于阈值,则处理例程返回至上述步骤S903。例如,如果图7的组721中的两个对象之间的距离等于或者小于阈值,则即使在执行了再次块形成之后,组721中的对象仍属于相同的组。该阈值表示在***中预先确定的值的距离。在本实施例中,利用该距离的阈值在水平方向上分离进行再次块形成的对象。 
如上所述,在本实施例中,例如,文档的水平方向是第二方向的例子,步骤S909中计算出的距离是第二距离的例子,并且对象组GC是第二对象组的例子。例如,通过执行步骤S903的处理,实现了第二分组单元的例子。 
图11是示出通过基于图5的流程图对文档的对象进行块形成所获得的结果以及通过基于图8和9的流程图进一步对文档的对象进行块形成所获得的结果的例子的图。如图11所示,将块1111在页面1101上再次块形成为两个块1121和1122。同样地,将块1114再次块形成为两个块1125和1126。基于图8的步骤S803中的判断结果,未对块1112进行再次块形成。基于图8的步骤S804中的判断结果,未对块1113进行再次块形成。 
当基于由用户执行的键盘132或鼠标133等的操作来指示显示设置在文档中的块的状态时,布局处理单元提取针对该文档所设置的对象组G和GC。布局处理单元参考所提取的对象组G和GC的组ID,并且可以基于参考结果,将用户所指定的文档中块的状态显示在显示设备144上。例如,基于用户的操作,可以将如下图像中的任意一个显示在显示设备144上:图7的右侧图所示的图像、图11的右侧图所示的图像、以及图11的左侧图和右侧图所示的两个图像。基于用户的操作,还可以切换并显示这些显示图像。此外,还可以允许用户选择并编辑所显示的组。另外,还可以允许用户选择如下的两种块形成处理的其中之一:仅执行图5的处理的块形成处理以及执行图5、8和9的处理的块形成处理。 
如上所述,在本实施例中,例如,布局处理单元参考对象组G和GC的组ID,并在显示设备上显示由用户指定的文档中的块的状态,从而实现了显示单元的例子。 
如上面提及的,在本实施例中,形成了如下对象列表LO,其中在该对象列表LO中,以列表格式集合了包括在结构化文档中的各对象的信息。文档的垂直方向上的距离等于或者小于阈值的对象包括在一个对象组G中,并且将对象组G中的对象分组成一个组。之后,在对象组G中所包括的两个以上对象的外接矩形在水平方向上的长度等于或者大于其在垂直方向上的长度、并且该两个以上对象的至少之一在水平方向上的长度小于阈值的情况下,执行再次块形成处理。在再次块形成处理中,在对象组G所包括的对象中,将水平方向上的距离等于或者小于阈值的对象分组成一个对象组GC。 
因此,不需要光栅化结构化文档中的绘图数据,也不需要通过使用诸如直方图或图分割方法等技术来执行图像区域分 离。因此,可以将完成块形成(区域提取)所需的时间减小至比现有技术中所需的时间短的时间。 
考虑了仅执行图5的处理的方法,从而高速且简单地进行文档中的多个对象的块形成。也就是说,从顶部沿垂直方向搜索文档中的对象,并顺次参考搜索到的对象。如果上下对象之间的距离等于或者小于阈值,则对它们进行块形成,并顺次扩展块形成区域。当块形成后的区域与紧挨在该区域下面的对象之间的距离大于阈值,则认为它们是不同的块。然而,在如上所述进行构建的情况下,仅基于文档的垂直方向上的距离来形成块形成区域。因此,例如,在字符串的多栏布局的情况下,存在如下这种问题:即使对象在水平方向上的距离大,如果在垂直方向上的距离小,则也认为它们是相同的块。 
还考虑了不执行图8的步骤S802~S804中的任意一个步骤的方法。例如,当不执行步骤S803和S804时,对垂直方向上的距离和水平方向上的距离均等于或小于阈值的对象进行块形成。如果上述两个距离大于阈值,则将对象设置为不同的块。然而,如果如上所述简单地执行了块形成处理,则对各块本身进行细分化,由此存在如下这种问题:使用户的便利性下降,并且块形成处理本身需要花费较长时间。 
另一方面,在本实施例中,对于结构化文档,从垂直方向和水平方向这两者来参考对象之间的距离,并且仅当满足块形成条件(对象的数量、外接矩形区域的高宽比、对象宽度)时,才执行块形成。因此,可以尽可能省略不必要的块形成处理,与现有技术相比,可以更简单、更高速且更精确地实现自动块形成,并且获得了优选实施例。 
在本实施例中,可以通过组ID来判断亲子关系,即基于文档的垂直方向上的距离所形成的对象组G(父)和基于文档的水 平方向上的距离所形成的对象组GC(子)之间的关系。因此,根据用户的应用,可以显示块的状态或者可以对选择进行切换。 
在本实施例中,说明了如下情况作为例子:在该情况下,基于文档的垂直方向上的距离来形成对象组G,之后,基于文档的水平方向上的距离来形成对对象组G进行进一步细化得到的对象组GC。然而,可以在基于文档的水平方向上的距离形成对象组之后,基于文档的垂直方向上的距离来形成对对象组进行进一步细化得到的对象组。在这种情况下,例如,在图8的步骤S803中,可以判断对象组G的外接矩形的区域的横向长度是否大于垂直长度。在步骤S804中,可以判断对象组G中是否存在对象的高度(垂直长度)等于或者大于阈值的对象。 
在本实施例中,作为用于判断对象组G的属性是否满足预定条件的判断基准,说明了使用步骤S802~S804这三个判断基准的情况作为例子。然而,不总是需要使用这种构建。例如,可以使用步骤S802~S804这三个判断基准的至少之一(仅步骤S802、步骤S802和S803、步骤S802和S804等)。根据本发明,即使不使用直方图或图分割方法等技术,仍可以对对象进行分组。因此,与现有技术相比,可以以更高的速度对文档图像的区域进行块形成。 
其它实施例
还可以通过执行以下处理来实现本发明,即:将用于实现上述实施例的功能的软件(程序)通过网络或各种存储介质提供给***或者设备,并且***或设备的计算机(或CPU或MPU等)读出并执行该程序的处理。在这种情况下,程序和存储有该程序的存储介质构成了本发明。 
本申请要求2008年7月11日提交的日本专利申请2008-182036的优先权,在此通过引用包含其全部内容。 

Claims (4)

1.一种文档管理设备,包括:
第一分组单元,用于将第一距离等于或小于第一阈值的对象添加至第一对象组,由此进行分组,其中,所述第一距离是文档中的对象之间的距离并且是所述文档的垂直方向上的距离;
第一判断单元,用于判断所述第一对象组中的对象的数量是否等于1;
第二判断单元,用于如果所述第一判断单元判断为所述第一对象组中的对象的数量等于或大于2,则判断所述第一对象组中的对象的外接矩形的区域在所述垂直方向上的长度是否大于所述外接矩形的区域在水平方向上的长度;
第三判断单元,用于如果所述第二判断单元判断为所述外接矩形的区域在所述垂直方向上的长度不大于所述外接矩形的区域在所述水平方向上的长度,则判断在所述第一对象组中是否存在所述水平方向上的长度等于或大于第二阈值的对象;以及
第二分组单元,用于如果所述第三判断单元判断为在所述第一对象组中不存在所述水平方向上的长度等于或大于所述第二阈值的对象并且如果作为所述第一对象组中的第一对象和第二对象之间在所述水平方向上的距离的第二距离不处于第三阈值以内,则添加第二对象组并对组进行划分,以使所述第一对象属于所述第一对象组并且所述第二对象属于所述第二对象组。
2.根据权利要求1所述的文档管理设备,其特征在于,还包括:
第一分配单元,用于将用以识别所述第一对象组的第一组识别信息分配至所述第一对象组;以及
第二分配单元,用于将用以识别所述第二对象组的第二组识别信息分配至所述第二对象组,
其中,在所述第一组识别信息和所述第二组识别信息至少之一中示出如下事实:由所述第一组识别信息识别的所述第一对象组与添加有所述第一对象组中的对象的所述第二对象组具有亲子关系。
3.根据权利要求2所述的文档管理设备,其特征在于,还包括显示单元,所述显示单元用于基于所述第一分配单元所分配的所述第一组识别信息和所述第二分配单元所分配的所述第二组识别信息,将与对象的组有关的信息显示在显示设备上。
4.一种文档管理方法,包括以下步骤:
将第一距离等于或小于第一阈值的对象添加至第一对象组,由此进行分组,其中,所述第一距离是文档中的对象之间的距离并且是所述文档的垂直方向上的距离;
判断所述第一对象组中的对象的数量是否等于1;
如果判断为所述第一对象组中的对象的数量等于或大于2,则判断所述第一对象组中的对象的外接矩形的区域在所述垂直方向上的长度是否大于所述外接矩形的区域在水平方向上的长度;
如果判断为所述外接矩形的区域在所述垂直方向上的长度不大于所述外接矩形的区域在所述水平方向上的长度,则判断在所述第一对象组中是否存在所述水平方向上的长度等于或大于第二阈值的对象;以及
如果判断为在所述第一对象组中不存在所述水平方向上的长度等于或大于所述第二阈值的对象并且如果作为所述第一对象组中的第一对象和第二对象之间在所述水平方向上的距离的第二距离不处于第三阈值以内,则添加第二对象组并对组进行划分,以使所述第一对象属于所述第一对象组并且所述第二对象属于所述第二对象组。
CN200980127100.8A 2008-07-11 2009-07-03 文档管理设备和文档管理方法 Expired - Fee Related CN102089785B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008182036A JP5100543B2 (ja) 2008-07-11 2008-07-11 文書管理装置、文書管理方法、及びコンピュータプログラム
JP2008-182036 2008-07-11
PCT/JP2009/062561 WO2010005063A1 (en) 2008-07-11 2009-07-03 Document managing apparatus, document managing method, and storage medium

Publications (2)

Publication Number Publication Date
CN102089785A CN102089785A (zh) 2011-06-08
CN102089785B true CN102089785B (zh) 2014-01-08

Family

ID=41507173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980127100.8A Expired - Fee Related CN102089785B (zh) 2008-07-11 2009-07-03 文档管理设备和文档管理方法

Country Status (4)

Country Link
US (1) US8650473B2 (zh)
JP (1) JP5100543B2 (zh)
CN (1) CN102089785B (zh)
WO (1) WO2010005063A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8041650B2 (en) * 2005-03-11 2011-10-18 Howard Marcus Method and system for directed documentation of construction projects
US9323440B2 (en) 2011-12-16 2016-04-26 International Business Machines Corporation Scroll focus
US9535888B2 (en) * 2012-03-30 2017-01-03 Bmenu As System, method, software arrangement and computer-accessible medium for a generator that automatically identifies regions of interest in electronic documents for transcoding
US10445615B2 (en) * 2017-05-24 2019-10-15 Wipro Limited Method and device for extracting images from portable document format (PDF) documents
JP7395915B2 (ja) * 2019-09-30 2023-12-12 大日本印刷株式会社 情報処理装置、コンピュータプログラム及び情報処理方法
JP7512798B2 (ja) 2020-09-28 2024-07-09 大日本印刷株式会社 情報処理装置及びコンピュータプログラム
CN112785659A (zh) * 2021-01-28 2021-05-11 特赞(上海)信息科技有限公司 企业案例素材图片检测方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1453747A (zh) * 2002-04-25 2003-11-05 微软公司 聚类
CN1577328A (zh) * 2003-07-28 2005-02-09 微软公司 基于视觉的文档分割
CN1655584A (zh) * 2004-02-12 2005-08-17 施乐公司 将图像数据组织到区域中的***和方法
CN1816097A (zh) * 2005-01-31 2006-08-09 佳能株式会社 图像处理方法、图像处理装置以及程序
CN101030257A (zh) * 2007-04-13 2007-09-05 中国传媒大学 基于汉字特征的文档图像分割方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1655584A (en) * 1928-01-10 Receptacle filling machine
US1816097A (en) * 1930-01-27 1931-07-28 Thomas B Sumner Sawmill hog
JPH0540849A (ja) 1991-08-05 1993-02-19 Oki Electric Ind Co Ltd 文書画像の領域抽出方法
JPH09120443A (ja) * 1995-10-26 1997-05-06 Canon Inc 画像処理方法とその装置
US5893127A (en) * 1996-11-18 1999-04-06 Canon Information Systems, Inc. Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document
US6614432B1 (en) * 1999-04-16 2003-09-02 Adobe Systems Incorporated Image rendering technique
JP4391624B2 (ja) * 1999-06-16 2009-12-24 本田技研工業株式会社 物体認識装置
JP4118452B2 (ja) * 1999-06-16 2008-07-16 本田技研工業株式会社 物体認識装置
JP3599621B2 (ja) * 1999-11-19 2004-12-08 キヤノン株式会社 画像処理装置、画像処理方法及び記憶媒体
US7136082B2 (en) * 2002-01-25 2006-11-14 Xerox Corporation Method and apparatus to convert digital ink images for use in a structured text/graphics editor
JP4546291B2 (ja) * 2005-03-01 2010-09-15 キヤノン株式会社 画像処理装置およびその制御方法
JP2007072528A (ja) * 2005-09-02 2007-03-22 Internatl Business Mach Corp <Ibm> 文書構造解析方法、プログラム、装置
US20070127056A1 (en) * 2005-12-06 2007-06-07 Canon Kabushiki Kaisha Image processing apparatus, image processing method and program, and storage medium therefor

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1453747A (zh) * 2002-04-25 2003-11-05 微软公司 聚类
CN1577328A (zh) * 2003-07-28 2005-02-09 微软公司 基于视觉的文档分割
CN1655584A (zh) * 2004-02-12 2005-08-17 施乐公司 将图像数据组织到区域中的***和方法
CN1816097A (zh) * 2005-01-31 2006-08-09 佳能株式会社 图像处理方法、图像处理装置以及程序
CN101030257A (zh) * 2007-04-13 2007-09-05 中国传媒大学 基于汉字特征的文档图像分割方法

Also Published As

Publication number Publication date
US20110072019A1 (en) 2011-03-24
CN102089785A (zh) 2011-06-08
JP5100543B2 (ja) 2012-12-19
WO2010005063A1 (en) 2010-01-14
US8650473B2 (en) 2014-02-11
JP2010020642A (ja) 2010-01-28

Similar Documents

Publication Publication Date Title
CN102089785B (zh) 文档管理设备和文档管理方法
US10853565B2 (en) Method and device for positioning table in PDF document
CN106940799B (zh) 文本图像处理方法和装置
JP5134628B2 (ja) 連続する記事部分の媒体資料解析
CN102194123B (zh) 表格模板定义方法和装置
JP4079087B2 (ja) レイアウトシステム
CN101206639B (zh) 一种基于pdf的复杂版面的标引方法
US8762873B2 (en) Graphical user interface component identification
US20120102388A1 (en) Text segmentation of a document
EP2544099A1 (en) Method for creating an enrichment file associated with a page of an electronic document
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
JP4945813B2 (ja) 印刷構造化文書
CN113673294B (zh) 文献关键信息的提取方法、装置、计算机设备和存储介质
CN102883085B (zh) 图像处理装置和图像处理方法
JP2008108114A (ja) 文書処理装置および文書処理方法
JPH0821057B2 (ja) 文書画像解析方式
JP2010003218A (ja) 文書レビュー支援装置及び方法、並びにプログラム及び記憶媒体
CN100593949C (zh) 信息处理装置、信息处理方法
US20130104014A1 (en) Viewer unit, server unit, display control method, digital comic editing method and non-transitory computer-readable medium
JP4501731B2 (ja) 画像処理装置
JP3412999B2 (ja) 画像処理装置及びその方法
JP2007241473A (ja) 情報処理装置、情報処理方法、プログラム、記憶媒体
JP2008269216A (ja) 文書画像取得装置
JP4256841B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム
CN116702718A (zh) 一种基于pdf的信息处理方法、***和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140108

Termination date: 20170703

CF01 Termination of patent right due to non-payment of annual fee