CN104142961B - 版式文档中复合图的逻辑处理装置和逻辑处理方法 - Google Patents

版式文档中复合图的逻辑处理装置和逻辑处理方法 Download PDF

Info

Publication number
CN104142961B
CN104142961B CN201310172879.3A CN201310172879A CN104142961B CN 104142961 B CN104142961 B CN 104142961B CN 201310172879 A CN201310172879 A CN 201310172879A CN 104142961 B CN104142961 B CN 104142961B
Authority
CN
China
Prior art keywords
composite diagram
pel
caption
format document
diagram block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310172879.3A
Other languages
English (en)
Other versions
CN104142961A (zh
Inventor
许灿辉
汤帜
陶欣
史操
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Founder Apabi Technology Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University
Priority to CN201310172879.3A priority Critical patent/CN104142961B/zh
Priority to US14/095,682 priority patent/US9569407B2/en
Priority to US14/104,245 priority patent/US9727536B2/en
Publication of CN104142961A publication Critical patent/CN104142961A/zh
Application granted granted Critical
Publication of CN104142961B publication Critical patent/CN104142961B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0483Interaction with page-structured environments, e.g. book metaphor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)
  • Character Input (AREA)

Abstract

本发明提供了一种版式文档中复合图的逻辑处理装置,包括:复合图区块提取单元,用于提取所述版式文档中的复合图区块;文档解析单元,用于对所述版式文档进行解析,以获取其中包含的文字图元;图注图元提取单元,用于从所述文字图元中提取出图注图元;关联检测单元,用于检测所述复合图区块与所述图注图元之间的关联关系;关系存储单元,用于存储检测到的所述关联关系。本发明还提出了一种版式文档中复合图的逻辑处理方法。通过本发明的技术方案,可以对从版式文档中分割出来的复合图进行妥善的逻辑处理,从而便于实现对版式文档中图文混排版面的复合图进行版面理解,避免逻辑错误。

Description

版式文档中复合图的逻辑处理装置和逻辑处理方法
技术领域
本发明涉及电子文档格式转换技术领域,具体而言,涉及一种版式文档中复合图的逻辑处理装置和一种版式文档中复合图的逻辑处理方法。
背景技术
根据版式文档的生成过程,文档是数据和结构的集合,具体包括内容数据、物理结构和逻辑结构。内容数据指文档中诸如文本、图像、图形等数据。物理结构是对内容数据在页面的布局、组合的描述,包括文本行、文本块、图表等。逻辑结构是对内容数据所反映的信息、信息间关系的描述,不仅包括页面元素的逻辑属性如正文段落、摘要、标题、表格等,也包括文档的层次关系和文档元素之间的逻辑关联关系,如图像和图注的关联等。
文档分析是对文档物理结构进行抽取,而文档理解则是在物理结构和逻辑结构之间建立映射关系。对于文档分析任务来说,可得到的输入是文档最后成型的形态,物理和逻辑结构信息都没有显式的体现,文档生成时使用的逻辑模型和物理模型需要反推出来,最大程度地恢复文档的物理和逻辑结构。而在现实应用中,移动设备的可读性需求使物理和逻辑结构的恢复成为重中之重。
在对物理和逻辑结构的恢复中,可以从页面层次提取文档的逻辑结构信息,将页面内已抽取的物理结构块根据其逻辑功能进行标注。目前,基于传统图像文档的页面逻辑结构分析得益于人工智能领域的发展。逻辑结构分析的发展正从基于先验规则的方法转向基于机器学习的方法。与传统图像文档方法不同的是,版式文档提供的信息可以辅助版面理解。但固定版式文档中存在大量拼接的图元、相互叠加的图层。这些数据并不能直接用于构造文档的逻辑结构,而需要根据空间关系进行拼接、叠加等操作后才能确定其所要展示的内容。页面内非文本对象的分类及识别和标注是文档理解的重点之一,其中,图文混排版面的复合图的分析和理解皆有挑战性。
因此,需要一种新的版式文档中复合图的逻辑处理技术,可以对从版式文档中分割出来的复合图进行妥善的逻辑处理,从而便于实现对版式文档中图文混排版面的复合图进行版面理解,避免逻辑错误。
发明内容
本发明正是基于上述问题,提出了一种新的版式文档中复合图的逻辑处理技术,可以对从版式文档中分割出来的复合图进行妥善的逻辑处理,从而便于实现对版式文档中图文混排版面的复合图进行版面理解,避免逻辑错误。
有鉴于此,本发明提出了一种版式文档中复合图的逻辑处理装置,包括:复合图区块提取单元,用于提取所述版式文档中的复合图区块;文档解析单元,用于对所述版式文档进行解析,以获取其中包含的文字图元;图注图元提取单元,用于从所述文字图元中提取出图注图元;关联检测单元,用于检测所述复合图区块与所述图注图元之间的关联关系;关系存储单元,用于存储检测到的所述关联关系。
在该技术方案中,复合图区块包括版式文档中的图片及图片中或周围的文字等,提取复合图区块是指将这些图片、文字等作为一个整体,将其与版式文档中的正文等部分分割开来,以便于在进行版式文档的流式重排时,能够对复合图进行恰当的排版处理。但由于文档的排版原因,图片与图注(比如位于图片下方,包括图标题或用于描述图片的一段文字等)的间隔较远,而为了能够准确地对复合图区块进行提取,会导致将图片与图注分离开,其中,图片被分割至复合图区块中,而图注被保留在版式文档的其他部分中,则虽然在物理结构上实现了分割,但从逻辑结构上却存在问题。因此,该方案通过将复合图区块与图注图元之间建立关联关系,从而在逻辑结构上完成在复合图区块与图注图元之间的关系建立,使得对于版式文档中的复合图的分割过程更准确、合理。
在上述技术方案中,优选地,还包括:信息获取单元,用于获取所述复合图区块的特征属性信息;元素分类单元,用于根据所述特征属性信息,对所述复合图区块中包含的元素进行分类;复合图处理单元,用于根据分类结果,保留所述复合图区块中的正文插图复合图,并过滤其他元素,以供所述关联检测单元检测所述正文插图复合图与所述图注图元之间的关联关系。
在该技术方案中,复合图区块中包含有正文插图复合图和其他的元素,比如图形商标、公式、分栏线、页眉、页脚、装饰性复合图等等,这些元素可能导致在对复合图区域对应的范围进行确定时,对真正的正文插图复合图对应的范围造成影响。比如正文插图复合图对应的范围是以其最小外接矩形框确定的,而如果不对其他元素进行过滤,可能导致该矩形框比实际范围大,从而可能使得不是图注图元的内容被误认为是图注图元,造成逻辑错误。
在上述技术方案中,优选地,还包括:标签添加单元,用于为所述复合图区块中的每种元素添加对应的逻辑标签,以标定其所属分类;以及所述关系存储单元还用于:存储所述逻辑标签和/或所述逻辑标签对应的图元的标识。
在该技术方案中,通过对每种元素添加逻辑标签,便于对各种元素对应的逻辑关系进行查看和管理,从而实现对版式文档进行流式转换后,得到更好的显示效果。
在上述技术方案中,优选地,所述关联检测单元包括:数量判断子单元,用于判断所述复合图区块中包含的正文插图复合图的数量;距离分析子单元,用于在所述复合图区块中仅包含一个正文插图复合图的情况下,选取与该正文插图复合图的距离小于预设距离的图注图元,以作为与该正文插图复合图相关联的图注图元;二分图分析子单元,用于在所述复合图区块中包含多个正文插图复合图的情况下,将所述多个正文插图复合图和解析出的所有图注图元分别作为二分图的顶点,以利用所述二分图判断所述多个正文插图复合图与所述图注图元之间的关联关系。
在该技术方案中,通过距离靠近原则和二分法最优匹配法,实现对正文插图复合图和图注图元的关联识别,有利于得到更为合理、准确的逻辑关系,以便基于该逻辑关系实现版式文档的流式重排。
在上述技术方案中,优选地,所述图注图元提取单元包括:信息读取子单元,用于读取预设的所述图注图元的排版特征信息;图元检索子单元,用于根据读取的所述排版特征信息,在所述文档解析单元解析出的所述文字图元中进行检索,以获取所述图注图元。
在该技术方案中,图注图元具有的排版特征信息,比如字体、以“图”等关键字起始、居中、字数限制、与其他文字之间的位置关系等,通过这些特征信息,既可以找到对应内容的图元,又可以避免将如正文中的“图1”作为图注图元(具体为图标题,或者也可以为解释性文字等),实现对图注图元的准确获取。
根据本发明的又一方面,还提出了一种版式文档中复合图的逻辑处理方法,包括:步骤202,提取所述版式文档中的复合图区块;步骤204,在从所述版式文档解析出的文字图元中,提取出图注图元;步骤206,检测所述复合图区块与所述图注图元之间的关联关系;步骤208,存储检测到的所述关联关系。
在该技术方案中,复合图区块包括版式文档中的图片及图片中或周围的文字等,提取复合图区块是指将这些图片、文字等作为一个整体,将其与版式文档中的正文等部分分割开来,以便于在进行版式文档的流式重排时,能够对复合图进行恰当的排版处理。但由于文档的排版原因,图片与图注(比如位于图片下方,包括图标题或用于描述图片的一段文字等)的间隔较远,而为了能够准确地对复合图区块进行提取,会导致将图片与图注分离开,其中,图片被分割至复合图区块中,而图注被保留在版式文档的其他部分中,则虽然在物理结构上实现了分割,但从逻辑结构上却存在问题。因此,该方案通过将复合图区块与图注图元之间建立关联关系,从而在逻辑结构上完成在复合图区块与图注图元之间的关系建立,使得对于版式文档中的复合图的分割过程更准确、合理。
在上述技术方案中,优选地,所述步骤206之前,还包括:获取所述复合图区块的特征属性信息,以对所述复合图区块中包含的元素进行分类;根据分类结果,保留所述复合图区块中的正文插图复合图,并过滤其他元素,以供在所述步骤206中,检测所述正文插图复合图与所述图注图元之间的关联关系。
在该技术方案中,复合图区块中包含有正文插图复合图和其他的元素,比如图形商标、公式、分栏线、页眉、页脚、装饰性复合图等等,这些元素可能导致在对复合图区域对应的范围进行确定时,对真正的正文插图复合图对应的范围造成影响。比如正文插图复合图对应的范围是以其最小外接矩形框确定的,而如果不对其他元素进行过滤,可能导致该矩形框比实际范围大,从而可能使得不是图注图元的内容被误认为是图注图元,造成逻辑错误。
在上述技术方案中,优选地,还包括:为所述复合图区块中的每种元素添加对应的逻辑标签,以标定其所属分类;以及所述步骤208还包括:存储所述逻辑标签和/或所述逻辑标签对应的图元的标识。
在该技术方案中,通过对每种元素添加逻辑标签,便于对各种元素对应的逻辑关系进行查看和管理,从而实现对版式文档进行流式转换后,得到更好的显示效果。
在上述技术方案中,优选地,所述步骤206包括:若所述复合图区块中仅包含一个正文插图复合图,则选取与该正文插图复合图的距离小于预设距离的图注图元,以作为与该正文插图复合图相关联的图注图元;若所述复合图区块中包含多个正文插图复合图,则将所述多个正文插图复合图和解析出的所有图注图元分别作为二分图的顶点,以利用所述二分图判断所述多个正文插图复合图与所述图注图元之间的关联关系。
在该技术方案中,通过距离靠近原则和二分法最优匹配法,实现对正文插图复合图和图注图元的关联识别,有利于得到更为合理、准确的逻辑关系,以便基于该逻辑关系实现版式文档的流式重排。
在上述技术方案中,优选地,所述步骤204包括:读取预设的所述图注图元的排版特征信息;根据读取的所述排版特征信息,在解析出的所述文字图元中进行检索,以获取所述图注图元。
在该技术方案中,图注图元具有的排版特征信息,比如字体、以“图”等关键字起始、居中、字数限制、与其他文字之间的位置关系等,通过这些特征信息,既可以找到对应内容的图元,又可以避免将如正文中的“图1”作为图注图元(具体为图标题,或者也可以为解释性文字等),实现对图注图元的准确获取。
通过以上技术方案,可以对从版式文档中分割出来的复合图进行妥善的逻辑处理,从而便于实现对版式文档中图文混排版面的复合图进行版面理解,避免逻辑错误。
附图说明
图1示出了根据本发明的实施例的版式文档中复合图的逻辑处理装置的框图;
图2示出了根据本发明的实施例的版式文档中复合图的逻辑处理方法的流程图;
图3示出了根据本发明的实施例的对版式文档中的复合图进行逻辑处理的具体流程图;
图4A和图4B示出了根据本发明的一个实施例的对版式文档中的复合图进行逻辑处理的示意图;
图5A和图5B示出了根据本发明的另一个实施例的对版式文档中的复合图进行逻辑处理的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的版式文档中复合图的逻辑处理装置的框图。
如图1所示,根据本发明的实施例的版式文档中复合图的逻辑处理装置100,包括:复合图区块提取单元102,用于提取所述版式文档中的复合图区块;文档解析单元104,用于对所述版式文档进行解析,以获取其中包含的文字图元;图注图元提取单元106,用于从所述文字图元中提取出图注图元;关联检测单元108,用于检测所述复合图区块与所述图注图元之间的关联关系;关系存储单元110,用于存储检测到的所述关联关系。
在该技术方案中,复合图区块包括版式文档中的图片及图片中或周围的文字等,提取复合图区块是指将这些图片、文字等作为一个整体,将其与版式文档中的正文等部分分割开来,以便于在进行版式文档的流式重排时,能够对复合图进行恰当的排版处理。但由于文档的排版原因,图片与图注(比如位于图片下方,包括图标题或用于描述图片的一段文字等)的间隔较远,而为了能够准确地对复合图区块进行提取,会导致将图片与图注分离开,其中,图片被分割至复合图区块中,而图注被保留在版式文档的其他部分中,则虽然在物理结构上实现了分割,但从逻辑结构上却存在问题。因此,该方案通过将复合图区块与图注图元之间建立关联关系,从而在逻辑结构上完成在复合图区块与图注图元之间的关系建立,使得对于版式文档中的复合图的分割过程更准确、合理。
在上述技术方案中,优选地,还包括:信息获取单元112,用于获取所述复合图区块的特征属性信息;元素分类单元114,用于根据所述特征属性信息,对所述复合图区块中包含的元素进行分类;复合图处理单元116,用于根据分类结果,保留所述复合图区块中的正文插图复合图,并过滤其他元素,以供所述关联检测单元108检测所述正文插图复合图与所述图注图元之间的关联关系。
在该技术方案中,复合图区块中包含有正文插图复合图和其他的元素,比如图形商标、公式、分栏线、页眉、页脚、装饰性复合图等等,这些元素可能导致在对复合图区域对应的范围进行确定时,对真正的正文插图复合图对应的范围造成影响。比如正文插图复合图对应的范围是以其最小外接矩形框确定的,而如果不对其他元素进行过滤,可能导致该矩形框比实际范围大,从而可能使得不是图注图元的内容被误认为是图注图元,造成逻辑错误。
在上述技术方案中,优选地,还包括:标签添加单元118,用于为所述复合图区块中的每种元素添加对应的逻辑标签,以标定其所属分类;以及所述关系存储单元110还用于:存储所述逻辑标签和/或所述逻辑标签对应的图元的标识。
在该技术方案中,通过对每种元素添加逻辑标签,便于对各种元素对应的逻辑关系进行查看和管理,从而实现对版式文档进行流式转换后,得到更好的显示效果。
在上述技术方案中,优选地,所述关联检测单元108包括:数量判断子单元1082,用于判断所述复合图区块中包含的正文插图复合图的数量;距离分析子单元1084,用于在所述复合图区块中仅包含一个正文插图复合图的情况下,选取与该正文插图复合图的距离小于预设距离的图注图元,以作为与该正文插图复合图相关联的图注图元;二分图分析子单元1086,用于在所述复合图区块中包含多个正文插图复合图的情况下,将所述多个正文插图复合图和解析出的所有图注图元分别作为二分图的顶点,以利用所述二分图判断所述多个正文插图复合图与所述图注图元之间的关联关系。
在该技术方案中,通过距离靠近原则和二分法最优匹配法,实现对正文插图复合图和图注图元的关联识别,有利于得到更为合理、准确的逻辑关系,以便基于该逻辑关系实现版式文档的流式重排。
在上述技术方案中,优选地,所述图注图元提取单元106包括:信息读取子单元1062,用于读取预设的所述图注图元的排版特征信息;图元检索子单元1064,用于根据读取的所述排版特征信息,在所述文档解析单元104解析出的所述文字图元中进行检索,以获取所述图注图元。
在该技术方案中,图注图元具有的排版特征信息,比如字体、以“图”等关键字起始、居中、字数限制、与其他文字之间的位置关系等,通过这些特征信息,既可以找到对应内容的图元,又可以避免将如正文中的“图1”作为图注图元(具体为图标题,或者也可以为解释性文字等),实现对图注图元的准确获取。
图2示出了根据本发明的实施例的版式文档中复合图的逻辑处理方法的流程图。
如图2所示,根据本发明的实施例的版式文档中复合图的逻辑处理方法,包括:步骤202,提取所述版式文档中的复合图区块;步骤204,在从所述版式文档解析出的文字图元中,提取出图注图元;步骤206,检测所述复合图区块与所述图注图元之间的关联关系;步骤208,存储检测到的所述关联关系。
在该技术方案中,复合图区块包括版式文档中的图片及图片中或周围的文字等,提取复合图区块是指将这些图片、文字等作为一个整体,将其与版式文档中的正文等部分分割开来,以便于在进行版式文档的流式重排时,能够对复合图进行恰当的排版处理。但由于文档的排版原因,图片与图注(比如位于图片下方,包括图标题或用于描述图片的一段文字等)的间隔较远,而为了能够准确地对复合图区块进行提取,会导致将图片与图注分离开,其中,图片被分割至复合图区块中,而图注被保留在版式文档的其他部分中,则虽然在物理结构上实现了分割,但从逻辑结构上却存在问题。因此,该方案通过将复合图区块与图注图元之间建立关联关系,从而在逻辑结构上完成在复合图区块与图注图元之间的关系建立,使得对于版式文档中的复合图的分割过程更准确、合理。
在上述技术方案中,优选地,所述步骤206之前,还包括:获取所述复合图区块的特征属性信息,以对所述复合图区块中包含的元素进行分类;根据分类结果,保留所述复合图区块中的正文插图复合图,并过滤其他元素,以供在所述步骤206中,检测所述正文插图复合图与所述图注图元之间的关联关系。
在该技术方案中,复合图区块中包含有正文插图复合图和其他的元素,比如图形商标、公式、分栏线、页眉、页脚、装饰性复合图等等,这些元素可能导致在对复合图区域对应的范围进行确定时,对真正的正文插图复合图对应的范围造成影响。比如正文插图复合图对应的范围是以其最小外接矩形框确定的,而如果不对其他元素进行过滤,可能导致该矩形框比实际范围大,从而可能使得不是图注图元的内容被误认为是图注图元,造成逻辑错误。
在上述技术方案中,优选地,还包括:为所述复合图区块中的每种元素添加对应的逻辑标签,以标定其所属分类;以及所述步骤208还包括:存储所述逻辑标签和/或所述逻辑标签对应的图元的标识。
在该技术方案中,通过对每种元素添加逻辑标签,便于对各种元素对应的逻辑关系进行查看和管理,从而实现对版式文档进行流式转换后,得到更好的显示效果。
在上述技术方案中,优选地,所述步骤206包括:若所述复合图区块中仅包含一个正文插图复合图,则选取与该正文插图复合图的距离小于预设距离的图注图元,以作为与该正文插图复合图相关联的图注图元;若所述复合图区块中包含多个正文插图复合图,则将所述多个正文插图复合图和解析出的所有图注图元分别作为二分图的顶点,以利用所述二分图判断所述多个正文插图复合图与所述图注图元之间的关联关系。
在该技术方案中,通过距离靠近原则和二分法最优匹配法,实现对正文插图复合图和图注图元的关联识别,有利于得到更为合理、准确的逻辑关系,以便基于该逻辑关系实现版式文档的流式重排。
在上述技术方案中,优选地,所述步骤204包括:读取预设的所述图注图元的排版特征信息;根据读取的所述排版特征信息,在解析出的所述文字图元中进行检索,以获取所述图注图元。
在该技术方案中,图注图元具有的排版特征信息,比如字体、以“图”等关键字起始、居中、字数限制、与其他文字之间的位置关系等,通过这些特征信息,既可以找到对应内容的图元,又可以避免将如正文中的“图1”作为图注图元(具体为图标题,或者也可以为解释性文字等),实现对图注图元的准确获取。
图3示出了根据本发明的实施例的对版式文档中的复合图进行逻辑处理的具体流程图。
如图3所示,根据本发明的实施例的对版式文档中的复合图进行逻辑处理的具体流程包括:
步骤302,对版式文档中的复合图进行分割,具体地,分割出来的复合图中可能包含有插图复合图,还可能包含装饰性复合图、分栏线等其他的元素。
在完成分割后,可以将分割出来的复合图中所有图元的ID进行存储,比如存储在XML文件中,以便在对该复合图进行调用或处理时,根据存储的图元ID查找到该复合图。
实际上,上述对复合图的分割过程,仅是从物理结构上,将对应于复合图的区块从版式文档中分割出来,但并不包含对其逻辑结构上的分析,因此,在正常的版式文档结构下进行分割时,往往是根据图像与文字间的距离等物理特性进行关联的,从而会导致分割出来的复合图中不包含图注。
在下面的步骤中,将会完成复合图与“遗留”在版式文档中的图注进行准确地关联等,从而实现对复合图的逻辑处理。
步骤304至步骤308是对复合图的处理:
步骤304,获取复合图的特征属性信息。具体地,涉及提取复合图在页面空间的布局、样式信息和内容图像的纹理等特征,具体的主要特征如表1所示:
1 Height 复合图的高度
2 Length 复合图的宽度
3 Area 复合图的面积
4 Eccentricity 复合图的离心率
5 BlkPix 黑色像素在复合图中所占百分比
6 Std 复合图各像素灰度值的标准方差
7 Entropy 图像熵度量图像信息量
8 Contrast 惯性矩反映图像纹理清晰程度
9 Correlation 相关性衡量某一方向的纹理相关性
10 Energy 角二阶矩度量灰度分布均匀性
11 Homogeneity 逆差矩反映图像局部均匀性
表1
同时,根据实际复合图纹理的特点,选取距离和方向,计算出灰度共生矩阵及特征系数,将特征系数组成纹理特征矢量,作为统计分类器的输入。
步骤306,对复合图中包含的元素进行分类。具体地,可以使用SVM(SupportVector Machine,支持向量机)为分类器,选择RBF(Radial Basis Function,径向基核函数),对分割出来的复合图中包含的插图复合图、图形商标、公式、分栏线、页眉、页脚、装饰性复合图等等各种元素进行分类,根据分类结果对每个元素进行标定,以得到其在版面中的逻辑标签。
步骤308,过滤干扰元素,保留插图复合图。具体地,是指过滤图形商标、公式、分栏线、页眉、页脚、装饰性复合图对象,这些复合图的大量存在,影响正文中的插图复合图和图注的关联。
步骤310和步骤312是对文字图元的处理:
步骤310,对版式文档进行解析,得到解析出来的文字图元。
步骤312,提取文字图元中的图注图元。具体地,可以根据图注图元的文字特征属性,将其与正文文字等区别开来,比如以图标题为例,其字体小于正文主要字体,以关键字起始,如“图/Figure/Fig”、“图/Figure/Fig1”、“图/Figure/Fig1-1”等等,可用正则表达式来表示。
同时,所提取的图标题也可能是该图在正文中的引用,可以根据图注文本的排版特点,比如居中设置、每段的字数限制等等,从而过滤待选图标题在正文中的引用。
步骤314,判断当前复合图区块中的插图复合图的数量,若为单个,则进入步骤316,否则进入步骤318。
步骤316,根据距离选择与插图复合图相关联的图注图元。具体地,以图标题为例,当页面含有单个插图复合图和单个(或多个)图标题时,即1对1(或1对多)的模式,采用距离靠近原则,选取距离插图复合图最近的图标题为其标题。
步骤318,利用二分图的方法选择与插图复合图相关联的图注图元。具体地,当页面上含有多个插图复合图和多个图标题时,不能单靠图标题的距离和样式,采用二分图的方法,将插图复合图和图标题分别表示为二分图的顶点,根据图标题和插图复合图的距离定义顶点间的关联权值,然后通过查找二分图的最大权匹配,寻找最可能的插图复合图和图标题的关联方案,取得全局上的关联匹配最优。
步骤320,保存插图复合图和图标题的关联关系。此外,还可以保存步骤306中的分类结果得到复合图中的各个元素在版面中的逻辑标签,以及每个逻辑类别所对应的元素的图元ID集合。具体地,可以存储为XML的形式。
下面将列举多个实施例,分别具体地对本发明的技术方案进行详细说明。
图4A和图4B示出了根据本发明的一个实施例的对版式文档中的复合图进行逻辑处理的示意图。
如图所示,以中文版式文档图书“台灣古厝圖鑑”中的一张双栏页面为例,经过对该图的分割处理,从中提取出复合图区块包括插图复合图402A、分栏线复合图402B和装饰性复合图402C。可以将复合图区块中的所有图元ID存储在XML文件中,以便于对该复合图区块的处理。下面将按照图3给出的流程对页面中的复合图对象进行逻辑处理。
首先,通过解析引擎获取版式文档的各种图元后,对文档进行版面分析,将版面分析中复合图区块的分割结果从XML文件中读取,包括读入其外接矩形框和组合该复合图的图元ID集合。具体地,将外接矩形框绘制在页面图的效果如图4A所示。
然后提取页面内所有复合图的布局、样式信息和内容图像的纹理等特征属性信息,具体地,主要的特征属性信息如表1所示。将特征属性信息作为已经训练好的统计分类器SVM的输入,对该页面内的5个复合图进行分类,并根据分类结果进行逻辑标签的标定。具体地,分类结果如图4B所示,该页面包含三类复合图逻辑标签,其中,正文中2个插图复合图402A、2个分栏线复合图402B和左边页边的1个装饰性复合图402C。正文页面下方的插图复合图402A和页面左边的装饰性复合图402C,包括文字图元和大量的路径操作,不仅分割难度大,且识别率低,但采用本发明的方法,该页面的复合图皆被准确的标注了逻辑类别标签。逻辑标定结果可直接用于版式文档的流式重排应用。
在上述实施例中,主要描述了对于版式文档中分割出来的复合图的逻辑标签进行标定的过程,下面通过另一个实施例来说明将复合图与图注进行关联的方案。
图5A和图5B示出了根据本发明的另一个实施例的对版式文档中的复合图进行逻辑处理的示意图。
如图所示,以英文版式文档论文“TOASTER and KROONDE:High-Resolution andHigh-Speed Real-time Sensor Interfaces”中的一张双栏页面为例经过对该图的分割处理,从中提取出复合图区块包括插图复合图502A1、插图复合图502A2、插图复合图502A3、插图复合图502A4和分栏线复合图502B。可以将复合图区块中的所有图元ID存储在XML文件中,以便于对该复合图区块的处理。下面将按照图3给出的流程对页面中的复合图对象进行逻辑处理。
首先,通过解析引擎获取版式文档的各种图元后,对文档进行版面分析,将版面分析中复合图区块的分割结果从XML文件中读取,包括读入其外接矩形框和组合该复合图的图元ID集合。具体地,将外接矩形框绘制在页面图的效果如图5A所示。
然后,对复合图区块进行处理。具体地,对复合图区块包含的所有元素进行类别分析,并根据分析结果保留插图复合图,而将页面内图形商标、公式、分栏线、页眉、页脚、装饰性复合图过滤,这些复合图的存在,影响正文中的插图复合图和图标题及图注的关联和识别。
同时,还包括对图注信息的获取,这里以图标题的获取为例。从解析后的版式文档文字元素中,可以根据图标题的文字特征属性(如在该页面中以关键字Figure起始)和排版特征属性(如居中设置),提取关于图标题的信息,并且过滤待选图标题在正文中的引用。具体地,分析得到如图所示的图标题504A、图标题504B、图标题504C等。
最后,对插图复合图和图标题进行关联设置。具体地,由于该页面中包含多个插图复合图,因而采用二分图的方法,将插图复合图和图标题分别表示为二分图的顶点,根据图标题和图的距离定义顶点间的关联权值,查找二分图的最大权匹配,寻找最可能的图表和其标题的关联。该页面的输入有6个复合图,如图5B所示,页面右下方的分栏线复合图被过滤,左栏的中间的2个插图复合图合并后,页面的4个插图复合图和4个图标题得到关联。该结果可直接用于版式文档的流式重排应用。
以上结合附图详细说明了本发明的技术方案,本发明通过对版式文档(如PDF文档)内嵌的元数据信息进行解析和分析,在分割页面所包含的复合图后,对页面内所有的复合图,提取其页面空间的布局、样式信息和内容图像的纹理等特征,作为SVM分类器的输入,依据分类的类型对复合图进行逻辑标注。同时,从解析后的版式文档文字元素中,提取待选图标题,采用距离靠近原则和二分法最优匹配法对插图复合图和其图标题进行关联识别。保证版式文档中的图像转化为流式文档后,图注能和图像保持同步即保持相连,从而最终实现版式固定文档按阅读顺序重排成连贯的流式文档。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种版式文档中复合图的逻辑处理装置,其特征在于,包括:
复合图区块提取单元,用于提取所述版式文档中的复合图区块;
文档解析单元,用于对所述版式文档进行解析,以获取其中包含的文字图元;
图注图元提取单元,用于从所述文字图元中提取出图注图元;
关联检测单元,用于检测所述复合图区块与所述图注图元之间的关联关系;
关系存储单元,用于存储检测到的所述关联关系;
信息获取单元,用于获取所述复合图区块的特征属性信息;
元素分类单元,用于根据所述特征属性信息,对所述复合图区块中包含的元素进行分类;
复合图处理单元,用于根据分类结果,保留所述复合图区块中的正文插图复合图,并过滤其他元素,以供所述关联检测单元检测所述正文插图复合图与所述图注图元之间的关联关系;
所述关联检测单元包括:
数量判断子单元,用于判断所述复合图区块中包含的正文插图复合图的数量;
距离分析子单元,用于在所述复合图区块中仅包含一个正文插图复合图的情况下,选取与该正文插图复合图的距离小于预设距离的图注图元,以作为与该正文插图复合图相关联的图注图元;
二分图分析子单元,用于在所述复合图区块中包含多个正文插图复合图的情况下,将所述多个正文插图复合图和解析出的所有图注图元分别作为二分图的顶点,以利用所述二分图判断所述多个正文插图复合图与所述图注图元之间的关联关系。
2.根据权利要求1所述的版式文档中复合图的逻辑处理装置,其特征在于,还包括:
标签添加单元,用于为所述复合图区块中的每种元素添加对应的逻辑标签,以标定其所属分类;以及
所述关系存储单元还用于:存储所述逻辑标签和/或所述逻辑标签对应的图元的标识。
3.根据权利要求1或2所述的版式文档中复合图的逻辑处理装置,其特征在于,所述图注图元提取单元包括:
信息读取子单元,用于读取预设的所述图注图元的排版特征信息;
图元检索子单元,用于根据读取的所述排版特征信息,在所述文档解析单元解析出的所述文字图元中进行检索,以获取所述图注图元。
4.一种版式文档中复合图的逻辑处理方法,其特征在于,包括:
步骤202,提取所述版式文档中的复合图区块;
步骤204,在从所述版式文档解析出的文字图元中,提取出图注图元;
步骤206,检测所述复合图区块与所述图注图元之间的关联关系;
步骤208,存储检测到的所述关联关系;
所述步骤206之前,还包括:
获取所述复合图区块的特征属性信息,以对所述复合图区块中包含的元素进行分类;
根据分类结果,保留所述复合图区块中的正文插图复合图,并过滤其他元素,以供在所述步骤206中,检测所述正文插图复合图与所述图注图元之间的关联关系;
所述步骤206包括:
若所述复合图区块中仅包含一个正文插图复合图,则选取与该正文插图复合图的距离小于预设距离的图注图元,以作为与该正文插图复合图相关联的图注图元;
若所述复合图区块中包含多个正文插图复合图,则将所述多个正文插图复合图和解析出的所有图注图元分别作为二分图的顶点,以利用所述二分图判断所述多个正文插图复合图与所述图注图元之间的关联关系。
5.根据权利要求4所述的版式文档中复合图的逻辑处理方法,其特征在于,还包括:
为所述复合图区块中的每种元素添加对应的逻辑标签,以标定其所属分类;以及
所述步骤208还包括:存储所述逻辑标签和/或所述逻辑标签对应的图元的标识。
6.根据权利要求4或5所述的版式文档中复合图的逻辑处理方法,其特征在于,所述步骤204包括:
读取预设的所述图注图元的排版特征信息;
根据读取的所述排版特征信息,在解析出的所述文字图元中进行检索,以获取所述图注图元。
CN201310172879.3A 2013-05-10 2013-05-10 版式文档中复合图的逻辑处理装置和逻辑处理方法 Expired - Fee Related CN104142961B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310172879.3A CN104142961B (zh) 2013-05-10 2013-05-10 版式文档中复合图的逻辑处理装置和逻辑处理方法
US14/095,682 US9569407B2 (en) 2013-05-10 2013-12-03 Apparatus and a method for logically processing a composite graph in a formatted document
US14/104,245 US9727536B2 (en) 2013-05-10 2013-12-12 Logic processing apparatus and logic processing method for composite graphs in fixed layout document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310172879.3A CN104142961B (zh) 2013-05-10 2013-05-10 版式文档中复合图的逻辑处理装置和逻辑处理方法

Publications (2)

Publication Number Publication Date
CN104142961A CN104142961A (zh) 2014-11-12
CN104142961B true CN104142961B (zh) 2017-08-25

Family

ID=51852135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310172879.3A Expired - Fee Related CN104142961B (zh) 2013-05-10 2013-05-10 版式文档中复合图的逻辑处理装置和逻辑处理方法

Country Status (2)

Country Link
US (2) US9569407B2 (zh)
CN (1) CN104142961B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9740995B2 (en) * 2013-10-28 2017-08-22 Morningstar, Inc. Coordinate-based document processing and data entry system and method
CN107153633A (zh) * 2016-03-02 2017-09-12 北大方正集团有限公司 在线文档文件的切分方法和在线文档文件的切分***
CN106780585B (zh) * 2016-11-28 2019-07-23 自然资源部第二海洋研究所 基于图像旋转的任意灰度共生矩阵的计算方法及应用
CN106780584B (zh) * 2016-11-28 2019-07-02 自然资源部第二海洋研究所 基于灰度共生矩阵的纹理方向精细估算方法
CN106934383B (zh) * 2017-03-23 2018-11-30 掌阅科技股份有限公司 文件中图片标注信息识别方法、装置及服务器
US20180330156A1 (en) * 2017-05-11 2018-11-15 Microsoft Technology Licensing, Llc Detection of caption elements in documents
US20190005038A1 (en) * 2017-06-30 2019-01-03 Xerox Corporation Method and apparatus for grouping documents based on high-level features clustering
CN108182171B (zh) * 2017-11-30 2021-07-27 万兴科技股份有限公司 Pdf文件内的路径处理方法及装置
CN109885818B (zh) * 2019-01-31 2020-11-27 中国地质大学(武汉) 一种PowerPoint演示文稿向Beamer演示文稿转换方法及***
CN109902282B (zh) * 2019-02-20 2023-05-09 腾讯音乐娱乐科技(深圳)有限公司 一种文字排版方法、装置和存储介质
CN109978869A (zh) * 2019-03-29 2019-07-05 清华大学 一种基于灰度共生矩阵和Hough变换的海天线检测方法与***
US11176310B2 (en) * 2019-04-01 2021-11-16 Adobe Inc. Facilitating dynamic document layout by determining reading order using document content stream cues
CN111079402B (zh) * 2019-12-31 2021-10-26 北大方正集团有限公司 文档层级划分方法、文档层级划分装置和可读存储介质
US11886814B2 (en) 2020-01-24 2024-01-30 Thomson Reuters Enterprise Centre Gmbh Systems and methods for deviation detection, information extraction and obligation deviation detection
US11263388B2 (en) * 2020-02-17 2022-03-01 Wipro Limited Method and system for dynamically generating summarised content for visual and contextual text data
CN113569528B (zh) * 2021-07-19 2024-06-14 杭州度康科技有限公司 一种自动版面文档标注生成方法
US11830267B2 (en) * 2021-08-27 2023-11-28 Optum, Inc. Techniques for digital document analysis using document image fingerprinting
CN116110051B (zh) * 2023-04-13 2023-07-14 合肥机数量子科技有限公司 一种文件信息处理方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308488A (zh) * 2008-06-05 2008-11-19 北大方正集团有限公司 基于版式文件的文档流式信息处理方法及装置
CN102262618A (zh) * 2010-05-28 2011-11-30 北京大学 一种版面信息识别的方法及装置
CN102541961A (zh) * 2010-12-31 2012-07-04 北大方正集团有限公司 一种数字作品关联呈现的方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3489119B2 (ja) * 1991-08-09 2004-01-19 富士ゼロックス株式会社 文書処理装置
EP1272912A2 (en) * 2000-02-25 2003-01-08 Synquiry Technologies, Ltd Conceptual factoring and unification of graphs representing semantic models
WO2007100834A2 (en) * 2006-02-27 2007-09-07 The Regents Of The University Of California Graph querying, graph motif mining and the discovery of clusters
US7895148B2 (en) * 2007-04-30 2011-02-22 Microsoft Corporation Classifying functions of web blocks based on linguistic features
US8443278B2 (en) * 2009-01-02 2013-05-14 Apple Inc. Identification of tables in an unstructured document
US8260062B2 (en) * 2009-05-07 2012-09-04 Fuji Xerox Co., Ltd. System and method for identifying document genres
US8503767B2 (en) * 2009-09-16 2013-08-06 Microsoft Corporation Textual attribute-based image categorization and search
US9035949B1 (en) * 2009-12-21 2015-05-19 Lucasfilm Entertainment Company Ltd. Visually representing a composite graph of image functions
US8407217B1 (en) * 2010-01-29 2013-03-26 Guangsheng Zhang Automated topic discovery in documents
US20130205202A1 (en) * 2010-10-26 2013-08-08 Jun Xiao Transformation of a Document into Interactive Media Content
US9098798B2 (en) * 2011-05-26 2015-08-04 Massachusetts Institute Of Technology Methods and apparatus for prediction and modification of behavior in networks
US9971790B2 (en) * 2013-03-15 2018-05-15 Google Llc Generating descriptive text for images in documents using seed descriptors

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308488A (zh) * 2008-06-05 2008-11-19 北大方正集团有限公司 基于版式文件的文档流式信息处理方法及装置
CN102262618A (zh) * 2010-05-28 2011-11-30 北京大学 一种版面信息识别的方法及装置
CN102541961A (zh) * 2010-12-31 2012-07-04 北大方正集团有限公司 一种数字作品关联呈现的方法及装置

Also Published As

Publication number Publication date
US9727536B2 (en) 2017-08-08
CN104142961A (zh) 2014-11-12
US9569407B2 (en) 2017-02-14
US20140337719A1 (en) 2014-11-13
US20140337717A1 (en) 2014-11-13

Similar Documents

Publication Publication Date Title
CN104142961B (zh) 版式文档中复合图的逻辑处理装置和逻辑处理方法
US10963632B2 (en) Method, apparatus, device for table extraction based on a richly formatted document and medium
Li et al. Object bank: An object-level image representation for high-level visual recognition
Huang et al. Road centreline extraction from high‐resolution imagery based on multiscale structural features and support vector machines
CN106709032B (zh) 抽取电子表格文档中结构化信息的方法及装置
Zhao et al. A 2-D wavelet decomposition-based bag-of-visual-words model for land-use scene classification
Sanoja et al. Block-o-matic: A web page segmentation framework
CN102194123B (zh) 表格模板定义方法和装置
US20150095769A1 (en) Layout Analysis Method And System
CN103324650A (zh) 一种图像检索方法及***
CN105809205B (zh) 一种高光谱图像的分类方法及其***
Bylinskii et al. Understanding infographics through textual and visual tag prediction
WO2006075902A1 (en) Method and apparatus for category-based clustering using photographic region templates of digital photo
CN105027162A (zh) 图像解析装置、图像解析***、图像解析方法
CN108734210A (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN109710771B (zh) 表格信息提取方法、装置和存储介质
CN102298606A (zh) 基于标签图模型随机游走的图像自动标注方法及装置
CN109272440B (zh) 一种联合文本和图像内容的缩略图生成方法及***
Nurminen Algorithmic extraction of data in tables in PDF documents
CN103810274A (zh) 基于WordNet语义相似度的多特征图像标签排序方法
CN103258217A (zh) 一种基于增量学习的行人检测方法
CN107967480A (zh) 一种基于标签语义的显著对象提取方法
EP2442238A1 (en) Processing a reusable graphic in a document
Klampfl et al. A comparison of two unsupervised table recognition methods from digital scientific articles
Ma et al. Active learning for object-based image classification using predefined training objects

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220629

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Patentee after: Peking University

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

Patentee before: Peking University

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170825

CF01 Termination of patent right due to non-payment of annual fee