CN101271463A - 版式文件逻辑结构信息的表示方法和*** - Google Patents

版式文件逻辑结构信息的表示方法和*** Download PDF

Info

Publication number
CN101271463A
CN101271463A CNA2007101233386A CN200710123338A CN101271463A CN 101271463 A CN101271463 A CN 101271463A CN A2007101233386 A CNA2007101233386 A CN A2007101233386A CN 200710123338 A CN200710123338 A CN 200710123338A CN 101271463 A CN101271463 A CN 101271463A
Authority
CN
China
Prior art keywords
content
logical structure
structure information
document
description document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101233386A
Other languages
English (en)
Other versions
CN101271463B (zh
Inventor
曲径
何震生
王毅
张力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Founder Apabi Technology Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University
Priority to CN200710123338.6A priority Critical patent/CN101271463B/zh
Priority to PCT/CN2008/000910 priority patent/WO2009000141A1/zh
Publication of CN101271463A publication Critical patent/CN101271463A/zh
Application granted granted Critical
Publication of CN101271463B publication Critical patent/CN101271463B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种版式文件逻辑结构信息的表示方法和***,涉及计算机信息处理技术中版式文件的信息表示方法和***。为解决现有版式文件的逻辑结构信息表示方法不灵活,不便于添加和修改的问题而发明。本发明通过获取版式文件的逻辑结构信息和内容参考序列;根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件;根据所述逻辑结构信息生成逻辑单元描述文件;将所述内容划分描述文件与逻辑单元描述文件进行关联。可以有效、灵活地表示版式文件的逻辑结构信息,不需要对原有版式文件进行修改,且版式文件中的任意内容都能够单独进行逻辑结构信息描述、提取以及在不同文档逻辑结构模型中重复使用。

Description

版式文件逻辑结构信息的表示方法和***
技术领域
本发明涉及计算机电子文档的结构信息的表示方法和***,特别涉及版式文件的结构信息的表示方法和***。
背景技术
版式文件技术是将各种格式的文件原版原式的转换成统一格式,在转换中真实地保持了原有文件中的文字、图表、公式和色彩等版式和信息,实现在不同终端设备和阅读软件上具有显示结果一致性。版式文件采用的是一种绝对描述方式,在自定义的坐标系中,明确记录了每个图元(如字符、图片、表格等)显示的位置和尺寸等,从而使文档打印出的结果和计算机上浏览的结果一致,而且在任何计算机环境(如windows***或者PDA、智能手机等终端的操作***)下具有显示一致性,保证真实地重现文档的原貌。
目前的版式文件格式主要有Adobe公司推出的PDF(Portable DocumentFormat),微软公司推出的XPS(Xml Paper Specification)和北京方正阿帕比技术有限公司推出的CEB(Chinese e-Paper Basic),且其它格式的电子文件(如WPS、Microsoft Word等格式的文件)也可以方便地转换成版式文件。
由于版式文件的相对稳定性,非常适合作为电子文档的最终发布和传播形式,广泛用于电子公文、电子图书、电子期刊、电子报纸等领域,但由于版式文件对局部信息的绝对描述(绝对描述是指版式文件中文字的显示位置是相对于版式文件的坐标明确指定的,与文字的逻辑顺序无关),使得它不利于编辑,每次修改文档内容后需要对布局重新计算,重写整个文档的布局信息,因此对版式文件内容的检索,结构化存储、修改等编辑操作都会非常麻烦。同时目前客户端种类增多,例如PDA、智能手机等,用户要求在多种客户端都能够方便地阅读版式文件,这要求客户端能够突破版式文件显示固定的局限性,根据显示设备屏幕的大小对版式文件的内容重新进行排版,可以不用拖动水平或者竖直滚动条就能连续阅读文档内容。这些应用都需要版式文件中的文档逻辑结构信息,文档的逻辑结构信息是指:按照某种理解方式,文档各部分内容的逻辑含义,以及各部分之间的关系,如能够反映文档的标题、正文、段落、表格等文档内容的层次结构信息。
文档的逻辑结构信息包括文档的逻辑单元以及逻辑单元之间的层次关系,其中,每个文档逻辑单元对应文档的某一部分内容,逻辑单元是人类能够理解的抽象概念,逻辑单元之间的关系代表了这些概念的一个合乎逻辑的组合,如图1所示,一篇文章的逻辑单元可能有标题、作者、摘要、正文等,这些逻辑逻辑单元组成一个树状结构,而这些逻辑单元都对应到一个或者多个文字块。
目前大量的版式文件中都不包含这类逻辑结构信息。但Adobe公司的TaggedPDF技术对版式文件中文档逻辑结构信息进行了表示,其采用在版式文件的内容描述指令流中加入特殊符号的方法来划分逻辑单元,如图2所示,在内容数据流中加入Tag标记符号,用Tag...和End Tag来表示一个逻辑单元。这种方式在实际应用中存在种种缺陷:首先修改,添加,删除文档逻辑结构信息都要求对版式文件的内容指令流进行修改,这一修改过程复杂并且容易出错。其次对指令流划分的粒度(一个粒度可以认为是一个逻辑单元)有限,最小粒度是某一输出指令中的全部内容,可能出现对某一内容片段无法再进行进一步划分的情况。
针对目前大量的不包含文档逻辑结构信息的版式文件,应用中却要求向这些版式文件添加文档逻辑结构信息,以及包含文档逻辑结构信息的版式文件对逻辑结构信息处理不灵活、不便于添加和修改版式文件,不能满足用户需求的问题,设计一种版式文件中文档逻辑结构信息的表示方法对于版式文件的实际应用具有重要价值。
发明内容
本发明提供一种版式文件逻辑结构信息的表示方法和***,该方法和***无需对原有版式文件进行修改,可以对版式文件中任意内容进行逻辑结构描述,使逻辑结构信息表示灵活、满足用户需求。
本发明的技术方案如下:
一种版式文件逻辑结构信息的表示方法,包括如下步骤:
获取版式文件的逻辑结构信息和内容参考序列;
根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件;
根据所述逻辑结构信息生成逻辑单元描述文件;
将所述内容划分描述文件与逻辑单元描述文件进行关联。
其中,所述获取版式文件的逻辑结构信息的步骤包括:
利用计算机应用程序对版式文件进行标注或者基于文档分析和文档理解处理***获取版式文件的逻辑结构信息。
上述获取版式文件的内容参考序列的步骤包括:
读取版式文件内容,按照版式文件内容中的图元在内容数据流中出现的先后顺序或者是文档树的遍历顺序,生成内容参考序列。
上述将内容参考序列划分为多个内容参考子序列的步骤包括:
按照版式文件内容中的图元在所述内容参考序列的偏移位置或者内容参考序列中的图元符号,将所述内容参考序列划分为多个内容参考子序列。
且可以为所述多个内容参考子序列分别赋予一个编号。
上述将内容划分描述文件与逻辑单元描述文件进行关联的步骤包括:
通过内容参考子序列的编号将内容划分描述文件与逻辑单元描述文件进行关联。
上述内容划分描述文件或者逻辑单元描述文件为存储设备上一个独立的文件或者版式文件中的一个数据块。
上述内容划分描述文件或者逻辑单元描述文件采用结构化标记语言来描述。
本发明还提供一种版式文件逻辑结构信息的表示***,包括:
逻辑结构信息获取***,用于获取版式文件的逻辑结构信息;
逻辑结构描述生成模块,用于获取内容参考序列,并根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,生成内容划分描述文件和逻辑单元描述文件;
逻辑结构描述解析模块,用于对所述内容划分描述文件和所述逻辑单元描述文件进行解析和关联。
其中,上述逻辑结构描述生成模块包括:
内容参考序列生成模块,用于读取版式文件内容,生成内容参考序列;
内容划分描述生成模块,用于根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件;
逻辑单元描述生成模块,根据所述逻辑结构信息生成逻辑单元描述文件。
上述逻辑结构描述生成模块还包括:存储设备,用于存储所述内容参考序列生成模块生成的内容参考序列,或者所述内容划分描述生成模块划分的多个内容参考子序列。
上述逻辑结构描述解析模块在内容参考序列、内容参考子序列没有保存到上述存储设备中时,还需包括:
内容参考序列生成模块,用于读取版式文件内容,生成内容参考序列;
内容划分描述解析模块,用于将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件。
上述逻辑结构描述解析模块还包括:
逻辑单元描述解析模块,用于读取并解析所述逻辑单元描述文件中的数据;
映射模块,用于将所述内容划分描述文件与所述逻辑单元描述文件进行关联。
上述技术方案通过将版式文件的内容参考序列划分为多个内容参考子序列,生成相应的内容划分描述文件,并且生成逻辑单元描述文件,然后将所述内容划分描述文件与逻辑单元描述文件关联起来,使得逻辑结构信息与版式文件相互分离,可以对版式文件中的任意内容单独进行逻辑结构描述、提取,并可以根据不同的文档逻辑结构模型进行描述,描述范围更加准确,逻辑结构信息的表示更加灵活,同时还可以对同一个版式文件添加多个文档逻辑结构信息描述,在添加或修改文档逻辑结构信息时,不需要对版式文件的内容描述进行修改,减小了出错的可能,且版式文件逻辑结构信息的这种灵活表示方式可以对已经存在的大量的版式文件进行描述,而不影响已有的***,提高了兼容性。
附图说明
图1为现有的版式文件中逻辑结构信息表示结构示意图;
图2为现有的Adobe公司的Tagged PDF技术对版式文件中文档逻辑结构信息的表示结构示意图;
图3为本发明的版式文件逻辑结构信息的表示方法示意图;
图4为本发明的版式文件逻辑结构信息与版式文件的关系示意图;
图5为本发明的版式文件与其内容参考序列示意图;
图6为图5所示的内容参考序列的偏移位置结构示意图;
图7为根据图5所示的版式文件文档内容的内容划分描述文件;
图8为根据图5所示的版式文件文档内容的另一内容划分描述文件;
图9为根据图6、图7或图8所示版式文件的一种逻辑单元描述文件;
图10为根据图6、图7或图8所示版式文件的另一逻辑单元描述文件;
图11为根据图6、图7或图8所示版式文件的又一逻辑单元描述文件;
图12为本发明的版式文件逻辑结构信息表示***总体结构示意图;
图13为图12中所示的逻辑结构描述生成模块与逻辑结构信息获取***的具体应用示意图;
图14为图12中所示的逻辑结构描述解析模块结构示意图。
具体实施方式
下面结合具体实施例对本发明的技术方案进行描述:
如图3所示,版式文件逻辑结构信息的表示方法,包括如下步骤:
31、获取版式文件的逻辑结构信息和内容参考序列;
32、根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件;
33、根据所述逻辑结构信息生成逻辑单元描述文件;
34、将所述内容划分描述文件与逻辑单元描述文件进行关联。
上述实施例通过采用对版式文件的内容参考序列进行划分的方式,生成相应的内容划分描述文件,并且生成逻辑单元描述文件,然后将所述内容划分描述文件与逻辑单元描述文件关联起来,使得逻辑结构信息与版式文件相互分离,可以对版式文件中的任意内容单独进行逻辑结构描述、提取,并可以根据不同的文档逻辑结构模型进行描述,描述范围更加准确,逻辑结构信息的表示更加灵活,同时还可以对同一个版式文件添加多个文档逻辑结构信息描述,在添加或修改文档逻辑结构信息时,不需要对版式文件的内容描述进行修改,减小了出错的可能,且版式文件逻辑结构信息的这种灵活表示方式可以对已经存在的大量的版式文件进行描述,而不影响已有的***,提高了兼容性。
其中,在上述步骤31中,可以通过分析已经包含逻辑结构信息的电子文档,利用计算机应用程序对版式文件进行标注或者基于文档分析和文档理解处理***获取版式文件的逻辑结构信息。
如,对于与版式文件所对应的,已经包含逻辑结构信息的电子文档,如HTML,Microsoft Word,可以利用该文档的文档处理***,对其中的逻辑结构信息进行提取,如对Microsoft Word文档可以利用Office自动化对象来获得逻辑结构信息。另外,用户可以通过一个带有图形界面的计算机应用程序,对版式文件的逻辑单元进行标注。还可以通过基于文档分析和文档理解的处理***获取其逻辑结构信息。
上述步骤31中,可以首先读取版式文件内容,再按照版式文件内容中的图元(如字符、图片、表格等)在内容数据流中出现的先后顺序或者是文档树的遍历顺序生成内容参考序列。内容参考序列就是指版式文件中多个有序图元信息的集合。如图4所示的版式文件43,这一个CEB文件Sample.ceb,根据上述获取的逻辑结构信息,生成逻辑单元描述文41和内容划分描述文件42,本实施例中以XML语言来描述版式文件43中的逻辑单元以及各逻辑单元之间的关系,如Document_structure.xml;同样以XML语言来描述内容划分,如Piece.xml。这里的逻辑单元描述文件41和内容划分描述文件42也可以采用其它的结构化标记语言来描述,如采用SGML语言等。
上述步骤32中,可以按照版式文件内容中的图元在内容参考序列的偏移位置或者内容参考序列中的图元符号,将内容参考序列划分为多个内容参考子序列,并为所述多个内容参考子序列分别赋予一个编号。该编号可以保存在该内容划分描述文件中。
如图5、图6、图7、图8所示,一个显示如51的版式文件,其文档内容数据流描述为52所示,其中包含文本图元。图6是依照图5中的版式文件51逻辑结构的具体实施例。其中61是版式文件的内容参考序列,该内容参考序列是按照图元在内容描述52中出现的先后顺序来排列的。62表示了图元在内容参考序列中的偏移位置。71或者81是一个内容划分描述文件,该描述文件通过指定内容参考子序列在内容参考序列中的起始偏移位置以及子序列长度来划分。每个划分赋予了一个唯一编号PID,如图7所示,编号8对应“床前明月光,”子序列,编号9对应“疑是地上霜,举头望明月,”子序列。在实际应用中,图7和图8所示的两种内容划分描述文件可以同时存在。
图9、图10、图11中的91或者101或者111是采用XML语言的逻辑单元描述文件,逻辑单元可以通过内容参考子序列的PID来与内容参考子序列相关联。图9中的<line=“9”/>为一个逻辑单元,<line=“8”/>也为一个逻辑单元,从该图中还可以看出,按照逻辑单元描述文件91的前序遍历的顺序,对应的文档内容顺序将是图5中版式文件51的阅读顺序。尽管图5中所示的内容描述数据流52并没有按照阅读顺序来进行输出。
上述步骤33中逻辑单元描述文件包括:版式文件的逻辑单元以及各逻辑单元之间的关系。如图9、图10、图11所示。可以采用结构化描述语言来描述逻辑单元及其之间的关系,如采用XML、SGML语言,且逻辑单元之间的关系可以反映版式文件的阅读顺序。
上述步骤34中可以通过上述为内容参考子序列赋予的编号将内容划分描述文件与逻辑单元描述文件进行关联。具体的讲,可以按照内容参考子序列的编号将逻辑单元和其对应的内容参考子序列关联起来。如通过图9中的编号8对应图7中的偏移地址113,该偏移地址113对应图6中的内容参考子序列“床前明月光”,即通过编号8将逻辑单元<line=“8”/>与“床前明月光”内容参考子序列关联起来。
上述实施例中的内容划分描述文件或者逻辑单元描述文件可以为存储设备上一个独立的文件,这样使得逻辑结构信息与版式文件相互分离,逻辑结构信息的表示更加灵活。
当然,上述实施例中的内容划分描述文件或者逻辑单元描述文件也可以为版式文件中的一个数据块。
如图12所示,与上述版式文件逻辑结构信息的表示方法相应的,本发明还提供一种版式文件逻辑结构信息的表示***,包括:
逻辑结构信息获取***,用于获取版式文件的逻辑结构信息;
逻辑结构描述生成模块,用于从版式文件解析***中获取内容参考序列,并根据逻辑结构信息将其获取的内容参考序列划分为多个内容参考子序列,生成内容划分描述文件和逻辑单元描述文件;
逻辑结构描述解析模块,用于对所述内容划分描述文件和所述逻辑单元描述文件进行解析和关联。
如图13所示,上述图12中的逻辑结构描述生成模块包括:
内容参考序列生成模块,用于读取版式文件内容,按照指定顺序生成内容参考序列;指定顺序可以是版式文件内容中的图元在内容数据流中出现的先后顺序,也可以是文档树的遍历顺序。
内容划分描述生成模块,用于根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件;所述划分方式可以按照版式文件内容中的图元在内容参考序列的偏移位置或者内容参考序列中的图元符号,并为各个内容参考子序列赋予一个编号;该编号可以保存在该内容划分描述文件中。
逻辑单元描述生成模块,根据所述逻辑结构信息生成逻辑单元描述文件,这里的逻辑单元描述文件包括多个逻辑单元以及各逻辑单元之间的关系,可以采用结构化描述语言来描述逻辑单元及其之间的关系,如采用XML、SGML语言,且逻辑单元之间的关系可以反映版式文件的阅读顺序。
上述逻辑结构描述生成模块还可包括:存储设备,用于存储内容参考序列生成模块生成的内容参考序列,或者内容划分描述生成模块划分的多个内容参考子序列,或者逻辑单元描述生成模块生成的逻辑单元描述文件。上述内容参考序列、内容参考子序列,可以保存在该存储设备中,也可以不保存。
如图14所示,上述图12中的逻辑结构描述解析模块包括:
逻辑单元描述解析模块,用于读取并解析逻辑单元描述文件中的数据;
映射模块,用于将所述内容划分描述文件与所述逻辑单元描述文件进行关联。具体的讲,可以按照内容参考子序列的编号将逻辑单元和其对应的内容参考子序列关联起来。
当上述逻辑结构描述生成模块中的内容参考序列生成模块生成的内容参考序列,或者内容划分描述生成模块生成的多个内容参考子序列没有保存在存储设备中时,该逻辑结构描述解析模块还应当包括以下模块:
内容参考序列生成模块,用于读取版式文件内容,生成内容参考序列;
内容划分描述解析模块,用于根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件。
当上述逻辑结构描述生成模块中的内容参考序列,或者多个内容参考子序列,已经保存在上述存储设备中,则可以直接读取,不必再次生成。
在实际应用中,采用内容参考序列生成模块、内容划分描述解析模块,重新生成内容参考序列、内容划分描述文件的方式,相比于从存储器中读取大量的内容参考序列、内容划分描述文件数据的方式,运算速度快、效率高。
下面再结合图13、图14对本发明的版式文件的逻辑结构信息的处理***的工作过程进行描述:
如图13所示,逻辑结构描述生成模块的工作过程如下:
文档逻辑结构信息获取***获得版式文件的逻辑结构信息。对于与版式文件所对应的,已经包含逻辑结构信息的电子文档,例如HTML,Microsoft Word,可以利用该文档的文档处理***,对其中的逻辑结构信息进行提取,例如对MicrosoftWord文档可以利用Office自动化对象来获得逻辑结构信息。另外,用户可以通过一个带有图形界面的计算机应用程序,对版式文件的逻辑单元进行标注。还可以通过基于文档分析和文档理解的处理***获取其逻辑结构信息。
内容参考序列生成模块利用版式文件解析***将版式文件的内容根据一定的顺序排列为一个有序序列,得到版式文件的内容参考序列。
内容划分描述生成模块根据上述文档逻辑结构信息获取***中得到的文档逻辑结构信息对内容参考序列进行划分,输出内容划分描述文件。
逻辑单元描述生成模块根据上述文档逻辑结构信息获取***中得到的文档逻辑结构信息输出逻辑单元描述文件。
内容划分描述文件和逻辑单元描述文件可以嵌入到版式文件之中或者单独保存。
如图14所示,逻辑结构描述解析模块的工作过程如下:
在内容参考序列、内容参考子序列(也可以认为是内容划分描述文件)以及逻辑单元描述文件没有保存的情况下,需要内容参考序列生成模块重新利用版式文件解析***将版式文件的内容根据一定的顺序排列为一个有序序列,得到内容参考序列。
内容划分描述解析模块,读取内容划分描述文件,对上述图13中所示的逻辑结构描述生成模块中得到的内容参考序列进行划分。
逻辑单元描述解析模块读取上述图13中所示的逻辑结构描述生成模块中逻辑单元描述文件,并验证其有效性。
映射模块根据内容划分描述文件和逻辑单元描述文件中的内容参考子序列编号,将逻辑单元和内容参考子序列进行关联。
作为对于处理版式文件中逻辑结构信息的***的进一步说明,与该***交互的外部***可能有版式文件解析***、文档逻辑结构信息获取***及其他文档处理***。其他文档处理***可以是格式转换***、版面重排***等。这些***利用文档逻辑结构信息再对版式文件进行处理,例如信息提取、重排页面、转换为其他格式的文件等。
另外,上述的内容划分描述文件和逻辑单元描述文件可以保存在版式文档之中,也可以作为单独文件与版式文件分开保存。对于同一版式文件,可以拥有多个文档逻辑结构信息描述。
综上所述,本发明的方法和***通过将版式文件的内容参考序列划分为多个内容参考子序列,生成相应的内容划分描述文件,并且生成逻辑单元描述文件,然后将所述内容划分描述文件与逻辑单元描述文件关联起来,使得逻辑结构信息与版式文件相互分离,可以对版式文件中的任意内容单独进行逻辑结构描述、提取,并可以根据不同的文档逻辑结构模型进行描述,描述范围更加准确,逻辑结构信息的表示更加灵活,同时还可以对同一个版式文件添加多个文档逻辑结构信息描述,即同一个版式文件可以拥有多个内容划分描述文件以及逻辑单元描述文件,在添加或修改文档逻辑结构信息时,不需要对版式文件的内容描述进行修改,减小了出错的可能,且版式文件逻辑结构信息的这种灵活表示方式可以对已经存在的大量的版式文件进行描述,而不影响已有的***,提高了兼容性。
以上结合较佳实施例来描述本发明,但并不用以限制本发明,本技术领域的普通技术人员应当知道,凡在本发明思想的应用范围内所作的等效目的的变更与修改,均应在本专利申请的保护范围之内。

Claims (13)

1. 一种版式文件逻辑结构信息的表示方法,其特征在于,包括如下步骤:
获取版式文件的逻辑结构信息和内容参考序列;
根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件;
根据所述逻辑结构信息生成逻辑单元描述文件;
将所述内容划分描述文件与逻辑单元描述文件进行关联。
2. 根据权利要求1所述的版式文件逻辑结构信息的表示方法,其特征在于,所述获取版式文件的逻辑结构信息的步骤包括:
利用计算机应用程序对版式文件进行标注或者基于文档分析和文档理解处理***获取版式文件的逻辑结构信息。
3. 根据权利要求1所述的版式文件逻辑结构信息的表示方法,其特征在于,所述获取版式文件的内容参考序列的步骤包括:
读取版式文件内容,按照版式文件内容中的图元在内容数据流中出现的先后顺序或者是文档树的遍历顺序,生成内容参考序列。
4. 根据权利要求1所述的版式文件逻辑结构信息的表示方法,其特征在于,所述将内容参考序列划分为多个内容参考子序列的步骤包括:
按照版式文件内容中的图元在所述内容参考序列的偏移位置或者内容参考序列中的图元符号,将所述内容参考序列划分为多个内容参考子序列。
5. 根据权利要求1所述的版式文件逻辑结构信息的表示方法,其特征在于,为所述多个内容参考子序列分别赋予一个编号。
6. 根据权利要求5所述的版式文件逻辑结构信息的表示方法,其特征在于,将所述内容划分描述文件与逻辑单元描述文件进行关联的步骤包括:
通过内容参考子序列的编号将内容划分描述文件与逻辑单元描述文件进行关联。
7. 根据权利要求1所述的版式文件逻辑结构信息的表示方法,其特征在于,所述内容划分描述文件或者逻辑单元描述文件为存储设备上一个独立的文件或者版式文件中的一个数据块。
8. 根据权利要求1所述的版式文件逻辑结构信息的表示方法,其特征在于,所述内容划分描述文件或者逻辑单元描述文件采用结构化标记语言来描述。
9. 一种版式文件逻辑结构信息的表示***,其特征在于,包括:
逻辑结构信息获取***,用于获取版式文件的逻辑结构信息;
逻辑结构描述生成模块,用于获取内容参考序列,并根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,生成内容划分描述文件和逻辑单元描述文件;
逻辑结构描述解析模块,用于对所述内容划分描述文件和所述逻辑单元描述文件进行解析和关联。
10. 根据权利要求9所述的版式文件逻辑结构信息的表示***,其特征在于,所述逻辑结构描述生成模块包括:
内容参考序列生成模块,用于读取版式文件内容,生成内容参考序列;
内容划分描述生成模块,用于根据所述逻辑结构信息将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件;
逻辑单元描述生成模块,根据所述逻辑结构信息生成逻辑单元描述文件。
11. 根据权利要求10所述的版式文件逻辑结构信息的表示***,其特征在于,所述逻辑结构描述生成模块还包括:存储设备,用于存储所述内容参考序列生成模块生成的内容参考序列,或者所述内容划分描述生成模块划分的多个内容参考子序列。
12. 根据权利要求9所述的版式文件逻辑结构信息的表示***,其特征在于,所述逻辑结构描述解析模块包括:
内容参考序列生成模块,用于读取版式文件内容,生成内容参考序列;
内容划分描述解析模块,用于将所述内容参考序列划分为多个内容参考子序列,并生成内容划分描述文件。
13. 根据权利要求11或12所述的版式文件逻辑结构信息的表示***,其特征在于,所述逻辑结构描述解析模块还包括:
逻辑单元描述解析模块,用于读取并解析所述逻辑单元描述文件中的数据;
映射模块,用于将所述内容划分描述文件与所述逻辑单元描述文件进行关联。
CN200710123338.6A 2007-06-22 2007-06-22 版式文件的结构处理方法和*** Expired - Fee Related CN101271463B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN200710123338.6A CN101271463B (zh) 2007-06-22 2007-06-22 版式文件的结构处理方法和***
PCT/CN2008/000910 WO2009000141A1 (fr) 2007-06-22 2008-05-08 Procédé, système et dispositif de représentation d'informations de structure logique de fichier de mise en page

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200710123338.6A CN101271463B (zh) 2007-06-22 2007-06-22 版式文件的结构处理方法和***

Publications (2)

Publication Number Publication Date
CN101271463A true CN101271463A (zh) 2008-09-24
CN101271463B CN101271463B (zh) 2014-03-26

Family

ID=40005437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710123338.6A Expired - Fee Related CN101271463B (zh) 2007-06-22 2007-06-22 版式文件的结构处理方法和***

Country Status (2)

Country Link
CN (1) CN101271463B (zh)
WO (1) WO2009000141A1 (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122280A (zh) * 2009-12-17 2011-07-13 北大方正集团有限公司 一种智能提取内容对象的方法及***
CN102411498A (zh) * 2011-07-26 2012-04-11 中兴通讯股份有限公司 一种实现数据模型的方法及图形化设计器
CN102541888A (zh) * 2010-12-20 2012-07-04 鸿富锦精密工业(深圳)有限公司 专利电子文件解析***及方法
CN101887413B (zh) * 2009-05-14 2012-07-04 北大方正集团有限公司 版式表格的结构处理方法和***
CN102567291A (zh) * 2010-12-31 2012-07-11 北大方正集团有限公司 一种删除版式文档中的花边字符的方法及装置
CN103186655A (zh) * 2011-12-31 2013-07-03 北大方正集团有限公司 版式文件的处理方法和装置
CN102087692B (zh) * 2009-12-02 2013-11-06 北大方正集团有限公司 一种版式文件数据防复制方法及***
CN103970799A (zh) * 2013-02-04 2014-08-06 百度在线网络技术(北京)有限公司 一种电子文档的生成方法、装置和客户端
CN104090920A (zh) * 2014-06-17 2014-10-08 安徽教育网络出版有限公司 一种实现数字内容跨终端出版的***
CN104199803A (zh) * 2014-07-21 2014-12-10 安徽华贞信息科技有限公司 一种基于组合理论的文本信息处理***及方法
CN104471588A (zh) * 2012-07-20 2015-03-25 微软公司 对流格式文档中的布局结构元素进行色彩编码
CN105279254A (zh) * 2015-10-12 2016-01-27 江苏中威科技软件***有限公司 版式数据流文件***及其操作装置和其操作装置的实现方法
CN105701073A (zh) * 2015-12-31 2016-06-22 北京中科江南信息技术股份有限公司 版式文件的生成方法及装置
CN105760358A (zh) * 2014-12-19 2016-07-13 阿里巴巴集团控股有限公司 电子书版面重排和电子书展示的方法及其装置
CN108287927A (zh) * 2018-03-05 2018-07-17 北京百度网讯科技有限公司 用于获取信息的方法及装置
CN109815243A (zh) * 2019-02-18 2019-05-28 北京仁和汇智信息技术有限公司 一种文档界面化修改时的结构化存储方法和装置
CN112612750A (zh) * 2020-12-15 2021-04-06 北京天融信网络安全技术有限公司 文件内容处理方法、装置、电子设备及可读存储介质
CN116916047A (zh) * 2023-09-12 2023-10-20 北京点聚信息技术有限公司 一种版式文件识别数据智能存储方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6592628B1 (en) * 1999-02-23 2003-07-15 Sun Microsystems, Inc. Modular storage method and apparatus for use with software applications
AUPQ867700A0 (en) * 2000-07-10 2000-08-03 Canon Kabushiki Kaisha Delivering multimedia descriptions
US7386789B2 (en) * 2004-02-27 2008-06-10 Hewlett-Packard Development Company, L.P. Method for determining logical components of a document
CN1320481C (zh) * 2004-11-22 2007-06-06 北京北大方正技术研究院有限公司 一种对报纸版面进行标题与正文逻辑关联的方法
US8849031B2 (en) * 2005-10-20 2014-09-30 Xerox Corporation Document analysis systems and methods
CN100429643C (zh) * 2005-12-07 2008-10-29 段君雷 面向多媒体网络电子出版物制作的实现方法
CN100356372C (zh) * 2005-12-31 2007-12-19 无锡永中科技有限公司 计算机版式文件生成方法和打开方法

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887413B (zh) * 2009-05-14 2012-07-04 北大方正集团有限公司 版式表格的结构处理方法和***
CN102087692B (zh) * 2009-12-02 2013-11-06 北大方正集团有限公司 一种版式文件数据防复制方法及***
CN102122280A (zh) * 2009-12-17 2011-07-13 北大方正集团有限公司 一种智能提取内容对象的方法及***
CN102122280B (zh) * 2009-12-17 2013-06-05 北大方正集团有限公司 一种智能提取内容对象的方法及***
CN102541888A (zh) * 2010-12-20 2012-07-04 鸿富锦精密工业(深圳)有限公司 专利电子文件解析***及方法
CN102567291A (zh) * 2010-12-31 2012-07-11 北大方正集团有限公司 一种删除版式文档中的花边字符的方法及装置
CN102411498A (zh) * 2011-07-26 2012-04-11 中兴通讯股份有限公司 一种实现数据模型的方法及图形化设计器
CN103186655A (zh) * 2011-12-31 2013-07-03 北大方正集团有限公司 版式文件的处理方法和装置
WO2013097799A1 (zh) * 2011-12-31 2013-07-04 北大方正集团有限公司 版式文件的处理方法和装置
CN104471588A (zh) * 2012-07-20 2015-03-25 微软公司 对流格式文档中的布局结构元素进行色彩编码
US10360286B2 (en) 2012-07-20 2019-07-23 Microsoft Technology Licensing, Llc Color coding of layout structure elements in a flow format document
CN104471588B (zh) * 2012-07-20 2018-11-20 微软技术许可有限责任公司 对流格式文档中的布局结构元素进行色彩编码
CN103970799A (zh) * 2013-02-04 2014-08-06 百度在线网络技术(北京)有限公司 一种电子文档的生成方法、装置和客户端
CN104090920A (zh) * 2014-06-17 2014-10-08 安徽教育网络出版有限公司 一种实现数字内容跨终端出版的***
CN104199803A (zh) * 2014-07-21 2014-12-10 安徽华贞信息科技有限公司 一种基于组合理论的文本信息处理***及方法
CN104199803B (zh) * 2014-07-21 2017-10-13 安徽华贞信息科技有限公司 一种基于组合理论的文本信息处理***及方法
CN105760358B (zh) * 2014-12-19 2019-07-23 阿里巴巴集团控股有限公司 电子书版面重排和电子书展示的方法及其装置
CN105760358A (zh) * 2014-12-19 2016-07-13 阿里巴巴集团控股有限公司 电子书版面重排和电子书展示的方法及其装置
CN105279254B (zh) * 2015-10-12 2018-10-23 江苏中威科技软件***有限公司 版式数据流文件***及其操作装置和其操作装置的实现方法
CN105279254A (zh) * 2015-10-12 2016-01-27 江苏中威科技软件***有限公司 版式数据流文件***及其操作装置和其操作装置的实现方法
CN105701073A (zh) * 2015-12-31 2016-06-22 北京中科江南信息技术股份有限公司 版式文件的生成方法及装置
CN108287927A (zh) * 2018-03-05 2018-07-17 北京百度网讯科技有限公司 用于获取信息的方法及装置
CN109815243A (zh) * 2019-02-18 2019-05-28 北京仁和汇智信息技术有限公司 一种文档界面化修改时的结构化存储方法和装置
CN109815243B (zh) * 2019-02-18 2020-03-03 北京仁和汇智信息技术有限公司 一种文档界面化修改时的结构化存储方法和装置
CN112612750A (zh) * 2020-12-15 2021-04-06 北京天融信网络安全技术有限公司 文件内容处理方法、装置、电子设备及可读存储介质
CN116916047A (zh) * 2023-09-12 2023-10-20 北京点聚信息技术有限公司 一种版式文件识别数据智能存储方法
CN116916047B (zh) * 2023-09-12 2023-11-10 北京点聚信息技术有限公司 一种版式文件识别数据智能存储方法

Also Published As

Publication number Publication date
WO2009000141A1 (fr) 2008-12-31
CN101271463B (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
CN101271463B (zh) 版式文件的结构处理方法和***
CN101308488B (zh) 基于版式文件的文档流式信息处理方法及装置
CN103324731A (zh) 将电子表格文件转换为网页格式文件的方法和装置
Prokopenko et al. Cost effectiveness of innovative reproduction of durable equipment at machine-building enterprises
Bardas et al. On the estimation of the natural resourses potential and environment quality of urban settlement
Pilgui Conceptual basis of anti—crisis management in banking
CN116911274A (zh) 一种结构化文档自动生成方法、装置及存储介质
Dumenko Gap management in interest rate risk assessment in the Ukrainian banking system
Baluyeva Method of calculating the index of socio-ecological-economic development of a city
Kuryltsiv Formation of conceptual framework of land administration systems in ukraine
Shapoval et al. Development of management principles for creating the innovative model of domestically produced dump trucks
Nusinov et al. Improvement of methodological approaches to identification of life cycle stages of vertical-integrated structure
Gusyeva et al. Information and telecommunications industry of Ukraine: economic trends and development opportunities
Kovalchuk et al. Knowledge Mining technology for financial markets forecasting
Rekunenko Determination of the financial market information efficiency
Zhyshko et al. Investigation of the influence of accuracy of geological model of oil and gas deposit on its geological and economic assessment using the economic indicators
Dovbnya et al. Factoring as the financing of enterprise turnover assets: peculiarities and perspectives
Fayvishenko Consumer potential as a factor of marketing formation of innovative potential
Salogubova Marketing Risk Estimation for Higher Schools in regional labour markets
Bersutskyy Modeling diagnostic external environment in managing a balanced development of the resource potential of the company
Oleksienko Basic Forms of Transformation in Relations and Ownership for Subjects of Customs Regulation
Ascheulova Fixed assets of production on geological organizations of Ukraine and efficiency of its usage
Vakulchik et al. Assessment of economic enterprise safety in crediting conditions
Shevchenko The New Financial Opportunities of Factoring
Lazebnik International financial system: history, current factors and development trends

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230613

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Patentee after: Peking University

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 5 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

Patentee before: Peking University

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140326

CF01 Termination of patent right due to non-payment of annual fee