CN103186514B - 用于实现文档结构化的方法和装置 - Google Patents

用于实现文档结构化的方法和装置 Download PDF

Info

Publication number
CN103186514B
CN103186514B CN201110461670.XA CN201110461670A CN103186514B CN 103186514 B CN103186514 B CN 103186514B CN 201110461670 A CN201110461670 A CN 201110461670A CN 103186514 B CN103186514 B CN 103186514B
Authority
CN
China
Prior art keywords
rule
structuring
module
matching
instantiation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110461670.XA
Other languages
English (en)
Other versions
CN103186514A (zh
Inventor
孙明明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201110461670.XA priority Critical patent/CN103186514B/zh
Publication of CN103186514A publication Critical patent/CN103186514A/zh
Application granted granted Critical
Publication of CN103186514B publication Critical patent/CN103186514B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于实现文档结构化的方法,包括:获取开放格式文档;使用实例化规则匹配开放格式文档;以文档结构图呈现匹配结果。本发明提供了一种用于实现文档结构化的装置,包括:文档获取模块,用于获取开放格式文档;规则匹配模块,用于使用实例化规则匹配开放格式文档;呈现模块,用于以文档结构图呈现匹配结果。本发明提高了数字化管理文稿的效率。

Description

用于实现文档结构化的方法和装置
技术领域
本发明涉及出版领域,具体而言,涉及一种用于实现文档结构化的方法和装置。
背景技术
出版社收到大量的来稿,制作一本图书或者期刊需要编辑人员投入大量的精力来整理此类稿件内容对象的结构,其工作量很大。而且这些来稿格式有很多相同之处,导致编辑人员的很多工作是重复手工劳动,造成周期长,错误率较高。
发明内容
本发明旨在提供一种用于实现文档结构化的方法和装置,以解决提取文档结构的问题。
在本发明的实施例中,提供了一种用于实现文档结构化的方法,包括:获取开放格式文档;使用实例化规则匹配开放格式文档;以文档结构图呈现匹配结果。
在本发明的实施例中,提供了一种用于实现文档结构化的装置,包括:文档获取模块,用于获取开放格式文档;规则匹配模块,用于使用实例化规则匹配开放格式文档;呈现模块,用于以文档结构图呈现匹配结果。
本发明上述实施例的用于实现文档结构化的方法和装置因为对文档结构进行自动匹配,所以解决了现有技术中提前文档结构效率较低的问题,提高了数字化管理文稿的效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明实施例的用于实现文档结构化的方法的流程图;
图2示出了根据本发明优选实施例的用于实现文档结构化的方法的流程图;
图3示出了根据本发明优选实施例的实例化规则的文档结构图;
图4示出了根据本发明优选实施例的匹配结果的文档结构图;
图5示出了根据本发明实施例的用于实现文档结构化的装置的示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
图1示出了根据本发明实施例的用于实现文档结构化的方法的流程图,包括:
获取开放格式文档;
使用实例化规则匹配开放格式文档;
以文档结构图呈现匹配结果。
本方法因为预设了实例化规则,可以对文档结构进行自动匹配,所以解决了现有技术中提前文档结构效率较低的问题,提高了数字化管理文稿的效率。
优选地,方法还包括预先创建实例化规则,具体包括:获取规定了样式的schema文件和规定了结构化规则的xml文件;将样式中的节点匹配结构化规则;将各个匹配成功的节点及其匹配的结构化规则组成各个实例化规则。本优选实施例利用Schema文件的样式和xml文件的结构化规则相结合,即可得到实例化规则,简单易行,适用范围广泛。
优选地,本方法还包括:对样式中匹配不成功的节点设置结构化规则以生成实例化规则;对匹配成功的节点及其匹配的结构化规则所组成的实例化规则进一步设置结构化规则。预先创建的规定了结构化规则的xml文件通常是由开发人员开发,不一定满足用户的个性化需求,而本优选实施例允许进一步设置结构化规则,这可以满足用户的个性化需求。
图2示出了根据本发明优选实施例的用于实现文档结构化的方法的流程图,包括:
步骤S202,通过用户在自动样式识别面板中输入文件名,获取规定了样式的schema文件和规定了结构化规则的xml文件;
步骤S204,将样式中的节点匹配结构化规则,将各个匹配成功的节点及其匹配的结构化规则组成各个实例化规则,对样式中匹配不成功的节点设置结构化规则以生成实例化规则;
步骤S206,对匹配成功的节点及其匹配的结构化规则所组成的实例化规则进一步设置结构化规则;
步骤S208,对由开放格式文档模板生成的开放格式文档匹配实例化规则,可以包括格式规则、样式规则、大纲级别规则和自定义通配符规则等;
步骤S210,在校对模式下,对匹配得到的内容对象结构化文档进行验证,观察是否为满足用户要求的结构化文档。
优选地,所设置的结构化规则包括以下至少之一:格式匹配方式,用于规定文字格式(字体、字号、颜色、下划线、加粗、倾斜等)来匹配结构;样式匹配方式,用于规定段落样式来匹配结构;大纲级别匹配方式,用于规定大纲级别来匹配结构;自定义通配符匹配方式,用于规定通配符来自定义匹配结构。这些匹配方式可以满足各种常用场景下的用户个性化需求。
格式匹配方式例如:
样式匹配方式例如:
大纲级别匹配方式例如:
自定义通配符匹配方式例如:
图3示出了根据本发明优选实施例的实例化规则的文档结构图,源代码如下:
优选地,只对开放格式文档中各段的段首匹配实例化规则。
优选地,使用实例化规则匹配开放格式文档包括:遍历各个实例化规则;以当前的实例化规则在开放格式文档中定位到内容对象;将定位的内容对象放入堆栈中;将堆栈中的内容对象的样式设置为节点的样式。该过程很容易通过计算机程序来实现,从而取代现有技术中编辑人员的手工操作。图4示出了根据本发明优选实施例的匹配结果的文档结构图。
图5示出了根据本发明实施例的用于实现文档结构化的装置的示意图,包括:
文档获取模块10,用于获取开放格式文档;
规则匹配模块20,用于使用实例化规则匹配开放格式文档;
呈现模块30,用于以文档结构图呈现匹配结果。
本装置提高了数字化管理文稿的效率。
优选地,本装置还包括创建模块,用于预先创建实例化规则,具体包括:获取模块,用于获取规定了样式的schema文件和规定了结构化规则的xml文件;匹配模块,用于将样式中的节点匹配结构化规则;合并模块,用于将各个匹配成功的节点及其匹配的结构化规则组成各个实例化规则。
优选地,本装置还包括:个性化模块,用于对样式中匹配不成功的节点设置结构化规则以生成实例化规则,以及对匹配成功的节点及其匹配的结构化规则所组成的实例化规则进一步设置结构化规则;其中,所设置的结构化规则包括以下至少之一:格式匹配方式,用于规定文字格式来匹配结构;样式匹配方式,用于规定段落样式来匹配结构;大纲级别匹配方式,用于规定大纲级别来匹配结构;自定义通配符匹配方式,用于规定通配符来自定义匹配结构。
优选地,规则匹配模块包括:遍历模块,用于遍历各个实例化规则;定位模块,用于以当前的实例化规则在开放格式文档中定位到内容对象;堆栈模块,用于将定位的内容对象放入堆栈中;结构化模块,用于将堆栈中的内容对象的样式设置为节点的样式。
步骤102、结合业务需要,以步骤101所设计结构化规则xml匹配类型为基础,配置“段首开始”属性,制定出结构化规则xml,本实例所制定的xml结构见图二。
步骤201、根据不同的匹配模式对所需节点进行结构化规则设置。
步骤301、根据步骤201对于已设置结构化规则的节点针对不同的匹配模式重新生成结构化规则xml文件。在本实施例中,所编写的xml文件如下:
从以上的描述中可以看出,本发明可以提高出版物的出版效率,减少编辑的工作量,快速地对内容对象结构规范化。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种用于实现文档结构化的方法,其特征在于,包括:
获取开放格式文档;
使用实例化规则匹配所述开放格式文档,使用实例化规则匹配所述开放格式文档包括:
遍历各个所述实例化规则;
以当前的所述实例化规则在所述开放格式文档中定位到内容对象;
将定位的所述内容对象放入堆栈中;
将所述堆栈中的内容对象的样式设置为所述节点的样式;
以文档结构图呈现所述匹配结果,所述方法还包括预先创建所述实例化规则,具体包括:
获取规定了样式的schema文件和规定了结构化规则的xml文件;
将所述样式中的节点匹配所述结构化规则;
将各个匹配成功的所述节点及其匹配的结构化规则组成各个所述实例化规则。
2.根据权利要求1所述的方法,其特征在于,还包括:
对所述样式中匹配不成功的节点设置结构化规则以生成所述实例化规则;
对匹配成功的所述节点及其匹配的结构化规则所组成的实例化规则进一步设置结构化规则。
3.根据权利要求2所述的方法,其特征在于,所设置的结构化规则包括以下至少之一:
格式匹配方式,用于规定文字格式来匹配结构;
样式匹配方式,用于规定段落样式来匹配结构;
大纲级别匹配方式,用于规定大纲级别来匹配结构;
自定义通配符匹配方式,用于规定通配符来自定义匹配结构。
4.根据权利要求1所述的方法,其特征在于,只对所述开放格式文档中各段的段首匹配所述实例化规则。
5.一种用于实现文档结构化的装置,其特征在于,包括:
文档获取模块,用于获取开放格式文档;
规则匹配模块,用于使用实例化规则匹配所述开放格式文档,所述规则匹配模块包括:
遍历模块,用于遍历各个所述实例化规则;
定位模块,用于以当前的所述实例化规则在所述开放格式文档中定位到内容对象;
堆栈模块,用于将定位的所述内容对象放入堆栈中;
结构化模块,用于将所述堆栈中的内容对象的样式设置为所述节点的样式;
呈现模块,用于以文档结构图呈现所述匹配结果,还包括创建模块,用于预先创建所述实例化规则,具体包括:
获取模块,用于获取规定了样式的schema文件和规定了结构化规则的xml文件;
匹配模块,用于将所述样式中的节点匹配所述结构化规则;
合并模块,用于将各个匹配成功的所述节点及其匹配的结构化规则组成各个所述实例化规则。
6.根据权利要求5所述的装置,其特征在于,还包括:
个性化模块,用于对所述样式中匹配不成功的节点设置结构化规则以生成所述实例化规则,以及对匹配成功的所述节点及其匹配的结构化规则所组成的实例化规则进一步设置结构化规则;
其中,所设置的结构化规则包括以下至少之一:
格式匹配方式,用于规定文字格式来匹配结构;
样式匹配方式,用于规定段落样式来匹配结构;
大纲级别匹配方式,用于规定大纲级别来匹配结构;
自定义通配符匹配方式,用于规定通配符来自定义匹配结构。
CN201110461670.XA 2011-12-31 2011-12-31 用于实现文档结构化的方法和装置 Expired - Fee Related CN103186514B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110461670.XA CN103186514B (zh) 2011-12-31 2011-12-31 用于实现文档结构化的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110461670.XA CN103186514B (zh) 2011-12-31 2011-12-31 用于实现文档结构化的方法和装置

Publications (2)

Publication Number Publication Date
CN103186514A CN103186514A (zh) 2013-07-03
CN103186514B true CN103186514B (zh) 2016-04-20

Family

ID=48677685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110461670.XA Expired - Fee Related CN103186514B (zh) 2011-12-31 2011-12-31 用于实现文档结构化的方法和装置

Country Status (1)

Country Link
CN (1) CN103186514B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572745B (zh) * 2013-10-23 2018-05-04 北大方正集团有限公司 文档结构化方法和装置
CN104601627B (zh) * 2013-11-01 2019-05-14 北大方正集团有限公司 服务器、终端、文件在线处理方法和***
CN111399900B (zh) * 2020-03-10 2023-04-07 山东汇贸电子口岸有限公司 一种基于python与正则表达式的API文档自动生成方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430714A (zh) * 2008-12-08 2009-05-13 北大方正集团有限公司 一种基于样式的内容结构化加工方法及***
CN101751461A (zh) * 2009-12-30 2010-06-23 中兴通讯股份有限公司 一种文档转换方法和装置
CN102103591A (zh) * 2009-12-18 2011-06-22 北大方正集团有限公司 一种利用结构化数据实现文档内容自动更新的方法及***
CN102103605A (zh) * 2009-12-18 2011-06-22 北大方正集团有限公司 一种智能提取文档结构的方法及***
CN102214170A (zh) * 2010-04-06 2011-10-12 北京大学 一种xml数据压缩和解压缩方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430714A (zh) * 2008-12-08 2009-05-13 北大方正集团有限公司 一种基于样式的内容结构化加工方法及***
CN102103591A (zh) * 2009-12-18 2011-06-22 北大方正集团有限公司 一种利用结构化数据实现文档内容自动更新的方法及***
CN102103605A (zh) * 2009-12-18 2011-06-22 北大方正集团有限公司 一种智能提取文档结构的方法及***
CN101751461A (zh) * 2009-12-30 2010-06-23 中兴通讯股份有限公司 一种文档转换方法和装置
CN102214170A (zh) * 2010-04-06 2011-10-12 北京大学 一种xml数据压缩和解压缩方法及***

Also Published As

Publication number Publication date
CN103186514A (zh) 2013-07-03

Similar Documents

Publication Publication Date Title
US9557988B2 (en) Workflow-based application generator
CN101697120B (zh) 基于关系型数据库的j2ee代码生成方法
CN107729003A (zh) 代码的自动生成方法、装置及电子设备
CN109189383A (zh) 代码文件的生成方法、装置、计算设备和存储介质
CN107273117A (zh) 一种编程友好型的敏捷代码自动生成***
CN109408786B (zh) 智能小说辅助创作***
CN103631763B (zh) 多人协作的大型文档编辑装置和大型文档编辑方法
CN102982010B (zh) 提取文档结构的方法和装置
CN108269063A (zh) word文档在线协同编辑方法及***
CN103092589A (zh) 一种基于ssh框架的代码自动生成方法
CN105701183A (zh) 一种用户个性化模板的实现方法及装置
CN102096660B (zh) 一种文档并行处理方法及***
CN104317587A (zh) 面向安卓移动设备的程序自动生成方法
CN103186514B (zh) 用于实现文档结构化的方法和装置
CN106528512B (zh) 一种excel概预算表格自动编排方法
CN105302803A (zh) 一种产品bom差异分析与同步更新方法
CN103530407A (zh) 一种富文本文档的生成方法与装置
CN104040536A (zh) 使用集群进行自动化文档构成
EP2318950B1 (en) System and method for designing stationery
CN104407893B (zh) 展示动画的方法及装置
CN101436309B (zh) 一种修改公式运算符的方法和装置
CN106779582A (zh) 一种tws流程配置方法及装置
CN100501723C (zh) 一种基于可呼出注解的排版数据重用方法
US8082496B1 (en) Producing a set of operations from an output description
CN104317600B (zh) 一种可配置的曲线图生成方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160420

Termination date: 20191231

CF01 Termination of patent right due to non-payment of annual fee