CN102982028A - 用于提取文档结构的方法和装置 - Google Patents
用于提取文档结构的方法和装置 Download PDFInfo
- Publication number
- CN102982028A CN102982028A CN2011102591727A CN201110259172A CN102982028A CN 102982028 A CN102982028 A CN 102982028A CN 2011102591727 A CN2011102591727 A CN 2011102591727A CN 201110259172 A CN201110259172 A CN 201110259172A CN 102982028 A CN102982028 A CN 102982028A
- Authority
- CN
- China
- Prior art keywords
- content
- particle
- document
- mapping ruler
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明提供了一种用于提取文档结构的方法,包括:以预设的内容样式规则识别文档的内容的颗粒;以条目标签标注颗粒;从预设的映射规则组中选择与文档的类型相对应的映射规则;使用选择的映射规则将条目标签映射到结构标签;使用结构标签标注颗粒。本发明还提供了一种用于提取文档结构的装置。本发明达到了提高提取文档结构效率的效果。
Description
技术领域
本发明涉及数字出版领域,具体而言,涉及用于提取文档结构的方法和装置。
背景技术
在传统出版领域,书籍、报刊的文档格式只是为了满足传统印刷的需求,对于内容的描述局限于文字、图形、图像的轮廓、颜色、位置等视觉要素,没有构建文档的逻辑内容和内在关系。在数字出版领域,对文档的逻辑内容、关联关系、内容的颗粒度更为关注,对文档进行结构化加工是进行数字内容再利用的前提条件。
一篇标准完整的文档的内容通常可以划分为多个级别的颗粒,例如第一级为篇、第二级为章、第三级为节、第四级为段、第五级为句等。通过预先以篇章节段句为内容样式设置匹配规则,对文档进行匹配,可以识别出对应于篇章节段句的内容,并以结构标签予以标注。
发明人发现,篇章节段句这些都是一个比较抽象和空泛的概念。对于不同的文档类型,它们的内容样式可能各不相同,比如试卷这样的文档,它的内容可以划分的颗粒度可能为大题、题干、选项或者答案等。因此相关技术为了对不同类型的文档提取文档结构,必须分别规定对应于不同内容样式的匹配规则,以生成不同的结构标签。这导致操作比较繁琐,容易出错。
发明内容
本发明旨在提供用于提取文档结构的方法和装置,以解决相关技术操作比较繁琐的问题。
在本发明的实施例中,提供了一种用于提取文档结构的方法,包括:以预设的内容样式规则识别文档的内容的颗粒;以条目标签标注颗粒;从预设的映射规则组中选择与文档的类型相对应的映射规则;使用选择的映射规则将条目标签映射到结构标签;使用结构标签标注颗粒。
在本发明的实施例中,一种用于提取文档结构的装置,包括:识别模块,用于以预设的内容样式规则识别文档的内容的颗粒;条目标注模块,用于以条目标签标注颗粒;映射选择模块,用于从预设的映射规则组中选择与文档的类型相对应的映射规则;映射模块,用于使用选择的映射规则将条目标签映射到结构标签;结构标注模块,用于使用结构标签标注颗粒。
本发明上述实施例的用于提取文档结构的方法和装置,因为采用条目标签隔离结构标签与内容样式,所以克服了相关技术操作繁琐的问题,达到了提高提取文档结构效率的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明实施例的用于提取文档结构的方法的流程图;
图2示出了根据本发明优选实施例的MVC模型;
图3示出了根据本发明优选实施例的用于提取文档结构的方法的流程图;
图4示出了根据本发明实施例的用于提取文档结构的装置的示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
图1示出了根据本发明实施例的用于提取文档结构的方法的流程图,包括:
以预设的内容样式规则识别文档的内容的颗粒;
以条目标签标注颗粒;
从预设的映射规则组中选择与文档的类型相对应的映射规则;
使用选择的映射规则将条目标签映射到结构标签;
使用结构标签标注颗粒。
相关技术对不同类型的文档提取文档结构,必须分别规定对应于不同内容样式的匹配规则,以生成不同的结构标签。这导致操作比较繁琐,容易出错。发明人对此进行了深入研究,发现上述相关技术固定地设置各种结构标签的内容样式,即结构标签与内容样式之间的耦合度较大,无法灵活地适应各种不同的文档类型,不利于后期维护和功能扩展。
本发明上述实施例的方法中,创建了条目标签,条目标签仅仅标注文档内容的颗粒层级,而不关注颗粒的其他任何属性。不管是试卷、论文还是其他类型的文档,在这一点上都是相同的,即都需要将文档内容划分层级,建立树状结构。至于和文档类型相关的其他结构属性,本实施例通过标签映射规则来处理,从而使得结构标签与内容样式规则相互独立,中间隔离了条目标签。因此,通过打破结构标签与内容样式之间的耦合,从而可以灵活地适应各种不同的文档类型。
优选地,条目标签包括:颗粒的段落标题、段落内容、位置和层级,文档的类型包括以下至少之一:新闻、小说、课文、论文、辞书、试卷。本优选实施例列举了一些主要的类型,根据这些类型可以预先定义映射规则,例如针对试卷类型,可以选用试卷类型的映射规则,将条目标签标注的一级颗粒映射为结构标签的“科目”属性,将条目标签标注的二级颗粒映射为结构标签的“题干”属性。以上描述用于举例说明本发明,本发明并不限定于此。显然规定其他文档类型及其对应的映射规则,也属于本发明的精神范围。
优选地,结构标签包括条目标签的内容,还包括:名称,用于指示颗粒的结构类型;范围,用于指示当前颗粒的起始位置到下一颗粒的起始位置的内容。例如,步骤S10在一份试卷文档中识别到一个颗粒,以条目标签标注该颗粒段落标题是“语文期末考试”,段落内容是“语文期末考试”,位置为文档开始位置,层级为一级。根据该文档为试卷文档,应当选择试卷类的映射规则,将该条目标签映射为试卷类的结构标签,该结构标签除了包括上述条目标签的内容,还可以包括名称“科目”,范围为当前的一级颗粒的起始位置到下一个颗粒的起始位置。显然,本发明并不限定于此,用户还可以根据需求对结构标签规定其他属性,例如规定试卷类的结构标签还包括难度属性、学期属性等。
优选地,本方法还包括:从显示规则组选择与文档的类型相对应的显示规则;使用选择的显示规则,根据结构标签的标注显示文档的内容。在本优选实施例中,进一步将显示处理也与内容样式的规定隔离,从而进一步提高了提取文档结构的效率。
优选地,采用XML格式定义显示规则。XML是标准的结构化语言,用于定义显示规则比较容易实现。
根据本发明的上述优选实施例,形成了一种MVC模型,如图2所示。即将内容样式规则封装为数据模型模块,用于划分文档内容为颗粒,构建树状模型,此为MVC模型中的Model;然后将具体映射方法封装为标签映射结构化控制模块,即为MVC中Control;最后将显示规则封装为映射结果显示模块,用于将结构标签组合为最终的显示样式,即为MVC中的Viewer。数据模型模块M、标签映射结构化控制模块C、映射结果显示模块V,三个模块之间是解耦合的关系,各自负责各自的功能,同时M模块通过控制模块C与显示模块V***,这样可以实现内容与形式的分离,为整个***的灵活性处理打下了基础。
优选地,在上述的方法中还包括:提供界面,接受用户自定义新的映射规则或者修改已有的映射规则。因为软件提供者初始定义的各种映射规则不一定能满足用户的需求,即不一定能产生用户期望的结构标签,所以通过提供一个交互界面,用户可以更灵活地补充修改已有的映射规则,从而得到期望的结构标签。通过该界面用户可以按照实际情况维护个性化的标签类型,比如添加,修改或者删除标签类型。比如试卷,用户可以添加题干,选项,答案等个性化标签类型。这些信息最终以XML文件的形式存储。
优选地,在上述的方法中,采用XML格式定义内容样式匹配规则和映射规则。XML是标准的结构化语言,用于定义匹配规则和映射规则比较容易实现。
图3示出了根据本发明优选实施例的用于提取文档结构的方法的流程图,包括以下步骤:
步骤S0,获取文档的内容,按照内容样式规则划分文档内容的颗粒,用条目标签予以标注。
步骤S1,收集所有条目标签,按照树形结构存储条目标签并显示,作为整个***的数据模型;
步骤S2,使用标签类型定制接口进行个性化标签类型定义;
更进一步,本***采用窗口接受用户个性化标签类型的定义,定义标签类型的属性包括名称、级别、显示颜色。用户可以通过该窗口增加个性化标签类型,也可以对已有的标签类型进行修改,或者将已有的标签类型删除。此外,用户也可在此对特定标签类型的属性进行扩展或维护,即可以为标签类型增加个性化的属性,比如字体,字号等。
步骤S3,将个性化定制的结构化标签类型结果按照XML文件形式存储;
更进一步,在将自定义标签类型生成XML文件的方式上也可以个性化自定义,即用户可以自行布局这些个性化标签类型,而不用去关心具体的条目标签是什么。最后显示时只需要把条目标签映射到结构化个性标签类型上,那么结果就自然按照标签类型输出XML文件定义样式显示。
步骤S4,使用条目结构化映射算法将条目标签映射为结构标签,然后按照标签类型输出XML文件中定义的显示样式,将映射结果组装成一个完整的结构化文档输出;
更进一步,可以根据标题内容、章节级别、标签树层级、映射标签类型进行快速查找需要映射的条目;通过某一属性对收集到的条目进行排序;使用一个或多个属性、兄弟层次关系对条目进行筛选查找或对条目层级结构进行预览等;
具体步骤包括:首先解析文档,收集对应的条目资源,并获取各个条目的属性信息,包括章节级别、标签树层级,条目标签的标题内容,对应的结构类型;然后根据条目属性筛选需要映射的条目;最后批量地对已映射的条目增加对应的个性化结构标签类型。
步骤S5,将映射结果组合成完整结构化文档输出。
图4示出了根据本发明实施例的用于提取文档结构的装置的示意图,包括:
识别模块10,用于以预设的内容样式规则识别文档的内容的颗粒;
条目标注模块20,用于以条目标签标注颗粒;
映射选择模块30,用于从预设的映射规则组中选择与文档的类型相对应的映射规则;
映射模块40,用于使用选择的映射规则将条目标签映射到结构标签;
结构标注模块50,用于使用结构标签标注颗粒。
本装置提高了提取文档结构的效率。
优选地,条目标签包括:颗粒的段落标题、段落内容、位置和层级,结构标签包括条目标签的内容,还包括:名称,用于指示颗粒的结构类型;范围,用于指示当前颗粒的起始位置到下一颗粒的起始位置的内容。
优选地,本装置还包括:显示选择模块,用于从显示规则组选择与文档的类型相对应的显示规则;显示模块,用于使用选择的显示规则,根据结构标签的标注显示文档的内容。
从以上的描述中可以看出,本发明上述的实施例主要应用于将文档条目标签批量地映射为结构标签,以实现对篇章、条目的结构化,从而输出XML文件到资源数据库。本发明达到了快速结构化的目标。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用于提取文档结构的方法,其特征在于,包括:
以预设的内容样式规则识别文档的内容的颗粒;
以条目标签标注所述颗粒;
从预设的映射规则组中选择与所述文档的类型相对应的映射规则;
使用所述选择的映射规则将所述条目标签映射到结构标签;
使用所述结构标签标注所述颗粒。
2.根据权利要求1所述的方法,其特征在于,所述条目标签包括:所述颗粒的段落标题、段落内容、位置和层级;所述文档的类型包括以下至少之一:新闻、小说、课文、论文、辞书、试卷。
3.根据权利要求1所述的方法,其特征在于,所述结构标签包括所述条目标签的内容,还包括:名称,用于指示所述颗粒所述的结构类型;范围,用于指示当前所述颗粒的起始位置到下一所述颗粒的起始位置的内容。
4.根据权利要求1所述的方法,其特征在于,还包括:
从显示规则组选择与所述文档的类型相对应的显示规则;
使用所述选择的显示规则,根据所述结构标签的标注显示所述文档的内容。
5.根据权利要求4所述的方法,其特征在于,采用XML格式定义所述显示规则。
6.根据权利要求1至4任一项所述的方法,其特征在于,还包括:
提供界面,接受用户自定义新的映射规则或者修改已有的所述映射规则。
7.根据权利要求1至4任一项所述的方法,其特征在于,采用XML格式定义所述内容样式匹配规则和所述映射规则。
8.一种用于提取文档结构的装置,其特征在于,包括:
识别模块,用于以预设的内容样式规则识别文档的内容的颗粒;
条目标注模块,用于以条目标签标注所述颗粒;
映射选择模块,用于从预设的映射规则组中选择与所述文档的类型相对应的映射规则;
映射模块,用于使用所述选择的映射规则将所述条目标签映射到结构标签;
结构标注模块,用于使用所述结构标签标注所述颗粒。
9.根据权利要求8所述的装置,其特征在于,条目标签包括颗粒的段落标题、段落内容、位置和层级;所述结构标签包括所述条目标签的内容,还包括:名称,用于指示所述颗粒所述的结构类型;范围,用于指示当前所述颗粒的起始位置到下一所述颗粒的起始位置的内容。
10.根据权利要求8所述的装置,其特征在于,还包括:
显示选择模块,用于从显示规则组选择与所述文档的类型相对应的显示规则;
显示模块,用于使用所述选择的显示规则,根据所述结构标签的标注显示所述文档的内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102591727A CN102982028A (zh) | 2011-09-02 | 2011-09-02 | 用于提取文档结构的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102591727A CN102982028A (zh) | 2011-09-02 | 2011-09-02 | 用于提取文档结构的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102982028A true CN102982028A (zh) | 2013-03-20 |
Family
ID=47856067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102591727A Pending CN102982028A (zh) | 2011-09-02 | 2011-09-02 | 用于提取文档结构的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102982028A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591920A (zh) * | 2011-12-19 | 2012-07-18 | 刘松涛 | 对文档管理***中的文档集合进行分类的方法以及*** |
CN103729412A (zh) * | 2013-12-11 | 2014-04-16 | 《中国激光》杂志社有限公司 | 适用于大规模文献集群移动数字出版的***和方法 |
CN106845467A (zh) * | 2016-12-14 | 2017-06-13 | 北京航天测控技术有限公司 | 基于光学字符识别技术的航空维修工卡工作内容识别方法 |
CN107391650A (zh) * | 2017-07-14 | 2017-11-24 | 北京神州泰岳软件股份有限公司 | 一种文档的结构化拆分方法,装置及*** |
CN107622087A (zh) * | 2017-08-17 | 2018-01-23 | 珠海云游道科技有限责任公司 | 便于用户操作的文档管理装置及方法 |
CN107632969A (zh) * | 2017-08-17 | 2018-01-26 | 珠海云游道科技有限责任公司 | 用于管理信息***的文档生成方法及装置 |
CN105786775B (zh) * | 2014-12-23 | 2018-11-16 | 珠海金山办公软件有限公司 | 文档大纲图生成方法及*** |
CN113065337A (zh) * | 2021-02-26 | 2021-07-02 | 成都环宇知了科技有限公司 | 一种基于OpenXml的定位文档并进行评分的方法及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101436185A (zh) * | 2007-11-12 | 2009-05-20 | 北大方正集团有限公司 | 一种利用xml内存树实现多种文件兼容的方法 |
CN101488123A (zh) * | 2008-01-16 | 2009-07-22 | 鸿富锦精密工业(深圳)有限公司 | 文本解析***及方法 |
CN101561826A (zh) * | 2009-05-18 | 2009-10-21 | 汤胤 | 基于节点粒度语义的在线非结构化文档共享协同方法及其应用 |
-
2011
- 2011-09-02 CN CN2011102591727A patent/CN102982028A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101436185A (zh) * | 2007-11-12 | 2009-05-20 | 北大方正集团有限公司 | 一种利用xml内存树实现多种文件兼容的方法 |
CN101488123A (zh) * | 2008-01-16 | 2009-07-22 | 鸿富锦精密工业(深圳)有限公司 | 文本解析***及方法 |
CN101561826A (zh) * | 2009-05-18 | 2009-10-21 | 汤胤 | 基于节点粒度语义的在线非结构化文档共享协同方法及其应用 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591920A (zh) * | 2011-12-19 | 2012-07-18 | 刘松涛 | 对文档管理***中的文档集合进行分类的方法以及*** |
CN102591920B (zh) * | 2011-12-19 | 2013-11-20 | 刘松涛 | 对文档管理***中的文档集合进行分类的方法以及*** |
CN103729412A (zh) * | 2013-12-11 | 2014-04-16 | 《中国激光》杂志社有限公司 | 适用于大规模文献集群移动数字出版的***和方法 |
CN105786775B (zh) * | 2014-12-23 | 2018-11-16 | 珠海金山办公软件有限公司 | 文档大纲图生成方法及*** |
CN106845467A (zh) * | 2016-12-14 | 2017-06-13 | 北京航天测控技术有限公司 | 基于光学字符识别技术的航空维修工卡工作内容识别方法 |
CN107391650A (zh) * | 2017-07-14 | 2017-11-24 | 北京神州泰岳软件股份有限公司 | 一种文档的结构化拆分方法,装置及*** |
CN107622087A (zh) * | 2017-08-17 | 2018-01-23 | 珠海云游道科技有限责任公司 | 便于用户操作的文档管理装置及方法 |
CN107632969A (zh) * | 2017-08-17 | 2018-01-26 | 珠海云游道科技有限责任公司 | 用于管理信息***的文档生成方法及装置 |
CN107622087B (zh) * | 2017-08-17 | 2024-03-22 | 珠海云游道科技有限责任公司 | 便于用户操作的文档管理装置及方法 |
CN107632969B (zh) * | 2017-08-17 | 2024-03-29 | 珠海云游道科技有限责任公司 | 用于管理信息***的文档生成方法及装置 |
CN113065337A (zh) * | 2021-02-26 | 2021-07-02 | 成都环宇知了科技有限公司 | 一种基于OpenXml的定位文档并进行评分的方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102982028A (zh) | 用于提取文档结构的方法和装置 | |
CN110889883B (zh) | 一种自适应的智能横幅广告图片生成方法及*** | |
Clausner et al. | Aletheia-an advanced document layout and text ground-truthing system for production environments | |
CN101079024B (zh) | 一种专业词表动态生成***和方法 | |
US20110125724A1 (en) | Intelligent search system | |
US20130283148A1 (en) | Extraction of Content from a Web Page | |
US20130205202A1 (en) | Transformation of a Document into Interactive Media Content | |
CN106528526B (zh) | 一种基于贝叶斯分词算法的中文地址语义标注方法 | |
US20050066267A1 (en) | Information processing system and method, program, and recording medium | |
CN104809142A (zh) | 商标查询***和方法 | |
CN101593200A (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN101751379B (zh) | 一种电子报纸文档制作的方法和设备 | |
CN101770291B (zh) | 输入***语意分析数据散列存储和分析方法 | |
EP2599013A1 (en) | Visual separator detection in web pages by using code analysis | |
Cheng et al. | M6doc: A large-scale multi-format, multi-type, multi-layout, multi-language, multi-annotation category dataset for modern document layout analysis | |
CN101727438A (zh) | 一种数字报刊版面信息的自动提取方法 | |
EP2544100A2 (en) | Method and system for making document modules | |
CN105740355A (zh) | 基于聚集文本密度的网页正文提取方法及装置 | |
CN114359924A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN102629244B (zh) | 多语言工卡生成***及方法 | |
Prakash et al. | Information extraction in unstructured multilingual web documents | |
CN106503002A (zh) | 一种以若干标签替代标题显示商品主要信息的方法 | |
Ishihara et al. | Analyzing visual layout for a non-visual presentation-document interface | |
Gao et al. | Newspaper article reconstruction using ant colony optimization and bipartite graph | |
CN114511741A (zh) | 图像的识别方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130320 |