CN110287379B - 一种基于逻辑树的表格拆分与数据提取方法 - Google Patents

一种基于逻辑树的表格拆分与数据提取方法 Download PDF

Info

Publication number
CN110287379B
CN110287379B CN201910523223.9A CN201910523223A CN110287379B CN 110287379 B CN110287379 B CN 110287379B CN 201910523223 A CN201910523223 A CN 201910523223A CN 110287379 B CN110287379 B CN 110287379B
Authority
CN
China
Prior art keywords
logic
data
tree
splitting
logic tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910523223.9A
Other languages
English (en)
Other versions
CN110287379A (zh
Inventor
曾伟
李响
谭畅
李科君
陈小刚
王汝平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Big Data Research Institute Co Ltd
Original Assignee
CETC Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Big Data Research Institute Co Ltd filed Critical CETC Big Data Research Institute Co Ltd
Priority to CN201910523223.9A priority Critical patent/CN110287379B/zh
Publication of CN110287379A publication Critical patent/CN110287379A/zh
Application granted granted Critical
Publication of CN110287379B publication Critical patent/CN110287379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于逻辑树的表格拆分与数据提取方法,通构建表格逻辑树方式对表格进行按逻辑行和逻辑列的拆分,并通过对应到逻辑树的位置进行编码。通过逻辑树的表格拆分方式,实现了灵活地对表格进行搜索查询、拆分和数据提取,便于在政务数据表格处理的过程中,将不同部门的表格汇总到上级部门,同时也可以快速为下级部门提取所需的数据信息,实现了表格的智能关联。

Description

一种基于逻辑树的表格拆分与数据提取方法
技术领域
本发明涉及表格数据管理领域,特别涉及一种基于逻辑树的表格拆分与数据提取方法。
背景技术
表格是一种可视化交流模式,又是一种组织整理数据的手段,普遍存在于政务、财务等信息数据处理过程中。逻辑清晰、灵活性强的表格十分有利于数据的收集整理和提炼,是支撑数据分析的基础。目前表格的结构和语义复杂多变,缺乏有效的组织管理,录入和读取基本依赖于人工处理。尤其是涉及大量来自不同机构的表格进行管理的过程中,需要重新定义表格的格式后进行汇总和查询,随着数据量的加大,效率极差。
本发明提出一种表格的拆分方法,基于本发明的表格模板,电子表格可以根据清晰的逻辑,灵活地对表格进行搜索查询、拆分和数据提取。本发明提出的表格拆分与数据提取方法可应用于政务数据表格的处理,可以将不同部门的数据表格信息汇总到上级部门,同时也能为下级部门提取所需要的数据信息,实现智能表格关联,智能数据管理,支撑智能业务审批。
发明内容
为了解决现有技术中的问题,本发明提供一种基于逻辑树的表格拆分与数据提取方法,具体包括:
一种基于逻辑树的表格拆分与数据提取方法,其特征在于,包括以下步骤:表格读取、逻辑划分、表格拆分、逻辑树建立、数据提取,更进一步的包括:
表格读取:支持多种格式的表格数据文件的读取,并将表格文件中的数据转化成当前处理操作所需的统一格式;
逻辑划分:通过对表格的格式读取后进行逻辑结构的划分,包括逻辑行和逻辑列的划分;
表格拆分:对于任意表格T,对于表格T内的任意矩形区域TS,且TS≠T,当TS=T时,则表TS为表格T的水平拆分子表,当TS=T时,则表TS为表格T的垂直拆分子表,对于任意的逻辑行或逻辑列C,当C与表TS的交集为空或为C本身时,则成TS为表格T的逻辑拆分子表;
逻辑树建立:逻辑树分为水平逻辑树和垂直逻辑树,根据逻辑划分和表格拆分中形成的表格逻辑关系,针对表格T建立的逻辑树,其中逻辑树的叶子节点为表格T的逻辑行或逻辑列,通过按行或按列的方式进行拆分,其中按行进行拆分时,叶子节点高度相等,左右相邻,按列进行拆分时,叶子节点宽度相等、上下相邻;
数据提取:数据提取建立在对逻辑树格式的数据查询的基础上完成,其中先根据水平和垂直逻辑树进行搜索查询,根据关键词匹配,建立行和列的标题集,然后根据标题集定位数据的位置。
所述表格读取步骤中,统一格式为记录表格的行列数据以及相互数据之间的排列顺序的格式,其不依赖于原有文件格式。
所述逻辑行是指除表格自身外,高度相等且上下边界相连的最大的矩形列;逻辑列是指除表格自身外,宽度相等且左右边界相连的最大矩形行。
还包括数据融合,具体为根据不同表格的数据结构所建立的逻辑树,通过树结构之间的匹配,完成相同类型数据结构的逻辑树合并,从而形成新的逻辑树,其中包括原始两个表格中的全部数据。
新建立的逻辑树适用于数据搜索和提取。
本发明的有益效果是:
1.本发明提出的表格的拆分和数据提取,可以将不同表的数据自动拆分,自动提取数据。
2.本发明提出的表格拆分可以根据拆分逻辑组织提取数据,可以实现表格与数据库的关联,非常适用于表格数据管理。
3.本发明提出的表格拆分与数据提取基于逻辑树的组织方式,实现了表格数据的高效率搜索。
4.本发明的表格拆分与数据提取根据整体和局部的关系,逐级拆分,使用整体树和多级的局部树的关系,具有清晰的逻辑关系。
5.本发明的表格数据提取和嵌入过程是全自动的,适合大批量的数据表格处理。
6.本发明的表格处理方法适用于符合定义逻辑的所有表格,不受表格格式的限制。
附图说明
图1为方法流程图;
图2为表格T;
图3为表格T水平拆分示意图;
图4为表格T的水平逻辑树;
图5为表格T的垂直逻辑树;
具体实施方式
以下结合具体实施方式对本发明作进一步详细的描述,但本发明的实施方式并不限于此。
实施例:
如图1所示,一种基于逻辑树的表格拆分与数据提取方法,其特征在于,包括以下步骤:表格读取、逻辑划分、表格拆分、逻辑树建立、数据提取,更进一步的包括:
表格读取:支持多种格式的表格数据文件的读取,并将表格文件中的数据转化成当前处理操作所需的统一格式;
逻辑划分:通过对表格的格式读取后进行逻辑结构的划分,包括逻辑行和逻辑列的划分;
进一步的根据附图2中所示,在表格T中根据表格逻辑,在水平方向,我们很容易得到单元格8、9、10属于一个层级的逻辑单元,即{8,9,10}∈G,同理,{11,12,13}∈G;同理,往上扩展一级,{7,{8,9,10},{11,12,13}}∈F,{14,15,16}∈F,{17,18,19}∈F;垂直的方向与此类似。
表格拆分:对于任意表格T,对于表格T内的任意矩形区域TS,且TS≠T,当TS=T时,则表TS为表格T的水平拆分子表,当TS=T时,则表TS为表格T的垂直拆分子表,对于任意的逻辑行或逻辑列C,当C与表TS的交集为空或为C本身时,则成TS为表格T的逻辑拆分子表;
更进一步的,如附图3中所示,通过单元格之间的这种逻辑关系,逐层拆分整个表格为子表。根据单元格之间的逻辑强弱关系,将每个层级的节点对应到一棵逻辑树上,树的每一个节点都对应一个完整的逻辑单元,节点之间对应并列和包含关系。其中TS2,TS3,TS4是TS1的原子水平拆分子表。表格X没有逻辑水平拆分子表,因为TS1、TS2、TS4都部分包含了逻辑列问{4,9,12,15,18}和{5,10,13,16,19},TS3部分包含了{1,3}。
逻辑树建立:逻辑树分为水平逻辑树和垂直逻辑树,根据逻辑划分和表格拆分中形成的表格逻辑关系,针对表格T建立的逻辑树,其中逻辑树的叶子节点为表格T的逻辑行或逻辑列,通过按行或按列的方式进行拆分,其中按行进行拆分时,叶子节点高度相等,左右相邻,按列进行拆分时,叶子节点宽度相等、上下相邻;
如附图4、5中所示,逻辑树的构建规则为:
a.如果T有原子水平(垂直)拆分子表,建立一个V(H)节点作为根节点,否则建立一个H(V)节点作为根节点。
b.V(H)节点的直接子节点为其对应表格或者子表的原子水平(垂直)拆分子表。只包含一个逻辑行(列)的原子水平(垂直)拆分子表用一个叶子节点表示,否则用一个H(V)节点表示。
c.H(V)节点的直接子节点为其对应表格或者子表的逻辑垂直(水平)拆分子表。只包含一个逻辑行(列)的逻辑垂直(水平)拆分子表用一个叶子节点表示,否则用一个V(H)节点表示。
数据提取:数据提取建立在对逻辑树格式的数据查询的基础上完成,其中先根据水平和垂直逻辑树进行搜索查询,根据关键词匹配,建立行和列的标题集,然后根据标题集定位数据的位置。
进一步的,数据提取过程中,关键词匹配是独立的标题匹配,即在树中是独立模块。定位到的水平标题集定义为:HD,垂直标题集定义为:VD。如需查询“B”和“F”下的“G”的数据,根据树的关键词匹配可以得到HD={6,7},VD={2}。
先搜索Htree树,根据HD={6,7},可以搜索到HD包含的行子集为HDs1={8,9,10}和HDs2{11,12,13}。
搜索Vtree树,根据VD={2},可以搜索到VD包含的行子集为VDs1={4,9,12,15,18},VDs2={5,10,13,16,19}
取两棵树搜索到子集的交集。即得D=(HDs1∪HDs2)∩(VDs1∪VDs2)={9,10,12,13},则D为提取的目标数据集。
所述表格读取步骤中,统一格式为记录表格的行列数据以及相互数据之间的排列顺序的格式,其不依赖于原有文件格式。
所述逻辑行是指除表格自身外,高度相等且上下边界相连的最大的矩形列;逻辑列是指除表格自身外,宽度相等且左右边界相连的最大矩形行。
还包括数据融合,具体为根据不同表格的数据结构所建立的逻辑树,通过树结构之间的匹配,完成相同类型数据结构的逻辑树合并,从而形成新的逻辑树,其中包括原始两个表格中的全部数据。
新建立的逻辑树适用于数据搜索和提取。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于逻辑树的表格拆分与数据提取方法,其特征在于,包括以下步骤:表格读取、逻辑划分、表格拆分、逻辑树建立、数据提取,更进一步的包括:
表格读取:支持多种格式的表格数据文件的读取,并将表格文件中的数据转化成当前处理操作所需的统一格式;
逻辑划分:通过对表格的格式读取后进行逻辑结构的划分,包括逻辑行和逻辑列的划分;
表格拆分:对于任意表格T,对于表格T内的任意矩形区域TS,且TS≠T,当TS=T时,则表TS为表格T的水平拆分子表,当TS=T时,则表TS为表格T的垂直拆分子表,对于任意的逻辑行或逻辑列C,当C与表TS的交集为空或为C本身时,则成TS为表格T的逻辑拆分子表;
逻辑树建立:逻辑树分为水平逻辑树和垂直逻辑树,根据逻辑划分和表格拆分中形成的表格逻辑关系,针对表格T建立的逻辑树,其中逻辑树的叶子节点为表格T的逻辑行或逻辑列,通过按行或按列的方式进行拆分,其中按行进行拆分时,叶子节点高度相等,左右相邻,按列进行拆分时,叶子节点宽度相等、上下相邻;
数据提取:数据提取建立在对逻辑树格式的数据查询的基础上完成,其中先根据水平和垂直逻辑树进行搜索查询,根据关键词匹配,建立行和列的标题集,然后根据标题集定位数据的位置;
所述逻辑行是指除表格自身外,高度相等且上下边界相连的最大的矩形行;逻辑列是指除表格自身外,宽度相等且左右边界相连的最大矩形列。
2.如权利要求1所述方法,其特征在于,所述表格读取步骤中,统一格式为记录表格的行列数据以及相互数据之间的排列顺序的格式,其不依赖于原有文件格式。
3.如权利要求1所述的方法,其特征在于,还包括数据融合,具体为根据不同表格的数据结构所建立的逻辑树,通过树结构之间的匹配,完成相同类型数据结构的逻辑树合并,从而形成新的逻辑树,其中包括原始两个表格中的全部数据。
4.如权利要求3所述的方法,其特征在于,新建立的逻辑树适用于数据搜索和提取。
CN201910523223.9A 2019-06-17 2019-06-17 一种基于逻辑树的表格拆分与数据提取方法 Active CN110287379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910523223.9A CN110287379B (zh) 2019-06-17 2019-06-17 一种基于逻辑树的表格拆分与数据提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910523223.9A CN110287379B (zh) 2019-06-17 2019-06-17 一种基于逻辑树的表格拆分与数据提取方法

Publications (2)

Publication Number Publication Date
CN110287379A CN110287379A (zh) 2019-09-27
CN110287379B true CN110287379B (zh) 2022-12-06

Family

ID=68004146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910523223.9A Active CN110287379B (zh) 2019-06-17 2019-06-17 一种基于逻辑树的表格拆分与数据提取方法

Country Status (1)

Country Link
CN (1) CN110287379B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668288A (zh) * 2020-12-24 2021-04-16 江苏省送变电有限公司 一种继电保护装置定值校核仪智能提取定值单项的方法
CN113673213B (zh) * 2021-08-25 2023-11-07 北京智通云联科技有限公司 基于模板的表格信息抽取方法及***
CN114281823B (zh) 2021-12-17 2023-08-29 北京百度网讯科技有限公司 表格处理方法、装置、设备、存储介质及产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007286861A (ja) * 2006-04-17 2007-11-01 Hitachi Ltd 文書構造抽出方法および文書検索方法
CN102103587A (zh) * 2009-12-17 2011-06-22 北大方正集团有限公司 一种表格转换的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007286861A (ja) * 2006-04-17 2007-11-01 Hitachi Ltd 文書構造抽出方法および文書検索方法
CN102103587A (zh) * 2009-12-17 2011-06-22 北大方正集团有限公司 一种表格转换的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep Web信息抽取技术研究;郭偲;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20160615;全文 *
面向主题的半结构数据集成方法研究;苏慧丽;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20181115;全文 *

Also Published As

Publication number Publication date
CN110287379A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110287379B (zh) 一种基于逻辑树的表格拆分与数据提取方法
CN109446344B (zh) 一种基于大数据的智能分析报告自动生成***
CN110929042B (zh) 一种基于电力企业的知识图谱构建和查询方法
CN103631907B (zh) 一种将关系型数据迁移至HBase的方法及***
CN101840400B (zh) 一种多级分类检索方法及***
CN111382226A (zh) 一种数据库查询检索方法、装置和电子设备
CN102388374A (zh) 存储数据的方法和装置
US8880463B2 (en) Standardized framework for reporting archived legacy system data
CN109299154B (zh) 一种大数据的数据存储***及方法
CN102467521A (zh) 一种易扩展的多级分类检索方法及***
CN104102737A (zh) 一种历史数据存储方法和***
CN102117289B (zh) 一种从网页中抽取评论内容的方法和装置
CN109684336A (zh) 基于大数据应用实现树形数据表高效检索与排序功能的***及方法
CN111145855A (zh) 一种临床pdf报告自动化生成方法及***
CN104573022A (zh) 一种HBase的数据查询方法及装置
CN112416923A (zh) 一种元数据管理方法及装置、设备、存储介质
CN103399924A (zh) 一种水文水资源数据目录生成***及方法
CN105760505A (zh) 基于hive的历史数据分析及存档方法
CN104615734B (zh) 一种社区管理服务大数据处理***及其处理方法
CN112732680A (zh) 一种数据仓库设计方法
CN112270628A (zh) 一种知识产权专题库管理方法及***
CN110851663B (zh) 管理元数据的方法和装置
CN104408128B (zh) 一种基于b+树异步更新索引的读优化方法
CN106503040A (zh) 适用sql查询方法的kv数据库及其创建方法
CN112084248A (zh) 基于图数据库的智能数据检索查阅与模型获取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant