CN110287379B

CN110287379B - 一种基于逻辑树的表格拆分与数据提取方法

Info

Publication number: CN110287379B
Application number: CN201910523223.9A
Authority: CN
Inventors: 曾伟; 李响; 谭畅; 李科君; 陈小刚; 王汝平
Original assignee: CETC Big Data Research Institute Co Ltd
Current assignee: CETC Big Data Research Institute Co Ltd
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2022-12-06
Anticipated expiration: 2039-06-17
Also published as: CN110287379A

Abstract

本发明提供一种基于逻辑树的表格拆分与数据提取方法，通构建表格逻辑树方式对表格进行按逻辑行和逻辑列的拆分，并通过对应到逻辑树的位置进行编码。通过逻辑树的表格拆分方式，实现了灵活地对表格进行搜索查询、拆分和数据提取，便于在政务数据表格处理的过程中，将不同部门的表格汇总到上级部门，同时也可以快速为下级部门提取所需的数据信息，实现了表格的智能关联。

Description

一种基于逻辑树的表格拆分与数据提取方法

技术领域

本发明涉及表格数据管理领域，特别涉及一种基于逻辑树的表格拆分与数据提取方法。

背景技术

表格是一种可视化交流模式，又是一种组织整理数据的手段，普遍存在于政务、财务等信息数据处理过程中。逻辑清晰、灵活性强的表格十分有利于数据的收集整理和提炼，是支撑数据分析的基础。目前表格的结构和语义复杂多变，缺乏有效的组织管理，录入和读取基本依赖于人工处理。尤其是涉及大量来自不同机构的表格进行管理的过程中，需要重新定义表格的格式后进行汇总和查询，随着数据量的加大，效率极差。

本发明提出一种表格的拆分方法，基于本发明的表格模板，电子表格可以根据清晰的逻辑，灵活地对表格进行搜索查询、拆分和数据提取。本发明提出的表格拆分与数据提取方法可应用于政务数据表格的处理，可以将不同部门的数据表格信息汇总到上级部门，同时也能为下级部门提取所需要的数据信息，实现智能表格关联，智能数据管理，支撑智能业务审批。

发明内容

为了解决现有技术中的问题，本发明提供一种基于逻辑树的表格拆分与数据提取方法，具体包括：

一种基于逻辑树的表格拆分与数据提取方法，其特征在于，包括以下步骤：表格读取、逻辑划分、表格拆分、逻辑树建立、数据提取，更进一步的包括：

表格读取：支持多种格式的表格数据文件的读取，并将表格文件中的数据转化成当前处理操作所需的统一格式；

逻辑划分：通过对表格的格式读取后进行逻辑结构的划分，包括逻辑行和逻辑列的划分；

表格拆分：对于任意表格T，对于表格T内的任意矩形区域TS，且TS≠T，当TS_宽＝T_宽时，则表TS为表格T的水平拆分子表，当TS_高＝T_高时，则表TS为表格T的垂直拆分子表，对于任意的逻辑行或逻辑列C，当C与表TS的交集为空或为C本身时，则成TS为表格T的逻辑拆分子表；

逻辑树建立：逻辑树分为水平逻辑树和垂直逻辑树，根据逻辑划分和表格拆分中形成的表格逻辑关系，针对表格T建立的逻辑树，其中逻辑树的叶子节点为表格T的逻辑行或逻辑列，通过按行或按列的方式进行拆分，其中按行进行拆分时，叶子节点高度相等，左右相邻，按列进行拆分时，叶子节点宽度相等、上下相邻；

数据提取：数据提取建立在对逻辑树格式的数据查询的基础上完成，其中先根据水平和垂直逻辑树进行搜索查询，根据关键词匹配，建立行和列的标题集，然后根据标题集定位数据的位置。

所述表格读取步骤中，统一格式为记录表格的行列数据以及相互数据之间的排列顺序的格式，其不依赖于原有文件格式。

所述逻辑行是指除表格自身外，高度相等且上下边界相连的最大的矩形列；逻辑列是指除表格自身外，宽度相等且左右边界相连的最大矩形行。

还包括数据融合，具体为根据不同表格的数据结构所建立的逻辑树，通过树结构之间的匹配，完成相同类型数据结构的逻辑树合并，从而形成新的逻辑树，其中包括原始两个表格中的全部数据。

新建立的逻辑树适用于数据搜索和提取。

本发明的有益效果是：

1.本发明提出的表格的拆分和数据提取，可以将不同表的数据自动拆分，自动提取数据。

2.本发明提出的表格拆分可以根据拆分逻辑组织提取数据，可以实现表格与数据库的关联，非常适用于表格数据管理。

3.本发明提出的表格拆分与数据提取基于逻辑树的组织方式，实现了表格数据的高效率搜索。

4.本发明的表格拆分与数据提取根据整体和局部的关系，逐级拆分，使用整体树和多级的局部树的关系，具有清晰的逻辑关系。

5.本发明的表格数据提取和嵌入过程是全自动的，适合大批量的数据表格处理。

6.本发明的表格处理方法适用于符合定义逻辑的所有表格，不受表格格式的限制。

附图说明

图1为方法流程图；

图2为表格T；

图3为表格T水平拆分示意图；

图4为表格T的水平逻辑树；

图5为表格T的垂直逻辑树；

具体实施方式

以下结合具体实施方式对本发明作进一步详细的描述，但本发明的实施方式并不限于此。

实施例：

如图1所示，一种基于逻辑树的表格拆分与数据提取方法，其特征在于，包括以下步骤：表格读取、逻辑划分、表格拆分、逻辑树建立、数据提取，更进一步的包括：

进一步的根据附图2中所示，在表格T中根据表格逻辑，在水平方向，我们很容易得到单元格8、9、10属于一个层级的逻辑单元，即{8,9,10}∈G，同理，{11,12,13}∈G；同理,往上扩展一级，{7,{8,9,10},{11,12,13}}∈F，{14,15,16}∈F,{17,18,19}∈F；垂直的方向与此类似。

更进一步的，如附图3中所示，通过单元格之间的这种逻辑关系，逐层拆分整个表格为子表。根据单元格之间的逻辑强弱关系，将每个层级的节点对应到一棵逻辑树上，树的每一个节点都对应一个完整的逻辑单元，节点之间对应并列和包含关系。其中TS2,TS3,TS4是TS1的原子水平拆分子表。表格X没有逻辑水平拆分子表，因为TS1、TS2、TS4都部分包含了逻辑列问{4,9,12,15,18}和{5,10,13,16,19},TS3部分包含了{1,3}。

如附图4、5中所示，逻辑树的构建规则为：

a.如果T有原子水平(垂直)拆分子表，建立一个V(H)节点作为根节点,否则建立一个H(V)节点作为根节点。

b.V(H)节点的直接子节点为其对应表格或者子表的原子水平(垂直)拆分子表。只包含一个逻辑行(列)的原子水平(垂直)拆分子表用一个叶子节点表示，否则用一个H(V)节点表示。

c.H(V)节点的直接子节点为其对应表格或者子表的逻辑垂直(水平)拆分子表。只包含一个逻辑行(列)的逻辑垂直(水平)拆分子表用一个叶子节点表示，否则用一个V(H)节点表示。

进一步的，数据提取过程中，关键词匹配是独立的标题匹配，即在树中是独立模块。定位到的水平标题集定义为：HD，垂直标题集定义为：VD。如需查询“B”和“F”下的“G”的数据，根据树的关键词匹配可以得到HD＝{6,7},VD＝{2}。

先搜索Htree树，根据HD＝{6,7}，可以搜索到HD包含的行子集为HDs1＝{8,9,10}和HDs2{11,12,13}。

搜索Vtree树，根据VD＝{2}，可以搜索到VD包含的行子集为VDs1＝{4,9,12,15,18}，VDs2＝{5,10,13,16,19}

取两棵树搜索到子集的交集。即得D＝(HDs1∪HDs2)∩(VDs1∪VDs2)＝{9,10,12,13}，则D为提取的目标数据集。

新建立的逻辑树适用于数据搜索和提取。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于逻辑树的表格拆分与数据提取方法，其特征在于，包括以下步骤：表格读取、逻辑划分、表格拆分、逻辑树建立、数据提取，更进一步的包括：

数据提取：数据提取建立在对逻辑树格式的数据查询的基础上完成，其中先根据水平和垂直逻辑树进行搜索查询，根据关键词匹配，建立行和列的标题集，然后根据标题集定位数据的位置；

所述逻辑行是指除表格自身外，高度相等且上下边界相连的最大的矩形行；逻辑列是指除表格自身外，宽度相等且左右边界相连的最大矩形列。

2.如权利要求1所述方法，其特征在于，所述表格读取步骤中，统一格式为记录表格的行列数据以及相互数据之间的排列顺序的格式，其不依赖于原有文件格式。

3.如权利要求1所述的方法，其特征在于，还包括数据融合，具体为根据不同表格的数据结构所建立的逻辑树，通过树结构之间的匹配，完成相同类型数据结构的逻辑树合并，从而形成新的逻辑树，其中包括原始两个表格中的全部数据。

4.如权利要求3所述的方法，其特征在于，新建立的逻辑树适用于数据搜索和提取。