CN111125221B

CN111125221B - 基于Excel格式的数据提取***及配置方法

Info

Publication number: CN111125221B
Application number: CN201911317938.5A
Authority: CN
Inventors: 吴非; 陆欢旺; 徐剑刚
Original assignee: Shanghai Sandao Intelligent Technology Co ltd
Current assignee: Shanghai Sandao Intelligent Technology Co ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2023-05-05
Anticipated expiration: 2039-12-19
Also published as: CN111125221A

Abstract

本发明涉及数据处理的技术领域，具体公开了一种基于Excel格式的数据提取***及配置方法，***包括依次连接的模板生成单元、模板匹配单元、数据提取单元。方法包括：首先通过模板生成单元生成多个模板，通过模板定义需要提取的数据以及数据间的关系，然后上传Excel数据文件，并将Excel数据文件与各模板依次进行匹配，以确定匹配值最高的模板，通过数据提取单元以具有最高匹配值的模板从Excel数据文件中提取对应的有效数据，从而实现了从Excel数据文件提取数据，本发明提供的基于Excel格式的数据提取***及配置方法，代替了人工手动录入，提高了据导入效率，简化了流程，同时也降低了错误率。

Description

基于Excel格式的数据提取***及配置方法

技术领域

本发明涉及数据处理的技术领域，尤其是涉及一种基于Excel格式的数据提取***及配置方法。

背景技术

互联网信息时代的今天，计算机数据处理代替了人工办公，但是，在某些***的某些场景中，需要通过Excel 表格导入数据到***中。现有的导入方式是提供固定的模板，用户仍需通过依次填充数据后再导入应用***中。

比如，在学生管理***中，需要将全班学生的姓名、性别、学号等信息导入，现有的导入方式是需要在学生管理***中建立固定的模板，然后将全班学生的姓名、性别、学号等信息依次输入至模板中；又如在进出口货物装船出运前，均需向海关进行申报，同一属性的数据（即同一货物申报的数据）均包括箱单、***、运单、合同等多种数据，在向***中导入相关数据时，也是需要在管理***中建立固定的模板，然后将需要的数据依次输入至模板中以实现数据的导入。以上操作不仅繁琐，耗时耗力，而且容易出错。

发明内容

针对现有技术存在的不足，本发明的目的之一是提供一种基于Excel格式的数据提取***，其能够提高数据导入效率，同时简化了流程，降低了错误率。

本发明提供的基于Excel格式的数据提取***，包括：

模板生成单元，以定义需要提取的数据，以及数据间的关系，生成多个模板；

模板匹配单元，用于将Excel数据文件与模板生成单元生成的各模板进行匹配，以期确定匹配值最高的模板；

数据提取单元，与所述模板匹配单元连接，采用具有最高匹配值的模板从Excel数据文件中提取对应的有效数据。

通过采用上述技术方案，首先通过模板生成单元生成多个模板，通过模板定义需要提取的数据以及数据间的关系，然后上传Excel数据文件，并将Excel数据文件与各模板依次进行匹配，以确定匹配值最高的模板，通过数据提取单元以具有最高匹配值的模板从Excel数据文件中提取对应的有效数据，从而实现了从Excel数据文件提取数据，代替了人工手动录入，提高了据导入效率，简化了流程，同时也降低了错误率。另外，在上述技术方案中，通过模板生成单元生成多个模板的目的是根据实际需求，提高***的实用性。

本发明在一较佳示例中可以进一步配置为：所述模板生成单元包括：

字段定义单元，定义参照物，并结合正则表达式以定义需要提取的数据的“点”位；

列表定义单元，定义需要提取的数据的区域；

自用列表定义单元，结合定义参照物，以及定义需要提取的数据的区域以确定所述提取的数据的位置；并且通过字段加列表的混合形式确定数据之间的相互关系。

通过采用上述技术方案，字段定义单元，用于定义需要提取的数据所在位置的参照物，以及数据与该参照物的位置关系，即所需要提取的数据与该参照物相邻，比如位于该参照物之后或之前过个字符，从而定义需要提取的数据的“点”位，同时，结合正则表达式提高所要提取数据“点”位的准确性；列表定义单元，定义需要提取的数据的区域，比如定义需要提取的数据位于文件的某行某列；自用列表定义单元，结合字段定义单元和列表定义单元的效果，定义参照物，以及定义需要提取的数据的区域以确定提取的数据的位置；并且通过字段加列表的混合形式确定数据之间的相互关系。

本发明在一较佳示例中可以进一步配置为：还包括：

数据结构化处理单元，分别对数据提取单元提取的有效数据进行结构化处理，以期使各数据生成可结构化存储的中间文件；

数据内容规则模块，预先设定有多种类型标准模型，并分配有对应的类型库，按照类型标准模型对数据结构化处理单元生成的各中间文件进行分类别存储。

通过采用上述技术方案，数据结构化处理单元分别将提取的有效数据进行结构化处理，转化成中间文件，中间文件的特点为具有扩展功能，相同类型的中间文件具有相同的标记，相同类型且不同格式的数据文件对应的中间文件高度相似，因此，便于后续不同格式相同类型的数据文件按照类型进行分类；数据内容规则模块预先设定有多种类型标准模型，并分配有对应的类型库，因此，将中间文件一一与各标准模型进行比对，能够实现匹配的中间文件放置对应的类型库中，从而实现了了数据文件按照类型分类。

本发明在一较佳示例中可以进一步配置为：还包括：

数据存储规则单元，预先设定有最终所需输出数据文件的标准结构；

数据输出单元，分别与所述数据内容规则模块及所述数据存储规则单元连接，以输出与数据存储规则单元设定的标准结构数据。

通过采用上述技术方案，使用者通过数据存储规则单元可预先设定需要输出的数据文件的标准结构，使该***可运用于不同领域，提高了本***的实用性，数据输出单元用于输出与数据存储规则单元设定的标准结构数据。

本发明的第二目的在于提供基于上述基于Excel格式的数据提取***的数据提取方法，包括以下步骤：

S1：模板制作，通过模板定义需要提取的数据，以及数据间的关系，其中，包括若干个不同形式的模板；

S2：匹配模板，上传Excel数据文件，将Excel数据文件依次与各模板进行匹配，选择有效数值匹配最多的模板；

S3：数据解析，抓取Excel数据文件中与所选模板匹配的数据，并将数据转化成中间文件；

S4：数据吐出：将抓取的数据中需要的字段进行清洗、分类、整理融合成一份特定格式的数据，然后输出融合后的数据。

通过采用上述技术方案，首先通过模板生成单元生成多个模板，通过模板定义需要提取的数据以及数据间的关系，然后上传Excel数据文件，并将Excel数据文件与各模板依次进行匹配，以确定匹配值最高的模板，通过数据提取单元以具有最高匹配值的模板从Excel数据文件中提取对应的有效数据，从而实现了从Excel数据文件提取数据，代替了人工手动录入，提高了据导入效率，简化了流程，同时也降低了错误率。

提取数据后，数据结构化处理单元分别将提取的有效数据进行结构化处理，转化成中间文件，中间文件便于后续不同格式相同类型的数据文件按照类型进行分类；数据内容规则模块预先设定有多种类型标准模型，并分配有对应的类型库，因此，将中间文件一一与各标准模型进行比对，能够实现匹配的中间文件放置对应的类型库中，从而实现了了数据文件按照类型分类；使用者通过数据存储规则单元预先设定需要输出的数据文件的标准结构，使该***可运用于不同领域，数据输出单元用于输出与数据存储规则单元设定的标准结构数据。

本发明在一较佳示例中可以进一步配置为，每个模板中包括多个数据项，每个数据项中的数据分别通过字段和/或列表和/或自由列表的方式定义需要提取的数据，并通过自由列表的方式定义数据间的关系。

通过采用上述技术方案，

本发明在一较佳示例中可以进一步配置为：通过字段的方式定义需要提取的数据具体为通过参照物以及正则表达式确定需要提取的数据的“点”位。

通过采用上述技术方案，字段定义单元，用于定义需要提取的数据所在位置的参照物，以及数据与该参照物的位置关系，即所需要提取的数据与该参照物相邻，比如位于该参照物之后或之前过个字符，从而定义需要提取的数据的“点”位，同时，结合正则表达式提高所要提取数据“点”位的准确性。

本发明在一较佳示例中可以进一步配置为：通过列表的方式定义需要提取的数据具体为通过确定数据所在的行和列确定需要提取的数据的区域。

通过采用上述技术方案，；列表定义单元，定义需要提取的数据的区域，比如定义需要提取的数据位于文件的某行某列。

本发明在一较佳示例中可以进一步配置为：通过自由列表的方式定义需要提取的数据具体为通过字段加列表的混合形式确定需要提取的数据的位置，通过自由列表的方式定义数据间的关具体为通过字段加列表的混合形式确定数据之间的相互关系。

通过采用上述技术方案，自用列表定义单元，结合字段定义单元和列表定义单元的效果，定义参照物，以及定义需要提取的数据的区域以确定提取的数据的位置；并且通过字段加列表的混合形式确定数据之间的相互关系。

本发明在一较佳示例中可以进一步配置为：S3包括：

S31：抓取Excel数据文件中与所选模板匹配的数据；

S32：分别对抓取的数据进行结构化处理，以期使各数据生成可结构化存储的中间文件；

S33：按照预先设定有标准模型，对结构化处理后的中间文件进行清洗、分类，存储至对应的类型库中；

S34：按照标准结构，从各类型库中抓取并输出与数据存储规则单元设定的标准结构数据。

通过采用上述技术方案，通过模板从Excel数据文件中提取数据后，数据结构化处理单元分别将提取的有效数据进行结构化处理，转化成中间文件，中间文件便于后续不同格式相同类型的数据文件按照类型进行分类；数据内容规则模块预先设定有多种类型标准模型，并分配有对应的类型库，因此，将中间文件一一与各标准模型进行比对，能够实现匹配的中间文件放置对应的类型库中，从而实现了了数据文件按照类型分类；使用者通过数据存储规则单元预先设定需要输出的数据文件的标准结构，使该***可运用于不同领域，数据输出单元用于输出与数据存储规则单元设定的标准结构数据。

综上所述，本发明包括以下至少一种有益技术效果：

1.通过模板生成单元生成多个模板，通过模板定义需要提取的数据以及数据间的关系，然后上传Excel数据文件，并将Excel数据文件与各模板依次进行匹配，以确定匹配值最高的模板，通过数据提取单元以具有最高匹配值的模板从Excel数据文件中提取对应的有效数据，从而实现了从Excel数据文件提取数据，代替了人工手动录入，提高了据导入效率，简化了流程，同时也降低了错误率。

附图说明

图1是本发明提供的基于Excel格式的数据提取***的结构示意图。

图2是本发明提供的基于Excel格式的数据提取方法的流程图。

图中，1、模板生成单元；2、模板匹配单元；3、数据提取单元；11、字段定义单元；12、列表定义单元；13、自用列表定义单元；4、数据结构化处理单元；5、数据内容规则模块；51、类型库；6、数据存储规则单元；7、数据输出单元。

具体实施方式

以下结合附图对本发明作进一步详细说明。

实施例1：

为本发明公开的一种基于Excel格式的数据提取***，参照图1所示，包括：

模板生成单元1，根据业务需求，生成多个数据提取模板，模板用于定义需要从Excel数据文件中提取的数据，以及定义数据间的关系；具体的，包括：

字段定义单元11，用于定义需要提取的数据所在位置的参照物，以及数据与该参照物的位置关系，即所需要提取的数据与该参照物相邻，比如位于该参照物之后或之前过个字符，从而定义需要提取的数据的“点”位，同时，结合正则表达式提高所要提取数据“点”位的准确性；

列表定义单元12，定义需要提取的数据的区域，比如定义需要提取的数据位于文件的某行某列；

自用列表定义单元13，结合字段定义单元11和列表定义单元12的效果，定义参照物，以及定义需要提取的数据的区域以确定提取的数据的位置；并且通过字段加列表的混合形式确定数据之间的相互关系，比如，定义需要提取的“父”集数据的“点”位，以及提取该“父”集数据下某个区域的“子”集数据，并确定该“父”集数据与“子”集数据之间的关系。

如图1所示，本发明提供披露的基于Excel格式的数据提取***还包括：

模板匹配单元2，分别与字段定义单元11、列表定义单元12及自用列表定义单元13连接，用于将Excel数据文件与模板生成单元1生成的各模板进行匹配，以期确定匹配值最高的模板；

为了提高本发明提供的基于Excel格式的数据提取***的实用性，在使用时候，通常通过模板生成单元1生成多个模板，上传Excel数据文件后，将Excel数据文件依次与各模板进行匹配以确定匹配值最高的模板，其确定的依据即为有效数值匹配最多的模板；

数据提取单元3，与模板匹配单元2连接，数据提取单元3采用模板匹配单元2确定的具有最高匹配值的模板从Excel数据文件中提取对应的有效数据；

数据结构化处理单元4，与数据提取单元3连接，分别对数据提取单元3提取的有效数据进行结构化处理，以期使各数据生成可结构化存储的中间文件，在本发明此实施方式中，数据结构化处理单元4转成可扩展标记语言（XML）文件；

数据内容规则模块5，与数据结构化处理单元4连接，预先设定有多种类型标准模型，并分配有对应的类型库51，按照类型标准模型对数据结构化处理单元4生成的各中间文件进行分类别存储；

数据存储规则单元6，预先设定有最终所需输出数据文件的标准结构；

数据输出单元7，分别与数据内容规则模块5及数据存储规则单元6连接，以输出与数据存储规则单元6设定的标准结构数据。

实施例2：

本发明还披露了基于上述Excel格式的数据提取***的数据提取方法，如图2所示，包括以下步骤：

S1：模板制作，基于模板生成单元1设定提取数据的模板，通过模板定义需要提取的数据，以及数据间的关系，其中，通过模板生成单元1设定若干个不同形式的模板，提高可选性，提高匹配率；另外，每个模板中包括多个数据项，每个数据项中的数据分别通过字段和/或列表和/或自由列表的方式定义需要提取的数据，并通过自由列表的方式定义数据间的关系，通过字段的方式定义需要提取的数据具体为通过参照物以及正则表达式确定需要提取的数据的“点”位；通过列表的方式定义需要提取的数据具体为通过确定数据所在的行和列确定需要提取的数据的区域；通过自由列表的方式定义需要提取的数据具体为通过字段加列表的混合形式确定需要提取的数据的位置，通过自由列表的方式定义数据间的关具体为通过字段加列表的混合形式确定数据之间的相互关系。

S2：匹配模板，上传Excel数据文件，模板匹配单元2将上传的Excel数据文件依次与各模板进行匹配，选择有效数值匹配最多的模板；

S31：数据解析，通过数据提取单元3抓取Excel数据文件中与所选模板匹配的数据；

S32：数据结构化处理单元4分别对抓取的数据进行结构化处理，以期使各数据文件生成可结构化存储的中间文件，在本发明此实施方式中数据结构化处理单元4转成可扩展标记语言（XML）文件；

S33：按照业务要求，预先在数据内容规则模块5中设置存储若干所需的标准模型，同时为对应的标准模型设置对应的类型库51，比如，在本发明此实施方式中，在数据内容规则模块5中设置存储箱单、***、合同、运单等标准模型，并为对应的标准模型设置对用的类型库51，然后按照预先设定的标准模型对结构化处理后的中间文件进行清洗、分类，将不与任何标准模型匹配的数据文件剔除，并将与标准模型匹配的数据文件存储至对应的类型库51中，因此，属于箱单的类型库51中包含符合箱单标准模型的所有格式的数据文件，即Excel、PDF等所有格式的符合箱单标准模型的数据均被融合存储至属于箱单的类型库51，属于***的类型库51中包含符合***标准模型的所有格式的数据文件，即Excel、PDF等所有格式的符合***标准模型的数据均被融合存储至属于***的类型库51，等等；

S34：按照标准结构，按照业务要求，预先在数据存储规则单元6中设置存储最终所需输出数据文件的标准结构，并从各类型库51中抓取并输出与数据存储规则单元6设定的标准结构数据；

S4：数据吐出：数据输出单元7按照数据存储规则单元6中设置存储的最终所需输出数据文件的标准结构从各类型库51中抓取相同属性的数据文件整理融合后输出，比如，预先在数据存储规则单元6中设置的标准结构为具备A属性的货品的箱单、运单及合同，则数据输出单元7分别从箱单、运单及合同的类型库51中抓取具备A属性的数据文件，并按照标准结构输出，从而实现了多格式混合数据的分类再拼接。

本具体实施方式的实施例均为本发明的较佳实施例，并非依此限制本发明的保护范围，故：凡依本发明的结构、形状、原理所做的等效变化，均应涵盖于本发明的保护范围之内。

Claims

1.基于Excel格式的数据提取***，其特征在于，包括：

模板生成单元（1），以定义需要提取的数据，以及数据间的关系，生成多个模板；所述模板生成单元（1）包括：

字段定义单元（11），定义参照物，并结合正则表达式以定义需要提取的数据的“点”位；

列表定义单元（12），定义需要提取的数据的区域；

自用列表定义单元（13），结合定义参照物，以及定义需要提取的数据的区域以确定所述提取的数据的位置；并且通过字段加列表的混合形式确定数据之间的相互关系；

模板匹配单元（2），用于将Excel数据文件与模板生成单元（1）生成的各模板进行匹配，以期确定匹配值最高的模板；

数据提取单元（3），与所述模板匹配单元（2）连接，采用具有最高匹配值的模板从Excel数据文件中提取对应的有效数据。

2.根据权利要求1所述的基于Excel格式的数据提取***，其特征在于，还包括：

数据结构化处理单元（4），分别对数据提取单元（3）提取的有效数据进行结构化处理，以期使各数据生成可结构化存储的中间文件；

数据内容规则模块（5），预先设定有多种类型标准模型，并分配有对应的类型库（51），按照类型标准模型对数据结构化处理单元（4）生成的各中间文件进行分类别存储。

3.根据权利要求2所述的基于Excel格式的数据提取***，其特征在于，还包括：

数据存储规则单元（6），预先设定有最终所需输出数据文件的标准结构；

数据输出单元（7），分别与所述数据内容规则模块（5）及所述数据存储规则单元（6）连接，以输出与数据存储规则单元（6）设定的标准结构数据。

4.基于Excel格式的数据提取方法，其特征在于，包括以下步骤：

S1：模板制作，通过模板定义需要提取的数据，以及数据间的关系，其中，包括若干个不同形式的模板，每个模板中包括多个数据项，每个数据项中的数据分别通过字段和/或列表和/或自由列表的方式定义需要提取的数据，并通过自由列表的方式定义数据间的关系；

5.根据权利要求4所述的基于Excel格式的数据提取方法，其特征在于，通过字段的方式定义需要提取的数据具体为通过参照物以及正则表达式确定需要提取的数据的“点”位。

6.根据权利要求4所述的基于Excel格式的数据提取方法，其特征在于，通过列表的方式定义需要提取的数据具体为通过确定数据所在的行和列确定需要提取的数据的区域。

7.根据权利要求4所述的基于Excel格式的数据提取方法，其特征在于，通过自由列表的方式定义需要提取的数据具体为通过字段加列表的混合形式确定需要提取的数据的位置，通过自由列表的方式定义数据间的关具体为通过字段加列表的混合形式确定数据之间的相互关系。

8.根据权利要求4所述的基于Excel格式的数据提取方法，其特征在于，S3包括：

S31：抓取Excel数据文件中与所选模板匹配的数据；

S33：按照预先设定有标准模型，对结构化处理后的中间文件进行清洗、分类，存储至对应的类型库（51）中；

S34：按照标准结构，从各类型库（51）中抓取并输出与数据存储规则单元（6）设定的标准结构数据。