CN112800049B

CN112800049B - 基于大数据的excel数据源清洗方法、***、电子设备和存储介质

Info

Publication number: CN112800049B
Application number: CN202110364627.5A
Authority: CN
Inventors: 孙东祥; 常卫涛; 张坤; 郑媛媛; 王茹
Original assignee: Aerospace Shenzhou Wisdom System Technology Co ltd
Current assignee: Aerospace Shenzhou Wisdom System Technology Co ltd
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2021-08-03
Anticipated expiration: 2041-04-06
Also published as: CN112800049A

Abstract

本发明涉及一种基于大数据的EXCEL数据源清洗方法、***、电子设备和存储介质，其中方法包括：解析并结构化EXCEL数据源；对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理；对标准化后的EXCEL数据源进行清洗；根据标准数据库对清洗后的EXCEL数据源进行标准匹配并完善数据信息。根据本发明的技术方案，可以有效地提高数据处理的准确率，缓解用户的工作量，为之后的大数据分析和使用提供数据保障。

Description

基于大数据的EXCEL数据源清洗方法、***、电子设备和存储介质

技术领域

本发明涉及数据清洗技术领域，尤其涉及一种基于大数据的EXCEL数据源清洗方法、***、电子设备和存储介质。

背景技术

智慧城市的建设需要大数据技术的支持，当前大数据领域主要针对的是数据的挖掘、分析和使用，而将数据标准性和准确性的处理交给了用户，这样就给用户带来了巨大的工作量。并且，用户花费大量的时间与精力，手工整理出来的数据的准确率还不一定高。

各行各业都拥有大量、不同类型的数据，而这些数据又存在着多种多样的问题，对数据的准确使用造成了很大的障碍。为了消除障碍，就需要对数据进行清洗，从而获得准确而优质的数据。

各行业数据的存储方式主要是EXCEL和各种数据库，存储的结构也是各种各样，如果要进行数据清洗，就需要对各种不同结构和类型的数据做人工梳理，造成了人工成本的浪费。

EXCEL中大部分数据的质量和可信度都非常差。影响了对数据信息的分析和发掘，对决策提供了错误的参考。

发明内容

本发明的目的在于解决上述背景技术中的至少一个技术问题，提供一种基于大数据的EXCEL数据源清洗方法、***、电子设备和存储介质。

为实现上述目的，本发明提供一种基于大数据的EXCEL数据源清洗方法，包括：

解析并结构化EXCEL数据源；

对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理；

对标准化后的EXCEL数据源进行清洗；

根据标准数据库对清洗后的EXCEL数据源进行标准匹配并完善数据信息。

根据本发明的一个方面，解析并结构化EXCEL数据源，包括：

上传EXCEL数据源，指定数据源中标题行数；

根据标题行数区分标题行和数据区；

根据标题最后一行自动构建数据模型，定义相应字段名称；

建立字段与标题的对应关系；

将EXCEL数据源的数据存入数据库。

根据本发明的一个方面，对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理为对EXCEL数据源中的关键字段数据与标准数据进行匹配。

根据本发明的一个方面，对标准化后的EXCEL数据源进行清洗，包括：

对EXCEL数据源中的数据进行预处理；

构建知识库模型，将预处理后的EXCEL数据源中的数据与知识库模型中储存的非标准数据作对照，如果相等，则确定EXCEL数据源中的数据为对应的标准数据；

构建设置有标准数据的标准库，对EXCEL数据源中的数据进行深层清洗后确认与标准库中的标准数据相似的数据，并将其替换为标准库中的标准数据。

根据本发明的一个方面，所述预处理包括：

使用JAVA中去除前后空格的方法去除数据中的前后空格；

使用JAVA中字符替换的方法，将空格替换为符号，去除字符串中的所有空格；

使用JAVA中小写转大写的方法，把数据的小写字母转为大写字母；

使用正则表达式校验手机号。

根据本发明的一个方面，使用余弦值算法，根据EXCEL数据源中的关键字段，找到标准库中的相对应的数据，其中所述余弦值算法为：

；

式中：x和y分别表示两个向量，i表示向量的纬度，x_i表示向量x第i纬度的坐标点，y_i表示向量y第i纬度的坐标点，θ表示x向量和y向量的夹角，n表示x向量和y向量是n纬的；

余弦值越接近1，则表明夹角越接近0度，即两个向量越相似，夹角等于0，即两个向量相等。

根据本发明的一个方面，列出与EXCEL数据源中的数据相对应的标准库数据，确认与EXCEL数据源中的数据匹配的标准数据，确认后，使用sql的update方法，直接把EXCEL数据源中的数据替换为标准库的数据。

为实现上述目的，本发明还提供一种复杂EXCEL数据源清洗***，包括:

数据解析模块，用于解析并结构化EXCEL数据源；

标准化处理模块，对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理；

数据清洗模块，对标准化后的EXCEL数据源进行清洗；

数据标准匹配模块，根据标准数据库对清洗后的EXCEL数据源进行标准匹配并完善数据信息。

为实现上述目的，本发明还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述方法。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述方法。

根据本发明的技术方案，可以有效地提高数据处理的准确率，缓解用户的工作量，为之后的大数据分析和使用提供数据保障。精确的原始数据有助于准确的数据信息的分析和发掘，从而为相应的决策提供更加准确的参考。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1示意性表示根据本发明的基于大数据的EXCEL数据源清洗方法的流程图；

图2示意性表示根据本发明的基于大数据的EXCEL数据源清洗***的结构框图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护范围。

图1示意性表示根据本发明的基于大数据的EXCEL数据源清洗方法的流程图。如图1所示，根据本发明的基于大数据的EXCEL数据源清洗方法，包括以下步骤：

a. 解析并结构化EXCEL数据源；

b. 对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理；

c. 对标准化后的EXCEL数据源进行清洗；

d. 根据标准数据库对清洗后的EXCEL数据源进行标准匹配并完善数据信息。

根据本发明的一种实施方式，解析并结构化EXCEL数据源，包括：

上传EXCEL数据源，指定清单中标题行数；

根据标题行数区分标题行和数据区；

根据标题最后一行自动构建数据模型，定义相应字段名称；

建立字段与标题的对应关系；

将EXCEL数据源的数据存入数据库。

进一步地，对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理为对EXCEL数据源中的关键字段数据与标准数据进行匹配。

进一步地，对标准化后的EXCEL数据源进行清洗，包括：

对EXCEL数据源中的数据进行预处理；

进一步地，预处理包括：

使用JAVA中去除前后空格的方法去除数据中的前后空格；

使用正则表达式校验手机号。

其中，使用余弦值算法，根据EXCEL数据源中的关键字段，找到标准库中的相对应的数据，其中所述余弦值算法为：

；

列出与EXCEL数据源中的数据相对应的标准库数据，确认与EXCEL数据源中的数据匹配的标准数据，确认后，使用sql的update方法，直接把EXCEL数据源中的数据替换为标准库的数据。

根据本发明的上述方案，可以有效地提高数据处理的准确率，缓解用户的工作量，为之后的大数据分析和使用提供数据保障。

为实现上述目的，本发明还提供一种基于大数据的EXCEL数据源清洗***，其结构框图如图2所示，该***包括：

数据解析模块，用于解析并结构化EXCEL数据源；

数据清洗模块，对标准化后的EXCEL数据源进行清洗；

根据本发明的一种实施方式，数据解析模块解析并结构化EXCEL数据源，包括：

上传EXCEL数据源，指定清单中标题行数；

根据标题行数区分标题行和数据区；

根据标题最后一行自动构建数据模型，定义相应字段名称；

建立字段与标题的对应关系；

将EXCEL数据源的数据存入数据库。

进一步地，标准化处理模块对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理为对EXCEL数据源中的关键字段数据与标准数据进行匹配。

进一步地，数据清洗模块对标准化后的EXCEL数据源进行清洗，包括：

对EXCEL数据源中的数据进行预处理；

进一步地，预处理包括：

使用JAVA中去除前后空格的方法去除数据中的前后空格；

使用正则表达式校验手机号。

；

为实现上述目的，本发明还提供一种电子设备，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器执行时实现上述方法。

为实现上述目的，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述方法。

以下结合附图以一种具体实施例的方式来详细说明本发明的方案。

实施例1

输入：一份数据不标准的EXCEL清单，指定标题行数；

输出：一份数据标准的EXCEL清单；

处理流程：

根据EXCEL标题行数titleNum，区分标题和数据。第一行到第titleNum行是标题区，第（titleNum+1）到最后一行是数据区；

使用JAVA POI的技术解析EXCEL清单的标题区和数据区的数据：

解析EXCEL文件的后缀，判断是“XLSX”还是“XLS”；

根据不同的后缀，创建对应的工作簿；

解析工作簿中的第一个sheet页；

循环解析sheet页中的每一行数据；

循环解析每一行中的每个单元格；

读取单元格中的数据，将数据存储到内存中。

使用jdbc方法把读取的标题，存储到T_DATA_SOURCE_COLUMN表中。根据读取的标题区的数据，创建对应的表结构，表结构的字段根据标题逐一的命名为（STR1、STR2、STR3.......）。

使用数据建模技术，根据标题构建数据源表、数据清洗表，定义相应字段名称（STR1,STR2,STR3,...）。将数据区的数据存储到数据源表、数据清洗表。

预处理：（去除前后空格、去除所有空格、小写转大写、手机号校验、...），使用java方法编写；

使用JAVA中去除前后空格的方法去除数据中的前后空格；

使用JAVA中字符替换的方法，将空格替换为””，去除字符串中的所有空格；

使用正则表达式"^((13[0-9])|(15[^4,\\D])|(18[0,5-9]))\\d{8}$"，校验手机号；

使用知识库清洗：

构建知识库模型，把清单数据与知识库中的非标准数据进行比对，如果相等，则使用sql的update方法把数据改为对应的标准数据。

知识库存储非标准数据和对应的标准数据。

模型结构如下：T_CORE_FIELD(要标准化的字段表)，T_CORE_FIELD_STD(标准数据表)，T_CORE_FIELD_NO_STD(非标准数据比表)

深层清洗+人工确认：

先构建一个标准库（std_lib），里面存放一套标准的数据。

使用余弦值算法，根据清单中的关键字段，找到标准库中的相似数据。然后人工从相似数据中确认对应的是哪条数据，最后使用sql的update语句将清单中的数据替换为标准数据。

余弦值算法：

；

余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，夹角等于0，即两个向量相等，这就叫"余弦相似性"。

举例：

名称A：新西兰红玫瑰Queen苹果12个140g以上/个

名称B：新西兰红玫瑰Queen苹果6个150g以上/个

第一步，语句拆分

名称A：新西兰红玫瑰 Q u e e n 苹果 1 2 个 1 4 0 g 以上 / 个；

名称B：新西兰红玫瑰 Q u e e n 苹果 6 个 1 5 0 g 以上 / 个；

第二步，列出所有单字组合（去重）

总语句：新西兰红玫瑰 Q u e n 苹果 1 2 个 4 0 g 以上 / 6 5

第三步，计算字频

名称A：新[1]西[1]兰[1]红[1]玫[1]瑰[1]Q[1]u[1]e[2]n[1]苹[1]果[1]1[2]2[1]个[2]4[1]0[1]g[1]以[1]上[1]/[1]6[0]5[0]

名称B：新[1]西[1]兰[1]红[1]玫[1]瑰[1]Q[1]u[1]e[2]n[1]苹[1]果[1]1[1]2[0]个[2]4[0]0[1]g[1]以[1]上[1]/[1]6[1]5[1]

第四步，写出字频向量。

名称A：（1,1,1,1,1,1,1,1,2,1,1,1,2,1,2,1,1,1,1,1,1,0,0）

名称B：（1,1,1,1,1,1,1,1,2,1,1,1,1,0,2,0,1,1,1,1,1,1,1）

第五步，套用公式

值= （A1*B1+A2*B2+A3*B3+A1*B1+.......）/ 根号(A各项平方之和) * 根号(B各项平方之和)

值= 26 / 根号(30) * 根号(27)

值= 26 / 28.4604

=0.9135

值越大越相似，=1则代表完全相同。=0则代表完全不同

列出与清单数据相似的标准库数据，人工确认哪条数据与清单数据匹配，确认之后，使用sql的update方法，直接把清单的数据替换为标准库的数据。

使用java的POI技术导出清洗好的数据清单。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于大数据的EXCEL数据源清洗方法，其特征在于，包括：

解析并结构化EXCEL数据源；

对标准化后的EXCEL数据源进行清洗；

根据标准数据库对清洗后的EXCEL数据源进行标准匹配并完善数据信息；

对标准化后的EXCEL数据源进行清洗，包括：

对EXCEL数据源中的数据进行预处理；

2.根据权利要求1所述的基于大数据的EXCEL数据源清洗方法，其特征在于，解析并结构化EXCEL数据源，包括：

上传EXCEL数据源，指定数据源中标题行数；

根据标题行数区分标题行和数据区；

根据标题最后一行自动构建数据模型，定义相应字段名称；

建立字段与标题的对应关系；

将EXCEL数据源的数据存入数据库。

3.根据权利要求1所述的基于大数据的EXCEL数据源清洗方法，其特征在于，对解析并结构化后的EXCEL数据源中的数据进行关键属性名称的标准化处理为对EXCEL数据源中的关键字段数据与标准数据进行匹配。

4.根据权利要求1所述的基于大数据的EXCEL数据源清洗方法，其特征在于，所述预处理包括：

使用JAVA中去除前后空格的方法去除数据中的前后空格；

使用正则表达式校验手机号。

5.根据权利要求4所述的基于大数据的EXCEL数据源清洗方法，其特征在于，使用余弦值算法，根据EXCEL数据源中的关键字段，找到标准库中的相对应的数据，其中所述余弦值算法为：

；

6.根据权利要求5所述的基于大数据的EXCEL数据源清洗方法，其特征在于，列出与EXCEL数据源中的数据相对应的标准库数据，确认与EXCEL数据源中的数据匹配的标准数据，确认后，使用sql的update方法，直接把EXCEL数据源中的数据替换为标准库的数据。

7.一种基于大数据的EXCEL数据源清洗***，其特征在于，包括:

数据解析模块，用于解析并结构化EXCEL数据源；

数据清洗模块，对标准化后的EXCEL数据源进行清洗；

数据标准匹配模块，根据标准数据库对清洗后的EXCEL数据源进行标准匹配并完善数据信息；

对标准化后的EXCEL数据源进行清洗，包括：

对EXCEL数据源中的数据进行预处理；

8.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。