CN105787008A

CN105787008A - 一种大数据量的数据去重清洗方法

Info

Publication number: CN105787008A
Application number: CN201610098006.6A
Authority: CN
Inventors: 岳现国
Original assignee: Inspur General Software Co Ltd
Current assignee: Inspur General Software Co Ltd
Priority date: 2016-02-23
Filing date: 2016-02-23
Publication date: 2016-07-20

Abstract

本发明公开了一种大数据量的数据去重清洗方法，其具体实现过程为：将数据分解为若干个数据块，对每一个数据块内的数据去重处理后初始化为一个任务，载入任务池中并行执行；每一个数据块任务执行完成后，与另外一个完成去重处理的数据块进行比对去重并合并为新的数据块，重复执行该过程，直至所有数据块最后合并为一个数据块，即完成数据去重处理。本发明的一种大数据量的数据去重清洗方法与现有技术相比，通过分解数据，并行执行，并采用MD5计算方法，大大提高了数据清洗的效率。

Description

一种大数据量的数据去重清洗方法

技术领域

本发明涉及计算机技术领域，具体地说是一种大数据量的数据去重清洗方法。

背景技术

企业的应用***，比如ERP、CRM等，存在很多冗余数据，不仅增加了数据管理的成本，并且严重影响了数据查询分析的质量与效率；因此需要提供一种高效的、且支持大数据的数据去重处理方法。传统的数据去重处理方法，一般采用逐行逐个单元格循环对比的方法查询重复的数据，效率非常低下。

基于此，现提供一种大数据量的数据去重清洗方法。

发明内容

本发明的技术任务是针对以上不足之处，提供一种大数据量的数据去重清洗方法。

一种大数据量的数据去重清洗方法，其实现过程为：

将数据分解为若干个数据块，对每一个数据块内的数据去重处理后初始化为一个任务，载入任务池中并行执行；

每一个数据块任务执行完成后，与另外一个完成去重处理的数据块进行比对去重并合并为新的数据块，重复执行该过程，直至所有数据块最后合并为一个数据块，即完成数据去重处理。

数据按照分解策略分解为若干个数据块，该分解策略包括数据拆分策略和数据重复依据。

数据块内的数据去重处理包括如下步骤：

增加一个计算列，该计算列用来计算重复并依据列的值生成MD5码；

计算每一行的MD5列的值；

按照MD5列的值进行排序；

去掉MD5列的值重复的数据行。

数据块执行完去重处理后与另外一个完成去重处理的数据块进行比对去重合并的过程为：每个数据块执行完成去重处理后，注销当前的任务，去匹对另一个完成去重处理的数据块，并把这两个数据块之间的比对去重合并处理初始为新的任务并加载到任务池中。

上述去重合并的具体过程为：

前者数据块与后者数据块逐一比对每行MD5的值；

把后者数据块中与前者数据块中MD5值相同的数据行删掉；

这两个数据块合并为新的数据块。

本发明的一种大数据量的数据去重清洗方法和现有技术相比，具有以下有益效果：

本发明基于迭代式并行计算并采用数据摘要技术MD5的数据去重方法，大减少了循环比较的次数；同时采用多线程并行计算技术，可以支持大数据量的数据去重清洗，大大提升了数据清洗的效率；具有执行效率高、可靠性强等特点，通过分解数据，并行执行，实用性强，易于推广。

附图说明

附图1是数据去重处理的原理示意图。

附图2是数据去重处理整体流程的示意图。

附图3是数据块内去重处理流程的示意图。

附图4是数据块之间去重合并处理流程的示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

本发明的一种大数据量的数据去重清洗方法，其实现过程为：

S10：按照数据去重规则把数据拆分为若干个数据块；

S11：每个数据块内的数据去重处理初始为若干个任务，并载入任务池并行执行；

S12：每个数据块执行完去重处理后，与另外一个完成去重处理的数据块进行比对去重合并；重复S12步骤，直至所有数据块最后合并为一个数据块，即完成数据去重处理。

在步骤S10中，按照数据去重规则把数据拆分为若干个数据块。进一步说明，数据去重规则包含数据拆分策略。

在步骤S11中，每个数据块内的数据去重处理初始为若干个任务，并载入任务池并行执行。进一步说明，数据块内的数据处理包括以下步骤：

计算每一行的MD5列的值；

按照MD5列的值进行排序；

去掉MD5列的值重复的数据行。

在步骤S12中，每个数据块执行完去重处理后，注销当前的任务，与另外一个完成去重处理的数据块进行比对去重合并。进一步说明，把这两个数据块之间的比对去重合并处理初始为新的任务并加载到任务池中；该任务的处理过程包括以下步骤：

前者数据块与后者数据块逐一比对每行MD5的值；

把后者数据块中与前者数据块中MD5值相同的数据行删掉；

这两个数据块合并为新的数据块；

重复执行步骤S12。

实施实例说明：某ERP***中，需要清洗产品数据表中的重复数据。设置了重复处理规则，其中包括数据拆分策略和数据重复依据。

如附图1所示，将数据按照分解策略分解为5个数据块，把对每一个数据块内的数据去重处理初始化为一个任务，载入任务池中并行执行。每一个数据块任务执行完成后，与另外一个完成去重处理的数据块进行比对去重并合并为新的数据块，新的数据块重复执行该过程，直至最后合并为一个数据块。

具体实现流程，如附图2所示。

第S10步，把待清洗的数据，按照设置好的数据拆分策略，分解为5个数据块。

第S11步，把每个数据块内的数据去重处理，初始为一个任务，并加载到任务池中并行执行。每个任务的执行流程如图3所示，进一步说明，包括以下步骤：

1）增加一个计算列，用来根据重复依据中包含列的值生成MD5码；

2）使用MD5算法生成每一行计算列的值；

3）按照MD5列的值对数据进行排序；

4）去掉MD5列的值重复的数据行。

第S12步，每个数据块执行完去重处理后，注销当前的任务，与另外一个完成去重处理的数据块进行比对去重合并。进一步说明，把这两个数据块之间的比对去重合并处理初始为新的任务并加载到任务池中；如图4所示，该任务的处理过程包括以下步骤：

前者数据块与后者数据块逐一比对每行MD5的值；

把后者数据块中与前者数据块中MD5值相同的数据行删掉；

这两个数据块合并为新的数据块；

重复执行步骤S12。

通过上面具体实施方式，所述技术领域的技术人员可容易的实现本发明。但是应当理解，本发明并不限于上述的具体实施方式。在公开的实施方式的基础上，所述技术领域的技术人员可任意组合不同的技术特征，从而实现不同的技术方案。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.一种大数据量的数据去重清洗方法，其特征在于，其实现过程为：

2.根据权利要求1所述的一种大数据量的数据去重清洗方法，其特征在于，数据按照分解策略分解为若干个数据块，该分解策略包括数据拆分策略和数据重复依据。

3.根据权利要求1所述的一种大数据量的数据去重清洗方法，其特征在于，数据块内的数据去重处理包括如下步骤：

计算每一行的MD5列的值；

按照MD5列的值进行排序；

去掉MD5列的值重复的数据行。

4.根据权利要求3所述的一种大数据量的数据去重清洗方法，其特征在于，数据块执行完去重处理后与另外一个完成去重处理的数据块进行比对去重合并的过程为：每个数据块执行完成去重处理后，注销当前的任务，去匹对另一个完成去重处理的数据块，并把这两个数据块之间的比对去重合并处理初始为新的任务并加载到任务池中。

5.根据权利要求4所述的一种大数据量的数据去重清洗方法，其特征在于，上述去重合并的具体过程为：

前者数据块与后者数据块逐一比对每行MD5的值；

把后者数据块中与前者数据块中MD5值相同的数据行删掉；

这两个数据块合并为新的数据块。