CN105787008A - 一种大数据量的数据去重清洗方法 - Google Patents
一种大数据量的数据去重清洗方法 Download PDFInfo
- Publication number
- CN105787008A CN105787008A CN201610098006.6A CN201610098006A CN105787008A CN 105787008 A CN105787008 A CN 105787008A CN 201610098006 A CN201610098006 A CN 201610098006A CN 105787008 A CN105787008 A CN 105787008A
- Authority
- CN
- China
- Prior art keywords
- data
- data block
- row
- deduplication
- duplicate removal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000004140 cleaning Methods 0.000 title claims abstract description 17
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大数据量的数据去重清洗方法,其具体实现过程为:将数据分解为若干个数据块,对每一个数据块内的数据去重处理后初始化为一个任务,载入任务池中并行执行;每一个数据块任务执行完成后,与另外一个完成去重处理的数据块进行比对去重并合并为新的数据块,重复执行该过程,直至所有数据块最后合并为一个数据块,即完成数据去重处理。本发明的一种大数据量的数据去重清洗方法与现有技术相比,通过分解数据,并行执行,并采用MD5计算方法,大大提高了数据清洗的效率。
Description
技术领域
本发明涉及计算机技术领域,具体地说是一种大数据量的数据去重清洗方法。
背景技术
企业的应用***,比如ERP、CRM等,存在很多冗余数据,不仅增加了数据管理的成本,并且严重影响了数据查询分析的质量与效率;因此需要提供一种高效的、且支持大数据的数据去重处理方法。传统的数据去重处理方法,一般采用逐行逐个单元格循环对比的方法查询重复的数据,效率非常低下。
基于此,现提供一种大数据量的数据去重清洗方法。
发明内容
本发明的技术任务是针对以上不足之处,提供一种大数据量的数据去重清洗方法。
一种大数据量的数据去重清洗方法,其实现过程为:
将数据分解为若干个数据块,对每一个数据块内的数据去重处理后初始化为一个任务,载入任务池中并行执行;
每一个数据块任务执行完成后,与另外一个完成去重处理的数据块进行比对去重并合并为新的数据块,重复执行该过程,直至所有数据块最后合并为一个数据块,即完成数据去重处理。
数据按照分解策略分解为若干个数据块,该分解策略包括数据拆分策略和数据重复依据。
数据块内的数据去重处理包括如下步骤:
增加一个计算列,该计算列用来计算重复并依据列的值生成MD5码;
计算每一行的MD5列的值;
按照MD5列的值进行排序;
去掉MD5列的值重复的数据行。
数据块执行完去重处理后与另外一个完成去重处理的数据块进行比对去重合并的过程为:每个数据块执行完成去重处理后,注销当前的任务,去匹对另一个完成去重处理的数据块,并把这两个数据块之间的比对去重合并处理初始为新的任务并加载到任务池中。
上述去重合并的具体过程为:
前者数据块与后者数据块逐一比对每行MD5的值;
把后者数据块中与前者数据块中MD5值相同的数据行删掉;
这两个数据块合并为新的数据块。
本发明的一种大数据量的数据去重清洗方法和现有技术相比,具有以下有益效果:
本发明基于迭代式并行计算并采用数据摘要技术MD5的数据去重方法,大减少了循环比较的次数;同时采用多线程并行计算技术,可以支持大数据量的数据去重清洗,大大提升了数据清洗的效率;具有执行效率高、可靠性强等特点,通过分解数据,并行执行,实用性强,易于推广。
附图说明
附图1是数据去重处理的原理示意图。
附图2是数据去重处理整体流程的示意图。
附图3是数据块内去重处理流程的示意图。
附图4是数据块之间去重合并处理流程的示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明的一种大数据量的数据去重清洗方法,其实现过程为:
S10:按照数据去重规则把数据拆分为若干个数据块;
S11:每个数据块内的数据去重处理初始为若干个任务,并载入任务池并行执行;
S12:每个数据块执行完去重处理后,与另外一个完成去重处理的数据块进行比对去重合并;重复S12步骤,直至所有数据块最后合并为一个数据块,即完成数据去重处理。
在步骤S10中,按照数据去重规则把数据拆分为若干个数据块。进一步说明,数据去重规则包含数据拆分策略。
数据按照分解策略分解为若干个数据块,该分解策略包括数据拆分策略和数据重复依据。
在步骤S11中,每个数据块内的数据去重处理初始为若干个任务,并载入任务池并行执行。进一步说明,数据块内的数据处理包括以下步骤:
增加一个计算列,该计算列用来计算重复并依据列的值生成MD5码;
计算每一行的MD5列的值;
按照MD5列的值进行排序;
去掉MD5列的值重复的数据行。
在步骤S12中,每个数据块执行完去重处理后,注销当前的任务,与另外一个完成去重处理的数据块进行比对去重合并。进一步说明,把这两个数据块之间的比对去重合并处理初始为新的任务并加载到任务池中;该任务的处理过程包括以下步骤:
前者数据块与后者数据块逐一比对每行MD5的值;
把后者数据块中与前者数据块中MD5值相同的数据行删掉;
这两个数据块合并为新的数据块;
重复执行步骤S12。
实施实例说明:某ERP***中,需要清洗产品数据表中的重复数据。设置了重复处理规则,其中包括数据拆分策略和数据重复依据。
如附图1所示,将数据按照分解策略分解为5个数据块,把对每一个数据块内的数据去重处理初始化为一个任务,载入任务池中并行执行。每一个数据块任务执行完成后,与另外一个完成去重处理的数据块进行比对去重并合并为新的数据块,新的数据块重复执行该过程,直至最后合并为一个数据块。
具体实现流程,如附图2所示。
第S10步,把待清洗的数据,按照设置好的数据拆分策略,分解为5个数据块。
第S11步,把每个数据块内的数据去重处理,初始为一个任务,并加载到任务池中并行执行。每个任务的执行流程如图3所示,进一步说明,包括以下步骤:
1)增加一个计算列,用来根据重复依据中包含列的值生成MD5码;
2)使用MD5算法生成每一行计算列的值;
3)按照MD5列的值对数据进行排序;
4)去掉MD5列的值重复的数据行。
第S12步,每个数据块执行完去重处理后,注销当前的任务,与另外一个完成去重处理的数据块进行比对去重合并。进一步说明,把这两个数据块之间的比对去重合并处理初始为新的任务并加载到任务池中;如图4所示,该任务的处理过程包括以下步骤:
前者数据块与后者数据块逐一比对每行MD5的值;
把后者数据块中与前者数据块中MD5值相同的数据行删掉;
这两个数据块合并为新的数据块;
重复执行步骤S12。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (5)
1.一种大数据量的数据去重清洗方法,其特征在于,其实现过程为:
将数据分解为若干个数据块,对每一个数据块内的数据去重处理后初始化为一个任务,载入任务池中并行执行;
每一个数据块任务执行完成后,与另外一个完成去重处理的数据块进行比对去重并合并为新的数据块,重复执行该过程,直至所有数据块最后合并为一个数据块,即完成数据去重处理。
2.根据权利要求1所述的一种大数据量的数据去重清洗方法,其特征在于,数据按照分解策略分解为若干个数据块,该分解策略包括数据拆分策略和数据重复依据。
3.根据权利要求1所述的一种大数据量的数据去重清洗方法,其特征在于,数据块内的数据去重处理包括如下步骤:
增加一个计算列,该计算列用来计算重复并依据列的值生成MD5码;
计算每一行的MD5列的值;
按照MD5列的值进行排序;
去掉MD5列的值重复的数据行。
4.根据权利要求3所述的一种大数据量的数据去重清洗方法,其特征在于,数据块执行完去重处理后与另外一个完成去重处理的数据块进行比对去重合并的过程为:每个数据块执行完成去重处理后,注销当前的任务,去匹对另一个完成去重处理的数据块,并把这两个数据块之间的比对去重合并处理初始为新的任务并加载到任务池中。
5.根据权利要求4所述的一种大数据量的数据去重清洗方法,其特征在于,上述去重合并的具体过程为:
前者数据块与后者数据块逐一比对每行MD5的值;
把后者数据块中与前者数据块中MD5值相同的数据行删掉;
这两个数据块合并为新的数据块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610098006.6A CN105787008A (zh) | 2016-02-23 | 2016-02-23 | 一种大数据量的数据去重清洗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610098006.6A CN105787008A (zh) | 2016-02-23 | 2016-02-23 | 一种大数据量的数据去重清洗方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105787008A true CN105787008A (zh) | 2016-07-20 |
Family
ID=56402716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610098006.6A Pending CN105787008A (zh) | 2016-02-23 | 2016-02-23 | 一种大数据量的数据去重清洗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105787008A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776951A (zh) * | 2016-12-02 | 2017-05-31 | 航天星图科技(北京)有限公司 | 一种清洗对比入库方法 |
CN108319624A (zh) * | 2017-01-18 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 数据加载方法及装置 |
WO2018184418A1 (zh) * | 2017-04-06 | 2018-10-11 | 平安科技(深圳)有限公司 | 数据清洗的方法、终端及计算机可读存储介质 |
CN110955637A (zh) * | 2019-11-27 | 2020-04-03 | 集奥聚合(北京)人工智能科技有限公司 | 一种基于低内存实现超大文件的排序方法 |
CN112256685A (zh) * | 2020-10-30 | 2021-01-22 | 深圳物讯科技有限公司 | 基于电子表格的分割去重导入方法及相关产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130339297A1 (en) * | 2012-06-18 | 2013-12-19 | Actifio, Inc. | System and method for efficient database record replication using different replication strategies based on the database records |
CN103699441A (zh) * | 2013-12-05 | 2014-04-02 | 深圳先进技术研究院 | 基于任务粒度的MapReduce报表任务执行方法 |
CN103914522A (zh) * | 2014-03-20 | 2014-07-09 | 电子科技大学 | 一种应用于云存储重复数据删除的数据块合并方法 |
CN105320773A (zh) * | 2015-11-03 | 2016-02-10 | 中国人民解放军理工大学 | 一种基于Hadoop平台的分布式重复数据删除***和方法 |
-
2016
- 2016-02-23 CN CN201610098006.6A patent/CN105787008A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130339297A1 (en) * | 2012-06-18 | 2013-12-19 | Actifio, Inc. | System and method for efficient database record replication using different replication strategies based on the database records |
CN103699441A (zh) * | 2013-12-05 | 2014-04-02 | 深圳先进技术研究院 | 基于任务粒度的MapReduce报表任务执行方法 |
CN103914522A (zh) * | 2014-03-20 | 2014-07-09 | 电子科技大学 | 一种应用于云存储重复数据删除的数据块合并方法 |
CN105320773A (zh) * | 2015-11-03 | 2016-02-10 | 中国人民解放军理工大学 | 一种基于Hadoop平台的分布式重复数据删除***和方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776951A (zh) * | 2016-12-02 | 2017-05-31 | 航天星图科技(北京)有限公司 | 一种清洗对比入库方法 |
CN106776951B (zh) * | 2016-12-02 | 2019-04-26 | 中科星图股份有限公司 | 一种清洗对比入库方法 |
CN108319624A (zh) * | 2017-01-18 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 数据加载方法及装置 |
WO2018184418A1 (zh) * | 2017-04-06 | 2018-10-11 | 平安科技(深圳)有限公司 | 数据清洗的方法、终端及计算机可读存储介质 |
CN110955637A (zh) * | 2019-11-27 | 2020-04-03 | 集奥聚合(北京)人工智能科技有限公司 | 一种基于低内存实现超大文件的排序方法 |
CN112256685A (zh) * | 2020-10-30 | 2021-01-22 | 深圳物讯科技有限公司 | 基于电子表格的分割去重导入方法及相关产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105787008A (zh) | 一种大数据量的数据去重清洗方法 | |
CN109993299B (zh) | 数据训练方法及装置、存储介质、电子装置 | |
Liu et al. | An effective differential evolution algorithm for permutation flow shop scheduling problem | |
CN103309975A (zh) | 一种重复数据删除方法和设备 | |
CN105373517A (zh) | 基于Spark的分布式稠密矩阵求逆并行化运算方法 | |
JP2009528604A5 (zh) | ||
CN105488692A (zh) | 在线人数计算方法及装置 | |
CN107016110B (zh) | 结合Spark平台的OWLHorst规则分布式并行推理算法 | |
CN106354552B (zh) | 并行计算任务分配方法和装置 | |
CN104090995A (zh) | 一种ABAQUS轮胎模型中rebar单元网格的自动生成方法 | |
Huang et al. | Tabu search algorithm combined with global perturbation for packing arbitrary sized circles into a circular container | |
CN116595918B (zh) | 快速逻辑等价性验证方法、装置、设备及存储介质 | |
CN107291843A (zh) | 基于分布式计算平台的层次聚类改进方法 | |
CN111045920B (zh) | 一种工作量感知的多分支软件变更级缺陷预测方法 | |
CN103226466A (zh) | 一种高效的增量数据捕获方法 | |
CN103778220A (zh) | 一种基于云计算的决策支持方法和装置 | |
CN107038260A (zh) | 一种可保持titan实时数据一致性的高效并行加载方法 | |
Smits et al. | Scalable symbolic regression by continuous evolution with very small populations | |
CN113127461B (zh) | 一种数据清洗方法、装置、电子设备及存储介质 | |
Rekachinsky et al. | Modeling parallel processing of databases on the central processor Intel Xeon Phi KNL | |
CN103268384B (zh) | 一种有序提取结构轮廓的方法 | |
CN105761119A (zh) | 在线人数分布计算方法及装置 | |
CN106777262B (zh) | 高通量测序数据质量过滤方法和过滤装置 | |
CN105224697A (zh) | 带过滤条件的排序方法和用于执行所述方法的装置 | |
CN103117751B (zh) | Ldpc译码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160720 |