CN101609466A

CN101609466A - 海量数据查重的方法和***

Info

Publication number: CN101609466A
Application number: CNA2009101085699A
Authority: CN
Inventors: 牛国扬
Original assignee: ZTE Corp
Current assignee: Liu Fei
Priority date: 2009-07-01
Filing date: 2009-07-01
Publication date: 2009-12-23
Anticipated expiration: 2029-07-01
Also published as: CN101609466B

Abstract

本发明公开提供海量数据查重的方法和***，该方法包括：提取海量数据中的数据关键字，所述数据关键字用于将所在数据与其他数据区分开；根据所述数据关键字的前N+M个字母分割所述数据关键字，将前N+M个字母相同的数据关键字放入同一个文件中，得到关键字数据文件；其中，所述数据关键字的前N个字母相同，前N+M个字母不完全相同，N、M为非负整数)；分别对各关键字数据文件中的数据进行查重，得到查重结果。实现在低配置环境中独立进行海量数据查重的功能。

Description

海量数据查重的方法和***

技术领域

本发明涉及数据处理技术，特别涉及海量数据查重的方法和***。

背景技术

随着电信、移动、联通、网通等运营商经营规模的扩大和经营业务的调整，运营商内部***以及运营商之间***的数据导入导出变得越来越频繁。在数据导入导出过程中，对海量数据正确性检查变得越来越重要，其中涉及到海量数据是否重复的检查。重复数据会导致***运行异常，会导致业务处理失败，会导致用户计费重复等，严重影响***的正常运行。

现有工具和方法对海量数据查重时，需要占用巨大的内存或者需要专用数据库的支持，无法在普通PC机上实现海量数据查重工作；而我们日常工作中，常常需要在普通PC机上进行海量数据查重工作。

发明内容

本发明的目的在于解决无法在普通PC机上独立完成海量数据查重工作的问题，提供海量数据查重的方法和***，实现在低配置环境中独立进行海量数据查重的功能。

本发明提供一种海量数据查重的方法，该方法包括：

提取海量数据中的数据关键字，所述数据关键字用于将所在数据与其他数据区分开；

根据所述数据关键字的前N+M个字母分割所述数据关键字，将前N+M个字母相同的数据关键字放入同一个文件中，得到关键字数据文件；其中，所述数据关键字的前N个字母相同，前N+M个字母不完全相同，N、M为非负整数)；

分别对各关键字数据文件中的数据进行查重，得到查重结果。

本发明还提供一种海量数据查重***，该***包括：

关键字单元，用于提取海量数据中的数据关键字，所述数据关键字用于将所在数据与其他数据区分开；

分割单元，用于根据所述关键字单元提取的数据关键字的前N+M个字母分割所述数据关键字，将前N+M个字母相同的数据关键字放入同一个文件中，得到关键字数据文件；其中，所述数据关键字的前N个字母相同，前N+M个字母不完全相同，N、M为非负整数)；

查重单元，用于分别对所述分割单元得到的各关键字数据文件中的数据进行查重，得到查重结果。

采用本发明的技术方案，可以根据关键字对海量数据进行分割，得到数据量小的关键字数据文件，进而对关键字数据文件进行查重，因此，对运行环境要求比较低，不需巨大内存和专用数据库的支持，可以在普通PC机上运行。将本发明的技术方案进行具体实施所需费用少、成本低，查重速度快、效率高、可靠性高；由于对运行环境的要求低，可以在低配置的环境中独立进行查重，易于实施、便于移植。

附图说明

图1示出本发明海量数据查重的方法的流程示意图；

图2示出本发明海量数据查重的方法应用的总流程图；

图3示出图2中数据预处理模块的工作原理图；

图4示出图2中数据分割模块的工作原理图；

图5示出图2中数据查重模块的工作原理图；

图6示出本发明海量数据查重***的结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式做详细阐述。本发明具体实施方式中所述的海量数据，是指巨大/空前浩瀚的数据。现在很多业务部门中都需要操作海量数据，如规划部门有规划方面的数据，水利部门有水利方面的数据，气象部门有气象方面的数据，电信、移动、联通、网通等运营商***内部以及运营商***之间的数据。这些部门处理的数据量都非常大。它包括各种空间数据、报表统计数据、文字、声音、图像、超文本等各种环境和文化数据信息。

图1示出本发明海量数据查重的方法的实施例，请参阅图1，一种海量数据查重的方法，该方法包括：

101、提取海量数据中的数据关键字，数据关键字用于将所在数据与其他数据区分开。

102、根据数据关键字的前N+M个字母分割数据关键字，将前N+M个字母相同的数据关键字放入同一个文件中，得到关键字数据文件；其中，数据关键字的前N个字母相同，前N+M个字母不完全相同，N、M为非负整数)。

具体的，可以包括：

将前N+1个字母相同的数据关键字放入同一个文件中，得到预处理数据文件，预处理数据文件的文件名为前N+1个字母；

查找预处理数据文件中数据量大于预设值的数据文件，查找到的预处理数据文件作为二次处理数据文件，其余的预处理数据文件作为关键字数据文件；

将二次处理数据文件中的数据从前N+1个字母开始，以每次向前推进P个字母的方式继续分割，直至得到的文件中的数据量不大于预设值，则得到的文件作为关键字数据文件，其中，P为自然数。

其中，预设值优选为10万条。通过多次测试试验得到的优选的预设值。如果预设值大于10万条，则会增加步骤103中对各关键字数据文件中的数据进行查重的工作量；如果预设值小于10万条，则会增加对二次处理数据文件进行继续分割的分割次数。综合种种因素，对海量数据查重而言，10万条作为优选的预设值，查重的总体效率最高。

进一步的，对于二次处理数据文件而言，可以：

判断二次处理数据文件中数据量是否大于门限值；

当二次处理数据文件中数据量大于门限值时，将二次处理数据文件中的数据从前N+1个字母开始，以每次向前推进2个字母的方式继续分割，直至得到的文件中的数据量不大于预设值。

其中，门限值优选为1000万条。当二次处理数据文件中数据量大于门限值时，以每次向前推进2个字母的方式继续分割，可以提高继续分割的效率，进而提高查重的总体效率。

103、分别对各关键字数据文件中的数据进行查重，得到查重结果。

进一步的，当分别对各关键字数据文件中的数据进行查重，得到重复关键字数据，则遍历海量数据，如果海量数据中的关键字在重复关键字数据中存在，则该条数据为重复数据；否则该条数据为正常数据；和/或，当分别对各关键字数据文件中的数据进行查重，未得到重复关键字数据，则海量数据都是正常数据。

图2示出本发明海量数据查重的方法应用的总流程图。图3示出图2中数据预处理模块的工作原理图；图4示出图2中数据分割模块的工作原理图；图5示出图2中数据查重模块的工作原理图。在本应用中，以上实施例中的步骤101和步骤102由数据预处理模块和数据分割模块实现，步骤103由数据查重模块实现，其中：

数据预处理模块用于实现两个功能：一是对海量数据关键字的抽取，二是对关键字的分割。

对数据查重，既是对数据关键字查重。比如对手机用户信息查重，主要检查用户关键字“用户手机号”是否有重复。

在数据预处理模块抽取关键字的同时，对关键字数据进行分割，可以减少数据分割模块的遍历次数，提高***效率。

数据分割模块主要用于对数据预处理模块得到的“关键字数据文件”(本应用方案中的关键字数据文件与以上实施例中的关键字数据文件所指的文件不相同，本应用方案中的关键字数据文件是指数据预处理模块得到的文件，以上实施例中的关键字数据文件是指对海量数据分割的最终文件)按一定原则进行分割，得到更方便处理的小数据文件。

具体分割过程如下：对于一个关键字数据文件，N是该文件的文件名长度(不包含扩展名)，如果该文件数据量大于10万条，则对该文件的数据按数据开头(N+1)个字母进行分割，分割后的数据存放在文件名为该数据前(N+1)个字母的文件中。依次循环，直到“关键字数据文件”中的文件都小于10万条。

分割原理：经过分割的数据，文件中的数据都是以该文件名为开头的数据，这样就保证了重复数据只存在于同一个文件中，不同的文件中不会存在相互重复的数据。在查重时，只要对各个文件单独进行查重既可。分割就是把大数据转化为小数据进行处理，以解决机器内存不足的问题，且可以提高查重效率。

数据查重模块主要用于：根据数据分割模块得到的小数据关键字文件查询出“重复关键字数据”；遍历原始文件(即海量数据)，把原始文件中的数据和“重复关键字数据”对比，进而把原始数据分为“正常数据”和“重复数据”；根据查重结果生成“查重报告”。

请参阅图2、3、4、5，数据预处理模块的主要任务是提取关键字，并按关键字不同进行初次分割关键字数据。

下面以产品信息为例说明本模块。

产品信息格式如下：

产品名称、产品编码、产品描述、产品类型、申请时间

具体产品数据为：

music30、2361、音乐服务、服务类型、20081230

film012、1234、电英频道、服务类型、20081030

music12、2363、音乐服务、服务类型、20080230

myboy01、2364、育英服务、服务类型、20071230

music38、1361、音乐服务、服务类型、20051230

假设产品编码是产品的唯一主键。在产品信息关键字提取时，将提取第二列产品编码为关键字，只要判断产品编码是否重复，即可确认该条产品数据是否重复。

然后对关键字进行分割。按产品编码的第一个字母进行文件分割，分割结果是“1234、1361”存放在文件1.txt中，“2361、2363、2364”存放在文件2.txt中。这样，文件中的数据都是以文件名为开头。

“数据预处理模块”对关键字数据按开头首字母分割文件的原因：在提取原始数据关键字时，需要对原始数据进行遍历，在遍历的同时对关键字数据按首字母进行分割，可以减少数据在“数据分割模块”对关键字遍历的次数，提高***整体的运行效率。

数据预处理模块的技巧：如果数据关键字的首字母相同，比如手机号码都是1开头，则在“数据预处理模块”对关键字数据进行分割时，可以按关键字开头2个字母进行分割；如果数据关键字的开头N个字母相同，则可以按关键字开头(N+1)个字母进行分割，比如电信的手机号码是189XXXXXXXX，则实际分割时可以按数据开头4个字母排序。

数据分割模块是本***的核心模块，主要任务是把“数据预处理模块”产生的“关键字数据文件”进行分割，分割成数据小于10万条的小数据文件。

分割条件：只对“关键字数据文件”中数据量大于10万条的数据文件进行分割。

数据分割过程：对于一个“关键字数据文件”，N是该文件的文件名长度(不包含扩展名)，则对该文件的数据按数据开头(N+1)个字母进行分割，分割后的数据存放在文件名为该数据前(N+1)字母的文件中。依次循环，直到“关键字数据文件”中的文件都小于10万条。

分割结果：所有“关键字数据文件”中的数据都是以自己文件名为前缀的数据，且所有“关键字数据文件”的大小都小于10万条。

10万条的来历：10万条是判断是否继续分割的数据量条件，这是通过多次测试试验得到的数据。如果判断取值大于10万条，则会增加“数据查重模块”的工作量，如果判断取值小于10万条，则会增加“数据分割模块”的分割次数。综合种种因素，对海量数据查重而言，10万条作为判断是否继续分割的条件，查重的总体效率是最高的。

分割技巧：对于“关键字数据文件”中数据量大于1000万的数据文件，分割时可以按数据开头的(N+2)个字母进行分割，每次向前推进2个字母。试验证明使用这种方式效率更高。

数据查重模块的主要任务是对“数据分割模块”产生的“关键字数据”进行重复检查，得到“重复关键字数据”，然后遍历原始数据。如果原始数据中的关键字在“重复关键字数据”中存在，则该条数据为重复数据；如果原始数据中的关键字在“重复关键字数据”中不存在，则该条数据为正常数据。最后根据查重结果产生“查重报告”。

“数据查重模块”首先对众多数据量小于10万条的“关键字数据文件”逐个查重，最好得到总的“重复关键字数据”。由于各个文件中的数据都是以该文件名为开头的数据，故对各个“关键字数据文件”查重得到的总的重复数据既是原始数据中的重复数据；由于“关键字数据文件”数据量都小于10万条，故可以保证查询的效率。

如果“重复关键字数据”不存在，则说明原始数据中没有重复数据，此时就不必再遍历原始数据，可以直接产生“查重报告”。

图6示出本发明海量数据查重***的实施例。请参阅图6，一种海量数据查重***，该***包括：

关键字单元601，用于提取海量数据中的数据关键字，数据关键字用于将所在数据与其他数据区分开；

分割单元602，用于根据关键字单元提取的数据关键字的前N+M个字母分割数据关键字，将前N+M个字母相同的数据关键字放入同一个文件中，得到关键字数据文件；其中，数据关键字的前N个字母相同，前N+M个字母不完全相同，N、M为非负整数)；

查重单元603，用于分别对分割单元得到的各关键字数据文件中的数据进行查重，得到查重结果。

其中，分割单元可以包括：

预处理子单元，用于将前N+1个字母相同的数据关键字放入同一个文件中，得到预处理数据文件，预处理数据文件的文件名为前N+1个字母；

查找子单元，用于查找预处理子单元得到预处理数据文件中数据量大于预设值的数据文件，查找到的预处理数据文件作为二次处理数据文件，其余的预处理数据文件作为关键字数据文件；

再处理子单元，用于将查找子单元查找到的二次处理数据文件中的数据从前N+1个字母开始，以每次向前推进P个字母的方式继续分割，直至得到的文件中的数据量不大于预设值，则得到的文件作为关键字数据文件，其中，P为自然数。

其中，预处理子单元和再处理子单元可以分别独立设置，也可以集成在一起。

进一步的，再处理子单元可以包括：

判断模块，用于判断二次处理数据文件中数据量是否大于门限值；

分割模块，用于当判断模块判断二次处理数据文件中数据量大于门限值时，将二次处理数据文件中的数据从前N+1个字母开始，以每次向前推进2个字母的方式继续分割，直至得到的文件中的数据量不大于预设值。

进一步的，该***还可以包括：。

结果单元，用于当查重单元分别对各关键字数据文件中的数据进行查重，得到重复关键字数据，则遍历海量数据，如果海量数据中的关键字在重复关键字数据中存在，则该条数据为重复数据；否则该条数据为正常数据；和/或，

当分别对各关键字数据文件中的数据进行查重，未得到重复关键字数据，则海量数据都是正常数据。

本实施例中的海量数据查重***可以独立设置，也可以集成在普通PC机中。

以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1、一种海量数据查重的方法，其特征在于，该方法包括：

2、根据权利要求1所述的方法，其特征在于，所述根据所述数据关键字的前N+M个字母分割所述数据关键字，将前N+M个字母相同的数据关键字放入同一个文件中，得到关键字数据文件包括：

将前N+1个字母相同的数据关键字放入同一个文件中，得到预处理数据文件，所述预处理数据文件的文件名为前N+1个字母；

查找所述预处理数据文件中数据量大于预设值的数据文件，查找到的预处理数据文件作为二次处理数据文件，其余的预处理数据文件作为关键字数据文件；

3、根据权利要求2所述的方法，其特征在于，所述预设值为10万条。

4、根据权利要求2或3所述的方法，其特征在于，所述P为2，所述将二次处理数据文件中的数据从前N+1个字母开始，以每次向前推进P个字母的方式继续分割，直至得到的文件中的数据量不大于预设值包括：

判断所述二次处理数据文件中数据量是否大于门限值；

当所述二次处理数据文件中数据量大于门限值时，将二次处理数据文件中的数据从前N+1个字母开始，以每次向前推进2个字母的方式继续分割，直至得到的文件中的数据量不大于预设值。

5、根据权利要求4所述的方法，其特征在于，所述门限值为1000万条。

6、根据权利要求1所述的方法，其特征在于，该方法还包括：

当分别对各关键字数据文件中的数据进行查重，得到重复关键字数据，则遍历所述海量数据，如果所述海量数据中的关键字在所述重复关键字数据中存在，则该条数据为重复数据；否则该条数据为正常数据；和/或，

当分别对各关键字数据文件中的数据进行查重，未得到重复关键字数据，则所述海量数据都是正常数据。

7、一种海量数据查重***，其特征在于，该***包括：

8、根据权利要求7所述的***，其特征在于，所述分割单元包括：

预处理子单元，用于将前N+1个字母相同的数据关键字放入同一个文件中，得到预处理数据文件，所述预处理数据文件的文件名为前N+1个字母；

查找子单元，用于查找所述预处理子单元得到预处理数据文件中数据量大于预设值的数据文件，查找到的预处理数据文件作为二次处理数据文件，其余的预处理数据文件作为关键字数据文件；

再处理子单元，用于将所述查找子单元查找到的二次处理数据文件中的数据从前N+1个字母开始，以每次向前推进P个字母的方式继续分割，直至得到的文件中的数据量不大于预设值，则得到的文件作为关键字数据文件，其中，P为自然数。

9、根据权利要求8所述的***，其特征在于，所述再处理子单元包括：

判断模块，用于判断所述二次处理数据文件中数据量是否大于门限值；

分割模块，用于当所述判断模块判断所述二次处理数据文件中数据量大于门限值时，将二次处理数据文件中的数据从前N+1个字母开始，以每次向前推进2个字母的方式继续分割，直至得到的文件中的数据量不大于预设值。

10、根据权利要求7所述的***，其特征在于，该***还包括：

结果单元，用于当所述查重单元分别对各关键字数据文件中的数据进行查重，得到重复关键字数据，则遍历所述海量数据，如果所述海量数据中的关键字在所述重复关键字数据中存在，则该条数据为重复数据；否则该条数据为正常数据；和/或，