CN107301203B

CN107301203B - 一种海量数据的比对方法及***

Info

Publication number: CN107301203B
Application number: CN201710390393.5A
Authority: CN
Inventors: 温小根
Original assignee: Beijing Si Tech Information Technology Co Ltd
Current assignee: Beijing Si Tech Information Technology Co Ltd
Priority date: 2017-05-27
Filing date: 2017-05-27
Publication date: 2020-10-02
Anticipated expiration: 2037-05-27
Also published as: CN107301203A

Abstract

本发明涉及一种海量数据的比对方法及***，该方法包括以下步骤：获取待比对的海量数据文件；根据预存的快速排序算法对所述海量数据文件进行排序处理，得到多个子数据文件；对多个所述子数据文件进行数据的一致性比对。本发明提供的一种海量数据的比对方法及***，通过将海量数据文件分成多个子数据文件，分别对多个子数据文件进行比对，有效的解决了目前单一机器I/O有限，无法进行多线程比对的现象，可以提高数据的比对效率。

Description

一种海量数据的比对方法及***

技术领域

本发明涉及数据处理领域，尤其涉及一种海量数据的比对方法及***。

背景技术

数据比对指的是将两份或多份不同的数据进行比对，将不同的数据快速的寻找出来详细差异并进行有效处理。

传统的比对方法主要为将需要比对的数据按一定次序进行排列，每条数据记录有两个字段，第一个字段是索引字段，第二个字段是属性字段，例如，以下为需要比对的两组数据：

其中，字母为索引字段，数字为属性字段。

那么，比对的方法为：获取第一行的数据进行比对，发现索引字段和属性字段都相同，则继续比对下一行，发现第二行的索引字段相同，但是属性字段不同，则把索引字段的索引值B和属性字段的数值2、0都记录下来，再继续比对下一行，以此类推。

传统的比对方法都是通过将大文件进行导入到数据库，然后在数据库中进行排序，然后从数据库中读取出来数据，在内存中进行比对，这种方法对数据库造成的压力太大，并发数据量多时易造成数据库假死，而且由于一台主机I/O有限，比对效率始终无法达到要求。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种海量数据的比对方法及***。

本发明解决上述技术问题的技术方案如下：

一种海量数据的比对方法，包括以下步骤：

步骤1，获取待比对的海量数据文件；

步骤2，根据预存的快速排序算法对所述海量数据文件进行排序处理，得到多个子数据文件；

步骤3，对多个所述子数据文件进行数据的一致性比对。

本发明的有益效果是：本发明提供的一种海量数据的比对方法，通过将海量数据文件分成多个子数据文件，分别对多个子数据文件进行比对，有效的解决了目前单一机器I/O有限，无法进行多线程比对的现象，可以提高数据的比对效率。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步地，步骤2中，具体包括：

步骤2.1，在所述海量数据文件中选取N个数值互不相同的数据，将其数值作为第一参照数据；

步骤2.2，将所述第一参照数据按从大到小或从小到大的次序依次排列；

步骤2.3，将所述海量数据文件中的数据依次与所述第一参照数据进行比较后分类，分别得到小于最小第一参照数据的数据集合、大于最大第一参照数据的数据集合和任意两个相邻第一参照数据之间的数据集合，并将所述海量数据文件中与所述第一参照数据数值相同的数据放入与所述第一参照数据相邻的前一个数据集合，或放入与所述第一参照数据相邻的后一个数据集合；

步骤2.4，将分类后得到的数据集合保存为文件形式，得到N+1个子数据文件。

进一步地，步骤3中，具体包括：

步骤3.1，提取所述子数据文件中数据的索引字段和属性字段，并获取所述数据的源文件信息；

步骤3.2，从所述子数据文件中选取索引字段互不相同的所有数据作为第二参照数据；

步骤3.3，依次将与所述第二参照数据的索引字段相同但源文件信息不同的待比对数据的属性字段与所述第二参照数据的属性字段进行比对，得到比对结果；

步骤3.4，根据所述比对结果，输出所述待比对数据并保存。

进一步地，步骤3中，通过多个比对单元分别对多个所述子数据文件进行数据的一致性比对。

进一步地，所述比对方法还包括：

步骤4，当任一比对单元出现故障时，将当前比对单元比对的数据发送给其他比对单元重新进行比对。

本发明解决上述技术问题的另一种技术方案如下：

一种海量数据的比对***，包括：

获取模块，用于获取待比对的海量数据文件；

排序模块，用于根据预存的快速排序算法对所述海量数据文件进行排序处理，得到多个子数据文件；

比对模块，用于对多个所述子数据文件进行数据的一致性比对。

进一步地，所述排序模块包括：

第一选取单元，用于在所述海量数据文件中选取N个数值互不相同的数据，将其数值作为第一参照数据；

排序单元，用于将所述第一参照数据按从大到小或从小到大的次序依次排列；

分类单元，用于将所述海量数据文件中的数据依次与所述第一参照数据进行比较后分类，分别得到小于最小第一参照数据的数据集合、大于最大第一参照数据的数据集合和任意两个相邻第一参照数据之间的数据集合，并将所述海量数据文件中与所述第一参照数据数值相同的数据放入与所述第一参照数据相邻的前一个数据集合，或放入与所述第一参照数据相邻的后一个数据集合；

存储单元，用于将分类后得到的数据集合保存为文件形式，得到N+1个子数据文件。

进一步地，所述比对模块包括：

提取单元，用于提取所述子数据文件中数据的索引字段和属性字段，并获取所述数据的源文件信息；

第二选取单元，用于从所述子数据文件中选取索引字段互不相同的所有数据作为第二参照数据；

比对单元，用于依次将与所述第二参照数据的索引字段相同但源文件信息不同的待比对数据的属性字段与所述第二参照数据的属性字段进行比对，得到比对结果；

输出单元，用于根据所述比对结果，输出所述待比对数据并保存。

进一步地，所述比对模块具体用于通过多个所述比对单元分别对多个所述子数据文件进行数据的一致性比对。

进一步地，所述比对***还包括：

检测模块，用于当任一比对单元出现故障时，将当前比对单元比对的数据发送给其他比对单元重新进行比对。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

图1为本发明实施例提供的一种海量数据的比对方法的流程示意图；

图2为本发明另一实施例提供的一种海量数据的比对方法的流程图；

图3为本发明另一实施例提供的一种海量数据的比对***的结构图；

图4为本发明如图3所示的实施例中提供的一种比对模块结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明实施例提供的一种海量数据的比对方法的流程示意图，该方法包括以下步骤：

S101，获取待比对的海量数据文件；

S102，根据预存的快速排序算法对海量数据文件进行排序处理，得到多个子数据文件；

S103，对多个子数据文件进行数据的一致性比对。

上述实施例提供的一种海量数据的比对方法，通过将海量数据文件分成多个子数据文件，分别对多个子数据文件进行比对，有效的解决了目前单一机器I/O有限，无法进行多线程比对的现象，可以提高数据的比对效率。

在另一实施例中，如图2所示，为本发明另一实施例提供的一种海量数据的比对方法的流程图，该方法包括以下步骤：

S201，获取待比对的数据文件A和B；

S202，从数据文件A和B中共选取100个数值互不相同的数据，将这100个数值互不相同数据的数值作为参照数据，需要说明的是，具体选取多少个参照数据，可以根据实际需求确定，不是固定的数值，这里选取100个参照数据，只是为了便于对本实施例进行说明，不是参照数据必须选择的数量；

S203，将这100个数据按从小到大的次序依次排列；

S204，将数据文件A和B中的数据分别与这100个参照数据比较大小，将数据文件A和数据文件B中的全部数据分成101份，在这里以一个简化的例子为例进行说明，例如，需要比对的数据文件A中有3个数据，分别是1、1和3，数据文件B中有4个数据，分别是2、3、4和5，那么，可以选取2和4作为参照数据，其中，参照数据2来自数据文件A，参照数据4来自数据文件B，那么通过将数据文件A和B中的数据1、1、2、3、3、4和5分别与参照数据2和4比较，可以得到3个数据集合，分别是小于2的数据集合[1，1]，大于2小于4的数据集合[3，3]，以及大于4的数据集合[5]，再将与参照数据2和4数值相同的数据2和4分别放入与其相邻的前一个数据集合中，即将数据2放入小于2的数据集合中，将数据4放入大于2小于4的数据集合中，得到最终的数据集合[1，1，2]、[3，3，4]和[5]，这样就完成了数据文件A和B的拆分，在这个简化的例子中，还可以选择来自数据文件B的数据5作为参照数据，那么大于参照数据5的数据集合就是空集；

S205，将分类后得到的这101个数据集合保存为文件形式，得到101个子数据文件；

S206，提取子数据文件中数据的索引字段和属性字段，并获取数据的源文件信息，其中，索引字段记录了数据的索引信息，属性字段记录了数据本体，数据的源文件信息指的是数据的来源，在本实施例中，数据的来源就是数据文件A或数据文件B，例如，在数据文件A中的数据形式可以为<index2，2014070512435，A>，在数据文件B中的数据形式可以为<index2，2014070512435，B>，其中，这两条数据的index2就是索引字段，2014070512435就是属性字段，A表示其来源文件是数据文件A，B表示其来源文件是数据文件B；

S207，分别从这101个子数据文件中选取比对数据，在每个子数据文件中，选择的比对数据的索引字段互不相同，在这里以一个简化的例子为例进行说明，例如，子数据文件1中有2个数据，分别是<index2，5，A>和<index2，5，B>，子数据文件2中有4个数据，分别是<index2，6，A>、<index2，6，B>、<index3，6，A>和<index3，6，B>，那么，在子数据文件1中，可以选择<index2，5，A>或<index2，5，B>作为比对数据，在子数据文件2中，可以选择<index2，6，A>和<index3，6，A>作为比对数据，或选择<index2，6，A>和<index3，6，B>作为比对数据，或选择<index2，6，B>和<index3，6，A>作为比对数据，或选择<index2，6，B>和<index3，6，B>作为比对数据，不能只选择一个数据作为比对数据，例如，只选择<index2，6，A>作为比对数据，会造成索引字段为index3的数据无法比对，同时，也不能选择<index2，6，A>和<index2，6，B>作为比对数据，因为其索引字段相同，都是index2，如果选择了，同样会造成索引字段为index3的数据无法比对，也就是说，在任一子数据文件中，比对数据的索引字段都是彼此不同的；

S208，依次将各子数据文件中，与选择的比对数据索引字段相同，但是来源文件不同的数据进行比对，得到比对结果，比较的内容是两条数据的属性字段是否相同，例如，可以将<index2，5，A>和<index2，5，B>进行比较，发现二者的属性字段相同，数值都是5，则得到比对结果，这两条数据记录相同；

S209，将得到的比对结果进行输出，比对结果为两条数据相同的，输出到一个单独的文件夹内，比对结果为两条数据属性字段不同，则将这两条数据记录输出到另一个单独的文件夹内。

在另一实施例中，给出当需要比对的数据文件为多个时数据的比对方法。

以图2所示的比对方法为例，当需要比对的数据文件为多个时，在将各数据文件排序划分为多个子数据文件后，将来自不同数据文件的数据，依次与比对数据进行比对。

在另一实施例中，如图3所示，为本发明另一实施例提供的一种海量数据的比对***的结构图，该***包括：

获取模块310，用于获取待比对的海量数据文件；

排序模块320，用于根据预存的快速排序算法对海量数据文件进行排序处理，得到多个子数据文件；

比对模块330，用于对多个子数据文件进行数据的一致性比对。

优选地，排序模块320包括：

第一选取单元321，用于在海量数据文件中选取N个数值互不相同的数据，将其数值作为第一参照数据；

排序单元322，用于将第一参照数据按从大到小或从小到大的次序依次排列；

分类单元323，用于将海量数据文件中的数据依次与第一参照数据进行比较后分类，分别得到小于最小第一参照数据的数据集合、大于最大第一参照数据的数据集合和任意两个相邻第一参照数据之间的数据集合，并将海量数据文件中与第一参照数据数值相同的数据放入与第一参照数据相邻的前一个数据集合，或放入与第一参照数据相邻的后一个数据集合；

存储单元324，用于将分类后得到的数据集合保存为文件形式，得到N+1个子数据文件。

优选地，比对模块330包括：

提取单元331，用于提取子数据文件中数据的索引字段和属性字段，并获取数据的源文件信息；

第二选取单元332，用于从子数据文件中选取至少一个数据作为第二参照数据，当第二参照数据为多个时，多个第二参照数据的索引字段互不相同；

比对单元333，用于依次将与第二参照数据的索引字段相同但源文件信息不同的待比对数据的属性字段与第二参照数据的属性字段进行比对，得到比对结果；

输出单元334，用于根据比对结果，输出待比对数据并保存。

优选地，如图4所示，比对模块330具体用于通过多个比对单元333分别对多个子数据文件进行数据的一致性比对。

优选地，比对***还包括：

检测模块340，用于当任一比对单元333出现故障时，将当前比对单元333比对的数据发送给其他比对单元333重新进行比对。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***和方法，可以通过其它的方式实现。例如，以上所描述的***实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种海量数据的比对方法，其特征在于，包括以下步骤：

步骤1，获取待比对的海量数据文件；

步骤3，对多个所述子数据文件进行数据的一致性比对；

步骤3中，具体包括：

步骤3.4，根据所述比对结果，输出所述待比对数据并保存。

2.根据权利要求1所述的比对方法，其特征在于，步骤2中，具体包括：

3.根据权利要求1或2所述的比对方法，其特征在于，步骤3中，通过多个比对单元分别对多个所述子数据文件进行数据的一致性比对。

4.根据权利要求3所述的比对方法，其特征在于，还包括：

5.一种海量数据的比对***，其特征在于，包括：

获取模块，用于获取待比对的海量数据文件；

比对模块，用于对多个所述子数据文件进行数据的一致性比对；

所述比对模块包括：

6.根据权利要求5所述的比对***，其特征在于，所述排序模块包括：

7.根据权利要求5或6所述的比对***，其特征在于，所述比对模块具体用于通过多个所述比对单元分别对多个所述子数据文件进行数据的一致性比对。

8.根据权利要求7所述的比对***，其特征在于，还包括：