CN109828968B

CN109828968B - 一种数据去重处理方法、装置、设备、集群及存储介质

Info

Publication number: CN109828968B
Application number: CN201910121676.9A
Authority: CN
Inventors: 陶胜; 仇贲
Original assignee: Guangzhou Huya Information Technology Co Ltd
Current assignee: Guangzhou Huya Information Technology Co Ltd
Priority date: 2019-02-19
Filing date: 2019-02-19
Publication date: 2021-12-21
Anticipated expiration: 2039-02-19
Also published as: CN109828968A

Abstract

本发明实施例公开了一种数据去重处理方法、装置、设备、集群及存储介质，其中，该方法应用于集群中的主节点，该方法包括：获取数据查询请求，数据查询请求中包括查询数据表、分组字段名，以及去重字段名；将查询数据表中的数据分配给至少两个数据节点进行分组去重处理，并获取至少两个数据节点形成的去重结果；其中，数据节点用于将分配的数据，按照分组字段名以及去重字段名的字段值存储于多个数据分组表中，为数据分组表中的数据添加行标识，根据分组字段名以及行标识对数据分组表中的数据进行分组去重，形成去重结果；不同的数据节点执行不同数据分组表的行标识添加操作。本发明实施例提供的技术方案可以节省时间，提高效率。

Description

一种数据去重处理方法、装置、设备、集群及存储介质

技术领域

本发明实施例涉及数据分析技术领域，尤其涉及一种数据去重处理方法、装置、设备、集群及存储介质。

背景技术

近几年来，随着计算机和信息技术的迅猛发展和普及应用，产生了各种各样的数据，同时也会存在大量的重复数据。在数据不断增长的情况下，如何消除重复数据已经成为在数据分析领域急需解决的业务需求。

现有技术中，在对大量数据进行去重时，可以去重的任务分配给集群，由集群中的数据节点将需要去重的大量数据基于一个分组指标进行分组，由每个数据节点将对应数据分组进行一一匹配，将具有同一分组指标和同一去重指标的重复数据去掉，从而完成对数据的去重。例如，当需要统计在各个产品上的用户数量时，可以将去重的任务分配给集群，由集群中的数据节点将需要去重的大量数据基于产品进行分组，由每个数据节点分别对对应产品的数据分组进行一一匹配，将同一产品同一用户的多余数据去重，从而得到各个产品上的用户数据，从而也可以统计出用户数量。但是现有技术中上述数据去重的方法，花费时间较长，尤其是当数据量较大时，更加浪费时间，效率较低。

发明内容

本发明实施例提供一种数据去重处理方法、装置、设备、集群及存储介质，可以节省时间，提高效率。

第一方面，本发明实施例提供了一种数据去重处理方法，所述方法应用于集群中的主节点，所述方法包括：

获取数据去重查询请求，所述数据查询请求中包括查询数据表、分组字段名，以及去重字段名；

将所述查询数据表中的数据分配给至少两个数据节点进行分组去重处理，并获取所述至少两个数据节点形成的去重结果；

其中，数据节点用于将分配的数据，按照分组字段名以及去重字段名的字段值存储于多个数据分组表中，为数据分组表中的数据添加行标识，根据所述分组字段名以及所述行标识对数据分组表中的数据进行分组去重，形成去重结果；不同的数据节点执行不同数据分组表的行标识添加操作。

第二方面，本发明实施例提供了一种数据去重处理方法，所述方法应用于集群中的数据节点集合，所述数据节点集合包括至少两个数据节点，所述方法包括：

获取主节点分配的数据，其中，所述分配的数据为所述主节点根据数据查询请求中包括的查询数据表分配的数据，所述数据查询请求中包括查询数据表、分组字段名，以及去重字段名；

将分配的数据按照分组字段名以及去重字段名的字段值存储于多个数据分组表中；

对所述数据分组表中的数据添加行标识；其中，不同的数据节点执行不同数据分组表的行标识添加操作；

根据分组字段名以及所述行标识对数据分组表中的数据进行分组去重，形成去重结果反馈给所述主节点。

第三方面，本发明实施例提供了一种数据去重处理方法，所述方法应用于集群中，所述集群包括主节点和数据节点集合，所述数据节点集合中包括至少两个数据节点，所述方法包括：

主节点获取数据查询请求，所述数据查询请求中包括查询数据表、分组字段名，以及去重字段名；

所述主节点将所述查询数据表中的数据分配给数据节点集合；

所述数据节点集合获取主节点分配的数据；

所述数据节点集合将分配的数据按照分组字段名以及去重字段名的字段值存储于多个数据分组表中；

所述数据节点集合对数据分组表中的数据添加行标识；其中，不同的数据节点执行不同数据分组表的行标识添加操作；

所述数据节点集合根据分组字段名以及行标识对第一数据分组表中的数据进行分组去重，形成去重结果反馈给所述主节点。

第四方面，本发明实施例提供了一种数据去重处理装置，包括：

请求获取模块，用于获取数据去重查询请求，所述数据查询请求中包括查询数据表、分组字段名，以及去重字段名；

结果获取模块，用于所述主节点将所述查询数据表中的数据分配给至少两个数据节点进行分组去重处理，并获取所述至少两个数据节点形成的去重结果；

第五方面，本发明实施例提供了一种集群，包括主节点和数据节点集合，所述数据节点集合包括至少两个数据节点；

所述主节点，用于获取数据查询请求，所述数据查询请求中包括查询数据表、分组字段名，以及去重字段名；

所述主节点，还用于将所述查询数据表中的数据分配给数据节点集合；

所述数据节点集合，用于获取主节点分配的数据；

所述数据节点集合，还用于分别将分配的数据按照分组字段名以及去重字段名的字段值存储于多个数据分组表中；

所述数据节点集合，还用于对数据分组表中的数据添加行标识；其中，不同的数据节点执行不同数据分组表的行标识添加操作；

所述数据节点集合，还用于根据分组字段名以及行标识对第一数据分组表中的数据进行分组去重，形成去重结果反馈给所述主节点。

第六方面，本发明实施例提供了一种设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例提供的一种数据去重处理方法。

第七方面，本发明实施例提供的一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例提供的一种数据去重处理方法。

本发明实施例提供的技术方案，通过主节点将需要去重的查询数据表的数据分配给至少两个数据节点，由数据节点将分配的数据基于分组字段名以及去重字段名的字段值存储于多个数据分组表中，为数据分组表中的数据添加行标识，其中，不同的数据节点执行不同数据分组表的行标识添加操作，根据行标识以及分组字段名进行去重处理，形成去重结果。即本发明实施例提供的技术方案通过将需要去重的数据分配给至少两个数据节点，由数据节点基于分组指标和去重指标进行分组，并由与数据分组对应的数据节点为数据添加行标识，基于行标识以及分组指标进行去重处理；其中，通过分组指标和去重指标进行分组，相对于相关技术中基于分组指标进行分组，从而进行数据去重方法而言，产生的数据分组较多，并且将每个数据分组分配给对应的数据节点添加行标识时，可以分配更多的数据节点进行处理，以使每个数据节点处理的数据量减少，处理速度较快，花费时间较少；本发明实施例通过行标识以及分组字段名进行去重处理时，即通过行标识和分组指标进行去重处理，不需要像相关技术中基于去重字段名进行数据一一匹配，可以节省大量时间，提高效率。

附图说明

图1是本发明实施例提供的一种数据去重处理方法流程图；

图2是本发明实施例提供的一种数据去重处理方法流程图；

图3是本发明实施例提供的一种数据去重处理方法流程图；

图4是本发明实施例提供的一种数据去重处理方法流程图；

图5是本发明实施例提供的一种数据去重处理方法流程图；

图6是本发明实施例提供的一种数据去重处理结构框图；

图7是本发明实施例提供的一种集群结构示意图；

图8是本发明实施例提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1是本发明实施例提供的一种数据去重处理方法流程图，所述方法可以由数据去重处理装置来执行，所述装置由软件和/或硬件来实现。所述装置可以配置在集群中的主节点中，所述方法可以应用于大数据去重处理的场景中。

可选的，本发明实施例提供的方法可以应用于集群中。其中，集群可以包括主节点和至少两个数据节点。集群可以安装有Hadoop，其中，Hadoop是一个由Apache基金会所开发的分布式***基础架构。

可选的，本发明实施例提供的技术方案可以应用于如下具体的场景中：相关技术中，在对大量的数据进行去重时，可以将去重中的任务分配给集群，由集群中的数据节点将需要去重的大量数据基于一个指标进行分组，由每个数据节点将对应数据分组进行一一匹配，将具有同一分组指标和同一去重指标的重复数据去掉，从而完成对数据的去重。但是相关技术中的数据去重方法，通过分组指标将需要去重的数据进行分组，产生的数据分组较少；当将每个数据分组分配给对应的数据节点去重时，分配的数据节点也会比较少，每个数据节点处理数据的数量较大，导致花费时间较多。并且，相关技术中，当数据节点对对应数据分组进行去重时，基于去重指标一一进行数据匹配，而该数据匹配的方式也比较耗时，因此，相关技术中的数据去重方法花费的时间较多，效率较低。

如图1所示，本发明实施例提供的技术方案包括：

S110：主节点获取数据查询请求，所述数据查询请求中包括查询数据表、分组字段名，以及去重字段名。

在本发明实施例中，用户可以根据自己的需要对数据进行查询，以去除重复数据。其中，用户的数据查询请求可以包括需要访问的查询数据表、分组字段名和去重字段名，其中，分组字段名可以包括一个或者多个，去重查询字段名可以包括一个。当用户需要查询使用各个产品的用户数量时，分组字段名可以是product(产品)，去重字段名可以是passport(用户)。

在本发明实施例中，可选的，数据查询请求中还可以包括运算函数，例如可以包括count(*)函数和row_number函数。数据查询请求可以采用结构化查询语言(StructuredQueryLanguage，SQL)。用户端可以通过Hive接口的将数据查询请求发送至集群中的Hive上，通过Hive将SQL语言的数据查询请求转换成Hadoop可识别的任务语言，以在集群的Hadoop运行，从而执行相应的操作。其中，Hadoop是一个由Apache基金会所开发的分布式***基础架构，运行在集群中。其中，Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为任务在Hadoop上运行。其中，row_number函数，用于执行添加行标识的操作，count(*)函数用于执行根据行标识进行去重的操作。

S120：所述主节点将所述查询数据表中的数据分配给至少两个数据节点进行分组去重处理，并获取所述至少两个数据节点形成的去重结果；其中，数据节点用于将分配的数据，按照分组字段名以及去重字段名的字段值存储于多个数据分组表中，为数据分组表中的数据添加行标识，根据所述分组字段名以及所述行标识对数据分组表中的数据进行分组去重，形成去重结果；不同的数据节点执行不同数据分组表的行标识添加操作。

在本发明实施例的一个实施方式中，可选的，所述主节点将所述查询数据表中的数据分配给至少两个数据节点进行分组去重处理，包括：所述主节点根据所述数据节点的数量将查询数据表中的数据进行划分，并将划分的数据分别分配给各数据节点，以使所述各数据节点根据分配的数据进行分组去重处理。

具体的，主节点可以根据数据节点的数量将查询数据表中的数据进行等分，并向各个数据节点发送指令，以指示各个数据节点从查询数据表中获取对应的数据，并对获取的数据进行分组去重处理。例如，查询数据表大小是n兆，而数据节点的数量为m，则查询数据表等分为m部分，将划分的每部分数据分配给数据节点，以使数据节点对分配的数据进行分组去重处理。

由此，通过将查询数据表的数据进行划分，并分配给对应的数据节点以使数据节点对分配的数据进行分组去重处理，可以最大效率的利用数据节点，以提高数据处理速度。

在本发明实施例中，可选的，主节点可以将数据查询表中的数据分配给各个数据节点，各个数据节点可以分别将分配的数据中分组字段名以及去重字段名的字段值均相等的数据存储于同一数据分组表中。其中，分组字段名以及去重字段名的字段值均不相等的数据，则存储于不同的数据分组表。例如，数据节点的数量为3个，则可以将查询数据表中的数据可以划分成三部分，分别分配给3个数据节点。数据节点1可以将第一部分数据中，分组字段名和去重字段名的字段值分别为“anzhuo”和“aa”的数据存储于数据分组表1中；数据节点2可以将第二部分数据中分组字段名和去重字段名的字段值分别为“anzhuo”和“aa”的数据存储于数据分组表1中；数据节点3可以将第三部分数据中分组字段名和去重字段名的字段值分别为“anzhuo”和“aa”的数据存储于数据分组表中1。同理，3个数据节点还可以分别将分配的数据中，分组字段名和去重字段名的字段值分别为“anzhuo”和“bb”的全部数据存储于数据分组表2中。同理，各个数据节点可以分别将分配的数据中，分组字段名和去重字段名均相等的数据存储于同一数据分组表中。

当将分组字段名以及去重字段名的字段值均相等的数据存储于同一数据分组表之后，主节点为每个数据分组表分配对应的数据节点，各个数据节点分别为对应的数据分组表中的数据添加行标识，其中，行标识可以从小到大进行排序，最小的排序是1。

在本发明实施例中，可选的，根据所述分组字段名以及所述行标识对数据分组表中的数据进行分组去重，形成去重结果，可以具体是：将数据分组表中的数据以及所述行标识存储到同一目标数据表中；将目标数据表中的数据按照分组字段名存储于多个数据汇总表中；其中，同一数据汇总表中的数据对应的分组字段名相等；分别在每个所述数据汇总表中筛选行标识为1的数据，以对每个数据汇总表中的数据进行去重，并在每个所述数据汇总分组表中得到去重后的数据；统计每个数据汇总表中去重后的数据的数量，作为与所述查询请求对应的数量，并反馈给所述主节点；其中，不同的数据节点执行不同的数据汇总表的去重操作。

其中，主节点可以将目标数据表中的数据进行划分，并将划分的数据分别分配给各个数据节点，各个数据节点可以分别将分配的数据中分组字段名的字段值相等的数据存储于同一数据汇总表中。例如，各个数据节点可以将分配的数据中，分组字段名的字段值为“anzhuo”的全部数据存储到数据汇总表1中，将分组字段名的字段值为“IOS”的全部数据存储到数据汇总表2中。其中，分组字段名的字段值为其他情况的数据存储方法与上述存储方法相同。

其中，不同数据汇总表中的数据的分组字段名的字段值不相等。当数据节点将分配的数据中分组字段名的字段值相等的数据存储于同一数据汇总表之后，主节点可以为数据节点分配对应的数据汇总表，数据节点可以在对应数据汇总表中筛选行标识为1的数据，以对每个数据汇总表的数据进行去重。

相关技术中，在对大量的数据进行去重时，可以将去重中的任务分配给集群，由集群中的数据节点将需要去重的大量数据基于一个指标进行分组，由每个数据节点将对应数据分组进行一一匹配，将具有同一分组指标和同一去重指标的重复数据去掉，从而完成对数据的去重。但是相关技术中的数据去重方法，通过分组指标将需要去重的数据进行分组，产生的数据分组较少；当将每个数据分组分配给对应的数据节点去重时，分配的数据节点也会比较少，每个数据节点处理数据的数量较大，导致花费时间较多。并且，相关技术中，当数据节点对对应数据分组进行去重时，基于去重指标一一进行数据匹配，而该数据匹配的方式也比较耗时，因此，相关技术中的数据去重方法花费的时间较多，效率较低。

图2是本发明实施例提供的一种数据去重处理方法流程图，所述方法可以应用于大数据去重处理的场景中，所述方法可以应用于数据节点集合中，数据节点集合包括至少两个数据节点。

如图2所示，本发明实施例提供的技术方案包括：

S210：获取主节点分配的数据，其中，所述分配的数据为所述主节点根据数据查询请求中包括的查询数据表分配的数据，所述数据查询请求中包括查询数据表、分组字段名，以及去重字段名。

在本发明实施例中，主节点可以根据数据节点的数量将查询数据表中的数据进行等分，并向各个数据节点发送指令，以指示各个数据节点从查询数据表中获取对应的数据，并对获取的数据进行分组去重处理。例如，查询数据表大小是n兆，而数据节点的数量为m，则查询数据表等分为m部分，将划分的每部分数据分配给数据节点。

S220：将分配的数据按照分组字段名以及去重字段名的字段值存储于多个数据分组表中。

在本发明实施例的一个实施方式中，可选的，所述将分配的数据按照分组字段名以及去重字段名的字段值存储于多个数据分组表中，包括：将分配的数据中，分组字段名以及去重查询字段名对应的字段值相等的数据存储到同一数据分组表中。

其中，主节点可以将数据查询表中的数据分配给各个数据节点，各个数据节点可以分别将分配的数据中分组字段名以及去重字段名的字段值均相等的数据存储于同一数据分组表中。其中，分组字段名以及去重字段名的字段值均不相等的数据，则存储于不同的数据分组表。例如，数据节点的数量为3个，则可以将查询数据表中的数据可以划分成三部分，分别分配给3个数据节点。数据节点1可以将第一部分数据中，分组字段名和去重字段名的字段值分别为“anzhuo”和“aa”的数据存储于数据分组表1中；数据节点2可以将第二部分数据中分组字段名和去重字段名的字段值分别为“anzhuo”和“aa”的数据存储于数据分组表1中；数据节点3可以将第三部分数据中分组字段名和去重字段名的字段值分别为“anzhuo”和“aa”的数据存储于数据分组表中1。同理，3个数据节点还可以分别将分配的数据中，分组字段名和去重字段名的字段值分别为“anzhuo”和“bb”的全部数据存储于数据分组表2中。同理，各个数据节点可以分别将分配的数据中，分组字段名和去重字段名均相等的数据存储于同一数据分组表中。

S230：对所述数据分组表中的数据添加行标识；其中，不同的数据节点执行不同数据分组表的行标识添加操作。

在本发明实施例中，当将分组字段名以及去重字段名的字段值均相等的数据存储于同一数据分组表之后，主节点为每个数据分组表分配对应的数据节点，各个数据节点分别为对应的数据分组表中的数据添加行标识，其中，行标识可以从小到大进行排序，最小的排序是1。

S240：根据分组字段名以及所述行标识对数据分组表中的数据进行分组去重，形成去重结果反馈给所述主节点。

具体的，可以将每个数据分组表中的数据存储到一个目标数据表中，将目标数据表中的数据基于分组字段名进行分组，可以将分组字段名的字段值相等的数据存储到同一数据汇总表中。在每个数据汇总表中，筛序行标识为1的数据，以对数据进行去重，并将去重结果反馈给主节点。具体可以详见下述实施例的介绍。

相对于相关技术中将查询数据表中的数据基于分组字段名进行分组而言，本发明实施例提供的技术方案通过对查询数据表中的数据基于去重字段名和分组字段名进行分组，并将同一分组的数据存储于同一数据分组表中，可以将查询数据表中的数据划分成更多的分组，并将查询数据表中的数据存储于更多的数据分组表中。通过不同的数据节点执行不同数据分组表中行标识的添加操作，可以由更多的数据节点处理数据，可以更快速的为数据添加行标识，花费时间较少。通过基于行标识以及分组字段名对数据分组和筛选，相对于现有技术中通过数据匹配的方式，大大减少了数据处理时间，提高了去重的效率。

图3是本发明实施例提供的一种数据去重处理方法流程图，如图3所示，本发明实施例提供的技术方案包括：

S310：获取主节点分配的数据，其中，所述分配的数据为所述主节点根据数据查询请求中包括的查询数据表分配的数据，所述数据查询请求中包括查询数据表、分组字段名，以及去重字段名。

S320：将分配的数据按照分组字段名以及去重字段名的字段值存储于多个数据分组表中。

S330：对所述数据分组表中的数据添加行标识；其中，不同的数据节点执行不同数据分组表的行标识添加操作。

S340：将数据分组表中的数据以及所述行标识存储到同一目标数据表中。

在本发明实施例中，目标数据表中包括数据分组表中的全部数据，以及每个数据在对应数据分组表中的行标识。

S350：将所述目标数据表中的数据按照分组字段名的字段值存储于多个数据汇总表中；其中，同一数据汇总表中的数据对应的分组字段名相等。

在本发明实施例中，主节点可以将目标数据表中的数据进行划分，并将划分的数据分别分配给各个数据节点，各个数据节点可以分别将分配的数据中分组字段名的字段值相等的数据存储于同一数据汇总表中。例如，各个数据节点可以将分配的数据中，分组字段名的字段值为“anzhuo”的全部数据存储到数据汇总表1中，将分组字段名的字段值为“IOS”的全部数据存储到数据汇总表2中。其中，分组字段名的字段值为其他情况的数据存储方法与上述存储方法相同。其中，不同数据汇总表中的数据的分组字段名的字段值不相等。

S360：在每个所述数据汇总表中筛选行标识为1的数据，以对每个数据汇总表中的数据进行去重，并在每个所述数据汇总分组表中得到去重后的数据。

在本发明实施例中，数据节点可以在对应数据汇总表中筛选行标识为1的数据，以对每个数据汇总表的数据进行去重，并在每个数据汇总分组表中得到去重后的数据。

S370：统计每个所述数据汇总表中去重后的数据的数量，作为与所述查询请求对应的数量，并反馈给所述主节点；其中，不同的数据节点执行不同的数据汇总表的去重操作。

相对于相关技术中将查询数据表中的数据基于分组字段名进行分组而言，本发明实施例通过对查询数据表中的数据基于去重字段名和分组字段名进行分组，并将去重字段名和分组字段名相等的数据存储于数据分组表中，可以将查询数据表中的数据划分更多的数据分组，通过不同的数据节点执行不同数据分组表中行标识的添加操作，即将每个数据分组由对应的数据节点执行行标识添加操作。由于划分了更多的数据分组，可以由更多的数据节点对数据分组进行处理，可以更快速的为数据分组中的数据添加行标识。

并且，通过将数据分组表中的数据以及行标识存储到目标数据表中，并对目标数据表中的数据基于分组字段名进行再次分组，将分组字段名相等的数据存储到数据汇总表中，在每个数据汇总表中筛选行标识为1的数据，以对每个数据汇总表中的数据进行去重。相对于相关数据中将查询数据表中的数据基于分组字段名分组，并进行数据匹配的方式去重，可以节省时间。本发明实施例提供的技术方案，虽然进行了两次数据分组，但是基于分组字段名和去重字段名进行数据分组，可以划分更多的数据分组，可以由更多的数据节点为每个数据分组添加行标识，所以添加行标识的操作执行速度很快，花费的时间较少。并且，本发明实施例中通过基于分组字段名进行数据分组，筛选行标识为1的数据以进行去重处理，相对于相关技术中数据匹配的方式而言，数据去重的速度大大提高。所以，本发明实施例提供的技术方案虽然增加了一次数据分组，并添加行标识的操作，但是花费的时间较少，而筛选行标识为1的数据以进行数据去重的方法相对于相关技术中数据匹配的方式，节省较多的时间。总体而言，所以本发明实施例提供的技术方案相对于相关技术中的数据去重方法，可以节省时间，提高效率。

图4是本发明实施例提供的一种数据去重处理方法流程图，所述方法应用于集群中，所述集群包括主节点和数据节点集合，所述数据节点集合中包括至少两个数据节点。如图4所示，本发明实施例提供的技术方案包括：

S410：主节点获取数据查询请求，所述数据查询请求中包括查询数据表、分组字段名，以及去重字段名。

S420：所述主节点将所述查询数据表中的数据分配给数据节点集合。

S430：所述数据节点集合获取主节点分配的数据。

S440：所述数据节点集合分别将分配的数据按照分组字段名以及去重字段名的字段值存储于多个数据分组表中。

S450：所述数据节点集合对数据分组表中的数据添加行标识；其中，不同的数据节点执行不同数据分组表的行标识添加操作。

S460：所述数据节点集合根据分组字段名以及行标识对第一数据分组表中的数据进行分组去重，形成去重结果反馈给所述主节点。

在本发明实施例中，可选的，所述数据节点集合根据分组字段名以及行标识对第一数据分组表中的数据进行分组去重，形成去重结果反馈给所述主节点，包括：

将所述数据分组表中的数据以及所述行标识存储到同一目标数据表中；

将所述目标数据表中的数据按照分组字段名存储于多个数据汇总表中；其中，同一数据汇总表中的数据对应的分组字段名相等；

分别在每个所述数据汇总表中筛选行标识为1的数据，以对每个数据汇总表中的数据进行去重，并在每个所述数据汇总分组表中得到去重后的数据；

统计每个所述数据汇总表中去重后的数据的数量，作为与所述查询请求对应的数量，并反馈给所述主节点；其中，不同的数据节点执行不同的数据汇总表的去重操作。

本发明实施例中各个步骤的详细介绍可以参考上述实施例对应步骤的介绍。

图5是本发明实施例提供的一种数据去重处理方法流程图，如图5所示，本发明实施例提供的技术方案包括：

S510：主节点获取数据查询请求，所述数据查询请求中包括查询数据表、产品字段名，以及用户字段名。

在本发明实施例中，用户的数据查询请求可以包括需要访问的查询数据表、分组字段名和去重字段名。查询数据表中的部分信息可以是如下表1所示的形式。

表1

字段	类型	备注
			stime	String	数据上报的时间点
passport	String	用户
			product	String	产品

在本发明实施例中，可选的，数据查询请求中还可以包括运算函数，例如可以包括count(*)函数和row_number函数。row_number函数，用于执行添加行标识的操作，count(*)函数用于执行根据行标识进行去重的操作。具体的，row_number函数，用于将查询数据表的数据按照用户字段名和产品字段名进行分组，并添加行标识。count(*)函数用于筛选按照产品字段名分组的数据行标识为1的数据。其中，目标数据表中的包括查询数据表中的数据，以及数据在对应分组的行标识。

S520：所述主节点将所述查询数据表中的数据分配给数据节点集合。

S530：所述数据节点集合获取主节点分配的数据。

S540：所述数据节点集合分别将分配的数据按照产品字段名以及用户字段名的字段值存储于多个数据分组表中。

S550：所述数据节点集合对数据分组表中的数据添加行标识；其中，不同的数据节点执行不同数据分组表的行标识添加操作。

S560：所述数据节点集合将数据分组表中的数据以及所述行标识存储到同一目标数据表中。

S570：所述数据节点集合将所述目标数据表中的数据按照产品字段名的字段值存储于多个数据汇总表中；其中，同一数据汇总表中的数据对应的分组字段名相等。

S580：所述数据节点集合在每个所述数据汇总表中筛选行标识为1的数据，以对每个数据汇总表中的数据进行去重，并在每个所述数据汇总分组表中得到去重后的数据。

S590：所述数据节点集合统计每个所述数据汇总表中去重后的数据的数量，作为与所述查询请求对应的数量，并反馈给所述主节点；其中，不同的数据节点执行不同的数据汇总表的去重操作。

相关技术中，数据查询请求中包括count distinct函数，当用户需要统计使用各个产品的用户的数量时，数据查询请求中可以是如下形式：

select product,count(distinct passport)

from查询数据表

group by product

当将数据查询请求发送至集群中时，由集群执行数据查询请求中的任务，即将查询数据表的数据按照产品字段名进行分组，将产品字段名的字段值相等的数据存储到一个数据分组，并分别由集群中对应的数据节点基于数据匹配的方式在每个数据分组中将同一产品同一用户的重复数据去掉。由于基于产品字段名进行分组，产生的数据分组较少，当将每个数据分组分配给对应的数据节点去重时，分配的数据节点也会比较少，每个数据节点处理数据的数量较大，导致花费时间较多，当数据节点对对应的数据分组进行去重时，数据匹配的方式也比较耗时。

本发明实施例中提供的技术方案中，数据查询请求中包括count(*)函数和row_number函数，例如，查询请求的形式可以是如下形式：

select product,count(*)

from(

select product,passport

row_number()over(partition by product,passport)rid

from查询数据表

)t1

where rid＝1

group by product

；

其中，t1为目标数据表，当将数据查询请求发送至集群中，集群执行数据查询请求中的任务。本发明实施例的技术方案采用row_number函数对查询数据表中的数据基于产品字段名和用户字段名进行分组，将产品字段名和用户字段名的字段值均相等的数据存储到一个数据分组，并分配给集群中的数据节点为对应的数据分组添加行标识。然后，将添加行标识的数据存储到目标数据表中，并将目标数据表中的数据基于产品字段名进行分组，将产品字段名的字段值相等的数据存储到一个产品数据分组中，采用count(*)函数筛选行标识为1的数据，可以统计出去重用户的数量。本发明实施例提供的方法，由于采用row_number函数基于产品字段名和用户字段名进行分组，产生了更多的数据分组，可以分配给更多的数据节点执行为数据分组添加行标识的操作，花费的时间较少；并且通过count(*)函数筛选行标识为1的数据进行去重，相对于相关技术中的数据匹配的方式，可以节省更多的时间。因此，本发明实施例中，数据查询请求中采用row_number函数将count distinct运算转换为count(*)运算，以使集群接收到数据查询请求，执行任务时可以节省时间，提高效率。

其中，在效果数据测验中，查询数据表的数据记录条数是5.2亿，相关技术采用的方法进行数据去重，耗时是3234秒(54分钟)，而本发明实施例中采用的方法进行数据去重，耗时是224秒(不到4分钟)，由此，去重任务耗时直接缩短了50分钟，效率得到很大提升。

图6是本发明实施例提供的一种数据去重处理装置结构框图，如图6所示，所述装置包括：请求获取模块610和结果获取模块620。

请求获取模块610，用于获取数据查询请求，所述数据查询请求中包括查询数据表、分组字段名，以及去重字段名；

结果获取模块620，用于所述主节点将所述查询数据表中的数据分配给至少两个数据节点进行分组去重处理，并获取所述至少两个数据节点形成的去重结果；

可选的，结果获取模块620，用于根据所述数据节点的数量将查询数据表中的数据进行划分，并将划分的数据分别分配给各数据节点，以使所述各数据节点根据分配的数据进行分组去重处理。

上述装置可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

图7是本发明实施例提供的一种集群，如图7所示，所述集群包括主节点和数据节点集合，所述数据节点集合包括至少两个数据节点；

所述主节点710，用于获取数据查询请求，所述数据查询请求中包括查询数据表、分组字段名，以及去重字段名；

所述主节点710，还用于将所述查询数据表中的数据分配给数据节点集合；

所述数据节点集合720，用于获取主节点分配的数据；

所述数据节点集合720，还用于分别将分配的数据按照分组字段名以及去重字段名的字段值存储于多个数据分组表中；

所述数据节点集合720，还用于对数据分组表中的数据添加行标识；其中，不同的数据节点执行不同数据分组表的行标识添加操作；

所述数据节点集合720，还用于根据分组字段名以及行标识对第一数据分组表中的数据进行分组去重，形成去重结果反馈给所述主节点。

具体的，所述数据节点集合720，用于：

将数据分组表中的数据以及所述行标识存储到同一目标数据表中；

统计每个所述数据汇总表中去重后的数据的数量，作为与所述查询请求对应的数量，并反馈给所述主节点；其中，不同的数据节点730执行不同的数据汇总表的去重操作。

图8是本发明实施例提供的一种设备结构示意图，如图8所示，该设备包括：

一个或多个处理器810，图8中以一个处理器810为例；

存储器820；

所述设备还可以包括：输入装置830和输出装置840。

所述设备中的处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接，图8中以通过总线连接为例。

存储器820作为一种非暂态计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种数据去重处理方法对应的程序指令/模块(例如，附图6所示的文请求获取模块610和结果获取模块620)。处理器810通过运行存储在存储器820中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述方法实施例的一种数据去重处理方法，即：

获取数据查询请求，所述数据查询请求中包括查询数据表、分组字段名，以及去重字段名；

存储器820可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器820可以包括高速随机存取存储器，还可以包括非暂态性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中，存储器820可选包括相对于处理器810远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置830可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置840可包括输出接口等。

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例提供的一种数据去重处理方法：

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据去重处理方法，其特征在于，所述方法应用于集群中的主节点，所述方法包括：

其中，数据节点用于将分配的数据，按照分组字段名以及去重字段名的字段值存储于多个数据分组表中，为数据分组表中的数据添加行标识，并根据所述分组字段名以及所述行标识对数据分组表中的数据进行分组去重，形成去重结果；其中，不同的数据节点执行不同数据分组表的行标识添加操作；

所述将分配的数据按照分组字段名以及去重字段名的字段值存储于多个数据分组表中，包括：

将分配的数据中，分组字段名以及去重查询字段名的字段值均相等的数据存储到同一数据分组表中。

2.根据权利要求1所述的方法，其特征在于，将所述查询数据表中的数据分配给至少两个数据节点进行分组去重处理，包括：

根据所述数据节点的数量将查询数据表中的数据进行划分，并将划分的数据分别分配给各数据节点，以使所述各数据节点根据分配的数据进行分组去重处理。

3.一种数据去重处理方法，其特征在于，所述方法应用于集群中的数据节点集合，所述数据节点集合包括至少两个数据节点，所述方法包括：

将分配的数据按照所述分组字段名以及所述去重字段名的字段值存储于多个数据分组表中；

根据分组字段名以及所述行标识对数据分组表中的数据进行分组去重，形成去重结果反馈给所述主节点；

4.根据权利要求3所述的方法，其特征在于，根据分组字段名以及行标识对数据分组表中的数据进行分组去重，形成去重结果反馈给所述主节点，包括：

将所述数据分组表中的数据以及所述行标识存储到同一目标数据表中；将所述目标数据表中的数据按照分组字段名的字段值存储于多个数据汇总表中；其中，同一数据汇总表中的数据对应的分组字段名的字段值相等；

分别在每个所述数据汇总表中筛选行标识为1的数据，以在每个所述数据汇总分组表中得到去重后的数据；

5.一种数据去重处理方法，其特征在于，所述方法应用于集群中，所述集群包括主节点和数据节点集合，所述数据节点集合中包括至少两个数据节点，所述方法包括：

所述数据节点集合获取主节点分配的数据；

所述数据节点集合根据分组字段名以及行标识对具有行标识的数据分组表中的数据进行分组去重，形成去重结果反馈给所述主节点；

6.一种数据去重处理装置，其特征在于，包括：

请求获取模块，用于获取数据查询请求，所述数据查询请求中包括查询数据表、分组字段名，以及去重字段名；

结果获取模块，用于将所述查询数据表中的数据分配给至少两个数据节点进行分组去重处理，并获取所述至少两个数据节点形成的去重结果；

其中，数据节点用于将分配的数据，按照分组字段名以及去重字段名的字段值存储于多个数据分组表中，为数据分组表中的数据添加行标识，根据所述分组字段名以及所述行标识对数据分组表中的数据进行分组去重，形成去重结果；不同的数据节点执行不同数据分组表的行标识添加操作；

7.一种集群，其特征在于，包括主节点和数据节点集合，所述数据节点集合包括至少两个数据节点；

所述数据节点集合，用于获取主节点分配的数据；

所述数据节点集合，还用于将分配的数据按照分组字段名以及去重字段名的字段值存储于多个数据分组表中；

所述数据节点集合，还用于根据分组字段名以及行标识对具有行标识的数据分组表中的数据进行分组去重，形成去重结果反馈给所述主节点；

8.一种设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1或者2所述的一种数据去重处理方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1或2任一项所述的一种数据去重处理方法。