CN105468699B

CN105468699B - 去重数据统计方法及设备

Info

Publication number: CN105468699B
Application number: CN201510794267.7A
Authority: CN
Inventors: 罗文�
Original assignee: ZHUHAI DUOWAN INFORMATION TECHNOLOGY Ltd
Current assignee: ZHUHAI DUOWAN INFORMATION TECHNOLOGY Ltd
Priority date: 2015-11-18
Filing date: 2015-11-18
Publication date: 2019-06-18
Anticipated expiration: 2035-11-18
Also published as: CN105468699A

Abstract

本发明公开了一种去重数据统计方法及设备，属于互联网技术领域。所述方法包括：获取指定时间段内统计的多个用户行为数据，以及获取所述多个用户行为数据所属的目标数据集合标识和目标数据分片标识；基于所述多个用户行为数据、所述目标数据集合标识和所述目标数据分片标识，确定所述多个用户行为数据的存储状态，所述存储状态包括已存储状态或者未存储状态；从所述多个用户行为数据中，统计处于未存储状态的用户行为数据的数据个数；将所述数据个数确定为所述指定时间段内的数据去重个数。本发明可以快速确定指定时间段内的数据去重个数，计算量较小，确定过程较为简单，可以较大程度地节省服务器的处理资源，提高去重数据统计效率。

Description

去重数据统计方法及设备

技术领域

本发明涉及互联网技术领域，特别涉及一种去重数据统计方法及设备。

背景技术

随着业务的快速发展，基于业务产生的用户行为数据也出现了爆发式增长，而为了及时发现业务中存在的问题，往往需要对某段时间内新增的用户行为数据个数进行确定，而在确定该段时间内新增的用户行为数据个数时，可以对该段时间内产生的用户行为数据进行去重数据统计，以获取该段时间内的数据去重个数，该数据去重个数即为该段时间内新增的用户行为数据个数。

目前，在对某段时间内产生的大量的用户行为数据进行去重数据统计时，一般是将产生的大量的用户行为数据实时存储后，再将该段时间内产生的用户行为数据与在该段时间之前存储的用户行为数据一一进行比较，以确定该段时间内新增的用户行为数据，进而确定该段时间内新增的用户行为数据个数。

由于产生的用户行为数据数量较大，因此，在将该段时间内的用户行为数据与在该段时间之前存储的用户行为数据一一进行比较时，计算量较大，比较过程较为繁琐，从而导致去重数据统计效率较低。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种去重数据统计方法及设备。所述技术方案如下：

第一方面，提供了一种去重数据统计方法，所述方法包括：

获取指定时间段内统计的多个用户行为数据，以及获取所述多个用户行为数据所属的目标数据集合标识和目标数据分片标识；

基于所述多个用户行为数据、所述目标数据集合标识和所述目标数据分片标识，确定所述多个用户行为数据的存储状态，所述存储状态包括已存储状态或者未存储状态；

从所述多个用户行为数据中，统计处于未存储状态的用户行为数据的数据个数；

将所述数据个数确定为所述指定时间段内的数据去重个数。

可选地，所述基于所述多个用户行为数据、所述目标数据集合标识和所述目标数据分片标识，确定所述多个用户行为数据的存储状态，包括：

对于所述多个用户行为数据中每个用户行为数据，通过第一随机产生器，确定所述用户行为数据所属的目标数据分区标识；

基于所述目标数据分区标识，确定多个不同的第二随机产生器，以及确定第三随机产生器和目标数据位图；

基于所述用户行为数据，通过所述多个不同的第二随机产生器，以及通过所述第三随机产生器，从所述目标数据位图中，确定对应的多个数据位置；

基于所述目标数据集合标识、所述目标数据分片标识、所述目标数据分区标识和所述多个数据位置，确定所述用户行为数据的存储状态。

可选地，所述基于所述目标数据集合标识、所述目标数据分片标识、所述目标数据分区标识和所述多个数据位置，确定所述用户行为数据的存储状态，包括：

基于所述目标数据集合标识、所述目标数据分片标识和所述目标数据分区标识，确定所述用户行为数据所在的目标数据分区；

基于所述多个数据位置和所述目标数据分区，确定所述用户行为数据的存储状态。

可选地，所述基于所述多个数据位置和所述目标数据分区，确定所述用户行为数据的存储状态，包括：

对于所述目标数据分区包括的多个数据分段中每个数据分段，获取所述数据分段的数据位图中所述多个数据位置上存储的多个数值；

如果所述多个数值均为指定数值，则确定所述用户行为数据的存储状态为已存储状态；

如果所述多个数值不均为指定数值，则确定所述用户行为数据未存储在所述数据分段中；

如果所述用户行为数据均未存储在所述多个数据分段中，则确定所述用户行为数据的存储状态为未存储状态。

可选地，所述确定所述用户行为数据的存储状态为未存储状态之后，还包括：

从所述多个数据分段中，获取目标数据分段，所述目标数据分段为未存储满的数据分段；

获取所述目标数据分段的数据位图中所述多个数据位置上存储的多个目标数值；

将所述多个目标数值设置为指定数值，以存储所述用户行为数据。

第二方面，提供了一种去重数据统计设备，所述设备包括：

获取模块，用于获取指定时间段内统计的多个用户行为数据，以及获取所述多个用户行为数据所属的目标数据集合标识和目标数据分片标识；

第一确定模块，用于基于所述多个用户行为数据、所述目标数据集合标识和所述目标数据分片标识，确定所述多个用户行为数据的存储状态，所述存储状态包括已存储状态或者未存储状态；

统计模块，用于从所述多个用户行为数据中，统计处于未存储状态的用户行为数据的数据个数；

第二确定模块，用于将所述数据个数确定为所述指定时间段内的数据去重个数。

可选地，所述第一确定模块包括：

第一确定单元，用于对于所述多个用户行为数据中每个用户行为数据，通过第一随机产生器，确定所述用户行为数据所属的目标数据分区标识；

第二确定单元，用于基于所述目标数据分区标识，确定多个不同的第二随机产生器，以及确定第三随机产生器和目标数据位图；

第三确定单元，用于基于所述用户行为数据，通过所述多个不同的第二随机产生器，以及通过所述第三随机产生器，从所述目标数据位图中，确定对应的多个数据位置；

第四确定单元，用于基于所述目标数据集合标识、所述目标数据分片标识、所述目标数据分区标识和所述多个数据位置，确定所述用户行为数据的存储状态。

可选地，所述第四确定单元包括：

第一确定子单元，用于基于所述目标数据集合标识、所述目标数据分片标识和所述目标数据分区标识，确定所述用户行为数据所在的目标数据分区；

第二确定子单元，用于基于所述多个数据位置和所述目标数据分区，确定所述用户行为数据的存储状态。

可选地，所述第二确定子单元用于：

可选地，所述第二确定子单元还用于：

在本发明实施例中，服务器获取指定时间段内统计的多个用户行为数据，以及获取该多个用户行为数据所属的目标数据集合标识和目标数据分片标识，并基于该多个用户行为数据、目标数据集合标识和目标数据分片标识，可以快速确定该多个用户行为数据的存储状态，也即是可以快速确定该多个用户行为数据中新增的用户行为数据，计算量较小，确定过程较为简单，可以较大程度地节省服务器的处理资源，且服务器在确定该多个用户行为数据的存储状态后，还可以统计处于未存储状态的用户行为数据的数据个数，并将该数据个数确定为指定时间段内的数据去重个数，从而可以快速确定指定时间段内新增的用户行为数据的个数，提高去重数据统计效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种去重数据统计方法所涉及的实施环境的示意图；

图2是本发明实施例提供的一种去重数据统计方法的流程图；

图3是本发明实施例提供的另一种去重数据统计方法的流程图；

图4是本发明实施例提供的一种确定多个数据位置的示意图；

图5是本发明实施例提供的又一种去重数据统计方法的流程图；

图6是本发明实施例提供的一种去重数据统计设备的结构示意图；

图7是本发明实施例提供的一种第一确定模块的结构示意图；

图8是本发明实施例提供的一种第四确定单元的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种去重数据统计方法所涉及的实施环境的示意图。参见图1，该实施环境可以包括服务器101，服务器101可以是一台服务器，或者由若干台节点服务器组成的服务器集群。服务器101上设置有客户端模块、元存储模块、核心模块和服务模块。其中，客户端模块用于获取用户行为数据，以及获取该用户行为数据所属的数据集合标识和数据分片集合标识。元存储模块用于存储数据集合标识和端口地址之间的对应关系。核心模块用于基于用户行为数据，确定该用户行为数据对应的多个数据位置。服务模块用于存储多个数据集合，每个数据集合中包括多个数据分片，每个数据分片中包括多个数据分区，每个数据分区中又包括多个数据分段。

其中，当服务器101为由若干台节点服务器组成的服务器集群时，服务模块可以向元存储模块发送心跳信息，该心跳信息中携带该服务模块包括的多个数据集合分别对应的数据集合标识和该服务模块所在节点服务器的端口地址，之后，客户端模块可以向该元存储模块发送地址获取请求，该地址获取请求中携带该客户端模块获取的用户行为数据所属的数据集合标识，该元存储模块接收到该地址获取请求后，可以获取该数据集合标识对应的端口地址，并将该端口地址发送给该客户端模块，该客户端模块接收到该端口地址后，可以基于该端口地址与对应的节点服务器的服务模块建立连接，该对应的节点服务器的服务模块与该客户端模块建立连接后，可以调用核心模块，来判断该用户行为数据是否存储在该服务模块中，以实现去重数据统计。

图2是本发明实施例提供的一种去重数据统计方法的流程图，参见图1，该方法用于服务器中，包括以下步骤：

步骤201：获取指定时间段内统计的多个用户行为数据，以及获取该多个用户行为数据所属的目标数据集合标识和目标数据分片标识。

步骤202：基于多个用户行为数据、目标数据集合标识和目标数据分片标识，确定该多个用户行为数据的存储状态，该存储状态包括已存储状态或者未存储状态。

步骤203：从多个用户行为数据中，统计处于未存储状态的用户行为数据的数据个数。

步骤204：将统计的数据个数确定为指定时间段内的数据去重个数。

可选地，基于多个用户行为数据、目标数据集合标识和目标数据分片标识，确定多个用户行为数据的存储状态，包括：

对于多个用户行为数据中每个用户行为数据，通过第一随机产生器，确定用户行为数据所属的目标数据分区标识；

基于目标数据分区标识，确定多个不同的第二随机产生器，以及确定第三随机产生器和目标数据位图；

基于用户行为数据，通过多个不同的第二随机产生器，以及通过第三随机产生器，从目标数据位图中，确定对应的多个数据位置；

基于目标数据集合标识、目标数据分片标识、目标数据分区标识和多个数据位置，确定用户行为数据的存储状态。

可选地，基于目标数据集合标识、目标数据分片标识、目标数据分区标识和多个数据位置，确定用户行为数据的存储状态，包括：

基于目标数据集合标识、目标数据分片标识和目标数据分区标识，确定用户行为数据所在的目标数据分区；

基于多个数据位置和目标数据分区，确定用户行为数据的存储状态。

可选地，基于多个数据位置和目标数据分区，确定用户行为数据的存储状态，包括：

对于目标数据分区包括的多个数据分段中每个数据分段，获取数据分段的数据位图中多个数据位置上存储的多个数值；

如果多个数值均为指定数值，则确定用户行为数据的存储状态为已存储状态；

如果多个数值不均为指定数值，则确定用户行为数据未存储在数据分段中；

如果用户行为数据均未存储在多个数据分段中，则确定用户行为数据的存储状态为未存储状态。

可选地，确定用户行为数据的存储状态为未存储状态之后，还包括：

从多个数据分段中，获取目标数据分段，目标数据分段为未存储满的数据分段；

获取目标数据分段的数据位图中多个数据位置上存储的多个目标数值；

将多个目标数值设置为指定数值，以存储用户行为数据。

上述所有可选技术方案，均可按照任意结合形成本发明的可选实施例，本发明实施例对此不再一一赘述。

图3是本发明实施例提供的一种去重数据统计方法的流程图，参见图2，该方法包括以下步骤：

步骤301：服务器获取指定时间段内统计的多个用户行为数据，以及获取该多个用户行为数据所属的目标数据集合标识和目标数据分片标识。

需要说明的是，服务器上可以设置有客户端模块，该客户端模块可以获取指定时间段内统计的多个用户行为数据，以及获取该多个用户行为数据所属的目标数据集合标识和目标数据分片标识。

需要说明的是，指定时间段可以预先设置，如指定时间段可以为当前时间之前且离当前时间为5分钟的时间段、当前时间之前且离当前时间为1小时的时间段等等，当然，指定时间段也可以为具体的某段时间，如指定时间段可以为23:25～23:40、17:10～18:10等等，本发明实施例对此不做具体限定。

另外，目标数据集合标识用于唯一标识目标数据集合，如该目标数据集合标识可以为该目标数据集合所属的业务类型，该业务类型可以包括游戏业务、银行业务等等，本发明实施例对此不做具体限定。

再者，目标数据分片标识用于唯一标识目标数据分片，该目标数据分片标识可以为该目标数据分片所属的子业务类型，如当业务类型为游戏业务时，该子业务类型可以为充值子业务、聊天子业务等等，本发明实施例对此不做具体限定。

其中，服务器获取指定时间段内统计的多个用户行为数据时，可以每隔第一指定时长，获取指定时间段内统计的多个用户行为数据，或者，可以在接收到数据获取指令时，获取指定时间段内统计的多个用户行为数据。

需要说明的是，第一指定时长可以预先设置，如第一指定时长可以为1小时、2小时等等，本发明实施例对此不做具体限定。

另外，数据获取指令用于指示获取指定时间段内统计的多个用户行为数据，且该数据获取指令可以由用户通过该服务器的客户端模块触发，当然，也可以由其它设备向该服务器发送，本发明实施例对此不做具体限定。

再者，服务器获取指定时间段内统计的多个用户行为数据时，可以从数据库中获取指定时间段内统计的多个用户行为数据，而由于数据库存储用户行为数据时会对应存储该用户行为数据的属性信息，该属性信息可以包括该用户行为数据所属的业务类型、子业务类型等等，因此，服务器在获取指定时间段内统计的多个用户行为数据时，可以基于该多个用户行为数据的属性信息，获取该多个用户行为数据所属的目标数据集合标识和目标数据分片标识。

步骤302：服务器基于该多个用户行为数据、目标数据集合标识和目标数据分片标识，确定该多个用户行为数据的存储状态，该存储状态包括已存储状态或者未存储状态。

具体地，对于该多个用户行为数据中每个用户行为数据，服务器通过第一随机产生器，确定该用户行为数据所属的目标数据分区标识；基于目标数据分区标识，确定多个不同的第二随机产生器，以及确定第三随机产生器和目标数据位图；基于该用户行为数据，通过该多个不同的第二随机产生器，以及通过第三随机产生器，从目标数据位图中，确定对应的多个数据位置；基于目标数据集合标识、目标数据分片标识、目标数据分区标识和该多个数据位置，确定该用户行为数据的存储状态。

其中，服务器通过第一随机产生器，确定该用户行为数据所属的目标数据分区标识时，该服务器可以基于该用户行为数据，通过第一随机产生器，生成第一数值，并将该第一数值确定为该用户行为数据所属的目标数据分区标识。

需要说明的是，服务器基于该用户行为数据，通过第一随机产生器，生成第一数值的过程可以参考相关技术，本发明实施例对此不进行详细阐述。

另外，第一随机产生器可以预先设置，本发明实施例对此不做具体限定。

再者，目标数据分区标识用于唯一标识该目标数据分区，且该目标数据分区标识可以为该目标数据分区的编号、名称等等，本发明实施例对此不做具体限定。

其中，服务器基于目标数据分区标识，确定多个不同的第二随机产生器，以及确定第三随机产生器和目标数据位图时，可以基于目标数据分区标识，从存储的数据分区标识、第二随机产生器、第三随机产生器和目标数据位图之间的对应关系中，获取多个不同的第二随机产生器、第三随机产生器和目标数据位图。

需要说明的是，服务器上可以设置有服务模块，该服务模块中可以存储数据分区标识、第二随机产生器、第三随机产生器和目标数据位图之间的对应关系。

另外，数据位图可以为位数组，位数组中所有数据位置上存储的数值均为二进制数值，如数据位图可以为0101010、000001等等。另外，目标数据位图为目标数据分区标识对应的数据位图，且目标数据位图与目标数据分区中多个数据分段的数据位图的位数相同。

例如，当目标数据分区标识为ID1时，服务器可以基于目标数据分区标识ID1，从如下表1所示的数据分区标识、第二随机产生器、第三随机产生器和目标数据位图之间的对应关系中，获取ID1对应的多个不同的第二随机产生器分别为A1、A2、A3、A4、A5，第三随机产生器为A6，目标数据位图为001000001000000。

表1

数据分区标识	第二随机产生器	第三随机产生器	目标数据位图
				ID1	A1、A2、A3、A4、A5	A6	001000001000000
ID2	B1、B2、B3、B4、B5	B6	000100
				……	……	……	……

需要说明的是，在本发明实施例中，仅以上述表1所示的数据分区标识、第二随机产生器、第三随机产生器和目标数据位图之间的对应关系为例进行说明，上述表1并不对本发明实施例构成限定。

其中，服务器基于该用户行为数据，通过该多个不同的第二随机产生器，以及通过第三随机产生器，从目标数据位图中，确定对应的多个数据位置时，该服务器可以基于该用户行为数据，通过该多个不同的第二随机产生器，生成对应的多个数据信息，并基于该多个数据信息，通过第三随机产生器，从目标数据位图中确定对应的多个数据位置。

需要说明的是，服务器上可以设置有核心模块，该核心模块可以基于该用户行为数据，通过多个不同的第二随机产生器，以及通过第三随机产生器，从目标数据位图中，确定对应的多个数据位置。

另外，该多个数据信息与该用户行为数据唯一对应，该多个数据位置与该多个数据信息唯一对应，也即是，该用户行为数据与该多个数据位置唯一对应。

其中，服务器基于该用户行为数据，通过该多个不同的第二随机产生器，生成对应的多个数据信息时，服务器可以基于该用户行为数据，通过该多个不同的第二随机产生器，生成多个不同的第二数值，并将该多个不同的第二数值确定为该用户行为数据对应的多个数据信息。

需要说明的是，服务器通过该多个不同的第二随机产生器，生成多个不同的第二数值的过程可以参考相关技术，本发明实施例对此不进行详细阐述。

其中，服务器基于该多个数据信息，通过第三随机产生器，从目标数据位图中，确定对应的多个数据位置时，服务器可以通过第三随机产生器，将该多个数据信息映射到该目标数据位图中的多个数据位置上，并将该映射到的多个数据位置确定为该用户行为数据对应的多个数据位置。

需要说明的是，服务器通过第三随机产生器，将该多个数据信息映射到该目标数据位图中的多个数据位置上的过程可以参考相关技术，本发明实施例对此不做具体限定。

例如，如图4所示，该多个不同的第二随机产生器分别为A1、A2、A3、A4、A5，第三随机产生器为A6，目标数据位图为001000001000000。服务器基于该用户行为数据，通过A1、A2、A3、A4、A5，生成对应的多个数据信息分别为a1、a2、a3、a4、a5，再基于该多个数据信息，通过A6，从目标数据位图001000001000000确定对应的多个数据位置为2、7、9、10、14。

需要说明的是，第一随机产生器、第二随机产生器和第三随机产生器可以为哈希函数产生器，当然，也可以为其它类型的随机产生器，本发明实施例对此不做具体限定。

其中，服务器基于目标数据集合标识、目标数据分片标识、目标数据分区标识和该多个数据位置，确定该用户行为数据的存储状态时，该服务器可以基于目标数据集合标识、目标数据分片标识和目标数据分区标识，确定该用户行为数据所在的目标数据分区，并基于该多个数据位置和该目标数据分区，确定该用户行为数据的存储状态。

具体地，服务器可以基于目标数据集合标识，确定该用户行为数据所在的目标数据集合，并基于目标数据分片标识，从该目标数据集合中，确定该用户行为数据所在的目标数据分片，再基于目标数据分区标识，从该目标数据分片中，确定该用户行为数据所在的目标数据分区，进而基于该多个数据位置和该目标数据分区，确定该用户行为数据的存储状态。

需要说明的是，该服务器的服务模块上还可以存储多个数据集合，该多个数据集合的每个数据集合中可以包括多个数据分片，该多个数据分片的每个数据分片中可以包括多个数据分区，该多个数据分区的每个数据分区中可以包括多个数据分段，该多个数据分段的数据位图的位数相同。

另外，该服务模块中还可以包括组合单元，该组合单元可以定位该多个数据集合、多个数据分片、多个数据分区以及多个数据分段之间的逻辑关系，实现系列化接口。

再者，该服务模块还可以每隔第二指定时长将存储的多个数据集合保存到该服务器的本地，以避免该服务模块异常关闭时，导致存储的多个数据集合丢失，实现数据持久化，且便于对该多个数据集合进行快速迁移。

需要说明的是，第二指定时长可以预先设置，如该第二指定时长可以为10分钟、15分钟等等，本发明实施例对比不做具体限定。

需要说明的是，当基于业务产生的用户行为数据较少时，该服务器可以为一个服务器，而当基于业务产生的用户行为数据较多时，该服务器可以为由若干台节点服务器组成的服务器集群，以便可以及时对该较多的用户行为数据进行处理。

其中，服务器基于目标数据集合标识，确定该用户行为数据所在的目标数据集合时，当该服务器为一个服务器时，该服务器可以直接基于目标数据集合标识，确定该用户行为数据所在的目标数据集合。而当该服务器为由若干台节点服务器组成的服务器集群时，该服务器可以基于该目标数据集合标识，确定目标端口地址，该目标端口地址为该服务器集群中存储该目标数据集合的节点服务器的端口地址，进而该服务器可以基于该目标端口地址，与该节点服务器建立连接，并基于该目标数据集合标识，从该节点服务器中，确定该用户行为数据所在的目标数据集合。

其中，服务器基于该目标数据集合标识，确定目标端口地址时，该服务器可以基于该目标数据集合标识，从存储的目标数据集合标识与端口地址之间的对应关系中，获取目标端口地址。

需要说明的是，服务器上可以设置有元存储模块，该元存储模块中可以存储数据集合标识与端口地址之间的对应关系。

例如，目标数据集合标识为ID1，该服务器基于该目标数据集合标识ID1，可以从如下表2所示的数据集合标识与端口地址之间的对应关系中，获取目标端口地址为12344。

表2

目标数据集合标识	端口地址
		ID1	12344
ID2	25689
		……	……

需要说明的是，在本发明实施例中，仅以上述表2所示的数据集合标识与端口地址之间的对应关系为例进行说明，上述表2并不对本发明实施例构成限定。

进一步地，当该服务器为由若干台节点服务器组成的服务器集群时，结合该服务器包括的多个模块，对该服务器基于目标数据集合标识，确定该用户行为数据所在的数据集合的过程予以说明：如图5所示，客户端模块向元存储模块发送地址获取请求，该地址获取请求中携带目标数据集合标识，当元存储模块接收到该地址获取请求时，基于该目标数据集合标识，从存储的数据集合标识与端口地址之间的对应关系中，获取目标端口地址，并将该目标端口地址发送给该客户端模块，该客户端模块接收到该目标端口地址后，基于该目标端口地址，与对应的节点服务器的服务模块建立连接，并基于该目标数据集合标识，从该服务模块中，确定该用户行为数据所在的目标数据集合。

需要说明的是，如图5所示，元存储模块基于目标数据集合标识，从存储的数据集合标识与端口地址之间的对应关系中，获取目标端口地址之前，该服务模块还可以每隔第三指定时长向元存储模块发送心跳信息，该心跳信息中携带该服务模块包括的多个数据集合分别对应的数据集合标识和该服务模块所在的节点服务器的端口地址，以使元存储模块可以基于该多个数据集合标识和该端口地址，建立数据集合标识与端口地址之间的对应关系，并基于该心跳信息，判断该服务模块是否运行正常，进而当确定该服务器模块运行异常时，不向客户端模块发送目标端口地址，以避免该客户端模块与该异常的服务模块建立连接，导致对该用户行为数据所在的目标数据集合的确定不准确。

需要说明的是，第三指定时长可以预先设置，如第三指定时长可以为5分钟、10分钟等等，本发明实施例对此不做具体限定。

其中，服务器基于该多个数据位置和该目标数据分区，确定该用户行为数据的存储状态时，对于该目标数据分区包括的多个数据分段中每个数据分段，服务器获取该数据分段的数据位图中该多个数据位置上存储的多个数值，如果该多个数值均为指定数值，则确定该用户行为数据的存储状态为已存储状态，如果该多个数值不均为指定数值，则确定该用户行为数据未存储在该数据分段中，且如果该用户行为数据均未存储在该数据分区包括的多个数据分段中，则确定该用户行为数据的存储状态为未存储状态。

其中，指定数值可以预先设置，如指定数值可以为1，本发明实施例对此不做具体限定。

例如，指定数值为1，该数据分段的数据位图为110010101 00110，该多个数据位置为2、7、9、10、14，服务器获取该数据分段的数据位图中数据位置2、7、9、10、14上存储的数值分别为1、1、1、1、1，则该多个数值均为指定数值，确定该用户行为数据的存储状态为已存储状态。

再例如，指定数值为1，该数据分段的数据位图为110010100000100，该多个数据位置为2、7、9、10、14，服务器获取该数据分段的数据位图中数据位置2、7、9、10、14上存储的数值分别为1、1、0、0、0，则该多个数值不均为指定数值，确定该用户行为数据未存储在该数据分段中。而当该用户行为数据均未存储在该数据分区包括的多个数据分段中时，确定该用户行为数据的存储状态为未存储状态。

需要说明的是，该服务器可以通过该服务器的服务模块基于该多个用户行为数据、目标数据集合标识和目标数据分片标识，确定该多个用户行为数据的存储状态。

具体地，对于该多个用户行为数据中每个用户行为数据，服务模块通过第一随机产生器，确定该用户行为数据所属的目标数据分区标识，并基于该目标数据分区标识，确定多个不同的第二随机产生器、第三随机产生器和目标数据位图，之后，服务模块可以调用核心模块，基于该多个不同的第二随机产生器、第三随机产生器和目标数据位图，来确定该用户行为数据对应的多个数据位置，并基于目标数据集合标识、目标数据分片标识、目标数据分区标识和该多个数据位置，确定该用户行为数据的存储状态。

进一步地，服务器确定该用户行为数据的存储状态为未存储状态之后，还可以从该目标数据分区包括的多个数据分段中，获取目标数据分段，目标数据分段为未存储满的数据分段，服务器获取目标数据分段的数据位图中该多个数据位置上存储的多个目标数值，并将该多个目标数值设置为指定数值，以存储该用户行为数据。

例如，指定数值为1，目标数据分段的数据位图为110010100000100，该多个数据位置为2、7、9、10、14，服务器获取目标数据分段的数据位图中该多个数据位置上存储的多个目标数值为1、1、0、0、0，服务器将该多个目标数值设置为指定数值1，也即是将该目标数据分段110010100000100设置为110010101100110，从而将该用户行为数据存储在该目标数据分段中。

其中，服务器从该目标数据分区包括的多个数据分段中，获取目标数据分段时，该服务器可以从该目标数据分区中，获取设置有目标标记的数据分段，并将设置有目标标记的数据分段确定为目标数据分段。

需要说明的是，目标标记用于标记该数据分区中未存储满的数据分段，且该目标标记可以预先设置，本发明实施例对此不做具体限定。

进一步地，服务器从该目标数据分区中，获取设置有目标标记的数据分段之前，对于该目标数据分区包括的多个数据分段中的每个数据分段，该服务器可以判断该数据分段上存储的用户行为数据的个数是否小于指定个数，当该数据分段上存储的用户行为数据的个数小于指定个数时，服务器确定该数据分段未存储满，并对该数据分段设置目标标记，当该数据分段上存储的用户行为数据的个数等于指定个数时，服务器确定该数据分段已存储满，不对该数据分段设置目标标记，而当服务器确定该目标数据分区包括的多个数据分段均已存储满时，该服务器可以在该目标数据分区中，新建一个数据分段，并对该新建的数据分段设置目标标记，从而实现了该目标数据分区的自动动态扩容。

需要说明的是，该指定个数可以基于指定误判概率得到。

另外，指定误判概率可以预先设置，本发明实施例对此不做具体限定。

需要说明的是，误判概率是指服务器在确定该用户行为数据的存储状态时，将未存储在某一数据分段中的用户行为数据确定为存储在该数据分段中的概率，而为了避免误判概率过高时，导致服务器确定该用户行为数据的存储状态时的准确度降低，可以预先对该误判概率进行限定，也即是可以预先设置指定误判概率。

而由于当用户行为数据对应的多个数据位置的个数为k，数据分段的数据位图的位数为m，以及该数据分段上存储的用户行为数据的个数为n时，误判概率f可以由下式(1)确定：

因此，服务器基于指定误判概率得到指定个数时，可以将上式(1)中的f设置为指定误判概率，并基于上式(1)计算该数据分段上存储的用户行为数据的个数n，该n即为指定个数。

还需要说明的是，由于数据分段是通过数据位图存储该用户行为数据，因此，该数据分段可以在存储大量用户行为数据的同时保证自身所占的存储空间较小，又由于服务器是基于该数据分段对该多个用户行为数据的存储状态进行确定的，因此，服务器利用较少的内存就可以完成对该多个用户行为数据的存储状态的确定，提高了服务器的内存利用率。

步骤303：服务器从多个用户行为数据中，统计处于未存储状态的用户行为数据的数据个数，并将该统计的数据个数确定为指定时间段内的数据去重个数。

需要说明的是，指定时间段内的数据去重个数是指该指定时间段内新增的用户行为数据的个数。

由于处于未存储状态的用户行为数据即为指定时间段内新增的用户行为数据，因此，服务器统计处于未存储状态的用户行为数据的数据个数，可以快速确定指定时间段内的数据去重个数，提高去重数据统计效率。

需要说明的是，当该服务器为服务器集群时，如图5所示，对应的节点服务器的服务模块确定该数据去重个数后，可以将该数据去重个数发送给该服务器的客户端模块，当然，该服务模块还可以将该多个用户行为数据的存储状态也发送给该服务器的客户端模块。

在本发明实施例中，服务器获取指定时间段内统计的多个用户行为数据，对于该多个用户行为数据中每个用户行为数据，通过第一随机产生器，确定该用户行为数据所属的目标数据分区标识，并基于该目标分区标识，确定该用户行为数据对应的多个数据位置，之后，基于该用户行为数据所属的目标数据集合标识、目标数据分片标识、目标数据分区标识，确定该用户行为数据所在的目标数据分区，并基于该目标数据分区包括多个数据分段的数据位图和该多个数据位置，可以快速确定该用户行为数据的存储状态，也即是可以快速确定该多个用户行为数据中新增的用户行为数据，计算量较小，确定过程较为简单，可以较大程度地节省服务器的处理资源。当服务器确定该用户行为数据的存储状态为未存储状态时，该服务器可以将该用户行为数据存储在该目标数据分区中，当该目标数据分区中包括的多个数据分段均已存储满时，服务器可以自动新建一个数据分段以存储该用户行为数据，实现该目标数据分区的自动动态扩容。又由于数据分段是通过数据位图存储该用户行为数据，因此，该数据分段可以在存储大量用户行为数据的同时保证自身所占的存储空间较小，从而使服务器利用较少的内存就可以完成对该多个用户行为数据的存储状态的确定，提高了服务器的内存利用率。且服务器在确定该多个用户行为数据的存储状态后，还可以统计处于未存储状态的用户行为数据的数据个数，并将该数据个数确定为指定时间段内的数据去重个数，从而可以快速确定指定时间段内新增的用户行为数据的个数，提高去重数据统计效率。

图6是本发明实施例提供的一种去重数据统计设备的结构示意图。参照图6，该设备包括获取模块601、第一确定模块602、统计模块603和第二确定模块604。

获取模块601，用于获取指定时间段内统计的多个用户行为数据，以及获取多个用户行为数据所属的目标数据集合标识和目标数据分片标识；

第一确定模块602，用于基于多个用户行为数据、目标数据集合标识和目标数据分片标识，确定多个用户行为数据的存储状态，存储状态包括已存储状态或者未存储状态；

统计模块603，用于从多个用户行为数据中，统计处于未存储状态的用户行为数据的数据个数；

第二确定模块604，用于将数据个数确定为指定时间段内的数据去重个数。

可选地，参见图7，第一确定模块602包括：

第一确定单元6021，用于对于多个用户行为数据中每个用户行为数据，通过第一随机产生器，确定用户行为数据所属的目标数据分区标识；

第二确定单元6022，用于基于目标数据分区标识，确定多个不同的第二随机产生器，以及确定第三随机产生器和目标数据位图；

第三确定单元6023，用于基于用户行为数据，通过多个不同的第二随机产生器，以及通过第三随机产生器，从目标数据位图中，确定对应的多个数据位置；

第四确定单元6024，用于基于目标数据集合标识、目标数据分片标识、目标数据分区标识和多个数据位置，确定用户行为数据的存储状态。

可选地，参见图8，第四确定单元6024包括：

第一确定子单元60241，用于基于目标数据集合标识、目标数据分片标识和目标数据分区标识，确定用户行为数据所在的目标数据分区；

第二确定子单元60242，用于基于多个数据位置和目标数据分区，确定用户行为数据的存储状态。

可选地，第二确定子单元用于：

可选地，第二确定子单元还用于：

将多个目标数值设置为指定数值，以存储用户行为数据。

需要说明的是：上述实施例提供的去重数据统计设备在去重数据统计时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将去重数据统计设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的去重数据统计设备与去重数据统计方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种去重数据统计方法，其特征在于，所述方法包括：

将所述数据个数确定为所述指定时间段内的数据去重个数；

所述基于所述多个用户行为数据、所述目标数据集合标识和所述目标数据分片标识，确定所述多个用户行为数据的存储状态，包括：

对于所述多个用户行为数据中每个用户行为数据，通过第一随机产生器，确定所述用户行为数据所属的目标数据分区标识，所述第一随机产生器用于生成第一数值；

2.如权利要求1所述的方法，其特征在于，所述基于所述目标数据集合标识、所述目标数据分片标识、所述目标数据分区标识和所述多个数据位置，确定所述用户行为数据的存储状态，包括：

3.如权利要求2所述的方法，其特征在于，所述基于所述多个数据位置和所述目标数据分区，确定所述用户行为数据的存储状态，包括：

4.如权利要求3所述的方法，其特征在于，所述确定所述用户行为数据的存储状态为未存储状态之后，还包括：

5.一种去重数据统计设备，其特征在于，所述设备包括：

第二确定模块，用于将所述数据个数确定为所述指定时间段内的数据去重个数；

所述第一确定模块包括：

6.如权利要求5所述的设备，其特征在于，所述第四确定单元包括：

7.如权利要求6所述的设备，其特征在于，

所述第二确定子单元用于：

8.如权利要求7所述的设备，其特征在于，

所述第二确定子单元还用于：