CN108664549A

CN108664549A - 一种大数据处理***、方法和装置

Info

Publication number: CN108664549A
Application number: CN201810268396.6A
Authority: CN
Inventors: 林炳文
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced Nova Technology Singapore Holdings Ltd
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2018-10-16

Abstract

本申请公开了一种大数据处理***、方法和装置，该***包括：数据获取平台，获取用户在使用互联网资源的过程中产生的用户行为数据；数据处理平台，对所述用户行为数据进行分布式处理，得到所述用户行为数据的特征指标，所述特征指标用于表征所述用户对所述互联网资源的使用情况；数据存储平台，采用分布式存储的方式存储所述特征指标。

Description

一种大数据处理***、方法和装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种大数据处理***、方法和装置。

背景技术

随着互联网技术的飞速发展，越来越多的资源提供方通过互联网向用户推荐各种资源，例如，借贷资源、销售资源等。在通过互联网向用户推荐这些资源后，用户可以通过互联网使用(包括查看、获取、消费等)这些资源。在用户使用这些资源后，资源提供方可以对用户产生的用户行为数据进行分析，并根据分析结果对资源的使用情况进行评估。

随着互联网用户的数量越来越多，资源提供方在通过互联网向用户推荐资源后，用户产生的用户行为数据的数据量也越来越多，这样，在对用户的用户行为数据进行分析时，由于用户行为数据的数据量较多，导致数据处理速度比较慢，进而不能有效地对资源的使用情况进行评估。

发明内容

本申请实施例提供一种大数据处理***、方法和装置，用于解决在向用户推荐资源后，由于用户产生的用户行为数据的数据量较多，导致数据处理速度比较慢，进而不能有效地对资源的使用情况进行评估的问题。

为解决上述技术问题，本申请实施例是这样实现的：

第一方面，提出一种大数据处理***，包括：

数据获取平台，获取用户在使用互联网资源的过程中产生的用户行为数据；

数据处理平台，对所述用户行为数据进行分布式处理，得到所述用户行为数据的特征指标，所述特征指标用于表征所述用户对所述互联网资源的使用情况；

数据存储平台，采用分布式存储的方式存储所述特征指标。

第二方面，提出了一种大数据处理方法，包括：

获取用户在使用互联网资源的过程中产生的用户行为数据；

对所述用户行为数据进行分布式处理，得到所述用户行为数据的特征指标，所述特征指标用于表征所述用户对所述互联网资源的使用情况；

采用分布式存储的方式存储所述特征指标。

第三方面，提出了一种数据处理装置，包括：

获取单元，获取用户在使用互联网资源的过程中产生的用户行为数据；

处理单元，对所述用户行为数据进行分布式处理，得到所述用户行为数据的特征指标，所述特征指标用于表征所述用户对所述互联网资源的使用情况；

存储单元，采用分布式存储的方式存储所述特征指标。

第四方面，提出一种电子设备，该电子设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，该可执行指令在被执行时使该处理器执行以下操作：

获取用户在使用互联网资源的过程中产生的用户行为数据；

采用分布式存储的方式存储所述特征指标。

第五方面，提出一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下方法：

获取用户在使用互联网资源的过程中产生的用户行为数据；

采用分布式存储的方式存储所述特征指标。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

本申请实施例提供的技术方案，数据获取平台获取用户在使用互联网资源的过程中产生的用户行为数据，数据处理平台对用户的用户行为数据进行处理，得到表征用户对互联网资源的使用情况的特征指标，数据存储平台采用分布式存储的方式存储所述特征指标。这样，由于数据处理平台可以采用分布式处理的方法对用户使用互联网资源的过程中产生的用户行为数据进行处理，因此，可以提高数据处理速度，进而可以快速得到用于表征用户对互联网资源的使用情况的各项指标。此外，由于采用分布式存储的方式对数据进行存储，还可以有效提高数据的存储能力。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的一个实施例大数据处理***的结构示意图；

图2是本申请的一个实施例大数据处理方法的示意图；

图3是本申请的一个实施例大数据处理方法的流程示意图；

图4是本申请的一个实施例电子设备的结构示意图；

图5是本申请的一个实施例大数据处理装置的结构示意图。

具体实施方式

通常，资源提供方在通过互联网向用户推荐互联网资源后，可以对用户在使用互联网资源的过程中产生的用户行为数据进行分析，得到用于表征用户对互联网资源的使用情况的各种指标，并根据这些指标对互联网资源的使用情况进行评估。

以借贷资源的提供方通过互联网向用户推荐借贷产品为例，借贷资源的提供方可以通过官网、手机软件、微信公众号、服务窗等渠道向用户推荐借贷产品，用户在浏览到该借贷产品后、可以点击查看该借贷产品，也可以对该借贷产品进行注册，借款等。在用户使用(包括点击查看、注册、借款等)借贷产品的过程中，借贷资源的提供方可以获取用户产生的用户行为数据，并基于这些用户行为数据分析得到该借贷产品的页面浏览量、注册用户数、授信用户数、借款总额等指标。这样，借贷资源的提供方可以根据分析得到的各项指标对所推荐的借贷产品的使用情况进行评估。例如，评估借贷产品的营销效果，各推荐渠道的成本及收益等。

现有技术中，资源提供方在获取到用户使用互联网资源产生的用户行为数据后，通常采用关系型数据库对用户的用户行为数据进行统计和分析。具体地，首先，关系型数据库可以将用户产生的用户行为数据缓存至其内部的二维表格中，多个二维表格中存储的用户行为数据相互关联；其次，基于二维表格之间的关联关系对用户行为数据进行分析，得到用户使用互联网资源的各项指标；最后，将分析得到的各项指标存储至关系型数据库中。这样，资源推荐方可以根据关系型数据库中存储的各项指标对用户使用互联网资源的使用情况进行评估。

然而，随着互联网用户的数量越来越多，用户在使用互联网资源的过程中产生的用户行为数据的数据量也越来越多，在采用关系型数据库对用户行为数据进行分析时，至少存在以下缺点：

(1)关系型数据库无法支持上千万级以上的用户行为数据的存储；

(2)关系型数据在对用户行为数据进行分析时，需要关联众多的二维表格，在用户行为数据的数据量比较多的情况下，数据处理速度比较慢；

(3)由于关系型数据库的存储能力不足，很容易导致用户行为数据的丢失，例如，丢失用户在设定时间段内产生的用户行为数据，这样，在用户的用户行为数据丢失的情况下，将无法分析得到用户在该段时间内对互联网资源的使用情况，也就无法得到用户在对互联网资源的整个使用周期(例如，用户对借贷产品的整个使用周期可以包括：点击、注册、授信和借款)内对互联网资源的使用情况。

由此可见，现有的使用关系型数据库对用户行为数据进行分析时，由于在用户行为数据的数据量比较多的情况下，关系型数据库的存储能力和数据处理能力不足，导致数据处理比较困难，不能有效得到互联网资源的各项指标，进而不能对互联网资源的使用情况进行有效评估。

有鉴于此，本申请实施例提供一种大数据处理***、方法和装置，其中，该大数据处理***包括：数据获取平台，获取用户在使用互联网资源的过程中产生的用户行为数据；数据处理平台，对所述用户行为数据进行分布式处理，得到所述用户行为数据的特征指标，所述特征指标用于表征所述用户对所述互联网资源的使用情况；数据存储平台，采用分布式存储的方式存储所述特征指标。

与现有技术相比，本申请实施例的技术方案至少存在以下有益效果：

(1)由于数据处理平台可以采用分布式处理的方法对用户在使用互联网资源的过程中产生的用户行为数据进行处理，无需关联多个表，因此，可以提高数据处理速度，进而可以快速得到用于表征用户对互联网资源的使用情况的各项指标；

(2)由于采用分布式存储的方式对数据进行存储，还可以有效提高数据的存储能力，能够支持上千万级以上的数据存储；

(3)由于本申请实施例的数据存储能力较强，数据不会轻易丢失，因此，可以得到用户在互联网资源的整个使用周期内对互联网资源的使用情况，进而可以对互联网资源的使用情况进行有效评估。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请实施例提供的技术方案中，资源提供方可以通过互联网向用户推荐互联网资源，具体地，可以通过官网、手机软件、微信公众号、服务窗等渠道向用户推荐互联网资源，其中，所述互联网资源可以是借贷资源，也可以是销售资源，还可以是其他可以通过互联网进行推荐的资源，这里不再一一举例说明。

资源推荐方在向用户推荐互联网资源后，可以使用本申请实施例提供的技术方案对用户在使用互联网资源的过程中产生的用户行为数据进行处理，快速得到用于表征用户对互联网资源的使用情况的各种指标，进而通过这些指标有效地对互联网资源的使用情况进行评估。

还需要说明的是，本申请实施例中记载的用于数据获取、处理以及存储的平台可以理解为功能集成***，具体可以体现为由一台或多台服务器、计算机等组成的集群或***等。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1是本申请的一个实施例大数据处理***10的结构示意图。所述大数据处理***10可以包括：数据获取平台11、数据处理平台12以及数据存储平台13，其中：

数据获取平台11，获取用户在使用互联网资源的过程中产生的用户行为数据；

数据处理平台12，对所述用户行为数据进行分布式处理，得到所述用户行为数据的特征指标，所述特征指标用于表征所述用户对所述互联网资源的使用情况；

数据存储平台13，采用分布式存储的方式存储所述特征指标。

本发明实施例中，资源推荐方在向用户推荐互联网资源后，在用户使用(包括对互联网资源进行的点击、查看、获取等操作)互联网资源的过程中，所述数据获取平台11可以获取用户产生的用户行为数据。其中，所述数据获取平台11获取到的数据可以是用户实时产生的用户行为数据。

所述数据获取平台11在获取用户的用户行为数据时，具体可以获取以下用户行为数据中的至少一种，包括：

(1)用户通过网页使用所述互联网资源的过程中产生的日志。

资源推荐方在通过浏览器向用户推荐互联网资源后，用户可以在浏览器的网页使用(包括点击、查看、获取等)该互联网资源，所述数据获取平台11可以获取用户在通过网页使用互联网资源的过程中产生的日志。

(2)用户通过应用软件使用所述互联网资源的过程中产生的日志。

资源推荐方在通过应用软件(可以是官方APP或其他APP)向用户推荐互联网资源后，用户可以在应用软件中使用该互联网资源，所述数据获取平台11可以获取用户通过应用软件使用互联网资源的过程中产生的日志。

(3)用户在其他渠道产生的日志。

资源推荐方在通过浏览器以及应用软件之外的其他渠道(例如，公众号)推荐互联网资源后，用户在通过其他渠道使用互联网资源的过程中，数据获取平台11可以获取用户在其他渠道中产生的日志。

(4)用户在互联网资源的活动***中产生的日志。

资源推荐方可以通过互联网以优惠活动或广告的方式推荐互联网资源，用户在通过优惠活动***或广告***使用互联网资源的过程中，数据获取平台11可以获取用户产生的日志。

(5)用户针对所述互联网资源的业务信息。

数据获取平台11在获取到上述记载的四种日志中的至少一种后，可以对获取到的日志进行分析，得到用户的业务请求流水号，根据用户的业务请求流水号，可以从用户行为勾链***中获取用户针对互联网资源的业务信息。其中，用户行为勾链***中可以存储有不同的业务请求流水号以及与业务请求流水号对应的业务信息。

本申请实施例中，所述数据获取平台11可以是具有收集用户动作流数据的功能的集群，优选地，为了便于获取用户在使用互联网资源的过程中产生的用户行为数据，所述数据获取平台11可以是Kafka集群，Kafka是一种高吞吐量的分布式发布订阅消息***，可以处理用户在互联网中的所有动作流数据。

需要说明的是，上述五种用户行为数据包含的具体内容可以相互覆盖，为了避免遗漏用户行为数据，进而不能有效地对互联网资源的使用情况进行评估，优选地，所述数据获取平台11可以获取上述记载的五种用户行为数据。

所述数据获取平台11获取到用户行为数据后，可以将用户行为数据发送给所述数据处理平台12，以便于数据处理平台12可以对用户行为数据进行分布式处理，或者，所述数据处理平台12也可以主动从所述数据获取平台11获取用户行为数据，并对用户行为数据进行分布式处理，这里不做具体限定。

所述数据处理平台12在对用户行为数据进行处理之前，可以对用户行为数据进行清洗(即预处理)，包括去除错误的用户行为数据，去除重复的用户行为数据等，在对用户行为数据进行清洗后，可以对清洗后的用户行为数据进行分布式处理。

所述数据处理平台12在对用户行为数据进行分布式处理后，可以得到用于表征用户对所述互联网资源的使用情况的至少一个特征指标。例如，互联网资源为借贷产品，则，特征指标可以是借贷产品的页面浏览量、注册用户数、授信用户数、借款总额等。

本申请实施例与现有技术相比，由于所述数据处理平台12可以采用分布式处理的方法对用户使用互联网资源的过程中产生的用户行为数据进行处理，且无需关联多个表，因此，可以加快用户行为数据的处理速度，进而可以快速得到用于表征用户对互联网资源的使用情况的各项指标。

在本申请的一个实施例中，所述数据处理平台12具体可以包括：第一处理平台121以及第二处理平台122。

所述第一处理平台121可以对用户行为数据进行分布式的在线处理，得到第一特征指标，其中，所述第一特征指标可以用于表征用户对所述互联网资源的实时使用情况，具体可以是以分钟、小时或天为粒度，用户对所述互联网资源的实时使用情况。

所述第二处理平台122可以对用户行为数据进行分布式的离线处理，得到第二特征指标，其中，所述第二特征指标可以用于表征用户对所述互联网资源的历史使用情况，具体可以是以周、月或季度为粒度，用户对所述互联网资源的历史使用情况。

所述第二特征指标与所述第一特征指标相比，所述第二特征指标可以视为粗粒度指标，所述第一特征指标可以视为细粒度指标。本申请实施例中，可以将所述第一特征指标与所述第二特征指标进行相互验证，根据验证结果，对互联网资源的实时使用情况以及历史使用情况进行评估。

相较于现有技术中使用关系型数据对用户行为数据进行离线处理而言，本申请实施例采用所述第一处理平台121对用户行为数据进行在线处理，并使用所述第二处理平台122对用户行为数据进行离线处理，增加了数据处理方式，在得到第二特征指标的同时，还可以得到第一特征指标，根据所述第一特征指标以及所述第二特征指标可以得到用户对互联网资源的历史和实时使用情况，进而可以根据用户对互联网资源的不同的使用情况，更加有效地对互联网资源的使用情况进行评估。

需要说明的是，在实际应用中，所述数据处理平台12可以包括所述第一处理平台121以及所述第二处理平台122中的至少一个，采用所述第一处理平台121以及所述第二处理平台122中的至少一个对用户行为数据进行处理，相较于现有技术而言，由于采用分布式处理的方法对数据进行处理，因此，可以加快数据处理速度，进而快速得到用于表征用户对互联网资源的使用情况的各项指标。

所述数据处理平台12在按照上述记载的方法对用户行为数据进行处理，得到特征指标后，所述数据存储平台13可以采用分布式存储的方式存储所述特征指标，相对于现有技术中关系型数据库的存储能力不足，由于本申请实施例采用分布式存储的方式存储数据，因此，存储能力较强，可以支持上千万级以上的数据存储。

本申请实施例中，所述数据存储平台13可以是具有分布式存储能力的数据库。所述数据存储平台13具体可以包括第一数据库131以及第二数据库132，所述第一数据库131以及所述第二数据库132可以用于存储所述第一特征指标，且，存储方式为分布式存储。具体地：

所述第二数据库132，将所述第一特征指标进行缓存，并每隔预设时间，将所述预设时间内缓存的所述第一特征指标同步至所述第一数据库131中；

所述第一数据库131，将所述第一特征指标以非结构化数据的形式进行分布式存储。

所述第一数据平台121在对用户行为数据进行在线处理后，可以将实时处理得到的所述第一特征指标缓存至所述第二数据库132中，所述第二数据库132可以每隔预设时间(例如，每隔一分钟，每隔半小时等)，将所述预设时间内缓存的所述第一特征指标同步至所述第一数据库131中。

例如，所述第一数据平台121采用N个处理器对用户行为数据进行分布式处理，每个处理器在处理得到第一特征指标后，可以将所述第一特征指标缓存至所述第二数据库132中，所述第二数据库132对每个处理器处理得到的第一特征指标进行累计，将预设时间(比如是一分钟，或一小时等)内累计的第一特征指标同步至所述第一数据库131中。之后，所述第二数据库132可以重复上述操作，即缓存N个处理器处理得到的第一特征指标，并将预设时间内累计的第一特征指标同步至所述第二数据库132中。

本申请实施例中，先将所述第一特征指标线缓存至所述第二数据库132中，再将所述第一特征指标由所述第二数据库132同步至所述第一数据库131中，这样，可以有效避免直接将所述第一特征指标存储至所述第一数据库131时，由于需要存储的数据量较多导致的数据拥堵，存储速度慢等问题。

所述第二数据库132在将所述第一特征指标同步至所述第一数据库131后，所述第一数据库131可以采用分布式存储的方式存储所述第一特征指标。本实施例中，为了便于存储更多的数据，所述第一数据库131可以将所述第一特征指标以非结构化数据的形式进行存储。

本申请实施例中，所述第一数据处理平台121可以是流式处理平台，在一种实现方式中，为了便于对用户行为数据进行在线处理以及对所述第一特征指标进行存储，所述第一处理平台121可以是Storm，所述第一数据库131可以是具有非结构化数据存储能力的分布式数据库，具体可以是Hbase，所述第二数据库132可以是以key-value的形式进行数据存储的分布式数据库，具体可以是Redis，其中，Storm是一种分布式实时大数据处理框架，Hbase是一个分布式的、面向列的开源数据库，Redis是一个可以基于内存，可持久化的日志型、key-value数据库。

本申请实施例中，所述数据存储平台13还可以包括：第三数据库133以及第四数据库134，所述第三数据库133可以用于存储所述第二特征指标，所述第四数据库134可以用于存储用户行为数据，且，两者的存储方式为分布式存储。具体地：

所述第四数据库134，对所述数据获取平台11获取的用户行为数据进行分布式存储；

所述第二处理平台122，从所述第四数据库134中获取用户在设定时间段内的用户行为数据，并对所述设定时间段内的用户行为数据进行处理，得到所述第二特征指标；

所述第三数据库133，将所述第二特征指标以结构化数据的形式进行分布式存储。

所述第二处理平台122在对用户行为数据进行离线处理时，由于需要处理的用户行为数据为历史的用户行为数据，而数据获取平台11获取的是实时的用户行为数据，因此，为了便于所述第二处理平台122对用户行为数据进行离线处理，可以采用所述第四数据库134将实时的用户行为数据进行存储，这样，在所述第二处理平台122对用户行为数据进行离线处理时，可以基于所述第四数据库134中存储的用户行为数据进行处理。

所述第二处理平台122在对用户行为数据进行离线处理时，可以从所述第四数据库134中获取设定时间段内的用户行为数据，例如，可以从所述第四数据库134中获取从当前时刻往前一个月内的用户行为数据。在获取到所述设定时间段内的用户行为数据后，可以对用户行为数据进行清洗，对清洗后的用户行为数据进行分布式处理，得到所述第二特征指标，所述第二特征指标可以具体表征用户在所述设定时间段内对互联网资源的使用情况。

所述第二处理平台122在得到所述第二特征指标后，可以将所述第二特征指标存储至所述第三数据库133中，本申请实施例中，由于所述第二特征指标相对于所述第一特征指标而言为粗粒度指标，数据量相对较少，因此，所述第三数据库133可以将所述第二特征值以结构化数据的形式进行分布式存储。当然，为了能够存储更多的数据，也可以将所述第二特征值以非结构化数据的形式进行分布式存储。

本申请实施例中，所述第二处理平台122可以是具有批量大数据处理能力的平台。在一种实现方式中，为了便于对用户行为数据进行离线处理，以及对所述第二特征指标进行存储，所述第二处理平台122可以是Spark，所述第三数据库133可以是具有结构化数据存储能力的分布式数据库，具体可以是Hive，所述第四数据库134可以是以数据库表进行数据存储的分布式数据库，具体也可以是Hive。其中，Spark是一种专为大规模数据处理而设计的快速通用的计算引擎，Hive是一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表。

在本申请的另一实施例中，所述大数据处理***还可以包括：数据查询平台14，其中：

所述数据查询平台14，提供交互界面，并通过所述交互界面将所述第一特征指标以及所述第二特征指标进行展示，以便于根据展示的特征指标对所述互联网资源的使用情况进行评估。

在本申请实施例中，可以通过所述数据查询平台14提供的交互界面查询用户使用互联网资源的各种指标，具体可以是所述第一特征指标，也可以是所述第二特征指标。所述数据查询平台14可以将查询得到特征指标进行展示，这样，资源提供方可以根据展示的特征指标了解用户对互联网资源的使用情况，进而对互联网资源的使用情况进行评估。

在本申请实施例中，所述大数据处理***还可以包括：内嵌式数据存储平台15，其中：

所述内嵌式数据存储平台15，将不同用户的行为明细数据进行存储，并将不同用户的行为明细数据通过交互界面进行展示，所述不同用户的行为明细数据通过所述数据处理平台12对所述用户行为数据进行分析得到。

所述内嵌式数据存储平台15可以同时具有数据存储以及数据展示的功能，具体地，所述内嵌式数据存储平台15可以存储用户的行为明细数据，并将用户的行为明细数据通过交互界面进行展示。其中，用户的行为明细数据可以是用户行为数据的详细信息，具体可以由所述数据处理平台12对用户行为数据进行分析得到。

本申请实施例中，用户的行为明细数据可以是实时数据，也可以是历史数据，实时的行为明细数据可以由第一处理平台121对用户行为数据分析得到，历史的行为明细数据可以由第二处理平台122对用户行为数据分析得到。在分析得到实时的行为明细数据以及历史的行为明细数据后，可以将这些行为明细数据存储至所述内嵌式数据存储平台15中。

在需要查看用户的行为明细数据时，可以在所述内嵌式数据存储平台15中查询，在查询得到用户的行为明细数据后，可以通过交互界面进行展示，这样，互联网资源的信息提供方可以根据用户的行为明细数据对用户使用互联网资源的情况进行评估。

本申请实施例中，根据特征指标对互联网资源的使用情况进行评估，可以是：根据用户对互联网资源每日的浏览量指标，评估通过互联网推荐互联网资源的成本和收益，根据用户在各推荐渠道每周获取互联网资源的指标，评估各推荐渠道的推荐效果，等，这里不再一一举例说明。

此外，由于本申请实施例可以根据所述第一特征指标对用户使用互联网资源的情况进行实时评估，因此，在向用户推荐互联网资源后，可以实时对用户使用互联网资源的情况进行监控，以便于主动、及时地应对互联网资源推荐过程中出现的各种突发情况。

在一种实现方式中，所述数据查询平台14可以是Presto，其可以通过浏览器的交互界面展示所述第一特征指标以及所述第二特征指标。所述内嵌式数据存储平台15可以是ES内嵌式存储***，其可以通过浏览器的交互界面展示用户的行为明细数据。其中，Presto为Facebook开发的数据查询引擎，可对250PB以上的数据进行快速地交互式分析。

需要说明的是，基于上述记载的内容，所述第二处理平台122在对用户行为数据进行离线处理时，还可以结合所述第一特征指标以及所述第一处理平台121分析得到的用户的行为明细数据，共同确定得到所述第二特征指标。具体地，所述第二处理平台122可以从所述第一数据库131中获取设定时间段内的用户行为数据对应的第一特征指标以及用户的行为明细数据(或者，所述第一数据库131可以定期将设定时间段内的所述第一特征指标以及用户的行为明细数据发送至所述第二处理平台122)，对获取的所述第一特征指标、用户的行为明细数据以及从所述第四数据库134中获取的设定时间段内的用户行为数据进行共同处理，得到所述第二特征指标。

图2是本申请的一个实施例大数据处理方法的示意图。图2所示的大数据处理方法可以由图1所示实施例记载的大数据处理***实现。

图2中，Kafka集群可以视为图1所示实施例记载的所述数据获取平台11，在资源提供方通过互联网向用户推荐互联网资源后，Kafka集群可以获取用户在使用该互联网资源的过程中产生的用户行为数据，该用户行为数据可以包括：用户通过网页使用所述互联网资源的过程中产生的日志、用户通过应用软件使用所述互联网资源的过程中产生的日志、用户在其他渠道产生的日志、用户在互联网资源的活动***中产生的日志以及用户针对所述互联网资源的业务信息中的至少一种。

Kafka集群在获取到用户行为数据后，一方面可以将用户行为数据发送给Storm(可以视为图1所示实施例记载的第一处理平台)，以便于Storm对用户行为数据进行在线处理，另一方面也可以将用户行为数据发送给Hive(可以视为图1所示实施例记载的第四数据库)进行存储，以便于Spark对Hive中存储的用户行为数据进行离线处理。

Storm数据处理框架是一种流式处理平台，在对用户行为数据进行在线处理时，可以首先对用户行为数据进行清洗(即预处理)，包括去除错误的用户行为数据，去除重复的用户行为数据等，在对数据进行清洗后，可以对用户行为数据进行分布式处理，得到用于表征用户对互联网资源的实时使用情况的第一特征指标。

Storm在得到第一特征指标后，可以将所述第一特征指标暂存在Redis(可以视为图1所示实施例中记载的所述第二数据库)中，Redis可以每隔预设时间，将所述预设时间内缓存的所述第一特征指标同步至Hbase(可以视为图1所示实施例中记载的所述第一数据库)中。

其中，Hbase中可以存储以分钟为粒度的所述第一特征指标，也可以存储以小时为粒度的所述第一特征指标，还可以存储以小时为粒度的所述第一特征指标，具体可以将所述第一特征指标以非结构化数据的形式进行分布式存储。

需要说明的是，Storm还可以主动从Kafka集群中获取用户行为数据进行分布式处理。如图2所示，Storm可以根据用户的业务请求流水号，主动从Kafka集群中获取用户针对互联网资源的业务信息，并对用户的业务信息进行分布式处理得到与用户的业务信息对应的第一特征指标，将该第一特征信息缓存至Redis中，进而同步至Hbase中。

此外，Storm还可以对用户行为数据进行分析得到用户的行为明细数据，并将用户的行为明细数据通过Redis存储至Hbase中。

图2中，Spark对用户行为数据进行离线处理时，需要将Kafka集群获取的用户行为数据存储至Hive中，在进行数据缓存时，Kafka集群可以以Flume sink(日志收集***)为中介，将用户行为数据存储至Hive中。

在将用户行为数据存储至Hive后，Spark可以从Hive中获取设定时间段内的用户行为数据，之后，可以对获取的用户行为数据进行清洗，对清洗后的数据进行分布式处理，得到用于表征用户对互联网资源的历史使用情况的第二特征指标。

Spark在得到第二特征指标后，可以将所述第二特征指标仍存储在Hive中，其中，Hive中可以存储以周为粒度的所述第二特征指标，也可以存储以月为粒度的所述第二特征指标，还可以存储以季度为粒度的所述第二特征指标，具体可以将所述第二特征指标结构化数据的形式进行分布式存储。

需要说明的是，Spark在对用户行为数据进行离线处理时，还可以从Hbase中获取所述设定时间段内的所述第一特征指标以及用户的行为明细数据，并根据所述第一特征指标、用户的行为明细数据以及所述设定时间段内的用户行为数据共同处理得到所述第二特征指标。

此外，Spark还可以对所述设定时间段内的用户行为数据进行分析得到用户的行为明细数据，并将用户的行为明细数据存储至Hive中。

图2中，在将第一特征指标以及用户的行为明细数据存储至Hbase，以及将第二特征指标以及用户的行为明细数据存储至Hive后，可以将这些特征指标以及用户的行为明细数据通过Presto(可以视为图1所示实施例中记载的所述数据查询平台)进行展示。

Presto可以通过浏览器的交互界面展示Storm以及Spark处理得到的特征指标。具体地，资源提供方可以在浏览器的交互界面中输入需要查询的内容，Presto可以根据输入的内容进行查询，并将查询结果通过浏览器的交互界面进行展示。

此外，针对在线分析和/或离线分析得到的用户的行为明细数据，还可以将其存储至ES内嵌式存储***中，ES可以直接通过浏览器的交互界面展示用户的行为明细数据。具体地，资源提供方可以在浏览器的交互界面中输入需要查询的内容，ES根据输入的内容在其内部进行查询，并将查询结果通过浏览器的交互界面进行展示。图2仅示出了将在线分析得到的用户的行为明细数据进行存储和展示。

资源提供方在查看到特征指标或用户的行为明细数据后，可以对互联网资源的使用情况进行评估。

本申请实施例提供的大数据处理***，包括：数据获取平台，获取用户在使用互联网资源的过程中产生的用户行为数据；数据处理平台，对所述用户行为数据进行分布式处理，得到所述用户行为数据的特征指标，所述特征指标用于表征所述用户对所述互联网资源的使用情况；数据存储平台，采用分布式存储的方式存储所述特征指标。这样，由于数据处理平台可以采用分布式处理的方法对用户在使用互联网资源的过程中产生的用户行为数据进行处理，因此，可以提高数据处理速度，进而可以快速得到用于表征用户对互联网资源的使用情况的各项指标。此外，由于采用分布式存储的方式对数据进行存储，还可以有效提高数据的存储能力。

图3是本申请的一个实施例大数据处理方法的流程示意图。本申请实施例提供的大数据处理方法可以由图1或图2所示的大数据处理***执行并实现，所述方法如下所述。

S302：获取用户在使用互联网资源的过程中产生的用户行为数据。

在S302中，资源提供在通过互联网向用户推荐互联网资源后，用户可以使用该互联网资源(包括点击、查看、获取该互联网资源等)。在用户使用互联网资源的过程中，可以获取用户产生的用户行为数据。

用户产生的用户行为数据可以包括用户通过网页使用所述互联网资源的过程中产生的日志、用户通过应用软件使用所述互联网资源的过程中产生的日志、用户在其他渠道产生的日志、用户在互联网资源的活动***中产生的日志以及用户针对所述互联网资源的业务信息中的至少一种，具体可以参见图1所示实施例记载的内容，这里不再重复描述。

在获取到用户在使用互联网资源的过程中产生的用户行为数据后，可以执行S304。

S304：对所述用户行为数据进行分布式处理，得到所述用户行为数据的特征指标。

在S304中，可以对S302中获取的用户行为数据进行分布式处理，并得到用于表征用户对所述互联网资源的使用情况的特征指标。

本申请实施例中，对所述用户行为数据进行分布式处理，得到所述用户行为数据的特征指标，可以包括：

对所述用户行为数据进行在线处理，得到第一特征指标；

对所述用户行为数据进行离线处理，得到第二特征指标。

具体地，可以采用在线处理以及离线处理两种方式对用户行为数据进行分布式处理，并分别得到第一特征指标以及第二特征指标，其中，所述第一特征指标可以用于表征用户对互联网资源的实时使用情况，具体可以是以分钟、小时或天为粒度，用户对所述互联网资源的实时使用情况，即所述第一特征指标可以视为细粒度指标；所述第二特征指标可以用于表征用户对互联网资源的历史使用情况，具体可以是以周、月或季度为粒度，用户对所述互联网资源的历史使用情况，即所述第二特征指标可以视为粗粒度指标。

本申请实施例采用在线和离线两种方式对用户行为数据进行处理，相较于现有技术中使用关系型数据对用户行为数据进行离线处理而言，增加了数据处理方式，可以得到用户对互联网资源的历史和实时使用情况，进而可以根据用户对互联网资源的不同的使用情况，更加有效地对互联网资源的使用情况进行评估。

在一种实现方式中，可以仅对用户行为数据进行在线处理，或仅对用户行为数据进行离线处理，或同时对用户行为数据进行在线和离线处理。针对任一种处理方式而言，由于采用分布式处理的方法对数据进行处理，且无需关联多个表，因此，可以加快数据处理速度，进而快速得到用于表征用户对互联网资源的使用情况的各项指标。

在对所述用户行为数据进行离线处理，得到第二特征指标时，具体可以包括：

将所述用户行为数据进行分布式存储；

从存储的所述用户行为数据中获取设定时间段内的用户行为数据；

对所述设定时间段内的用户行为数据进行处理，得到所述第二特征指标。

具体实现方式可以参见图1所示实施例记载的相关内容，这里不再重复描述。

可选地，本申请实施例在对用户行为数据进行在线分析和离线分析时，还可以分析得到用户的行为明细数据，具体可以参见图1所示实施例记载的相关内容，这里也不再重复描述。

在得到所述第一特征指标以及所述第二特征指标后，可以执行S306。

S306：采用分布式存储的方式存储所述特征指标。

在S306中，可以将S304中得到的第一特征指标以及第二特征指标进行分布式存储。

在采用分布式存储的方式存储所述第一特征指标时，可以包括：

将在线处理得到的所述第一特征指标进行缓存；

每隔预设时间，将所述预设时间内缓存的所述第一特征指标以非结构化数据的形式进行分布式存储。

在采用分布式存储的方式存储所述第二特征指标时，可以包括：

将所述第二特征指标以结构化数据的形式进行分布式存储。

对所述第一特征指标以及所述第二特征指标进行分布式存储的具体实现方式可以参见图1所示实施例记载的相关内容，这里不再重复描述。

在对所述第一特征指标以及所述第二特征指标进行分布式存储后，所述方法还包括：

将所述第一特征指标以及所述第二特征指标进行展示，以便于根据展示的特征指标对所述互联网资源的使用情况进行评估。

可选地，在S304中得到用户的行为明细后，所述方法还包括：

将不同用户的行为明细数据进行展示，以便于根据不同用户的行为明细数据对所述互联网资源的使用情况进行评估，所述不同用户的行为明细数据通过对所述用户行为数据进行分布式处理得到。

本申请实施例提供的大数据处理方法，获取用户在使用互联网资源的过程中产生的用户行为数据；对所述用户行为数据进行分布式处理，得到所述用户行为数据的特征指标，所述特征指标用于表征所述用户对所述互联网资源的使用情况；采用分布式存储的方式存储所述特征指标。由于可以采用分布式处理的方法对用户使用互联网资源的过程中产生的用户行为数据进行处理，无需关联多个表，因此，可以提高数据处理速度，进而可以快速得到用于表征用户对互联网资源的使用情况的各项指标。此外，由于采用分布式存储的方式对数据进行存储，还可以有效提高数据的存储能力。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

图4是本申请的一个实施例电子设备的结构示意图。请参考图4，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成数据处理装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

获取用户在使用互联网资源的过程中产生的用户行为数据；

采用分布式存储的方式存储所述特征指标。

上述如本申请图4所示实施例揭示的数据处理装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图3的方法，并实现数据处理装置在图3所示实施例中的功能，本申请实施例在此不再赘述。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图3所示实施例的方法，并具体用于执行以下操作：

获取用户在使用互联网资源的过程中产生的用户行为数据；

采用分布式存储的方式存储所述特征指标。

图5是本申请的一个实施例大数据处理装置50的结构示意图。请参考图5，在一种软件实施方式中，所述大数据处理装置50可包括：获取单元51、处理单元52和存储单元53，其中：

获取单元51，获取用户在使用互联网资源的过程中产生的用户行为数据；

处理单元52，对所述用户行为数据进行分布式处理，得到所述用户行为数据的特征指标，所述特征指标用于表征所述用户对所述互联网资源的使用情况；

存储单元53，采用分布式存储的方式存储所述特征指标。

可选地，所述处理单元52，对所述用户行为数据进行分布式处理，得到所述用户行为数据的特征指标，包括：

对所述用户行为数据进行在线处理，得到第一特征指标；

对所述用户行为数据进行离线处理，得到第二特征指标。

可选地，所述存储单元53，采用分布式存储的方式存储所述第一特征指标，包括：

将在线处理得到的所述第一特征指标进行缓存；

可选地，所述处理单元52，对所述用户行为数据进行离线处理，得到第二特征指标，包括：

将所述用户行为数据进行分布式存储；

可选地，所述存储单元53，采用分布式存储的方式存储所述第二特征指标，包括：

将所述第二特征指标以结构化数据的形式进行分布式存储。

可选地，所述大数据处理装置50还可以包括：展示单元54，其中：

所述展示单元54，将所述第一特征指标以及所述第二特征指标进行展示，以便于根据展示的特征指标对所述互联网资源的使用情况进行评估。

可选地，所述展示单元54，还可以将不同用户的行为明细数据进行展示，以便于根据不同用户的行为明细数据对所述互联网资源的使用情况进行评估，所述不同用户的行为明细数据通过对所述用户行为数据进行分布式处理得到。

大数据处理装置50还可执行图3的方法，并实现数据处理装置在图3所示实施例的功能，本申请实施例在此不再赘述。

总之，以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种大数据处理***，包括：

数据存储平台，采用分布式存储的方式存储所述特征指标。

2.如权利要求1所述的***，所述数据处理平台包括：第一处理平台和第二处理平台，其中：

所述第一处理平台，对所述用户行为数据进行在线处理，得到第一特征指标；

所述第二处理平台，对所述用户行为数据进行离线处理，得到第二特征指标。

3.如权利要求2所述的***，所述数据存储平台包括：第一数据库和第二数据库，其中：

所述第二数据库，将所述第一特征指标进行缓存，并每隔预设时间，将所述预设时间内缓存的所述第一特征指标同步至所述第一数据库中；

所述第一数据库，将所述第一特征指标以非结构化数据的形式进行分布式存储。

4.如权利要求2所述的***，所述数据存储平台还包括：第三数据库和第四数据库，其中：

所述第四数据库，对所述数据获取平台获取的用户行为数据进行分布式存储；

所述第二处理平台，从所述第四数据库中获取用户在设定时间段内的用户行为数据，并对所述设定时间段内的用户行为数据进行处理，得到所述第二特征指标；

所述第三数据库，将所述第二特征指标以结构化数据的形式进行分布式存储。

5.如权利要求2所述的***，所述***还包括：数据查询平台，其中：

所述数据查询平台，提供交互界面，并通过所述交互界面将所述第一特征指标以及所述第二特征指标进行展示，以便于根据展示的特征指标对所述互联网资源的使用情况进行评估。

6.如权利要求5所述的***，所述***还包括：内嵌式数据存储平台，其中：

所述内嵌式数据存储平台，将不同用户的行为明细数据进行存储，并将不同用户的行为明细数据通过交互界面进行展示，所述不同用户的行为明细数据通过所述数据处理平台对所述用户行为数据进行分析得到。

7.如权利要求1所述的***，

所述数据获取平台获取的所述用户行为数据包括：用户通过网页使用所述互联网资源的过程中产生的日志，用户通过应用软件使用所述互联网资源的过程中产生的日志，用户在互联网资源的活动***中产生的日志以及用户针对所述互联网资源的业务信息中的至少一种。

8.如权利要求2所述的***，

所述数据获取平台为具有收集用户动作流数据的功能的集群，所述第一处理平台为流式处理平台，所述第二处理平台为具有批量大数据处理能力的平台，所述数据存储平台为具有分布式存储能力的数据库。

9.一种大数据处理方法，包括：

获取用户在使用互联网资源的过程中产生的用户行为数据；

采用分布式存储的方式存储所述特征指标。

10.如权利要求9所述的方法，对所述用户行为数据进行分布式处理，得到所述用户行为数据的特征指标，包括：

对所述用户行为数据进行在线处理，得到第一特征指标；

对所述用户行为数据进行离线处理，得到第二特征指标。

11.如权利要求10所述的方法，采用分布式存储的方式存储所述第一特征指标，包括：

将在线处理得到的所述第一特征指标进行缓存；

12.如权利要求10所述的方法，对所述用户行为数据进行离线处理，得到第二特征指标，包括：

将所述用户行为数据进行分布式存储；

13.如权利要求12所述的方法，采用分布式存储的方式存储所述第二特征指标，包括：

将所述第二特征指标以结构化数据的形式进行分布式存储。

14.如权利要求10所述的方法，所述方法还包括：

15.如权利要求14所述的方法，所述方法还包括：

16.一种大数据处理装置，包括：

存储单元，采用分布式存储的方式存储所述特征指标。

17.一种电子设备，包括：

处理器；以及

获取用户在使用互联网资源的过程中产生的用户行为数据；

采用分布式存储的方式存储所述特征指标。

18.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下方法：

获取用户在使用互联网资源的过程中产生的用户行为数据；

采用分布式存储的方式存储所述特征指标。