CN111367951A

CN111367951A - 一种流数据处理的方法及装置

Info

Publication number: CN111367951A
Application number: CN202010131762.0A
Authority: CN
Inventors: 康雪丹; 姜黎明; 王大飞; 江旻
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-02-29
Filing date: 2020-02-29
Publication date: 2020-07-03

Abstract

本发明公开了一种流数据处理的方法及装置，方法包括：从监测的流数据中获取符合筛选规则的各类业务数据，针对每类业务数据，按照业务数据的预设结构对业务数据进行提取，得到设定纬度的业务数据，按照预设的分组规则，对各类设定纬度的业务数据进行分组，按照每个分组的预设算子，对分组内设定纬度的业务数据进行处理。本发明按照业务数据的预设结构对业务数据进行提取，得到设定纬度的业务数据，分组后按照每个分组的预设算子，对分组内设定纬度的业务数据进行处理，实现了实时计算阶段拆分，同时各阶段计算逻辑不过分耦合，每个分组的预设算子供其他计算模型进行复用，使得流数据的处理更加高效。

Description

一种流数据处理的方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种流数据处理的方法及装置。

背景技术

近年来，随着信息技术的快速发展，数据量呈现飞速增长的趋势，对于海量数据，单台计算机的处理能力已经远远不够，由此推动了分布式***的研究和进展。如何在海量数据中快速分析获取有用的信息是现在分布式计算领域的研究热点，流式计算应运而生。

针对流数据应用场景，与传统的存储在磁盘或内存中的数据不同，流数据的特点在于：实时性：数据流实时产生，需要实时得出分析结果；持久性：数据流无限持续产生和流入。

由于上述流计算的优势，流计算得到了广泛的应用。现有典型的分布式流计算框架有Storm、Sparkstreaming、Flink等，这些框架在分布式环境下的实时性和容错性都很不错，但是针对特定的业务场景，耦合度过高，增加开发维护成本，流式计算逻辑对业务人员是不透明的，随着产品线上运行情况快速变化，计算逻辑的每次变动都需要开发人员重新开发，不利于业务快速展开，无法满足业务需求，且框架的代码利用率低，造成一定的***资源浪费。在流式计算场景下，通用的流计算框架有相对笨重、耦合度高、异构性低的缺点。

发明内容

本申请提供了一种流数据处理的方法及装置，用以解决如何方便高效的对流数据进行处理的问题。

第一方面，本申请实施例提供一种流数据处理的方法，包括：

从监测的流数据中获取符合筛选规则的各类业务数据；

针对每类业务数据，按照所述业务数据的预设结构对所述业务数据进行提取，得到设定纬度的业务数据；所述预设结构包括至少一个设定纬度；

按照预设的分组规则，对各类设定纬度的业务数据进行分组；

按照每个分组的预设算子，对分组内所述设定纬度的业务数据进行处理。

上述方案，按照业务数据的预设结构对业务数据进行提取，得到设定纬度的业务数据，分组后按照每个分组的预设算子，对分组内设定纬度的业务数据进行处理，实现了实时计算阶段拆分，同时各阶段计算逻辑不过分耦合，每个分组的预设算子供其他计算模型进行复用，灵活组合，使得流数据的处理更加高效。

可选的，所述筛选规则包括以下至少一项：设定的数据源、设定类别的业务数据、设定的时间窗口。

上述方案，通过设定数据源、业务数据的类别或时间窗口进行数据筛选，将数据格式统一，过滤了无用数据，使得计算更加高效。

可选的，所述按照所述业务数据的预设结构对所述业务数据进行提取，得到设定纬度的业务数据，包括：

按照所述业务数据的预设结构，将同一时间窗口内的所述业务数据构建数据矩阵；其中，每条业务数据对应所述数据矩阵中的一行，各条业务数据的同一设定纬度对应所述数据矩阵中的一列。

上述方案，将筛选后的数据构建矩阵，使得同一列的数据对应同一设定纬度，使得流数据的处理更加方便高效。

可选的，所述分组规则中设定有各分组的纬度主键，所述设定纬度包括所述纬度主键；

按照预设的分组规则，对各类设定纬度的业务数据进行分组，包括：

针对每个分组的纬度主键，得到所述分组的设定纬度的业务数据，其中，每个分组内的业务数据符合所述数据矩阵的方式。

上述方案，通过纬度主键对数据进行分组，提高了计算效率以及正确率。

可选的，所述预设算子包括纬度指标和计算所述纬度指标的算子，所述设定纬度包括所述纬度指标；

按照每个分组的预设算子，对分组内所述设定纬度的业务数据进行处理，包括：

按照所述分组的纬度指标，调用所述算子对所述分组内的设定纬度的业务数据进行处理，得到所述分组在所述纬度指标的计算结果。

上述方案，抽象计算算子，对算子进行灵活组合配置，以供其他计算模型进行复用，实现海量数据流式处理能力。

可选的，所述调用所述算子对所述分组内的设定纬度的业务数据进行处理，包括：

调用所述算子，对所述分组的数据矩阵中的列数据进行处理。

可选的，在所述对分组内所述设定纬度的业务数据进行处理之后，还包括：

根据预设的输出模板，将处理后的计算结果按照所述输出模板进行输出。

上述方案，通过预设的输出模板，将不同流数据处理结果与数据库对接，使得处理过程更加高效。

第二方面，本申请实施例提供一种流数据处理的装置，所述装置包括：

获取模块，用于从监测的流数据中获取符合筛选规则的各类业务数据；

处理模块，用于针对每类业务数据，按照所述业务数据的预设结构对所述业务数据进行提取，得到设定纬度的业务数据；所述预设结构包括至少一个设定纬度；

所述处理模块，还用于按照预设的分组规则，对各类设定纬度的业务数据进行分组；

所述处理模块，还用于按照每个分组的预设算子，对分组内所述设定纬度的业务数据进行处理。

可选的，所述处理模块具体用于：

所述筛选规则包括以下至少一项：设定的数据源、设定类别的业务数据、设定的时间窗口。

可选的，所述处理模块具体用于：

所述分组规则中设定有各分组的纬度主键，所述设定纬度包括所述纬度主键；

所述处理模块具体用于：

可选的，所述处理模块具体用于：

所述预设算子包括纬度指标和计算所述纬度指标的算子，所述设定纬度包括所述纬度指标；

所述处理模块具体用于：

可选的，所述处理模块具体用于：

可选的，所述处理模块还用于：

在所述对分组内所述设定纬度的业务数据进行处理之后，根据预设的输出模板，将处理后的计算结果按照所述输出模板进行输出。

相应的，本发明实施例还提供了一种计算设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行上述流数据处理的方法。

相应的，本发明实施例还提供了一种计算机可读非易失性存储介质，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行上述流数据处理的方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种流数据处理的方法的***框架；

图2为本发明实施例提供的一种流数据处理的方法的流程示意图；

图3为本发明实施例提供的一种流数据处理的方法的示意图；

图4为本发明实施例提供的一种流数据处理的装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了解决现有技术中的问题，本发明实施例提供一种流数据处理的方法，本发明实施例提供的流数据处理的方法，可以适用于如图1所示的***架构中，该***架构包括流数据采集设备100，业务处理设备200。

其中，流数据采集设备100将获取到的流数据发送至业务处理设备200，业务处理设备200对流数据进行处理。

需要说明的是，图1仅是本申请实施例***架构的一种示例，本申请对此不做具体限定。

基于图1所示意的***架构，图2为本发明实施例提供的一种流数据处理的方法所对应的流程示意图，该流程可以由智能合约调试的装置可以是上述内容的业务处理设备执行。如图2所示，该方法包括：

步骤201，从监测的流数据中获取符合筛选规则的各类业务数据；

步骤202，针对每类业务数据，按照所述业务数据的预设结构对所述业务数据进行提取，得到设定纬度的业务数据。

需要说明的是，预设结构包括至少一个设定纬度。

步骤203，按照预设的分组规则，对各类设定纬度的业务数据进行分组。

步骤204，按照每个分组的预设算子，对分组内所述设定纬度的业务数据进行处理。

在一种可能的实现方式中，以流计算框架Spark Streaming为基础，执行上述流数据处理的方法。

在具体介绍本申请方案之前，首先对Spark Streaming进行简单介绍：

Spark Streaming是将流式计算分解成一系列短小的批处理作业，也就是把SparkStreaming的输入数据按照预设的时间间隔(如1秒)分成一段一段的数据(DiscretizedStream)，也就是说，SparkStreaming从实时数据流接入数据，再将其划分为一个个小批量供后续Spark engine处理。

基于此，在步骤201中，获取符合筛选规则的各类业务数据首先进行以下几个步骤。

S2011，设定时间窗口。

比如，设定的时间窗口可以为每分钟，每五分钟，每半个小时，每天，每周等，本申请对此不做具体限定。

再比如，当设定的时间窗口可以为每分钟时，每60s的数据形成一个批次。

S2012，设定数据源。

需要说明的是，本申请方案支持从多种数据源提取数据，如：Rmb、Kafka、Flume、ZeroMQ、Kinesis等。

S2013，设定类别的业务数据。

举个例子，比如微信借款、微信贷款、分期付款等。

需要说明的是，以上顺序为一般的步骤，比如S2013可以在S2012之前，本申请对此不做具体限定。

从上述内容可以看出，将流数据进行筛选，筛选规则包括：设定的数据源、设定类别的业务数据、设定的时间窗口。通过对流数据时间范围以及内容类别的筛选，使得之后能对每一个小批次的流数据进行统一且针对性处理。下面具体的介绍处理流程。

在步骤202中，按照业务数据的预设结构，将同一时间窗口内的业务数据构建数据矩阵。

需要说明的是，每条业务数据对应数据矩阵中的一行，各条业务数据的同一设定纬度对应数据矩阵中的一列。

举个例子，定义如下两个结构：

开户结构：

业务场景	客户ID	开户状态	开户时间	渠道
					开户	ID_NO	成功	2020-01-01	手机

借款结构：

业务场景	客户ID	借款时间	借款金额	借款状态
					借款	ID_NO	2020-01-01	100.0	成功

比如设置的时间窗口为5秒，5秒积累了所有业务数据，组成一个数据矩阵如下：

time1开户数据(开户结构)

time2借款数据(借款结构)

time3开户数据(开户结构)

time4开户数据(开户结构)

本申请实施例中，在构建数据矩阵之前，通过预设的方式对筛选后的流数据进行解析，比如采用分隔符“，”的方式将流数据解析。

在一种可能的实现方式中，在上述获取符合筛选规则的各类业务数据后，可进行初步的数据过滤。

在上述完成对业务数据的提取之后，通过搜索引擎定义输入字段范围和类型判断，比如通过SQL组件，如果流数据不满足SQL条件或者不满足预定义类型，则直接过滤。

举个例子，“BIZ_TYPE＝‘LOAN’and ID_NO is not null”表示选择业务场景为LOAN且ID不为空的数据，将其余不符合条件的数据过滤。

基于此，下面具体介绍步骤203中对各类设定纬度的业务数据进行分组的详细过程。

本申请实施例中，分组规则中设定有各分组的纬度主键，设定纬度包括纬度主键；

基于此，本申请实施例中，针对每个分组的纬度主键，得到分组的设定纬度的业务数据。

需要说明的是，其中，每个分组内的业务数据符合数据矩阵的方式。

结合上述步骤的内容，在选择数据源和业务数据的类别后，创建业务分组。

进一步的，在步骤204中，预设算子包括纬度指标和计算纬度指标的算子，设定纬度包括纬度指标；

本申请实施例中，纬度指标意味着该组指标根据什么纬度计算，如客户纬度、商户纬度、手机号纬度。选择统计纬度对应的字段，组成纬度指标。

本申请实施例中，纬度指标预先定义，与指标ID一一对应。

举个例子，定义一个纬度指标：CUST_PAY_SUCCESS，对应客户下单成功笔数，纬度指标定义为“客户ID”以及“下单成功”；而计算纬度指标的算子是求和。

具体的，按照分组的纬度指标，调用算子对分组内的设定纬度的业务数据进行处理，得到分组在纬度指标的计算结果。

进一步的，调用所述算子，对分组的数据矩阵中的列数据进行处理。

上述内容介绍了具体的分组以及计算流程，下面说明具体指标计算定义方法。

本申请实施例中，指标计算定义包括指标名称和计算模型。

具体的，指标名称包括指标名称和指标描述。

本申请实施例中，计算模型选择单个指标定制时，可以选择已定义计算方式，主要包括实时框架中间算子：hbase存储，hbase查询，hbase去重，spark SQL查询，或者

通用算子：统计计算(SUM/COUNT/DIS_COUNT/DETAIL_LIST/LATEST等20种算子)、判断计算(>，＝，<，＝等)、逻辑计算(与，或，非等)。

为了更好的解释本发明，下面结合图3以一个具体的例子进行说明。

如图3所示：

首先，监听一个数据源为RMB，包含多个事件，如图3中的input1、input2、...、inputN，形成一个动态事件流。

本申请实施例中，缓存定时加载配置，5分钟加载配置信息，根据事件ID加载。比如事件ID为RMB_WCD_LOAN，其中RMB为设定的数据源，WCD为设定的业务数据的类别，LOAN为具体的业务场景。

具体的，A产品的所有事件上报到一个数据源，包含登录、开户、借款、放款等操作。

本申请实施例中，业务场景即上述的LOAN根据BIZ_TYPE关键字区分，定义单个业务场景的数据结构。具体为如下两个结构，对应图3中的stuct1、stuct2、...、stuctN：

开户结构：

借款结构：

然后，设置数据源的时间窗口为5秒，5秒积累了所有业务数据，组成一个数据矩阵。

具体如下：

开户	ID_1	成功	2020-01-01	手机
					借款	ID_2	2020-01-01	100.0	成功
借款	ID_3	2020-02-01	200.0	成功
					借款	ID_2	2020-01-01	200.0	成功
开户	ID_2	成功	2020-02-01	手机

进一步的，一个时间窗口累积一个批次数据，进行以下流程处理。

S301，根据纬度主键(BIZ_TYPE)加载对应的配置，并且对批次数据(5s)进行分组，根据纬度主键获取不同的分组，如图3所示的数据分组，具体如下：

分组一：纬度主键为借款事件，客户ID为ID_2；

纬度指标为客户最近借款时间，客户借款金额，客户借款笔数。

分组二:纬度主键为借款事件，客户ID为ID_3；

从上述内容可以看出，分组条件为事件＝借款，借款状态＝成功，根据客户ID统计借款成功指标。

S302，根据配置和数据流，实时获取业务分组信息，包含业务日期、纬度主键、纬度指标等信息。

基于上述内容，获取的业务分组信息如下：

分组完成后形成图3中的Group1、Group1、...、GroupN，得到分组一如下：

借款	ID_2	2020-01-01	100.0	成功
					借款	ID_2	2020-01-01	200.0	成功

与此同时，分组二如下：

借款

ID_3

2020-02-01

200.0

成功

需要说明的是，本申请实施例中，分组数据并行计算，同组指标串行计算，一个纬度指标对应一个或多个算子，如图3中的算子1、算子2、...、算子N。

上述内容中，纬度指标包含多个单个指标计算，下面简要介绍单个指标计算的配置，如下表所示：

需要说明的是，计算范围也就是周期范围，支持分钟/小时/天/周/月/年，周期范围为数值范围，以便进行范围检查。

计算模型中的算子可以为实时框架中间算子：hbase存储，hbase查询，hbase去重，spark SQL查询，或者

本申请实施例中，对分组内设定纬度的业务数据进行处理之后，根据预设的输出模板，将处理后的计算结果按照输出模板进行输出。

需要说明的是，本方案可以关联多个静态数据源和表，输出方式可以为以下两种：

定时输出：定时器输出,更新到指标表即可，如每五分钟查询输出指标。

即时输出：事件驱动，指标更新后，立即同步，单个分组算完后，直接更新到指标库。

基于同一发明构思，图4示例性的示出了本发明实施例提供的一种流数据处理的装置，该装置可以为流数据处理的方法的流程。

所述流数据处理的装置，包括：

获取模块401，用于从监测的流数据中获取符合筛选规则的各类业务数据；

处理模块402，用于针对每类业务数据，按照所述业务数据的预设结构对所述业务数据进行提取，得到设定纬度的业务数据；所述预设结构包括至少一个设定纬度；

可选的，所述处理模块402具体用于：

所述处理模块402具体用于：

可选的，所述处理模块402具体用于：

所述处理模块402具体用于：

可选的，所述处理模块402具体用于：

可选的，所述处理模块402还用于：

基于同一发明构思，本发明实施例还提供了一种计算设备，包括：

存储器，用于存储程序指令；

基于同一发明构思，本发明实施例还提供了一种计算机可读非易失性存储介质，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行上述流数据处理的方法。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种流数据处理的方法，其特征在于，包括：

从监测的流数据中获取符合筛选规则的各类业务数据；

2.如权利要求1所述的方法，其特征在于，所述筛选规则包括以下至少一项：设定的数据源、设定类别的业务数据、设定的时间窗口。

3.如权利要求1所述的方法，其特征在于，所述按照所述业务数据的预设结构对所述业务数据进行提取，得到设定纬度的业务数据，包括：

4.如权利要求1所述的方法，其特征在于，所述分组规则中设定有各分组的纬度主键，所述设定纬度包括所述纬度主键；

5.如权利要求1至4任一项所述的方法，其特征在于，所述预设算子包括纬度指标和计算所述纬度指标的算子，所述设定纬度包括所述纬度指标；

6.如权利要求5所述的方法，其特征在于，所述调用所述算子对所述分组内的设定纬度的业务数据进行处理，包括：

7.如权利要求5所述的方法，其特征在于，在所述对分组内所述设定纬度的业务数据进行处理之后，还包括：

8.一种流数据处理的装置，其特征在于，包括：

9.一种计算设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1至7任一项所述的方法。

10.一种计算机可读非易失性存储介质，其特征在于，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行如权利要求1至7任一项所述的方法。