CN111367951A - 一种流数据处理的方法及装置 - Google Patents

一种流数据处理的方法及装置 Download PDF

Info

Publication number
CN111367951A
CN111367951A CN202010131762.0A CN202010131762A CN111367951A CN 111367951 A CN111367951 A CN 111367951A CN 202010131762 A CN202010131762 A CN 202010131762A CN 111367951 A CN111367951 A CN 111367951A
Authority
CN
China
Prior art keywords
data
service data
latitude
preset
packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010131762.0A
Other languages
English (en)
Inventor
康雪丹
姜黎明
王大飞
江旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010131762.0A priority Critical patent/CN111367951A/zh
Publication of CN111367951A publication Critical patent/CN111367951A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种流数据处理的方法及装置,方法包括:从监测的流数据中获取符合筛选规则的各类业务数据,针对每类业务数据,按照业务数据的预设结构对业务数据进行提取,得到设定纬度的业务数据,按照预设的分组规则,对各类设定纬度的业务数据进行分组,按照每个分组的预设算子,对分组内设定纬度的业务数据进行处理。本发明按照业务数据的预设结构对业务数据进行提取,得到设定纬度的业务数据,分组后按照每个分组的预设算子,对分组内设定纬度的业务数据进行处理,实现了实时计算阶段拆分,同时各阶段计算逻辑不过分耦合,每个分组的预设算子供其他计算模型进行复用,使得流数据的处理更加高效。

Description

一种流数据处理的方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种流数据处理的方法及装置。
背景技术
近年来,随着信息技术的快速发展,数据量呈现飞速增长的趋势,对于海量数据,单台计算机的处理能力已经远远不够,由此推动了分布式***的研究和进展。如何在海量数据中快速分析获取有用的信息是现在分布式计算领域的研究热点,流式计算应运而生。
针对流数据应用场景,与传统的存储在磁盘或内存中的数据不同,流数据的特点在于:实时性:数据流实时产生,需要实时得出分析结果;持久性:数据流无限持续产生和流入。
由于上述流计算的优势,流计算得到了广泛的应用。现有典型的分布式流计算框架有Storm、Sparkstreaming、Flink等,这些框架在分布式环境下的实时性和容错性都很不错,但是针对特定的业务场景,耦合度过高,增加开发维护成本,流式计算逻辑对业务人员是不透明的,随着产品线上运行情况快速变化,计算逻辑的每次变动都需要开发人员重新开发,不利于业务快速展开,无法满足业务需求,且框架的代码利用率低,造成一定的***资源浪费。在流式计算场景下,通用的流计算框架有相对笨重、耦合度高、异构性低的缺点。
发明内容
本申请提供了一种流数据处理的方法及装置,用以解决如何方便高效的对流数据进行处理的问题。
第一方面,本申请实施例提供一种流数据处理的方法,包括:
从监测的流数据中获取符合筛选规则的各类业务数据;
针对每类业务数据,按照所述业务数据的预设结构对所述业务数据进行提取,得到设定纬度的业务数据;所述预设结构包括至少一个设定纬度;
按照预设的分组规则,对各类设定纬度的业务数据进行分组;
按照每个分组的预设算子,对分组内所述设定纬度的业务数据进行处理。
上述方案,按照业务数据的预设结构对业务数据进行提取,得到设定纬度的业务数据,分组后按照每个分组的预设算子,对分组内设定纬度的业务数据进行处理,实现了实时计算阶段拆分,同时各阶段计算逻辑不过分耦合,每个分组的预设算子供其他计算模型进行复用,灵活组合,使得流数据的处理更加高效。
可选的,所述筛选规则包括以下至少一项:设定的数据源、设定类别的业务数据、设定的时间窗口。
上述方案,通过设定数据源、业务数据的类别或时间窗口进行数据筛选,将数据格式统一,过滤了无用数据,使得计算更加高效。
可选的,所述按照所述业务数据的预设结构对所述业务数据进行提取,得到设定纬度的业务数据,包括:
按照所述业务数据的预设结构,将同一时间窗口内的所述业务数据构建数据矩阵;其中,每条业务数据对应所述数据矩阵中的一行,各条业务数据的同一设定纬度对应所述数据矩阵中的一列。
上述方案,将筛选后的数据构建矩阵,使得同一列的数据对应同一设定纬度,使得流数据的处理更加方便高效。
可选的,所述分组规则中设定有各分组的纬度主键,所述设定纬度包括所述纬度主键;
按照预设的分组规则,对各类设定纬度的业务数据进行分组,包括:
针对每个分组的纬度主键,得到所述分组的设定纬度的业务数据,其中,每个分组内的业务数据符合所述数据矩阵的方式。
上述方案,通过纬度主键对数据进行分组,提高了计算效率以及正确率。
可选的,所述预设算子包括纬度指标和计算所述纬度指标的算子,所述设定纬度包括所述纬度指标;
按照每个分组的预设算子,对分组内所述设定纬度的业务数据进行处理,包括:
按照所述分组的纬度指标,调用所述算子对所述分组内的设定纬度的业务数据进行处理,得到所述分组在所述纬度指标的计算结果。
上述方案,抽象计算算子,对算子进行灵活组合配置,以供其他计算模型进行复用,实现海量数据流式处理能力。
可选的,所述调用所述算子对所述分组内的设定纬度的业务数据进行处理,包括:
调用所述算子,对所述分组的数据矩阵中的列数据进行处理。
可选的,在所述对分组内所述设定纬度的业务数据进行处理之后,还包括:
根据预设的输出模板,将处理后的计算结果按照所述输出模板进行输出。
上述方案,通过预设的输出模板,将不同流数据处理结果与数据库对接,使得处理过程更加高效。
第二方面,本申请实施例提供一种流数据处理的装置,所述装置包括:
获取模块,用于从监测的流数据中获取符合筛选规则的各类业务数据;
处理模块,用于针对每类业务数据,按照所述业务数据的预设结构对所述业务数据进行提取,得到设定纬度的业务数据;所述预设结构包括至少一个设定纬度;
所述处理模块,还用于按照预设的分组规则,对各类设定纬度的业务数据进行分组;
所述处理模块,还用于按照每个分组的预设算子,对分组内所述设定纬度的业务数据进行处理。
可选的,所述处理模块具体用于:
所述筛选规则包括以下至少一项:设定的数据源、设定类别的业务数据、设定的时间窗口。
可选的,所述处理模块具体用于:
按照所述业务数据的预设结构,将同一时间窗口内的所述业务数据构建数据矩阵;其中,每条业务数据对应所述数据矩阵中的一行,各条业务数据的同一设定纬度对应所述数据矩阵中的一列。
可选的,所述处理模块具体用于:
所述分组规则中设定有各分组的纬度主键,所述设定纬度包括所述纬度主键;
所述处理模块具体用于:
针对每个分组的纬度主键,得到所述分组的设定纬度的业务数据,其中,每个分组内的业务数据符合所述数据矩阵的方式。
可选的,所述处理模块具体用于:
所述预设算子包括纬度指标和计算所述纬度指标的算子,所述设定纬度包括所述纬度指标;
所述处理模块具体用于:
按照所述分组的纬度指标,调用所述算子对所述分组内的设定纬度的业务数据进行处理,得到所述分组在所述纬度指标的计算结果。
可选的,所述处理模块具体用于:
调用所述算子,对所述分组的数据矩阵中的列数据进行处理。
可选的,所述处理模块还用于:
在所述对分组内所述设定纬度的业务数据进行处理之后,根据预设的输出模板,将处理后的计算结果按照所述输出模板进行输出。
相应的,本发明实施例还提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述流数据处理的方法。
相应的,本发明实施例还提供了一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述流数据处理的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种流数据处理的方法的***框架;
图2为本发明实施例提供的一种流数据处理的方法的流程示意图;
图3为本发明实施例提供的一种流数据处理的方法的示意图;
图4为本发明实施例提供的一种流数据处理的装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了解决现有技术中的问题,本发明实施例提供一种流数据处理的方法,本发明实施例提供的流数据处理的方法,可以适用于如图1所示的***架构中,该***架构包括流数据采集设备100,业务处理设备200。
其中,流数据采集设备100将获取到的流数据发送至业务处理设备200,业务处理设备200对流数据进行处理。
需要说明的是,图1仅是本申请实施例***架构的一种示例,本申请对此不做具体限定。
基于图1所示意的***架构,图2为本发明实施例提供的一种流数据处理的方法所对应的流程示意图,该流程可以由智能合约调试的装置可以是上述内容的业务处理设备执行。如图2所示,该方法包括:
步骤201,从监测的流数据中获取符合筛选规则的各类业务数据;
步骤202,针对每类业务数据,按照所述业务数据的预设结构对所述业务数据进行提取,得到设定纬度的业务数据。
需要说明的是,预设结构包括至少一个设定纬度。
步骤203,按照预设的分组规则,对各类设定纬度的业务数据进行分组。
步骤204,按照每个分组的预设算子,对分组内所述设定纬度的业务数据进行处理。
在一种可能的实现方式中,以流计算框架Spark Streaming为基础,执行上述流数据处理的方法。
在具体介绍本申请方案之前,首先对Spark Streaming进行简单介绍:
Spark Streaming是将流式计算分解成一系列短小的批处理作业,也就是把SparkStreaming的输入数据按照预设的时间间隔(如1秒)分成一段一段的数据(DiscretizedStream),也就是说,SparkStreaming从实时数据流接入数据,再将其划分为一个个小批量供后续Spark engine处理。
基于此,在步骤201中,获取符合筛选规则的各类业务数据首先进行以下几个步骤。
S2011,设定时间窗口。
比如,设定的时间窗口可以为每分钟,每五分钟,每半个小时,每天,每周等,本申请对此不做具体限定。
再比如,当设定的时间窗口可以为每分钟时,每60s的数据形成一个批次。
S2012,设定数据源。
需要说明的是,本申请方案支持从多种数据源提取数据,如:Rmb、Kafka、Flume、ZeroMQ、Kinesis等。
S2013,设定类别的业务数据。
举个例子,比如微信借款、微信贷款、分期付款等。
需要说明的是,以上顺序为一般的步骤,比如S2013可以在S2012之前,本申请对此不做具体限定。
从上述内容可以看出,将流数据进行筛选,筛选规则包括:设定的数据源、设定类别的业务数据、设定的时间窗口。通过对流数据时间范围以及内容类别的筛选,使得之后能对每一个小批次的流数据进行统一且针对性处理。下面具体的介绍处理流程。
在步骤202中,按照业务数据的预设结构,将同一时间窗口内的业务数据构建数据矩阵。
需要说明的是,每条业务数据对应数据矩阵中的一行,各条业务数据的同一设定纬度对应数据矩阵中的一列。
举个例子,定义如下两个结构:
开户结构:
业务场景 客户ID 开户状态 开户时间 渠道
开户 ID_NO 成功 2020-01-01 手机
借款结构:
业务场景 客户ID 借款时间 借款金额 借款状态
借款 ID_NO 2020-01-01 100.0 成功
比如设置的时间窗口为5秒,5秒积累了所有业务数据,组成一个数据矩阵如下:
time1开户数据(开户结构)
time2借款数据(借款结构)
time3开户数据(开户结构)
time4开户数据(开户结构)
本申请实施例中,在构建数据矩阵之前,通过预设的方式对筛选后的流数据进行解析,比如采用分隔符“,”的方式将流数据解析。
在一种可能的实现方式中,在上述获取符合筛选规则的各类业务数据后,可进行初步的数据过滤。
在上述完成对业务数据的提取之后,通过搜索引擎定义输入字段范围和类型判断,比如通过SQL组件,如果流数据不满足SQL条件或者不满足预定义类型,则直接过滤。
举个例子,“BIZ_TYPE=‘LOAN’and ID_NO is not null”表示选择业务场景为LOAN且ID不为空的数据,将其余不符合条件的数据过滤。
基于此,下面具体介绍步骤203中对各类设定纬度的业务数据进行分组的详细过程。
本申请实施例中,分组规则中设定有各分组的纬度主键,设定纬度包括纬度主键;
基于此,本申请实施例中,针对每个分组的纬度主键,得到分组的设定纬度的业务数据。
需要说明的是,其中,每个分组内的业务数据符合数据矩阵的方式。
结合上述步骤的内容,在选择数据源和业务数据的类别后,创建业务分组。
进一步的,在步骤204中,预设算子包括纬度指标和计算纬度指标的算子,设定纬度包括纬度指标;
本申请实施例中,纬度指标意味着该组指标根据什么纬度计算,如客户纬度、商户纬度、手机号纬度。选择统计纬度对应的字段,组成纬度指标。
本申请实施例中,纬度指标预先定义,与指标ID一一对应。
举个例子,定义一个纬度指标:CUST_PAY_SUCCESS,对应客户下单成功笔数,纬度指标定义为“客户ID”以及“下单成功”;而计算纬度指标的算子是求和。
具体的,按照分组的纬度指标,调用算子对分组内的设定纬度的业务数据进行处理,得到分组在纬度指标的计算结果。
进一步的,调用所述算子,对分组的数据矩阵中的列数据进行处理。
上述内容介绍了具体的分组以及计算流程,下面说明具体指标计算定义方法。
本申请实施例中,指标计算定义包括指标名称和计算模型。
具体的,指标名称包括指标名称和指标描述。
本申请实施例中,计算模型选择单个指标定制时,可以选择已定义计算方式,主要包括实时框架中间算子:hbase存储,hbase查询,hbase去重,spark SQL查询,或者
通用算子:统计计算(SUM/COUNT/DIS_COUNT/DETAIL_LIST/LATEST等20种算子)、判断计算(>,=,<,=等)、逻辑计算(与,或,非等)。
为了更好的解释本发明,下面结合图3以一个具体的例子进行说明。
如图3所示:
首先,监听一个数据源为RMB,包含多个事件,如图3中的input1、input2、...、inputN,形成一个动态事件流。
本申请实施例中,缓存定时加载配置,5分钟加载配置信息,根据事件ID加载。比如事件ID为RMB_WCD_LOAN,其中RMB为设定的数据源,WCD为设定的业务数据的类别,LOAN为具体的业务场景。
具体的,A产品的所有事件上报到一个数据源,包含登录、开户、借款、放款等操作。
本申请实施例中,业务场景即上述的LOAN根据BIZ_TYPE关键字区分,定义单个业务场景的数据结构。具体为如下两个结构,对应图3中的stuct1、stuct2、...、stuctN:
开户结构:
业务场景 客户ID 开户状态 开户时间 渠道
开户 ID_NO 成功 2020-01-01 手机
借款结构:
业务场景 客户ID 借款时间 借款金额 借款状态
借款 ID_NO 2020-01-01 100.0 成功
然后,设置数据源的时间窗口为5秒,5秒积累了所有业务数据,组成一个数据矩阵。
具体如下:
开户 ID_1 成功 2020-01-01 手机
借款 ID_2 2020-01-01 100.0 成功
借款 ID_3 2020-02-01 200.0 成功
借款 ID_2 2020-01-01 200.0 成功
开户 ID_2 成功 2020-02-01 手机
进一步的,一个时间窗口累积一个批次数据,进行以下流程处理。
S301,根据纬度主键(BIZ_TYPE)加载对应的配置,并且对批次数据(5s)进行分组,根据纬度主键获取不同的分组,如图3所示的数据分组,具体如下:
分组一:纬度主键为借款事件,客户ID为ID_2;
纬度指标为客户最近借款时间,客户借款金额,客户借款笔数。
分组二:纬度主键为借款事件,客户ID为ID_3;
纬度指标为客户最近借款时间,客户借款金额,客户借款笔数。
从上述内容可以看出,分组条件为事件=借款,借款状态=成功,根据客户ID统计借款成功指标。
S302,根据配置和数据流,实时获取业务分组信息,包含业务日期、纬度主键、纬度指标等信息。
基于上述内容,获取的业务分组信息如下:
Figure BDA0002395966510000111
分组完成后形成图3中的Group1、Group1、...、GroupN,得到分组一如下:
借款 ID_2 2020-01-01 100.0 成功
借款 ID_2 2020-01-01 200.0 成功
与此同时,分组二如下:
借款 ID_3 2020-02-01 200.0 成功
需要说明的是,本申请实施例中,分组数据并行计算,同组指标串行计算,一个纬度指标对应一个或多个算子,如图3中的算子1、算子2、...、算子N。
上述内容中,纬度指标包含多个单个指标计算,下面简要介绍单个指标计算的配置,如下表所示:
Figure BDA0002395966510000112
需要说明的是,计算范围也就是周期范围,支持分钟/小时/天/周/月/年,周期范围为数值范围,以便进行范围检查。
计算模型中的算子可以为实时框架中间算子:hbase存储,hbase查询,hbase去重,spark SQL查询,或者
通用算子:统计计算(SUM/COUNT/DIS_COUNT/DETAIL_LIST/LATEST等20种算子)、判断计算(>,=,<,=等)、逻辑计算(与,或,非等)。
本申请实施例中,对分组内设定纬度的业务数据进行处理之后,根据预设的输出模板,将处理后的计算结果按照输出模板进行输出。
需要说明的是,本方案可以关联多个静态数据源和表,输出方式可以为以下两种:
定时输出:定时器输出,更新到指标表即可,如每五分钟查询输出指标。
即时输出:事件驱动,指标更新后,立即同步,单个分组算完后,直接更新到指标库。
基于同一发明构思,图4示例性的示出了本发明实施例提供的一种流数据处理的装置,该装置可以为流数据处理的方法的流程。
所述流数据处理的装置,包括:
获取模块401,用于从监测的流数据中获取符合筛选规则的各类业务数据;
处理模块402,用于针对每类业务数据,按照所述业务数据的预设结构对所述业务数据进行提取,得到设定纬度的业务数据;所述预设结构包括至少一个设定纬度;
按照预设的分组规则,对各类设定纬度的业务数据进行分组;
按照每个分组的预设算子,对分组内所述设定纬度的业务数据进行处理。
可选的,所述处理模块402具体用于:
所述筛选规则包括以下至少一项:设定的数据源、设定类别的业务数据、设定的时间窗口。
可选的,所述处理模块402具体用于:
按照所述业务数据的预设结构,将同一时间窗口内的所述业务数据构建数据矩阵;其中,每条业务数据对应所述数据矩阵中的一行,各条业务数据的同一设定纬度对应所述数据矩阵中的一列。
可选的,所述处理模块402具体用于:
所述分组规则中设定有各分组的纬度主键,所述设定纬度包括所述纬度主键;
所述处理模块402具体用于:
针对每个分组的纬度主键,得到所述分组的设定纬度的业务数据,其中,每个分组内的业务数据符合所述数据矩阵的方式。
可选的,所述处理模块402具体用于:
所述预设算子包括纬度指标和计算所述纬度指标的算子,所述设定纬度包括所述纬度指标;
所述处理模块402具体用于:
按照所述分组的纬度指标,调用所述算子对所述分组内的设定纬度的业务数据进行处理,得到所述分组在所述纬度指标的计算结果。
可选的,所述处理模块402具体用于:
调用所述算子,对所述分组的数据矩阵中的列数据进行处理。
可选的,所述处理模块402还用于:
在所述对分组内所述设定纬度的业务数据进行处理之后,根据预设的输出模板,将处理后的计算结果按照所述输出模板进行输出。
基于同一发明构思,本发明实施例还提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述流数据处理的方法。
基于同一发明构思,本发明实施例还提供了一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述流数据处理的方法。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种流数据处理的方法,其特征在于,包括:
从监测的流数据中获取符合筛选规则的各类业务数据;
针对每类业务数据,按照所述业务数据的预设结构对所述业务数据进行提取,得到设定纬度的业务数据;所述预设结构包括至少一个设定纬度;
按照预设的分组规则,对各类设定纬度的业务数据进行分组;
按照每个分组的预设算子,对分组内所述设定纬度的业务数据进行处理。
2.如权利要求1所述的方法,其特征在于,所述筛选规则包括以下至少一项:设定的数据源、设定类别的业务数据、设定的时间窗口。
3.如权利要求1所述的方法,其特征在于,所述按照所述业务数据的预设结构对所述业务数据进行提取,得到设定纬度的业务数据,包括:
按照所述业务数据的预设结构,将同一时间窗口内的所述业务数据构建数据矩阵;其中,每条业务数据对应所述数据矩阵中的一行,各条业务数据的同一设定纬度对应所述数据矩阵中的一列。
4.如权利要求1所述的方法,其特征在于,所述分组规则中设定有各分组的纬度主键,所述设定纬度包括所述纬度主键;
按照预设的分组规则,对各类设定纬度的业务数据进行分组,包括:
针对每个分组的纬度主键,得到所述分组的设定纬度的业务数据,其中,每个分组内的业务数据符合所述数据矩阵的方式。
5.如权利要求1至4任一项所述的方法,其特征在于,所述预设算子包括纬度指标和计算所述纬度指标的算子,所述设定纬度包括所述纬度指标;
按照每个分组的预设算子,对分组内所述设定纬度的业务数据进行处理,包括:
按照所述分组的纬度指标,调用所述算子对所述分组内的设定纬度的业务数据进行处理,得到所述分组在所述纬度指标的计算结果。
6.如权利要求5所述的方法,其特征在于,所述调用所述算子对所述分组内的设定纬度的业务数据进行处理,包括:
调用所述算子,对所述分组的数据矩阵中的列数据进行处理。
7.如权利要求5所述的方法,其特征在于,在所述对分组内所述设定纬度的业务数据进行处理之后,还包括:
根据预设的输出模板,将处理后的计算结果按照所述输出模板进行输出。
8.一种流数据处理的装置,其特征在于,包括:
获取模块,用于从监测的流数据中获取符合筛选规则的各类业务数据;
处理模块,用于针对每类业务数据,按照所述业务数据的预设结构对所述业务数据进行提取,得到设定纬度的业务数据;所述预设结构包括至少一个设定纬度;
所述处理模块,还用于按照预设的分组规则,对各类设定纬度的业务数据进行分组;
所述处理模块,还用于按照每个分组的预设算子,对分组内所述设定纬度的业务数据进行处理。
9.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1至7任一项所述的方法。
10.一种计算机可读非易失性存储介质,其特征在于,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行如权利要求1至7任一项所述的方法。
CN202010131762.0A 2020-02-29 2020-02-29 一种流数据处理的方法及装置 Pending CN111367951A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010131762.0A CN111367951A (zh) 2020-02-29 2020-02-29 一种流数据处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010131762.0A CN111367951A (zh) 2020-02-29 2020-02-29 一种流数据处理的方法及装置

Publications (1)

Publication Number Publication Date
CN111367951A true CN111367951A (zh) 2020-07-03

Family

ID=71208447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010131762.0A Pending CN111367951A (zh) 2020-02-29 2020-02-29 一种流数据处理的方法及装置

Country Status (1)

Country Link
CN (1) CN111367951A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111935226A (zh) * 2020-07-08 2020-11-13 上海微亿智造科技有限公司 支持工业数据实现流式计算方法及***
CN112150273A (zh) * 2020-09-24 2020-12-29 中国农业银行股份有限公司 线上信贷业务的处理***、方法、设备和存储介质
CN112328597A (zh) * 2020-11-06 2021-02-05 北京航云物联信息技术有限公司 一种基于表的流计算方法和装置
CN113360564A (zh) * 2021-07-12 2021-09-07 杭州安恒信息技术股份有限公司 基于etl的数据流处理方法、***、装置及可读存储介质
CN115080156A (zh) * 2022-08-23 2022-09-20 卓望数码技术(深圳)有限公司 基于流批一体的大数据批量计算的优化计算方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111935226A (zh) * 2020-07-08 2020-11-13 上海微亿智造科技有限公司 支持工业数据实现流式计算方法及***
CN111935226B (zh) * 2020-07-08 2021-06-08 上海微亿智造科技有限公司 支持工业数据实现流式计算方法及***
CN112150273A (zh) * 2020-09-24 2020-12-29 中国农业银行股份有限公司 线上信贷业务的处理***、方法、设备和存储介质
CN112150273B (zh) * 2020-09-24 2024-06-07 中国农业银行股份有限公司 线上信贷业务的处理***、方法、设备和存储介质
CN112328597A (zh) * 2020-11-06 2021-02-05 北京航云物联信息技术有限公司 一种基于表的流计算方法和装置
CN113360564A (zh) * 2021-07-12 2021-09-07 杭州安恒信息技术股份有限公司 基于etl的数据流处理方法、***、装置及可读存储介质
CN115080156A (zh) * 2022-08-23 2022-09-20 卓望数码技术(深圳)有限公司 基于流批一体的大数据批量计算的优化计算方法及装置
CN115080156B (zh) * 2022-08-23 2022-11-11 卓望数码技术(深圳)有限公司 基于流批一体的大数据批量计算的优化计算方法及装置

Similar Documents

Publication Publication Date Title
CN111367951A (zh) 一种流数据处理的方法及装置
CN110750650A (zh) 企业知识图谱的构建方法及装置
CN107247811B (zh) 基于Oracle数据库的SQL语句性能优化方法及装置
CN113360554B (zh) 一种数据抽取、转换和加载etl的方法和设备
CN104462222A (zh) 一种卡口车辆通行数据的分布式存储方法及***
CN106055630A (zh) 日志存储的方法及装置
CN113448812A (zh) 微服务场景下的监控告警方法及装置
CN104424018A (zh) 分布式计算事务处理方法及装置
CN108389394B (zh) 车辆初次入城分析的方法及***
CN103246745A (zh) 一种基于数据仓库的数据处理装置及方法
CN106844320B (zh) 一种财务报表整合方法和设备
CN111324781A (zh) 一种数据分析方法、装置及设备
CN113242159A (zh) 应用访问关系确定方法及装置
CN110737727B (zh) 一种数据处理的方法及***
CN106919566A (zh) 一种基于海量数据的查询统计方法及***
CN112182031B (zh) 数据查询方法及装置、存储介质、电子装置
WO2020259155A1 (zh) 一种生成告警数据报表的方法及装置
CN113256355A (zh) 一种积分权益实时确定方法、装置、介质、设备和***
CN116932321A (zh) 日志数据监控方法、装置、电子设备及存储介质
CN116644136A (zh) 一种增量和全量数据的数据采集方法、装置、设备及介质
CN116029731A (zh) 一种处理行情数据的方法、装置及电子设备
CN114722045A (zh) 时间序列数据的存储方法及装置
CN115664992A (zh) 网络运行数据的处理方法、装置、电子设备及介质
CN111198884B (zh) 一种车辆初次入城信息处理方法及信息处理***
CN114385188A (zh) 一种代码工作量统计方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination