CN110727700A - 多源流式数据整合成事务型流数据的方法及*** - Google Patents
多源流式数据整合成事务型流数据的方法及*** Download PDFInfo
- Publication number
- CN110727700A CN110727700A CN201911006491.XA CN201911006491A CN110727700A CN 110727700 A CN110727700 A CN 110727700A CN 201911006491 A CN201911006491 A CN 201911006491A CN 110727700 A CN110727700 A CN 110727700A
- Authority
- CN
- China
- Prior art keywords
- data
- streaming data
- consumption
- theme
- streaming
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000032297 kinesis Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24552—Database cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种多源流式数据整合成事务型流数据的方法及***,目的是为了解决将离散的事件流数据做整合,以得到完整业务含义的事件流,减轻流数据处理时的压力的问题。本发明提供一种多源流式数据整合成事务型流数据的方法,包括:步骤1,实时订阅第一主题数据;步骤2,实时订阅第二主题数据;步骤3,根据所述第一主题数据或所述第二主题数据的消费先后关系,将先消费得到的数据先写入缓存,等待后一主题数据消费得到之后,读取之前缓存的数据,将先后消费得到的数据拼接为一个整体;以及步骤4,将所述步骤3中拼接后的数据作为第三主题数据储存。
Description
技术领域
本发明涉及金融行业实时营销领域,涉及离散流数据整合技术,尤其涉及一种多源流式数据整合成事务型流数据的计算***。
背景技术
当前金融大数据的实时计算***,主要解决行业内的将离散的事件流数据进行整合的问题,从而得到完整业务事件流,减轻数据处理压力。在技术层面涉及流数据平台,缓存单元以及逻辑处理单元。流数据存储组件如kafka、activeMQ、rabbitMQ等;数据处理单元包括spark、storm或者flink等;在缓存数据库方面有redis、memcache。
Kafka:是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息***,它可以处理消费者规模的网站中的所有动作流数据。
Spark Streaming:是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。
Redis:是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。kafka中一般每个主题中的数据是一个个的事件行为数据,多个主题之间的数据在技术上是独立的。目前金融大数据的实时计算***,能实时订阅单个kafka的主题数据,基于这些事件数据做复杂的规则运算。
但是如果要实现多个主题数据的组合式运算,目前的***一般都很难友好地支持。基于此种情况,本专利设计并搭建了能实现多主题数据整合、组成事务型流数据的***。
但是,如果要实现多个主题数据的组合式运算,目前的***一般都很难友好地支持。基于此种情况,本专利设计并搭建了能实现多主题数据整合、组成事务型流数据的***。
发明内容
本发明的目的就是为了解决将离散的事件流数据做整合,以得到完整业务含义的事件流,减轻流数据处理时的压力的问题。能实现秒级的多主题事件关联,实现事务型事件流的整合。
为了解决上述技术问题,本发明提供一种多源流式数据整合成事务型流数据的方法,包括:步骤1,实时订阅第一主题数据;步骤2,实时订阅第二主题数据;步骤3,根据所述第一主题数据或所述第二主题数据的消费先后关系,将先消费得到的数据先写入缓存,等待后一主题数据消费得到之后,读取之前缓存的数据,将先后消费得到的数据根据具体业务场景加工处理,所述加工处理包括清洗、计算、衍生,从而将数据拼接为一个整体;以及步骤4,将所述步骤3中拼接后的数据作为第三主题数据储存。
优选地,所述第一主题数据或者所述第二主题数据通过业务场景实时采集得到,具有数据特项不全面、数据值不完全准确、数据值格式不完全合法、多主题数据间有业务联系但数据顺序不确定等特点。
优选地,给先写入缓存的数据设定失效期。
本发明还提供一种多源流式数据整合成事务型流数据的***,包括:流数据组件,其用来储存第一主题数据和第二主题数据;缓存组件,所述缓存组件将所述第一主题数据或所述第二主题数据中先消费得到的数据写入缓存;以及逻辑处理单元,等待后一主题数据消费得到之后,所述逻辑处理单元用来读取所述缓存组件缓存的数据并将先后消费得到的数据拼接为一个整体作为第三主题数据储存。
优选地,所述第三主题数据储存在所述流数据组件中。
优选地,所述流数据组件为Kafka流数据处理平台。
优选地,所述缓存组件为Redis存储***。
优选地,逻辑处理单元采用Spark、Flink、Storm流计算引擎。
本发明相对于现有技术的有益效果:使用本技术可以将分散在多个topic的事务性流数据整合到一个,减少了业务***的复杂性;数据间相互等待的逻辑从业务***剥离出来,降低了业务***对上游的耦合度;业务***在获取事务型流数据时,处理时间更短,增加了***性能和效率。
附图说明
图1为本多源流式数据整合成事务型流数据的方法的示意图。
图2为本多源流式数据整合成事务型流数据的***的逻辑图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本发明实施例提供一种多源流式数据整合成事务型流数据的方法,包括如下步骤:
步骤S1,实时订阅第一主题数据;
步骤S2,实时订阅第二主题数据;
步骤S3,根据所述第一主题数据或所述第二主题数据的消费先后关系,将先消费得到的数据先写入缓存;
等待后一主题数据消费得到之后,读取之前缓存的数据,将先后消费得到的数据加工处理为一个整体。加工处理包括:数据项的清洗、一个或多个数据项的混合运算、数据项衍生、多条数据的拼接等。
步骤S4,将所述拼接后的数据作为第三主题数据储存。
上述方案中,参见图1,步骤1S和步骤2S是分别实时订阅两个topic数据,需要说明的是,本实施例的***和方法,可以对多个主题的数据进行整合,多个主题的整合方法以此类推。步骤3S是将先消费到的数据先写入缓存,待后一个topic数据也消费到之后,读取之前缓存的数据,做加工处理。步骤4S是将做好整合拼接的数据,重新发布回kafka形成另一个topic数据。如此即实现了由topicA +topicB得到topicC的过程。同理,多个topic的拼接和两个topic的拼接原理一样。
作为一种具体的实施方式,所述第一主题数据或者所述第二主题数据通过采集业务场景得到。进一步地,给先写入缓存的数据设定失效期。
实施例2
如图2所示,本发明还提供一种多源流式数据整合成事务型流数据的***,包括流数据组件、缓存组件以及逻辑处理单元,其中,流数据组件用来储存第一主题数据和第二主题数据,需要说明的是,本实施例的***和方法,可以对多个主题的数据进行整合,多个主题的整合方法以此类推。缓存组件根据所述第一主题数据或所述第二主题数据的消费先后关系用来将先消费得到的数据先写入缓存,等待后一主题数据消费得到之后,所述逻辑处理单元用来读取所述缓存组件缓存的数据并将先后消费得到的数据拼接为一个整体作为第三主题数据储存。
优选地,所述第三主题数据储存在所述流数据组件中。
优选地,所述流数据组件为Kafka流数据处理平台。流数据组件可选择Kafka流数据处理平台,kafka平台中数据是分主题分区存储的,每个主题存储业务含义相关或数据结构相近的数据。
优选地,所述缓存组件为Redis存储***。
优选地,所述逻辑处理单元采用Spark计算引擎。
上述方案中,kafka可使用activeMQ、rabbitMQ等消息队列替代;对于计算框架,spark可使用storm或者flink等流数据处理技术替代;作为缓存组件的缓存数据库,redis可由memcache数据库替代。本发明可应用于金融行业的实时营销。在实时营销场景下,有时需要事件组合营销。比如,用户点击注册、登录、签到之后,由礼券平台送给用户一个礼品。但是各个事件是分散在不同的***中,事件数据也是放在不同的topic。此时使用本技术后,礼券平台只需要消费衍生后的新topic,而不用关心各个子事件,即可实现业务场景。这样降低了礼券平台的复杂度,更容易的实现了业务需求。
本发明的目的就是为了解决将离散的事件流数据做整合,以得到完整业务含义的事件流,减轻流数据处理时的压力的问题,能实现秒级的topic事件关联,实现事务型事件流的整合。数据间相互等待的逻辑从业务***剥离出来,降低了业务***对上游的耦合度;业务***在获取事务型流数据时,处理时间更短,增加了***性能和效率。
综上,本实施例的多源流式数据整合成事务型流数据的***和方法,由kafka消费得到的多个topic数据,但各个事件分散于不同的***当中,事件数据也存放在不同的topic,而通过运用本技术,由其先后连续性构成一个完整的事务,形成新的topic,不必再关注各个子事件,从而将分散在多个topic的事务性流数据整合到一个,减少了业务***的复杂性。
Claims (8)
1.一种多源流式数据整合成事务型流数据的方法,其特征在于,包括:
步骤1,实时订阅第一主题数据;
步骤2,实时订阅第二主题数据;
步骤3,根据所述第一主题数据或所述第二主题数据的消费先后关系,将先消费得到的数据先写入缓存,等待后一主题数据消费得到之后,读取之前缓存的数据,将先后消费得到的数据根据具体业务场景加工处理,所述加工处理包括清洗、计算、衍生,从而将数据拼接为一个整体;以及
步骤4,将所述步骤3中拼接后的数据作为第三主题数据储存。
2.如权利要求1所述的多源流式数据整合成事务型流数据的方法,其特征在于,所述第一主题数据或者所述第二主题数据通过业务场景的采集得到。
3.如权利要求1所述的多源流式数据整合成事务型流数据的方法,其特征在于,给先写入缓存的数据设定失效期。
4.一种多源流式数据整合成事务型流数据的***,其特征在于,包括:
流数据组件,其用来储存第一主题数据和第二主题数据;
缓存组件,所述缓存组件将所述第一主题数据或所述第二主题数据中先消费得到的数据写入缓存;
以及逻辑处理单元,等待后一主题数据消费得到之后,所述逻辑处理单元用来读取所述缓存组件缓存的数据并将先后消费得到的数据拼接为一个整体作为第三主题数据储存。
5.如权利要求4所述的多源流式数据整合成事务型流数据的***,其特征在于,所述第三主题数据储存在所述流数据组件中。
6.如权利要求4所述的多源流式数据整合成事务型流数据的***,其特征在于,所述流数据组件为Kafka流数据处理平台。
7.如权利要求4所述的多源流式数据整合成事务型流数据的***,其特征在于,所述缓存组件为Redis存储***。
8.如权利要求4所述的多源流式数据整合成事务型流数据的***,其特征在于,所述逻辑处理单元采用Spark、Flink、Storm流计算引擎。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911006491.XA CN110727700A (zh) | 2019-10-22 | 2019-10-22 | 多源流式数据整合成事务型流数据的方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911006491.XA CN110727700A (zh) | 2019-10-22 | 2019-10-22 | 多源流式数据整合成事务型流数据的方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110727700A true CN110727700A (zh) | 2020-01-24 |
Family
ID=69222715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911006491.XA Pending CN110727700A (zh) | 2019-10-22 | 2019-10-22 | 多源流式数据整合成事务型流数据的方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110727700A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696044A (zh) * | 2020-06-16 | 2020-09-22 | 清华大学 | 一种大场景动态视觉观测方法及装置 |
CN112667686A (zh) * | 2020-12-30 | 2021-04-16 | 中国农业银行股份有限公司 | 一种实时流数据拼接方法及装置 |
WO2024030734A1 (en) * | 2022-08-04 | 2024-02-08 | Swaq, Inc. | Gift messaging applications |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968386A (zh) * | 2011-05-18 | 2013-03-13 | 佳能株式会社 | 数据供给设备、缓存设备及数据供给方法 |
US20170264619A1 (en) * | 2016-03-11 | 2017-09-14 | Netskope, Inc. | Middle ware security layer for cloud computing services |
CN109684352A (zh) * | 2018-12-29 | 2019-04-26 | 江苏满运软件科技有限公司 | 数据分析***、方法、存储介质及电子设备 |
US20190258733A1 (en) * | 2018-02-19 | 2019-08-22 | Red Hat, Inc. | Methods and devices for joining multiple events in data streaming analytics systems |
CN110245158A (zh) * | 2019-06-10 | 2019-09-17 | 上海理想信息产业(集团)有限公司 | 一种基于Flink流计算技术的多源异构数据实时处理***及方法 |
-
2019
- 2019-10-22 CN CN201911006491.XA patent/CN110727700A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968386A (zh) * | 2011-05-18 | 2013-03-13 | 佳能株式会社 | 数据供给设备、缓存设备及数据供给方法 |
US20170264619A1 (en) * | 2016-03-11 | 2017-09-14 | Netskope, Inc. | Middle ware security layer for cloud computing services |
US20190258733A1 (en) * | 2018-02-19 | 2019-08-22 | Red Hat, Inc. | Methods and devices for joining multiple events in data streaming analytics systems |
CN109684352A (zh) * | 2018-12-29 | 2019-04-26 | 江苏满运软件科技有限公司 | 数据分析***、方法、存储介质及电子设备 |
CN110245158A (zh) * | 2019-06-10 | 2019-09-17 | 上海理想信息产业(集团)有限公司 | 一种基于Flink流计算技术的多源异构数据实时处理***及方法 |
Non-Patent Citations (1)
Title |
---|
欧建林: "基于hadoop的商业银行大数据平台研究与实现", 《中国金融电脑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696044A (zh) * | 2020-06-16 | 2020-09-22 | 清华大学 | 一种大场景动态视觉观测方法及装置 |
CN111696044B (zh) * | 2020-06-16 | 2022-06-10 | 清华大学 | 一种大场景动态视觉观测方法及装置 |
CN112667686A (zh) * | 2020-12-30 | 2021-04-16 | 中国农业银行股份有限公司 | 一种实时流数据拼接方法及装置 |
CN112667686B (zh) * | 2020-12-30 | 2024-07-05 | 中国农业银行股份有限公司 | 一种实时流数据拼接方法及装置 |
WO2024030734A1 (en) * | 2022-08-04 | 2024-02-08 | Swaq, Inc. | Gift messaging applications |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2016206600A1 (zh) | 一种信息流数据的处理方法和装置 | |
US10606954B2 (en) | Topic kernelization for real-time conversation data | |
CN109034993A (zh) | 对账方法、设备、***及计算机可读存储介质 | |
CN110727700A (zh) | 多源流式数据整合成事务型流数据的方法及*** | |
US10204385B2 (en) | Distance-based social message pruning | |
CN109308170B (zh) | 一种数据处理方法及装置 | |
US9418241B2 (en) | Unified platform for big data processing | |
US9396448B2 (en) | Distributed and open schema interactions management system and method | |
CN113094434A (zh) | 数据库同步方法、***、装置、电子设备及介质 | |
CN110502583A (zh) | 分布式数据同步方法、装置、设备及可读存储介质 | |
CN110389989B (zh) | 一种数据处理方法、装置及设备 | |
US20170286377A1 (en) | Narrative generation using pattern recognition | |
CN110955640A (zh) | 跨***数据文件的处理方法、装置、服务器和存储介质 | |
CN112613964A (zh) | 一种对账方法、装置、设备及存储介质 | |
CN111163149B (zh) | 一种基于区块链的智能合约平台方法 | |
US11256713B2 (en) | Virtual transaction queues for database replication | |
CN113326150A (zh) | 一种联机小批量消息处理方法和装置 | |
US9910737B2 (en) | Implementing change data capture by interpreting published events as a database recovery log | |
CN106599222A (zh) | 一种流式并行处理日志的方法和设备 | |
CN110688383A (zh) | 数据采集方法及*** | |
CN113256355B (zh) | 一种积分权益实时确定方法、装置、介质、设备和*** | |
CN111967767A (zh) | 一种业务风险识别方法、装置、设备及介质 | |
CN117435367B (zh) | 用户行为处理方法、装置、设备、存储介质和程序产品 | |
CN115455088B (zh) | 数据统计方法、装置、设备及存储介质 | |
US11909703B2 (en) | Live chat stream comment management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200124 |
|
RJ01 | Rejection of invention patent application after publication |