CN112948492A - 一种数据处理***、方法、装置、电子设备及存储介质 - Google Patents

一种数据处理***、方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112948492A
CN112948492A CN202110220549.1A CN202110220549A CN112948492A CN 112948492 A CN112948492 A CN 112948492A CN 202110220549 A CN202110220549 A CN 202110220549A CN 112948492 A CN112948492 A CN 112948492A
Authority
CN
China
Prior art keywords
data
database
kafka
component
calculation result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110220549.1A
Other languages
English (en)
Inventor
刘强
张东凯
曾垂鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202110220549.1A priority Critical patent/CN112948492A/zh
Publication of CN112948492A publication Critical patent/CN112948492A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据处理***、方法、装置、电子设备及存储介质,该***包括:第一数据采集组件OGG、数据总线组件Kafka、流式计算引擎Apache Flink、第一数据库和数据报送端;通过OGG或者CDC技术将交易数据实时采集进Kafka,通过日终跑批方式采集维度信息进Hbase,通过FLink作业的方式进行数据整合,通过MQ报文方式完成最后的数据报文报送。本发明实施例的技术方案,实现了在数据产生后的几秒间,完成数据采集、加工和报送的目的,且不会对实时交易产生影响。

Description

一种数据处理***、方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种数据处理***、方法、装置、电子设备及存储介质。
背景技术
由于监管机构的监管频度在原来常见的日报、月报、季报、年报的基础上,增加了实时报送的方式。因此,各金融机构为满足报送时效性,必须采用新的数据采集和加工方法。
传统的数据采集和加工方式,是通过类似Control-M这类的批量作业调度平台来实现批量数据文件的加载和加工,具体的是从数据库复制数据、然后加载数据并触发下游数据加工脚本作业,最后再触发卸数到数据传输,详细的步骤如下:
步骤1:在数据加工之前,首先准备各层级数据的加工脚本,例如将sql语句嵌入Perl脚本实现各层级数据之间的数据加工逻辑;其次,需要准备各层级加工作业的依赖关系,编辑好作业触发的前置依赖条件。
步骤2:将加工脚本放置调度服务器能访问的文件路径下。
步骤3:将作业依赖关系导入到作业调度平台。
步骤4:当各个前置依赖的源层数据加载进数据库后,通过配置的作业依赖关系掉起下游的数据加工作业,完成数据加工和入库的工作。
步骤5、通过工具直接从数据库中卸数,获取加工后的数据文件,完成监管端的报送任务。
上述现有的数据采集和加工方式,需要从交易线的生产数据库中卸载数据,对交易线的当前交易会产生影响,因此一般选择日终(每天的24点)进行卸数操作,因此,采集频度较低,获取数据的时效性低。在监管机构日益要求报送时效性的当下,批处理的数据加工和报送方式已经难以满足监管要求。因此必须探索新的实时数据采集方式。
发明内容
本发明实施例提供一种数据处理***、方法、装置、电子设备及存储介质,实现了在数据产生后的几秒间,完成数据采集、加工和报送的目的,且不会对实时交易产生影响。
第一方面,本发明实施例提供了一种数据处理***,该***包括:
第一数据采集组件OGG、数据总线组件Kafka、流式计算引擎Apache Flink、第一数据库和数据报送端;
其中,第一数据采集组件OGG与所述数据总线组件Kafka通信连接,用于对第一数据进行实时采集,并将采集到的第一数据发送至所述数据总线组件Kafka;
所述流式计算引擎Apache Flink与所述数据总线组件Kafka通信连接,用于对所述数据总线组件Kafka中的数据进行实时计算,并将计算结果返回所述数据总线组件Kafka;
所述数据总线组件Kafka还与所述第一数据库通信连接,用于将接收到的所述计算结果同步至所述第一数据库;
所述数据报送端与所述第一数据库通信连接,用于从所述第一数据库获取所述计算结果,并将所述计算结果发送至目标端。
第二方面,本发明实施例还提供了一种数据处理方法,该方法包括:
通过第一数据采集组件OGG对第一数据进行实时采集,并将采集到的第一数据发送至数据总线组件Kafka;
通过流式计算引擎Apache Flink对所述数据总线组件Kafka中的数据进行实时计算,并将计算结果返回所述数据总线组件Kafka;
通过数据总线组件Kafka将接收到的所述计算结果同步至第一数据库,以使数据报送端从所述第一数据库获取所述计算结果,并将所述计算结果发送至目标端。
本发明实施例提供的数据处理***,包括:第一数据采集组件OGG、数据总线组件Kafka、流式计算引擎Apache Flink、第一数据库和数据报送端;其中,第一数据采集组件OGG与所述数据总线组件Kafka通信连接,用于对第一数据进行实时采集,并将采集到的第一数据发送至所述数据总线组件Kafka;所述流式计算引擎Apache Flink与所述数据总线组件Kafka通信连接,用于对所述数据总线组件Kafka中的数据进行实时计算,并将计算结果返回所述数据总线组件Kafka;所述数据总线组件Kafka还与所述第一数据库通信连接,用于将接收到的所述计算结果同步至所述第一数据库;所述数据报送端与所述第一数据库通信连接,用于从所述第一数据库获取所述计算结果,并将所述计算结果发送至目标端,实现了在数据产生后的几秒间,完成数据采集、加工和报送的目的,且不会对实时交易产生影响。
附图说明
结合附图并参考以下具体实施方式,本发明各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本发明实施例一所提供的一种数据处理***的结构示意图;
图2为本发明实施例二所提供的一种数据处理***的结构示意图;
图3为本发明实施例三所提供的一种数据处理***的结构示意图;
图4为本发明实施例四所提供的一种数据处理方法流程示意图;
图5为本发明实施例五所提供的一种数据处理方法流程示意图;
图6为本发明实施例六所提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例,然而应当理解的是,本发明可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。
应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
实施例一
图1为本发明实施例一所提供的一种数据处理***的结构示意图,该***具备较高的时效性,可适用于对实时产生的数据进行实时采集、实时加工处理以及实时报送的应用场景,例如银行的实时交易数据,需要在交易数据产生之后几秒的时间上报给银行监管端进行监管。
如图1所示,本实施例提供的数据处理***包括:第一数据采集组件OGG 110、数据总线组件Kafka 120、流式计算引擎Apache Flink 130、第一数据库140和数据报送端150。
其中,第一数据采集组件OGG 110与数据总线组件Kafka 120通信连接,用于对第一数据进行实时采集,并将采集到的第一数据发送至所述数据总线组件Kafka 120。
所述流式计算引擎Apache Flink 130与所述数据总线组件Kafka 120通信连接,用于对所述数据总线组件Kafka 120中的数据进行实时计算,并将计算结果返回所述数据总线组件Kafka 120。
所述数据总线组件Kafka 120还与所述第一数据库140通信连接,用于将接收到的所述计算结果同步至所述第一数据库140。
所述数据报送端150与所述第一数据库140通信连接,用于从所述第一数据库140获取所述计算结果,并将所述计算结果发送至目标端。
具体的,第一数据采集组件OGG 110可以为Oracle Golden Gate软件,是一种基于日志的结构化数据复制软件,能够实现大量交易数据的实时捕捉、变换和投递,实现源数据库与目标数据库的数据同步,保持亚秒级的数据延迟。它通过解析源数据库在线日志或归档日志获得数据的增量变化,再将这些变化应用到目标数据库,从而实现源数据库与目标数据库同步。Oracle Golden Gate可以在异构的IT基础结构(包括几乎所有常用操作***平台和数据库平台)之间实现大量数据亚秒级的实时复制,从而可以在应急***、在线报表、实时数据仓库供应、交易跟踪、数据同步、集中/分发、容灾、数据库升级和移植、双业务中心等多个场景下应用。同时,Oracle Golden Gate可以实现一对一、广播(一对多)、聚合(多对一)、双向、点对点、级联等多种灵活的拓扑结构。
Oracle Golden Gate软件复制数据的过程如下:
利用抽取进程(Extract Process)在源端数据库中读取日志Online Redo Log或者Archive Log,然后进行解析,只提取其中数据的变化信息,比如DML操作——增、删、改操作,将抽取的信息转换为Golden Gate自定义的中间格式存放在队列文件(trail file)中。再利用传输进程将队列文件(trail file)通过TCP/IP传送到目标***(例如本申请的数据总线组件Kafka 120)。
目标端有一个进程Server Collector,这个进程接收了从源端传输过来的数据变化信息,把该数据变化信息缓存到Golden Gate队列文件(trail file)当中,等待目标端的复制进程读取数据。Golden Gate复制进程(replicat process)从队列文件(trail file)中读取数据变化信息,并创建对应的SQL语句,通过数据库的本地接口执行,提交到目标端数据库,提交成功后更新自己的检查点,记录已经完成复制的位置,数据的复制过程最终完成。
因此,通过第一数据采集组件OGG 110对实时产生的数据进行采集,由于其采集方式是基于日志采集数据的,而不是从数据库直接获取数据,因此不会增加数据库的处理压力,进而也不会对***中实时发生的各种操作(例如实时交易操作)产生影响。
所述数据总线组件Kafka 120是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息***,它可以处理消费者在网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析***,但又要求实时处理的限制,使用Kafka是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。
所述流式计算引擎Apache Flink 130是近年来越来越流行的一款开源大数据计算引擎,它同时支持批处理和流处理,也能用来做一些基于事件的应用。首先Flink是一个纯流式的计算引擎,它的基本数据模型是数据流。流可以是无边界的无限流,即一般意义上的流处理。也可以是有边界的有限流,这样就是批处理。因此Flink用一套架构同时支持了流处理和批处理。其次,Flink的一个优势是支持有状态的计算。如果处理一个事件(或一条数据)的结果只跟事件本身的内容有关,称为无状态处理;反之,结果还和之前处理过的事件有关,称为有状态处理。稍微复杂一点的数据处理,比如说基本的聚合,数据流之间的关联都是有状态处理。在监管报送领域,无界数据可以理解成是没有终止的交易流水数据,这类数据无时无刻的产生,且数据量巨大,需要及时有效的处理,并且由于监管的要求对于流水数据要及时的报送。因此,本申请实施例充分考虑应用场景的特性,采用流式计算引擎Apache Flink 130对所述数据总线组件Kafka120中的数据进行实时计算,达到实时处理的目的。
示例性的,所述第一数据库包括Oracle。Oracle是一款关系数据库管理***。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库***是目前世界上流行的关系数据库管理***,***可移植性好、使用方便、功能强,适用于各类大、中、小微机环境,是一种高效率的、可靠性好的、适应高吞吐量的数据库方案。
示例性的,所述第一数据包括实时交易的对公存款数据,即银行存储数据的一种,存款账户是公户。
对应的,所述数据报送端包括银行应用端。
具体的,所述数据报送端通过轮训方式,从所述第一数据库抽取计算结果,并判断所述计算结果是否为未报送的交易数据,如果是,则按照监管要求对所述计算结果进行处理,以生成报文,通过消息队列MQ接口将所述报文传输至监管端。通过MQ直连的方式将所述报文发送至监管端,进一步提高了实时性。
本实施例提供的数据处理***,包括:第一数据采集组件OGG、数据总线组件Kafka、流式计算引擎Apache Flink、第一数据库和数据报送端;其中,第一数据采集组件OGG与所述数据总线组件Kafka通信连接,用于对第一数据进行实时采集,并将采集到的第一数据发送至所述数据总线组件Kafka;所述流式计算引擎Apache Flink与所述数据总线组件Kafka通信连接,用于对所述数据总线组件Kafka中的数据进行实时计算,并将计算结果返回所述数据总线组件Kafka;所述数据总线组件Kafka还与所述第一数据库通信连接,用于将接收到的所述计算结果同步至所述第一数据库;所述数据报送端与所述第一数据库通信连接,用于从所述第一数据库获取所述计算结果,并将所述计算结果发送至目标端,实现了在数据产生后的几秒间,完成数据采集、加工和报送的目的,且不会对实时交易产生影响。
实施例二
图2为本发明实施例二所提供的一种数据处理***的结构示意图。在上述实施例的基础上,本实施例对数据处理***进行了进一步功能扩展,具体是增设了变化数据捕获CDC组件,所述变化数据捕获CDC组件与所述数据总线组件Kafka通信连接,用于对第二数据进行实时采集,并将采集到的第二数据发送至所述数据总线组件Kafka,以使数据处理***可以对更多的业务数据进行采集、加工与报送。其中,与上述实施例中相同或者相似的内容本实施例不再赘述,可参考上述实施例中的相关部分。
如图2所示,所述数据处理***包括:
第一数据采集组件OGG 210、数据总线组件Kafka 220、流式计算引擎ApacheFlink 230、第一数据库240、数据报送端250和变化数据捕获CDC组件260。
其中,第一数据采集组件OGG 210与数据总线组件Kafka 220通信连接,用于对第一数据进行实时采集,并将采集到的第一数据发送至所述数据总线组件Kafka 220。
所述流式计算引擎Apache Flink 230与所述数据总线组件Kafka 220通信连接,用于对所述数据总线组件Kafka 220中的数据进行实时计算,并将计算结果返回所述数据总线组件Kafka 220。
所述数据总线组件Kafka 220还与所述第一数据库240通信连接,用于将接收到的所述计算结果同步至所述第一数据库240。
所述数据报送端250与所述第一数据库240通信连接,用于从所述第一数据库240获取所述计算结果,并将所述计算结果发送至目标端。
所述变化数据捕获CDC组件260与所述数据总线组件Kafka 220通信连接,用于对第二数据进行实时采集,并将采集到的第二数据发送至所述数据总线组件Kafka 220。
其中,CDC(Change Data Capture,变化数据捕获)组件260采用的是一种基于DB2日志的高效复制解决方案,功能强大,使用灵活,可以实现多种方式、多种用途的数据复制,本实施例采用的是CDC技术的实时采集功能,将对私交易数据接入Kafka。特别的,变化数据捕获CDC组件260还可以用于对所述第二数据进行一定的过滤,以大大减少后续数据传输带来的资源消耗。过滤规则例如可以是以银行的机构标识为过滤条件,过滤掉或者筛选出目标机构的交易数据。
可选的,所述第二数据包括实时交易的对私存款数据,即银行存储数据的一种,存款账户是私户,即个人。
通过第一数据采集组件OGG 110对实时产生的数据进行采集,由于其采集方式是基于日志采集数据的,而不是从数据库直接获取数据,因此不会增加数据库的处理压力,进而也不会对***中实时发生的各种操作(例如实时交易操作)产生影响。
为了保证***的时效性,本实施例采用了数据总线组件Kafka 220作为中间件,为高吞吐量的应用提供了保障。
在监管报送领域,无界数据可以理解成是没有终止的交易流水数据,这类数据无时无刻的产生,且数据量巨大,需要及时有效的处理,并且由于监管的要求对于流水数据要及时的报送。本申请实施例充分考虑应用场景的特性,采用流式计算引擎Apache Flink230对所述数据总线组件Kafka220中的数据进行实时计算,达到实时处理的目的。
本发明实施例的技术方案,在上述实施例的基础上,增加了变化数据捕获CDC组件,所述变化数据捕获CDC组件与所述数据总线组件Kafka通信连接,用于对第二数据进行实时采集,并将采集到的第二数据发送至所述数据总线组件Kafka,流式计算引擎ApacheFlink 230对所述数据总线组件Kafka 220中的第一数据和第二数据分别进行实时计算以使数据处理***可以对更多的业务数据进行采集、加工与报送,实现了在数据产生后的几秒间,完成数据采集、加工和报送的目的,且不会对实时交易产生影响。
实施例三
图3为本发明实施例三所提供的一种数据处理***的结构示意图。在上述实施例的基础上,本实施例对数据处理***进行了进一步功能扩展,具体是增设了网络文件传输NFT组件、批处理计算区、数据同步组件和第二数据库。其中,所述网络文件传输NFT组件与所述批处理计算区通信连接,用于按照设定周期对第三数据进行批量采集,并将采集到的第三数据发送至所述批处理计算区;所述批处理计算区通过所述数据同步组件分别与所述数据总线组件Kafka以及所述第二数据库通信连接,用于基于所述第三数据、所述第一数据以及所述第二数据进行计算,并将计算结果通过所述数据同步组件分别同步至所述第二数据库以及所述第一数据库;所述第二数据库还与所述流式计算引擎Apache Flink通信连接,以使所述流式计算引擎Apache Flink基于所述第二数据库中的数据以及所述第一数据进行计算,并对计算结果进行备份存储。通过增加对第三数据的采集与处理,可提高数据处理***最终报送数据的完整性。其中,与上述实施例中相同或者相似的内容本实施例不再赘述,可参考上述实施例中的相关部分。
如图3所示,所述数据处理***包括:
第一数据采集组件OGG 310、数据总线组件Kafka 320、流式计算引擎ApacheFlink 330、第一数据库340、数据报送端350、变化数据捕获CDC组件360、网络文件传输NFT组件370、批处理计算区380、数据同步组件390和第二数据库400。
其中,第一数据采集组件OGG 310与数据总线组件Kafka320通信连接,用于对第一数据进行实时采集,并将采集到的第一数据发送至所述数据总线组件Kafka 320。
所述流式计算引擎Apache Flink 330与所述数据总线组件Kafka 320通信连接,用于对所述数据总线组件Kafka 320中的数据进行实时计算,并将计算结果返回所述数据总线组件Kafka 320。
所述数据总线组件Kafka 320还与所述第一数据库340通信连接,用于将接收到的所述计算结果同步至所述第一数据库340。
所述数据报送端350与所述第一数据库340通信连接,用于从所述第一数据库240获取所述计算结果,并将所述计算结果发送至目标端。
所述变化数据捕获CDC组件360与所述数据总线组件Kafka 320通信连接,用于对第二数据进行实时采集,并将采集到的第二数据发送至所述数据总线组件Kafka 320。
所述批处理计算区380通过所述数据同步组件390分别与所述数据总线组件Kafka320以及所述第二数据库400通信连接,用于基于所述第三数据、所述第一数据以及所述第二数据进行计算,并将计算结果通过所述数据同步组件390分别同步至所述第二数据库以及所述第一数据库400。
所述第二数据库400还与所述流式计算引擎Apache Flink 330通信连接,以使所述流式计算引擎Apache Flink330基于所述第二数据库400中的数据以及所述第一数据库340中的数据进行计算,并对计算结果进行备份存储。
其中,在银行交易数据实时上报、监管领域,对于维度表这类时效性要求不高的数据,可以通过NFT文件传输组件和数据文件加载入库的方式采集前一天日终(24点)的维度表数据(即所述第三数据)进第二数据库。维度表数据等时效性要求不强的数据例如包括:客户信息(例如出生年、月、日)、产品信息(产品周期、收益率等)或者机构信息(例如以城市名称命名的各地区的银行机构)等不需要实时采集的维度信息。该类信息的稳定性较强,并不是实时变化的,因此时效性要求不高。将该类数据(即第三数据)放入第二数据库的目的主要是为了方便流式计算引擎Apache Flink 330获取。Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。在监管报送领域,无界数据可以理解成是没有终止的交易流水数据,这类数据无时无刻的产生,且数据量巨大,需要及时有效的处理,并且由于监管的要求对于流水数据要及时的报送。有界数据类似机构维度或者客户维度,可以以每天24:00时日终的状态作为一个截止时间,来获取机构的信息或者是客户的信息,这类数据不需要实时的采集,而只需要某个截止时间的状态。通过流式计算引擎Apache Flink 330的整合能力,将流水数据拼接上维度数据,例如,从所述维度表数据中获取某笔交易流水中某个客户编号的客户类型以及客户状态等,并将获取到的客户类型以及客户状态与交易流水数据进行拼接与整合计算,最终获得一条比较完整的上报数据,提高了报送数据的完整性。
示例性的,所述第二数据库包括HBASE。所述第三数据包括下述至少一种:客户数据、产品数据以及机构数据。
本发明实施例的技术方案,在上述实施例的基础上,增设了网络文件传输NFT组件、批处理计算区、数据同步组件和第二数据库。其中,所述网络文件传输NFT组件与所述批处理计算区通信连接,用于按照设定周期对第三数据进行批量采集,并将采集到的第三数据发送至所述批处理计算区;所述批处理计算区通过所述数据同步组件分别与所述数据总线组件Kafka以及所述第二数据库通信连接,用于基于所述第三数据、所述第一数据以及所述第二数据进行计算,并将计算结果通过所述数据同步组件分别同步至所述第二数据库以及所述第一数据库;所述第二数据库还与所述流式计算引擎Apache Flink通信连接,以使所述流式计算引擎Apache Flink基于所述第二数据库中的数据以及所述第一数据进行计算,并对计算结果进行备份存储。通过增加对第三数据的采集与处理,可提高数据处理***最终报送数据的完整性,实现了在数据产生后的几秒间,完成数据采集、加工和报送的目的,且不会对实时交易产生影响。
通过流计算的数据加工方式,将报送数据实时的完成数据加工后报送至监管单位,相对于传统的按批次跑批的方法提高了时效性;通过流式计算引擎Apache Flink实现了对实时采集的流水数据和日终采集的维度数据的整合计算,保证了报送数据的正确性和完整性。
通过OGG或者CDC技术将交易数据实时采集进Kafka,通过日终跑批方式采集维度信息进Hbase,通过流式计算引擎Apache Flink作业的方式进行将实时交易数据与维度信息进行数据整合,通过MQ报文方式完成最后的数据报文报送,保证了报送数据的实时性、正确性和完整性。
实施例四
图4为本发明实施例四所提供的一种数据处理方法的流程示意图。本实施例提供的数据处理方法与上述实施例所述的数据处理***对应。
如图4所示,所述数据处理方法包括如下步骤:
步骤410、通过第一数据采集组件OGG对第一数据进行实时采集,并将采集到的第一数据发送至数据总线组件Kafka。
步骤420、通过流式计算引擎Apache Flink对所述数据总线组件Kafka中的数据进行实时计算,并将计算结果返回所述数据总线组件Kafka。
步骤430、通过数据总线组件Kafka将接收到的所述计算结果同步至第一数据库,以使数据报送端从所述第一数据库获取所述计算结果,并将所述计算结果发送至目标端。
可选的,所述第一数据包括实时交易的对公存款数据。
具体的,第一数据采集组件OGG 110可以为Oracle Golden Gate软件,是一种基于日志的结构化数据复制软件,能够实现大量交易数据的实时捕捉、变换和投递,实现源数据库与目标数据库的数据同步,保持亚秒级的数据延迟。它通过解析源数据库在线日志或归档日志获得数据的增量变化,再将这些变化应用到目标数据库,从而实现源数据库与目标数据库同步。Oracle Golden Gate可以在异构的IT基础结构(包括几乎所有常用操作***平台和数据库平台)之间实现大量数据亚秒级的实时复制,从而可以在应急***、在线报表、实时数据仓库供应、交易跟踪、数据同步、集中/分发、容灾、数据库升级和移植、双业务中心等多个场景下应用。同时,Oracle Golden Gate可以实现一对一、广播(一对多)、聚合(多对一)、双向、点对点、级联等多种灵活的拓扑结构。
因此,通过第一数据采集组件OGG 110对实时产生的数据进行采集,由于其采集方式是基于日志采集数据的,而不是从数据库直接获取数据,因此不会增加数据库的处理压力,进而也不会对***中实时发生的各种操作(例如实时交易操作)产生影响。
所述数据总线组件Kafka 120是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息***,它可以处理消费者在网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析***,但又要求实时处理的限制,使用Kafka是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。
所述流式计算引擎Apache Flink 130是近年来越来越流行的一款开源大数据计算引擎,它同时支持批处理和流处理,也能用来做一些基于事件的应用。首先Flink是一个纯流式的计算引擎,它的基本数据模型是数据流。流可以是无边界的无限流,即一般意义上的流处理。也可以是有边界的有限流,这样就是批处理。因此Flink用一套架构同时支持了流处理和批处理。其次,Flink的一个优势是支持有状态的计算。如果处理一个事件(或一条数据)的结果只跟事件本身的内容有关,称为无状态处理;反之,结果还和之前处理过的事件有关,称为有状态处理。稍微复杂一点的数据处理,比如说基本的聚合,数据流之间的关联都是有状态处理。在监管报送领域,无界数据可以理解成是没有终止的交易流水数据,这类数据无时无刻的产生,且数据量巨大,需要及时有效的处理,并且由于监管的要求对于流水数据要及时的报送。因此,本申请实施例充分考虑应用场景的特性,采用流式计算引擎Apache Flink 130对所述数据总线组件Kafka120中的数据进行实时计算,达到实时处理的目的。
具体的,所述数据报送端通过轮训方式,从所述第一数据库抽取计算结果,并判断所述计算结果是否为未报送的交易数据,如果是,则按照监管要求对所述计算结果进行处理,以生成报文,通过消息队列MQ接口将所述报文传输至监管端。通过MQ直连的方式将所述报文发送至监管端,进一步提高了实时性。
本实施例提供的数据处理方法,包括:通过第一数据采集组件OGG对第一数据进行实时采集,并将采集到的第一数据发送至数据总线组件Kafka;通过流式计算引擎ApacheFlink对所述数据总线组件Kafka中的数据进行实时计算,并将计算结果返回所述数据总线组件Kafka;通过数据总线组件Kafka将接收到的所述计算结果同步至第一数据库,以使数据报送端从所述第一数据库获取所述计算结果,并将所述计算结果发送至目标端,实现了在数据产生后的几秒间,完成数据采集、加工和报送的目的,且不会对实时交易产生影响。
实施例五
图5为本发明实施例五所提供的一种数据处理方法的流程示意图。在上述实施例四的基础上,本实施例提供的数据处理方法增加了如下步骤:通过变化数据捕获CDC组件对第二数据进行实时采集,并将采集到的第二数据发送至数据总线组件Kafka;通过网络文件传输NFT组件按照设定周期对第三数据进行批量采集,并将采集到的第三数据发送至批处理计算区;通过数据同步组件将所述第一数据以及所述第二数据从数据总线组件Kafka同步至所述批处理计算区;通过所述批处理计算区基于所述第三数据、所述第一数据以及所述第二数据进行计算,并将计算结果通过所述数据同步组件分别同步至所述第二数据库以及所述第一数据库;通过所述流式计算引擎Apache Flink基于所述第二数据库中的数据以及所述第一数据进行整合计算,并将整合计算结果分别发送至所述第二数据库和所述数据总线组件Kafka,以使所述数据总线组件Kafka将该计算结果发送至所述第一数据库。不仅丰富了报送数据的种类,还提高了报送数据的正确性与完整性。其中,与上述实施例中相同或者相似的内容本实施例不再赘述,可参考上述实施例中的相关部分。
如图5所示,所述数据处理方法包括如下步骤:
步骤510a、通过第一数据采集组件OGG对第一数据进行实时采集,并将采集到的第一数据发送至数据总线组件Kafka。
步骤510b、通过变化数据捕获CDC组件对第二数据进行实时采集,并将采集到的第二数据发送至数据总线组件Kafka。
步骤510c、通过网络文件传输NFT组件按照设定周期对第三数据进行批量采集,并将采集到的第三数据发送至批处理计算区;通过数据同步组件将所述第一数据以及所述第二数据从数据总线组件Kafka同步至所述批处理计算区;通过所述批处理计算区基于所述第三数据、所述第一数据以及所述第二数据进行计算,并将计算结果通过所述数据同步组件分别同步至所述第二数据库以及所述第一数据库。
步骤520、通过所述流式计算引擎Apache Flink基于所述第二数据库中的数据以及所述第一数据进行整合计算,并将整合计算结果分别发送至所述第二数据库和所述数据总线组件Kafka。
步骤530、通过数据总线组件Kafka将接收到的所述整合计算结果同步至第一数据库,以使数据报送端从所述第一数据库获取所述计算结果,并将所述计算结果发送至目标端。
需要说明的是,步骤510a、510b以及510c是并行执行的,而不是串行执行,不存在时间上的先后顺序关系。
示例性的,所述第三数据包括下述至少一种:客户数据、产品数据以及机构数据。所述第二数据包括实时交易的对私存款数据。
其中,在银行交易数据实时上报、监管领域,对于维度表这类时效性要求不高的数据,可以通过NFT文件传输组件和数据文件加载入库的方式采集前一天日终(24点)的维度表数据(即所述第三数据)进第二数据库。维度表数据等时效性要求不强的数据例如包括:客户信息(例如出生年、月、日)、产品信息(产品周期、收益率等)或者机构信息(例如以城市名称命名的各地区的银行机构)等不需要实时采集的维度信息。该类信息的稳定性较强,并不是实时变化的,因此时效性要求不高。将该类数据(即第三数据)放入第二数据库的目的主要是为了方便流式计算引擎Apache Flink 330获取。Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。在监管报送领域,无界数据可以理解成是没有终止的交易流水数据,这类数据无时无刻的产生,且数据量巨大,需要及时有效的处理,并且由于监管的要求对于流水数据要及时的报送。有界数据类似机构维度或者客户维度,可以以每天24:00时日终的状态作为一个截止时间,来获取机构的信息或者是客户的信息,这类数据不需要实时的采集,而只需要某个截止时间的状态。通过流式计算引擎Apache Flink 330的整合能力,将流水数据拼接上维度数据,例如,从所述维度表数据中获取某笔交易流水中某个客户编号的客户类型以及客户状态等,并将获取到的客户类型以及客户状态与交易流水数据进行拼接与整合计算,最终获得一条比较完整的上报数据,提高了报送数据的完整性。
本实施例提供的数据处理方法,在上述实施例的基础上,增加了如下步骤:通过变化数据捕获CDC组件对第二数据进行实时采集,并将采集到的第二数据发送至数据总线组件Kafka;通过网络文件传输NFT组件按照设定周期对第三数据进行批量采集,并将采集到的第三数据发送至批处理计算区;通过数据同步组件将所述第一数据以及所述第二数据从数据总线组件Kafka同步至所述批处理计算区;通过所述批处理计算区基于所述第三数据、所述第一数据以及所述第二数据进行计算,并将计算结果通过所述数据同步组件分别同步至所述第二数据库以及所述第一数据库;通过所述流式计算引擎Apache Flink基于所述第二数据库中的数据以及所述第一数据进行整合计算,并将整合计算结果分别发送至所述第二数据库和所述数据总线组件Kafka,以使所述数据总线组件Kafka将该计算结果发送至所述第一数据库。不仅丰富了报送数据的种类,还提高了报送数据的正确性与完整性。
实施例六
下面参考图6,其示出了适于用来实现本发明实施例的电子设备(例如图6中的终端设备或服务器)400的结构示意图。本发明实施例中的终端设备可以包括但不限于诸如笔记本电脑、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置406加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
通常,以下装置可以连接至I/O接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风等的输入装置406;包括例如液晶显示器(LCD)等的输出装置407;包括例如磁带、硬盘等的存储装置406;以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置406被安装,或者从ROM 402被安装。在该计算机程序被处理装置401执行时,执行本发明实施例的方法中限定的上述功能。
本发明实施例提供的终端与上述实施例提供的数据处理方法属于同一发明构思,未在本发明实施例中详尽描述的技术细节可参见上述实施例,并且本发明实施例与上述实施例具有相同的有益效果。
实施例七
本发明实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所提供的数据处理***、方法。
需要说明的是,本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
通过第一数据采集组件OGG对第一数据进行实时采集,并将采集到的第一数据发送至数据总线组件Kafka;
通过流式计算引擎Apache Flink对所述数据总线组件Kafka中的数据进行实时计算,并将计算结果返回所述数据总线组件Kafka;
通过数据总线组件Kafka将接收到的所述计算结果同步至第一数据库,以使数据报送端从所述第一数据库获取所述计算结果,并将所述计算结果发送至目标端。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,可编辑内容显示单元还可以被描述为“编辑单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本发明的一个或多个实施例,【示例一】提供了一种数据处理***,该***包括:
第一数据采集组件OGG、数据总线组件Kafka、流式计算引擎Apache Flink、第一数据库和数据报送端;
其中,第一数据采集组件OGG与所述数据总线组件Kafka通信连接,用于对第一数据进行实时采集,并将采集到的第一数据发送至所述数据总线组件Kafka;
所述流式计算引擎Apache Flink与所述数据总线组件Kafka通信连接,用于对所述数据总线组件Kafka中的数据进行实时计算,并将计算结果返回所述数据总线组件Kafka;
所述数据总线组件Kafka还与所述第一数据库通信连接,用于将接收到的所述计算结果同步至所述第一数据库;
所述数据报送端与所述第一数据库通信连接,用于从所述第一数据库获取所述计算结果,并将所述计算结果发送至目标端。
根据本发明的一个或多个实施例,【示例二】提供了一种数据处理***,可选的,还包括:变化数据捕获CDC组件,所述变化数据捕获CDC组件与所述数据总线组件Kafka通信连接,用于对第二数据进行实时采集,并将采集到的第二数据发送至所述数据总线组件Kafka。
根据本发明的一个或多个实施例,【示例三】提供了一种数据处理***,可选的,所述第二数据包括实时交易的对私存款数据。
根据本发明的一个或多个实施例,【示例四】提供了一种数据处理***,可选的,还包括:网络文件传输NFT组件、批处理计算区、数据同步组件和第二数据库;
其中,所述网络文件传输NFT组件与所述批处理计算区通信连接,用于按照设定周期对第三数据进行批量采集,并将采集到的第三数据发送至所述批处理计算区;
所述批处理计算区通过所述数据同步组件分别与所述数据总线组件Kafka以及所述第二数据库通信连接,用于基于所述第三数据、所述第一数据以及所述第二数据进行计算,并将计算结果通过所述数据同步组件分别同步至所述第二数据库以及所述第一数据库;
所述第二数据库还与所述流式计算引擎Apache Flink通信连接,以使所述流式计算引擎Apache Flink基于所述第二数据库中的数据以及所述第一数据进行整合计算,并对整合计算结果进行备份存储。
根据本发明的一个或多个实施例,【示例五】提供了一种数据处理***,可选的,所述第二数据库包括HBASE。
根据本发明的一个或多个实施例,【示例六】提供了一种数据处理***,可选的,所述第三数据包括下述至少一种:客户数据、产品数据以及机构数据。
根据本发明的一个或多个实施例,【示例七】提供了一种数据处理***,可选的,所述第一数据库包括Oracle。
根据本发明的一个或多个实施例,【示例八】提供了一种数据处理***,可选的,所述第一数据包括实时交易的对公存款数据。
根据本发明的一个或多个实施例,【示例九】提供了一种数据处理***,可选的,所述根据所述操作用户标识,以及预先获取的对所述当前展示资源具备操作权限的参考用户标识,确定所述当前用户是否具备所述当前展示资源的操作权限,包括:
将所述操作用户标识与所述参考用户标识进行比对;
若所述操作用户标识与所述参考用户标识相同,则确定所述当前用户具备所述当前展示资源的操作权限。
根据本发明的一个或多个实施例,【示例十】提供了一种数据处理***,可选的,所述数据报送端包括银行应用端。
根据本发明的一个或多个实施例,【示例十一】提供了一种数据处理方法,包括:通过第一数据采集组件OGG对第一数据进行实时采集,并将采集到的第一数据发送至数据总线组件Kafka;
通过流式计算引擎Apache Flink对所述数据总线组件Kafka中的数据进行实时计算,并将计算结果返回所述数据总线组件Kafka;
通过数据总线组件Kafka将接收到的所述计算结果同步至第一数据库,以使数据报送端从所述第一数据库获取所述计算结果,并将所述计算结果发送至目标端。
根据本发明的一个或多个实施例,【示例十二】提供了一种数据处理方法,可选的,还包括:
通过变化数据捕获CDC组件对第二数据进行实时采集,并将采集到的第二数据发送至数据总线组件Kafka。
根据本发明的一个或多个实施例,【示例十三】提供了一种数据处理方法,可选的,还包括:
通过网络文件传输NFT组件按照设定周期对第三数据进行批量采集,并将采集到的第三数据发送至批处理计算区;
通过数据同步组件将所述第一数据以及所述第二数据从数据总线组件Kafka同步至所述批处理计算区;
通过所述批处理计算区基于所述第三数据、所述第一数据以及所述第二数据进行计算,并将计算结果通过所述数据同步组件分别同步至所述第二数据库以及所述第一数据库;
通过所述流式计算引擎Apache Flink基于所述第二数据库中的数据以及所述第一数据进行整合计算,并将整合计算结果分别发送至所述第二数据库和所述数据总线组件Kafka,以使所述数据总线组件Kafka将该整合计算结果发送至所述第一数据库。
根据本发明的一个或多个实施例,【示例十四】提供了一种数据处理方法,可选的,还包括:
通过数据报送端以轮训方式,从所述第一数据库抽取计算结果,并判断所述计算结果是否为未报送的交易数据,如果是,则按照监管要求对所述计算结果进行处理,以生成报文,通过消息队列MQ接口将所述报文传输至监管端。
根据本发明的一个或多个实施例,【示例十五】提供了一种数据处理方法,可选的,所述第三数据包括下述至少一种:客户数据、产品数据以及机构数据。
根据本发明的一个或多个实施例,【示例十六】提供了一种数据处理方法,可选的,所述第二数据包括实时交易的对私存款数据;
所述第一数据包括实时交易的对公存款数据。
根据本发明的一个或多个实施例,【示例十七】提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如下所述的数据处理方法:
通过第一数据采集组件OGG对第一数据进行实时采集,并将采集到的第一数据发送至数据总线组件Kafka;
通过流式计算引擎Apache Flink对所述数据总线组件Kafka中的数据进行实时计算,并将计算结果返回所述数据总线组件Kafka;
通过数据总线组件Kafka将接收到的所述计算结果同步至第一数据库,以使数据报送端从所述第一数据库获取所述计算结果,并将所述计算结果发送至目标端。
根据本发明的一个或多个实施例,【示例十八】提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行下述的数据处理方法:
通过第一数据采集组件OGG对第一数据进行实时采集,并将采集到的第一数据发送至数据总线组件Kafka;
通过流式计算引擎Apache Flink对所述数据总线组件Kafka中的数据进行实时计算,并将计算结果返回所述数据总线组件Kafka;
通过数据总线组件Kafka将接收到的所述计算结果同步至第一数据库,以使数据报送端从所述第一数据库获取所述计算结果,并将所述计算结果发送至目标端。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (16)

1.一种数据处理***,其特征在于,包括:
第一数据采集组件OGG、数据总线组件Kafka、流式计算引擎Apache Flink、第一数据库和数据报送端;
其中,第一数据采集组件OGG与所述数据总线组件Kafka通信连接,用于对第一数据进行实时采集,并将采集到的第一数据发送至所述数据总线组件Kafka;
所述流式计算引擎Apache Flink与所述数据总线组件Kafka通信连接,用于对所述数据总线组件Kafka中的数据进行实时计算,并将计算结果返回所述数据总线组件Kafka;
所述数据总线组件Kafka还与所述第一数据库通信连接,用于将接收到的所述计算结果同步至所述第一数据库;
所述数据报送端与所述第一数据库通信连接,用于从所述第一数据库获取所述计算结果,并将所述计算结果发送至目标端。
2.根据权利要求1所述的***,其特征在于,还包括:变化数据捕获CDC组件,所述变化数据捕获CDC组件与所述数据总线组件Kafka通信连接,用于对第二数据进行实时采集,并将采集到的第二数据发送至所述数据总线组件Kafka。
3.根据权利要求2所述的***,其特征在于,所述第二数据包括实时交易的对私存款数据。
4.根据权利要求2所述的***,其特征在于,还包括:网络文件传输NFT组件、批处理计算区、数据同步组件和第二数据库;
其中,所述网络文件传输NFT组件与所述批处理计算区通信连接,用于按照设定周期对第三数据进行批量采集,并将采集到的第三数据发送至所述批处理计算区;
所述批处理计算区通过所述数据同步组件分别与所述数据总线组件Kafka以及所述第二数据库通信连接,用于基于所述第三数据、所述第一数据以及所述第二数据进行计算,并将计算结果通过所述数据同步组件分别同步至所述第二数据库以及所述第一数据库;
所述第二数据库还与所述流式计算引擎Apache Flink通信连接,以使所述流式计算引擎Apache Flink基于所述第二数据库中的数据以及所述第一数据进行整合计算,并对整合计算结果进行备份存储。
5.根据权利要求4所述的***,其特征在于,所述第二数据库包括HBASE。
6.根据权利要求4所述的***,其特征在于,所述第三数据包括下述至少一种:客户数据、产品数据以及机构数据。
7.根据权利要求1-6任一项所述的***,其特征在于,所述第一数据库包括Oracle。
8.根据权利要求1-6任一项所述的***,其特征在于,所述第一数据包括实时交易的对公存款数据。
9.根据权利要求1-6任一项所述的***,其特征在于,所述数据报送端通过轮训方式,从所述第一数据库抽取计算结果,并判断所述计算结果是否为未报送的交易数据,如果是,则按照监管要求对所述计算结果进行处理,以生成报文,通过消息队列MQ接口将所述报文传输至监管端。
10.根据权利要求1-6任一项所述的***,其特征在于,所述数据报送端包括银行应用端。
11.一种数据处理方法,其特征在于,包括:
通过第一数据采集组件OGG对第一数据进行实时采集,并将采集到的第一数据发送至数据总线组件Kafka;
通过流式计算引擎Apache Flink对所述数据总线组件Kafka中的数据进行实时计算,并将计算结果返回所述数据总线组件Kafka;
通过数据总线组件Kafka将接收到的所述计算结果同步至第一数据库,以使数据报送端从所述第一数据库获取所述计算结果,并将所述计算结果发送至目标端。
12.根据权利要求11所述的方法,其特征在于,还包括:
通过变化数据捕获CDC组件对第二数据进行实时采集,并将采集到的第二数据发送至数据总线组件Kafka。
13.根据权利要求12所述的方法,其特征在于,还包括:
通过网络文件传输NFT组件按照设定周期对第三数据进行批量采集,并将采集到的第三数据发送至批处理计算区;
通过数据同步组件将所述第一数据以及所述第二数据从数据总线组件Kafka同步至所述批处理计算区;
通过所述批处理计算区基于所述第三数据、所述第一数据以及所述第二数据进行计算,并将计算结果通过所述数据同步组件分别同步至所述第二数据库以及所述第一数据库;
通过所述流式计算引擎Apache Flink基于所述第二数据库中的数据以及所述第一数据进行整合计算,并将整合计算结果分别发送至所述第二数据库和所述数据总线组件Kafka,以使所述数据总线组件Kafka将该整合计算结果发送至所述第一数据库。
14.根据权利要求13所述的方法,其特征在于,还包括:
通过数据报送端以轮训方式,从所述第一数据库抽取计算结果,并判断所述计算结果是否为未报送的交易数据,如果是,则按照监管要求对所述计算结果进行处理,以生成报文,通过消息队列MQ接口将所述报文传输至监管端。
15.根据权利要求13所述的方法,其特征在于,所述第三数据包括下述至少一种:客户数据、产品数据以及机构数据。
16.根据权利要求12所述的方法,其特征在于,所述第二数据包括实时交易的对私存款数据;
所述第一数据包括实时交易的对公存款数据。
CN202110220549.1A 2021-02-26 2021-02-26 一种数据处理***、方法、装置、电子设备及存储介质 Pending CN112948492A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110220549.1A CN112948492A (zh) 2021-02-26 2021-02-26 一种数据处理***、方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110220549.1A CN112948492A (zh) 2021-02-26 2021-02-26 一种数据处理***、方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112948492A true CN112948492A (zh) 2021-06-11

Family

ID=76246638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110220549.1A Pending CN112948492A (zh) 2021-02-26 2021-02-26 一种数据处理***、方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112948492A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343065A (zh) * 2021-07-01 2021-09-03 广东电网有限责任公司 电网数据采集***
CN113792340A (zh) * 2021-09-09 2021-12-14 烽火通信科技股份有限公司 一种用于数据库逻辑日志审计的方法及装置
US20210390531A1 (en) * 2020-06-15 2021-12-16 Icecap, LLC Diamond custody system with blockchain non-fungible tokens (nfts)
CN115033646A (zh) * 2022-08-11 2022-09-09 深圳联友科技有限公司 一种基于Flink&Doris构建实时数仓***的方法
CN115329016A (zh) * 2022-10-14 2022-11-11 深圳迅策科技有限公司 一种金融资产交易数据处理方法、***及可读介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210390531A1 (en) * 2020-06-15 2021-12-16 Icecap, LLC Diamond custody system with blockchain non-fungible tokens (nfts)
CN113343065A (zh) * 2021-07-01 2021-09-03 广东电网有限责任公司 电网数据采集***
CN113792340A (zh) * 2021-09-09 2021-12-14 烽火通信科技股份有限公司 一种用于数据库逻辑日志审计的方法及装置
CN113792340B (zh) * 2021-09-09 2023-09-05 烽火通信科技股份有限公司 一种用于数据库逻辑日志审计的方法及装置
CN115033646A (zh) * 2022-08-11 2022-09-09 深圳联友科技有限公司 一种基于Flink&Doris构建实时数仓***的方法
CN115329016A (zh) * 2022-10-14 2022-11-11 深圳迅策科技有限公司 一种金融资产交易数据处理方法、***及可读介质
CN115329016B (zh) * 2022-10-14 2023-04-25 深圳迅策科技有限公司 一种金融资产交易数据处理方法、***及可读介质

Similar Documents

Publication Publication Date Title
CN112948492A (zh) 一种数据处理***、方法、装置、电子设备及存储介质
CN107506451B (zh) 用于数据交互的异常信息监控方法及装置
CN110362544B (zh) 日志处理***、日志处理方法、终端及存储介质
US11169959B2 (en) Lineage data for data records
CN111339073A (zh) 实时数据处理方法、装置、电子设备及可读存储介质
CN113535856B (zh) 数据同步方法及***
CN108038207A (zh) 一种日志数据处理***、方法和服务器
CN111949850B (zh) 多源数据的采集方法、装置、设备及存储介质
CN113282611B (zh) 一种流数据同步的方法、装置、计算机设备及存储介质
CN112347071A (zh) 一种配电网云平台数据融合方法及配电网云平台
US11256713B2 (en) Virtual transaction queues for database replication
CN113190558A (zh) 一种数据加工方法和***
CN112306992A (zh) 一种基于互联网的大数据平台
CN116680315A (zh) 数据离线处理方法、装置、电子设备及存储介质
CN112825165A (zh) 项目质量管理的方法和装置
CN116303427A (zh) 数据处理方法及装置、电子设备和存储介质
CN115599871A (zh) 基于湖仓一体的数据处理***和方法
CN115510139A (zh) 数据查询方法和装置
CN117131059A (zh) 报表数据处理方法、装置、设备及存储介质
CN112448840B (zh) 一种通信数据质量监控方法、装置、服务器及存储介质
CN110955709B (zh) 一种数据的处理方法、装置及电子设备
CN113076254A (zh) 一种测试用例集的生成方法和装置
CN112948410A (zh) 数据处理方法、装置、设备及介质
CN113612832A (zh) 流式数据分发方法与***
CN112231376A (zh) 一种用于离线数据采集的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination