CN114969047A

CN114969047A - 一种数据处理***及方法

Info

Publication number: CN114969047A
Application number: CN202210629035.6A
Authority: CN
Inventors: 张家星; 文国军; 丁一斐; 张浩瑀; 金鸣
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-08-30

Abstract

本发明提供了一种数据处理***及方法，可应用于金融领域或其他领域，其中，***中的数据采集模块实时在数据源中获取原始数据；数据存储模块在数据采集模块中获得目标流数据，并在到达同步时间点时，将数据采集模块中的所有原始数据存储到预设的批量存储区域；到达回流时间点时，将获得的目标流数据存储到批量存储区域中，并将批量存储区域中存储的数据确定为批量数据；计算模块对目标流数据和批量数据进行加工计算，获得每个业务指标的指标数据；服务模块将各指标数据存储到到目标存储表中；应用模块将查询指令发送到服务模块；服务模块从目标存储表中获取对应的指标数据，并发送到应用模块。能够提高数据处理效率，节约数据处理资源。

Description

一种数据处理***及方法

技术领域

本发明涉及数据处理技术领域，特别涉及一种数据处理***及方法。

背景技术

银行大数据平台目前采用的数据处理***通常是批处理和流处理分两套***进行。这样会导致以下问题：一方面是数据不集中，重复存储、重复计算，导致存储、计算的资源消耗高，开发、维护的人力成本高；另一方面是使用两套引擎和两套代码，SQL逻辑无法复用，数据质量、数据一致性和执行效率无法保证。

发明内容

本发明所要解决的技术问题是提供一种数据处理***及方法，能够提高数据处理效率，节约数据处理资源。具体方案如下：

一种数据处理***，包括：

数据采集模块、数据存储模块、计算模块、服务模块和应用模块；

数据采集模块，用于实时在预设的数据源中获取待处理的原始数据；

数据存储模块，用于在所述数据采集模块已获取的各个原始数据中获得目标流数据，并在到达预设的同步时间点时，将所述数据采集模块中的所有原始数据存储到预设的批量存储区域；到达预设的回流时间点时，将获得的所述目标流数据存储到所述批量存储区域中，并将所述批量存储区域中存储的数据确定为批量数据；

计算模块，用于对所述目标流数据进行加工计算，获得每个预设的业务指标对应的第一指标数据；并对所述批量数据进行加工计算，获得每个所述业务指标对应的第二指标数据；

所述服务模块，用于将每个所述业务指标对应的第一指标数据和第二指标数据存储到到预设的目标存储表中；

所述应用模块，用于获得查询指令，并将所述查询指令发送到所述服务模块；

所述服务模块，还用于当接收到所述应用模块发送的查询指令时，从所述目标存储表中获取与所述查询指令对应的指标数据，并将与所述查询指令对应的指标数据发送到所述应用模块。

上述的数据处理***，可选的，数据存储模块，包括：

确定所述数据采集模块的各个所述原始数据的获取时间点；

根据各个所述原始数据的获取时间点，在所述数据采集模块已获取的各个所述原始数据中获取目标流数据；所述目标流数据的获取时间点在预设的采集时间点之后。

上述的数据处理***，可选的，所述数据存储模块，用于：

确定所述数据采集模块中的每一所述原始数据的数据类型；所述数据类型包括结构化数据类型、半结构化数据类型和非结构化数据类型中的一种；

按每个所述原始数据的数据类型对应的存储方式将每个所述原始数据存储到预设的批量存储区域。

上述的数据处理***，可选的，所述应用模块，还用于：

获取所述目标存储表中存储的每个所述业务指标对应的第一指标数据和第二指标数据；

对于每个所述业务指标，利用所述业务指标对应的所述第二指标数据对所述业务指标对应的所述第一指标数据进行修正。

上述的数据处理***，可选的，所述应用模块，还用于：

接收所述服务模块发送的与所述查询指令对应的指标数据；

应用预设的数据挖掘算法对接收到的所述指标数据进行数据挖掘。

一种数据处理方法，应用于数据处理***，所述数据处理***包括数据采集模块、数据存储模块、计算模块、服务模块和应用模块，所述方法包括：

所述数据采集模块实时在预设的数据源中获取待处理的原始数据；

所述数据存储模块在所述数据采集模块已获取的各个原始数据中获得目标流数据，并在到达预设的同步时间点时，将所述数据采集模块中的所有原始数据存储到预设的批量存储区域；到达预设的回流时间点时，将获得的所述目标流数据存储到所述批量存储区域中，并将所述批量存储区域中存储的数据确定为批量数据；

所述计算模块对所述目标流数据进行加工计算，获得每个预设的业务指标对应的第一指标数据；并对所述批量数据进行加工计算，获得每个所述业务指标对应的第二指标数据；

所述服务模块将每个所述业务指标对应的第一指标数据和第二指标数据存储到到预设的目标存储表中；

所述应用模块获得查询指令，并将所述查询指令发送到所述服务模块；

所述服务模块当接收到所述应用模块发送的查询指令时，从所述目标存储表中获取与所述查询指令对应的指标数据，并将与所述查询指令对应的指标数据发送到所述应用模块。

上述的数据处理方法，可选的，所述数据存储模块在所述数据采集模块已获取的各个原始数据中获得目标流数据，包括：

所述数据存储模块确定所述数据采集模块的各个所述原始数据的获取时间点；

所述数据存储模块根据各个所述原始数据的获取时间点，在所述数据采集模块已获取的各个所述原始数据中获取目标流数据；所述目标流数据的获取时间点在预设的采集时间点之后。

上述的数据处理方法，可选的，所述将所述数据采集模块中的所有原始数据存储到预设的批量存储区域，包括：

上述的数据处理方法，可选的，所述计算模块对所述目标流数据进行加工计算，获得每个预设的业务指标对应的第一指标数据；并对所述批量数据进行加工计算，获得每个所述业务指标对应的第二指标数据之后，还包括：

所述应用模块获取每个所述业务指标对应的第一指标数据和第二指标数据；对于每个所述业务指标，利用所述业务指标对应的所述第二指标数据对所述业务指标对应的所述第一指标数据进行修正。

上述的数据处理方法，可选的，所述服务模块将与所述查询指令对应的指标数据发送到所述应用模块之后，还包括：

所述应用模块接收所述服务模块发送的与所述查询指令对应的指标数据；应用预设的数据挖掘算法对接收到的所述指标数据进行数据挖掘。

与现有技术相比，本发明包括以下优点：

本发明提供了一种数据处理方法及装置、存储介质及电子设备，该方法包括：数据采集模块、数据存储模块、计算模块、服务模块和应用模块；数据采集模块，用于实时在预设的数据源中获取待处理的原始数据；数据存储模块，用于在所述数据采集模块已获取的各个原始数据中获得目标流数据，并在到达预设的同步时间点时，将所述数据采集模块中的所有原始数据存储到预设的批量存储区域；到达预设的回流时间点时，将获得的所述目标流数据存储到所述批量存储区域中，并将所述批量存储区域中存储的数据确定为批量数据；计算模块，用于对所述目标流数据进行加工计算，获得每个预设的业务指标对应的第一指标数据；并对所述批量数据进行加工计算，获得每个所述业务指标对应的第二指标数据；所述服务模块，用于将每个所述业务指标对应的第一指标数据和第二指标数据存储到到预设的目标存储表中；所述应用模块，用于获得查询指令，并将所述查询指令发送到所述服务模块；所述服务模块，还用于当接收到所述应用模块发送的查询指令时，从所述目标存储表中获取与所述查询指令对应的指标数据，并将与所述查询指令对应的指标数据发送到所述应用模块。应用本发明实施例提供的方法，能够提高数据处理效率，节约数据处理资源。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种数据处理***的结构示意图；

图2为本发明提供的一种数据处理方法的方法流程图；

图3为本发明提供的一种获得目标流数据的过程的流程图；

图4为本发明提供的一种***架构示例图；

图5为本发明提供的一种数据处理流程的示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

参见图1，为本发明实施例提供的一种数据处理***的结构示意图，所述数据处理***包括：

数据采集模块101、数据存储模块102、计算模块103、服务模块104和应用模块105；

数据采集模块101，用于实时在预设的数据源中获取待处理的原始数据。

在本实施例中，数据源可以包括关系型数据库、列式数据库和日志文件信息等其中的一种或多种，原始数据可以是的结构化数据、半结构化数据和非结构化数据等其中一种或多种。

可选的，数据采集模块可以实时从数据源中获取待处理的原始数据，然后将原始数据进行保存，还可以将获取到的原始数据实时传输到数据存储模块中。

其中，实时传输到存储模块的原始数据可以是满足预设条件的数据，例如，可以是增量的原始数据，即，在预设采集时间点之后获取到的原始数据，也可以是未曾向存储模块传输过的原始数据。

数据存储模块102，用于在所述数据采集模块已获取的各个原始数据中获得目标流数据，并在到达预设的同步时间点时，将所述数据采集模块中的所有原始数据存储到预设的批量存储区域；到达预设的回流时间点时，将获得的所述目标流数据存储到所述批量存储区域中，并将所述批量存储区域中存储的数据确定为批量数据。

在本实施例中，数据存储模块可以包括消息中间件和批存储子模块，批存储子模块可以包括批量存储区域。

可选的，目标流数据可以是数据采集模块在预设的采集时间点后实时采集到的原始数据，可以通过消息中间件获得数据采集模块中的目标流数据，在一些实施例中，采集时间点可以是同步时间点、同步时间点的前一同步时间点等。

其中，在到达同步时间点后，批量存储区域中存储数据采集模块在同步时间点之前已获取的所有原始数据，并在达到回流时间点后，批量存储区域从消息中间件获得目标流数据，将批量存储区域中存储的数据确定为批量数据。

计算模块103，用于对所述目标流数据进行加工计算，获得每个预设的业务指标对应的第一指标数据；并对所述批量数据进行加工计算，获得每个所述业务指标对应的第二指标数据。

在本实施例中，可以采用第一计算方式对目标数据流进行加工计算，获得各个预设的业务指标对应的第一指标数据，可以采用第二计算方式对批量数据进行加工计算，获得每个业务指标对应的第二指标数据，第一计算方式和第二计算方式可以不同。

可选的，计算模块可以包括计算引擎，该计算引擎可以包括计算组件Flink。

其中，业务指标是用户的需求业务的指标。

所述服务模块104，用于将每个所述业务指标对应的第一指标数据和第二指标数据存储到到预设的目标存储表中。

在本实施例中，该目标存储表可以是面向海量数据分析场景的Iceberg组件中的Iceberg表。

所述应用模块105，用于获得查询指令，并将所述查询指令发送到所述服务模块。

在本实施例中，可以根据业务的需求信息生成查询指令，查询指令可以用于查询所述业务所需的数据。

所述服务模块104，还用于当接收到所述应用模块发送的查询指令时，从所述目标存储表中获取与所述查询指令对应的指标数据，并将与所述查询指令对应的指标数据发送到所述应用模块。

在本实施例中，服务模块获得查询指令中，根据查询指令中包含的需求信息遍历目标存储表，以获得与查询指令对应的指标数据。

应用本发明实施例提供的方法，能够提高数据处理效率，节约数据处理资源。

在本发明提供的一实施例中，基于上述的实施过程，可选的，数据存储模块，包括：

确定所述数据采集模块的各个所述原始数据的获取时间点；

在本实施例中，数据采集模块可以实时从数据源中获取原始数据，并在获取到原始数据时，记录该原始数据的获取时间点。

可选的，在数据存储模块确定各个原始数据的获取时间点之后，可以将原始数据的获取时间点与采集时间点进行比较，在原始数据的获取时间点在采集时间点之后的情况下，将该原始数据作为目标流数据，并获取该目标流数据，即，目标流数据是新获得的增量数据。

具体的，数据存储模块通过消息中间件从数据采集模块已获取的各个原始数据中获取目标流数据。

应用本发明实施例提供的***，能够准确的从数据采集模块中获取到增量数据。

在本发明提供的一实施例中，基于上述的实施过程，可选的，所述数据存储模块，用于：

在本实施例中，数据存储模块中包含批量存储区域，批量存储区域可以包括多种类型的数据库，例如，关系型数据库和非关系型数据库，可以利用关系型数据库存储结构化数据类型的原始数据；可以利用非关系型数据库存储半结构化数据类型、非结构化类型数据的原始数据。

在本发明提供的一实施例中，基于上述的实施过程，可选的，所述应用模块，还用于：

在本实施例中，第一指标数据可以是计算模块对目标流数据加工计算得到，第二指标数据可以是计算模块对批量数据加工计算得到，可以利用第二指标数据判断第一指标数据是否存在偏差，若第一指标数据存在偏差，则可以根据第二指标数据对第一指标数据进行修正。

接收所述服务模块发送的与所述查询指令对应的指标数据；

在本实施例中，可以利用Spark Mlib等机器学习算法库对接收到的指标数据进行数据挖掘。

参见图2，为本发明实施例提供的一种数据处理方法的方法流程图，所述方法应用于数据处理***，所述数据处理***包括数据采集模块、数据存储模块、计算模块、服务模块和应用模块，所述方法包括：

S201：所述数据采集模块实时在预设的数据源中获取待处理的原始数据。

S202：所述数据存储模块在所述数据采集模块已获取的各个原始数据中获得目标流数据，并在到达预设的同步时间点时，将所述数据采集模块中的所有原始数据存储到预设的批量存储区域；到达预设的回流时间点时，将获得的所述目标流数据存储到所述批量存储区域中，并将所述批量存储区域中存储的数据确定为批量数据。

S203：所述计算模块对所述目标流数据进行加工计算，获得每个预设的业务指标对应的第一指标数据；并对所述批量数据进行加工计算，获得每个所述业务指标对应的第二指标数据。

S204：所述服务模块将每个所述业务指标对应的第一指标数据和第二指标数据存储到到预设的目标存储表中。

S205：获得查询指令，并将所述查询指令发送到所述服务模块。

S206：所述服务模块当接收到所述应用模块发送的查询指令时，从所述目标存储表中获取与所述查询指令对应的指标数据，并将与所述查询指令对应的指标数据发送到所述应用模块。

在本发明提供的一实施例中，基于上述的实施过程，可选的，所述数据存储模块在所述数据采集模块已获取的各个原始数据中获得目标流数据的过程，如图3所示，包括：

S301：所述数据存储模块确定所述数据采集模块的各个所述原始数据的获取时间点。

S302：所述数据存储模块根据各个所述原始数据的获取时间点，在所述数据采集模块已获取的各个所述原始数据中获取目标流数据；所述目标流数据的获取时间点在预设的采集时间点之后。

在本发明提供的一实施例中，基于上述的实施过程，可选的，所述将所述数据采集模块中的所有原始数据存储到预设的批量存储区域，包括：

在本发明提供的一实施例中，基于上述的实施过程，可选的，所述计算模块对所述目标流数据进行加工计算，获得每个预设的业务指标对应的第一指标数据；并对所述批量数据进行加工计算，获得每个所述业务指标对应的第二指标数据之后，还包括：

在本发明提供的一实施例中，基于上述的实施过程，可选的，所述服务模块将与所述查询指令对应的指标数据发送到所述应用模块之后，还包括：

上述本发明实施例公开的数据处理方法具体的原理和执行过程，与上述本发明实施例公开的数据处理***相同，可参见上述本发明实施例提供的数据处理***中相应的部分，这里不再进行赘述。

本发明实施例提供的数据处理***，可以应用在各种领域之中，例如，可以应用于银行的流数据和批数据的一体处理，流批一体的***架构如图4所示，该***的架构主要包括采集层、存储层、计算层、服务层和应用层。

详细介绍如下：

采集层中的数据采集模块，用于将海量的结构化、半结构化和非结构化数据统一采集至大数据平台，数据源通常是关系型数据库、列式数据库和日志文件信息等。包括实时采集日志服务器、业务数据库的增量数据信息，和实现数据库全量信息的数据同步。

存储层中的数据存储模块，用于实现海量数据的存储，包括分布式文件存储，利用关系型数据库存储结构化数据，利用非关系型数据库存储半结构化或非结构化数据，利用消息中间件存储流式数据，利用缓存数据库存储缓存数据等。

计算层中的计算模块，用于利用计算框架对批数据和流数据进行加工计算，从海量数据中提取出对业务有价值的数据。在流批一体架构中，通过Flink组件，利用一套代码，两种计算模式，在批计算和流计算上实现逻辑统一，大幅度提升研发效率。并且流计算和批计算可实现资源混部，在处理过程中错峰进行，提升资源利用率。

服务层中的服务模块，用于把大数据平台存储和处理得到的数据对外提供服务，让数据用起来，且达到好用，活用的程度。在流批一体架构中，利用Iceberg组件实现了批数据和流数据的统一存储，因此对外服务时无需再次手工同步数据，可直接从Iceberg表中拿到批量数据和流式数据。

应用层中的应用应用模块，用于从服务层获取数据并提供给应用层的产品进行分析使用。

基于上述架构，流批一体架构的数据处理流程如图5所示，具体如下：

Kafka消息中间件实时采集日志服务器或者关系型数据库的binlog信息。

每日将日增量数据或全量数据离线传输到批存储中，与历史数据合并得到新的全量数据。

将流式数据定时回流(分钟/小时/天)至批量数据中，完成合并。

将流数据和批数据统一存储至Iceberg表中，实现流批数据的统一存储。

利用Flink实现对Iceberg表的指标加工，实现流批数据的统一计算。

应用层获取历史数据和实时的增量数据，并且可以通过历史数据对实时数据进行修订。

根据报表加工规则进行计算，利用Presto组件进行即席查询，利用Spark Mlib等机器学习算法库进行数据挖掘。

流批一体架构中各核心模块划分、功能及相互关系的思想和设计是竞争对手无法逾越的。通过模块的划分和实现，选择最佳的大数据采集(Kafka)、存储(Iceberg)、计算(Flink)、查询(Presto)等组件使得数据处理***发挥最大效益，提升***运行效率，减少人力和资源使用成本。

本发明根据银行实际应用***和业务特点，结合大数据业界新兴组件Iceberg、Flink和Presto等，提出了一种基于流批一体的数据处理框架，将传统的离线数据处理框架和实时数据处理框架进行合并，使用一套***就能同时处理流式数据和批量数据，实现数据的统一存储、统一计算和统一查询。将更多的开发、维护人员从繁杂的***开发和运行维护的工作中解脱出来，提高大数据平台的***运行效率，降低人力资源成本，改善业务人员的使用体验。

需要说明的是，本发明提供的一种数据处理***及方法可用于人工智能领域、区块链领域、分布式领域、云计算领域、大数据领域、物联网领域、移动互联领域、网络安全领域、芯片领域、虚拟现实领域、增强现实领域、全息技术领域、量子计算领域、量子通信领域、量子测量领域、数字孪生领域或金融领域。上述仅为示例，并不对本发明提供的一种数据处理***及方法的应用领域进行限定。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种数据处理***进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据处理***，其特征在于，包括：

2.根据权利要求1所述的数据处理***，其特征在于，所述数据存储模块，用于：

确定所述数据采集模块的各个所述原始数据的获取时间点；

3.根据权利要求1所述的数据处理***，其特征在于，所述数据存储模块，用于：

4.根据权利要求1所述的数据处理***，其特征在于，所述应用模块，还用于：

5.根据权利要求1所述的数据处理***，其特征在于，所述应用模块，还用于：

接收所述服务模块发送的与所述查询指令对应的指标数据；

6.一种数据处理方法，其特征在于，应用于数据处理***，所述数据处理***包括数据采集模块、数据存储模块、计算模块、服务模块和应用模块，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述数据存储模块在所述数据采集模块已获取的各个原始数据中获得目标流数据，包括：

8.根据权利要求6所述的方法，其特征在于，所述将所述数据采集模块中的所有原始数据存储到预设的批量存储区域，包括：

9.根据权利要求6所述的方法，其特征在于，所述计算模块对所述目标流数据进行加工计算，获得每个预设的业务指标对应的第一指标数据；并对所述批量数据进行加工计算，获得每个所述业务指标对应的第二指标数据之后，还包括：

10.根据权利要求6所述的方法，其特征在于，所述服务模块将与所述查询指令对应的指标数据发送到所述应用模块之后，还包括：