CN116991562B

CN116991562B - 一种数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN116991562B
Application number: CN202311268839.9A
Authority: CN
Inventors: 罗盛; 严思齐; 张辰; 陈萌; 尹棋; 陈璐
Original assignee: Bank Of Ningbo Co ltd
Current assignee: Bank Of Ningbo Co ltd
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2023-12-26
Anticipated expiration: 2043-09-28
Also published as: CN116991562A

Abstract

本公开提供了一种数据处理方法、装置、电子设备及存储介质，应用于数据处理技术领域，所述方法包括：获取不同类型的数据源的变动数据信息；通过第一接口，在集群中至少两个节点创建所述变动数据信息对应的至少两个任务，在节点中存储所述任务；集群中的节点对集群中除自身以外的至少一个节点创建的任务进行备份，使集群中每一个节点均包括任务集；所述任务集包括节点自身创建的任务与备份的任务；集群中每一个节点并行处理所述任务集中自身创建的任务；集群中任一节点满足第一条件的情况下，处理任务集中其他节点创建的任务。如此，可以实现多源数据的实时批处理，满足当前业务场景下大数据处理、实时性的高要求。

Description

一种数据处理方法、装置、电子设备及存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

在使用传统的数据源实现业务需求的过程中，发现由于数据源多、数据量巨大，需要管理大量数据表才能实现相关业务需求，性能很差；此外，传统数据源依赖T+1跑批处理，数据时效性无法满足当前业务场景下实时和准实时的时效性要求。

发明内容

本公开提供了一种数据处理方法、装置、电子设备及存储介质，以至少解决现有技术中存在的以上技术问题。

根据本公开的第一方面，提供一种数据处理方法，包括：

获取不同类型的数据源的变动数据信息；所述数据源至少包括实时数据源和非实时数据源；

通过第一接口，在集群中至少两个节点创建所述变动数据信息对应的至少两个任务，在节点中存储所述任务；其中，每个节点中存储的任务不同，所述第一接口为分布式内存数据库对应的接口；

集群中的节点对集群中除自身以外的至少一个节点创建的任务进行备份，使集群中每一个节点均包括任务集；所述任务集包括节点自身创建的任务与备份的任务；

集群中每一个节点并行处理所述任务集中自身创建的任务；集群中任一节点满足第一条件的情况下，处理任务集中其他节点创建的任务；

所述第一条件包括：节点处于空闲状态。

根据本公开的第二方面，提供一种数据处理装置，包括：

多数据源抽取模块，用于获取不同类型的数据源的变动数据信息；所述数据源至少包括实时数据源和非实时数据源；用于通过第一接口，在集群中至少两个节点创建所述变动数据信息对应的至少两个任务，在节点中存储所述任务；其中，每个节点中存储的任务不同，所述第一接口为分布式内存数据库对应的接口；用于令集群中的节点对集群中除自身以外的至少一个节点创建的任务进行备份，使集群中每一个节点均包括任务集；所述任务集包括节点自身创建的任务与备份的任务；

并行计算模块，用于使集群中每一个节点并行处理所述任务集中自身创建的任务；在集群中任一节点满足第一条件的情况下，使所述节点处理任务集中其他节点创建的任务；

所述第一条件包括：节点处于空闲状态。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开所述的方法。

本公开的数据处理方法，通过获取不同类型的数据源的变动数据信息；所述数据源至少包括实时数据源和非实时数据源；通过第一接口，在集群中至少两个节点创建所述变动数据信息对应的至少两个任务，在节点中存储所述任务；其中，每个节点中存储的任务不同，所述第一接口为分布式内存数据库对应的接口；集群中的节点对集群中除自身以外的至少一个节点创建的任务进行备份，使集群中每一个节点均包括任务集；所述任务集包括节点自身创建的任务与备份的任务；集群中每一个节点并行处理所述任务集中自身创建的任务；集群中任一节点满足第一条件的情况下，处理任务集中其他节点创建的任务；如此，从实时数据源和非实时数据源抽取数据；抽取的数据会统一汇总、整理、创建任务，并向集群的不同节点分发任务。各个节点在收到任务后就会对任务加锁，然后调用任务指定的数据加工方案处理数据。在任务处理完成之后，数据将会被输出至目标数据源；实现多源数据的实时批处理，满足当前业务场景下大数据处理、实时性的高要求。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本公开实施例提供的数据处理方法的一种可选流程示意图；

图2示出了本公开实施例提供的数据处理方法的另一种可选流程示意图；

图3示出了本公开实施例提供的数据处理方法的数据示意图；

图4示出了本公开实施例提供的数据处理装置的可选结构示意图；

图5示出了本公开实施例一种电子设备的组成结构示意图。

具体实施方式

为使本公开的目的、特征、优点能够更加的明显和易懂，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而非全部实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本公开所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本公开中所使用的术语只是为了描述本公开实施例的目的，不是旨在限制本公开。

应理解，在本公开的各种实施例中，各实施过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

相关技术中，在使用传统的数据源（如Oracle）实现业务需求的过程中发现存在以下问题：

1.数据源多，数据量大，性能很差。在一些业务场景中，查询的数据来源众多，数据量大，且往往需要关联非常多的数据表才能完成操作，使用传统关系型数据库实现性能很差。

2.时效不一，跑批加工，实时性差。传统的Oracle数据依赖T+1跑批处理，数据的时效性很差，不满足上述业务场景下实时和准实时的数据时效性要求。

针对相关技术中存在的缺陷，本公开提供一种数据处理方法，以解决上述部分或全部技术问题。

图1示出了本公开实施例提供的数据处理方法的一种可选流程示意图，将根据各个步骤进行说明。

步骤S101，获取不同类型的数据源的变动数据信息。

在一些实施例中，所述数据源至少包括实时数据源和非实时数据源。

在一些实施例中，实现本公开实施例的数据处理方法的载体获取不同类型的数据源中的变动数据信息，可选的，数据源的类型不同，获取方式不同。

其中，所述变动数据信息包括至少两条数据的变动信息。

步骤S102，通过第一接口，在集群中至少两个节点创建所述变动数据信息对应的至少两个任务，在节点中存储所述任务。

在一些实施例中，所述第一接口为分布式内存数据库对应的接口，所述载体采用分布式方式，在所述至少两个节点中分别创建所述至少两条变动数据信息对应的任务，并在节点中存储所述任务。其中，变动数据信息的数量大于或等于集群中节点数量的情况下，每一个节点创建至少一个对应的任务。

其中，每个节点创建任务时，基于的数据信息不同，每个节点中存储的任务不同。所述节点包括应用节点。

步骤S103，集群中的节点对集群中除自身以外的至少一个节点创建的任务进行备份，使集群中每一个节点均包括任务集。

在一些实施例中，集群中的节点对集群中其他节点创建的任务进行备份，一方面避免某个节点故障下线后导致的数据丢失，另一方面可以避免某个节点数据损坏的问题。

在一些实施例中，所述集群中每个节点可以备份全部其他节点的任务，也可以备份部分其他节点的任务。

在一些实施例中，每个节点备份除自身以外的至少一个节点创建的任务之后，在节点中形成任务集，所述任务集包括节点自身创建的任务与备份的任务。

步骤S104，集群中每一个节点并行处理所述任务集中自身创建的任务。

在一些实施例中，集群中每一个节点并行处理任务集中的任务，优先处理自身创建的任务；当节点处于空闲状态的情况下，则处理任务集中其他节点创建的任务。

如此，通过本公开提供的数据处理方法，从实时数据源和非实时数据源抽取数据；抽取的数据会统一汇总、整理、创建任务，并向集群的不同节点分发任务。各个节点在收到任务后就会对任务加锁，然后调用任务指定的数据加工方案处理数据。在任务处理完成之后，数据将会被输出至目标数据源；实现多源数据的实时批处理，满足当前业务场景下大数据处理、实时性的高要求。

图2示出了本公开实施例提供的数据处理方法的另一种可选流程示意图，图3示出了本公开实施例提供的数据处理方法的数据示意图，将根据各个步骤进行说明。

如图3所示，Kafka（卡夫卡）***可以基于OGG（OGG是Oracle Golden Gate的简写，它支持在Oracle数据库和其他受支持的异构数据库之间复制数据）或变化数据获取方式（Change Data Capture，CDC）获取应用数据库中的变动数据信息，基于Producter指令获取业务应用中的变动数据信息，基于应用程序编辑接口（Application ProgrammingInterface，API）获取实时平台中的变动数据信息。进一步，多数据源抽取模块通过Kafka-Ignite-stream从Kafka***中获取实时数据源的变动数据信息，通过Jdbc-Template或hadoop-source获取非实时数据源的变动数据信息；进行任务分发、并行批处理获得处理数据之后，发送至不同类型的目标数据源，例如，基于超文本传输协议（Hypertext TransferProtocol，HTTP）发送至Elastic Search数据源，基于Jdbc-Template发送至Oracle数据源，基于hadoop-source发送至Hbase数据源。

具体的执行过程如下：

步骤S201，获取不同类型的数据源的变动数据信息。

在一些实施例中，不同的数据源对应不同的获取方式。

具体实施时，响应于数据源为Oracle数据库，则所述载体在所述Oracle数据库中新建OGG用户，基于Oracle数据库对应的日志（如在线重做日志或archive日志）获取变动数据信息（即变化的数据所对应的变动前和变动后信息），生成队列（Trail）文件；基于数据源端的数据推送组件读取所述队列文件，并将所述队列文件推送至目标端OGG用户；目标端通过数据接收组件接收所述队列文件，并基于数据复制组件读取所述队列文件，将所述数据变动推送至Kafka***；所述数据源抽取模块从卡夫卡***获取卡夫卡消息（即消费卡夫卡消息），获得所述数据源对应的变动数据信息。

在一些可选实施例中，可以使用上述方法获得Hbase数据源和Impala数据源的变动数据信息。

或者，具体实施时，响应于数据源为应用程序，通过移动端或者电脑端在应用程序进行相关业务操作（涉及数据更新，如密码更新、身份信息更新或用户账户更新等）之后，会生成变动数据信息，前端的业务操作会以form表单的形式提交到渠道后端，然后由渠道后端进行初步处理，包括但不限于权限校验、会话校验、添加用户身份信息等。完成上述逻辑后，渠道后端会调用相关业务中台（客户中心、营销中心、管理中心、基础服务）接口。请求到达中台后会优先进行权限、数据校验，然后完成业务逻辑，最后修改数据。数据修改的过程会生成变动数据信息，将变动数据信息组装成一条Kafka消息，并以Kafka生产者的身份将所述Kafka消息推送至Kafka***，所述数据源抽取模块从卡夫卡***获取所述Kafka消息，获得所述数据源对应的变动数据信息。

或者，具体实施时，响应于数据源为实时平台，如数据类***，整体流程与业务应用类似，只是数据的加工由一系列后端应用变成了一个个的数据处理节点，即前端的业务操作提交至多个数据处理节点，通过在实时平台上新建数据加工流程，由指定的数据变动触发一系列的数据加工逻辑，在数据流加工完成后，通过调用Kafka API的形式发送组装好的变动数据信息，所述数据源抽取模块从卡夫卡***获取组装好的变动数据信息，获得所述数据源对应的变动数据信息。

步骤S202，在集群的各节点中创建任务。

在一些实施例中，所述载体获取不同类型的数据源的变动数据信息之后，使用分布式内存数据库（Apache Ignite），通过第一接口，在集群中至少两个节点创建所述变动数据信息对应的至少两个任务，具体的，将数据加工策略作为参数，在集群中不同节点创建任务。

其中，所述第一接口可以是IgniteClosure接口，所述节点基于数据加工策略执行所述任务，即基于所述数据加工策略，对该节点的变动数据信息进行数据加工。

在一些实施例中，所述载体对应的多源数据处理应用采用集群部署，存在多个节点；所述变动数据信息包括至少两条数据信息，不同的节点创建不同数据信息对应的任务并存储，实现分布式存储。

步骤S203，集群中节点备份任务。

在一些实施例中，集群中的节点对集群中除自身以外的至少一个节点创建的任务进行备份，使集群中每一个节点均包括任务集；所述任务集包括节点自身创建的任务与备份的任务。

具体实施时，通过配置备份副本数量N，集群将会创建N+1个副本，其中一个作为主分片，其所在节点被称为主节点，其余分片为备份分片，所在节点被称为备份节点。其中，N为正整数，数值小于集群中全部节点的数量。

步骤S204，集群中每一个节点并行处理所述任务集中自身创建的任务。

在一些实施例中，集群中各节点进行任务备份之后，每个节点都获得了任务集，集群中各节点优先处理自身创建的任务。

在一些实施例中，为了保证数据处理的时效性，每个节点都采用了多线程并发处理的模式，必须要避免出现多线程重（节点）复执行同一个任务的情况。对此，本公开实施例通过对任务进行加锁来保证每个任务只能被执行一次，当一个数据加工线程（节点）尝试开始处理一个新任务时，会首先尝试对任务进行加锁，加锁失败则证明该任务正在被其他线程执行（或正在被其他节点处理），进而尝试对下一个任务进行加锁，加锁成功则获取该任务进行处理。

具体实施时，集群中每个节点执行以下操作：在任务线程中，对待执行的任务执行锁定操作；响应于锁定操作成功，则基于被锁定的任务对应的数据加工策略，执行所述被锁定的任务；响应于锁定操作失败，则表征所述待执行的任务被其他节点执行，对其他待执行的任务执行锁定操作，直至锁定操作成功，则基于被锁定的任务对应的数据加工策略，执行所述被锁定的任务。

在一些实施例中，为了避免出现空闲节点导致资源浪费。本公开实施例提供了任务的跨节点获取和执行，空闲节点会主动尝试从其他繁忙节点获取额外任务进行执行。

具体实施时，响应于任一节点空闲，即执行了全部自身创建的任务，则处理任务集中其他节点创建的任务，在处理之前，在任务线程中对待执行的任务执行锁定操作，锁定成功则执行所述任务；若锁定失败，则说明该任务被其他节点执行，锁定任务集中其他未执行的任务。

步骤S205，任务再分配。

在一些实施例中，为了保证集群的高可扩展性和高可用性，由于任务分布式存储和多节点备份保证了每一份数据都有多个节点进行保存。当一个节点离开集群后，为了保证原本属于该节点的数据不丢失，集群会将其中一个备份的分片设置为主分片，并开始数据的再平衡，保证在剩余节点内数据依然均匀分布。同理，当有一个新的节点加入集群时，为了满足数据在所有节点上均衡分配，集群会进行再平衡，将一部分数据分配给新节点保存。

具体实施时，响应于所述集群中第一节点被删除，则确认所述第一节点对应的任务（即第一节点所创建的任务），将所述第一节点对应的任务分配至集群中其他节点；或者，响应于所述集群中新增第二节点，则将所述集群中其他节点对应的任务（即其他节点所创建的任务）均衡分配至所述第二节点。

在一些实施例中，可以通过同步（Synchronous，SYNC）和异步（Asynchronous，ASYNC）两种方式进行再平衡。

在一些可选实施例中，为了适应不同配置的服务器，业务对应的应用程序在部署到服务器时，会读取服务器的配置，如CPU核数M等。所述应用程序的线程初始化方法会根据获取的配置结果，创建一个核心线程数为M-1的线程池。该特性保证应用可以在不同配置的服务器上快捷部署，直接快速扩展。其中，所述应用程序为任务对应的应用程序。

在一些可选实施例中，任务创建时支持将数据加工策略作为参数传入，如此，可以简化后续新业务场景的接入成本和开发人员的学习成本。一个新场景的接入可以复用应用的整体架构，无需额外搭建，同时对于开发人员而言，无需关注其他实现，只需专注于自己业务场景的数据加工步骤。

在一些可选实施例中，基于任务再分配和自适应配置特性，保证集群在遇到性能瓶颈时能够通过横向扩展服务器快速增强任务处理能力，并通过再平衡策略分担集群压力。

步骤S206，获取集群中各节点处理任务所对应的处理数据，基于业务需求，将所述处理数据发送至不同类型的目标数据源。

在一些实施例中，目标数据源可以包括多种类型，与从多种类型数据源获取数据相对应，本公开可以根据业务场景需要，将各节点并行加工后的处理数据，输出到不同类型的目标数据源中。由于不同类型的目标数据源写入数据的方式不同，需要适应的输出方式。

具体实施时，所述载体响应于目标数据源为第一类型数据源，则对所述处理数据进行封装，并发送至卡夫卡***，基于第一索引加载第一应用；所述第一应用从所述卡夫卡***获取所述处理数据，以基于第一请求和所述处理数据，对目标数据源中的数据进行修改。

具体的，若目标数据源为ElasticSearch（ES）数据库，通过封装数据改动的Kafka消息，推送Kafka消息，然后由ES索引（第一索引）加载应用程序（即第一应用）消费，进行http请求（第一请求），修改ES中的数据。

其中，Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。

具体的，若目标数据源为Hbase数据库，与ElasticSearch数据库不同，Hbase数据库作为一个基于Hadoop实现的分布式文件***的分布式大数据引擎，不能通过直接获取Kafka消息更新数据。需要一个能够操作该文件***的工具来对其中的数据进行处理。本公开实施例中，通过Hadoop提供的Hadoop分布式文件***（Hadoop Distributed FileSystem，HDFS）组件，通过监听指定类型文件的改动（tailDir Source），获取所述处理数据，并通过组件完成数据更新。

具体实施时，所述载体响应于目标数据源为第二类型数据源，则基于第一驱动连接所述集群和所述目标数据源，基于所述结构化查询语言从所述集群中获取所述处理数据，以基于所述处理数据对所述目标数据源中的数据进行修改。

具体的，若目标数据源为Oracle数据库，则通过Jdbc（第一驱动）连接所述集群和所述目标数据源，通过结构化查询语言（Structured Query Language，SQL）形式修改数据源中的数据。

如此，通过本公开实施例提供的数据处理方法，从实时数据源和非实时数据源抽取数据；根据数据源不同选择各自适合的数据抽取方式，抽取的数据会统一汇总到多源大数据应用的数据源抽取模块。多源大数据应用会整理抽取的数据，生成任务进行分发。各个数据处理节点在收到任务后就会对任务加锁，然后调用任务指定的数据加工方案处理数据。在任务处理完成之后，数据将会被输出至目标数据源。如此，可以提升大量数据情况下的数据处理性能和时效性。

针对多数据源的不同业务场景，采用本公开实施例提供的数据处理方法进行数据处理得到的提升如下：

1）商机分配中心业务场景，同库大量数据表关联，查询性能差，基于本公开实施例提供的数据处理方法可以提升查询性能，使时效性变为实时，与相关技术相比，查询耗时小于1秒，查询性能提升500%。

2）客户访客记录场景，同库大量数据表关联，查询性能差，基于本公开实施例提供的数据处理方法可以提升查询性能，使时效性变为实时，与相关技术相比，查询耗时小于1秒，查询性能提升400%。

3）商机分配批次导入场景，多***间跨库数据加工，同库大量数据表关联，查询性能差，基于本公开实施例提供的数据处理方法可以提升查询性能，使时效性由T+1变为实时（小于30秒），与相关技术相比，查询耗时小于500毫秒，查询性能提升300%。

针对大数据量的不同业务场景，采用本公开实施例提供的数据处理方法进行数据处理得到的提升如下：

1）实施存款余额汇总场景，百万级流水数据实时加工，千万级数据关联翻倍后分组、汇总查询，时效性和查询性差，基于本公开实施例提供的数据处理方法可以提升查询性能和时效性，使时效性由T+1变为实时，与相关技术相比，查询耗时小于2秒，查询性能提升400%。

2）实施存款监测场景，千万级数据关联翻倍后分组、汇总查询，时效性和查询性差，基于本公开实施例提供的数据处理方法可以提升查询性能和时效性，使时效性由T+1变为实时，与相关技术相比，查询耗时小于1秒，查询性能提升400%。

图4示出了本公开实施例提供的数据处理装置的可选结构示意图，将根据各个步骤进行说明。

在一些实施例中，数据处理装置包括多数据源抽取模块301和并行计算（IgniteCompute）模块302。

所述多数据源抽取模块301，用于获取不同类型的数据源的变动数据信息；所述数据源至少包括实时数据源和非实时数据源；用于通过第一接口，在集群中至少两个节点创建所述变动数据信息对应的至少两个任务，在节点中存储所述任务；其中，每个节点中存储的任务不同，所述第一接口为分布式内存数据库对应的接口；用于令集群中的节点对集群中除自身以外的至少一个节点创建的任务进行备份，使集群中每一个节点均包括任务集；所述任务集包括节点自身创建的任务与备份的任务；

所述并行计算模块302，用于使集群中每一个节点并行处理所述任务集中自身创建的任务；在集群中任一节点满足第一条件的情况下，使所述节点处理任务集中其他节点创建的任务；

所述第一条件包括：节点处于空闲状态。

所述多数据源抽取模块301，具体用于基于任一数据源对应的日志获取变动数据信息，生成队列文件；基于数据源端的数据推送组件读取所述队列文件，并将所述队列文件推送至目标端；目标端通过数据接收组件接收所述队列文件，并基于数据复制组件读取所述队列文件，将所述变动数据信息推送至卡夫卡***；所述多数据源抽取模块301消费卡夫卡消息，获得所述数据源对应的变动数据信息。

具体实施时，在源数据库新建OGG用户，基于源数据库online redo log或者archive log获得数据变动信息，生成Trail文件。数据推送组件（DataPump）会读取Trail文件，并推送至目标端OGG；目标端通过数据接收组件（Collector）接收源端推送的Trail文件；目标端数据复制组件（Replicate）读取Trail文件，将变动数据信息推送至Kafka；所述多数据源抽取模块301消费Kafka消息，获得变动数据信息。

所述多数据源抽取模块301还用于任务生成。

在一些实施例中，所述多数据源抽取模块301获取所述变动数据信息之后，使用分布式内存数据库，通过第一接口，在集群中至少两个节点创建所述变动数据信息对应的至少两个任务，在节点中存储所述任务。

具体实施时，在多数据源抽取模块301获取到数据之后，数据将被传递至任务生成模块。使用Apache Ignite，通过实现IgniteClosure接口，将数据加工方法作为参数，在不同的集群节点中创建数据加工任务。

所述多数据源抽取模块301还用于任务分布式存储。

因为多源数据处理应用采用集群部署，存在多个节点，所以任务会在不同节点上被创建，整体采用分布式的存储方式。

所述多数据源抽取模块301还用于任务多节点备份。

通过配置备份副本数量N，集群将会创建N+1个副本，其中一个作为主分片，其所在节点被称为主节点，其余分片为备份分片，所在节点被称为备份节点。

在一些实施例中，所述数据处理装置还包括任务分发（Ignite Cache）模块303。

所述任务分发模块303，用于响应于所述集群中第一节点被删除，则确认所述第一节点对应的任务，将所述第一节点对应的任务分配至集群中其他节点；或者，响应于所述集群中新增第二节点，则将所述集群中其他节点对应的任务均衡分配至所述第二节点。

具体的，所述任务分发模块303还用于任务拉取。

在任务创建和分片备份完成后，每个节点都获得了其自身需要处理的任务集。任务处理节点会优先拉取其自身节点对应的任务并执行，在所属的任务全部执行完成后，为了避免出现空闲节点导致资源浪费。本方案实现了任务的跨节点获取和执行，空闲节点会通过任务分发模块303主动尝试从其他繁忙节点获取额外任务进行执行。

所述任务分发模块303还用于任务锁定。

为了保证数据处理的时效性，每个节点都采用了多线程并发处理的模式，必须要避免出现多线程重复执行同一个任务的情况。对此，对任务进行加锁来保证每个任务只能被执行一次，当一个数据加工线程尝试开始一个新任务时，会首先通过任务分发模块303尝试对数据任务进行加锁，加锁失败则证明任务正在被其他线程执行，通过任务分发模块303尝试对下一个任务进行加锁，加锁成功则获取该任务进行处理。

所述任务分发模块303还用于任务再分配。

为了保证集群的高可扩展性和高可用性，由于任务分布式存储和多节点备份保证了每一份数据都有多个节点进行保存。当一个节点离开集群后，为了保证原本属于该节点的数据不丢失，任务分发模块303会将其中一个备份的分片设置为主分片，并开始数据的再平衡，保证在剩余节点内数据依然均匀分布。同理，当有一个新的节点加入集群时，为了满足数据在所有节点上均衡分配，任务分发模块303会进行再平衡，将一部分数据分配给新节点保存。

其中，再平衡的方式有SYNC和ASYNC两种。

所述并行计算模块302，还用于获取集群中各节点处理任务所对应的处理数据，基于业务需求，将所述处理数据发送至不同类型的目标数据源。

所述并行计算模块302，具体用于响应于目标数据源为第一类型数据源，则对所述处理数据进行封装，并发送至卡夫卡***，基于第一索引加载第一应用消费；所述第一应用从所述卡夫卡***获取所述处理数据，以基于第一请求和所述处理数据，对目标数据源中的数据进行修改；响应于目标数据源为第二类型数据源，则基于第一驱动连接所述集群和所述目标数据源，基于所述结构化查询语言从所述集群中获取所述处理数据，以基于所述处理数据对所述目标数据源中的数据进行修改。

所述并行计算模块302，还用于自适应配置。

具体的，为了适应不同配置的服务器，应用在部署到服务器时，并行计算模块302会读取服务器的配置，如CPU核数M等。应用的线程初始化方法会根据获取的配置结果，创建一个核心线程数为M-1的线程池。该特性保证应用可以在不同配置的服务器上快捷部署，直接快速扩展。

所述并行计算模块302，还用于面向方法编程。

具体的，任务创建时支持将数据加工方法作为参数传入，该特性简化后续新业务场景的接入成本和开发人员的学习成本。一个新场景的接入可以复用应用的整体架构，无需额外搭建，同时对于开发人员而言，无需关注其他实现，只需专注于自己业务场景的数据加工步骤。

所述并行计算模块302，还用于快速扩展。

该功能依赖任务再分配和自适应配置特性，保证集群在遇到性能瓶颈时能够通过横向扩展服务器快速增强任务处理能力，并通过再平衡策略分担集群压力。

所述并行计算模块302，还用于多源输出。

该功能特性与多数据源抽取模块对应，本公开实施例的核心思想是从多数据源获取大量数据，通过并行加工后根据业务场景需要输出到多数据源。根据目前的业务需要，数据会被输出至ElasticSearch和Oracle中。由于不同数据源写入数据的方式不同，需要选择合适的输出方式。如ElasticSearch是通过封装数据改动的Kafka消息，推送Kafka，然后由ES索引加载应用消费，进行http请求，修改ES数据。Oracle则是通过Jdbc链接，通过sql形式修改数据。

根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。

图5示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，电子设备800包括计算单元801，其可以根据存储在只读存储器（ROM）802中的计算机程序或者从存储单元808加载到随机访问存储器（RAM）803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出（I/O）接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如数据处理方法。例如，在一些实施例中，数据处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的数据处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行数据处理方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上***的***（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***（例如，作为数据服务器）、或者包括中间件部件的计算***（例如，应用服务器）、或者包括前端部件的计算***（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将***的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取集群中各节点处理任务所对应的处理数据，基于业务需求，将所述处理数据发送至不同类型的目标数据源，包括：

响应于目标数据源为第一类型数据源，则对所述处理数据进行封装，并发送至卡夫卡***，基于第一索引加载第一应用消费封装后的处理数据；所述第一应用从所述卡夫卡***获取所述封装后的处理数据，以基于第一请求和所述封装后的处理数据，对目标数据源中的数据进行修改；

响应于目标数据源为第二类型数据源，则基于第一驱动连接所述集群和所述目标数据源，基于结构化查询语言从所述集群中获取所述处理数据，以基于所述处理数据对所述目标数据源中的数据进行修改；

所述第一条件包括：节点处于空闲状态。

2.根据权利要求1所述的方法，其特征在于，所述获取不同类型的数据源的变动数据信息，包括：

基于任一数据源对应的日志获取变动数据信息，生成队列文件；

基于数据源端的数据推送组件读取所述队列文件，并将所述队列文件推送至目标端；

目标端通过数据接收组件接收所述队列文件，并基于数据复制组件读取所述队列文件，将所述变动数据信息推送至卡夫卡***；

数据源抽取模块基于所述卡夫卡***，获得所述数据源对应的变动数据信息。

3.根据权利要求1所述的方法，其特征在于，所述通过第一接口，在集群中至少两个节点创建所述变动数据信息对应的至少两个任务，在节点中存储所述任务，包括：

获取所述变动数据信息之后，使用分布式内存数据库，通过第一接口，在集群中至少两个节点创建所述变动数据信息对应的至少两个任务，在节点中存储所述任务；

其中，每一变动数据信息对应一个任务。

4.根据权利要求1所述的方法，其特征在于，所述集群中每一个节点并行处理所述任务集中自身创建的任务，包括每个节点执行以下操作：

对待执行的任务执行锁定操作；

响应于锁定操作成功，则基于被锁定的任务对应的数据加工策略，执行所述被锁定的任务；

响应于锁定操作失败，则表征所述待执行的任务被其他节点执行，对其他待执行的任务执行锁定操作，直至锁定操作成功，则基于被锁定的任务对应的数据加工策略，执行所述被锁定的任务。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于所述集群中第一节点被删除，则确认所述第一节点对应的任务，将所述第一节点对应的任务分配至集群中其他节点；

或者，响应于所述集群中新增第二节点，则将所述集群中其他节点对应的任务均衡分配至所述第二节点。

6.一种数据处理装置，其特征在于，所述装置包括：

并行计算模块，用于使集群中每一个节点并行处理所述任务集中自身创建的任务；在集群中任一节点满足第一条件的情况下，使所述节点处理任务集中其他节点创建的任务，获取集群中各节点处理任务所对应的处理数据，基于业务需求，将所述处理数据发送至不同类型的目标数据源；

所述并行计算模块，具体用于响应于目标数据源为第一类型数据源，则对所述处理数据进行封装，并发送至卡夫卡***，基于第一索引加载第一应用消费封装后的处理数据；所述第一应用从所述卡夫卡***获取所述封装后的处理数据，以基于第一请求和所述封装后的处理数据，对目标数据源中的数据进行修改；响应于目标数据源为第二类型数据源，则基于第一驱动连接所述集群和所述目标数据源，基于结构化查询语言从所述集群中获取所述处理数据，以基于所述处理数据对所述目标数据源中的数据进行修改；

所述第一条件包括：节点处于空闲状态。

7.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

8.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行根据权利要求1-5中任一项所述的方法。