CN107368503B

CN107368503B - 基于Kettle的数据同步方法和***

Info

Publication number: CN107368503B
Application number: CN201610320280.3A
Authority: CN
Inventors: 李飞
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2016-05-13
Filing date: 2016-05-13
Publication date: 2021-04-30
Anticipated expiration: 2036-05-13
Also published as: CN107368503A

Abstract

本发明提供了一种基于Kettle的数据同步方法和***，其中，所述方法包括：通过客户端配置数据源信息及参数信息，并将数据源配置信息及参数配置信息存储在数据库中；通过客户端Kettle图形化界面编辑包括数据流转逻辑的Kettle文件；将所述Kettle文件上传给Kettle执行引擎；动态解析所述Kettle文件；和按照数据流转逻辑及相应的参数配置信息，根据数据源配置信息，将源数据源的相应数据流转到目标数据源。所述***包括客户端和数据采集平台，客户端用于进行信息配置、编辑和上传Kettle文件；数据采集平台用于接收、动态解析所述Kettle文件，根据数据源配置信息，将源数据源的相应数据流转到目标数据源。本发明可以任意指定多个数据源之间的数据流转，快速、便捷，***间的耦合度低。

Description

基于Kettle的数据同步方法和***

技术领域

本发明涉及数据处理技术领域，具体地说，涉及一种基于Kettle的数据同步方法和***。

背景技术

目前，在大部分企业中，随着企业业务的不断扩大，企业***在不断的增加、迭代更新，***之间也会有很多的关联，就像蜘蛛网一样，错综复杂。当已有***已经不能满足公司业务需求时，不得不重新对***进行设计开发。然而这必然会面临一个非常艰难的事情：如何做到新老数据的一致性。通常的方案是：在进行新***的设计时，会兼容老***的设计，做成Worker定时将老***数据同步到新***。这种方案当然可行，但是同步数据消耗的时间非常多。如果公司有成千上万个***，每升级一个新***，都要重新同步数据。将花费太多的时间。因此，除了在设计新***时考虑与老***的兼容性的同时，还需要寻找完成***之间的数据同步的方案。

目前，使用较多的方案有采用Sql语句数据同步、应用程序之间的定时同步、通过***间RPC调用，例如：WebService、RMI、或者企业内部的RPC框架，还有采用一些Etl工具在本地做数据转换。

在错综复杂的企业***中，进行数据采集，然后采用Sql语句导入，工作量比较大。如果采用应用程序之间的定时同步，会限制企业内部中各应用之间的扩展。如果采用远程的RPC调用，必然会因为远程调用而对相应的应用服务器带来很大的压力，并且集成相对较复杂。采用Etl工具做数据转换，由于是对线上数据库直接操作，必然会有权限限制和安全问题，并且这种做法通常也不符合企业流程的规范。

在Etl工具中，有一种名为Kettle的开源的Etl工具，由纯Java编写，在数据抽取上具有高效、稳定的特点。它允许管理不同数据源的数据，通过提供一个图形化的界面来实现用户想完成的功能。

发明内容

本发明要解决的技术问题在于，针对现有技术的不足，提供一种基于Kettle的数据同步方法和***，用于实现***之间的快速数据同步。

为了解决上述技术问题，根据本发明的一个方面，本发明提供了一种基于Kettle的数据同步方法，其中，包括：

通过客户端配置数据源及参数，并将数据源配置信息及参数配置信息存储在数据库中；

通过客户端Kettle图形化界面编辑包括数据流转逻辑的Kettle文件；

将所述Kettle文件上传给Kettle执行引擎；

动态解析所述Kettle文件；和

按照数据流转逻辑及相应的参数配置信息，根据数据源配置信息，将源数据源的相应数据流转到目标数据源。

优选地，所述数据源配置信息包括数据源标识、数据源类型、数据源的IP或URL链接地址；和/或，所述参数包括数据流转时所需的动态参数。

优选地，所述动态解析所述Kettle文件的步骤包括：

动态加载所述Kettle文件，生成相应的转换对象；

根据所述数据源配置信息和参数配置信息，对所述转换对象进行数据源信息和参数信息的赋值。

优选地，所述转换对象包括数据源属性信息、参数属性信息和节点属性信息；

所述对所述转换对象进行数据源信息的赋值的步骤包括：

根据所述数据源属性信息中的数据源标识，在所述数据源配置信息中获取对应的源数据源信息和目标数据源信息；

根据所述源数据源信息和目标数据源信息修改所述数据源属性信息；

所述对所述转换对象进行参数信息的赋值的步骤包括：

根据所述参数属性信息中需要赋值的参数查找所述参数配置信息，根据查找到的具体参数，修改所述参数属性信息。

优选地，所述数据源配置信息记录在数据源配置表中；和/或，所述参数配置信息记录在参数表中。

优选地，所述数据源类型包括Oralce、MySql、SQLServer、WebService和SAP多种类型。

优选地，在将所述Kettle文件上传给Kettle执行引擎之前，在本地对所述Kettle文件执行测试，并校验获取数据的完成性和准确性。

优选地，在将源数据源的相应数据流转到目标数据源之后，还包括向客户端返回执行信息的步骤。

为了解决上述技术问题，根据本发明的另一个方面，本发明提供了一种基于Kettle的数据同步***，包括：

客户端，用于进行信息配置、编辑和上传Kettle文件，其中，并将数据源配置信息及相关参数配置信息存储在数据库中；和

数据采集平台，用于接收、动态解析所述Kettle文件，按照数据流转逻辑及相应的参数信息，根据数据源信息，将源数据源的相应数据流转到目标数据源。

优选地，所述客户端包括：

配置模块，用于配置数据源信息和参数信息，并将数据源配置信息及相关参数配置信息存储在数据库中；和

编辑模块，通过提供Kettle图形化界面，用于编辑包括数据流转逻辑的Kettle文件。

优选地，所述数据采集平台包括：

Kettle执行引擎，用于动态地解析所述Kettle文件，并完成数据的流转；

多种API，用于供所述Kettle执行引擎调用完成所述Kettle文件的解析和数据的流转；和

数据库，用于提供所述Kettle解析过程中需要的数据源配置信息及相关参数配置信息。

优选地，所述Kettle执行引擎包括：

转换对象创建模块，用于根据上传来的Kettle文件创建相应的转换对象；

信息解析模块，用于从所述转换对象获取数据库属性信息和参数属性信息；

赋值模块，用于根据数据库属性信息和参数属性信息，查询所述数据源配置信息及参数配置信息，根据查询到的匹配的数据库信息修改所述转换对象的数据库属性信息，根据查询到的匹配的参数信息修改所述转换对象的参数属性信息；和

调度模块，与多个API相连接，调用相应的API初始化解析Kettle文件的资源环境、完成对转换对象的赋值和执行所述已赋值的转换对象，从而完成数据的流转。

根据本发明的第三方面，提供一种数据处理装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行上述基于Kettle的数据同步方法。

根据本发明的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现上述基于Kettle的数据同步***的数据流转方法。

根据本发明提供的方案，可以任意指定多个数据源之间的数据流转，即数据同步，快速、便捷，不需要对每次的数据同步过程写负责的Sql语句，也不需要在应用中做定时任务的RPC远程的调用。Kettle文件在执行中，支持热部署，上传即生效，***间的耦合度低。

附图说明

通过参照以下附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1为本发明的实现数据同步的总体设计模块；

图2为本发明所述数据流转逻辑的原理示意图；

图3为本发明所述基于Kettle的数据同步***的原理结构框图；

图4为本发明所述Kettle引擎执行的原理结构框图；

图5为本发明基于Kettle的数据同步方法的流程示意图；和

图6为本发明动态解析Kettle文件的流程示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。

附图中的流程图、框图图示了本发明实施例的***、方法、装置的可能的体系框架、功能和操作，流程图和框图上的方框可以代表一个模块、程序段或仅仅是一段代码，所述模块、程序段和代码都是用来实现规定逻辑功能的可执行指令。也应当注意，所述实现规定逻辑功能的可执行指令可以重新组合，从而生成新的模块和程序段。因此附图的方框以及方框顺序只是用来更好的图示实施例的过程和步骤，而不应以此作为对发明本身的限制。

本发明提供了一种基于Kettle的数据同步***和方法，如图1所示，为了实现数据同步，本发明需要从四个方面出发：配置信息、Kettle文件编辑、Kettle执行引擎的解析服务和为了完成解析服务的各种Kettle应用程序接口(简称Kettle API)。

配置信息包括在数据同步时所需要的各种信息和参数。主要包括数据源信息和数据同步过程中使用到的一些动态参数。其中，数据源按同步时的数据流向可分为源数据源和目标数据源。无论是源数据源和目标数据源，都需要相同的一些数据源信息，如数据源标识、数据源类型、数据源的IP或URL链接地址。其中，所述数据源标识用于区分数据源，数据源类型为该数据源中的数据类型，如Oralce、MySql、SqlServer、WebService、SAP等类型的数据，而数据源的IP或URL链接地址则提供了所述数据源的地址。

所述的参数为动态参数，根据Kettle文件的不同而不同，因此，每一个Kettle文件都有与其对应的动态参数，例如：数据流转过程中使用的SQL语句中的条件、URL的参数信息等。

上述的配置信息通过客户端的配置页面来完成，配置完的信息存储在数据采集平台中的数据库中。

Kettle文件的编辑主要是在客户端提供的Kettle图形化界面完成，根据数据同步的需要，设置不同的节点，从而形成数据流转逻辑。例如，如图2所示，为一简单的Kettle文件的编辑画面。其中，表输入节点、SAP输入和REST Client这三个节点分别用于获取数据源的数据。以表输入节点为例，表输入节点定义了数据来源，即从某个数据源的某个数据表来获取数据。

JavaScript节点可以编写JS脚本。在实际应用过程中，可以将数据源中每一行和每一列中的数据进行校验和数据格式转换。比如：数值型数据校验、日期格式校验、以及字符串拆分、字符串与其他数据类型之间的转换。这样大大降低了在程序中通过代码的校验。

表输出节点用于选定业务表、指定要***的列，***数据。该节点可以指定是批量***还是单条***，也可以指定是否在同一个事务中处理。

表输入节点、SAP输入和REST Client这三个节点用来从相应的源数据源获取数据，因此，需要对其配置相应的作为源数据源的数据库信息，如数据库类型，如Mysql、oralce、SQLServer等。同理，表输出节点也需要配置相应的作为目标数据源的数据库信息。因而，可以理解为将表输入节点从源数据源获取的数据***到表输出节点对应的目标数据源中。整个kettle文件包括由多个节点组成一个文件和DB连接信息，在真正加载的kettle文件的时候，会根据已经配置的数据源配置信息，将这个两个节点对应的数据库替换为真正的线上数据库，从而达到数据的真正流转。

Kettle执行引擎对所述kettle文件进行动态解析，支持各种Kettle连接类型，如Oralce、MySql、SQLServer、WebService、SAP等,因而可以与数据源配置信息中的数据源类型相匹配，用于连接不同数据类型的数据库。因而无论kettle文件涉及的数据源类型为哪种类型，Kettle执行引擎都可以对其进行动态、实时地解析，并支持热部署，从而实现了kettle文件的上传即生效。Kettle执行引擎定义并规定了在执行过程中的执行顺序，比如：执行之前参数的赋值、执行过程中数据源的解析和几点的解析，以及解析完之后返回值的输出等。

Kettle API中包含各种Etl工具中常用的Kettle API，如Kettle资源环境API，各种转换对象API。这些Kettle API主要用于在进行解析服务时供Kettle引擎调用来实现相应的功能。

根据上述设计模块，本发明提供了基于Kettle的数据同步***，如图3所示，包括客户端1和数据采集平台2。客户端1用于进行信息配置、编辑和上传Kettle文件，其中，所述配置信息包括数据源配置信息及相关参数配置信息。数据采集平台2用于接收Kettle文件，动态解析所述Kettle文件，按照数据流转逻辑及相应的参数配置信息，根据数据源配置信息，将源数据源A的相应数据流转到目标数据源B。

具体地，如图4所示，所述客户端包括配置模块11和编辑模块12，配置模块11提供配置界面，用户通过该配置界面配置数据源信息和数据流转过程中需要的各种动态参数信息，数据源配置信息包括源数据源信息和目标数据源信息。在一个具体实施方式中，在配置数据源信息时生成数据源配置表，在配置参数信息时生成参数表，并将这两个表存储到数据采集平台2的数据库23中。编辑模块12提供Kettle图形化界面，用户通过该图形化的界面编辑Kettle文件，如前所述，根据数据同步的需要，设置不同的节点，从而形成数据流转逻辑。

所述数据采集平台2包括Kettle执行引擎21、多种API22和数据库23，所述Kettle执行引擎21通过调用所述API22解析所述Kettle文件，并完成数据的流转。具体地，所述Kettle执行引擎21包括转换对象创建模块211、信息解析模块212、赋值模块213和调度模块214。

其中，转换对象创建模块211用于根据上传来的Kettle文件创建相应的转换对象。

信息解析模块212用于从所述转换对象获取数据库属性信息和参数属性信息。

赋值模块213用于根据数据库属性信息和参数属性信息，查询所述数据源配置信息及参数配置信息，根据查询到的匹配的数据库信息修改所述转换对象的数据库属性信息，根据查询到的匹配的参数信息修改所述转换对象的参数属性信息。

调度模块214与多个API相连接，调用相应的API初始化解析Kettle文件的资源环境、完成对转换对象的赋值和执行所述已赋值的转换对象，从而完成数据的流转。

所述API22包括各种功能的API，如：初始化API，用于初始化解析Kettle文件的资源环境；赋值API，用于完成转换对象相应属性信息的动态赋值；转换对象的执行API，用于执行已赋值的转换对象，从而完成数据的流转。

关于基于Kettle的数据同步方法，如图5所示，具体包括：

步骤S1，配置数据源信息及相关参数信息，其中，所述数据源信息包括源数据源信息和目标数据源信息。

利用客户端1提供的配置界面可以配置多个数据源，每个数据源都有唯一的数据源标识。数据源配置信息包括但不限于数据源标识、数据源类型、数据源的IP或URL链接地址。通过数据源标识，便可以得到所需要的其他的数据库信息，如IP地址等，从而连接到相应的数据库。

步骤S2，通过Kettle图形化界面编辑包括数据流转逻辑的Kettle文件；所述Kettle文件中具有数据源标识，该数据源标识与配置信息中的数据源标识一致。

在所述Kettle文件生成之后、上传给Kettle执行引擎之前，还要在本地执行对所述Kettle文件的测试，测试的过程为：

通过所述表输入节点，获取测试数据，例如：test1数据库中table1的数据；。

通过对比所述获取的数据与预设的需求数据，校验获取数据的完成性和准确性；例如，将table1中的数据与Excel需求文件中的数据进行对比，主要是与Excel需求文件中的列进行对比，查看是否导入并正确导入了需求文件中的数据。

如果校验通过，即表输入节点获取了正确的、需要的数据，将获取的数据***到表数据节点中的指定数据库的数据表中。例如test2数据库的table2。从而则将test1数据库中table1的数据按照指定的列、行，***到test2数据库的table2中，并将操作过程中的日志信息返回给客户。客户查看是否有异常，是否正确执行了数据的流转。如果正确执行了数据的流转，则可以执行步骤S2，将该Kettle文件上传给Kettle执行引擎。

步骤S3，将Kettle文件上传给Kettle执行引擎21。在步骤1进行信息配置时，可以将数据源信息和参数信息分别配置为数据源配置表和参数表，并存在数据采集平台的数据库23中。

步骤S4，动态解析所述Kettle文件。首先，Kettle执行引擎21通过调用初始化API，初始化解析Kettle文件的资源环境。而后，Kettle执行引擎的转换对象创建模块211根据所述Kettle文件创建转换对象，并由赋值模块通过调度模块214调用赋值API完成转换对象相应属性信息的动态赋值。其中，转换对象包括数据源属性信息、参数属性信息和节点属性信息，当前得到的所述数据源属性信息为测试时的数据源信息，并不是真正的要流数的数据源信息，所以，需要将原来的测试数据源信息修改为真正要流转数据的数据库信息。

关于参数，例如：Kettle文件中包含表输入节点的时候，里面的查询语句是一个带参数的Sql语句，这时候要将Sql语句中用到的条件参数赋予配置时的对应的参数信息值。而对于Rest Client节点，也需要一些请求参数，这些参数都是在这时准备好，即在运行之前给这些参数赋予恰当的值。

步骤S5，当上述工作完成之后，调用转换对象的执行API，执行已赋值的转换对象，从而达到将源数据源的相应数据流转到目标数据源的目的。

另外，为了能使用户了解数据的流转情况，在将源数据源的相应数据流转到目标数据源之后，还包括返回执行信息的步骤,即将记录操作过程的日志信息发送回客户端。

关于步骤S4中的动态解析所述Kettle文件具体如图6所示，包括以下步骤：

步骤S41,调用初始化API，初始化Kettle文件执行的资源环境；

步骤S42,动态加载所述Kettle文件，生成相应的转换对象，所述转换对象包括数据源属性信息、参数属性信息和节点属性信息；

步骤S43,调用API解析数据源信息，根据所述转换对象的数据源属性信息中的数据源标识，在所述数据源配置表中获取与所述数据源标识对应的源数据源信息和目标数据源信息；

步骤S44,根据所述源数据源信息和目标数据源信息修改所述数据源属性信息，完成对数据源信息的赋值；

步骤S45,根据所述参数属性信息中需要赋值的参数查找所述参数表；

步骤S46,根据查找到的具体参数，修改所述参数属性信息,完成参数的赋值。

本发明可以配置不同类型的数据源，从而实现不同数据源的之间的数据流转。并且可以任意指定多个数据源之间的数据转换，快速、便捷，不需要对每次数据同步写负责的Sql，也不需要再应用中做定时任务RPC远程的调用。

由于本发明可以动态解析所述Kettle文件，因而支持热部署，上传即可生效。本发明可以配置不同的数据库类型，支持多种数据的连接，在***内部解决***连接类型问题，因而***间的耦合度低。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Kettle的数据同步方法，其中，包括：

通过客户端配置数据源及相关参数，并将数据源配置信息及参数配置信息存储在数据库中；

将所述Kettle文件上传给Kettle执行引擎；

动态加载所述Kettle文件，生成相应的转换对象，其中，所述转换对象包括数据源属性信息和参数属性信息；

根据所述数据源属性信息中的数据源标识，在数据源配置信息中获取对应的源数据源信息和目标数据源信息；

根据所述参数属性信息中需要赋值的参数查找参数配置信息，根据查找到的具体参数，修改所述参数属性信息；和

2.如权利要求1所述的基于Kettle的数据同步方法，其中，所述数据源配置信息包括数据源标识、数据源类型、数据源的IP或URL链接地址；和/或，所述参数包括数据流转时所需的动态参数。

3.如权利要求2所述的基于Kettle的数据同步方法，其中，所述数据源配置信息记录在数据源配置表中；和/或，所述参数配置信息记录在参数表中。

4.如权利要求2所述的基于Kettle的数据同步方法，其中，所述数据源类型包括Oralce、MySql、SQLServer、WebService或SAP中的一种或任意几种类型的组合。

5.如权利要求1所述的基于Kettle的数据同步方法，其中，在将所述Kettle文件上传给Kettle执行引擎之前，在本地对所述Kettle文件执行测试，并校验获取数据的完成性和准确性。

6.如权利要求1所述的基于Kettle的数据同步方法，其中，在将源数据源的相应数据流转到目标数据源之后，还包括向客户端返回执行信息的步骤。

7.一种基于Kettle的数据同步***，包括：

客户端，用于进行信息配置、编辑和上传Kettle文件；和

数据采集平台，用于动态加载所述Kettle文件，生成相应的转换对象，其中，所述转换对象包括数据源属性信息和参数属性信息，

根据所述数据源属性信息中的数据源标识，在数据源配置信息中获取对应的源数据源信息和目标数据源信息，

根据所述源数据源信息和目标数据源信息修改所述数据源属性信息，

根据所述参数属性信息中需要赋值的参数查找参数配置信息，根据查找到的具体参数，修改所述参数属性信息，按照数据流转逻辑及相应的参数配置信息，根据数据源配置信息，将源数据源的相应数据流转到目标数据源。

8.如权利要求7所述的基于Kettle的数据同步***，其中，所述客户端包括：

配置模块，用于配置数据源和相关参数，并将数据源配置信息及参数配置信息存储在数据库中；

9.如权利要求7所述的基于Kettle的数据同步***，其中，所述数据采集平台包括：

多种API，用于供所述Kettle执行引擎调用，完成所述Kettle文件的解析和数据的流转；和

数据库，用于提供所述Kettle解析过程中需要的数据源配置信息及参数配置信息。

10.如权利要求9所述的基于Kettle的数据同步***，其中，所述Kettle执行引擎包括：

赋值模块，用于根据数据库属性信息和参数属性信息，查询所述数据源配置信息及参数配置信息，根据查询到的匹配的数据库信息修改所述转换对象的数据库属性信息，根据查询到的匹配的参数信息修改所述转换对象的参数属性信息；

11.一种数据处理装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至6中任一项所述的基于Kettle的数据同步方法。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如权利要求1至6中任一项所述的基于Kettle的数据同步方法。