CN113486113A

CN113486113A - 一种基于Kettle的增量同步数据的方法及终端

Info

Publication number: CN113486113A
Application number: CN202110714280.2A
Authority: CN
Inventors: 邱浩翔; 吴闽华; 姜坤; 卫宣安
Original assignee: Shandong Qilu Shutong Technology Co ltd
Current assignee: Shandong Qilu Shutong Technology Co ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-10-08
Anticipated expiration: 2041-06-25
Also published as: CN113486113B

Abstract

本发明公开了一种基于Kettle的增量同步数据的方法及终端，所述方法包括：在一个数据库表内获取需要进行增量同步的数据库表信息，并记录到Kettle的内存中；若所述数据库表信息存在增量字段，则将增量字段记录到内存中，若所述数据库表信息不存在增量字段，则通过ID记录表完成增量记录；对于有增量字段的表，则直接将数据生成执行的SQL进行保存，对于没有增量字段的表，则按照记录的信息从数据库按ID进行查找，并组成***SQL；将转换处理好的SQL分布执行，并将出错或者有问题的信息记录进缓存；将缓存中的信息记录到专用的日志库，并且更新统计信息表。本发明通过体系化进行增量同步，以适配所有增量同步的情况，使得增量同步更加体系化和智能化。

Description

一种基于Kettle的增量同步数据的方法及终端

技术领域

本发明涉及数据同步技术领域，尤其涉及一种基于Kettle的增量同步数据的方法、终端及计算机可读存储介质。

背景技术

数据库(Database)是按照数据结构来组织、存储和管理数据的仓库，它产生于距今六十多年前，随着信息技术和市场的发展，特别是二十世纪九十年代以后，数据管理不再仅仅是存储和管理数据，而转变成用户所需要的各种数据管理的方式。数据库有很多种类型，从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库***都在各个方面得到了广泛的应用。

ETL(Extract-Transform-Load，数据仓库技术)是用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL是将业务***的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据，ETL是BI(商业智能)项目重要的一个环节。

增量同步和全量同步是数据库同步的两种方式。全量同步是一次性同步全部数据，增量同步则只同步两个数据库不同的部分。许在很多企业使用ETL的过程中增量同步都是避免不开的问题，比起全量同步数据，增量同步能够减少同步的数据量，减轻服务器的压力和数据库的写入压力，但是在现有的增量同步方法有很多的人工介入的部分，往往都是不够体系化，不够智能化。

因此，现有技术还有待于改进和发展。

发明内容

本发明的主要目的在于提供一种基于Kettle的增量同步数据的方法、终端及计算机可读存储介质，旨在解决现有技术中增量同步方法有很多的人工介入的部分，往往都是不够体系化，不够智能化的问题。

为实现上述目的，本发明提供一种基于Kettle的增量同步数据的方法，所述基于Kettle的增量同步数据的方法包括如下步骤：

在一个数据库表内获取需要进行增量同步的数据库表信息，并将获取的所述数据库表信息记录到Kettle的内存中；

若所述数据库表信息存在增量字段，则将增量字段记录到内存中，若所述数据库表信息不存在增量字段，则通过ID记录表完成增量记录，并将ID记录表和源数据表的ID进行连接得到未同步过数据的ID，存入内存；

对于有增量字段的表，则直接将数据生成执行的SQL进行保存，对于没有增量字段的表，则按照记录的信息从数据库按ID进行查找，并组成***SQL；

将转换处理好的SQL分布执行，并将出错或者有问题的信息记录进缓存；

将缓存中的信息记录到专用的日志库，并且更新统计信息表。

可选地，所述的基于Kettle的增量同步数据的方法，其中，所述在一个数据库表内获取需要进行增量同步的数据库表信息，具体为：

通过表获取.ktr在一个数据库表内获取需要进行增量同步的数据库表信息。

可选地，所述的基于Kettle的增量同步数据的方法，其中，所述数据库表信息包括：数据库名、是否有增量字段、增量字段名、增量字段类型和增量字段最新值。

可选地，所述的基于Kettle的增量同步数据的方法，其中，所述在一个数据库表内获取需要进行增量同步的数据库表信息，并将获取的所述数据库表信息记录到kettle的内存中，之后还包括：

通过增量处理.ktr判断所述数据库表信息是否存在增量字段。

可选地，所述的基于Kettle的增量同步数据的方法，其中，所述将ID记录表和源数据表的ID进行连接得到未同步过数据的ID，存入内存，之后还包括：

通过数据转换处理.ktr判断表为增量字段的表还是没有增量字段的表。

可选地，所述的基于Kettle的增量同步数据的方法，其中，所述对于没有增量字段的表，则按照记录的信息从数据库按ID进行查找，并组成***SQL，还包括：

自动将值为NULL的数据补齐为对应的字段类型数据。

可选地，所述的基于Kettle的增量同步数据的方法，其中，所述将转换处理好的SQL分布执行，并将出错或者有问题的信息记录进缓存，具体为：

通过写入数据.ktr将转换处理好的SQL分布执行，并将出错或者有问题的信息记录进缓存；

所述缓存记录的信息包括：行的表名、行增量字段的值、行的SQL信息和行的报的错误日志。

可选地，所述的基于Kettle的增量同步数据的方法，其中，所述将缓存中的信息记录到专用的日志库，并且更新统计信息表，具体为：

通过日志记录.ktr将缓存中的信息记录到专用的日志库，并且更新统计信息表。

此外，为实现上述目的，本发明还提供一种终端，其中，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于Kettle的增量同步数据的程序，所述基于Kettle的增量同步数据的程序被所述处理器执行时实现如上所述的基于Kettle的增量同步数据的方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有基于Kettle的增量同步数据的程序，所述基于Kettle的增量同步数据的程序被处理器执行时实现如上所述的基于Kettle的增量同步数据的方法的步骤。

本发明通过在一个数据库表内获取需要进行增量同步的数据库表信息，并将获取的所述数据库表信息记录到Kettle的内存中；若所述数据库表信息存在增量字段，则将增量字段记录到内存中，若所述数据库表信息不存在增量字段，则通过ID记录表完成增量记录，并将ID记录表和源数据表的ID进行连接得到未同步过数据的ID，存入内存；对于有增量字段的表，则直接将数据生成执行的SQL进行保存，对于没有增量字段的表，则按照记录的信息从数据库按ID进行查找，并组成***SQL；将转换处理好的SQL分布执行，并将出错或者有问题的信息记录进缓存；将缓存中的信息记录到专用的日志库，并且更新统计信息表。本发明通过体系化进行增量同步，以适配所有增量同步的情况，使得增量同步更加体系化和智能化。

附图说明

图1是本发明基于Kettle的增量同步数据的方法的较佳实施例的流程图；

图2是本发明基于Kettle的增量同步数据的方法的较佳实施例中整个数据同步执行过程的流程图；

图3为本发明终端的较佳实施例的运行环境示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明较佳实施例所述的基于Kettle的增量同步数据的方法，如图1和图2所示，所述基于Kettle的增量同步数据的方法包括以下步骤：

步骤S10、在一个数据库表内获取需要进行增量同步的数据库表信息，并将获取的所述数据库表信息记录到Kettle的内存中。

其中，所述数据库表信息包括：数据库名、是否有增量字段、增量字段名、增量字段类型和增量字段最新值。

具体地，通过表获取.ktr在一个数据库表内获取需要进行增量同步的数据库表信息(记录了数据库名，是否有增量字段，增量字段名，增量字段类型，增量字段最新值)，并将这部分表名信息记录到Kettle的内存中。

步骤S20、若所述数据库表信息存在增量字段，则将增量字段记录到内存中，若所述数据库表信息不存在增量字段，则通过ID记录表完成增量记录，并将ID记录表和源数据表的ID进行连接得到未同步过数据的ID，存入内存。

具体地，增量处理.ktr是循环上述的表信息，内部流程是根据是否有增量字段，如果业务里有就把增量字段记录进内存，如果没有增量字段的表，就要利用一个ID记录表完成增量记录，通过把这个ID记录表和源数据表的ID进行连接，就得出没有同步过数据的ID，然后把这部分数据信息也计入内存。

步骤S30、对于有增量字段的表，则直接将数据生成执行的SQL进行保存，对于没有增量字段的表，则按照记录的信息从数据库按ID进行查找，并组成***SQL。

具体地，数据转换处理.ktr是循环按表处理，对于有增量字段的表，那么就直接组合SQL(Structured Query Language，结构化查询语言数据库，是具有数据操纵和数据定义等多种功能的数据库语言，这种语言具有交互性特点，能为用户提供极大的便利，数据库管理***应充分利用SQL语言提高计算机应用***的工作质量与效率。SQL语言不仅能独立应用于终端，还可以作为子语言为其他程序设计提供有效助力，该程序应用中，SQL可与其他程序语言一起优化程序功能，进而为用户提供更多更全面的信息)，只要字段大于这个值大于这个增量字段，就把数据生成执行的SQL，并保存下来，对于没有增量字段的表，会按照之前记录的信息从数据库按ID查找出这部分数据，并把这部分数据组成***SQL，在这个过程中还会自动把值为NULL(NULL是在计算中具有保留的值，用于指示指针不引用有效对象，程序通常使用空指针来表示条件，例如未知长度列表的结尾或未执行某些操作)的数据自动补齐成对应的字段类型数据。

步骤S40、将转换处理好的SQL分布执行，并将出错或者有问题的信息记录进缓存。

其中，所述缓存记录的信息包括：行的表名、行增量字段的值、行的SQL信息和行的报的错误日志。

具体地，写入数据.ktr是将上面转换处理好的SQL分布执行，并将出错的有问题的信息记录进缓存，这个记录的信息有这一行的表名、这一行增量字段的值、这一行的SQL信息以及这一行的报的错误日志。

步骤S50、将缓存中的信息记录到专用的日志库，并且更新统计信息表。

具体地，日志记录.ktr是把上述信息记录进专门的日志库，并且更新统计信息表。

如图2所示，流程开始执行后，开启作业，执行表获取，执行增量处理，执行数据转换处理，执行写入数据，执行日志记录，然后判断是否收到结束通知，若未收到结束通知则返回执行表获取，若收到结束通知则结束当前流程。

进一步地，如图3所示，基于上述基于Kettle的增量同步数据的方法，本发明还相应提供了一种终端，所述终端包括处理器10、存储器20及显示器30。图3仅示出了终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述终端的内部存储单元，例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据，例如所述安装终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有基于Kettle的增量同步数据的程序40，该基于Kettle的增量同步数据的程序40可被处理器10所执行，从而实现本申请中基于Kettle的增量同步数据的方法。

所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述基于Kettle的增量同步数据的方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器30用于显示在所述终端的信息以及用于显示可视化的用户界面。所述终端的部件10-30通过***总线相互通信。

在一实施例中，当处理器10执行所述存储器20中基于Kettle的增量同步数据的程序40时实现以下步骤：

其中，所述在一个数据库表内获取需要进行增量同步的数据库表信息，具体为：

其中，所述在一个数据库表内获取需要进行增量同步的数据库表信息，并将获取的所述数据库表信息记录到kettle的内存中，之后还包括：

通过增量处理.ktr判断所述数据库表信息是否存在增量字段。

其中，所述将ID记录表和源数据表的ID进行连接得到未同步过数据的ID，存入内存，之后还包括：

其中，所述对于没有增量字段的表，则按照记录的信息从数据库按ID进行查找，并组成***SQL，还包括：

自动将值为NULL的数据补齐为对应的字段类型数据。

其中，所述将转换处理好的SQL分布执行，并将出错或者有问题的信息记录进缓存，具体为：

其中，所述将缓存中的信息记录到专用的日志库，并且更新统计信息表，具体为：

本发明还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有基于Kettle的增量同步数据的程序，所述基于Kettle的增量同步数据的程序被处理器执行时实现如上所述的基于Kettle的增量同步数据的方法的步骤。

综上所述，本发明提供一种基于Kettle的增量同步数据的方法及终端，所述方法包括：在一个数据库表内获取需要进行增量同步的数据库表信息，并将获取的所述数据库表信息记录到Kettle的内存中；若所述数据库表信息存在增量字段，则将增量字段记录到内存中，若所述数据库表信息不存在增量字段，则通过ID记录表完成增量记录，并将ID记录表和源数据表的ID进行连接得到未同步过数据的ID，存入内存；对于有增量字段的表，则直接将数据生成执行的SQL进行保存，对于没有增量字段的表，则按照记录的信息从数据库按ID进行查找，并组成***SQL；将转换处理好的SQL分布执行，并将出错或者有问题的信息记录进缓存；将缓存中的信息记录到专用的日志库，并且更新统计信息表。本发明通过体系化进行增量同步，以适配所有增量同步的情况，使得增量同步更加体系化和智能化。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等)来完成，所述的程序可存储于一计算机可读取的计算机可读存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的计算机可读存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于Kettle的增量同步数据的方法，其特征在于，所述基于Kettle的增量同步数据的方法包括：

2.根据权利要求1所述的基于Kettle的增量同步数据的方法，其特征在于，所述在一个数据库表内获取需要进行增量同步的数据库表信息，具体为：

3.根据权利要求1所述的基于Kettle的增量同步数据的方法，其特征在于，所述数据库表信息包括：数据库名、是否有增量字段、增量字段名、增量字段类型和增量字段最新值。

4.根据权利要求1所述的基于Kettle的增量同步数据的方法，其特征在于，所述在一个数据库表内获取需要进行增量同步的数据库表信息，并将获取的所述数据库表信息记录到kettle的内存中，之后还包括：

通过增量处理.ktr判断所述数据库表信息是否存在增量字段。

5.根据权利要求1所述的基于Kettle的增量同步数据的方法，其特征在于，所述将ID记录表和源数据表的ID进行连接得到未同步过数据的ID，存入内存，之后还包括：

6.根据权利要求1所述的基于Kettle的增量同步数据的方法，其特征在于，所述对于没有增量字段的表，则按照记录的信息从数据库按ID进行查找，并组成***SQL，还包括：

自动将值为NULL的数据补齐为对应的字段类型数据。

7.根据权利要求1所述的基于Kettle的增量同步数据的方法，其特征在于，所述将转换处理好的SQL分布执行，并将出错或者有问题的信息记录进缓存，具体为：

8.根据权利要求1所述的基于Kettle的增量同步数据的方法，其特征在于，所述将缓存中的信息记录到专用的日志库，并且更新统计信息表，具体为：

9.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于Kettle的增量同步数据的程序，所述基于Kettle的增量同步数据的程序被所述处理器执行时实现如权利要求1-8任一项所述的基于Kettle的增量同步数据的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有基于Kettle的增量同步数据的程序，所述基于Kettle的增量同步数据的程序被处理器执行时实现如权利要求1-8任一项所述的基于Kettle的增量同步数据的方法的步骤。