WO2015062181A1

WO2015062181A1 - 用于实现多源异构数据资源自动同步的方法

Info

Publication number: WO2015062181A1
Application number: PCT/CN2014/071941
Authority: WO
Inventors: 许丞; 谢毅; 刘祥涛; 岳强; 季统凯
Original assignee: 广东电子工业研究院有限公司
Priority date: 2013-11-04
Filing date: 2014-02-10
Publication date: 2015-05-07
Also published as: CN103617176B; CN103617176A; US20180081956A1

Abstract

本发明涉及一种用于实现多源异构数据资源自动同步的方法。本发明涉及元数据服务节点、服务节点及生产节点；元数据服务节点负责存储分布式异构数据库***中的数据字典；服务节点负责解析异构数据库***中用户的请求，定期与生产节点上的数据库进行同步；生产节点负责相应生产应用***中的查询、更新等请求；其中，服务节点由配置识别器、日志解析器和数据同步器构成；配置识别器用于分析生产节点上源数据库配置，选择可行的同步方式；日志解析器用于解析不同数据库***的日志，是增量同步方式的前期准备工作部件；数据同步器根据配置识别器的同步方式，进行数据同步。本发明实现了多源异构数据资源的自动同步；可用于数据资源处理中。

Description

技术领域说本发明涉及计算机应用技术领域，特别涉及一种用于实现多源异构数据资源自动同步的方法。

书

背景技术在大数据时代，存储、组织数据是上层应用服务的基础。通过分布式异构数据库***，不同的数据源可以整合为逻辑上统一的数据源，为上层应用服务提供数据访问接口。而分布式异构数据库***不能对生产节点产生影响，所以只能将生产***作为异构数据库***的数据源，即将生产节点上的数据同步到前置机上，作为异构数据库***中的数据操作对象。前置机节点与生产节点上的数据需要定期更新，为上层应用服务提供有效的数据源。不同的数据库***之间采用的数据同步与备份技术有较大差异，且需要用户具备一定的背景知识，正确配置相关参数，才可以实施数据同步技术。这种实施方式受到用户水平、数据库***差异的限制，使数据同步过程难以实现自动化。因此，针对生产节点与前置机节点之间的数据同步问题，设计一种自动化的数据同步机制，是解决此类问题的关键之一。从技术方法层面，主要有两种思路实现数据同步，实现生产节点与前置机节点之间的数据同步。思路一是针对生产节点上的数据库，分析其日志文件，从中提取出 DDL与 DML语句，并将这些语句传送到前置机节点上。前置机节点根据 DDL与 DML 语句，进行增量同步。这种机制可以实现生产节点与前置机节点之间的快速的数据同步。但是，该机制存在一些问题：（1 ) 需要生产节点开启数据库的日志功能，并正确配置相关参数，否则不能进行增量同步；（2) 数据库***一般只提供了日志文件的解析接口，而没有提供完整的增量同步功能；（3 ) 不同数据库***之间的日志记录方式不同，解析日志需要用户具备一定的相关知识，这些因素都限制了增量同步的使用范围。

思路二是在生产节点与前置机节点之间进行全量同步。每次同步，生产节点上的数据库都会将所有数据同步到前置机节点中。这种同步方式对***的资源消耗较大，而且部分数据库没有提供完整的数据迀移工具，无法实现同步自动化。

发明内容

本发明解决的技术问题在于提供一种用于实现多源异构数据资源自动同步的方法；构建在生产节点与前置机节点之间，实现数据的同步。

本发明解决上述技术问题的技术方案是：

首先，元数据服务节点向前置机节点发出同步更新请求，前置机节点接受请求，并从中解析出相关参数：数据库地址、数据库名、用户名、密码等；解析出的参数传递给配置分析器，配置分析器连接源数据库，读取源数据库的日志配置信息，根据数据库的类型及配置信息，判断是否可以采用增量同步方式；

如果增量同步方式可行，日志解析器将首先根据数据库类型，初始化解析环境，然后启用一个线程，从数据库中读取日志文件中记录的 DDL和 DML语句，并保存在本地的缓存中；接着，同步更新器再启用另外一个线程，从缓存中依次取出 DML或 DDL语句，更新前置机节点上的数据库；

如果源数据库需要采用全量同步更新方式，同步更新器根据数据库类型，使用现有的数据同步或备份工具，构造出一个自动化的数据同步脚本文件；然后，同步更新器将创建一个新的进程运行脚本，进行数据同步；同步完成后，同步更新器将更新元数据节点中的同步状态信息，报告同步过程已完成。生产节点与前置机节点是分布式异构数据库***中的组件；其中，生产节点是指已部署的生产***中的提供数据源的节点；前置机节点是指在分布式异构数据库中提供数据源的节点。

所述的配置分析器、日志解析器、同步更新器设置在前置机节点上。

所述的配置分析器需要对每种数据库的配置信息进行识别，具体如下：对于 MySQL数据库，查看数据库是否开启二进制日志功能，如果数据库系统没有开启二进制日志功能，则使用全量同步模式；如果二进制日志功能开启，则判定需要采用增量同步模式；

对于 Oracle DB2数据库，查看数据库***是否开启归档日志模式，如果开启，则判定可采用增量同步模式，否则判定需要采用全量同步模式；

对于 SQL Server数据库，查看日志模式是否为完全日志工作模式，如果是，则可采用增量同步模式，否则判定需要采用全量同步模式。

当源数据库可以进行增量同步更新时，日志解析器首先获取指定时间段内的所有日志文件，并根据数据库类型，解析日志文件内容，获取 DDL与 DML 语句；同时，针对每种数据库，日志解析器将采用不同的方式解析日志文件内容，具体如下：

对于 MySQL数据库，通过调用内置的 mysqlbinlog工具，查询日志内容，获取相应的 DDL与 DML语句；

对于 Oracle数据库，通过使用 LogMiner工具，解析归档日志的内容；首先调用内置的存储过程 sys.DBMS.— LOGMNR— D.BUILD 从 redo 日志中获取 LogMiner所需的数据字典；然后，添加需要解析的日志文件，并进行解析；最后，查看解析结果视图，获取 DDL与 DML操作语句；对于 DB2 数据库，首先通过调用数据库***内置的 API 接口 -db2ReadLogNoConn, 初始化解析环境；然后，调用 db2ReadLog接口，逐条解析日志记录，获取 DDL与 DML语句；

对于 SQL Server数据库，利用 f — dblog,读取 SQL Server日志，并根据 SQL Server二进制日志文件格式，逐条进行解析，获取 DDL与 DML语句。当确定同步方式后，同步更新器根据选择的同步方式，更新前置机节点上的数据库；如果采用增量同步更新方式，同步更新器将启用一个线程获取 DDL 与 DML语句，并保存在本地的缓存中；同时，它将启动另外一个线程，依次执行 DDL与 DML语句，更新本地服务器内容；如果是全量更新方式，同步更新器将开启一个新线程，并创建一个新的数据同步脚本，调用***的进程创建对象 ProcessBuilder执行同步脚本，并重定向错误输出流到输入流中，获取同步进度信息，具体如下：

对于 Oracle、 MySQL数据库，同步更新器使用数据库***提供的 dump及 load工具，将源数据库的内容复制到目标数据库的服务器上，再利用 load工具，载入数据；

对于 DB2数据库，首先利用 DB2 内置的命令，编目源数据；然后，利用 db21ook工具，获取源数据库所有表的名称；接着，查看源数据库的编码方式，利用 export工具，以 ixf格式逐表将源数据库中的数据导出；最后，利用 load 工具，将数据载入到本地数据库中。

本发明的有益效果有：

( 1 ) 能自动识别数据库类型并判断配置，实现自动数据库同步： ***通过分析需要同步的源数据库的配置参数，选择合理的同步方案，封装多种数据库在实施数据同步过程中的细节，为上层应用***提供了统一接口，降低了用户的配置难度。同时， ***集成现有数据库同步工具，构造自动化的数据同步方案，从而实现自动数据库同步。 (2) 降低数据库同步的复杂度，改善用户体验，本发明提出的数据同步机制是针对多种数据库实施的，通过封装同步过程中的细节，降低数据同步的复杂度，改善用户体验，满足自动化同步的需求。

(3 ) 提供了集成数据同步接口，能对多类型数据库进行同步：本方案通过集成的方式，可以做到支持多种数据库***的数据同步功能，提高了数据同步方案的使用范围。同时，本发明提供的自动化数据同步方案，通过集成日志分析、数据迀移等工具，提供了一套自动化的数据同步方案。通过封装数据同步过程中具体细节，为上层应用接口提供统一的数据同步设置工具，屏蔽底层数据同步技术之间的差异。

附图说明

下面结合附图对本发明进一步说明：

图 1是本发明***构件组成图。

图 2是本发明执行流程图。具体实施方式

由于历史因素等原因，信息***在构建过程中，往往会采用多种数据库。不同的数据库之间数据不能直接被上层应用***共享，造成了 "信息孤岛"现象。分布式异构数据库***通过中间数据引擎，缓冲不同数据库的查询结果，为上层***提供统一的数据访问接口，屏蔽了底层的数据查询细节。本发明所述的生产节点与前置机节点是分布式异构数据库***中的组件。其中，生产节点是指已部署的生产***中的提供数据源的节点；前置机节点是指在分布式异构数据库中提供数据源的节点，定期与生产节点进行数据同步，使前置机节点与生产节点的数据保持一致。

本发明是一种构建在生产节点与前置机节点之间的数据同步方法。当用户设定同步参数后，元数据服务节点向生产节点发起数据同步请求。前置机节点从请求中取出相关参数，并对生产节点上的数据库配置进行分析。根据分析的结果，前置机节点选择增量同步或全量同步的方式，将生产节点中的数据同步到前置机节点上。在整个数据同步的过程中，用户只需要提供数据库名字、数据库地址、用户及密码等基本信息，即可在生产节点与前置机节点之间定期进行数据同步。相对现有的数据同步技术，本发明封装了多种数据库***的数据同步过程中的细节问题，并且可以自动选择适宜的同步方式进行数据同步。

为实现上述目的，一种自动化的数据同步机制，由三个关键部件构成：配置分析器、日志解析器、同步更新器。

配置分析器：连接生产节点上的数据库，读取相关配置，分析数据库能否采用增量同步的模式。

日志解析器：日志解析器读取生产节点上的数据库日志文件，并进行解析，获得 DML与 DDL操作语句。前置机节点通过网络将解析结果从生产节点上拉过来，保存在本地的缓存中。

同步更新器：当配置分析器完成数据库配置分析后，同步更新器根据分析结果进行数据同步。当配置分析器确定生产节点上的数据库可采用增量同步时，同步更新器调用日志解析器，获取缓存中的 DDL和 DML语句，更新前置机节点上的数据库内容；如果配置分析器确定生产数据库需要采用全量同步，同步更新器通过调用数据库内置的数据迀移或备份工具，将数据从生产节点拉至前置机节点，更新前置机节点上的数据库内容。

具体如附图所示，首先，元数据服务节点向前置机节点发出同步更新请求，前置机节点接受请求，并从中解析出相关参数：数据库地址、数据库名、用户名、密码等。解析出的参数传递给配置分析器，配置分析器连接源数据库，读取源数据库的日志配置信息，根据数据库的类型及配置信息，判断是否可以采用增量同步方式。如果增量同步方式可行，日志解析器将首先根据数据库类型，初始化解析环境，然后启用一个线程，从数据库中读取日志文件中记录的 DDL 和 DML语句，并保存在本地的缓存中。接着，同步更新器再启用另外一个线程，从缓存中依次取出 DML或 DDL语句，更新前置机节点上的数据库。如果源数据库需要采用全量同步更新方式，同步更新器根据数据库类型，使用现有的数据同步或备份工具，构造出一个自动化的数据同步脚本文件；然后，同步更新器将创建一个新的进程运行脚本，进行数据同步。同步完成后，同步更新器将更新元数据节点中的同步状态信息，报告同步过程已完成。

由于本发明需要实现多种数据库的数据同步过程。因此，配置识别器需要对每种的数据库的配置信息进行识别，具体方案如下：

对于 MySQL数据库，查看数据库是否开启二进制日志功能，如果数据库系统没有开启二进制日志功能，则使用全量同步模式；如果二进制日志功能开启，则判定需要采用增量同步模式。

对于 Oracle DB2数据库，查看数据库***是否开启归档日志模式，如果开启，则判定可采用增量同步模式，否则判定需要采用全量同步模式

对于 SQL Server数据库，查看日志模式是否为完全日志工作模式，如果是，则可采用增量同步模式，否则判定需要采用全量同步模式

日志解析器：当源数据库可以进行增量同步更新时，日志解析器首先获取指定时间段内的所有日志文件，并根据数据库类型，解析日志文件内容，获取 DDL与 DML语句。由于分布式异构数据库***的是建立在虚拟表的概念上，因此日志解析器将只获取针对表操作的 DDL和 DML语句。同时，针对每种数据库，日志解析器将采用不同的方式解析日志文件内容，具体方案如下：

对于 MySQL数据库，通过调用内置的 mysqlbinlog工具，查询日志内容，获取相应的 DDL与 DML语句

对于 Oracle数据库，通过使用 LogMiner工具，解析归档日志的内容。首先调用内置的存储过程 sys.DBMS.— LOGMNR— D.BUILD 从 redo 日志中获取 LogMiner所需的数据字典。然后，日志解析器添加需要解析的日志文件，并进行解析。最后，查看解析结果视图，获取 DDL与 DML操作语句。对于 DB2 数据库，首先通过调用数据库***内置的 API 接口 -db2ReadLogNoConn, 初始化解析环境。然后，调用 db2ReadLog接口，逐条解析日志记录，获取 DDL与 DML语句

对于 SQL Server数据库，利用 f — dblog,读取 SQL Server日志，并根据 SQL Server二进制日志文件格式，逐条进行解析，获取 DDL与 DML语句。同步更新器:当确定同步方式后，同步更新器根据选择的同步方式，更新前置机节点上的数据库。如果采用增量同步更新方式，同步更新器将启用一个线程获取 DDL与 DML语句，并保存在本地的缓存中；同时，它将启动另外一个线程，依次执行 DDL与 DML语句，更新本地服务器内容。如果是全量更新方式，同步更新器将开启一个新线程，并创建一个新的数据同步脚本，调用*** 的进程创建对象 ProcessBuilder执行同步脚本，并重定向错误输出流到输入流中，获取同步进度信息，具体方案如下：

1.对于 Oracle、 MySQL数据库，同步更新器使用数据库***提供的 dump 及 load工具，将源数据库的内容复制到目标数据库的服务器上，再利用 load工具，载入数据。

2.对于 DB2数据库，首先利用 DB2内置的命令，编目源数据；然后，利用 db21ook工具，获取源数据库所有表的名称；接着，查看源数据库的编码方式，利用 export工具，以 ixf格式逐表将源数据库中的数据导出；最后，利用 load 工具，将数据载入到本地数据库中。

Claims

权利要求书

1、一种用于实现多源异构数据资源自动同步的方法，其特征在于：首先，元数据服务节点向前置机节点发出同步更新请求，前置机节点接受请求，并从中解析出相关参数：数据库地址、数据库名、用户名、密码等；解析出的参数传递给配置分析器，配置分析器连接源数据库，读取源数据库的日志配置信息，根据数据库的类型及配置信息，判断是否可以采用增量同步方式；

如果源数据库需要采用全量同步更新方式，同步更新器根据数据库类型，使用现有的数据同步或备份工具，构造出一个自动化的数据同步脚本文件；然后，同步更新器将创建一个新的进程运行脚本，进行数据同步；

同步完成后，同步更新器将更新元数据节点中的同步状态信息，报告同步过程已完成。

2、根据权利要求 1所述的用于实现多源异构数据资源自动同步的方法，其特征在于：生产节点与前置机节点是分布式异构数据库***中的组件；其中，生产节点是指已部署的生产***中的提供数据源的节点；前置机节点是指在分布式异构数据库中提供数据源的节点。

3、根据权利要求 1所述的用于实现多源异构数据资源自动同步的方法，其特征在于：所述的配置分析器、日志解析器、同步更新器设置在前置机节点上。

4、根据权利要求 2所述的用于实现多源异构数据资源自动同步的方法，其特征在于：所述的配置分析器、日志解析器、同步更新器设置在前置机节点上。

5、根据权利要求 1至 4任一项所述的用于实现多源异构数据资源自动同步的方法，其特征在于：所述的配置分析器需要对每种数据库的配置信息进行识别，具体如下：

对于 MySQL数据库，查看数据库是否开启二进制日志功能，如果数据库系统没有开启二进制日志功能，则使用全量同步模式；如果二进制日志功能开启，则判定需要采用增量同步模式；

6、根据权利要求 1至 4任一项所述的用于实现多源异构数据资源自动同步的方法，其特征在于：当源数据库可以进行增量同步更新时，日志解析器首先获取指定时间段内的所有日志文件，并根据数据库类型，解析日志文件内容，获取 DDL与 DML语句；同时，针对每种数据库，日志解析器将采用不同的方式解析日志文件内容，具体如下：

对于 Oracle数据库，通过使用 LogMiner工具，解析归档日志的内容；首先调用内置的存储过程 sys.DBMS.— LOGMNR— D.BUILD 从 redo 日志中获取 LogMiner所需的数据字典；然后，添加需要解析的日志文件，并进行解析；最后，查看解析结果视图，获取 DDL与 DML操作语句；

对于 DB2 数据库，首先通过调用数据库***内置的 API 接口 -db2ReadLogNoConn, 初始化解析环境；然后，调用 db2ReadLog接口，逐条解析日志记录，获取 DDL与 DML语句；

对于 SQL Server数据库，利用 f — dblog,读取 SQL Server日志，并根据 SQL Server二进制日志文件格式，逐条进行解析，获取 DDL与 DML语句。

7、根据权利要求 5所述的用于实现多源异构数据资源自动同步的方法，其特征在于：当源数据库可以进行增量同步更新时，日志解析器首先获取指定时间段内的所有日志文件，并根据数据库类型，解析日志文件内容，获取 DDL与 DML语句；同时，针对每种数据库，日志解析器将采用不同的方式解析日志文件内容，具体如下：

对于 SQL Server数据库，利用 fh— dblog,读取 SQL Server日志，并根据 SQL Server二进制日志文件格式，逐条进行解析，获取 DDL与 DML语句。

8、根据权利要求 1至 4任一项所述的用于实现多源异构数据资源自动同步的方法，其特征在于：当确定同步方式后，同步更新器根据选择的同步方式，更新前置机节点上的数据库；如果采用增量同步更新方式，同步更新器将启用一个线程获取 DDL与 DML语句，并保存在本地的缓存中；同时，它将启动另外一个线程，依次执行 DDL与 DML语句，更新本地服务器内容；如果是全量更新方式，同步更新器将开启一个新线程，并创建一个新的数据同步脚本，调用***的进程创建对象 ProcessBuilder执行同步脚本，并重定向错误输出流到输入流中，获取同步进度信息，具体如下：

9、根据权利要求 5所述的用于实现多源异构数据资源自动同步的方法，其特征在于：当确定同步方式后，同步更新器根据选择的同步方式，更新前置机节点上的数据库；如果采用增量同步更新方式，同步更新器将启用一个线程获取 DDL与 DML语句，并保存在本地的缓存中；同时，它将启动另外一个线程，依次执行 DDL与 DML语句，更新本地服务器内容；如果是全量更新方式，同步更新器将开启一个新线程，并创建一个新的数据同步脚本，调用***的进程创建对象 ProcessBuilder执行同步脚本，并重定向错误输出流到输入流中，获取同步进度信息，具体如下：

10、根据权利要求 6所述的用于实现多源异构数据资源自动同步的方法，其特征在于：当确定同步方式后，同步更新器根据选择的同步方式，更新前置机节点上的数据库；如果采用增量同步更新方式，同步更新器将启用一个线程获取 DDL与 DML语句，并保存在本地的缓存中；同时，它将启动另外一个线程，依次执行 DDL与 DML语句，更新本地服务器内容；如果是全量更新方式，同步更新器将开启一个新线程，并创建一个新的数据同步脚本，调用***的进程创建对象 ProcessBuilder执行同步脚本，并重定向错误输出流到输入流中，获取同步进度信息，具体如下：