CN113010609B

CN113010609B - 一种应用于门店经营的差异化同步方法及***

Info

Publication number: CN113010609B
Application number: CN202110377970.3A
Authority: CN
Inventors: 吴昭松; 潘威; 王忆新; 王元盛; 王新; 彭肖溶; 朱婵娟
Original assignee: Shanghai Heading Information Engineering Co ltd
Current assignee: Shanghai Heading Information Engineering Co ltd
Priority date: 2020-12-23
Filing date: 2021-04-08
Publication date: 2023-05-16
Anticipated expiration: 2041-04-08
Also published as: CN113010609A

Abstract

本发明涉及数据同步技术领域，提供了一种应用于门店经营的差异化同步方法及***，方法包括：数据抽取端向中心调度服务进行注册；中心调度服务生成任务信息发送给数据抽取端；数据抽取端在接收到任务信息后，根据任务类型和抽取模式执行任务，将抽取到的数据封装成数据包发送到数据处理端；数据处理端对数据包进行处理，当任务类型为数据同步时，将数据包中数据同步到目标数据库中，当任务类型为校验时，拉取目标数据库中已同步的数据，与数据包中的数据进行比对，验证已同步数据的准确性。针对于源数据库中的不同形态的表单，采用与之相匹配的方式进行同步，确保每一次的同步都能够完整、准确和高效。

Description

一种应用于门店经营的差异化同步方法及***

技术领域

本发明涉及数据同步的技术领域，尤其涉及门店经营的差异化同步技术领域。具体为一种应用于门店经营的差异化同步方法及***。

背景技术

在门店经营***中，尤其是连锁的门店，一般的都会包含多个不同的数据源。例如，不同的门店会有自己单独的门店***，对应于不同的源数据库。再比如，在门店经营中会涉及到销售***，供应商***等，同样也会对应于不同的源数据库。

在最终对各个门店、各个销售或者供应商***中的数据进行统计处理时，需要将各个数据库中的数据进行同步汇总，同步存储于同一个目标数据库***中，以方便后续的数据整理汇总统计。

在对源数据库进行抽取，并同步到目标数据库时，数据的完整、准确及高效是重要的目标。但是由于源数据库中表单的形态存在不同，若对所有的表单采用单一相同的同步方式进行同步，会带来很多问题，不能保证每一次的同步都能够完整、准确和高效。

发明内容

针对上述问题，本发明的目的在于提供一种应用于门店经营的差异化同步方法及***，针对于源数据库中的不同形态的表单，采用与之相匹配的方式进行同步，确保每一次的同步都能够完整、准确和高效。

本发明的上述发明目的是通过以下技术方案得以实现的：

一种应用于门店经营的差异化同步方法，包括以下步骤：

S1：建立用于抽取源数据库中数据的数据抽取端，当启动所述源数据库中的数据抽取工作时，所述数据抽取端向中心调度服务进行注册，其中，所述中心调度服务，用于对多组所述源数据库的数据抽取进行调度；

S2：当所述中心调度服务接收到所述数据抽取端的注册信息后，生成包括任务类型、抽取模式在内的任务信息发送给所述数据抽取端，并启动用于在所述数据抽取端抽取了所述源数据库中的数据后，执行数据处理任务的数据处理端，其中，所述任务类型包括数据同步和校验，所述抽取模式包括全表同步、单表增量同步、从表增量同步在内的根据不同的表单形态选定的适配的抽取模式；

S3：所述数据抽取端在接收到所述任务信息后，根据所述任务类型和所述抽取模式执行任务，将抽取到的数据封装成数据包发送到所述数据处理端，其中，根据所述任务类型和所述抽取模式执行任务时，根据同步任务宿主机的性能，采用决策树来计算最佳同步任务参数，在不影响宿主机运行、其他应用运行的前提下，通过提高并发、提高批数据大小、优化任务队列分配来提高***资源的使用率、降低整体任务的耗时，并具体包括：

建立用于计算最佳同步任务参数的决策树，在任务启动时，收集宿主机和数据仓储ETL的包括CPU核数、CPU使用率、I O、网络、内存、表字段数量、表字段大小在内的参数，将收集到的参数输入决策树；

决策树输出任务配置，启动数据仓储ETL任务；

根据当前***的使用情况和历史的任务日志，计算输出该批次任务的包括最优的并发数、批数据大小、任务队列的分配在内的任务配置，并收集包括任务执行的资源占用、耗时在内的信息保存到任务日志库，为下一次决策提供依据；

S4：所述数据处理端在对所述数据包进行解析后，对所述数据包进行处理；当所述任务类型为数据同步时，将所述数据包中数据同步到目标数据库中，当所述任务类型为校验时，拉取所述目标数据库中已同步的数据，与所述数据包中的数据进行比对，以验证所述目标数据库中已同步数据的准确性。

进一步地，根据所述源数据库中表单形态的不同，选定不同的所述抽取模式进行数据抽取并同步，具体为：

所述全表同步，适用于同步数据量少的表格，以及数据量大但同步频率低的表格，对表格中的全部数据进行全表同步；

所述单表增量同步，适用于同步数据量大的单个表格，对表格中的新增或更新的数据进行增量同步；

所述从表增量同步，适用于同步与主表有关联的从表，根据主表中新增或更新的数据，对从表中关联的数据进行增量同步。

进一步地，在步骤S3中，建立用于计算最佳同步任务参数的决策树，具体为：

采用C4.5算法建立配置决策树，将所述任务日志库作为训练集，计算每次任务执行日志时各个属性的信息增益率，选择信息增益率最高的属性进行划分，具体包括以下步骤：

设定任务日志库中的所有属性集合为D，其中有K类任务配置；

计算整体数据的信息熵：

其中，C_k表示第k类任务配置；

计算每一个属性A的信息熵：

其中，通过属性A将D划分为n个不同类，D_i为通过属性A划分后的第i个集合；

计算每一个属性A的信息增益：

Gain(D，A)＝H(D)-H(D|A)

计算信息增益率：

针对于每一个属性A的信息增益率，找到信息增益率最高的特征，作为划分决策树的节点。

进一步地，当所述任务类型为校验时，包括即时快速校验、按日校验、按周校验、动态校验在内的校验方案，具体为：

所述即时快速校验，对数据量大、数据字段繁多的表进行及时的校验；

所述按日校验，对时间增量的数据进行校验，每次校验一天内有变化的数据；

所述按周校验，对时间增量的数据进行校验，每次校验一周内有变化的数据；

所述动态校验，对待校验的数据，按照固定的时间间隔拆分成多个数据段，分别校验。

进一步地，所述即时快速校验，具体为：

通过PCA算法对宽表降维度，提取出5％～20％的主成分数据，所述包含的信息可以达到原始数据95％以上,再对主成分数据计算MD5值，随原始数据一起同步到目标库；

对目标库按照同样的逻辑计算主成分数据的MD5值进行比较，如果一致，所述即时快速校验通过。

进一步地，通过PCA算法对宽表降维度，计算出最大化数据投影后的方差，获取到最优的数据矩阵，其后进行数据投影来降低矩阵维度，具体包括以下步骤：

将抽取到的原始数据按列组成n行m列的2维矩阵X；

对矩阵X进行0均值初始化，并应用特征缩放，缩放到-0.5～0.5；

设正交基u_j，数据点x_i在该基底上的投影距离为

所以所有数据在该基底上的投影的方差J_j为：

其中，m为样本数量，对矩阵X进行0均值初始化，即x_center＝0，则：

所以：

计算协方差矩阵

对协方差矩阵进行SVD分解，得到特征值及对应的特征向量；

将协方差矩阵代入公式(3)，根据拉格朗日算子求极值，得：

构造函数：

求解

得：

当u_j、λ_j分别为协方差矩阵S的特征向量、特征值时，J_j有极值，把上述结构代入公式(4)得：

对特征值从大到小排序，取前k个特征值对应的特征向量，得到新的k维坐标系P；对于任意满足条件的正交基，对应的数据在上面投影后的方差值为S矩阵的特征向量，从而：

其中λ从大到小排序

所以投影正交基为S的特征向量中的前k个最大特征值对应的特征向量；

根据特征向量和SVD的关系结论,代入矩阵S后得出满足投影后数据距离最大的新的正交基：

P＝{u₁,u₂,…,u_k}

把矩阵映射到新坐标系中，将n行m列的矩阵降维成k行m列的矩阵；

进一步地，当所述任务类型为校验时，还包括以下校验方式：

记录数校验，比对对全表或增量进行同步的记录条数；

汇总值校验，比对对全表或增量进行同步的包括金额、数量在内的字段的汇总值；

校验码校验，比对对全表或增量进行同步的表记录的MD5值。

进一步地，在步骤S4中，还包括：当所述任务类型为校验时，当校验出所述目标数据库中已同步数据不准确时，重新同步所述目标数据库中的数据，具体为：

所述中心调度服务，根据所述抽取模式，生成对应的sq l语句，发送到所述数据抽取端，所述数据抽取端执行所述sq l语句，重新进行数据同步。

进一步地，在所述任务信息中，还包括：任务状态；

所述任务状态对数据同步或校验的任务的进度以及完成状态进行标记；

当所述任务状态为失败时，所述中心调度服务重新发起任务进行数据同步。

进一步地，所述数据抽取端与所述中心调度服务，以及所述数据处理端，通过消息应用服务进行通讯。

一种用于执行上述的应用于门店经营的差异化同步方法的***，包括：

数据抽取端建立模块，用于建立抽取源数据库中数据的数据抽取端，当启动所述源数据库中的数据抽取工作时，所述数据抽取端向中心调度服务进行注册，其中，所述中心调度服务，用于对多组所述源数据库的数据抽取进行调度；

任务信息生成模块，用于当所述中心调度服务接收到所述数据抽取端的注册信息后，生成包括任务类型、抽取模式在内的任务信息发送给所述数据抽取端，并启动用于在所述数据抽取端抽取了所述源数据库中的数据后，执行数据处理任务的数据处理端，其中，所述任务类型包括数据同步和校验，所述抽取模式包括全表同步、单表增量同步、从表增量同步在内的根据不同的表单形态选定的适配的抽取模式；

数据抽取模块，用于提供给所述数据抽取端在接收到所述任务信息后，根据所述任务类型和所述抽取模式执行任务，将抽取到的数据封装成数据包发送到所述数据处理端，其中，根据所述任务类型和所述抽取模式执行任务时，根据同步任务宿主机的性能，采用决策树来计算最佳同步任务参数，在不影响宿主机运行、其他应用运行的前提下，通过提高并发、提高批数据大小、优化任务队列分配来提高***资源的使用率、降低整体任务的耗时；

数据处理模块，用于提供给所述数据处理端在对所述数据包进行解析后，对所述数据包进行处理；当所述任务类型为数据同步时，将所述数据包中数据同步到目标数据库中，当所述任务类型为校验时，拉取所述目标数据库中已同步的数据，与所述数据包中的数据进行比对，以验证所述目标数据库中已同步数据的准确性。

一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述的方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机代码，当所述计算机代码被执行时，如上述的方法被执行。

与现有技术相比，本发明包括以下至少一种有益效果是：

(1)通过提供一种应用于门店经营的差异化同步方法，包括以下步骤：

S1：建立用于抽取源数据库中数据的数据抽取端，当启动所述源数据库中的数据抽取工作时，所述数据抽取端向中心调度服务进行注册，其中，所述中心调度服务，用于对多组所述源数据库的数据抽取进行调度；S2：当所述中心调度服务接收到所述数据抽取端的注册信息后，生成包括任务类型、抽取模式在内的任务信息发送给所述数据抽取端，并启动用于在所述数据抽取端抽取了所述源数据库中的数据后，执行数据处理任务的数据处理端，其中，所述任务类型包括数据同步和校验，所述抽取模式包括全表同步、单表增量同步、从表增量同步在内的根据不同的表单形态选定的适配的抽取模式；

S3：所述数据抽取端在接收到所述任务信息后，根据所述任务类型和所述抽取模式执行任务，将抽取到的数据封装成数据包发送到所述数据处理端，其中，根据所述任务类型和所述抽取模式执行任务时，根据同步任务宿主机的性能，采用决策树来计算最佳同步任务参数，在不影响宿主机运行、其他应用运行的前提下，通过提高并发、提高批数据大小、优化任务队列分配来提高***资源的使用率、降低整体任务的耗时；S4：所述数据处理端在对所述数据包进行解析后，对所述数据包进行处理；当所述任务类型为数据同步时，将所述数据包中数据同步到目标数据库中，当所述任务类型为校验时，拉取所述目标数据库中已同步的数据，与所述数据包中的数据进行比对，以验证所述目标数据库中已同步数据的准确性。上述技术方案，根据不同的表单形态，选择不同的抽取模式进行同步，使得每一次的同步都能够完整、准确和高效。

(2)通过选择不同的校验方案，对更新频率不同的数据进行校验。确保校验工作的效率，以及确保同步的数据的准确性。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

图1为本发明一种应用于门店经营的差异化同步方法的整体流程图；

图2为本发明通过决策树来计算最佳同步任务参数的流程图；

图3为本发明同一批任务在同一台宿主机上执行的耗时记录的示意图；

图4为本发明数据量比较大、数据字段繁多的表结构的示意图；

图5为本发明即时快速校验的示意图；

图6为本发明第一实施例中PCA降维计算添加的数据的示意图；

图7为本发明第一实施例中PCA降维计算结果示意图；

图8为本发明全字段参与校验与主成分进行校验的耗时对比示意图；

图9为本发明一种应用于门店经营的差异化同步方法的结构图；

图10为本发明一种应用于门店经营的差异化同步***的整体结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本发明采用差异化的同步方式提高同步效率，具体从以下两个方面来划分：

一、“节源”，从同步任务配置上来看，根据表数据更新频率，从以下三种中选择同步模式，尽量减少同步的数据量，提高同步效率。

1.全表同步，适合于同步频率较低的大表或者相对同步频率稍高的小表；

2.单表增量同步，适合于同步最近发生改变的数据；

3.从表增量模式，适合于让从表使用主表的最后更新时间字段实现增量模式；

二、“开流”，根据同步任务宿主机的性能，采用决策树来计算最佳同步任务参数，在不影响宿主机运行、其他应用运行的前提下，通过提高并发、提高批数据大小、优化任务队列分配来提高***资源的使用率、降低整体任务的耗时。

以下通过具体的实施例进行说明：

第一实施例

如图1所示，本实施例提供了一种应用于门店经营的差异化同步方法，包括以下步骤：

S1：建立用于抽取源数据库中数据的数据抽取端，当启动所述源数据库中的数据抽取工作时，所述数据抽取端向中心调度服务进行注册，其中，所述中心调度服务，用于对多组所述源数据库的数据抽取进行调度。

具体地，在对每一个源数据库中的数据进行抽取之前，需要建立与源数据库相对应的一个数据抽取端。并且需要在中心调度服务中进行注册后，才能够开始数据的抽取工作。

其中，数据抽取端在中心调度服务中的注册信息包括数据抽取端的ip，源数据库的名称，状态，所使用的数据管道名称(topic)。

中心调度服务可以同时为多组源数据库进行数据同步服务。数据抽取端在中心调度服务中注册之前，中心调度服务不知道数据抽取端的存在，也没有启动对应的数据处理端。注册的目的是让中心调度服务知道有个抽取端开始工作，需要根据注册信息启动一个数据处理端来处理数据。这样便于做更灵活的调度。

S2：当所述中心调度服务接收到所述数据抽取端的注册信息后，生成包括任务类型、抽取模式在内的任务信息发送给所述数据抽取端，并启动用于在所述数据抽取端抽取了所述源数据库中的数据后，执行数据处理任务的数据处理端，其中，所述任务类型包括数据同步和校验，所述抽取模式包括全表同步、单表增量同步、从表增量同步在内的根据不同的表单形态选定的适配的抽取模式。

具体地，在中心调度服务接收到数据抽取端发送的注册信息之后，会生成一个任务信息发送给数据抽取端，数据抽取端只有在接收到任务信息后才能进行数据抽取，否则，抽取的数据，后续不会有数据处理端进行处理。

其中，任务信息中包含了任务类型和抽取模式。任务类型决定当次抽取的数据是用于做数据同步工作还是校验工作，对于不同的任务类型，在后续的数据处理端中将对数据做不同的处理。抽取模式决定根据表单形态的不同，采用具体哪一种抽取模式进行数据的抽取，以及在后续数据同步中采用与抽取模式相同的方式在目标数据中更新数据。

具体地，抽取和同步的技术方式为：使用jdbc连接源数据库，根据不同场景选择不同的抽取方式生成对应的sq l，从源数据库的表单中获取数据，目标数据库在接收到数据后，再根本不同的与抽取方式相对应的同步方式生成入库的sq l，在目标数据库中执行。

S3：所述数据抽取端在接收到所述任务信息后，根据所述任务类型和所述抽取模式执行任务，将抽取到的数据封装成数据包发送到所述数据处理端其中，根据所述任务类型和所述抽取模式执行任务时，根据同步任务宿主机的性能，采用决策树来计算最佳同步任务参数，在不影响宿主机运行、其他应用运行的前提下，通过提高并发、提高批数据大小、优化任务队列分配来提高***资源的使用率、降低整体任务的耗时。

具体地，数据抽取端在接收到任务信息后，需要对数据进行封装，形成数据包，方便数据的传输。

数据包的举例如下：

将抽取到的数据的字段名和字段类型以键值对的形式进行拼接，生成数据的字段对象；将字段对象与表格的类型和表名进行拼接，生成上述数据包。其中，进行拼接的方式不做任何限定，只要能够方便传输即可。拼接方式举例如下：表类型！@！表名！@！序列化后的字段和字段类型的键值对。

进一步地，如图2所示，根据所述任务类型和所述抽取模式执行任务时，根据同步任务宿主机的性能，采用决策树来计算最佳同步任务参数，在不影响宿主机运行、其他应用运行的前提下，通过提高并发、提高批数据大小、优化任务队列分配来提高***资源的使用率、降低整体任务的耗时，具体为：

决策树输出任务配置，启动数据仓储ETL任务；

根据当前***的使用情况和历史的任务日志，计算输出该批次任务的包括最优的并发数、批数据大小、任务队列的分配在内的任务配置，并收集任务执行的资源占用、耗时等信息保存到任务日志库，为下一次决策提供依据。

其中，对于参数的收集，可以通过如下方式：

对于***信息，一般可借助Linux***命令获取，例如：

获取CPU核数：cat/proc/cpuinfo|grep"processor"|wc-l

获取CPU使用率和IO情况：vmstat

获取内存使用情况：free

表相关信息会通过数据库查询获取。

进一步地，建立用于计算最佳同步任务参数的决策树，具体为：

采用C4.5算法(C4.5算法是由RossQuinlan开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的，因此该算法也可以用于统计分类)建立配置决策树，将所述任务日志库作为训练集，C4.5算法的特点是计算信息增益率来作为分类标准，在本***中会计算每次任务执行日志中的各个属性的信息增益率，然后选择信息增益率最高的属性来进行划分，具体包括以下步骤：

计算整体数据的信息熵：

其中，C_k表示第k类任务配置；

计算每一个属性A的信息熵：

计算每一个属性A的信息增益：

Gain(D，)＝H(D)-H(D|A)

计算信息增益率：

如图3所示，提供了一种具体应用的举例。图3为同一批任务在同一台宿主机上执行的耗时记录，为了模拟真实环境该宿主机上同时运行着其他应用。下图展示了该任务每次执行的耗时变化，可以看到，一开始为了避免与其他应用争抢资源，输出的任务配置比较保守，导致执行时间较长。后续尝试增加并发数、增大一批数据数量数、调整任务队列等调优策略，逐渐缩短了ETL任务耗时，最终达到一个比较平稳的状态。

具体地，数据处理端在接收到数据包之后，需要对数据包进行解析，还原成数据原始的结构。解析后，判断当次任务的任务类型，执行数据同步或验证操作。

一般的，验证任务在数据同步之后进行，验证同步的数据是否正确，当数据不正确时，中心调度服务会重新安排同步任务。

其中，对于数据同步任务，在目标数据库中生成相对应的sql语句并执行，将数据更新到目标数据库中。对于验证任务，按照指定的验证方式生成对应的查询统计sql，分别在源数据库和目标数据库执行，将执行结构做比对，根据场景需要和服务器情况，灵活选择不同的校验方式和校验时间，较小对服务器性能的影响。

(1)所述全表同步，适用于同步数据量少的表格(小表)，以及数据量大但同步频率低的表格(大表)，对表格中的全部数据进行全表同步；

(2)所述单表增量同步，适用于同步数据量大的单个表格，对表格中的新增或更新的数据进行增量同步；

(3)所述从表增量同步，适用于同步与主表有关联的从表，根据主表中新增或更新的数据，对从表中关联的数据进行增量同步。

进一步地，当所述任务类型为校验时，包括即时快速校验、按日校验、按周校验、动态校验在内的校验方案，根据数据量的大小，更新的频率选择合适的校验方案进行校验。具体为：

(1)所述即时快速校验，对数据量大、数据字段繁多的表进行及时的校验，如图4所示，若按照传统做法将全部字段纳入校验计算会消耗大量的时间和计算机资源。

(2)所述按日校验，对时间增量的数据进行校验，每次校验一天内有变化的数据；

(3)所述按周校验，对时间增量的数据进行校验，每次校验一周内有变化的数据；

(4)所述动态校验，对待校验的数据，按照固定的时间间隔拆分成多个数据段，分别校验。

其中，如图5所示，所述即时快速校验，具体为：

通过PCA算法对宽表降维度，提取出5％～20％的主成分数据，所述包含的信息可以达到原始数据95％以上,再对主成分数据计算MD5值，随原始数据一起同步到目标库；对目标库按照同样的逻辑计算主成分数据的MD5值进行比较，如果一致，所述即时快速校验通过。

具体的，源库端对抽取的数据采用JDBC连接的方式进行传输,同时由校验器处理该批数据生成对应的校验码,当数据被目标端获取后,再进行一次校验,将两次生成的校验码进行比对,可以判断出该批数据是否准确的完成传输,再选择后续的补救措施进行补救,保证数据的一致性。其中校验器的算法主要由PCA降维算法实现,目的是用较少特征的数据表达较多特征的数据,即数据压缩,获取数据的主要特征后,再进行MD5处理,生成校验码,来提升处理的速度。该算法的实现思路主要是计算出最大化数据投影后的方差,获取到最优的数据矩阵坐标,其后进行数据投影来降低矩阵维度。其实现原理如下：

将抽取到的原始数据按列组成n行m列的2维矩阵X；

设正交基u_j，数据点x_i在该基底上的投影距离为

所以所有数据在该基底上的投影的方差J_j为：

所以：

计算协方差矩阵

对协方差矩阵进行SVD分解，得到特征值及对应的特征向量；

将协方差矩阵代入公式(3)，根据拉格朗日算子求极值，得：

构造函数：

求解

得：

其中λ从大到小排序

P＝{u₁,u₂,…,u_k}

举个例子来说，以一张91字段的表为例进行PCA降维计算添加原始数据(如图6)，计算结果(如图7)。

性能验证：图8为同一批表在同步中采用两种即时校验模式耗时的比较。当表字段较少时，两种方式耗时基本一致，随着表字段数量的增加，只用主成分校验的效率优势就开始凸显，相比传统模式有明显的效率提升。

(1)记录数校验，比对对全表或增量进行同步的记录条数；

(2)汇总值校验，比对对全表或增量进行同步的包括金额、数量在内的字段的汇总值；

(3)校验码校验，比对对全表或增量进行同步的表记录的MD5值。

进一步地，在步骤S4中，还包括：当所述任务类型为校验时，当校验出所述目标数据库中已同步数据不准确时，重新同步所述目标数据库中的数据，具体为：所述中心调度服务，根据所述抽取模式，生成对应的sql语句，发送到所述数据抽取端，所述数据抽取端执行所述sql语句，重新进行数据同步。

具体地，针对差异化的同步模式和特点，形成了适配的同步模式，同时每一种同步模式都有数据校验和修复功能；从而很大程度地提升了数据同步的效率和准确度，为大数据体系每昼夜同步大量的数据形成了良好的基础。

如果发现数据有差异,会由中心调度服务器根据校验方式生成指定sql,发送到抽取端,由抽取端执行sql,重新同步数据.

重抽处理一般有两种方式:

(1)全表校验:重新抽取全表数据。

(2)增量校验:解析出有差异的时间段,重新同步此时间段内的数据。

进一步地，在所述任务信息中，还包括：任务状态；

第二实施例

本实施例与第一实施例步骤基本相同，不同点在于，所述数据抽取端与所述中心调度服务，以及所述数据处理端，通过消息应用服务进行通讯。

如图9所示，采用消息应用服务进行通信的差异化同步方法的具体执行方式，具体为：

网络环境采用百兆以太网,设备包括源数据库1,数据抽取端2，消息应用服务3(第一服务消息管道31,第二数据消息管道32),中心调度服务4(自带一个数据库41),数据处理端5。

运行平台采用linux，其中，消息应用服务3，中心调度服务4，数据处理端5需要在同一网段内,所以消息应用服务3上配有两块百兆网卡,其中一个网卡用于监听外网的数据包,另一个网卡与内网环境的中心调度服务4数据处理端5相连，这样即可保障数据在内外网环境的有序传递。

数据抽取端2启动与消息应用服务3建立网络连接,然后向第一服务消息管道31发出一条注册消息,中心调度服务4从第一服务消息管道31中接收到注册消息,解析后在数据库41应用中建立数据抽取端2的资料表,同时将任务信息发送到第一服务消息管道31中，数据抽取端2接收到任务消息,解析任务,执行抽取/校验等任务.将结果封装成数据包发送到第二数据消息管道32。数据处理端5持续监听第二数据消息管道32,接收到数据包后执行数处理任务。

第三实施例

如图10所示，本实施例提供一种执行如第一实施例中的应用于门店经营的差异化同步方法的***，包括：

数据抽取端建立模块1，用于建立抽取源数据库中数据的数据抽取端，当启动所述源数据库中的数据抽取工作时，所述数据抽取端向中心调度服务进行注册，其中，所述中心调度服务，用于对多组所述源数据库的数据抽取进行调度；

任务信息生成模块2，用于当所述中心调度服务接收到所述数据抽取端的注册信息后，生成包括任务类型、抽取模式在内的任务信息发送给所述数据抽取端，并启动用于在所述数据抽取端抽取了所述源数据库中的数据后，执行数据处理任务的数据处理端，其中，所述任务类型包括数据同步和校验，所述抽取模式包括全表同步、单表增量同步、从表增量同步在内的根据不同的表单形态选定的适配的抽取模式；

数据抽取模块3，用于提供给所述数据抽取端在接收到所述任务信息后，根据所述任务类型和所述抽取模式执行任务，将抽取到的数据封装成数据包发送到所述数据处理端；

数据处理模块4，用于提供给所述数据处理端在对所述数据包进行解析后，对所述数据包进行处理；当所述任务类型为数据同步时，将所述数据包中数据同步到目标数据库中，当所述任务类型为校验时，拉取所述目标数据库中已同步的数据，与所述数据包中的数据进行比对，以验证所述目标数据库中已同步数据的准确性。

一种计算机设备，包括存储器和一个或多个处理器，所述存储器中存储有计算机代码，所述计算机代码被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如第一实施例中任一项所述的方法。

一种计算机可读存储介质，计算机可读存储介质存储有计算机代码，当计算机代码被执行时，如上述方法被执行。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个功能或步骤的电路。如本说明书实施例所示实施例揭示的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Net work Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子***执行时，使得所述电子***执行实施例一所述的方法。在此不再赘述。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(tr ansitory media)，如调制的数据信号和载波。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。