CN113010609B - 一种应用于门店经营的差异化同步方法及*** - Google Patents

一种应用于门店经营的差异化同步方法及*** Download PDF

Info

Publication number
CN113010609B
CN113010609B CN202110377970.3A CN202110377970A CN113010609B CN 113010609 B CN113010609 B CN 113010609B CN 202110377970 A CN202110377970 A CN 202110377970A CN 113010609 B CN113010609 B CN 113010609B
Authority
CN
China
Prior art keywords
data
task
synchronization
extraction
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110377970.3A
Other languages
English (en)
Other versions
CN113010609A (zh
Inventor
吴昭松
潘威
王忆新
王元盛
王新
彭肖溶
朱婵娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Heading Information Engineering Co ltd
Original Assignee
Shanghai Heading Information Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Heading Information Engineering Co ltd filed Critical Shanghai Heading Information Engineering Co ltd
Publication of CN113010609A publication Critical patent/CN113010609A/zh
Application granted granted Critical
Publication of CN113010609B publication Critical patent/CN113010609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Synchronisation In Digital Transmission Systems (AREA)

Abstract

本发明涉及数据同步技术领域,提供了一种应用于门店经营的差异化同步方法及***,方法包括:数据抽取端向中心调度服务进行注册;中心调度服务生成任务信息发送给数据抽取端;数据抽取端在接收到任务信息后,根据任务类型和抽取模式执行任务,将抽取到的数据封装成数据包发送到数据处理端;数据处理端对数据包进行处理,当任务类型为数据同步时,将数据包中数据同步到目标数据库中,当任务类型为校验时,拉取目标数据库中已同步的数据,与数据包中的数据进行比对,验证已同步数据的准确性。针对于源数据库中的不同形态的表单,采用与之相匹配的方式进行同步,确保每一次的同步都能够完整、准确和高效。

Description

一种应用于门店经营的差异化同步方法及***
技术领域
本发明涉及数据同步的技术领域,尤其涉及门店经营的差异化同步技术领域。具体为一种应用于门店经营的差异化同步方法及***。
背景技术
在门店经营***中,尤其是连锁的门店,一般的都会包含多个不同的数据源。例如,不同的门店会有自己单独的门店***,对应于不同的源数据库。再比如,在门店经营中会涉及到销售***,供应商***等,同样也会对应于不同的源数据库。
在最终对各个门店、各个销售或者供应商***中的数据进行统计处理时,需要将各个数据库中的数据进行同步汇总,同步存储于同一个目标数据库***中,以方便后续的数据整理汇总统计。
在对源数据库进行抽取,并同步到目标数据库时,数据的完整、准确及高效是重要的目标。但是由于源数据库中表单的形态存在不同,若对所有的表单采用单一相同的同步方式进行同步,会带来很多问题,不能保证每一次的同步都能够完整、准确和高效。
发明内容
针对上述问题,本发明的目的在于提供一种应用于门店经营的差异化同步方法及***,针对于源数据库中的不同形态的表单,采用与之相匹配的方式进行同步,确保每一次的同步都能够完整、准确和高效。
本发明的上述发明目的是通过以下技术方案得以实现的:
一种应用于门店经营的差异化同步方法,包括以下步骤:
S1:建立用于抽取源数据库中数据的数据抽取端,当启动所述源数据库中的数据抽取工作时,所述数据抽取端向中心调度服务进行注册,其中,所述中心调度服务,用于对多组所述源数据库的数据抽取进行调度;
S2:当所述中心调度服务接收到所述数据抽取端的注册信息后,生成包括任务类型、抽取模式在内的任务信息发送给所述数据抽取端,并启动用于在所述数据抽取端抽取了所述源数据库中的数据后,执行数据处理任务的数据处理端,其中,所述任务类型包括数据同步和校验,所述抽取模式包括全表同步、单表增量同步、从表增量同步在内的根据不同的表单形态选定的适配的抽取模式;
S3:所述数据抽取端在接收到所述任务信息后,根据所述任务类型和所述抽取模式执行任务,将抽取到的数据封装成数据包发送到所述数据处理端,其中,根据所述任务类型和所述抽取模式执行任务时,根据同步任务宿主机的性能,采用决策树来计算最佳同步任务参数,在不影响宿主机运行、其他应用运行的前提下,通过提高并发、提高批数据大小、优化任务队列分配来提高***资源的使用率、降低整体任务的耗时,并具体包括:
建立用于计算最佳同步任务参数的决策树,在任务启动时,收集宿主机和数据仓储ETL的包括CPU核数、CPU使用率、I O、网络、内存、表字段数量、表字段大小在内的参数,将收集到的参数输入决策树;
决策树输出任务配置,启动数据仓储ETL任务;
根据当前***的使用情况和历史的任务日志,计算输出该批次任务的包括最优的并发数、批数据大小、任务队列的分配在内的任务配置,并收集包括任务执行的资源占用、耗时在内的信息保存到任务日志库,为下一次决策提供依据;
S4:所述数据处理端在对所述数据包进行解析后,对所述数据包进行处理;当所述任务类型为数据同步时,将所述数据包中数据同步到目标数据库中,当所述任务类型为校验时,拉取所述目标数据库中已同步的数据,与所述数据包中的数据进行比对,以验证所述目标数据库中已同步数据的准确性。
进一步地,根据所述源数据库中表单形态的不同,选定不同的所述抽取模式进行数据抽取并同步,具体为:
所述全表同步,适用于同步数据量少的表格,以及数据量大但同步频率低的表格,对表格中的全部数据进行全表同步;
所述单表增量同步,适用于同步数据量大的单个表格,对表格中的新增或更新的数据进行增量同步;
所述从表增量同步,适用于同步与主表有关联的从表,根据主表中新增或更新的数据,对从表中关联的数据进行增量同步。
进一步地,在步骤S3中,建立用于计算最佳同步任务参数的决策树,具体为:
采用C4.5算法建立配置决策树,将所述任务日志库作为训练集,计算每次任务执行日志时各个属性的信息增益率,选择信息增益率最高的属性进行划分,具体包括以下步骤:
设定任务日志库中的所有属性集合为D,其中有K类任务配置;
计算整体数据的信息熵:
Figure GDA0004161710270000031
其中,Ck表示第k类任务配置;
计算每一个属性A的信息熵:
Figure GDA0004161710270000032
其中,通过属性A将D划分为n个不同类,Di为通过属性A划分后的第i个集合;
计算每一个属性A的信息增益:
Gain(D,A)=H(D)-H(D|A)
计算信息增益率:
Figure GDA0004161710270000033
Figure GDA0004161710270000034
针对于每一个属性A的信息增益率,找到信息增益率最高的特征,作为划分决策树的节点。
进一步地,当所述任务类型为校验时,包括即时快速校验、按日校验、按周校验、动态校验在内的校验方案,具体为:
所述即时快速校验,对数据量大、数据字段繁多的表进行及时的校验;
所述按日校验,对时间增量的数据进行校验,每次校验一天内有变化的数据;
所述按周校验,对时间增量的数据进行校验,每次校验一周内有变化的数据;
所述动态校验,对待校验的数据,按照固定的时间间隔拆分成多个数据段,分别校验。
进一步地,所述即时快速校验,具体为:
通过PCA算法对宽表降维度,提取出5%~20%的主成分数据,所述包含的信息可以达到原始数据95%以上,再对主成分数据计算MD5值,随原始数据一起同步到目标库;
对目标库按照同样的逻辑计算主成分数据的MD5值进行比较,如果一致,所述即时快速校验通过。
进一步地,通过PCA算法对宽表降维度,计算出最大化数据投影后的方差,获取到最优的数据矩阵,其后进行数据投影来降低矩阵维度,具体包括以下步骤:
将抽取到的原始数据按列组成n行m列的2维矩阵X;
对矩阵X进行0均值初始化,并应用特征缩放,缩放到-0.5~0.5;
设正交基uj,数据点xi在该基底上的投影距离为
Figure GDA0004161710270000041
所以所有数据在该基底上的投影的方差Jj为:
Figure GDA0004161710270000042
其中,m为样本数量,对矩阵X进行0均值初始化,即xcenter=0,则:
Figure GDA0004161710270000043
所以:
Figure GDA0004161710270000051
计算协方差矩阵
Figure GDA0004161710270000052
对协方差矩阵进行SVD分解,得到特征值及对应的特征向量;
将协方差矩阵代入公式(3),根据拉格朗日算子求极值,得:
Figure GDA0004161710270000053
Figure GDA0004161710270000054
构造函数:
Figure GDA0004161710270000055
求解
Figure GDA0004161710270000056
得:
Figure GDA0004161710270000057
当uj、λj分别为协方差矩阵S的特征向量、特征值时,Jj有极值,把上述结构代入公式(4)得:
Figure GDA0004161710270000058
对特征值从大到小排序,取前k个特征值对应的特征向量,得到新的k维坐标系P;对于任意满足条件的正交基,对应的数据在上面投影后的方差值为S矩阵的特征向量,从而:
Figure GDA0004161710270000059
其中λ从大到小排序
所以投影正交基为S的特征向量中的前k个最大特征值对应的特征向量;
根据特征向量和SVD的关系结论,代入矩阵S后得出满足投影后数据距离最大的新的正交基:
P={u1,u2,…,uk}
把矩阵映射到新坐标系中,将n行m列的矩阵降维成k行m列的矩阵;
Figure GDA0004161710270000061
进一步地,当所述任务类型为校验时,还包括以下校验方式:
记录数校验,比对对全表或增量进行同步的记录条数;
汇总值校验,比对对全表或增量进行同步的包括金额、数量在内的字段的汇总值;
校验码校验,比对对全表或增量进行同步的表记录的MD5值。
进一步地,在步骤S4中,还包括:当所述任务类型为校验时,当校验出所述目标数据库中已同步数据不准确时,重新同步所述目标数据库中的数据,具体为:
所述中心调度服务,根据所述抽取模式,生成对应的sq l语句,发送到所述数据抽取端,所述数据抽取端执行所述sq l语句,重新进行数据同步。
进一步地,在所述任务信息中,还包括:任务状态;
所述任务状态对数据同步或校验的任务的进度以及完成状态进行标记;
当所述任务状态为失败时,所述中心调度服务重新发起任务进行数据同步。
进一步地,所述数据抽取端与所述中心调度服务,以及所述数据处理端,通过消息应用服务进行通讯。
一种用于执行上述的应用于门店经营的差异化同步方法的***,包括:
数据抽取端建立模块,用于建立抽取源数据库中数据的数据抽取端,当启动所述源数据库中的数据抽取工作时,所述数据抽取端向中心调度服务进行注册,其中,所述中心调度服务,用于对多组所述源数据库的数据抽取进行调度;
任务信息生成模块,用于当所述中心调度服务接收到所述数据抽取端的注册信息后,生成包括任务类型、抽取模式在内的任务信息发送给所述数据抽取端,并启动用于在所述数据抽取端抽取了所述源数据库中的数据后,执行数据处理任务的数据处理端,其中,所述任务类型包括数据同步和校验,所述抽取模式包括全表同步、单表增量同步、从表增量同步在内的根据不同的表单形态选定的适配的抽取模式;
数据抽取模块,用于提供给所述数据抽取端在接收到所述任务信息后,根据所述任务类型和所述抽取模式执行任务,将抽取到的数据封装成数据包发送到所述数据处理端,其中,根据所述任务类型和所述抽取模式执行任务时,根据同步任务宿主机的性能,采用决策树来计算最佳同步任务参数,在不影响宿主机运行、其他应用运行的前提下,通过提高并发、提高批数据大小、优化任务队列分配来提高***资源的使用率、降低整体任务的耗时;
数据处理模块,用于提供给所述数据处理端在对所述数据包进行解析后,对所述数据包进行处理;当所述任务类型为数据同步时,将所述数据包中数据同步到目标数据库中,当所述任务类型为校验时,拉取所述目标数据库中已同步的数据,与所述数据包中的数据进行比对,以验证所述目标数据库中已同步数据的准确性。
一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述的方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机代码,当所述计算机代码被执行时,如上述的方法被执行。
与现有技术相比,本发明包括以下至少一种有益效果是:
(1)通过提供一种应用于门店经营的差异化同步方法,包括以下步骤:
S1:建立用于抽取源数据库中数据的数据抽取端,当启动所述源数据库中的数据抽取工作时,所述数据抽取端向中心调度服务进行注册,其中,所述中心调度服务,用于对多组所述源数据库的数据抽取进行调度;S2:当所述中心调度服务接收到所述数据抽取端的注册信息后,生成包括任务类型、抽取模式在内的任务信息发送给所述数据抽取端,并启动用于在所述数据抽取端抽取了所述源数据库中的数据后,执行数据处理任务的数据处理端,其中,所述任务类型包括数据同步和校验,所述抽取模式包括全表同步、单表增量同步、从表增量同步在内的根据不同的表单形态选定的适配的抽取模式;
S3:所述数据抽取端在接收到所述任务信息后,根据所述任务类型和所述抽取模式执行任务,将抽取到的数据封装成数据包发送到所述数据处理端,其中,根据所述任务类型和所述抽取模式执行任务时,根据同步任务宿主机的性能,采用决策树来计算最佳同步任务参数,在不影响宿主机运行、其他应用运行的前提下,通过提高并发、提高批数据大小、优化任务队列分配来提高***资源的使用率、降低整体任务的耗时;S4:所述数据处理端在对所述数据包进行解析后,对所述数据包进行处理;当所述任务类型为数据同步时,将所述数据包中数据同步到目标数据库中,当所述任务类型为校验时,拉取所述目标数据库中已同步的数据,与所述数据包中的数据进行比对,以验证所述目标数据库中已同步数据的准确性。上述技术方案,根据不同的表单形态,选择不同的抽取模式进行同步,使得每一次的同步都能够完整、准确和高效。
(2)通过选择不同的校验方案,对更新频率不同的数据进行校验。确保校验工作的效率,以及确保同步的数据的准确性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
图1为本发明一种应用于门店经营的差异化同步方法的整体流程图;
图2为本发明通过决策树来计算最佳同步任务参数的流程图;
图3为本发明同一批任务在同一台宿主机上执行的耗时记录的示意图;
图4为本发明数据量比较大、数据字段繁多的表结构的示意图;
图5为本发明即时快速校验的示意图;
图6为本发明第一实施例中PCA降维计算添加的数据的示意图;
图7为本发明第一实施例中PCA降维计算结果示意图;
图8为本发明全字段参与校验与主成分进行校验的耗时对比示意图;
图9为本发明一种应用于门店经营的差异化同步方法的结构图;
图10为本发明一种应用于门店经营的差异化同步***的整体结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本发明采用差异化的同步方式提高同步效率,具体从以下两个方面来划分:
一、“节源”,从同步任务配置上来看,根据表数据更新频率,从以下三种中选择同步模式,尽量减少同步的数据量,提高同步效率。
1.全表同步,适合于同步频率较低的大表或者相对同步频率稍高的小表;
2.单表增量同步,适合于同步最近发生改变的数据;
3.从表增量模式,适合于让从表使用主表的最后更新时间字段实现增量模式;
二、“开流”,根据同步任务宿主机的性能,采用决策树来计算最佳同步任务参数,在不影响宿主机运行、其他应用运行的前提下,通过提高并发、提高批数据大小、优化任务队列分配来提高***资源的使用率、降低整体任务的耗时。
以下通过具体的实施例进行说明:
第一实施例
如图1所示,本实施例提供了一种应用于门店经营的差异化同步方法,包括以下步骤:
S1:建立用于抽取源数据库中数据的数据抽取端,当启动所述源数据库中的数据抽取工作时,所述数据抽取端向中心调度服务进行注册,其中,所述中心调度服务,用于对多组所述源数据库的数据抽取进行调度。
具体地,在对每一个源数据库中的数据进行抽取之前,需要建立与源数据库相对应的一个数据抽取端。并且需要在中心调度服务中进行注册后,才能够开始数据的抽取工作。
其中,数据抽取端在中心调度服务中的注册信息包括数据抽取端的ip,源数据库的名称,状态,所使用的数据管道名称(topic)。
中心调度服务可以同时为多组源数据库进行数据同步服务。数据抽取端在中心调度服务中注册之前,中心调度服务不知道数据抽取端的存在,也没有启动对应的数据处理端。注册的目的是让中心调度服务知道有个抽取端开始工作,需要根据注册信息启动一个数据处理端来处理数据。这样便于做更灵活的调度。
S2:当所述中心调度服务接收到所述数据抽取端的注册信息后,生成包括任务类型、抽取模式在内的任务信息发送给所述数据抽取端,并启动用于在所述数据抽取端抽取了所述源数据库中的数据后,执行数据处理任务的数据处理端,其中,所述任务类型包括数据同步和校验,所述抽取模式包括全表同步、单表增量同步、从表增量同步在内的根据不同的表单形态选定的适配的抽取模式。
具体地,在中心调度服务接收到数据抽取端发送的注册信息之后,会生成一个任务信息发送给数据抽取端,数据抽取端只有在接收到任务信息后才能进行数据抽取,否则,抽取的数据,后续不会有数据处理端进行处理。
其中,任务信息中包含了任务类型和抽取模式。任务类型决定当次抽取的数据是用于做数据同步工作还是校验工作,对于不同的任务类型,在后续的数据处理端中将对数据做不同的处理。抽取模式决定根据表单形态的不同,采用具体哪一种抽取模式进行数据的抽取,以及在后续数据同步中采用与抽取模式相同的方式在目标数据中更新数据。
具体地,抽取和同步的技术方式为:使用jdbc连接源数据库,根据不同场景选择不同的抽取方式生成对应的sq l,从源数据库的表单中获取数据,目标数据库在接收到数据后,再根本不同的与抽取方式相对应的同步方式生成入库的sq l,在目标数据库中执行。
S3:所述数据抽取端在接收到所述任务信息后,根据所述任务类型和所述抽取模式执行任务,将抽取到的数据封装成数据包发送到所述数据处理端其中,根据所述任务类型和所述抽取模式执行任务时,根据同步任务宿主机的性能,采用决策树来计算最佳同步任务参数,在不影响宿主机运行、其他应用运行的前提下,通过提高并发、提高批数据大小、优化任务队列分配来提高***资源的使用率、降低整体任务的耗时。
具体地,数据抽取端在接收到任务信息后,需要对数据进行封装,形成数据包,方便数据的传输。
数据包的举例如下:
将抽取到的数据的字段名和字段类型以键值对的形式进行拼接,生成数据的字段对象;将字段对象与表格的类型和表名进行拼接,生成上述数据包。其中,进行拼接的方式不做任何限定,只要能够方便传输即可。拼接方式举例如下:表类型!@!表名!@!序列化后的字段和字段类型的键值对。
进一步地,如图2所示,根据所述任务类型和所述抽取模式执行任务时,根据同步任务宿主机的性能,采用决策树来计算最佳同步任务参数,在不影响宿主机运行、其他应用运行的前提下,通过提高并发、提高批数据大小、优化任务队列分配来提高***资源的使用率、降低整体任务的耗时,具体为:
建立用于计算最佳同步任务参数的决策树,在任务启动时,收集宿主机和数据仓储ETL的包括CPU核数、CPU使用率、I O、网络、内存、表字段数量、表字段大小在内的参数,将收集到的参数输入决策树;
决策树输出任务配置,启动数据仓储ETL任务;
根据当前***的使用情况和历史的任务日志,计算输出该批次任务的包括最优的并发数、批数据大小、任务队列的分配在内的任务配置,并收集任务执行的资源占用、耗时等信息保存到任务日志库,为下一次决策提供依据。
其中,对于参数的收集,可以通过如下方式:
对于***信息,一般可借助Linux***命令获取,例如:
获取CPU核数:cat/proc/cpuinfo|grep"processor"|wc-l
获取CPU使用率和IO情况:vmstat
获取内存使用情况:free
表相关信息会通过数据库查询获取。
进一步地,建立用于计算最佳同步任务参数的决策树,具体为:
采用C4.5算法(C4.5算法是由RossQuinlan开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类)建立配置决策树,将所述任务日志库作为训练集,C4.5算法的特点是计算信息增益率来作为分类标准,在本***中会计算每次任务执行日志中的各个属性的信息增益率,然后选择信息增益率最高的属性来进行划分,具体包括以下步骤:
设定任务日志库中的所有属性集合为D,其中有K类任务配置;
计算整体数据的信息熵:
Figure GDA0004161710270000121
其中,Ck表示第k类任务配置;
计算每一个属性A的信息熵:
Figure GDA0004161710270000122
其中,通过属性A将D划分为n个不同类,Di为通过属性A划分后的第i个集合;
计算每一个属性A的信息增益:
Gain(D,)=H(D)-H(D|A)
计算信息增益率:
Figure GDA0004161710270000131
Figure GDA0004161710270000132
针对于每一个属性A的信息增益率,找到信息增益率最高的特征,作为划分决策树的节点。
如图3所示,提供了一种具体应用的举例。图3为同一批任务在同一台宿主机上执行的耗时记录,为了模拟真实环境该宿主机上同时运行着其他应用。下图展示了该任务每次执行的耗时变化,可以看到,一开始为了避免与其他应用争抢资源,输出的任务配置比较保守,导致执行时间较长。后续尝试增加并发数、增大一批数据数量数、调整任务队列等调优策略,逐渐缩短了ETL任务耗时,最终达到一个比较平稳的状态。
S4:所述数据处理端在对所述数据包进行解析后,对所述数据包进行处理;当所述任务类型为数据同步时,将所述数据包中数据同步到目标数据库中,当所述任务类型为校验时,拉取所述目标数据库中已同步的数据,与所述数据包中的数据进行比对,以验证所述目标数据库中已同步数据的准确性。
具体地,数据处理端在接收到数据包之后,需要对数据包进行解析,还原成数据原始的结构。解析后,判断当次任务的任务类型,执行数据同步或验证操作。
一般的,验证任务在数据同步之后进行,验证同步的数据是否正确,当数据不正确时,中心调度服务会重新安排同步任务。
其中,对于数据同步任务,在目标数据库中生成相对应的sql语句并执行,将数据更新到目标数据库中。对于验证任务,按照指定的验证方式生成对应的查询统计sql,分别在源数据库和目标数据库执行,将执行结构做比对,根据场景需要和服务器情况,灵活选择不同的校验方式和校验时间,较小对服务器性能的影响。
进一步地,根据所述源数据库中表单形态的不同,选定不同的所述抽取模式进行数据抽取并同步,具体为:
(1)所述全表同步,适用于同步数据量少的表格(小表),以及数据量大但同步频率低的表格(大表),对表格中的全部数据进行全表同步;
(2)所述单表增量同步,适用于同步数据量大的单个表格,对表格中的新增或更新的数据进行增量同步;
(3)所述从表增量同步,适用于同步与主表有关联的从表,根据主表中新增或更新的数据,对从表中关联的数据进行增量同步。
进一步地,当所述任务类型为校验时,包括即时快速校验、按日校验、按周校验、动态校验在内的校验方案,根据数据量的大小,更新的频率选择合适的校验方案进行校验。具体为:
(1)所述即时快速校验,对数据量大、数据字段繁多的表进行及时的校验,如图4所示,若按照传统做法将全部字段纳入校验计算会消耗大量的时间和计算机资源。
(2)所述按日校验,对时间增量的数据进行校验,每次校验一天内有变化的数据;
(3)所述按周校验,对时间增量的数据进行校验,每次校验一周内有变化的数据;
(4)所述动态校验,对待校验的数据,按照固定的时间间隔拆分成多个数据段,分别校验。
其中,如图5所示,所述即时快速校验,具体为:
通过PCA算法对宽表降维度,提取出5%~20%的主成分数据,所述包含的信息可以达到原始数据95%以上,再对主成分数据计算MD5值,随原始数据一起同步到目标库;对目标库按照同样的逻辑计算主成分数据的MD5值进行比较,如果一致,所述即时快速校验通过。
具体的,源库端对抽取的数据采用JDBC连接的方式进行传输,同时由校验器处理该批数据生成对应的校验码,当数据被目标端获取后,再进行一次校验,将两次生成的校验码进行比对,可以判断出该批数据是否准确的完成传输,再选择后续的补救措施进行补救,保证数据的一致性。其中校验器的算法主要由PCA降维算法实现,目的是用较少特征的数据表达较多特征的数据,即数据压缩,获取数据的主要特征后,再进行MD5处理,生成校验码,来提升处理的速度。该算法的实现思路主要是计算出最大化数据投影后的方差,获取到最优的数据矩阵坐标,其后进行数据投影来降低矩阵维度。其实现原理如下:
将抽取到的原始数据按列组成n行m列的2维矩阵X;
对矩阵X进行0均值初始化,并应用特征缩放,缩放到-0.5~0.5;
设正交基uj,数据点xi在该基底上的投影距离为
Figure GDA0004161710270000151
所以所有数据在该基底上的投影的方差Jj为:
Figure GDA0004161710270000152
其中,m为样本数量,对矩阵X进行0均值初始化,即xcenter=0,则:
Figure GDA0004161710270000153
所以:
Figure GDA0004161710270000154
计算协方差矩阵
Figure GDA0004161710270000155
对协方差矩阵进行SVD分解,得到特征值及对应的特征向量;
将协方差矩阵代入公式(3),根据拉格朗日算子求极值,得:
Figure GDA0004161710270000156
Figure GDA0004161710270000157
构造函数:
Figure GDA00041617102700001510
求解
Figure GDA0004161710270000158
得:
Figure GDA0004161710270000159
当uj、λj分别为协方差矩阵S的特征向量、特征值时,Jj有极值,把上述结构代入公式(4)得:
Figure GDA0004161710270000161
对特征值从大到小排序,取前k个特征值对应的特征向量,得到新的k维坐标系P;对于任意满足条件的正交基,对应的数据在上面投影后的方差值为S矩阵的特征向量,从而:
Figure GDA0004161710270000162
其中λ从大到小排序
所以投影正交基为S的特征向量中的前k个最大特征值对应的特征向量;
根据特征向量和SVD的关系结论,代入矩阵S后得出满足投影后数据距离最大的新的正交基:
P={u1,u2,…,uk}
把矩阵映射到新坐标系中,将n行m列的矩阵降维成k行m列的矩阵;
Figure GDA0004161710270000163
举个例子来说,以一张91字段的表为例进行PCA降维计算添加原始数据(如图6),计算结果(如图7)。
性能验证:图8为同一批表在同步中采用两种即时校验模式耗时的比较。当表字段较少时,两种方式耗时基本一致,随着表字段数量的增加,只用主成分校验的效率优势就开始凸显,相比传统模式有明显的效率提升。
进一步地,当所述任务类型为校验时,还包括以下校验方式:
(1)记录数校验,比对对全表或增量进行同步的记录条数;
(2)汇总值校验,比对对全表或增量进行同步的包括金额、数量在内的字段的汇总值;
(3)校验码校验,比对对全表或增量进行同步的表记录的MD5值。
进一步地,在步骤S4中,还包括:当所述任务类型为校验时,当校验出所述目标数据库中已同步数据不准确时,重新同步所述目标数据库中的数据,具体为:所述中心调度服务,根据所述抽取模式,生成对应的sql语句,发送到所述数据抽取端,所述数据抽取端执行所述sql语句,重新进行数据同步。
具体地,针对差异化的同步模式和特点,形成了适配的同步模式,同时每一种同步模式都有数据校验和修复功能;从而很大程度地提升了数据同步的效率和准确度,为大数据体系每昼夜同步大量的数据形成了良好的基础。
如果发现数据有差异,会由中心调度服务器根据校验方式生成指定sql,发送到抽取端,由抽取端执行sql,重新同步数据.
重抽处理一般有两种方式:
(1)全表校验:重新抽取全表数据。
(2)增量校验:解析出有差异的时间段,重新同步此时间段内的数据。
进一步地,在所述任务信息中,还包括:任务状态;
所述任务状态对数据同步或校验的任务的进度以及完成状态进行标记;
当所述任务状态为失败时,所述中心调度服务重新发起任务进行数据同步。
第二实施例
本实施例与第一实施例步骤基本相同,不同点在于,所述数据抽取端与所述中心调度服务,以及所述数据处理端,通过消息应用服务进行通讯。
如图9所示,采用消息应用服务进行通信的差异化同步方法的具体执行方式,具体为:
网络环境采用百兆以太网,设备包括源数据库1,数据抽取端2,消息应用服务3(第一服务消息管道31,第二数据消息管道32),中心调度服务4(自带一个数据库41),数据处理端5。
运行平台采用linux,其中,消息应用服务3,中心调度服务4,数据处理端5需要在同一网段内,所以消息应用服务3上配有两块百兆网卡,其中一个网卡用于监听外网的数据包,另一个网卡与内网环境的中心调度服务4数据处理端5相连,这样即可保障数据在内外网环境的有序传递。
数据抽取端2启动与消息应用服务3建立网络连接,然后向第一服务消息管道31发出一条注册消息,中心调度服务4从第一服务消息管道31中接收到注册消息,解析后在数据库41应用中建立数据抽取端2的资料表,同时将任务信息发送到第一服务消息管道31中,数据抽取端2接收到任务消息,解析任务,执行抽取/校验等任务.将结果封装成数据包发送到第二数据消息管道32。数据处理端5持续监听第二数据消息管道32,接收到数据包后执行数处理任务。
第三实施例
如图10所示,本实施例提供一种执行如第一实施例中的应用于门店经营的差异化同步方法的***,包括:
数据抽取端建立模块1,用于建立抽取源数据库中数据的数据抽取端,当启动所述源数据库中的数据抽取工作时,所述数据抽取端向中心调度服务进行注册,其中,所述中心调度服务,用于对多组所述源数据库的数据抽取进行调度;
任务信息生成模块2,用于当所述中心调度服务接收到所述数据抽取端的注册信息后,生成包括任务类型、抽取模式在内的任务信息发送给所述数据抽取端,并启动用于在所述数据抽取端抽取了所述源数据库中的数据后,执行数据处理任务的数据处理端,其中,所述任务类型包括数据同步和校验,所述抽取模式包括全表同步、单表增量同步、从表增量同步在内的根据不同的表单形态选定的适配的抽取模式;
数据抽取模块3,用于提供给所述数据抽取端在接收到所述任务信息后,根据所述任务类型和所述抽取模式执行任务,将抽取到的数据封装成数据包发送到所述数据处理端;
数据处理模块4,用于提供给所述数据处理端在对所述数据包进行解析后,对所述数据包进行处理;当所述任务类型为数据同步时,将所述数据包中数据同步到目标数据库中,当所述任务类型为校验时,拉取所述目标数据库中已同步的数据,与所述数据包中的数据进行比对,以验证所述目标数据库中已同步数据的准确性。
一种计算机设备,包括存储器和一个或多个处理器,所述存储器中存储有计算机代码,所述计算机代码被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如第一实施例中任一项所述的方法。
一种计算机可读存储介质,计算机可读存储介质存储有计算机代码,当计算机代码被执行时,如上述方法被执行。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。如本说明书实施例所示实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Net work Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子***执行时,使得所述电子***执行实施例一所述的方法。在此不再赘述。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(tr ansitory media),如调制的数据信号和载波。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

Claims (10)

1.一种应用于门店经营的差异化同步方法,其特征在于,包括以下步骤:
S1:建立用于抽取源数据库中数据的数据抽取端,当启动所述源数据库中的数据抽取工作时,所述数据抽取端向中心调度服务进行注册,其中,所述中心调度服务,用于对多组所述源数据库的数据抽取进行调度;
S2:当所述中心调度服务接收到所述数据抽取端的注册信息后,生成包括任务类型、抽取模式在内的任务信息发送给所述数据抽取端,并启动用于在所述数据抽取端抽取了所述源数据库中的数据后,执行数据处理任务的数据处理端,其中,所述任务类型包括数据同步和校验,所述抽取模式包括全表同步、单表增量同步、从表增量同步在内的根据不同的表单形态选定的适配的抽取模式;
S3:所述数据抽取端在接收到所述任务信息后,根据所述任务类型和所述抽取模式执行任务,将抽取到的数据封装成数据包发送到所述数据处理端,其中,根据所述任务类型和所述抽取模式执行任务时,根据同步任务宿主机的性能,采用决策树来计算最佳同步任务参数,在不影响宿主机运行、其他应用运行的前提下,通过提高并发、提高批数据大小、优化任务队列分配来提高***资源的使用率、降低整体任务的耗时,并具体包括:
建立用于计算最佳同步任务参数的决策树,在任务启动时,收集宿主机和数据仓储ETL的包括CPU核数、CPU使用率、IO、网络、内存、表字段数量、表字段大小在内的参数,将收集到的参数输入决策树;
决策树输出任务配置,启动数据仓储ETL任务;
根据当前***的使用情况和历史的任务日志,计算输出该批次任务的包括最优的并发数、批数据大小、任务队列的分配在内的任务配置,并收集包括任务执行的资源占用、耗时在内的信息保存到任务日志库,为下一次决策提供依据;
S4:所述数据处理端在对所述数据包进行解析后,对所述数据包进行处理;当所述任务类型为数据同步时,将所述数据包中数据同步到目标数据库中,当所述任务类型为校验时,拉取所述目标数据库中已同步的数据,与所述数据包中的数据进行比对,以验证所述目标数据库中已同步数据的准确性。
2.根据权利要求1所述的应用于门店经营的差异化同步方法,其特征在于,还包括:根据所述源数据库中表单形态的不同,选定不同的所述抽取模式进行数据抽取并同步,具体为:
所述全表同步,适用于同步数据量少的表格,以及数据量大但同步频率低的表格,对表格中的全部数据进行全表同步;
所述单表增量同步,适用于同步数据量大的单个表格,对表格中的新增或更新的数据进行增量同步;
所述从表增量同步,适用于同步与主表有关联的从表,根据主表中新增或更新的数据,对从表中关联的数据进行增量同步。
3.根据权利要求1所述的应用于门店经营的差异化同步方法,其特征在于,在步骤S3中,建立用于计算最佳同步任务参数的决策树,具体为:
采用C4.5算法建立配置决策树,将所述任务日志库作为训练集,计算每次任务执行日志时各个属性的信息增益率,选择信息增益率最高的属性进行划分,具体包括以下步骤:
设定任务日志库中的所有属性集合为D,其中有K类任务配置;
计算整体数据的信息熵:
Figure FDA0004161710250000021
其中,Ck表示第k类任务配置;
计算每一个属性A的信息熵:
Figure FDA0004161710250000022
其中,通过属性A将D划分为n个不同类,Di为通过属性A划分后的第i个集合;
计算每一个属性A的信息增益:
Gain(D,A)=H(D)-H(D|A)
计算信息增益率:
Figure FDA0004161710250000031
Figure FDA0004161710250000032
针对于每一个属性A的信息增益率,找到信息增益率最高的特征,作为划分决策树的节点。
4.根据权利要求1所述的应用于门店经营的差异化同步方法,其特征在于,当所述任务类型为校验时,包括即时快速校验、按日校验、按周校验、动态校验在内的校验方案,具体为:
所述即时快速校验,对数据量大、数据字段繁多的表进行及时的校验;
所述按日校验,对时间增量的数据进行校验,每次校验一天内有变化的数据;
所述按周校验,对时间增量的数据进行校验,每次校验一周内有变化的数据;
所述动态校验,对待校验的数据,按照固定的时间间隔拆分成多个数据段,分别校验。
5.根据权利要求4所述的应用于门店经营的差异化同步方法,其特征在于,所述即时快速校验,具体为:
通过PCA算法对宽表降维度,提取出5%~20%的主成分数据,包含的信息可以达到原始数据95%以上,再对主成分数据计算MD5值,随原始数据一起同步到目标库;
对目标库按照同样的逻辑计算主成分数据的MD5值进行比较,如果一致,所述即时快速校验通过。
6.根据权利要求5所述的应用于门店经营的差异化同步方法,其特征在于,通过PCA算法对宽表降维度,计算出最大化数据投影后的方差,获取到最优的数据矩阵,其后进行数据投影来降低矩阵维度,具体包括以下步骤:
将抽取到的原始数据按列组成n行m列的2维矩阵X;
对矩阵X进行0均值初始化,并应用特征缩放,缩放到-0.5~0.5;
设正交基uj,数据点xi在该基底上的投影距离为
Figure FDA0004161710250000033
所以所有数据在该基底上的投影的方差Jj为:
Figure FDA0004161710250000041
其中,m为样本数量,对矩阵X进行0均值初始化,即xcenter=0,则:
Figure FDA0004161710250000042
所以:
Figure FDA0004161710250000043
计算协方差矩阵
Figure FDA0004161710250000044
对协方差矩阵进行SVD分解,得到特征值及对应的特征向量;
将协方差矩阵代入公式(3),根据拉格朗日算子求极值,得:
Figure FDA0004161710250000045
Figure FDA0004161710250000046
构造函数:
Figure FDA0004161710250000047
求解
Figure FDA0004161710250000048
得:
Figure FDA0004161710250000049
当uj、λj分别为协方差矩阵S的特征向量、特征值时,Jj有极值,把上述结构代入公式(4)得:
Figure FDA00041617102500000410
对特征值从大到小排序,取前k个特征值对应的特征向量,得到新的k维坐标系P;对于任意满足条件的正交基,对应的数据在上面投影后的方差值为S矩阵的特征向量,从而:
Figure FDA0004161710250000051
其中λ从大到小排序
所以投影正交基为S的特征向量中的前k个最大特征值对应的特征向量;
根据特征向量和SVD的关系结论,代入矩阵S后得出满足投影后数据距离最大的新的正交基:
P={u1,u2,…,uk}
把矩阵映射到新坐标系中,将n行m列的矩阵降维成k行m列的矩阵;
Figure FDA0004161710250000052
7.根据权利要求1所述的应用于门店经营的差异化同步方法,其特征在于,当所述任务类型为校验时,还包括以下校验方式:
记录数校验,比对对全表或增量进行同步的记录条数;
汇总值校验,比对对全表或增量进行同步的包括金额、数量在内的字段的汇总值;
校验码校验,比对对全表或增量进行同步的表记录的MD5值。
8.根据权利要求1所述的应用于门店经营的差异化同步方法,其特征在于,在步骤S4中,还包括:当所述任务类型为校验时,当校验出所述目标数据库中已同步数据不准确时,重新同步所述目标数据库中的数据,具体为:
所述中心调度服务,根据所述抽取模式,生成对应的sql语句,发送到所述数据抽取端,所述数据抽取端执行所述sql语句,重新进行数据同步。
9.一种执行如权利要求1-8任意一项所述的应用于门店经营的差异化同步方法的***,其特征在于,包括:
数据抽取端建立模块,用于建立抽取源数据库中数据的数据抽取端,当启动所述源数据库中的数据抽取工作时,所述数据抽取端向中心调度服务进行注册,其中,所述中心调度服务,用于对多组所述源数据库的数据抽取进行调度;
任务信息生成模块,用于当所述中心调度服务接收到所述数据抽取端的注册信息后,生成包括任务类型、抽取模式在内的任务信息发送给所述数据抽取端,并启动用于在所述数据抽取端抽取了所述源数据库中的数据后,执行数据处理任务的数据处理端,其中,所述任务类型包括数据同步和校验,所述抽取模式包括全表同步、单表增量同步、从表增量同步在内的根据不同的表单形态选定的适配的抽取模式;
数据抽取模块,用于提供给所述数据抽取端在接收到所述任务信息后,根据所述任务类型和所述抽取模式执行任务,将抽取到的数据封装成数据包发送到所述数据处理端,其中,根据所述任务类型和所述抽取模式执行任务时,根据同步任务宿主机的性能,采用决策树来计算最佳同步任务参数,在不影响宿主机运行、其他应用运行的前提下,通过提高并发、提高批数据大小、优化任务队列分配来提高***资源的使用率、降低整体任务的耗时;
数据处理模块,用于提供给所述数据处理端在对所述数据包进行解析后,对所述数据包进行处理;当所述任务类型为数据同步时,将所述数据包中数据同步到目标数据库中,当所述任务类型为校验时,拉取所述目标数据库中已同步的数据,与所述数据包中的数据进行比对,以验证所述目标数据库中已同步数据的准确性。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机代码,当所述计算机代码被执行时,如权利要求1至8中任一项所述的方法被执行。
CN202110377970.3A 2020-12-23 2021-04-08 一种应用于门店经营的差异化同步方法及*** Active CN113010609B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011538149 2020-12-23
CN2020115381497 2020-12-23

Publications (2)

Publication Number Publication Date
CN113010609A CN113010609A (zh) 2021-06-22
CN113010609B true CN113010609B (zh) 2023-05-16

Family

ID=76388107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110377970.3A Active CN113010609B (zh) 2020-12-23 2021-04-08 一种应用于门店经营的差异化同步方法及***

Country Status (1)

Country Link
CN (1) CN113010609B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823797A (zh) * 2012-11-16 2014-05-28 镇江诺尼基智能技术有限公司 基于ftp协议的行业数据库数据实时同步***
CN104317843A (zh) * 2014-10-11 2015-01-28 上海瀚之友信息技术服务有限公司 一种数据同步etl***
CN105989044A (zh) * 2015-02-04 2016-10-05 阿里巴巴集团控股有限公司 一种数据库校验方法及***
CN108628881A (zh) * 2017-03-20 2018-10-09 北京京东尚科信息技术有限公司 数据同步方法和装置
CN110062029A (zh) * 2019-03-21 2019-07-26 深圳壹账通智能科技有限公司 变更数据同步的方法、装置、计算机设备及计算机存储介质
CN110532363A (zh) * 2019-08-27 2019-12-03 华侨大学 一种基于决策树的任务导向型自动对话方法
CN110766269A (zh) * 2019-09-02 2020-02-07 平安科技(深圳)有限公司 一种任务分配方法、装置、可读存储介质及终端设备
US10628394B1 (en) * 2017-02-27 2020-04-21 Amazon Technologies, Inc. Database analysis service
CN111415025A (zh) * 2019-01-06 2020-07-14 刘泰麟 一种赤潮等级预测的方法
CN111600643A (zh) * 2020-04-09 2020-08-28 中国电子科技集团公司电子科学研究院 一种卫星通信资源调度方法、装置存储介质
CN111639368A (zh) * 2020-06-03 2020-09-08 汪金玲 一种基于区块链的增量学习分布式计算方法、***和节点

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7130807B1 (en) * 1999-11-22 2006-10-31 Accenture Llp Technology sharing during demand and supply planning in a network-based supply chain environment
CN103617176B (zh) * 2013-11-04 2017-03-15 广东电子工业研究院有限公司 一种实现多源异构数据资源自动同步的方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823797A (zh) * 2012-11-16 2014-05-28 镇江诺尼基智能技术有限公司 基于ftp协议的行业数据库数据实时同步***
CN104317843A (zh) * 2014-10-11 2015-01-28 上海瀚之友信息技术服务有限公司 一种数据同步etl***
CN105989044A (zh) * 2015-02-04 2016-10-05 阿里巴巴集团控股有限公司 一种数据库校验方法及***
US10628394B1 (en) * 2017-02-27 2020-04-21 Amazon Technologies, Inc. Database analysis service
CN108628881A (zh) * 2017-03-20 2018-10-09 北京京东尚科信息技术有限公司 数据同步方法和装置
CN111415025A (zh) * 2019-01-06 2020-07-14 刘泰麟 一种赤潮等级预测的方法
CN110062029A (zh) * 2019-03-21 2019-07-26 深圳壹账通智能科技有限公司 变更数据同步的方法、装置、计算机设备及计算机存储介质
CN110532363A (zh) * 2019-08-27 2019-12-03 华侨大学 一种基于决策树的任务导向型自动对话方法
CN110766269A (zh) * 2019-09-02 2020-02-07 平安科技(深圳)有限公司 一种任务分配方法、装置、可读存储介质及终端设备
CN111600643A (zh) * 2020-04-09 2020-08-28 中国电子科技集团公司电子科学研究院 一种卫星通信资源调度方法、装置存储介质
CN111639368A (zh) * 2020-06-03 2020-09-08 汪金玲 一种基于区块链的增量学习分布式计算方法、***和节点

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Parallel classification for data mining on shared-memory multiprocessors;M. J. Zaki 等;Proceedings 15th International Conference on Data Engineering;198-205 *
一种轻量级电网实时数据ETL***的设计与实现;段成;王增平;吴克河;;电力***保护与控制(第18期);196-199+204 *
一种钻井数据仓库ETL***的设计;梁美红;张男楠;李建;伍东;胡永泉;杨静;;计算机技术与发展(第03期);256-259 *
基于Hadoop和C4.5算法的车联网数据处理***;孙旭;中国优秀硕士学位论文全文数据库信息科技辑(第01期);I138-764 *
基于大数据的全业务统一数据中心数据分析域建设研究;朱碧钦;吴飞;罗富财;;电力信息与通信技术(第02期);95-100 *

Also Published As

Publication number Publication date
CN113010609A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN107766575B (zh) 读写分离的数据库访问方法及装置
CN106649828A (zh) 一种数据查询方法及***
CN108052635A (zh) 一种异构数据源统一联合查询方法
CN111061758B (zh) 数据存储方法、装置及存储介质
CN106802865B (zh) 用于软件测试的应答模拟装置及方法
CN110362456A (zh) 一种获取服务端性能数据的方法及装置
CN106844694B (zh) 用于同步数据的方法及设备
US20070219646A1 (en) Device performance approximation
CN113010609B (zh) 一种应用于门店经营的差异化同步方法及***
CN109120453A (zh) 一种全局展现cmdb中it基础架构数据的方法
CN109189864B (zh) 一种数据同步延时的确定方法、装置和设备
CN109101509A (zh) 数据准确性检测方法、装置、服务器及计算机存储介质
CN113297274B (zh) 一种签收数据查询方法和***
CN116186082A (zh) 基于分布式的数据汇总方法、第一服务器和电子设备
CN112463785B (zh) 一种数据质量监控方法、装置、电子设备及存储介质
CN115344633A (zh) 数据处理方法、装置、设备和存储介质
CN115794806A (zh) 金融数据的网格化处理***及方法、装置、计算设备
CN116166640A (zh) 全球导航卫星观测数据实时采集与管理方法及***
CN112052341A (zh) 知识图谱剪枝方法及装置
CN110427315A (zh) 推优的测试装置、方法及存储介质
CN117573730B (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
CN111966650A (zh) 一种运维大数据共享数据表的处理方法、装置及存储介质
CN112527882A (zh) 一种物联设备数据采集方法及装置
CN107015909B (zh) 基于代码变更分析的测试方法及装置
CN109783580A (zh) 数据同步方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant