CN106209974B - 一种数据同步方法、设备及*** - Google Patents

一种数据同步方法、设备及*** Download PDF

Info

Publication number
CN106209974B
CN106209974B CN201610451188.0A CN201610451188A CN106209974B CN 106209974 B CN106209974 B CN 106209974B CN 201610451188 A CN201610451188 A CN 201610451188A CN 106209974 B CN106209974 B CN 106209974B
Authority
CN
China
Prior art keywords
data block
data
transmitted
block
check code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610451188.0A
Other languages
English (en)
Other versions
CN106209974A (zh
Inventor
张建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201610451188.0A priority Critical patent/CN106209974B/zh
Publication of CN106209974A publication Critical patent/CN106209974A/zh
Application granted granted Critical
Publication of CN106209974B publication Critical patent/CN106209974B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/565Conversion or adaptation of application format or content
    • H04L67/5651Reducing the amount or size of exchanged application data

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据同步方法、设备及***,方法包括:针对不同类型的服务分别配置相应的采样周期;在到达目标类型服务对应的采样周期时,采集所述目标类型服务所需传输的数据;将所述所需传输的数据划分为至少一个数据块;确定所述至少一个数据块中未曾传输过的第一数据块、已经传输过的第二数据块,以及确定所述第一数据块的第一数据索引、所述第二数据块的第二数据索引;将所述第一数据块、所述第一数据索引和所述第二数据索引,发送至数据中心,以使所述数据中心存储所述至少一个数据块。根据本方案,可以减少传输过程中的数据量,进而可以降低网络带宽的占用量。

Description

一种数据同步方法、设备及***
技术领域
本发明涉及云计算技术领域,特别涉及一种数据同步方法、设备及***。
背景技术
云计算技术利用了虚拟化技术将计算、存储、网络等资源进行池化,通过互联网将共享的软硬件以服务的方式提供给用户。其中,PAAS(Platform as a Service,平台即服务)平台作为云计算的一种服务类型,将软件部署、运维作为一种服务按需提供给软件开发用户,成为近年来非常热门的研究方向。
在PAAS平台中,为了实现***服务以及各类订制化服务,需要对各个物理机上产生的数据进行同步存储。在对各个物理机上产生的数据进行实时同步时,物理机通过采集到自身产生的数据,将该数据通过网络资源发送给数据中心,由数据中心将该数据存储到实时数据库中。
网络资源对于PAAS平台来说异常珍贵,且现有技术中各个物理机上会产生大量的数据,导致网络带宽的占用量较大。
发明内容
本发明实施例提供了一种数据同步方法、设备及***,以降低网络带宽的占用量。
第一方面,本发明实施例提供了一种数据同步方法,应用于物理机,针对不同类型的服务分别配置相应的采样周期;所述方法包括:
在到达目标类型服务对应的采样周期时,采集所述目标类型服务所需传 输的数据;
将所述所需传输的数据划分为至少一个数据块;
确定所述至少一个数据块中未曾传输过的第一数据块、已经传输过的第二数据块,以及确定所述第一数据块的第一数据索引、所述第二数据块的第二数据索引;
将所述第一数据块、所述第一数据索引和所述第二数据索引,发送至数据中心,以使所述数据中心存储所述至少一个数据块。
优选地,
在将所述所需传输的数据划分为至少一个数据块之前,进一步包括:利用第一公式计算划分长度;
所述第一公式包括:
其中,k(Si)用于表征Si对应的划分长度;Si用于表征平台提供的第i个服务;period(si)用于表征对Si配置的采样周期;status(si)用于表征si的状态变化粒度评估;λ用于表示影响因子,为已知常数;defatult_size用于表征数据块的默认长度;
将所述所需传输的数据划分为至少一个数据块,包括:利用所述划分长度,将所需传输的数据划分为所述至少一个数据块;
和/或,
在将所述第一数据块、所述第一数据索引和所述第二数据索引,发送至数据中心之后,进一步包括:将所述至少一个数据块,以及所述至少一个数据块中每一个数据块对应的数据索引进行本地存储;
和/或,
所述确定所述至少一个数据块中未曾传输过的第一数据块、已经传输过 的第二数据块,包括:
确定本地存储的各个数据块中每一个数据块对应的第一校验码;
计算所述至少一个数据块中每一个数据块对应的第二校验码;
根据所述第二校验码,遍历所述第一校验码;将位于所述第一校验码中的所述第二校验码对应的数据块作为所述第二数据块,将未位于所述第一校验码中的所述第二校验码对应的数据块作为所述第一数据块。
优选地,所述计算所述至少一个数据块中每一个数据块对应的第二校验码,包括:
利用第二公式、第三公式和第四公式计算所述至少一个数据块中每一个数据块对应的第二校验码;
所述第二公式包括:
所述第三公式包括:
所述第四公式包括:
Adler32(1,k)=A(1,k)+216B(1,k);
其中,Adler32(1,k)用于表征第二校验码;A(1,k)用于表征第一中间参数,B(1,k)用于表征第二中间参数;data[j]用于表征当前数据块中的第j个字节对应的数据;M用于表征已知常数;k用于表征该当前数据块包括的字节数。
第二方面,本发明实施例还提供了一种数据同步方法,应用于数据中心,包括:
获取当前物理机发送的针对目标类型服务的第一数据块、所述第一数据块对应的第一数据索引、第二数据块对应的第二数据索引;其中,所述第一数据块为所述当前物理机未曾传输过的数据块,所述第二数据块为所述当前 物理机已经传输过的数据块;
根据本地存储的数据副本中包括的各个第三数据块、以及每一个所述第三数据块对应的第三数据索引,以及根据所述第二数据索引,确定出所述第二数据块;
存储所述第一数据块和所述第二数据块。
优选地,进一步包括:对存储的所述第一数据块和所述第二数据块,进行如下目标数量的数据副本复制:
其中,number用于表征对所述第一数据块和所述第二数据块进行数据副本复制的所述目标数量;request_dead_lock用于表征多用户请求对所述第一数据块和所述第二数据块的数据竞争造成服务阻塞的数量;all_request用于表征所述目标类型服务对应的并发访问量;a用于表征比例因子,为已知常数;init_size用于表征数据副本的初始化数量。
第三方面,本发明实施例还提供了一种物理机,包括:
配置单元,用于针对不同类型的服务分别配置相应的采样周期;
采集单元,用于在到达目标类型服务对应的采样周期时,采集所述目标类型服务所需传输的数据;
划分单元,用于将所述所需传输的数据划分为至少一个数据块;
确定单元,用于确定所述至少一个数据块中未曾传输过的第一数据块、已经传输过的第二数据块,以及确定所述第一数据块的第一数据索引、所述第二数据块的第二数据索引;
发送单元,用于将所述第一数据块、所述第一数据索引和所述第二数据索引,发送至数据中心,以使所述数据中心存储所述至少一个数据块。
优选地,
进一步包括:计算单元,用于利用第一公式计算划分长度;
所述第一公式包括:
其中,k(si)用于表征si对应的划分长度;si用于表征平台提供的第i个服务;period(si)用于表征对si配置的采样周期;status(si)用于表征si的状态变化粒度评估;λ用于表示影响因子,为已知常数;defatult_size用于表征数据块的默认长度;
所述划分单元,具体用于利用所述划分长度,将所需传输的数据划分为所述至少一个数据块;
和/或,
进一步包括:存储单元,用于将所述至少一个数据块,以及所述至少一个数据块中每一个数据块对应的数据索引进行本地存储;
和/或,
所述确定单元,包括:
确定模块,用于确定本地存储的各个数据块中每一个数据块对应的第一校验码;
计算模块,用于计算所述至少一个数据块中每一个数据块对应的第二校验码;
遍历模块,用于根据所述第二校验码,遍历所述第一校验码;将位于所述第一校验码中的所述第二校验码对应的数据块作为所述第二数据块,将未位于所述第一校验码中的所述第二校验码对应的数据块作为所述第一数据块。
第四方面,本发明实施例还提供了一种数据中心,包括:
获取单元,用于获取当前物理机发送的针对目标类型服务的第一数据块、所述第一数据块对应的第一数据索引、第二数据块对应的第二数据索引;其中,所述第一数据块为所述当前物理机未曾传输过的数据块,所述第二数据块为所述当前物理机已经传输过的数据块;
确定单元,用于根据本地存储的数据副本中包括的各个第三数据块、以及每一个所述第三数据块对应的第三数据索引,以及根据所述第二数据索引,确定出所述第二数据块;
存储单元,用于存储所述第一数据块和所述第二数据块。
优选地,进一步包括:复制单元,用于对存储的所述第一数据块和所述第二数据块,进行如下目标数量的数据副本复制:
其中,number用于表征对所述第一数据块和所述第二数据块进行数据副本复制的所述目标数量;request_dead_lock用于表征多用户请求对所述第一数据块和所述第二数据块的数据竞争造成服务阻塞的数量;all_request用于表征所述目标类型服务对应的并发访问量;a用于表征比例因子,为已知常数;init_size用于表征数据副本的初始化数量。
第五方面,本发明实施例还提供了一种数据同步***,包括:上述所述的数据中心、和至少一个上述所述的物理机。
本发明实施例提供了一种数据同步方法、设备及***,在对采集的所需传输的数据进行传输时,通过对所需传输的数据划分为至少一个数据块,将该至少一个数据块中未曾传输过的第一数据块及其第一数据索引、已经传输过的第二数据块对应的第二数据索引,传输给数据中心即可,无需传输第二数据块,从而可以减少传输过程中的数据量,进而可以降低网络带宽的占用量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种方法流程图;
图2是本发明一个实施例提供的另一种方法流程图;
图3是本发明一个实施例提供的又一种方法流程图;
图4是本发明一个实施例提供的物理机结构示意图;
图5是本发明一个实施例提供的数据中心结构示意图;
图6是本发明一个实施例提供的数据同步***结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种数据同步方法,应用于物理机,针对不同类型的服务分别配置相应的采样周期;该方法可以包括以下步骤:
步骤101:在到达目标类型服务对应的采样周期时,采集所述目标类型服务所需传输的数据。
在每一个物理机上每隔一段时间可能会产生一些新数据,每当这些产生新数据之后,需要对这些数据进行存储。其中,有些数据对实时性有要求,有些数据对实时性没有要求,因此,需要对数据的实时性进行判断。
在本实施例中,可以对不同类型的服务分别配置采样周期,以针对不同类型的服务进行数据采集和传输,从而实现对服务的分类存储。
步骤102:将所述所需传输的数据划分为至少一个数据块。
为了降低网络带宽的占用量,需要所需传输的数据划分为至少一个数据块。例如,所需传输的数据为1M,可以将该所需传输的数据划分为10个数据块。
步骤103:确定所述至少一个数据块中未曾传输过的第一数据块、已经 传输过的第二数据块,以及确定所述第一数据块的第一数据索引、所述第二数据块的第二数据索引。
在本实施例中,可以将已经传输给数据中心的数据块存储在物理机中。并通过物理机本地存储的已经传输过的各个数据块来确定,该至少一个数据块中哪些已经传输过,哪些未曾传输过。
步骤104:将所述第一数据块、所述第一数据索引和所述第二数据索引,发送至数据中心,以使所述数据中心存储所述至少一个数据块。
为了降低网络带宽的占用量,可以只传输未曾传输过的第一数据块,而对于已经传输过的第二数据块可以不用传输,只需将第二数据块对应的第二数据索引传输给数据中心即可,从而可以保证网络占用量相对于现有技术减少了第二数据块的网络占用量。
根据上述实施例方案,在对采集的所需传输的数据进行传输时,通过对所需传输的数据划分为至少一个数据块,将该至少一个数据块中未曾传输过的第一数据块及其第一数据索引、已经传输过的第二数据块对应的第二数据索引,传输给数据中心即可,无需传输第二数据块,从而可以减少传输过程中的数据量,进而可以降低网络带宽的占用量。
在本发明一个实施例中,可以通过如下方式实现对所需传输的数据的划分:进一步包括:利用第一公式计算划分长度;
所述第一公式包括:
其中,k(si)用于表征si对应的划分长度;si用于表征平台提供的第i个服务;period(si)用于表征对si配置的采样周期;status(si)用于表征si的状态变化粒度评估;λ用于表示影响因子,为已知常数;defatult_size用于表征数据块的默认长度;其中,在该服务的类型确定的情况下,status(si)为已知的参数。其中,该defatult_size的设置是为了保证最终确定的划分长度最小为该默认长度。
其中,该划分长度可以字节数,例如,10个字节;也可以是具体的空间占用量,例如,100KB。
将所述所需传输的数据划分为至少一个数据块,包括:利用所述划分长度,将所需传输的数据划分为所述至少一个数据块。
例如,k(si)为10个字节,所需传输的数据为100个字节,那么可以将该所需传输的数据划分为10个数据块,每一个数据块10个字节。
再如,k(si)为10个字节,所需传输的数据为99个字节,那么可以将该所需传输的数据划分为10个数据块,前9个数据块中每一个数据块10个字节,最后1个数据块为9个字节。
在本发明一个实施例中,在该第一数据块、所述第一数据索引和所述第二数据索引发送给数据中心之后,为了保证下一次进行数据块传输时,可以减少传输的数据块数量,可以在将所述第一数据块、所述第一数据索引和所述第二数据索引,发送至数据中心之后,进一步包括:将所述至少一个数据块,以及所述至少一个数据块中每一个数据块对应的数据索引进行本地存储。
在本发明一个实施例中,可以通过如下方式确定所述至少一个数据块中未曾传输过的第一数据块、已经传输过的第二数据块,包括:
确定本地存储的各个数据块中每一个数据块对应的第一校验码;
计算所述至少一个数据块中每一个数据块对应的第二校验码;
根据所述第二校验码,遍历所述第一校验码;将位于所述第一校验码中的所述第二校验码对应的数据块作为所述第二数据块,将未位于所述第一校验码中的所述第二校验码对应的数据块作为所述第一数据块。
其中,本地存储的各个数据块中每一个数据块对应的第一校验码的计算方式,与该至少一个数据块中每一个数据块对应的第二校验码的计算方式相同。
例如,该至少一个数据块包括10个数据块,分别为:数据块1、数据块2、数据块3、……、数据块10,每一个数据块对应的第二校验码分别为: A1、A2、A3、……、A10。假设在本地存储的第一校验码中包括A1、A2和A3的校验码,那么可以确定数据块1、数据块2和数据块3为已经传输过的数据块,数据块4、数据块5、数据块6、……数据块10为未曾传输过的数据块。
在本发明一个实施例中,可以通过如下方式计算该至少一个数据块中每一个数据块对应的第二校验码,该技术方式可以包括:
利用第二公式、第三公式和第四公式计算所述至少一个数据块中每一个数据块对应的第二校验码;
所述第二公式包括:
所述第三公式包括:
所述第四公式包括:
Adler32(1,k)=A(1,k)+216B(1,k);
其中,Adler32(1,k)用于表征第二校验码;A(1,k)用于表征第一中间参数,B(1,k)用于表征第二中间参数;data[j]用于表征当前数据块中的第j个字节对应的数据;M用于表征已知常数;k用于表征该当前数据块包括的字节数。
在根据上述计算方式计算得到的第二校验码,若根据上述计算方式计算得到的第二校验码,与本地存储的第一校验码均不相同,则表明该不相同的第二校验码对应的第二数据块一定未曾传输过;若与本地存储的第一校验码相同,则表明该相同的第二校验码对应的第二数据块可能已经传输过,还需要利用唯一校验值,例如,MD5值,进行进一步校验,若利用MD5值进一步校验结果相同,则表明该第二校验码对应的第二数据块已经传输过,否则,未曾传输过。
在本发明一个实施例中,也可以直接通过唯一校验值的方式计算第二校验码,以确定出第一数据块和第二数据块。
请参考图2,本发明实施例还提供了一种数据同步方法,应用于数据中心,包括:
步骤201:获取当前物理机发送的针对目标类型服务的第一数据块、所述第一数据块对应的第一数据索引、第二数据块对应的第二数据索引;其中,所述第一数据块为所述当前物理机未曾传输过的数据块,所述第二数据块为所述当前物理机已经传输过的数据块。
步骤202:根据本地存储的数据副本中包括的各个第三数据块、以及每一个所述第三数据块对应的第三数据索引,以及根据所述第二数据索引,确定出所述第二数据块。
数据中心本地存储有各个数据块的数据副本,其中,数据副本是一种提高数据访问效率、***容错能力、负载均衡能力的通用技术。数据副本中不仅包括各个第三数据块,还包括每一个第三数据块对应的第三数据索引,通过在第三数据索引中查找与第二数据索引相同的数据索引,并利用该相同的数据索引确定相应的数据块,该确定出的数据块即为已经传输过的第二数据块。
步骤203:存储所述第一数据块和所述第二数据块。
在本实施例中,还可以设置服务Si对应的数据量的阈值,例如,该阈值为100,在该服务包括的数据块个数达到100个时,将该服务对应的数据块存储到云存储中。
进一步地,数据中心通过判断数据对实时性的需求,将需要实时性的数据存储到实时数据库中,将不需要实时性的数据存储到普通的数据库中。
在本发明一个实施例中,由于数据副本的个数的不合理,可能会造成平台的存储压力,浪费大量的存储空间,因此,可以通过如下方式确定数据副本的个数,进一步包括:对存储的所述第一数据块和所述第二数据块,进行如下目标数量的数据副本复制:
其中,number用于表征对所述第一数据块和所述第二数据块进行数据副本复制的所述目标数量;request_dead_lock用于表征多用户请求对所述第一数据块和所述第二数据块的数据竞争造成服务阻塞的数量;all_request用于表征所述目标类型服务对应的并发访问量;a用于表征比例因子,为已知常数;init_size用于表征数据副本的初始化数量。
下面以提供服务的平台为PAAS平台为例,该PAAS平台包括至少一台物理机和数据中心,通过其中一台物理机和数据中心之间进行交互,以对实现的数据同步过程进行详细说明,请参考图3,该方法可以包括以下步骤:
步骤301:物理机针对不同类型的服务分别配置相应的采样周期。
在每一个物理机上每隔一段时间可能会产生一些新数据,每当这些产生新数据之后,需要对这些数据进行存储。
假设包括4种服务类型,对这四种服务类型进行如下表1所示的配置:
表1:
服务类型 采样周期/时间(s)
类型1 60
类型2 180
类型3 300
类型4 90
在本实施例中,可以分别利用不同的采集单元,分别针对上述四个类型的服务进行数据采集,每一个采集单元,根据上述表1中配置的采样周期,每当到达相应的采样周期时,执行对该相应类型服务数据的采集。
在本实施例中,用户还需要向数据中心的Agent注册监控信息,如监控指标、监控对象、监控方式等。
为了提供较好的扩展性,物理机中的Agent提供了两种扩展的方式:第 一种是通过脚本调用的方式,由用户传送监控脚本到Agent,由Agent调用脚本运行监控模块,采集服务状态信息。第二种方式是通过调用Agent的API,对其进行扩展同样可以达到获取服务状态信息的目的。
步骤302:在到达目标类型服务对应的采样周期时,采集所述目标类型服务所需传输的数据。
在本实施例中,物理机中可以包括多台虚拟机,每一台虚拟机上可以配置有Agent代理,该Agent代理可以实现对数据的采集和处理。
步骤303:根据服务类型计算划分长度。
在本实施例中,可以通过如下公式(1)计算划分长度:
其中,k(si)用于表征si对应的划分长度;si用于表征平台提供的第i个服务;period(si)用于表征对si配置的采样周期;status(si)用于表征si的状态变化粒度评估;λ用于表示影响因子,为已知常数;defatult_size用于表征数据块的默认长度。
其中,在该服务的类型确定的情况下,status(si)为已知的参数。
其中,该defatult_size的设置是为了保证最终确定的划分长度最小为该默认长度。例如,该最小默认长度为5个字节。
步骤304:利用计算的划分长度,将所需传输的数据划分为m个数据块。
假设将目标类型服务所需传输的数据划分出的m个数据块如下:其中,
步骤305:获取本地存储的各个数据块。
在物理机的本地存储有已经发送给数据中心的各个数据块,以及每一个数据块对应的数据索引。
步骤306:确定本地存储的各个数据块中每一个数据块对应的第一校验码。
步骤307:利用第一校验码的计算方式,计算m个数据块中每一个数据块对应的第二校验码,并根据第一校验码和第二校验码确定m个数据块中未曾传输的第一数据块和已经传输的第二数据块。
在本实施例中,为了保证校验码的一致性,需要利用第一校验码的计算方式来计算第二校验码。
其中,该计算方式可以是直接计算每一个数据块的唯一校验值,该唯一校验值可以为MD5值。例如,m个数据块分别对应的第二校验码为:A1、A2、A3、……、Am。在本地存储的第一校验码中包括:A1、A2和A3,那么确定数据块1、数据块2和数据块3为已经传输过的数据块,将数据块1、数据块2和数据块3作为第二数据块,将数据块4、数据块5、数据块6、……、数据块m作为未曾传输过的第一数据块。
由于唯一校验值的计算方式较为复杂,用时较长,因此,可以通过如下方式计算第二校验码:
在本发明一个实施例中,可以通过如下方式计算该至少一个数据块中每一个数据块对应的第二校验码,该计算方式可以包括:
利用公式(2)、公式(3)和公式(4)计算m个数据块中每一个数据块对应的第二校验码;
Adler32(1,k)=A(1,k)+216B(1,k) (4)
其中,Adler32(1,k)用于表征第二校验码;A(1,k)用于表征第一中间参数,B(1,k)用于表征第二中间参数;data[j]用于表征当前数据块中的第j个字节对应的数据;M用于表征已知常数;k用于表征该当前数据块包括的字节数。
在根据上述计算方式计算得到的第二校验码,若根据上述计算方式计算 得到的第二校验码,与本地存储的第一校验码均不相同,则表明该不相同的第二校验码对应的第二数据块一定未曾传输过;假设m个数据块对应的第二校验码分别为:A1、A2、A3、……、Am。A1、A2、A3均位于本地存储的第一校验码中,那么,A4、A5、A6、……、Am未曾传输过,可以将数据块4、数据块5、数据块6、……、数据块m确定为第二数据块。
若与本地存储的第一校验码相同,则表明该相同的第二校验码对应的第二数据块可能已经传输过,还需要利用唯一校验值,例如,MD5值,进行进一步校验。对数据块1、数据块2和数据块3需要进行进一步校验,计算数据块1、数据块2和数据块3分别对应的MD5值,以及计算本地存储的第一校验码为A1、A2和A3的三个数据块分别对应的MD5值,若相对应数据块的MD5值相同,则表明该数据块已经传输过;否则,该数据块未曾传输过。例如,A1、A2和A3均已经传输过,将数据块1、数据块2和数据块3确定为第一数据块。
步骤308:确定第一数据块对应的第一数据索引,以及确定第二数据块对应的第二数据索引。
其中,该第一数据索引需要根据第一数据块来生成。
第二数据索引可以根据本地存储的索引进行确定。
步骤309:将第一数据块、第一数据索引和第二数据索引,发送至数据中心,并将第一数据块和第一数据索引进行本地存储。
为了降低网络带宽的占用量,可以只传输未曾传输过的第一数据块,而对于已经传输过的第二数据块可以不用传输,只需将第二数据块对应的第二数据索引传输给数据中心即可,从而可以保证网络占用量相对于现有技术减少了第二数据块的网络占用量。
在本实施例中,在该第一数据块、第一数据索引和第二数据索引发送给数据中心之后,为了保证下一次进行数据块传输时,可以减少传输的数据块数量,可以进一步包括:将至少一个数据块,以及至少一个数据块中每一个数据块对应的数据索引进行本地存储。其中,存储的数据还可以包括第一数 据块和第二数据块对应的时间戳。
在本实施例中,还可以对第一数据块、第一数据索引和第二数据索引进行压缩,并将压缩后的数据包发送给数据中心。
步骤310:数据中心利用存储的数据副本中包括的各个第三数据块、每一个第三数据块对应的第三数据索引,以及根据第二数据索引,确定出第二数据块。
由于第二数据块已经给数据中心传输过,因此,在数据中心中存储有第二数据块和第二数据索引。
其中,可以通过数据副本来获取第二数据块。
数据中心本地存储有各个数据块的数据副本,其中,数据副本是一种提高数据访问效率、***容错能力、负载均衡能力的通用技术。数据副本中不仅包括各个第三数据块,还包括每一个第三数据块对应的第三数据索引,通过在第三数据索引中查找与第二数据索引相同的数据索引,并利用该相同的数据索引确定相应的数据块,该确定出的数据块即为已经传输过的第二数据块。
步骤311:根据设置的该目标类型的服务所对应的阈值,确定该第一数据块和第二数据块的个数是否大于该阈值,若大于,则将该第一数据块和第二数据块存储到云存储中,若不大于,则将该第一数据块和第二数据块存储到实时数据库中。
进一步地,还可以设置服务Si对应的数据量的阈值,例如,该阈值为100,在该服务包括的数据块个数达到100个时,将该服务对应的数据块存储到云存储中。
步骤312:对第一数据块和第二数据块进行数据副本复制。
数据副本的个数的不合理,可能会造成平台的存储压力,浪费大量的存储空间,因此,可以通过如下方式确定数据副本的个数:
该数据副本的数量可以通过如下公式(5)来确定:
其中,number用于表征对所述第一数据块和所述第二数据块进行数据副本复制的所述目标数量;request_dead_lock用于表征多用户请求对所述第一数据块和所述第二数据块的数据竞争造成服务阻塞的数量;all_request用于表征所述目标类型服务对应的并发访问量;a用于表征比例因子,为已知常数;init_size用于表征数据副本的初始化数量。
请参考图4,本发明实施例还提供了一种物理机,可以包括:
配置单元401,用于针对不同类型的服务分别配置相应的采样周期;
采集单元402,用于在到达目标类型服务对应的采样周期时,采集所述目标类型服务所需传输的数据;
划分单元403,用于将所述所需传输的数据划分为至少一个数据块;
确定单元404,用于确定所述至少一个数据块中未曾传输过的第一数据块、已经传输过的第二数据块,以及确定所述第一数据块的第一数据索引、所述第二数据块的第二数据索引;
发送单元405,用于将所述第一数据块、所述第一数据索引和所述第二数据索引,发送至数据中心,以使所述数据中心存储所述至少一个数据块。
在本发明一个实施例中,可以进一步包括:计算单元,用于利用第一公式计算划分长度;
所述第一公式包括:
其中,k(si)用于表征si对应的划分长度;si用于表征平台提供的第i个服务;period(si)用于表征对si配置的采样周期;status(si)用于表征si的状态变化粒度评估;λ用于表示影响因子,为已知常数;defatult_size用于表征数据块的默认长度;
所述划分单元,具体用于利用所述划分长度,将所需传输的数据划分为 所述至少一个数据块;
在本发明一个实施例中,可以进一步包括:存储单元,用于将所述至少一个数据块,以及所述至少一个数据块中每一个数据块对应的数据索引进行本地存储;
在本发明一个实施例中,所述确定单元,包括:
确定模块,用于确定本地存储的各个数据块中每一个数据块对应的第一校验码;
计算模块,用于计算所述至少一个数据块中每一个数据块对应的第二校验码;
遍历模块,用于根据所述第二校验码,遍历所述第一校验码;将位于所述第一校验码中的所述第二校验码对应的数据块作为所述第二数据块,将未位于所述第一校验码中的所述第二校验码对应的数据块作为所述第一数据块。
请参考图5,本发明实施例还提供了一种数据中心,可以包括:
获取单元501,用于获取当前物理机发送的针对目标类型服务的第一数据块、所述第一数据块对应的第一数据索引、第二数据块对应的第二数据索引;其中,所述第一数据块为所述当前物理机未曾传输过的数据块,所述第二数据块为所述当前物理机已经传输过的数据块;
确定单元502,用于根据本地存储的数据副本中包括的各个第三数据块、以及每一个所述第三数据块对应的第三数据索引,以及根据所述第二数据索引,确定出所述第二数据块;
存储单元503,用于存储所述第一数据块和所述第二数据块。
在本发明一个实施例中,可以进一步包括:复制单元,用于对存储的所述第一数据块和所述第二数据块,进行如下目标数量的数据副本复制:
其中,number用于表征对所述第一数据块和所述第二数据块进行数据副本复制的所述目标数量;request_dead_lock用于表征多用户请求对所述第一数据 块和所述第二数据块的数据竞争造成服务阻塞的数量;all_request用于表征所述目标类型服务对应的并发访问量;a用于表征比例因子,为已知常数;init_size用于表征数据副本的初始化数量。
请参考图6,本发明实施例还提供了一种数据同步***,可以包括:上述任一所述的数据中心50、和至少一个上述任一所述的物理机40。
综上所述,本发明各个实施例至少可以实现如下有益效果:
1、在本发明实施例中,在对采集的所需传输的数据进行传输时,通过对所需传输的数据划分为至少一个数据块,将该至少一个数据块中未曾传输过的第一数据块及其第一数据索引、已经传输过的第二数据块对应的第二数据索引,传输给数据中心即可,无需传输第二数据块,从而可以减少传输过程中的数据量,进而可以降低网络带宽的占用量。
2、在本发明实施例中,物理机中的Agent代理可以提供灵活的扩展功能,用户可以通过接口扩展或是脚本语言调用的方式,对Agent代理的数据监控采集进行动态的扩展。用户不需要因为引入了订制化的服务而对整个平台***进行改动。
3、在本发明实施例中,面向服务的多副本数据存储策略,在保证数据实时存储访问的基础上,不仅减少了数据副本的冗余数量,而且提高了***的并发访问度。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明 确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃·····”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种数据同步方法,其特征在于,应用于物理机,针对不同类型的服务分别配置相应的采样周期;所述方法包括:
在到达目标类型服务对应的采样周期时,采集所述目标类型服务所需传输的数据;
将所述所需传输的数据划分为至少一个数据块;
确定所述至少一个数据块中未曾传输过的第一数据块、已经传输过的第二数据块,以及确定所述第一数据块的第一数据索引、所述第二数据块的第二数据索引;
将所述第一数据块、所述第一数据索引和所述第二数据索引,发送至数据中心,以使所述数据中心存储所述至少一个数据块;
在将所述所需传输的数据划分为至少一个数据块之前,进一步包括:利用第一公式计算划分长度;
所述第一公式包括:
其中,k(si)用于表征Si对应的划分长度;Si用于表征平台提供的第i个服务;period(si)用于表征对Si配置的采样周期;status(si)用于表征Si的状态变化粒度评估;λ用于表示影响因子,为已知常数;defatult_size用于表征数据块的默认长度;
将所述所需传输的数据划分为至少一个数据块,包括:利用所述划分长度,将所需传输的数据划分为所述至少一个数据块;
在将所述第一数据块、所述第一数据索引和所述第二数据索引,发送至数据中心之后,进一步包括:将所述至少一个数据块,以及所述至少一个数据块中每一个数据块对应的数据索引进行本地存储;
所述确定所述至少一个数据块中未曾传输过的第一数据块、已经传输过的第二数据块,包括:
确定本地存储的各个数据块中每一个数据块对应的第一校验码;
计算所述至少一个数据块中每一个数据块对应的第二校验码;
根据所述第二校验码,遍历所述第一校验码;将位于所述第一校验码中的所述第二校验码对应的数据块作为所述第二数据块,将未位于所述第一校验码中的所述第二校验码对应的数据块作为所述第一数据块。
2.根据权利要求1所述的方法,其特征在于,所述计算所述至少一个数据块中每一个数据块对应的第二校验码,包括:
利用第二公式、第三公式和第四公式计算所述至少一个数据块中每一个数据块对应的第二校验码;
所述第二公式包括:
所述第三公式包括:
所述第四公式包括:
Adler32(1,k)=A(1,k)+216B(1,k);
其中,Adler32(1,k)用于表征第二校验码;A(1,k)用于表征第一中间参数,B(1,k)用于表征第二中间参数;data[j]用于表征当前数据块中的第j个字节对应的数据;M用于表征已知常数;k用于表征该当前数据块包括的字节数。
3.一种数据同步方法,其特征在于,应用于数据中心,包括:
获取当前物理机发送的针对目标类型服务的第一数据块、所述第一数据块对应的第一数据索引、第二数据块对应的第二数据索引;其中,所述第一数据块为所述当前物理机未曾传输过的数据块,所述第二数据块为所述当前物理机已经传输过的数据块;
根据本地存储的数据副本中包括的各个第三数据块、以及每一个所述第三数据块对应的第三数据索引,以及根据所述第二数据索引,确定出所述第二数据块;
存储所述第一数据块和所述第二数据块。
4.根据权利要求3所述的方法,其特征在于,进一步包括:对存储的所述第一数据块和所述第二数据块,进行如下目标数量的数据副本复制:
其中,number用于表征对所述第一数据块和所述第二数据块进行数据副本复制的所述目标数量;request_dead_lock用于表征多用户请求对所述第一数据块和所述第二数据块的数据竞争造成服务阻塞的数量;all_request用于表征所述目标类型服务对应的并发访问量;a用于表征比例因子,为已知常数;init_size用于表征数据副本的初始化数量。
5.一种物理机,其特征在于,包括:
配置单元,用于针对不同类型的服务分别配置相应的采样周期;
采集单元,用于在到达目标类型服务对应的采样周期时,采集所述目标类型服务所需传输的数据;
划分单元,用于将所述所需传输的数据划分为至少一个数据块;
确定单元,用于确定所述至少一个数据块中未曾传输过的第一数据块、已经传输过的第二数据块,以及确定所述第一数据块的第一数据索引、所述第二数据块的第二数据索引;
发送单元,用于将所述第一数据块、所述第一数据索引和所述第二数据索引,发送至数据中心,以使所述数据中心存储所述至少一个数据块;
进一步包括:计算单元,用于利用第一公式计算划分长度;
所述第一公式包括:
其中,k(si)用于表征Si对应的划分长度;Si用于表征平台提供的第i个服务;period(si)用于表征对Si配置的采样周期;status(si)用于表征Si的状态变化粒度评估;λ用于表示影响因子,为已知常数;defatult_size用于表征数据块的默认长度;
所述划分单元,具体用于利用所述划分长度,将所需传输的数据划分为所述至少一个数据块;
进一步包括:存储单元,用于将所述至少一个数据块,以及所述至少一个数据块中每一个数据块对应的数据索引进行本地存储;
所述确定单元,包括:
确定模块,用于确定本地存储的各个数据块中每一个数据块对应的第一校验码;
计算模块,用于计算所述至少一个数据块中每一个数据块对应的第二校验码;
遍历模块,用于根据所述第二校验码,遍历所述第一校验码;将位于所述第一校验码中的所述第二校验码对应的数据块作为所述第二数据块,将未位于所述第一校验码中的所述第二校验码对应的数据块作为所述第一数据块。
6.一种数据中心,其特征在于,包括:
获取单元,用于获取当前物理机发送的针对目标类型服务的第一数据块、所述第一数据块对应的第一数据索引、第二数据块对应的第二数据索引;其中,所述第一数据块为所述当前物理机未曾传输过的数据块,所述第二数据块为所述当前物理机已经传输过的数据块;
确定单元,用于根据本地存储的数据副本中包括的各个第三数据块、以及每一个所述第三数据块对应的第三数据索引,以及根据所述第二数据索引,确定出所述第二数据块;
存储单元,用于存储所述第一数据块和所述第二数据块。
7.根据权利要求6所述的数据中心,其特征在于,进一步包括:复制单元,用于对存储的所述第一数据块和所述第二数据块,进行如下目标数量的数据副本复制:
其中,number用于表征对所述第一数据块和所述第二数据块进行数据副本复制的所述目标数量;request_dead_lock用于表征多用户请求对所述第一数据块和所述第二数据块的数据竞争造成服务阻塞的数量;all_request用于表征所述目标类型服务对应的并发访问量;a用于表征比例因子,为已知常数;init_size用于表征数据副本的初始化数量。
8.一种数据同步***,其特征在于,包括:上述权利要求6或7所述的数据中心、和至少一个上述权利要求5所述的物理机。
CN201610451188.0A 2016-06-21 2016-06-21 一种数据同步方法、设备及*** Active CN106209974B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610451188.0A CN106209974B (zh) 2016-06-21 2016-06-21 一种数据同步方法、设备及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610451188.0A CN106209974B (zh) 2016-06-21 2016-06-21 一种数据同步方法、设备及***

Publications (2)

Publication Number Publication Date
CN106209974A CN106209974A (zh) 2016-12-07
CN106209974B true CN106209974B (zh) 2019-03-12

Family

ID=57460677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610451188.0A Active CN106209974B (zh) 2016-06-21 2016-06-21 一种数据同步方法、设备及***

Country Status (1)

Country Link
CN (1) CN106209974B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107070740A (zh) * 2017-03-11 2017-08-18 郑州云海信息技术有限公司 一种高效的paas平台监控方法及***
CN107357746B (zh) * 2017-07-26 2020-05-29 郑州云海信息技术有限公司 一种通信方法及***
CN107241447B (zh) * 2017-07-31 2019-09-13 Oppo广东移动通信有限公司 数据同步管控方法、装置、存储介质及电子设备
CN108418746B (zh) * 2018-02-13 2020-06-12 论客科技(广州)有限公司 一种邮件同步方法、装置与计算机可读存储介质
CN109733444B (zh) * 2018-09-19 2020-05-19 比亚迪股份有限公司 数据库***和列车监控管理设备
DE102020105794B4 (de) * 2020-03-04 2022-02-03 Infineon Technologies Ag Vorrichtung, Steuerung für eine Vorrichtung und Verfahren zur Kommunikation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101355588B (zh) * 2008-09-08 2012-08-01 创新科存储技术(深圳)有限公司 基于对等网络的数据传输方法及传输终端
CN102436478B (zh) * 2011-10-12 2013-06-19 浪潮(北京)电子信息产业有限公司 一种实现海量数据存取的***及方法
CN103873503A (zh) * 2012-12-12 2014-06-18 鸿富锦精密工业(深圳)有限公司 数据块备份***及方法
CN104063377A (zh) * 2013-03-18 2014-09-24 联想(北京)有限公司 信息处理方法和使用其的电子设备
CN104348884A (zh) * 2013-08-08 2015-02-11 中国科学院计算机网络信息中心 一种云存储自动同步方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101355588B (zh) * 2008-09-08 2012-08-01 创新科存储技术(深圳)有限公司 基于对等网络的数据传输方法及传输终端
CN102436478B (zh) * 2011-10-12 2013-06-19 浪潮(北京)电子信息产业有限公司 一种实现海量数据存取的***及方法
CN103873503A (zh) * 2012-12-12 2014-06-18 鸿富锦精密工业(深圳)有限公司 数据块备份***及方法
CN104063377A (zh) * 2013-03-18 2014-09-24 联想(北京)有限公司 信息处理方法和使用其的电子设备
CN104348884A (zh) * 2013-08-08 2015-02-11 中国科学院计算机网络信息中心 一种云存储自动同步方法

Also Published As

Publication number Publication date
CN106209974A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN106209974B (zh) 一种数据同步方法、设备及***
CN111709533B (zh) 机器学习模型的分布式训练方法、装置以及计算机设备
CN111614690B (zh) 一种异常行为检测方法及装置
CN108829581B (zh) 应用程序测试方法、装置、计算机设备及存储介质
CN107562531B (zh) 一种数据均衡方法和装置
CN112800095B (zh) 一种数据处理方法、装置、设备及存储介质
CN106815254B (zh) 一种数据处理方法和装置
CN110445939B (zh) 容量资源的预测方法及装置
CN111385142B (zh) 基于Kubernetes的自适应伸缩web容器的方法
CN110727727A (zh) 一种数据库的统计方法及装置
CN109597800B (zh) 一种日志分发方法及装置
CN112085535A (zh) 资源计量计费方法、装置、集群及存储介质
CN111984733A (zh) 基于区块链的数据传输方法、装置及存储介质
CN110300011B (zh) 一种告警根因定位方法、装置和计算机可读存储介质
US10313457B2 (en) Collaborative filtering in directed graph
CN113760640A (zh) 监控日志处理方法、装置、设备及存储介质
US10572486B2 (en) Data communication in a distributed data grid
CN113162960A (zh) 一种数据处理方法、装置、设备及介质
CN111209159A (zh) 一种信息处理方法、装置、设备及存储介质
CN116303418A (zh) 基于物联网平台的海量规则处理方法、***及存储介质
CN115309520A (zh) 任务迁移方法、装置、电子设备及存储介质
CN111598390B (zh) 服务器高可用性评估方法、装置、设备和可读存储介质
CN114285786A (zh) 一种网络链路库的构建方法及装置
CN113177613A (zh) ***资源数据分配方法及装置
CN113746920A (zh) 一种数据转发方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200522

Address after: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Patentee after: Tidal Cloud Information Technology Co.,Ltd.

Address before: 250100 Ji'nan high tech Zone, Shandong, No. 1036 wave road

Patentee before: INSPUR ELECTRONIC INFORMATION INDUSTRY Co.,Ltd.

TR01 Transfer of patent right
CP01 Change in the name or title of a patent holder

Address after: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Patentee after: Inspur cloud Information Technology Co., Ltd

Address before: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Patentee before: Tidal Cloud Information Technology Co.,Ltd.

CP01 Change in the name or title of a patent holder