CN114064603A - 一种数据校验方法、装置、电子设备及介质 - Google Patents

一种数据校验方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN114064603A
CN114064603A CN202010784352.6A CN202010784352A CN114064603A CN 114064603 A CN114064603 A CN 114064603A CN 202010784352 A CN202010784352 A CN 202010784352A CN 114064603 A CN114064603 A CN 114064603A
Authority
CN
China
Prior art keywords
storage node
data
sub
data information
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010784352.6A
Other languages
English (en)
Inventor
方芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN202010784352.6A priority Critical patent/CN114064603A/zh
Publication of CN114064603A publication Critical patent/CN114064603A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种数据校验方法、装置、电子设备及介质,涉及云存储技术领域。本申请实施例包括:在源存储节点的数据被全量迁移至目标存储节点后,比较源存储节点的数据信息和目标存储节点的数据信息是否一致,若一致,则确定待校验的数据的数量,根据待校验的数据的数量以及子线程数量,为每个子线程分配校验任务,以使每个子线程基于自身的校验任务,将源存储节点中的数据与目标存储节点中的数据进行一致性校验,以得到一致性校验结果。采用该方法可以兼顾校验效率与校验准确度。

Description

一种数据校验方法、装置、电子设备及介质
技术领域
本发明涉及云存储技术领域,特别是涉及一种数据校验方法、装置、电子设备及介质。
背景技术
在大数据的业务场景下,在将数据库源端的数据全量迁移到数据库目标端后,需要校验数据库源端和数据库目标端中的数据是否一致。
相关技术中的校验方法为比较数据库源端和数据库目标端中的数据条数是否一致,若数据条数一致,则确定数据库源端和数据库目标端中的数据一致。然而,数据条数一致不代表数据内容一致,采用该方法将导致校验结果不准确。
或者,通过采样的方式,比较数据库源端和数据库目标端中的部分数据是否一致,若一致,则认为数据库源端和数据库目标端中的所有数据一致。然而,未被采样的数据也可能存在不一致的情况,该方法也存在校验结果不准确的问题。
或者,还可以对数据库源端和数据库目标端中的数据进行逐条对比,当确定数据库源端和数据库目标端中的所有数据均一致时,认为数据库源端和数据库目标端中的数据一致。然而需要校验的数据量较大,采用逐条对比的方式会使得校验效率较低。可见,相关技术中无法兼顾校验效率与校验准确度。
发明内容
本发明实施例的目的在于提供一种数据校验方法、装置、电子设备及介质,以实现兼顾校验效率与校验准确度。具体技术方案如下:
第一方面,本申请实施例提供一种数据校验方法,包括:
在源存储节点的数据被全量迁移至目标存储节点后,比较所述源存储节点的数据信息和所述目标存储节点的数据信息是否一致;
若一致,则确定待校验的数据的数量;
根据所述待校验的数据的数量以及子线程数量,为每个子线程分配校验任务,以使所述每个子线程基于自身的校验任务,将所述源存储节点中的数据与所述目标存储节点中的数据进行一致性校验,以得到一致性校验结果;其中,所述每个子线程的校验任务包括所述子线程需要校验的数据的校验标识。
在一种可能的实现方式中,所述根据所述待校验的数据的数量以及子线程数量,为每个子线程分配校验任务,包括:
根据所述待校验的数据的数量以及所述子线程数量,确定所述每个子线程平均被分配的数据的目标数量;
按照所述源存储节点中各数据的存储顺序,分别为所述每个子线程分配所述目标数量的数据。
在一种可能的实现方式中,所述根据所述待校验的数据的数量以及子线程数量,为每个子线程分配校验任务之后,所述方法还包括:
分别将为所述每个子线程分配的校验任务存储在哈希映射中,以使得各子线程从所述哈希映射中获取自身的校验任务;其中,针对每个子线程,该子线程的标识为键值,该子线程需要校验的数据的校验标识为所述键值的数值。
在一种可能的实现方式中,所述比较所述源存储节点的数据信息和所述目标存储节点的数据信息是否一致,包括:
比较所述源存储节点中的数据的数量与所述目标存储节点中的数据的数量是否相同;
若所述源存储节点中的数据的数量与所述目标存储节点中的数据的数量相同,则确定所述源存储节点的数据信息和所述目标存储节点的数据信息一致;
若所述源存储节点中的数据的数量与所述目标存储节点中的数据的数量不同,则确定所述源存储节点的数据信息和所述目标存储节点的数据信息不一致。
在一种可能的实现方式中,所述数据信息包括:数据库数量、数据库名称、每个数据库包括的集合数量、每个集合的集合名称、每个集合包括的文档数量和索引数量中的至少一项;所述比较所述源存储节点的数据信息和所述目标存储节点的数据信息是否一致,包括:
将所述源存储节点的数据信息与所述目标存储节点的数据信息进行一一对比,若存在任意一项不同,则确定所述源存储节点的数据信息和所述目标存储节点的数据信息不一致;若全部相同,确定所述源存储节点的数据信息和所述目标存储节点的数据信息一致。
在一种可能的实现方式中,在所述比较所述源存储节点的数据信息和所述目标存储节点的数据信息是否一致之后,所述方法还包括:
若所述源存储节点的数据信息和所述目标存储节点的数据信息不一致,则记录所述源存储节点的数据信息与所述目标存储节点的数据信息的差异信息。
第二方面,本申请实施例提供一种数据校验装置,包括:
比较模块,用于在源存储节点的数据被全量迁移至目标存储节点后,比较所述源存储节点的数据信息和所述目标存储节点的数据信息是否一致;
确定模块,用于若所述比较模块的比较结果为所述源存储节点的数据信息和所述目标存储节点的数据信息一致,则确定待校验的数据数量;
分配模块,用于根据所述待校验的数据的数量以及子线程数量,为每个子线程分配校验任务,以使每个子线程基于自身的校验任务,将所述源存储节点中的数据与所述目标存储节点中的数据进行一致性校验,以得到一致性校验结果;其中,所述每个子线程的校验任务包括所述子线程需要校验的数据的校验标识。
在一种可能的实现方式中,所述分配模块,具体用于:
根据所述待校验的数据的数量以及所述子线程的数量,确定所述每个子线程平均被分配的数据的目标数量;
按照所述源存储节点中各数据的存储顺序,分别为所述每个子线程分配所述目标数量的数据。
在一种可能的实现方式中,所述装置还包括:
存储模块,用于分别将为所述每个子线程分配的校验任务存储在哈希映射中,以使得各子线程从所述哈希映射中获取自身的校验任务;其中,针对每个子线程,该子线程的标识为键值,该子线程需要校验的数据的校验标识为所述键值的数值。
在一种可能的实现方式中,所述比较模块,具体用于:
比较所述源存储节点中的数据的数量与所述目标存储节点中的数据的数量是否相同;
若所述源存储节点中的数据的数量与所述目标存储节点中的数据的数量相同,则确定所述源存储节点的数据信息和所述目标存储节点的数据信息一致;
若所述源存储节点中的数据的数量与所述目标存储节点中的数据的数量不同,则确定所述源存储节点的数据信息和所述目标存储节点的数据信息不一致。
在一种可能的实现方式中,所述数据信息包括:数据库数量、数据库名称、每个数据库包括的集合数量、每个集合的集合名称、每个集合包括的文档数量和索引数量中的至少一项;所述比较模块,具体用于:
将所述源存储节点的数据信息与所述目标存储节点的数据信息进行一一对比,若存在任意一项不同,则确定所述源存储节点的数据信息和所述目标存储节点的数据信息不一致;若全部相同,确定所述源存储节点的数据信息和所述目标存储节点的数据信息一致。
在一种可能的实现方式中,所述装置还包括:
记录模块,用于若所述源存储节点的数据信息和所述目标存储节点的数据信息不一致,则记录所述源存储节点的数据信息与所述目标存储节点的数据信息的差异信息。
第三方面,本发明实施例还提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的数据校验方法步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中所述的数据校验方法。
第五方面,本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面中所述的数据校验方法。
本申请实施例有益效果:
本申请实施例提供的数据校验方法、装置、电子设备及介质,在数据迁移后,可以比较源存储节点和目标存储节点的数据信息是否一致,若一致,再进行后续的校验过程,可以提高校验效率。在源存储节点和目标存储节点的数据信息一致的情况下,可以根据待校验的数据的数量和子线程数量,为每个子线程分配校验任务,从而使得各子线程基于自身的校验任务,将源存储节点中的数据与目标存储节点中的数据进行一致性校验,以得到一致性校验结果。对所有待校验的数据进行校验避免了部分数据未被校验的情况,保证了校验准确度。且多个子线程进行一致性校验,可以提高数据校验的效率,所以本申请实施例的数据校验方法兼顾了校验效率与校验准确度。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据库***的结构示意图;
图2为本发明实施例提供的一种数据校验方法的流程图;
图3为本发明实施例提供的一种主线程、哈希映射、和多个子线程的关系的示例性示意图;
图4为本发明实施例提供的一种数据校验装置的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决相关技术中无法兼顾校验效率与校验准确度的问题,本申请实施例提供了一种数据校验方法,该方法可以应用于数据库***中,如图1所示,该数据库***中包括源存储节点、目标存储节点和校验服务器。
其中,校验服务器可以为一个独立的服务器,或者,校验服务器与源存储节点或目标存储节点部署在同一服务器中,图1中以校验服务器为一个独立的服务器为例。
校验服务器用于在源存储节点中存储的数据被全量迁移至目标存储节点后,对源存储节点和目标存储节点中的数据进行一致性校验。
在本申请实施例中,源存储节点和目标存储节点可以为部署有MongoDB数据库的服务器。当然数据库的类型不限于此,例如还可以为MySQL数据库等,本发明实施例对此不作限定。其中,MongoDB是一种基于分布式文件存储的数据库,是介于关系数据库和非关系数据库之间的产品。MySQL是一种关系型数据库管理***。
本申请实施例提供一种数据校验的方法,该方法可以应用于图1中的校验服务器,校验服务器具体可以通过主线程执行该方法,如图2所示,该方法包括:
S201、在源存储节点的数据被全量迁移至目标存储节点后,比较源存储节点的数据信息和目标存储节点的数据信息是否一致。
若一致,则执行S202;若不一致,则结束校验过程。
S202、若一致,则确定待校验的数据的数量。
其中,待校验的数据的数量为源存储节点中存储的数据的数量或者目标存储节点中存储的数据的数量。
S203、根据待校验的数据的数量以及子线程数量,为每个子线程分配校验任务,以使每个子线程基于自身的校验任务,将源存储节点中的数据与目标存储节点中的数据进行一致性校验,以得到一致性校验结果。
其中,每个子线程的校验任务包括该子线程需要校验的数据的校验标识。
在一种实施方式中,可以采用平均分配的方式,将待校验的数据分配给各子线程,从而使得各子线程并行对不同的待校验的数据进行一致性校验,并使得各子线程通过一致性校验得到一致性校验结果。
在另一种实施方式中,可以分别为每个子线程分配一个待校验的数据,使得各子线程对被分配的一个待校验的数据进行一致性校验,并分别得到对被分配的一个待校验数据的一致性校验结果。当任意一个子线程完成一致性校验后,则为该子线程分配下一个待校验的数据。直至所有待校验的数据均被校验完成。
其中,校验服务器可以获取每个子线程的一致性校验结果,对每个子线程的一致性校验结果进行汇总,并输出汇总后的一致性校验结果。若源存储节点与目标存储节点中存在不一致的数据,则一致性校验结果中包括差异信息的明细信息,比如可以包括:源存储节点与目标存储节点中存在不一致的数据的标识,该数据所属集合的名称以及所属数据库的名称。
本发明实施例提供的数据校验方法,在数据迁移后,可以比较源存储节点和目标存储节点的数据信息是否一致,若一致,再进行后续的校验过程,可以提高校验效率。在源存储节点和目标存储节点的数据信息一致的情况下,可以根据待校验的数据的数量和子线程数量,为每个子线程分配校验任务,从而使得各子线程基于自身的校验任务,将源存储节点中的数据与目标存储节点中的数据进行一致性校验,以得到一致性校验结果。对所有待校验的数据进行校验避免了部分数据未被校验的情况,保证了校验准确度。且多个子线程进行一致性校验,可以提高数据校验的效率,所以本申请实施例的数据校验方法兼顾了校验效率与校验准确度。
本申请实施例中,子线程数量可根据实际情况设置。在一种实施方式中,为了提高校验速度,上述子线程数量小于等于中央处理器(central processing unit,CPU)核的数量。以子线程数量等于CPU核的数量为例,每个CPU核对应一个子线程,校验服务器可通过多个CPU核并行运行多个子线程。
可选地,在校验服务器为每个子线程分配校验任务之前,校验服务器可以初始化指定数量的子线程,指定数量即为上述子线程数量。
初始化在计算机编程领域中是指对数据对象或变量赋初始值,在进行上述初始化后,子线程即可用于对数据进行一致性校验。
若采用平均分配的方式为每个子线程分配校验任务,则上述S203中可以包括:
根据待校验的数据的数量以及子线程数量,确定每个子线程平均被分配的数据的目标数量;
按照源存储节点中各数据的存储顺序,分别为每个子线程分配目标数量的数据。
其中,上述目标数量为待校验的数据的数量除以子线程数量,若得到的结果不是整数,则取近似值。
示例性地,待校验的数据的数量为1534570,一共有16个子线程,则1534570/16=95910.625,可以将95911作为目标数量。
在确定目标数量后,按照各数据的存储顺序,为各子线程分配校验任务。以MongoDB为例,可以将每个文档作为一条数据。
为子线程1分配的校验任务包括:db1.col1.1_12347,db1.col2.1_21009,db1.col3.1_10000,db2.col1.1_52378,db2.col2.1_177,为子线程2分配的校验任务包括:db2.col2.178_62266,db3.col2.1_33822。其中,上述列举的校验任务均为数据的校验标识,若将本申请实施例应用在不同类型的数据库中,则数据的校验标识的形式也不同,本申请实施例中以MongoDB为例进行说明。
其中,db代表数据库,col代表集合,db1.col1.1_12347表示数据库1的集合1中的第1个文档至第12347个文档。db2.col2.1_177表示数据库2的集合2中的第1个文档至第177个文档,按照存储顺序,为子线程1分配的最后一个待校验的文档为数据库2的集合2中的第177个文档。
那么,为子线程2分配校验任务时,将从数据库2的集合2中的第178个文档开始分配,db2.col2.178_62266表示数据库2的集合2中的第178至第62266个文档。若为最后一个子线程分配校验任务时,未被分配的待校验的文档数量不足95911,则将未被分配的待校验的文档全部分配给最后一个子线程。
在本申请实施例中,校验服务器在为每个子线程分配校验任务后,可以分别将为每个子线程分配的校验任务存储在哈希映射(hashmap)中,以使得各子线程从hashmap中获取自身的校验任务。
其中,针对每个子线程,该子线程的标识为键值(key),该子线程需要校验的数据的校验标识为上述键值的数值(value)。
主线程、hashmap、和多个子线程的关系如图3所示,校验服务器通过主线程为各子线程分配校验任务后,将校验任务存储于hashmap。然后校验服务器通过主线程启动各子线程,各子线程可从hashmap中获取自身的校验任务,并执行校验任务。
作为示例,图3中示出了3个子线程,本发明实施例中子线程的数量不限于此。
结合上述实施例中的举例,若待校验的文档数量为1534570,一共有16个子线程,各子线程的标识分别为worker1、worker2、worker3……worker16,则hashmap中存储的校验任务如下:
worker1:{db1.col1.1_12347,db1.col2.1_21009,db1.col3.1_10000,db2.col1.1_52378,db2.col2.1_177}
worker2:{db2.col2.178_62266,db3.col2.1_33822}
……
worker16:{db9.col1.3000_52266,db10.col2.1_1000,db10.col3.1_39000}。
在本申请实施例的一种实现方式中,上述S201中的数据信息为数据的数量,则上述S201中可以包括:
比较源存储节点中的数据的数量与目标存储节点中的数据的数量是否相同;
若源存储节点中的数据的数量与目标存储节点中的数据的数量相同,则确定源存储节点的数据信息和目标存储节点的数据信息一致;
若源存储节点中的数据的数量与目标存储节点中的数据的数量不同,则确定源存储节点的数据信息和和目标存储节点的数据信息不一致。
采用该方法,在对所有待校验的数据进行一致性校验前,可以先对数据的数量进行对比,若源存储节点中的数据的数量,与目标存储节点中的数据的数量不同,则可确定源存储节点与目标存储节点中存储的数据不一致,进而无需进一步对待校验的数据的内容进行一致性校验,可以提高校验效率。
在本申请实施例中,校验服务器比较源存储节点的数据信息和目标存储节点的数据信息是否一致后,若确定源存储节点的数据信息和目标存储节点的数据信息不一致,则记录源存储节点的数据信息与目标存储节点的数据信息的差异信息。
比如,若经比较,确定源存储节点中的数据的数量与目标存储节点中的数据的数量不一致,则记录的差异信息可以为数据总数量不一致,或者记录的差异信息可以包括:源存储节点中的数据的数量和目标存储节点中的数据的数量。
校验服务器可以将该差异信息作为校验结果输出,以便于后续校验服务器或者工作人员基于该差异信息定位导致源存储节点与目标存储节点中的数据信息不一致的原因。
在另一种实施方式中,上述S201中的数据信息包括:数据库数量、数据库名称、每个数据库包括的集合数量、每个集合的集合名称、每个集合包括的文档数量和索引数量中的至少一项。
基于此,上述S201中可以包括:
将源存储节点的数据信息与目标存储节点的数据信息进行一一对比,若存在任意一项不同,则确定源存储节点的数据信息和目标存储节点的数据信息不一致;若全部相同,则确定源存储节点的数据信息和目标存储节点的数据信息一致。
举例而言,源存储节点和目标存储节点均可以为部署有MongoDB实例的存储节点,也就是说,源存储节点的源MongoDB实例中的文档被全量迁移至了目标存储节点中的目标MongoDB实例后,可以将源MongoDB实例中的数据信息与目标MongoDB实例中的数据信息进行一一对比。
在本申请实施例中,校验服务器可以将源存储节点与目标存储节点中的数据信息中的每一项进行对比,以确定是否存在差异。
或者,校验服务器可以按照一定的顺序逐个对比。比如,先对比数据库的数量是否相同。若不同,则结束校验过程,可选地,可以记录差异信息为:数据库的数量不同,还可以进一步地记录源存储节点中的数据库的数量和目标存储节点中的数据库的数量。
若相同,则对于每个数据库,对比源存储节点中的该数据库与目标存储节点中该数据库的数据库名称是否相同。若不同,则结束校验过程,可选地,可以记录差异信息为:数据库名称不同,还可以进一步地记录源存储节点中该数据库的名称和目标存储节点中该数据库的名称。
若相同,则对于每个数据库,对比源存储节点中该数据库中的集合数量与目标存储节点中该数据库中的集合数量是否相同。若不同,则结束校验过程,可选地,可以记录差异信息为:存在集合数量不同,还可以进一步地记录该数据库的名称、源存储节点中该数据库包括的集合数量和目标存储节点中该数据库包括的集合数量。
若相同,则对于每个数据库,分别对比源存储节点中该数据库包括的每个集合的集合名称,与目标存储节点中该数据库包括的相同的集合的集合名称是否相同。若不同,则结束校验过程,可选地,可以记录差异信息为:集合名称不同,还可以进一步地记录该数据库的名称、相同的集合在源存储节点中的集合名称和在目标存储节点中的集合名称。换言之,也就是记录源存储节点与目标存储节点中的哪一数据库的哪一集合的集合名称不同,以及该集合在源存储节点中的集合名称和该集合在目标存储节点中的集合名称。例如,源存储节点中的数据库1的第1个集合名称为A,目标存储节点中的数据库1的第1个集合名称为B。
若相同,则对于每个集合,对比源存储节点中该集合包括的文档数量与目标存储节点中该集合包括的文档数量是否相同。若不同,则结束校验过程,可选地,可以记录差异信息为:文档数量不同,还可以进一步地记录该集合的名称、该集合所属数据库的名称、以及源存储节点中该集合包括的文档数量以及目标存储节点中该集合包括的文档数量。例如,源存储节点中的数据库3的第1个集合包括100个文档,目标存储节点中的数据库3的第1个集合包括101个文档。
若相同,则对于每个集合,对比源存储节点中该集合包括的索引数量与目标存储节点中该集合包括的索引数量是否相同。若不同,则结束校验过程,可选地,可以记录差异信息为:索引数量不同,还可以进一步记录该集合的名称、该集合所属数据库的名称、以及源存储节点中该集合包括的索引数量以及目标存储节点中该集合包括的索引数量。例如,源存储节点中的数据库3的第1个集合包括20个索引,目标存储节点中的数据库3的第1个集合包括19个索引。
若相同,则确定源存储节点的数据信息与目标存储节点的数据信息相同。
采用这种对比方式,当比较发现任意一项数据信息不同时,则结束校验,可以提高校验效率。
基于相同的发明构思,本申请实施例还提供一种数据校验装置,如图4所示,该装置包括:
比较模块401,用于在源存储节点的数据被全量迁移至目标存储节点后,比较源存储节点的数据信息和目标存储节点的数据信息是否一致;
确定模块402,用于若比较模块401的比较结果为源存储节点的数据信息和目标存储节点的数据信息一致,则确定待校验的数据数量;
分配模块403,用于根据待校验的数据的数量以及子线程数量,为每个子线程分配校验任务,以使每个子线程基于自身的校验任务,将源存储节点中的数据与目标存储节点中的数据进行一致性校验,得到一致性校验结果;其中,每个子线程的校验任务包括该子线程需要校验的数据的校验标识。
可选地,分配模块403,具体用于:
根据待校验的数据的数量以及子线程的数量,确定每个子线程平均被分配的数据的目标数量;
按照源存储节点中各数据的存储顺序,分别为每个子线程分配目标数量的数据。
可选地,该装置还包括:
存储模块,用于分别将为每个子线程分配的校验任务存储在哈希映射中,以使得各子线程从哈希映射中获取自身的校验任务;其中,针对每个子线程,该子线程的标识为键值,该子线程需要校验的数据的校验标识为键值的数值。
可选地,比较模块401,具体用于:
比较源存储节点中的数据的数量与目标存储节点中的数据的数量是否相同;
若源存储节点中的数据的数量与目标存储节点中的数据的数量相同,则确定源存储节点的数据信息和目标存储节点的数据信息一致;
若源存储节点中的数据的数量与目标存储节点中的数据的数量不同,则确定源存储节点的数据信息和目标存储节点的数据信息不一致。
可选地,上述数据信息包括:数据库数量、数据库名称、每个数据库包括的集合数量、每个集合的集合名称、每个集合包括的文档数量和索引数量中的至少一项;比较模块401,具体用于:
将源存储节点的数据信息与目标存储节点的数据信息进行一一对比,若存在任意一项不同,则确定源存储节点的数据信息和目标存储节点的数据信息不一致;若全部相同,确定源存储节点的数据信息和目标存储节点的数据信息一致。
可选地,该装置还包括:
记录模块,用于若源存储节点的数据信息和目标存储节点的数据信息不一致,则记录源存储节点的数据信息与目标存储节点的数据信息的差异信息。
本发明实施例还提供了一种电子设备,该电子设备具体可以为上文中的校验服务器,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现上述方法实施例中的方法步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一数据校验方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一数据校验方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种数据校验方法,其特征在于,包括:
在源存储节点的数据被全量迁移至目标存储节点后,比较所述源存储节点的数据信息和所述目标存储节点的数据信息是否一致;
若一致,则确定待校验的数据的数量;
根据所述待校验的数据的数量以及子线程数量,为每个子线程分配校验任务,以使所述每个子线程基于自身的校验任务,将所述源存储节点中的数据与所述目标存储节点中的数据进行一致性校验,以得到一致性校验结果;其中,所述每个子线程的校验任务包括所述子线程需要校验的数据的校验标识。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待校验的数据的数量以及子线程数量,为每个子线程分配校验任务,包括:
根据所述待校验的数据的数量以及所述子线程数量,确定所述每个子线程平均被分配的数据的目标数量;
按照所述源存储节点中各数据的存储顺序,分别为所述每个子线程分配所述目标数量的数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述待校验的数据的数量以及子线程数量,为每个子线程分配校验任务之后,所述方法还包括:
分别将为所述每个子线程分配的校验任务存储在哈希映射中,以使得各子线程从所述哈希映射中获取自身的校验任务;其中,针对每个子线程,该子线程的标识为键值,该子线程需要校验的数据的校验标识为所述键值的数值。
4.根据权利要求1所述的方法,其特征在于,所述比较所述源存储节点的数据信息和所述目标存储节点的数据信息是否一致,包括:
比较所述源存储节点中的数据的数量与所述目标存储节点中的数据的数量是否相同;
若所述源存储节点中的数据的数量与所述目标存储节点中的数据的数量相同,则确定所述源存储节点的数据信息和所述目标存储节点的数据信息一致;
若所述源存储节点中的数据的数量与所述目标存储节点中的数据的数量不同,则确定所述源存储节点的数据信息和所述目标存储节点的数据信息不一致。
5.根据权利要求1所述的方法,其特征在于,所述数据信息包括:数据库数量、数据库名称、每个数据库包括的集合数量、每个集合的集合名称、每个集合包括的文档数量和索引数量中的至少一项;所述比较所述源存储节点的数据信息和所述目标存储节点的数据信息是否一致,包括:
将所述源存储节点的数据信息与所述目标存储节点的数据信息进行一一对比,若存在任意一项不同,则确定所述源存储节点的数据信息和所述目标存储节点的数据信息不一致;若全部相同,确定所述源存储节点的数据信息和所述目标存储节点的数据信息一致。
6.根据权利要求1、4或5中任一项所述的方法,其特征在于,在所述比较所述源存储节点的数据信息和所述目标存储节点的数据信息是否一致之后,所述方法还包括:
若所述源存储节点的数据信息和所述目标存储节点的数据信息不一致,则记录所述源存储节点的数据信息与所述目标存储节点的数据信息的差异信息。
7.一种数据校验装置,其特征在于,包括:
比较模块,用于在源存储节点的数据被全量迁移至目标存储节点后,比较所述源存储节点的数据信息和所述目标存储节点的数据信息是否一致;
确定模块,用于若所述比较模块的比较结果为所述源存储节点的数据信息和所述目标存储节点的数据信息一致,则确定待校验的数据数量;
分配模块,用于根据所述待校验的数据的数量以及子线程数量,为每个子线程分配校验任务,以使每个子线程基于自身的校验任务,将所述源存储节点中的数据与所述目标存储节点中的数据进行一致性校验,以得到一致性校验结果;其中,所述每个子线程的校验任务包括所述子线程需要校验的数据的校验标识。
8.根据权利要求7所述的装置,其特征在于,所述分配模块,具体用于:
根据所述待校验的数据的数量以及所述子线程的数量,确定所述每个子线程平均被分配的数据的目标数量;
按照所述源存储节点中各数据的存储顺序,分别为所述每个子线程分配所述目标数量的数据。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
CN202010784352.6A 2020-08-06 2020-08-06 一种数据校验方法、装置、电子设备及介质 Pending CN114064603A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010784352.6A CN114064603A (zh) 2020-08-06 2020-08-06 一种数据校验方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010784352.6A CN114064603A (zh) 2020-08-06 2020-08-06 一种数据校验方法、装置、电子设备及介质

Publications (1)

Publication Number Publication Date
CN114064603A true CN114064603A (zh) 2022-02-18

Family

ID=80232537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010784352.6A Pending CN114064603A (zh) 2020-08-06 2020-08-06 一种数据校验方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN114064603A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115878047A (zh) * 2023-01-19 2023-03-31 苏州浪潮智能科技有限公司 一种数据一致性校验方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115878047A (zh) * 2023-01-19 2023-03-31 苏州浪潮智能科技有限公司 一种数据一致性校验方法、装置、设备及存储介质
CN115878047B (zh) * 2023-01-19 2023-06-16 苏州浪潮智能科技有限公司 一种数据一致性校验方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108897628B (zh) 一种分布式锁的实现方法、装置及电子设备
US10241896B2 (en) Formation and manipulation of test data in a database system
CN111104392B (zh) 一种数据库迁移方法、装置、电子设备及存储介质
CN106407207B (zh) 一种实时新增数据更新方法和装置
US10621071B2 (en) Formation and manipulation of test data in a database system
CN108170815B (zh) 一种数据处理方法、装置及存储介质
US9514170B1 (en) Priority queue using two differently-indexed single-index tables
CN108573019B (zh) 一种数据迁移方法、装置、电子设备及可读存储介质
CN112231070A (zh) 数据写入、读取方法、装置及服务器
CN111488377A (zh) 数据查询方法、装置、电子设备及存储介质
CN113297171A (zh) 数据库迁移方法及装置、数据库集群
CN113268439A (zh) 内存地址的查找方法和装置、电子设备和存储介质
CN114064603A (zh) 一种数据校验方法、装置、电子设备及介质
CN111198885A (zh) 数据的处理方法及装置
CN111563115B (zh) 一种分布式数据库中数据分布信息的统计方法及装置
CN112416417A (zh) 一种代码量统计方法、装置、电子设备及存储介质
CN108388424B (zh) 一种调用接口数据的方法、装置及电子设备
CN113849482A (zh) 一种数据迁移方法、装置及电子设备
CN115438024A (zh) 数据导入中台的方法、装置、***、电子设备、存储介质
CN107102898B (zh) 一种基于numa架构的内存管理、构建数据结构的方法及装置
CN110968267B (zh) 数据管理方法、装置、服务器及***
CN111399754B (zh) 存储空间的释放方法、装置及分布式***
CN113392067A (zh) 一种针对分布式数据库的数据处理方法、装置及***
CN113760854A (zh) Hdfs内存中数据的识别方法及相关设备
CN111881220A (zh) 列表存储下的数据操作方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination