CN117251460A - 图数据库和关系数据库的数据一致性校验*** - Google Patents

图数据库和关系数据库的数据一致性校验*** Download PDF

Info

Publication number
CN117251460A
CN117251460A CN202311002776.2A CN202311002776A CN117251460A CN 117251460 A CN117251460 A CN 117251460A CN 202311002776 A CN202311002776 A CN 202311002776A CN 117251460 A CN117251460 A CN 117251460A
Authority
CN
China
Prior art keywords
information
node
verification
data
checking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311002776.2A
Other languages
English (en)
Other versions
CN117251460B (zh
Inventor
郝磊
郭志扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhanlue Data Technology Co ltd
Original Assignee
Shanghai Zhanlue Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhanlue Data Technology Co ltd filed Critical Shanghai Zhanlue Data Technology Co ltd
Priority to CN202311002776.2A priority Critical patent/CN117251460B/zh
Publication of CN117251460A publication Critical patent/CN117251460A/zh
Application granted granted Critical
Publication of CN117251460B publication Critical patent/CN117251460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及数据库技术领域,尤其涉及一种图数据库和关系数据库的数据一致性校验***,结点获取模块,用以选择图数据库中的初始结点,并定位初始结点在关系数据库中的源表;解析模块,用以解析与所述初始结点相连的若干边的关系信息;第一校验模块,用以对所述初始结点以及相应的关系信息进行校验;第二校验模块,用以获取与初始结点相连的第二结点的数量,计算任一第二结点校验复杂度,并根据校验复杂度确定对应的校验策略;中控模块,用以将所述源表中的数据实体,与所述第二结点的信息进行匹配,调取该数据实体在关系数据库中对应的二源表,将第二结点的关系信息与对应的二源表中的信息进行校验,本发明提高了数据校验准确性。

Description

图数据库和关系数据库的数据一致性校验***
技术领域
本发明涉及数据库技术领域,尤其涉及一种图数据库和关系数据库的数据一致性校验***。
背景技术
数据仓库建设过程中,总是会涉及到不同平台、同一平台物理环境搬迁,由于数据仓库数据量庞大,往往数据搬迁不可能在一个短周期内完成,会涉及数据同步、校验、追批并跑、再校验过程。
数据比对校验一直是数据迁移中的一大难题,只有通过数据比对校验,才能确保我们数据迁移的准确完整性,确认生产库上所有的更新是否都已经被应用到目标端,即验证目标端与生产库的数据一致性,避免因数据差异造成风险。在从orac le迁移到mysq l的过程,涉及到了异构数据库的数据比对检验问题,我们考虑的是如何快速校验数据的准确性,orac le提供了个Orac le Go ldenGate Ver idata工具用于比较数据库间数据同步效果的一个对比软件,其支持大数据量的数据对比,能够在不停止数据同步的情况下就可以比较数据,可惜目前还无法支持mysq l,针对异构数据库之间的数据比对,如果没有现有有效的校验工具,便需要我们熟知数据比对校验的原理及方式了。
中国专利公开号:CN108280159B,公开了一种将图数据库转化为关系数据库的方法,首先基于泛化有向超图建立图数据库中属性数据的结构模型,对结构模型中的每个结点建立一个二维数据表,再根据有向边、附加有向边来构建数据表;使用泛化有向超图对图数据库中的结点、有向边、标签、图数据库、结点属性、有向边属性进行描述,建立数据存储特征描述模型,对描述模型中的每个结点建立一个二维数据表,再根据有向边来构建数据表;然后对所构建的数据表进行整理,在关系数据库管理***中构建数据库和数据表,遍历图数据库中的数据,将相关数据信息填入关系数据库的二维数据表中。采用本发明可以准确地实现从图数据库到关系数据库的转化,且使得到的关系数据库结构合理。
可见,数据转化后需要对转化后的数据库中的数据一致性进行校验,然而,现有技术中对图数据库和关系数据库的数据一致性校验的准确性有待提高。
发明内容
为此,本发明提供一种图数据库和关系数据库的数据一致性校验***,用以克服现有技术中对图数据库和关系数据库的数据一致性校验的准确性较差的问题。
为实现上述目的,本发明提供一种图数据库和关系数据库的数据一致性校验***,包括:
结点获取模块,用以选择图数据库中的初始结点,并定位初始结点在关系数据库中的源表;
解析模块,其与所述结点获取模块相连,用以解析与所述初始结点相连的若干边的关系信息,所述边包括有向边、无向边以及附加有向边;
第一校验模块,其分别与所述结点获取模块和解析模块相连,用以通过时间戳和MD5值对所述初始结点以及相应的关系信息,与所述源表中的信息进行校验;
第二校验模块,其分别与所述第一校验模块和解析模块相连,用以获取与所述初始结点相连的第二结点的数量,并在第二结点的数量大于数量预设值的情况下计算任一第二结点的校验复杂度,且通过第二结点的数量和与其相连的边的数量对校验复杂度进行校正,并根据校正后的校验复杂度与校验复杂度对比参量的比对结果确定对应的校验策略;
中控模块,其分别与所述第一校验模块和第二校验模块相连,用以调取与所述第二结点的信息相匹配的源表中的数据实体对应的二源表,采取对应的校验策略对第二结点的关系信息与对应的二源表中的信息进行校验,并将未匹配的第二结点的信息以及数据实体储存至待校验数据库;
待校验数据库,其与所述第二校验模块和中控模块相连,用以储存图数据库中与关系数据库中未匹配的数据。
进一步地,所述第一校验模块按照时间戳对解析的关系信息进行排序,将所述源表中的信息按照时间戳进行排序,将排序后的关系信息与排序后的源表中的信息进行匹配,提取时间戳相同的信息,计算每个所述时间戳相同信息的字符串MD5值,
若存在时间戳相同的所述关系信息与所述源表中的信息对应的字符串的MD5值相同,则所述第一校验模块判定对应信息的数据一致性符合标准;
若存在时间戳相同的所述关系信息与所述源表中的信息对应的字符串的MD5值不相同,则所述第一校验模块判定需对对应的关系信息进行进一步校验。
进一步地,所述第二校验模块提取与所述初始结点相连的第二结点,统计第二结点的数量,
若第二结点的数量大于数量预设值,则所述第二校验模块计算任一第二结点校验复杂度,并根据校验复杂度确定对应的校验策略;
若第二结点的数量小于等于数量预设值,则按照初始结点相关信息的校验方式进行校验。
进一步地,所述第二校验模块在所述第二结点的数量大于数量预设值的情况下根据以下公式计算任一第二结点的校验复杂度F;
其中,N为与第二结点相连的结点的数量,M为与第二结点相连的有向边的数量,J为与第二结点相连的无向边的数量,K为与第二结点相连的附加有向边的数量。
进一步地,所述第二校验模块计算与第二结点相连的结点的数量N与无向边的数量J的和A1,设定A1=N+J,计算与第二结点相连的有向边的数量M与附加有向边的数量K的和A2,设定A2=M+K,计算A1和A2的比值σ,设定σ=A1/A2,将所述比值σ与标准比值σ0进行比对,若σ>σ0,所述第二校验模块判定对所述校验复杂度进行校正。
进一步地,所述第二校验模块计算所述比值σ与标准比值σ0的差值,第二校验模块中设有若干根据所述差值对所述校验复杂度进行校正的方式;
其中,每种校正方式对校验复杂度校正的大小不同。
进一步地,所述第二校验模块中设有校验复杂度对比参量F0,第二校验模块将校正后的校验复杂度F′与校验复杂度对比参量F0进行比对以确定任一第二结点的校验复杂度水平,根据校验复杂度水平确定对应的校验策略,其中,
若F′≤F0,所述第二校验模块判定对应第二结点的校验复杂度处于第一校验复杂度水平,控制所述中控模块采用第一校验策略对数据的一致性进行校验;
若F′>F0,所述第二校验模块判定对应第二结点的校验复杂度处于第二校验复杂度水平,控制所述中控模块采用第二校验策略对数据的一致性进行校验。
进一步地,所述中控模块获取所述源表中的数据实体,并将所述数据实体与所述第二结点的信息进行匹配,
若存在与所述第二结点的信息相匹配的数据实体,则调取该数据实体在关系数据库中对应的二源表,将第二结点的关系信息与对应的二源表中的信息进行校验;
若存在未匹配的第二结点的信息以及数据实体,则记录该第二结点与初始结点之间的关系信息以及数据实体的时间戳,计算所述关系信息以及数据实体的哈希值,并储存至待校验数据库。
进一步地,所述中控模块在第一校验策略下,通过count函数分别计算第二结点的关系信息与对应的数据实体的二源表的count值,若count值的误差率小于等于0.1,所述中控模块判定对应信息的数据一致性符合标准;
若count值的误差率大于0.1,所述中控模块判定对应信息的数据一致性不符合标准。
进一步地,所述中控模块在第二校验策略下对第二结点的关系信息与对应的数据实体的二源表中的信息进行切片处理,对于任一所述关系信息,计算该关系信息任一切片的信息的MD5值,并计算切片的信息的MD5值的平均值,将该平均值作为所述关系信息的MD5值,对于任一二源表中的信息进行切片处理,并将切片信息的平均MD5值作为二源表中对应信息的MD5值,
若存在关系信息MD5值与二源表中的信息的MD5值相同,则所述中控模块判定对应信息的数据一致性符合标准;
若存在关系信息MD5值与二源表中的信息的MD5值不相同,则所述中控模块判定需对对应信息进行进一步校验。
与现有技术相比,本发明的有益效果在于,本发明通过引入校验复杂度,以在数据一致性校验时采用不同的校验策略,提高了校验效率和校验的准确性。
进一步地,由于图数据库中的初始结点与关系数据库中的源表相对应,若初始结点对应的关系信息与源表中的信息的时间戳相同且对应的字符串的MD5值相同,即可判定对应信息的数据一致性,由于图数据库中的结点和关系数据库中的二维表的对应关系已经获取,通过上述方案进行数据一致性校验,降低了校验的运算量,提高了数据一致性校验效率,且通过时间戳和MD5值进行双重校验,保证了数据一致性校验的准确性。
进一步地,本发明在完成初始结点的信息与关系数据库的数据一致性校验后,继而对与初始结点相连的第二结点进行校验,而第二结点的数量反应了数据校验复杂度,因此本发明设置数量预设值,以选择合适的校验方式,从而进一步提高了数据一致性校验的准确性。
进一步地,本发明引入校验复杂度F,校验复杂度F为数据校验复杂程度的表征性参量,其与结点的数量和与结点相连的边的数量相关,本发明通过引入校验复杂度以反应对第二结点校验的难易程度,从而针对性的选择合适的校验策略,从而进一步提高了数据一致性校验的准确性。
进一步地,由于结点对应的信息、无向边对应的关系信息的复杂度和信息含量一般情况下是要高于有向边对应的关系信息、附加有向边对应的关系信息的复杂度和信息含量,因此,本发明通过计算结点的数量N与无向边的数量J的和A1,第二结点相连的有向边的数量M与附加有向边的数量K的和A2,并计算A1和A2的比值σ,通过该比值σ对第二结点的校验复杂度进行再次评估,以对计算的校验复杂度F进行校正,更加客观、准确的反应了第二节点的校验复杂度,使采取的校验策略更加有针对性,从而提高了数据一致性校验的的准确性。
进一步地,本发明通过设置校验复杂度对比参量F0,以对待校验的第二结点选择合适的校验策略,在校正后的校验复杂度小于等于校验复杂度对比参量时,采用第一校验策略,提高了校验效率。
进一步地,本发明针对的校验复杂度较大的结点采用第二校验策略,第二校验策略通过对信息进行切片处理,数据切片可根据不同的维度、属性、时间等进行切割,可获取更加细化和精准的数据,提高了数据校验的准确性,并且通过切片处理,更方便进行处理和分析,降低了负载,提高了数据校验的效率。
附图说明
图1为本发明实施例图数据库和关系数据库的数据一致性校验***的结构框图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,其为本发明实施例图数据库和关系数据库的数据一致性校验***的结构框图,本发明所述图数据库和关系数据库的数据一致性校验***包括:
结点获取模块,用以选择图数据库中的初始结点,并定位初始结点在关系数据库中的源表;
解析模块,其与所述结点获取模块相连,用以解析与所述初始结点相连的若干边的关系信息,所述边包括有向边、无向边以及附加有向边;
第一校验模块,其分别与所述结点获取模块和解析模块相连,用以通过时间戳和MD5值对所述初始结点以及相应的关系信息,与所述源表中的信息进行校验;
第二校验模块,其分别与所述第一校验模块和解析模块相连,用以获取与所述初始结点相连的第二结点的数量,并在第二结点的数量大于数量预设值的情况下计算任一第二结点的校验复杂度,且通过第二结点的数量和与其相连的边的数量对校验复杂度进行校正,并根据校正后的校验复杂度与校验复杂度对比参量的比对结果确定对应的校验策略;
中控模块,其分别与所述第一校验模块和第二校验模块相连,用以调取与所述第二结点的信息相匹配的源表中的数据实体对应的二源表,采取对应的校验策略对第二结点的关系信息与对应的二源表中的信息进行校验,并将未匹配的第二结点的信息以及数据实体储存至待校验数据库;
待校验数据库,其与所述第二校验模块和中控模块相连,用以储存图数据库中与关系数据库中未匹配的数据。
具体而言,结点获取模块随机选择图数据库中的任一结点作为初始结点。
具体而言,所述第一校验模块按照时间戳对解析的关系信息进行排序,将所述源表中的信息按照时间戳进行排序,将排序后的关系信息与排序后的源表中的信息进行匹配,提取时间戳相同的信息,计算每个所述时间戳相同信息的字符串MD5值,
若存在时间戳相同的所述关系信息与所述源表中的信息对应的字符串的MD5值相同,则所述第一校验模块判定对应信息的数据一致性符合标准;
若存在时间戳相同的所述关系信息与所述源表中的信息对应的字符串的MD5值不相同,则所述第一校验模块判定需对对应的关系信息进行进一步校验。
字符串MD5值计算为成熟的现有技术,在此不再赘述。
按照时间戳进行排序后,提高了运算速度。
由于图数据库中的初始结点与关系数据库中的源表相对应,若初始结点对应的关系信息与源表中的信息的时间戳相同且对应的字符串的MD5值相同,即可判定对应信息的数据一致性,由于图数据库中的结点和关系数据库中的二维表的对应关系已经获取,通过上述方案进行数据一致性校验,降低了校验的运算量,提高了数据一致性校验效率,且通过时间戳和MD5值进行双重校验,保证了数据一致性校验的准确性。
具体而言,所述第二校验模块提取与所述初始结点相连的第二结点,统计第二结点的数量,
若第二结点的数量大于数量预设值,则所述第二校验模块计算任一第二结点校验复杂度,并根据校验复杂度确定对应的校验策略;
若第二结点的数量小于等于数量预设值,则按照初始结点相关信息的校验方式进行校验。
本发明在完成初始结点的信息与关系数据库的数据一致性校验后,继而对与初始结点相连的第二结点进行校验,而第二结点的数量反应了数据校验复杂度,因此本发明设置数量预设值,以选择合适的校验方式,从而进一步提高了数据一致性校验的准确性。
本实施例中,对于数量预设值的设定,可根据以下方式计算:
统计图数据库中任一结点相连的结点的数量,计算与结点相连的结点的数量平均值,以该平均值作为数量预设值。
具体而言,所述第二校验模块在所述第二结点的数量大于数量预设值的情况下根据以下公式计算任一第二结点的校验复杂度F;
其中,N为与第二结点相连的结点的数量,M为与第二结点相连的有向边的数量,J为与第二结点相连的无向边的数量,K为与第二结点相连的附加有向边的数量。
本发明引入校验复杂度F,校验复杂度F为数据校验复杂程度的表征性参量,其与结点的数量和与结点相连的边的数量相关,本发明通过引入校验复杂度以反应对第二结点校验的难易程度,从而针对性的选择合适的校验策略,从而进一步提高了数据一致性校验的准确性。
具体而言,所述第二校验模块计算与第二结点相连的结点的数量N与无向边的数量J的和A1,设定A1=N+J,计算与第二结点相连的有向边的数量M与附加有向边的数量K的和A2,设定A2=M+K,计算A1和A2的比值σ,设定σ=A1/A2,将所述比值σ与标准比值σ0进行比对,若σ>σ0,所述第二校验模块判定对所述校验复杂度进行校正。
本实施例设定标准比值的取值为1.5<σ0<2。
由于结点对应的信息、无向边对应的关系信息的复杂度和信息含量一般情况下是要高于有向边对应的关系信息、附加有向边对应的关系信息的复杂度和信息含量,因此,本发明通过计算结点的数量N与无向边的数量J的和A1,第二结点相连的有向边的数量M与附加有向边的数量K的和A2,并计算A1和A2的比值σ,通过该比值σ对第二结点的校验复杂度进行再次评估,以对计算的校验复杂度F进行校正,更加客观、准确的反应了第二节点的校验复杂度,使采取的校验策略更加有针对性,从而提高了数据一致性校验的的准确性。
具体而言,所述第二校验模块计算所述比值σ与标准比值σ0的差值,第二校验模块中设有若干根据所述差值对所述校验复杂度进行校正的方式;
其中,每种校正方式对校验复杂度校正的大小不同。
具体而言,所述第二校验模块计算比值σ与标准比值σ0的差值Δσ,设定Δσ=σ-σ0,所述第二校验模块将所述差值Δσ分别与第一预设差值Δσ1和第二预设差值Δσ2进行比对,根据比对结果确定对所述校验复杂度的校正方式,Δσ1<Δσ2,其中,
若Δσ<Δσ1,所述第二校验模块判定采用第一校正方式,即使用第一校正系数f1将所述校验复杂度校正至对应值;
若Δσ1≤Δσ<Δσ2,所述第二校验模块判定采用第二校正方式,即使用第二校正系数f2将所述校验复杂度校正至对应值;
若Δσ≥Δσ2,所述第二校验模块判定采用第三校正方式,即使用第三校正系数f3将所述校验复杂度校正至对应值;
当所述第二校验模块使用第k校正系数将所述校验复杂度校正至对应值时,设定校正后的校验复杂度F′=(1+fk)×F,F为计算的校验复杂度。
其中,0.1<f1<f2<f3<0.5,本实施例优选f1=0.2,f2=0.3,f3=0.4。
本实施例设定2<Δσ1<4,6<Δσ2<8,本实施例优选Δσ1=3,Δσ2=7。
具体而言,所述第二校验模块中设有校验复杂度对比参量F0,第二校验模块将校正后的校验复杂度F′与校验复杂度对比参量F0进行比对以确定任一第二结点的校验复杂度水平,根据校验复杂度水平确定对应的校验策略,其中,
若F′≤F0,所述第二校验模块判定对应第二结点的校验复杂度处于第一校验复杂度水平,控制所述中控模块采用第一校验策略对数据的一致性进行校验;
若F′>F0,所述第二校验模块判定对应第二结点的校验复杂度处于第二校验复杂度水平,控制所述中控模块采用第二校验策略对数据的一致性进行校验。
本实施例校验复杂度对比参量F0为,当N的值等于数量预设值,M的值等于任一结点连接的有向边的平均数量,J的值等于任一结点连接的无向边的平均数量,K的值等于任一结点连接的附加有向边的平均数量,此时计算的校验复杂度作为校验复杂度对比参量F0。
本发明通过设置校验复杂度对比参量F0,以对待校验的第二结点选择合适的校验策略,在校正后的校验复杂度小于等于校验复杂度对比参量时,采用第一校验策略,提高了校验效率。
具体而言,所述中控模块获取所述源表中的数据实体,所述数据实体不包含与初始结点对应的数据实体,以避免重复校验,并将所述数据实体与所述第二结点的信息进行匹配,
若存在与所述第二结点的信息相匹配的数据实体,则调取该数据实体在关系数据库中对应的二源表,将第二结点的关系信息与对应的二源表中的信息进行校验;
若存在未匹配的第二结点的信息以及数据实体,则记录该第二结点与初始结点之间的关系信息以及数据实体的时间戳,计算所述关系信息以及数据实体的哈希值,并储存至待校验数据库。
所述二源表为所述第二结点的信息在关系数据库中对应的二维表。
所述第二结点的关系信息为与第二结点相连的若干边的关系信息。
将数据转化为字符串,计算字符串的哈希值,哈希值计算为成熟的现有技术,在此不再赘述。
具体而言,所述中控模块在第一校验策略下,通过count函数分别计算第二结点的关系信息与对应的数据实体的二源表的count值,若count值的误差率小于等于0.1,所述中控模块判定对应信息的数据一致性符合标准;
若count值的误差率大于0.1,所述中控模块判定对应信息的数据一致性不符合标准。
通过count函数计算count值,为成熟的现有技术,在此不再赘述。
具体而言,所述中控模块在第二校验策略下对第二结点的关系信息与对应的数据实体的二源表中的信息进行切片处理,对于任一所述关系信息,计算该关系信息任一切片的信息的MD5值,并计算切片的信息的MD5值的平均值,将该平均值作为所述关系信息的MD5值,对于任一二源表中的信息进行切片处理,并将切片信息的平均MD5值作为二源表中对应信息的MD5值,
若存在关系信息MD5值与二源表中的信息的MD5值相同,则所述中控模块判定对应信息的数据一致性符合标准;
若存在关系信息MD5值与二源表中的信息的MD5值不相同,则所述中控模块判定需对对应信息进行进一步校验。
在判定对对应信息进行进一步校验时,在图数据库的下一结点的信息一致性校验时进行校验。
对于储存在待校验数据库中的数据,在对图数据库中各结点的信息以及对关系数据库中各二维表格中的信息进行比对校验时,可随时提取与待校验数据库中的数据相关的信息,以提高校验的覆盖面,提高校验效率。
本发明针对的校验复杂度较大的结点采用第二校验策略,第二校验策略通过对信息进行切片处理,数据切片可根据不同的维度、属性、时间等进行切割,可获取更加细化和精准的数据,提高了数据校验的准确性,并且通过切片处理,更方便进行处理和分析,降低了负载,提高了数据校验的效率。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种图数据库和关系数据库的数据一致性校验***,其特征在于,包括:
结点获取模块,用以选择图数据库中的初始结点,并定位初始结点在关系数据库中的源表;
解析模块,其与所述结点获取模块相连,用以解析与所述初始结点相连的若干边的关系信息,所述边包括有向边、无向边以及附加有向边;
第一校验模块,其分别与所述结点获取模块和解析模块相连,用以通过时间戳和MD5值对所述初始结点以及相应的关系信息,与所述源表中的信息进行校验;
第二校验模块,其分别与所述第一校验模块和解析模块相连,用以获取与所述初始结点相连的第二结点的数量,并在第二结点的数量大于数量预设值的情况下计算任一第二结点的校验复杂度,且通过第二结点的数量和与其相连的边的数量对校验复杂度进行校正,并根据校正后的校验复杂度与校验复杂度对比参量的比对结果确定对应的校验策略;
中控模块,其分别与所述第一校验模块和第二校验模块相连,用以调取与所述第二结点的信息相匹配的源表中的数据实体对应的二源表,采取对应的校验策略对第二结点的关系信息与对应的二源表中的信息进行校验,并将未匹配的第二结点的信息以及数据实体储存至待校验数据库;
待校验数据库,其与所述第二校验模块和中控模块相连,用以储存图数据库中与关系数据库中未匹配的数据。
2.根据权利要求1所述的图数据库和关系数据库的数据一致性校验***,其特征在于,所述第一校验模块按照时间戳对解析的关系信息进行排序,将所述源表中的信息按照时间戳进行排序,将排序后的关系信息与排序后的源表中的信息进行匹配,提取时间戳相同的信息,计算每个所述时间戳相同信息的字符串MD5值,
若存在时间戳相同的所述关系信息与所述源表中的信息对应的字符串的MD5值相同,则所述第一校验模块判定对应信息的数据一致性符合标准;
若存在时间戳相同的所述关系信息与所述源表中的信息对应的字符串的MD5值不相同,则所述第一校验模块判定需对对应的关系信息进行进一步校验。
3.根据权利要求2所述的图数据库和关系数据库的数据一致性校验***,其特征在于,所述第二校验模块提取与所述初始结点相连的第二结点,统计第二结点的数量,
若第二结点的数量大于数量预设值,则所述第二校验模块计算任一第二结点校验复杂度,并根据校验复杂度确定对应的校验策略;
若第二结点的数量小于等于数量预设值,则按照初始结点相关信息的校验方式进行校验。
4.根据权利要求3所述的图数据库和关系数据库的数据一致性校验***,其特征在于,所述第二校验模块在所述第二结点的数量大于数量预设值的情况下根据以下公式计算任一第二结点的校验复杂度F;
其中,N为与第二结点相连的结点的数量,M为与第二结点相连的有向边的数量,J为与第二结点相连的无向边的数量,K为与第二结点相连的附加有向边的数量。
5.根据权利要求4所述的图数据库和关系数据库的数据一致性校验***,其特征在于,所述第二校验模块计算与第二结点相连的结点的数量N与无向边的数量J的和A1,设定A1=N+J,计算与第二结点相连的有向边的数量M与附加有向边的数量K的和A2,设定A2=M+K,计算A1和A2的比值σ,设定σ=A1/A2,将所述比值σ与标准比值σ0进行比对,若σ>σ0,所述第二校验模块判定对所述校验复杂度进行校正。
6.根据权利要求7所述的图数据库和关系数据库的数据一致性校验***,其特征在于,所述第二校验模块计算所述比值σ与标准比值σ0的差值,第二校验模块中设有若干根据所述差值对所述校验复杂度进行校正的方式;
其中,每种校正方式对校验复杂度校正的大小不同。
7.根据权利要求8所述的图数据库和关系数据库的数据一致性校验***,其特征在于,所述第二校验模块中设有校验复杂度对比参量F0,第二校验模块将校正后的校验复杂度F′与校验复杂度对比参量F0进行比对以确定任一第二结点的校验复杂度水平,根据校验复杂度水平确定对应的校验策略,其中,
若F′≤F0,所述第二校验模块判定对应第二结点的校验复杂度处于第一校验复杂度水平,控制所述中控模块采用第一校验策略对数据的一致性进行校验;
若F′>F0,所述第二校验模块判定对应第二结点的校验复杂度处于第二校验复杂度水平,控制所述中控模块采用第二校验策略对数据的一致性进行校验。
8.根据权利要求7所述的图数据库和关系数据库的数据一致性校验***,其特征在于,所述中控模块获取所述源表中的数据实体,并将所述数据实体与所述第二结点的信息进行匹配,
若存在与所述第二结点的信息相匹配的数据实体,则调取该数据实体在关系数据库中对应的二源表,将第二结点的关系信息与对应的二源表中的信息进行校验;
若存在未匹配的第二结点的信息以及数据实体,则记录该第二结点与初始结点之间的关系信息以及数据实体的时间戳,计算所述关系信息以及数据实体的哈希值,并储存至待校验数据库。
9.根据权利要求8所述的图数据库和关系数据库的数据一致性校验***,其特征在于,所述中控模块在第一校验策略下,通过count函数分别计算第二结点的关系信息与对应的数据实体的二源表的count值,若count值的误差率小于等于0.1,所述中控模块判定对应信息的数据一致性符合标准;
若count值的误差率大于0.1,所述中控模块判定对应信息的数据一致性不符合标准。
10.根据权利要求9所述的图数据库和关系数据库的数据一致性校验***,其特征在于,所述中控模块在第二校验策略下对第二结点的关系信息与对应的数据实体的二源表中的信息进行切片处理,对于任一所述关系信息,计算该关系信息任一切片的信息的MD5值,并计算切片的信息的MD5值的平均值,将该平均值作为所述关系信息的MD5值,对于任一二源表中的信息进行切片处理,并将切片信息的平均MD5值作为二源表中对应信息的MD5值,
若存在关系信息MD5值与二源表中的信息的MD5值相同,则所述中控模块判定对应信息的数据一致性符合标准;
若存在关系信息MD5值与二源表中的信息的MD5值不相同,则所述中控模块判定需对对应信息进行进一步校验。
CN202311002776.2A 2023-08-10 2023-08-10 图数据库和关系数据库的数据一致性校验*** Active CN117251460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311002776.2A CN117251460B (zh) 2023-08-10 2023-08-10 图数据库和关系数据库的数据一致性校验***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311002776.2A CN117251460B (zh) 2023-08-10 2023-08-10 图数据库和关系数据库的数据一致性校验***

Publications (2)

Publication Number Publication Date
CN117251460A true CN117251460A (zh) 2023-12-19
CN117251460B CN117251460B (zh) 2024-04-05

Family

ID=89125562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311002776.2A Active CN117251460B (zh) 2023-08-10 2023-08-10 图数据库和关系数据库的数据一致性校验***

Country Status (1)

Country Link
CN (1) CN117251460B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012130489A1 (en) * 2011-04-01 2012-10-04 Siemens Aktiengesellschaft Method, system, and computer program product for maintaining data consistency between two databases
CN104346454A (zh) * 2014-10-30 2015-02-11 上海新炬网络技术有限公司 基于Oracle数据库的数据一致性校验方法
CN106611001A (zh) * 2015-10-26 2017-05-03 中兴通讯股份有限公司 虚拟机数据库表数据一致性的校验方法、装置及***
CN108280159A (zh) * 2018-01-16 2018-07-13 云南大学 一种将图数据库转化为关系数据库的方法
CN109739831A (zh) * 2018-11-23 2019-05-10 网联清算有限公司 数据库之间数据校验方法及装置
WO2019178772A1 (zh) * 2018-03-21 2019-09-26 深圳蓝贝科技有限公司 数据库主从区块一致性校验方法、装置和***
CN114153820A (zh) * 2021-12-07 2022-03-08 山东省齐鲁大数据研究院 一种数据库迁移校验方法
WO2022063223A1 (zh) * 2020-09-28 2022-03-31 华为技术有限公司 数据校验方法、装置和***
CN114969063A (zh) * 2021-02-26 2022-08-30 中国电信股份有限公司 数据库校验方法、装置及非瞬时性计算机可读存储介质
US20230004550A1 (en) * 2021-06-30 2023-01-05 Dropbox, Inc. Verifying data consistency using verifiers in a content management system for a distributed key-value database
CN116431379A (zh) * 2022-01-04 2023-07-14 青岛海尔科技有限公司 一种数据校验方法及***

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012130489A1 (en) * 2011-04-01 2012-10-04 Siemens Aktiengesellschaft Method, system, and computer program product for maintaining data consistency between two databases
CN104346454A (zh) * 2014-10-30 2015-02-11 上海新炬网络技术有限公司 基于Oracle数据库的数据一致性校验方法
CN106611001A (zh) * 2015-10-26 2017-05-03 中兴通讯股份有限公司 虚拟机数据库表数据一致性的校验方法、装置及***
CN108280159A (zh) * 2018-01-16 2018-07-13 云南大学 一种将图数据库转化为关系数据库的方法
WO2019178772A1 (zh) * 2018-03-21 2019-09-26 深圳蓝贝科技有限公司 数据库主从区块一致性校验方法、装置和***
CN109739831A (zh) * 2018-11-23 2019-05-10 网联清算有限公司 数据库之间数据校验方法及装置
WO2022063223A1 (zh) * 2020-09-28 2022-03-31 华为技术有限公司 数据校验方法、装置和***
CN114969063A (zh) * 2021-02-26 2022-08-30 中国电信股份有限公司 数据库校验方法、装置及非瞬时性计算机可读存储介质
US20230004550A1 (en) * 2021-06-30 2023-01-05 Dropbox, Inc. Verifying data consistency using verifiers in a content management system for a distributed key-value database
CN114153820A (zh) * 2021-12-07 2022-03-08 山东省齐鲁大数据研究院 一种数据库迁移校验方法
CN116431379A (zh) * 2022-01-04 2023-07-14 青岛海尔科技有限公司 一种数据校验方法及***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KIM BEOM-HEYN,YOON YOUNG;: "Cloud Storage Service Architecture Providing the Eventually Consistent Totally Ordered Commit History of Distributed Key-Value Stores for Data Consistency Verification", ELECTRONICS, 21 November 2021 (2021-11-21), pages 1 - 26 *
余平;: "电网调度自动化主备***间模型校验研究", 电气技术, no. 08, 15 August 2017 (2017-08-15), pages 105 - 109 *
朱恒民, 姬小利, ***: "支持数据挖掘的知识库***", 西南交通大学学报, no. 03, 28 June 2005 (2005-06-28), pages 406 - 411 *
杨帆, 张璨辉等;: "基于B/S架构的企业资产数据一致性校验***", 自动化技术与应用, no. 06, 30 June 2023 (2023-06-30), pages 91 - 93 *

Also Published As

Publication number Publication date
CN117251460B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN110008254B (zh) 一种变电设备台账核查处理方法
US8112421B2 (en) Query selection for effectively learning ranking functions
CN110827443B (zh) 一种遥测事后数据处理***
EP3896873A1 (en) Field intensity prediction method and apparatus, and device and storage medium
US20140229482A1 (en) Grouping interdependent fields
US8073652B2 (en) Method and system for pre-processing data using the mahalanobis distance (MD)
CN111881124A (zh) 一种基于改进算法的状态估计的数据处理方法及***
CN110647913A (zh) 基于聚类算法的异常数据检测方法及装置
CN111589000A (zh) 一种医用直线加速器参数的验证方法
CN117251460B (zh) 图数据库和关系数据库的数据一致性校验***
CN112203324B (zh) 一种基于位置指纹库的mr定位方法及装置
CN111723097A (zh) 应用程序接口配置方法、装置、计算机设备和存储介质
CN114661584A (zh) 一种用于软件测试的测试装置及使用方法
CN114676749A (zh) 一种基于数据挖掘的配电网运行数据异常判定方法
CN1897242A (zh) 用于半导体器件制造的测量工具的校准方法和***
CN113554079B (zh) 一种基于二次检测法的电力负荷异常数据检测方法及***
CN102404844A (zh) 一种多方法复合精确定位cdma移动终端的方法和***
CN109145258A (zh) 基于非线性拟合的威布尔分布参数置信区间估计方法
CN110487315B (zh) 一种仪表漂移的分析***及方法
CN107423222A (zh) 一种确定测试覆盖率的方法及设备
CN116187399B (zh) 一种基于异构芯片的深度学习模型计算误差定位方法
CN106980495B (zh) 一种基于程序切片的功能可复用性度量方法
CN114116729B (zh) 一种测试数据的处理方法和设备
CN113761666B (zh) 一种飞机质量特性数据自动处理方法
CN117056576B (zh) 一种基于大数据平台的数据质量灵活验证方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant