CN117251460B

CN117251460B - 图数据库和关系数据库的数据一致性校验***

Info

Publication number: CN117251460B
Application number: CN202311002776.2A
Authority: CN
Inventors: 郝磊; 郭志扬
Original assignee: Shanghai Zhanlue Data Technology Co ltd
Current assignee: Shanghai Zhanlue Data Technology Co ltd
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2024-04-05
Anticipated expiration: 2043-08-10
Also published as: CN117251460A

Abstract

本发明涉及数据库技术领域，尤其涉及一种图数据库和关系数据库的数据一致性校验***，结点获取模块，用以选择图数据库中的初始结点，并定位初始结点在关系数据库中的源表；解析模块，用以解析与所述初始结点相连的若干边的关系信息；第一校验模块，用以对所述初始结点以及相应的关系信息进行校验；第二校验模块，用以获取与初始结点相连的第二结点的数量，计算任一第二结点校验复杂度，并根据校验复杂度确定对应的校验策略；中控模块，用以将所述源表中的数据实体，与所述第二结点的信息进行匹配，调取该数据实体在关系数据库中对应的二源表，将第二结点的关系信息与对应的二源表中的信息进行校验，本发明提高了数据校验准确性。

Description

图数据库和关系数据库的数据一致性校验***

技术领域

本发明涉及数据库技术领域，尤其涉及一种图数据库和关系数据库的数据一致性校验***。

背景技术

数据仓库建设过程中，总是会涉及到不同平台、同一平台物理环境搬迁，由于数据仓库数据量庞大，往往数据搬迁不可能在一个短周期内完成，会涉及数据同步、校验、追批并跑、再校验过程。

数据比对校验一直是数据迁移中的一大难题，只有通过数据比对校验，才能确保我们数据迁移的准确完整性，确认生产库上所有的更新是否都已经被应用到目标端，即验证目标端与生产库的数据一致性，避免因数据差异造成风险。在从orac le迁移到mysq l的过程，涉及到了异构数据库的数据比对检验问题，我们考虑的是如何快速校验数据的准确性，orac le提供了个Orac le Go ldenGate Ver idata工具用于比较数据库间数据同步效果的一个对比软件，其支持大数据量的数据对比，能够在不停止数据同步的情况下就可以比较数据，可惜目前还无法支持mysq l，针对异构数据库之间的数据比对，如果没有现有有效的校验工具，便需要我们熟知数据比对校验的原理及方式了。

中国专利公开号：CN108280159B，公开了一种将图数据库转化为关系数据库的方法，首先基于泛化有向超图建立图数据库中属性数据的结构模型，对结构模型中的每个结点建立一个二维数据表，再根据有向边、附加有向边来构建数据表；使用泛化有向超图对图数据库中的结点、有向边、标签、图数据库、结点属性、有向边属性进行描述，建立数据存储特征描述模型，对描述模型中的每个结点建立一个二维数据表，再根据有向边来构建数据表；然后对所构建的数据表进行整理，在关系数据库管理***中构建数据库和数据表，遍历图数据库中的数据，将相关数据信息填入关系数据库的二维数据表中。采用本发明可以准确地实现从图数据库到关系数据库的转化，且使得到的关系数据库结构合理。

可见，数据转化后需要对转化后的数据库中的数据一致性进行校验，然而，现有技术中对图数据库和关系数据库的数据一致性校验的准确性有待提高。

发明内容

为此，本发明提供一种图数据库和关系数据库的数据一致性校验***，用以克服现有技术中对图数据库和关系数据库的数据一致性校验的准确性较差的问题。

为实现上述目的，本发明提供一种图数据库和关系数据库的数据一致性校验***，包括：

结点获取模块，用以选择图数据库中的初始结点，并定位初始结点在关系数据库中的源表；

解析模块，其与所述结点获取模块相连，用以解析与所述初始结点相连的若干边的关系信息，所述边包括有向边、无向边以及附加有向边；

第一校验模块，其分别与所述结点获取模块和解析模块相连，用以通过时间戳和MD5值对所述初始结点以及相应的关系信息，与所述源表中的信息进行校验；

第二校验模块，其分别与所述第一校验模块和解析模块相连，用以获取与所述初始结点相连的第二结点的数量，并在第二结点的数量大于数量预设值的情况下计算任一第二结点的校验复杂度，且通过第二结点的数量和与其相连的边的数量对校验复杂度进行校正，并根据校正后的校验复杂度与校验复杂度对比参量的比对结果确定对应的校验策略；

中控模块，其分别与所述第一校验模块和第二校验模块相连，用以调取与所述第二结点的信息相匹配的源表中的数据实体对应的二源表，采取对应的校验策略对第二结点的关系信息与对应的二源表中的信息进行校验，并将未匹配的第二结点的信息以及数据实体储存至待校验数据库；

待校验数据库，其与所述第二校验模块和中控模块相连，用以储存图数据库中与关系数据库中未匹配的数据。

进一步地，所述第一校验模块按照时间戳对解析的关系信息进行排序，将所述源表中的信息按照时间戳进行排序，将排序后的关系信息与排序后的源表中的信息进行匹配，提取时间戳相同的信息，计算每个所述时间戳相同信息的字符串MD5值，

若存在时间戳相同的所述关系信息与所述源表中的信息对应的字符串的MD5值相同，则所述第一校验模块判定对应信息的数据一致性符合标准；

若存在时间戳相同的所述关系信息与所述源表中的信息对应的字符串的MD5值不相同，则所述第一校验模块判定需对对应的关系信息进行进一步校验。

进一步地，所述第二校验模块提取与所述初始结点相连的第二结点，统计第二结点的数量，

若第二结点的数量大于数量预设值，则所述第二校验模块计算任一第二结点校验复杂度，并根据校验复杂度确定对应的校验策略；

若第二结点的数量小于等于数量预设值，则按照初始结点相关信息的校验方式进行校验。

进一步地，所述第二校验模块在所述第二结点的数量大于数量预设值的情况下根据以下公式计算任一第二结点的校验复杂度F；

其中，N为与第二结点相连的结点的数量，M为与第二结点相连的有向边的数量，J为与第二结点相连的无向边的数量，K为与第二结点相连的附加有向边的数量。

进一步地，所述第二校验模块计算与第二结点相连的结点的数量N与无向边的数量J的和A1,设定A1＝N+J，计算与第二结点相连的有向边的数量M与附加有向边的数量K的和A2，设定A2＝M+K，计算A1和A2的比值σ，设定σ＝A1/A2，将所述比值σ与标准比值σ0进行比对，若σ＞σ0，所述第二校验模块判定对所述校验复杂度进行校正。

进一步地，所述第二校验模块计算所述比值σ与标准比值σ0的差值，第二校验模块中设有若干根据所述差值对所述校验复杂度进行校正的方式；

其中，每种校正方式对校验复杂度校正的大小不同。

进一步地，所述第二校验模块中设有校验复杂度对比参量F0，第二校验模块将校正后的校验复杂度F′与校验复杂度对比参量F0进行比对以确定任一第二结点的校验复杂度水平，根据校验复杂度水平确定对应的校验策略，其中，

若F′≤F0，所述第二校验模块判定对应第二结点的校验复杂度处于第一校验复杂度水平，控制所述中控模块采用第一校验策略对数据的一致性进行校验；

若F′＞F0，所述第二校验模块判定对应第二结点的校验复杂度处于第二校验复杂度水平，控制所述中控模块采用第二校验策略对数据的一致性进行校验。

进一步地，所述中控模块获取所述源表中的数据实体，并将所述数据实体与所述第二结点的信息进行匹配，

若存在与所述第二结点的信息相匹配的数据实体，则调取该数据实体在关系数据库中对应的二源表，将第二结点的关系信息与对应的二源表中的信息进行校验；

若存在未匹配的第二结点的信息以及数据实体，则记录该第二结点与初始结点之间的关系信息以及数据实体的时间戳，计算所述关系信息以及数据实体的哈希值，并储存至待校验数据库。

进一步地，所述中控模块在第一校验策略下，通过count函数分别计算第二结点的关系信息与对应的数据实体的二源表的count值，若count值的误差率小于等于0.1，所述中控模块判定对应信息的数据一致性符合标准；

若count值的误差率大于0.1，所述中控模块判定对应信息的数据一致性不符合标准。

进一步地，所述中控模块在第二校验策略下对第二结点的关系信息与对应的数据实体的二源表中的信息进行切片处理，对于任一所述关系信息，计算该关系信息任一切片的信息的MD5值，并计算切片的信息的MD5值的平均值，将该平均值作为所述关系信息的MD5值，对于任一二源表中的信息进行切片处理，并将切片信息的平均MD5值作为二源表中对应信息的MD5值，

若存在关系信息MD5值与二源表中的信息的MD5值相同，则所述中控模块判定对应信息的数据一致性符合标准；

若存在关系信息MD5值与二源表中的信息的MD5值不相同，则所述中控模块判定需对对应信息进行进一步校验。

与现有技术相比，本发明的有益效果在于，本发明通过引入校验复杂度，以在数据一致性校验时采用不同的校验策略，提高了校验效率和校验的准确性。

进一步地，由于图数据库中的初始结点与关系数据库中的源表相对应，若初始结点对应的关系信息与源表中的信息的时间戳相同且对应的字符串的MD5值相同，即可判定对应信息的数据一致性，由于图数据库中的结点和关系数据库中的二维表的对应关系已经获取，通过上述方案进行数据一致性校验，降低了校验的运算量，提高了数据一致性校验效率，且通过时间戳和MD5值进行双重校验，保证了数据一致性校验的准确性。

进一步地，本发明在完成初始结点的信息与关系数据库的数据一致性校验后，继而对与初始结点相连的第二结点进行校验，而第二结点的数量反应了数据校验复杂度，因此本发明设置数量预设值，以选择合适的校验方式，从而进一步提高了数据一致性校验的准确性。

进一步地，本发明引入校验复杂度F，校验复杂度F为数据校验复杂程度的表征性参量，其与结点的数量和与结点相连的边的数量相关，本发明通过引入校验复杂度以反应对第二结点校验的难易程度，从而针对性的选择合适的校验策略，从而进一步提高了数据一致性校验的准确性。

进一步地，由于结点对应的信息、无向边对应的关系信息的复杂度和信息含量一般情况下是要高于有向边对应的关系信息、附加有向边对应的关系信息的复杂度和信息含量，因此，本发明通过计算结点的数量N与无向边的数量J的和A1，第二结点相连的有向边的数量M与附加有向边的数量K的和A2，并计算A1和A2的比值σ，通过该比值σ对第二结点的校验复杂度进行再次评估，以对计算的校验复杂度F进行校正，更加客观、准确的反应了第二节点的校验复杂度，使采取的校验策略更加有针对性，从而提高了数据一致性校验的的准确性。

进一步地，本发明通过设置校验复杂度对比参量F0，以对待校验的第二结点选择合适的校验策略，在校正后的校验复杂度小于等于校验复杂度对比参量时，采用第一校验策略，提高了校验效率。

进一步地，本发明针对的校验复杂度较大的结点采用第二校验策略，第二校验策略通过对信息进行切片处理，数据切片可根据不同的维度、属性、时间等进行切割，可获取更加细化和精准的数据，提高了数据校验的准确性，并且通过切片处理，更方便进行处理和分析，降低了负载，提高了数据校验的效率。

附图说明

图1为本发明实施例图数据库和关系数据库的数据一致性校验***的结构框图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1所示，其为本发明实施例图数据库和关系数据库的数据一致性校验***的结构框图，本发明所述图数据库和关系数据库的数据一致性校验***包括：

具体而言，结点获取模块随机选择图数据库中的任一结点作为初始结点。

具体而言，所述第一校验模块按照时间戳对解析的关系信息进行排序，将所述源表中的信息按照时间戳进行排序，将排序后的关系信息与排序后的源表中的信息进行匹配，提取时间戳相同的信息，计算每个所述时间戳相同信息的字符串MD5值，

字符串MD5值计算为成熟的现有技术，在此不再赘述。

按照时间戳进行排序后，提高了运算速度。

由于图数据库中的初始结点与关系数据库中的源表相对应，若初始结点对应的关系信息与源表中的信息的时间戳相同且对应的字符串的MD5值相同，即可判定对应信息的数据一致性，由于图数据库中的结点和关系数据库中的二维表的对应关系已经获取，通过上述方案进行数据一致性校验，降低了校验的运算量，提高了数据一致性校验效率，且通过时间戳和MD5值进行双重校验，保证了数据一致性校验的准确性。

具体而言，所述第二校验模块提取与所述初始结点相连的第二结点，统计第二结点的数量，

本发明在完成初始结点的信息与关系数据库的数据一致性校验后，继而对与初始结点相连的第二结点进行校验，而第二结点的数量反应了数据校验复杂度，因此本发明设置数量预设值，以选择合适的校验方式，从而进一步提高了数据一致性校验的准确性。

本实施例中，对于数量预设值的设定，可根据以下方式计算：

统计图数据库中任一结点相连的结点的数量，计算与结点相连的结点的数量平均值，以该平均值作为数量预设值。

具体而言，所述第二校验模块在所述第二结点的数量大于数量预设值的情况下根据以下公式计算任一第二结点的校验复杂度F；

本发明引入校验复杂度F，校验复杂度F为数据校验复杂程度的表征性参量，其与结点的数量和与结点相连的边的数量相关，本发明通过引入校验复杂度以反应对第二结点校验的难易程度，从而针对性的选择合适的校验策略，从而进一步提高了数据一致性校验的准确性。

具体而言，所述第二校验模块计算与第二结点相连的结点的数量N与无向边的数量J的和A1,设定A1＝N+J，计算与第二结点相连的有向边的数量M与附加有向边的数量K的和A2，设定A2＝M+K，计算A1和A2的比值σ，设定σ＝A1/A2，将所述比值σ与标准比值σ0进行比对，若σ＞σ0，所述第二校验模块判定对所述校验复杂度进行校正。

本实施例设定标准比值的取值为1.5＜σ0＜2。

由于结点对应的信息、无向边对应的关系信息的复杂度和信息含量一般情况下是要高于有向边对应的关系信息、附加有向边对应的关系信息的复杂度和信息含量，因此，本发明通过计算结点的数量N与无向边的数量J的和A1，第二结点相连的有向边的数量M与附加有向边的数量K的和A2，并计算A1和A2的比值σ，通过该比值σ对第二结点的校验复杂度进行再次评估，以对计算的校验复杂度F进行校正，更加客观、准确的反应了第二节点的校验复杂度，使采取的校验策略更加有针对性，从而提高了数据一致性校验的的准确性。

具体而言，所述第二校验模块计算所述比值σ与标准比值σ0的差值，第二校验模块中设有若干根据所述差值对所述校验复杂度进行校正的方式；

其中，每种校正方式对校验复杂度校正的大小不同。

具体而言，所述第二校验模块计算比值σ与标准比值σ0的差值Δσ，设定Δσ＝σ-σ0，所述第二校验模块将所述差值Δσ分别与第一预设差值Δσ1和第二预设差值Δσ2进行比对，根据比对结果确定对所述校验复杂度的校正方式，Δσ1＜Δσ2，其中，

若Δσ＜Δσ1，所述第二校验模块判定采用第一校正方式，即使用第一校正系数f1将所述校验复杂度校正至对应值；

若Δσ1≤Δσ＜Δσ2，所述第二校验模块判定采用第二校正方式，即使用第二校正系数f2将所述校验复杂度校正至对应值；

若Δσ≥Δσ2，所述第二校验模块判定采用第三校正方式，即使用第三校正系数f3将所述校验复杂度校正至对应值；

当所述第二校验模块使用第k校正系数将所述校验复杂度校正至对应值时，设定校正后的校验复杂度F′＝(1+fk)×F，F为计算的校验复杂度。

其中，0.1＜f1＜f2＜f3＜0.5，本实施例优选f1＝0.2，f2＝0.3，f3＝0.4。

本实施例设定2＜Δσ1＜4，6＜Δσ2＜8，本实施例优选Δσ1＝3，Δσ2＝7。

具体而言，所述第二校验模块中设有校验复杂度对比参量F0，第二校验模块将校正后的校验复杂度F′与校验复杂度对比参量F0进行比对以确定任一第二结点的校验复杂度水平，根据校验复杂度水平确定对应的校验策略，其中，

本实施例校验复杂度对比参量F0为，当N的值等于数量预设值，M的值等于任一结点连接的有向边的平均数量，J的值等于任一结点连接的无向边的平均数量，K的值等于任一结点连接的附加有向边的平均数量，此时计算的校验复杂度作为校验复杂度对比参量F0。

本发明通过设置校验复杂度对比参量F0，以对待校验的第二结点选择合适的校验策略，在校正后的校验复杂度小于等于校验复杂度对比参量时，采用第一校验策略，提高了校验效率。

具体而言，所述中控模块获取所述源表中的数据实体，所述数据实体不包含与初始结点对应的数据实体，以避免重复校验，并将所述数据实体与所述第二结点的信息进行匹配，

所述二源表为所述第二结点的信息在关系数据库中对应的二维表。

所述第二结点的关系信息为与第二结点相连的若干边的关系信息。

将数据转化为字符串，计算字符串的哈希值，哈希值计算为成熟的现有技术，在此不再赘述。

具体而言，所述中控模块在第一校验策略下，通过count函数分别计算第二结点的关系信息与对应的数据实体的二源表的count值，若count值的误差率小于等于0.1，所述中控模块判定对应信息的数据一致性符合标准；

通过count函数计算count值，为成熟的现有技术，在此不再赘述。

具体而言，所述中控模块在第二校验策略下对第二结点的关系信息与对应的数据实体的二源表中的信息进行切片处理，对于任一所述关系信息，计算该关系信息任一切片的信息的MD5值，并计算切片的信息的MD5值的平均值，将该平均值作为所述关系信息的MD5值，对于任一二源表中的信息进行切片处理，并将切片信息的平均MD5值作为二源表中对应信息的MD5值，

在判定对对应信息进行进一步校验时，在图数据库的下一结点的信息一致性校验时进行校验。

对于储存在待校验数据库中的数据，在对图数据库中各结点的信息以及对关系数据库中各二维表格中的信息进行比对校验时，可随时提取与待校验数据库中的数据相关的信息，以提高校验的覆盖面，提高校验效率。

本发明针对的校验复杂度较大的结点采用第二校验策略，第二校验策略通过对信息进行切片处理，数据切片可根据不同的维度、属性、时间等进行切割，可获取更加细化和精准的数据，提高了数据校验的准确性，并且通过切片处理，更方便进行处理和分析，降低了负载，提高了数据校验的效率。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图数据库和关系数据库的数据一致性校验***，其特征在于，包括：

中控模块，其分别与所述第一校验模块和第二校验模块相连，用以调取与所

述第二结点的信息相匹配的源表中的数据实体对应的二源表，采取对应的校验策略对第二结点的关系信息与对应的二源表中的信息进行校验，并将未匹配的第二结点的信息以及数据实体储存至待校验数据库；

待校验数据库，其与所述第二校验模块和中控模块相连，用以储存图数据库

中与关系数据库中未匹配的数据；

所述第一校验模块按照时间戳对解析的关系信息进行排序，将所述源表中的信息按照时间戳进行排序，将排序后的关系信息与排序后的源表中的信息进行匹配，提取时间戳相同的信息，计算每个所述时间戳相同信息的字符串MD5值，

若存在时间戳相同的所述关系信息与所述源表中的信息对应的字符串的MD5值不相同，则所述第一校验模块判定需对对应的关系信息进行进一步校验；

所述第二校验模块提取与所述初始结点相连的第二结点，统计第二结点的数量，

若第二结点的数量小于等于数量预设值，则按照初始结点相关信息的校验方式进行校验；

所述第二校验模块在所述第二结点的数量大于数量预设值的情况下根据以下公式计算任一第二结点的校验复杂度F；

，

2.根据权利要求1所述的图数据库和关系数据库的数据一致性校验***，其特征在于，所述第二校验模块计算与第二结点相连的结点的数量N与无向边的数量J的和A1,设定A1=N+J，计算与第二结点相连的有向边的数量M与附加有向边的数量K的和A2，设定A2=M+K，计算A1和A2的比值σ，设定σ=A1/A2，将所述比值σ与标准比值σ0进行比对，若σ＞σ0，所述第二校验模块判定对所述校验复杂度进行校正。

3.根据权利要求2所述的图数据库和关系数据库的数据一致性校验***，其特征在于，所述第二校验模块计算所述比值σ与标准比值σ0的差值，第二校验模块中设有若干根据所述差值对所述校验复杂度进行校正的方式；

其中，每种校正方式对校验复杂度校正的大小不同。

4.根据权利要求3所述的图数据库和关系数据库的数据一致性校验***，其特征在于，所述第二校验模块中设有校验复杂度对比参量F0，第二校验模块将校正后的校验复杂度F′与校验复杂度对比参量F0进行比对以确定任一第二结点的校验复杂度水平，根据校验复杂度水平确定对应的校验策略，其中，

5.根据权利要求4所述的图数据库和关系数据库的数据一致性校验***，其特征在于，所述中控模块获取所述源表中的数据实体，并将所述数据实体与所述第二结点的信息进行匹配，

6.根据权利要求5所述的图数据库和关系数据库的数据一致性校验***，其特征在于，所述中控模块在第一校验策略下，通过count函数分别计算第二结点的关系信息与对应的数据实体的二源表的count值，若count值的误差率小于等于0.1，所述中控模块判定对应信息的数据一致性符合标准；

7.根据权利要求6所述的图数据库和关系数据库的数据一致性校验***，其特征在于，所述中控模块在第二校验策略下对第二结点的关系信息与对应的数据实体的二源表中的信息进行切片处理，对于任一所述关系信息，计算该关系信息任一切片的信息的MD5值，并计算切片的信息的MD5值的平均值，将该平均值作为所述关系信息的MD5值，对于任一二源表中的信息进行切片处理，并将切片信息的平均MD5值作为二源表中对应信息的MD5值，