CN105701199B

CN105701199B - 一种数据依赖的数据质量检测方法及装置

Info

Publication number: CN105701199B
Application number: CN201610016515.XA
Authority: CN
Inventors: 彭泽武; 冯歆尧; 江疆; 杨秋勇; 张晓霞
Original assignee: Information Center of Guangdong Power Grid Co Ltd
Current assignee: Information Center of Guangdong Power Grid Co Ltd
Priority date: 2016-01-08
Filing date: 2016-01-08
Publication date: 2019-04-26
Anticipated expiration: 2036-01-08
Also published as: CN105701199A

Abstract

本发明为一种数据依赖的数据质量检测方法及装置，所述方法包括：步骤b，分析参照文件，根据所述参照文件各字段具有不同值的个数判断该字段所处级别，并将各字段的值组织成所述参照文件的树形结构；步骤c，接收待检测数据，根据所述参照文件的所述字段的名称及其对应级别信息，确定所述待检测数据待检测字段与参照级别的映射，并组织成所述待检测字段的树形结构；步骤d，遍历所述参照文件的树形结构，在所述待检测字段的树形结构对应位置上查找值，并做出标记；所述装置包括与各个步骤相对应的参照文件分析单元、数据依赖规则定义单元和数据依赖规则检查单元。这样，可以在检查过程中准确定位错误的发生源，且大大提高了检测速度和效率。

Description

一种数据依赖的数据质量检测方法及装置

技术领域

本发明涉及数据质量监控技术领域，具体涉及一种数据依赖的数据质量检测方法及装置。

背景技术

信息技术的快速发展使得数据逐渐成为实现企业业务价值最重要的资源之一。然而随着数据量的不断增大，数据质量问题也随之而来。数据缺失、错误、不一致等问题使企业对其的应用受到阻碍，严重的甚至会导致企业做出错误决策，损失重要价值进而引发信任危机。

针对这些脏数据，许多数据质量检测和清洗方案应运而生。而数据依赖在其中则是比较难以检测的一种数据质量问题。由于***往往并不知道隐藏在数据表内部字段间的逻辑关系，所以数据依赖问题一般是通过外部参考文件来进行检查。

目前比较有代表性的数据依赖检查方案也通过自定义参照数据或引入外部参照文件来检查数据依赖。每次扫描一条待检查记录就在参照数据中查询该条记录是否满足数据依赖规则，并计算相似度得分。该方法通过查看记录的相似度得分可以比较容易的分析出该记录的部分错误来源，如拼写错误，但是不能分析出错误发生在依赖的左部还是右部。这种问题当待检查的字段超过两个时尤为明显，此时明确错误发生的字段比发现存在拼写错误更为重要。

鉴于上述缺陷，本发明创作者经过长时间的研究和试验终于提出了一种数据依赖的数据质量检测方法及装置。

发明内容

本发明的目的在于提供一种数据依赖的数据质量检测方法及装置，用以克服上述技术缺陷，解决不能快速检测到数据依赖错误以及不能准确定位错误发生的位置的问题。

为实现上述目的，本发明采用的技术方案在于：首先提供一种数据依赖的数据质量检测方法，其包括：

步骤b，分析外部参照文件，根据所述参照文件各字段具有不同值的个数判断该字段所处级别，并将各字段的值组织成所述参照文件的树形结构；

步骤c，接收待检测数据，根据所述参照文件的所述字段的名称及其对应级别信息，确定所述待检测数据待检测字段与参照级别的映射，并组织成所述待检测字段的树形结构；

步骤d，遍历所述参照文件的树形结构，在所述待检测字段的树形结构对应位置上查找值，并做出标记。

较佳的，还包括：

步骤e，再次遍历所述待检测字段的树形结构，根据所述标记输出错误信息。

较佳的，还包括：步骤a，将待输入的所述参照文件或所述待检测数据转换为要求格式；所述步骤a在所述步骤b之前。

较佳的，所述参照文件的树形结构自顶向下按照字段的不同值递增。

较佳的，所述步骤c包括：

步骤c1，接收所述待检测数据，接收所述参照文件的所述字段的名称及其对应级别信息，确定所述待检测数据待检测字段与参照级别的映射；

步骤c2，对所述待检测字段的数据值进行分析，输出每个字段的不同值及对应的所有记录编号，并按照所述参照级别将各字段的值同样组织成所述待检测字段的树形结构。

较佳的，所述遍历为宽度优先遍历，以提高遍历速度。

其次，提供一种与所述的数据质量检测方法对应的数据依赖的数据质量检测装置，其包括：

参照文件分析单元，分析所述参照文件，根据所述参照文件各字段具有不同值的个数判断该字段所处级别，并将各字段的值组织成所述参照文件的树形结构；

数据依赖规则定义单元，接收所述待检测数据，根据所述参照文件的所述字段的名称及其对应级别信息，确定所述待检测数据待检测字段与参照级别的映射，并组织成所述待检测字段的树形结构；

数据依赖规则检查单元，遍历所述参照文件的树形结构，在所述待检测字段的树形结构对应位置上查找值，并做出所述标记。

较佳的，检测信息处理单元，再次遍历所述待检测字段的树形结构，根据所述标记输出错误信息。

较佳的，格式转换单元，将待输入的所述参照文件或所述待检测数据转换为要求格式；所述格式转换单元将数据输入所述参照文件分析单元。

较佳的，所述数据依赖规则定义单元包括：

映射模块，接收所述待检测数据，接收所述参照文件的所述字段的名称及其对应级别信息，确定所述待检测数据待检测字段与参照级别的映射；

树形结构模块，对所述待检测字段的数据值进行分析，输出每个字段的不同值及对应的所有所述记录编号，并按照所述参照级别将各字段的值同样组织成所述待检测字段的树形结构。

与现有技术比较本发明的有益效果在于：提供了一种数据依赖的数据质量检测方法及装置，可以在数据依赖检查中准确定位错误的发生源，在确定错误的发生源的情况下，自然也确定了错误发生在依赖的左部还是右部；本发明利用树形结构的遍历，避免了分别进行交叉对比，在待检测字段超过两个或待检测数据量较大时不但能方便的定位错误位置，还能大大提高检测速度和效率；本发明利用树形结构的遍历，只对不同值查询一次参照文件，不同于一般方案上的需要针对每一条记录重复查询参照文件的做法，也提高了数据质量检测的效率和速度；使用宽度优先便利法对参照文件的树形结构进行遍历，提高了遍历速度和效率；自顶向下按照字段的不同值递增的顺序组织树形结构，这样组织的树形结构的结构更简洁，减少了整个树形结构里的结点数量，提高后续遍历的速度；标记用于对正确或错误数据进行标注，记录编号用于迅速定位错误数据，以提高整体速度。

附图说明

图1为本发明数据依赖的数据质量检测方法的流程图；

图2为本发明数据依赖的数据质量检测方法中步骤c的流程图；

图3为本发明数据依赖的数据质量检测方法实施例一的流程图；

图4为本发明数据依赖的数据质量检测方法参照文件表；

图5为本发明数据依赖的数据质量检测方法参照文件的树形结构；

图6为本发明数据依赖的数据质量检测方法待检测数据表；

图7为本发明数据依赖的数据质量检测方法待检测字段的树形结构一；

图8为本发明数据依赖的数据质量检测方法待检测字段的树形结构二；

图9为本发明数据依赖的数据质量检测装置的结构图；

图10为本发明数据依赖的数据质量检测装置中数据依赖规则定义单元的结构图；

图11为本发明数据依赖的数据质量检测装置实施例四的结构图。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点作更详细的说明。

如图1所示，其为本发明数据依赖的数据质量检测方法的流程图；其中，所述数据依赖的数据质量检测方法包括：

步骤b，分析外部参照文件，根据所述参照文件各字段具有不同值的个数判断该字段所处级别，并将各字段的值组织成所述参照文件的树形结构。

外部参照文件为特定格式的文件，其包括多个字段，每个字段都具有多个值，这些值可能都相同，也可能都不相同，也可能部分相同。例如字段A可能有9个值，这9个值可能均相同，那么字段A有1个不同值；如果这9个值均不相同，那么字段A有9个不同值；如果这9个值部分相同，如1个A1，3个A2，2个A3，1个A4，2个A5，那么字段A有5个不同值。

根据字段的不同值判断字段所处级别，若字段的不同值的数目相同，则其处于相同级别；若A字段的不同值数目大于B字段，则A字段的级别低于B字段。

将各个字段的值组织成树形结构，即将各字段按照级别由上到下进行排列，同一级别的不同字段的排序可以按照字母进行排列，也可以按照某个特定的排列方式进行排列，以使组织成的树形结构更简洁的，也可以是无序排列。

排列后每个字段的不同值为该字段所在级别或层次的结点。

自顶向下按照字段的不同值递增的顺序组织树形结构，这样组织的树形结构的结构更简洁，减少了整个树形结构里的结点数量，提高后续遍历的速度。

步骤c，接收待检测数据，根据所述参照文件的所述字段名称及其对应级别信息，确定所述待检测数据需要检测的字段与参照级别的映射，并组织成所述待检测字段的树形结构。

本步骤中，利用步骤b中已经确定的所述字段名称及其对应级别信息，对待检测数据进行对应，根据参照文件中各字段的名称及级别，以及与其对应的待检测数据中的字段进行对应，确定待检测字段和级别，也即是确定所述待检测数据需要检测的字段与参照级别的映射。

在此基础上，组织所述待检测字段的树形结构。

如图2所示，其为本发明数据依赖的数据质量检测方法中步骤c的流程图；其中，所述步骤c包括：

步骤c1，接收待检测数据，接收所述参照文件的所述字段名称及其对应级别信息，确定所述待检测数据需要检测的字段与参照级别的映射；

本步骤中，根据字段名称、相似度等确定参照文件的所述字段名称和待检测数据中需要检测的字段的对应关系，再根据对应关系以及参照文件中字段的级别确定待检测数据中需要检测的字段的级别，这样就确定了所述待检测数据需要检测的字段与参照级别的映射。

步骤c2，对所述待检测数据检测字段的数据值进行分析，输出每个字段的不同值及对应的所有记录编号，并按照参照级别将各字段的值同样组织成待检测字段的树形结构。

每个记录编号都与各个待检测字段的某一值一一对应，即每个记录编号对应待检测字段一的某一值，同时对应待检测字段二的某一值，同时对应其余所有待检测字段的某一值。通过记录编号，可以在检测到错误数据后迅速定位错误数据。

组织成的待检测字段的树形结构中每个节点均包括但不限于以下属性：

值，为代表对应层级的一个值；

记录编号，该节点及其所有上层节点代表的值对应的所有记录编号；

标记，标明该值在对应级别的对应父节点下是否存在的符号；一般以0为未标记或不存在，以1为存在。

这样，标记用于对正确或错误数据进行标注，记录编号用于迅速定位错误数据，以提高整体速度。

另外，对于多字段的数据依赖检测，本发明通过对应关系完成映射，无需事先定义查询字段和检测字段，减少了工作量，提高了数据质量检测效率。

步骤d，遍历参照文件的树形结构，在待检测字段的树形结构对应位置上查找值，并做出标记。

遍历参照文件的树形结构，若参照文件的树形结构上存在的值，在待检测字段的树形结构对应级别的对应父节点下不存在，则标记为不存在(0)；若参照文件的树形结构上存在的值，在待检测字段的树形结构对应级别的对应父节点下存在，则标记为存在(1)；若参照文件的树形结构上不存在的值，在待检测字段的树形结构上存在，则标记为不存在(0)。

本步骤中，优选使用宽度优先便利法对参照文件的树形结构进行遍历，以提高遍历速度和效率。

若参照文件的树形结构上存在的值，在待检测字段的树形结构对应级别的对应父节点下不存在，则将对应值及其子节点均标记为不存在；这样减少了需要对比的待检测字段的树形结构需要对照的节点数，进一步提高了速度和效率。

这样，通过步骤b、c、d，可以在数据依赖检查过程中准确定位错误的发生源；在确定错误的发生源的情况下，自然也确定了错误发生在依赖的左部还是右部；本发明利用树形结构的遍历，避免了分别进行交叉对比，在待检测字段超过两个或待检测数据量较大时不但能方便的定位错误位置，还能大大提高检测速度和效率；本发明利用树形结构的遍历，只对不同值查询一次参照文件，不同于一般方案上的需要针对每一条记录重复查询参照文件的做法，也提高了数据质量检测的效率和速度。

步骤e，再次遍历待检测字段的树形结构，根据所述标记输出错误信息。

本步骤为输出步骤，其作为一可添加步骤对本发明进行完善，必要时也可删除本步骤。

实施例一

如上述所述的数据依赖的数据质量检测方法，本实施例与其不同之处在于，如图3本发明数据依赖的数据质量检测方法实施例一的流程图所示，在步骤b之前，还包括步骤a，将待输入的外部参照文件或待检测数据转换为要求格式。

此步骤中，将不同格式的文件进行转换，提高了此方法对不同文件格式的适应性。

实施例二

该实施例中外部参考文件如图4本发明数据依赖的数据质量检测方法参照文件表所示，其中A、B、C为三个字段，A有3个不同值，B有6个不同值，C有9个不同值。自顶向下按照不同值递增的顺序组织树结构如图5本发明数据依赖的数据质量检测方法参照文件的树形结构所示。

待检测数据如图6本发明数据依赖的数据质量检测方法待检测数据表所示，其中Col1、Col2、Col3为待检测字段，根据接收到的参照文件字段和对应级别信息对待检测字段进行映射。其中待检测字段Col1对应参照文件字段A，待检测字段Col2对应参照文件字段B，待检测字段Col3对应参照文件字段C。

在此之后,根据待检测字段对应的参照字段在参照树中所处层级将待检测字段的值也组织成树结构，即Col1对应A在1层，Col2对应B在2层，Col3对应C在3层，如图7本发明数据依赖的数据质量检测方法待检测字段的树形结构一所示。

图7每个节点代表对应层级的一个值。该节点还包括一个标记(默认值为0)，代表该值在对应级别的对应父节点下是否存在。另外，该节点还存储了拥有该节点及其所有上层节点代表的值的记录编号。

按照宽度优先遍历将参照树的值在待检测数据树中对应层级中查询，找到则将待检测数据树对应节点的标记设为1。具体过程如下：

第1层：图5中1层A1、A2、A3在图7中1层的节点中找到，将这些节点的标记置为1。

第2层：由于1层A4节点标记值仍为0，第2层及后面层次在待检测数据树中查找值时将不再考虑A4节点的子树。图5中2层A1下的B1、A3下的B4在图7中2层的节点中找到，将这些节点的标记置为1。

第3层：由于2层A2节点下的B4节点标记值仍为0，第3层及后面层次在待检测数据树中查找值时将不再考虑A2节点下的B4节点的子树。图5中3层B1下的C1、B4下的C5在图7中3层的节点中找到，将这些节点的标记置为1。

检测过程结束，待检测数据树最终如图8本发明数据依赖的数据质量检测方法待检测字段的树形结构二所示。

检测信息处理单元4再次遍历图8待检测数据树，对标记为0的节点对应的记录进行报错。具体过程如下：

第1层：A4节点标记为0，由于A4没有上层节点，写入错误信息提示，如参照文件无该值。下层遍历将不再考虑该节点子树。

第2层：A2节点下的B4节点标记为0，写入错误信息提示，如B4与A2值不匹配。下层遍历将不再考虑该节点子树。

第3层：B4节点下的C7节点标记为0，写入错误信息提示，如C7与B4值不匹配。遍历结束。

最后输出错误信息。

实施例三

本实施例为与上述的数据依赖的数据质量检测方法对应的数据质量检测装置，如图9所示，其为本发明数据依赖的数据质量检测装置的结构图；其中，所述数据依赖的数据质量检测装置，包括：参照文件分析单元2、数据依赖规则定义单元3、数据依赖规则检查单元4和错误信息处理单元5。

参照文件分析单元2，分析外部参照文件，根据所述参照文件各字段具有不同值的个数判断该字段所处级别，并将各字段的值组织成所述参照文件的树形结构。将所述字段名称及其对应级别信息发送到数据依赖规则定义单元3。

外部参照文件为所述要求格式的文件，其包括多个字段，每个字段都具有多个值，这些值可能都相同，也可能都不相同，也可能部分相同。例如字段A可能有9个值，这9个值可能均相同，那么字段A有1个不同值；如果这9个值均不相同，那么字段A有9个不同值；如果这9个值部分相同，如1个A1，3个A2，2个A3，1个A4，2个A5，那么字段A有5个不同值。

排列后每个字段的不同值为该字段所在级别或层次的结点。

所述数据依赖规则定义单元3从数据源接收待检测数据，从参照文件分析单元2接收所述参照文件的所述字段名称及其对应级别信息，确定所述待检测数据需要检测的字段与参照级别的映射，并组织成所述待检测数据的树形结构。

本单元利用文件分析单元2中已经确定的所述字段名称及其对应级别信息，对待检测数据进行对应，根据参照文件中各字段的名称及级别，以及与其对应的待检测数据中的字段进行对应，确定待检测字段和级别，也即是确定所述待检测数据需要检测的字段与参照级别的映射。

在此基础上，组织所述待检测数据的树形结构。

如图10所示，其为本发明数据依赖的数据质量检测装置中数据依赖规则定义单元的结构图；其中，所述数据依赖规则定义单元3包括：

映射模块31，接收待检测数据，接收所述参照文件的所述字段名称及其对应级别信息，确定所述待检测数据需要检测的字段与参照级别的映射；

本模块中，根据字段名称、相似度等确定参照文件的所述字段名称和待检测数据中需要检测的字段的对应关系，再根据对应关系以及参照文件中字段的级别确定待检测数据中需要检测的字段的级别，这样就确定了所述待检测数据需要检测的字段与参照级别的映射。

树形结构模块32，对所述待检测数据检测字段的数据值进行分析，输出每个字段的不同值及对应的所有记录编号，并按照参照级别将各字段的值同样组织成待检测字段的树形结构。

组织成的待检测字段的树形结构中每个节点均包括但不限于以下属性之一：

值，为代表对应层级的一个值；

数据依赖规则检查单元4，遍历参照文件的树形结构，在待检测字段的树形结构对应位置上查找值，并做出标记。

本单元中，优选使用宽度优先便利法对参照文件的树形结构进行遍历，以提高遍历速度和效率。

这样，通过单元2、3、4，可以在数据依赖检查过程中准确定位错误的发生源；在确定错误的发生源的情况下，自然也确定了错误发生在依赖的左部还是右部；本发明利用树形结构的遍历，避免了分别进行交叉对比，在待检测字段超过两个或待检测数据量较大时不但能方便的定位错误位置，还能大大提高检测速度和效率；本发明利用树形结构的遍历，只对不同值查询一次参照文件，不同于一般方案上的需要针对每一条记录重复查询参照文件的做法，也提高了数据质量检测的效率和速度。

另外，本发明尤其适合于多字段的数据依赖检测，无需事先定义查询字段和检测字段。

检测信息处理单元5，再次遍历待检测字段的树形结构，根据所述标记输出错误信息。

本单元为输出单元，其作为一可添加单元对本装置进行完善，必要时也可删除本单元。

实施例四

如上述所述的数据依赖的数据质量检测装置，本实施例与其不同之处在于，如图11本发明数据依赖的数据质量检测装置实施例四的结构图所示，所述数据质量检测装置还包括

格式转换单元1，将待输入的外部参照文件或待检测数据转换为要求格式。

这样，将不同格式的文件进行转换，提高了此方法对不同文件格式的适应性。

以上所述仅为本发明的较佳实施例，对本发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种数据依赖的数据质量检测方法，其特征在于，包括：

步骤d，遍历所述参照文件的树形结构，在所述待检测字段的树形结构对应位置上查找值，并做出标记；

其中，所述步骤c中，确定所述待检测数据待检测字段与参照级别的映射，具体为：根据字段名称、相似度等确定参照文件的所述字段名称和待检测数据中需要检测的字段的对应关系，再根据对应关系以及参照文件中字段的级别确定待检测数据中需要检测的字段的级别。

2.根据权利要求1所述的数据质量检测方法，其特征在于，还包括：

3.根据权利要求2所述的数据质量检测方法，其特征在于，还包括：步骤a，将待输入的所述参照文件或所述待检测数据转换为要求格式；所述步骤a在所述步骤b之前。

4.根据权利要求1或2或3所述的数据质量检测方法，其特征在于，所述参照文件的树形结构自顶向下对应字段的不同值个数递增。

5.根据权利要求1或2或3所述的数据质量检测方法，其特征在于，

所述步骤c包括：

6.根据权利要求2或3所述的数据质量检测方法，其特征在于，所述遍历为宽度优先遍历，以提高遍历速度。

7.一种数据依赖的数据质量检测装置，其特征在于，包括：

数据依赖规则定义单元，接收待检测数据，根据所述参照文件的所述字段的名称及其对应级别信息，确定所述待检测数据待检测字段与参照级别的映射，并组织成所述待检测字段的树形结构；

数据依赖规则检查单元，遍历所述参照文件的树形结构，在所述待检测字段的树形结构对应位置上查找值，并做出标记；

其中，所述数据依赖规则定义单元中，确定所述待检测数据待检测字段与参照级别的映射，具体为：根据字段名称、相似度等确定参照文件的所述字段名称和待检测数据中需要检测的字段的对应关系，再根据对应关系以及参照文件中字段的级别确定待检测数据中需要检测的字段的级别。

8.根据权利要求7所述的数据质量检测装置，其特征在于，

检测信息处理单元，再次遍历所述待检测字段的树形结构，根据所述标记输出错误信息。

9.根据权利要求8所述的数据质量检测装置，其特征在于，

格式转换单元，将待输入的所述参照文件或所述待检测数据转换为要求格式；所述格式转换单元将数据输入所述参照文件分析单元。

10.根据权利要求7或8或9所述的数据质量检测装置，其特征在于，

所述数据依赖规则定义单元包括：

树形结构模块，对所述待检测字段的数据值进行分析，输出每个字段的不同值及对应的所有记录编号，并按照所述参照级别将各字段的值同样组织成所述待检测字段的树形结构。