CN113377758A

CN113377758A - 一种数据质量稽核引擎及其稽核方法

Info

Publication number: CN113377758A
Application number: CN202110735553.1A
Authority: CN
Inventors: 郑丹辉; 杨昊天; 王程远; 孟凡胜; 郝亮
Original assignee: Digital Zhengzhou Technology Co ltd
Current assignee: Digital Zhengzhou Technology Co ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-10

Abstract

本发明涉及一种数据质量稽核引擎及其稽核方法，该方法包括获取待稽查数据集的元数据和数据质量标准规范的质量规则项，从质量规则项中提取对应的特征词，元数据包括数据集名称、数据属性名称和数据属性注释；将特征词与元数据中的数据属性名称或者数据属性注释进行匹配，建立质量规则项和元数据中每个属性的关联关系；基于待稽查数据集中的属性和关联关系得到稽核任务；基于稽核任务与质量规则项对应的稽核处理方法，获得待稽查数据集的稽核处理方法，以生成待稽查数据集的稽核脚本；运行稽核脚本对待稽查数据集进行稽查以获得稽核结果。在本发明中，能够解决现有技术中稽核效率较低，配置任务工作繁重的问题。

Description

一种数据质量稽核引擎及其稽核方法

技术领域

本发明属于数据稽核的技术领域，具体涉及一种数据质量稽核引擎及其稽核方法。

背景技术

随着技术的发展，数字化成为趋势。为提高基层治理的水平，城市开始向数字化转型，数字政府也开始走进人们的生活。其中，作为数字政府新型基础设施建设的城市大脑更是智慧化城市的重要内容。城市大脑的正常运作离不开数据中台。数据中台是城市大脑的数据基座，其为城市大脑行业应用提供标准、干净、全量数据。数据中台中的数据种类繁多、来源广泛、体量巨大，这些数据主要归集于政府各个单位的政务数据。然而归集数据愈多，数据质量问题愈突出。为了提高收集的数据的质量，在从多个数据源收集数据的过程中，需要对收集的数据进行数据质量稽核。

目前的数据质量稽核的方法包括：从归集的各个单位数据集中选择待稽查数据集，获取待稽查数据集的待稽查属性，根据数据质量标准规范，由业务定义明确待稽查属性适用的质量规则，按数据集人工配置产生质量稽查任务，依据稽查任务对待稽查数据集进行稽核处理，产生质量稽核任务对应的稽核脚本程序，执行待稽查数据集的待稽查属性的稽核程序。其中，业务定义明确适用各个待稽查数据集的待稽查属性的质量规则。然而上述方法中，每个待稽查数据集的稽查任务均需人工配置一次，稽核效率比较低，若业务规则调整，涉及一或多个待稽查数据集的稽查任务配置需返工修改，导致配置任务工作繁重。

发明内容

本发明提供了一种数据质量稽核引擎及其稽核方法，用以解决现有技术中稽核效率较低，配置任务工作繁重的问题。

为解决上述技术问题，本发明提供了一种数据质量稽核方法，其包括：1)获取待稽查数据集的元数据和数据质量标准规范的质量规则项，从所述质量规则项中提取对应的特征词，所述元数据包括数据集名称、数据属性名称和数据属性注释；2)将所述特征词与所述元数据中的数据属性名称或者数据属性注释进行匹配，建立质量规则项和所述元数据中每个属性的关联关系；3)基于所述待稽查数据集中的属性和所述关联关系得到稽核任务；4)基于所述稽核任务与质量规则项对应的稽核处理方法，获得所述待稽查数据集的稽核处理方法，以生成所述待稽查数据集的稽核脚本；5)运行所述稽核脚本对所述待稽查数据集进行稽查以获得稽核结果。

上述技术方案的有益效果为：该数据质量稽核方法利用待稽核数据集的元数据和引用的数据质量标准规范的质量规则项的特征词，建立质量规则项与元数据中每个属性的关联关系，以自动化匹配待稽核数据集适用的稽查规则；基于待稽查数据集的属性和关联关系创建稽核任务，以自动生成待稽查数据集的稽核脚本，运行稽核脚本对待稽查数据集进行稽查以获得稽核结果。整个稽核过程自动匹配质量规则、自动生成稽核脚本，避免了人工匹配数据集适用的质量规则导致效率低、准确性差以及过程繁琐的问题，且能够提高了稽核效率。

进一步地，为了提高建立的关联关系的准确性，本发明提供了一种数据质量稽核方法，还包括所述步骤2)中进行匹配所采用的匹配方法是正则表达式算法或JaroDistance字符串相似性度量算法。

进一步地，为了更好地提高稽核效率，本发明提供了一种数据质量稽核方法，还包括所述元数据还包括数据集记录数，若数据集记录数为零，则该待稽查数据集为空数据集，不对该待稽查数据集进行稽查。

进一步地，为了更好地提高稽核效率，本发明提供了一种数据质量稽核方法，还包括所述元数据还包括数据属性值去重个数，所述数据属性值去重个数表示任意属性下数据记录去重后的个数，若数据属性值去重个数为零，则该待稽查数据集的元数据中存在空值数据属性，不对该空值数据属性进行稽查，若不为零，按照数据属性值去重个数对所属属性进行稽核。

进一步地，为了便于实现对多个待稽查数据集的批量处理，以更好地提高稽核效率，本发明提供了一种数据质量稽核方法，还包括所述待稽查数据集为多个时，获得各待稽查数据集的稽核脚本，按照设定顺序运行各待稽查数据集的稽核脚本。

进一步地，本发明提供了一种数据质量稽核方法，还包括各待稽查数据集的稽核脚本可以同时获得或顺次获得。

进一步地，为了便于对稽核结果的后续核查，本发明提供了一种数据质量稽核方法，还包括还包括对经过稽核的数据集中各个已稽核数据属性的稽核结果进行合并与保存。

进一步地，为了节省物理资源，本发明提供了一种数据质量稽核方法，还包括在经过稽核的数据集中增加稽核结果数据属性，所述稽核结果数据属性用于存储经过稽核的数据集的稽核结果。

进一步地，为了减轻人工繁重负担，提高稽核效率，本发明提供了一种数据质量稽核方法，还包括若质量规则项更新，则基于更新后的质量规则项对待稽查数据集进行稽查。

为解决上述技术问题，本发明提供了一种数据质量稽核引擎，其包括存储器和处理器，所述处理器用于执行存储在所述存储器中的指令，以实现上述的数据质量稽核方法。

附图说明

图1是本发明的数据质量稽核方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及技术效果更加清楚明白，以下结合附图及具体实施例对本发明进行进一步详细说明。

数据质量稽核方法实施例：

本实施例提供一种数据质量稽核方法。根据本实施例的数据质量稽核方法能够解决现有技术中稽核效率较低，配置任务工作繁重的问题。

在本实施例中，数据质量稽核方法包括获取待稽查数据集的元数据和引用的质量规则项及质量规则项的特征词；基于特征词和元数据建立关联关系；基于待稽查数据集中的属性和关联关系获得稽核任务，以生成待稽查数据集的稽核脚本，运行稽核脚本对待稽查数据集进行稽查以获得稽核结果。根据本实施例的数据质量稽核方法能够解决现有技术中稽核效率较低，配置任务工作繁重的问题。

图1是本发明的数据质量稽核方法的流程图。具体过程如下：

步骤一：获取业务引用的数据质量标准规范的质量规则项，依据质量规则项获得规则项的特征词。

具体地，在步骤一中，业务可以是指待稽查数据集。若待稽查数据集不同、业务不同，则应用场景不同、引用的数据质量标准规范的质量规则的内容也不同。其中，数据质量标准规范可以依据城市大脑归集各单位的政务数据属性取值特征形成。数据质量标准规范的质量可以包括取值标准范围约束、取值编码格式约束等规则项。标准范围约束规则项可以是属于国家、行业和地方部门信息标准代码与名称，属性应在标准范围内取值的项。标准范围约束规则项可以包括但不限于人的性别、婚姻状况、从业状况、世界各国和地区名称、政治面貌、职业分类、职务级别等质量规则项。编码格式约束规则项可以是具有一定格式特征，属性遵循相应的编码格式取值的项。编码格式约束规则项可以包括但不限于身份证号、统一信用代码、组织机构代码、手机号码、电子邮箱等质量规则项。另外，质量规则项可以按不同业务及用户需求增加新的类别及规则内容。

在步骤一中，业务依据其应用场景，从引用质量规则项的采集模板，导入所需引用的数据质量标准规范的质量规则项，依据质量规则项获得规则项的特征词。例如，质量规则项是“身份证号”时，获得的特征词为“身份证号”，质量规则项是“世界各国和地区名称”时，获得的特征词为“国家”。业务引用的质量规则，如下表1所示。另外，在获得业务引用的质量规则项时可以依据历史数据(例如：历史待稽查数据集、历史稽查任务)和用户需求进行机器学习的方式，获得不同应用场景适用的质量规则项。

表1业务引用的质量规则

表2残疾人证信息数据集的元数据

表3个体年报行政许可信息数据集的元数据

步骤二：探查待稽查数据集的元数据。

具体地，在步骤二中，元数据是指关于数据或数据元素的数据(可能包括数据描述)，以及关于数据拥有权、存取路径、访问权和数据易变性的数据。元数据可以包括数据集名称、数据集记录数、数据属性名称、数据属性注释、数据属性数据类型、数据属性值去重个数等。待稽查数据集可以为多个。待稽查数据集可以是由各个单位归集的数据集。例如：探查的残疾人证信息数据集、个体年报行政许可信息数据集的元数据，如表2和表3所示。

步骤三：匹配特征词与探查的待稽查数据集的元数据，建立元数据与质量规则的关联关系。

具体地，在步骤三中，可以利用元数据中的数据属性注释或数据属性名称通过匹配数据质量标准规范的质量规则项的特征词。其中，匹配方法可以是文本智能匹配算法，文本智能匹配算法例如可以是正则表达式、Jaro Distance字符串相似性度量等算法。由此，能够提高建立的关联关系的准确性。在这种情况下，利用文本智能匹配算法，建立元数据中每个属性与质量规则项的关联关系。由此，能够省去人工匹配质量规则项的步骤，提高数据质量稽核的效率。

在步骤三中，还包括根据特征词和元数据，确定为空数据集的待稽查数据集和/或待稽查数据集的元数据中的空值数据属性，对空数据集和空值数据属性不进行稽查。在这种情况下，建立质量规则项与元数据中每个非空值数据属性的关联关系，由此，能够减少运算量，提高数据质量稽核的效率。具体地，基于元数据中的数据集记录数确定待稽查数据集是否为空数据集。若数据集记录数为零，则该待稽查数据集为空数据集，不对该待稽查数据集进行稽查。基于元数据中的数据属性值去重个数确定待稽查数据集中是否存在空值数据属性。若数据属性值去重个数为0，则该待稽查数据集的元数据中存在空值数据属性，不对该空值数据属性进行稽查。若不为0，按照数据属性值去重个数对所属属性进行稽核。数据属性值去重个数表示任意属性下数据记录去重后的个数，例如对表2的残疾人证信息数据集进行去重，基于表2中的数据集记录数可知属性“姓名”的数据记录的个数为15423，对属性“姓名”进行去重，假设有1691个人的数据记录为“张三”，有1001个人的数据记录为“李四”，则进行去重后，数据属性值去重个数为12733。按照数据属性值去重个数12733对所属属性“姓名”进行稽核。由此，能够减少运算量，提高数据质量稽核的效率，且提升进行数据集质量稽核的准确度。在本实施例中获得的待稽查数据集中的各个数据属性项为可以称为待稽查属性。例如：在上述探查的残疾人证信息数据集的元数据、个体年报行政许可信息数据集的元数据中，个体年报行政许可信息数据集的数据集记录数为零，则该个体年报行政许可信息数据集为空数据集，被排除稽查。残疾人证信息数据集中监护人身份证号、监护人手机的数据属性值去重个数分别为0，则该待稽查数据集中的监护人身份证号、监护人手机是空值数据属性，被排除稽查(如表4中的监护人身份证号、监护人手机这两个属性的数据属性值去重个数均为0，对该两个属性的相关信息划去)，残疾人证信息数据集中余下的性别、婚姻状况、民族、手机、身份证号等被建立与质量规则的关联关系，如表4所示。

表4

步骤四：依据待稽查数据集中的属性与质量规则项的关联关系，遍历所有关联关系，自动创建待稽查数据集的稽核任务，基于稽核任务和质量规则项，生成待稽查数据集的稽核脚本。

具体地，待稽查数据集的稽核任务可以包括数据集名称、数据集注释、数据属性名称、数据属性关联质量规则项、数据属性注释、数据属性数据类型、数据集提供单位。一个稽核任务可以是由待稽查数据集中的一个属性与质量规则项的关联关系得到的。基于一个非空数据集的待稽查数据集可以获得至少一个稽核任务。若待稽查数据集为多个，则依据各待稽查数据集中的属性与质量规则的关联关系，遍历所有关联关系，自动创建所有待稽查数据集的稽核任务。例如遍历得到律师从业人员信息、残疾人证信息、重点污染源企业信息等多个待稽查数据集的稽核任务，如表5所示。在获得各待稽查数据集的稽核任务时，可以同时获得各待稽查数据集的稽核任务，也可以顺次获得各待稽查数据集的稽核任务。

表5多个待稽查数据集的稽核任务

在步骤四中，基于稽核任务和质量规则项，生成待稽查数据集的稽核脚本具体包括基于待稽查数据集的稽核任务与质量规则项对应的稽核处理方法，遍历待稽查数据集的稽核任务，获得待稽查数据集的稽核处理方法，从而获得待稽查数据集的稽核处理的稽核脚本。稽核脚本可以是稽核处理SQL脚本。在遍历待稽查数据集的稽核任务时，若稽核通过，则标记为：{数据属性}_true_{质量规则}，若稽核不通过，则标记为：{数据属性}_false_{质量规则}。

在本实施例中，若待稽查数据集为多个时，遍历各个待稽查数据集的稽核任务以批量获得各待稽查数据集的稽核脚本，按照设定顺序运行各待稽查数据集的稽核脚本。由此，能够以实现对多个待稽查数据集的批量处理，以更好地提高稽核效率。各待稽查数据集的稽核脚本可以同时获得或顺次获得。

步骤五：执行待稽查数据集的稽核脚本，获得数据质量稽核结果。

具体地，在步骤五中，可以对稽核结果进行合并保存。对稽核结果合并保存具体是指对经过稽核的数据集每条数据记录的各个已稽核数据属性的稽核结果进行合并与保存。由此，便于对稽核结果的后续核查，以及便于按业务需求对稽核结果进行统计报表。例如合并残疾人证信息稽核结果，采用SQL函数CONCAT()连接每条数据记录的每个已稽核的数据属性的稽核结果，如下所示：

在步骤五中，经以上合并，使每条数据记录的稽核结果成为一个字符串，保存至数据属性audit_result，获得数据质量稽核结果。例如：残疾人证信息数据集的一条数据记录的稽核结果是“sj_true_取值格式类>手机.sfzh_true_取值格式类>身份证号.hyzk_true_国标值域类>婚姻状况代码.mz_true_国标值域类>中国各民族名称的罗马字母拼写法和代码.xb_false_国标值域类>人的性别代码.”。

在步骤五中，存储稽核结果的方法：在经过稽核的数据集中增加稽核结果数据属性，稽核结果数据属性用于存储经过稽核的数据集的稽核结果。稽核结果数据属性的存储值包含：已稽核数据属性名称、质量稽核规则、是否稽核通过的标记。由此，能够避免传统质量稽核对于查看或导出稽核不通过的记录，而必须新建一个模型存储记录的不足，节省存储稽核不通过的数据记录的物理资源，并便于按业务需求自定义稽核结果统计报表。

在本实施例中，若待稽查数据集为多个，则执行所有待稽查数据集的稽核脚本(稽核处理SQL脚本)。在这种情况下，由人工配置稽查任务从每个待稽查数据集配置一次，改为批量自动产生的稽核脚本，从而实现快速对多个待稽查数据集的处理，以及对批量发布的上线稽核任务的快速稽核处理。成批执行稽核脚本后，获得数据质量稽核结果。例如：基于重点污染源企业信息数据集的稽核结果得到稽核统计情况如表6所示。

表6稽核统计情况表

在本实施例中，若质量规则项更新，也即质量规则增加新的类别及规则内容，则基于更新后的质量规则项对待稽查数据集进行稽查。具体地，自动匹配待稽查数据集的元数据与更新后的整个质量规则，基于更新后的整个质量规则的特征词和元数据中的每个属性建立的关联关系。在这种情况下，人工维护稽核任务的工作被自动化取代，从而减轻人工繁重负担，提高稽核效率。但本实施例不限于此，在另一些实施例中，还可以将新增的类别及规则内容与待稽查数据集中对应的属性进行自动匹配，建立新增的类别及规则内容与待稽查数据集中对应的属性的关联关系。由此，能够提高稽核效率。

基于本实施例的数据质量稽核方法，利用各个单位已归集的数据集(待稽核数据集)的元数据和质量规则的特征词，建立元数据中每个属性与质量规则的关联关系，以自动化匹配待稽核数据集适用的稽查规则，从而避免匹配数据集适用的质量规则时需要人工处理导致的过程繁琐、效率低、准确性差的问题。基于待稽查数据集和关联关系创建稽核任务，以自动生成待稽查数据集的稽核脚本，运行稽核脚本对待稽查数据集进行稽查以获得稽核结果。从而改进人工针对数据集配置产生稽查任务的配置任务工作繁重的问题,由此，可以提高稽核效率。当引用数据质量标准的规则项发生调整，自动更新相关数据集的稽核任务。在这种情况下，人工维护稽核任务的工作，由更新自动化产生的稽核脚本取代，从而减轻人工繁重负担。

数据质量稽核引擎实施例：

本实施例公开一种数据质量稽核引擎。通过本实施例的数据质量稽核引擎，能够实现本发明的方法实施例中介绍的一种数据质量稽核方法。

在本实施例中，数据质量稽核引擎可以包括处理器和存储器。处理器用于执行存储在存储器中的指令，以实现本发明的方法实施例中的数据质量稽核方法。该数据质量稽核方法已经在上述的方法实施例中进行了详细介绍，对于本领域的技术人员，可以根据该数据质量稽核方法，生成相应的计算机指令，以获得数据质量稽核引擎，此处不再赘述。

存储器用于存储根据数据质量稽核方法生成的计算机指令和稽核结果。

基于本实施例的数据质量稽核引擎，待稽查数据集的稽核脚本由引擎自动生成，当业务规则调整，自动化更新稽查任务；人工配置及维护稽查任务工作，由自动化进行稽核处理取代，从而减轻了人工任务繁重，避免人工写代码或用工具配置易出错、不易运维的问题，节省开发人力和物力成本，利于提高开发和运维工作效率。

Claims

1.一种数据质量稽核方法，其特征在于，包括：

1)获取待稽查数据集的元数据和数据质量标准规范的质量规则项，从所述质量规则项中提取对应的特征词，所述元数据包括数据集名称、数据属性名称和数据属性注释；

2)将所述特征词与所述元数据中的数据属性名称或者数据属性注释进行匹配，建立质量规则项和所述元数据中每个属性的关联关系；

3)基于所述待稽查数据集中的属性和所述关联关系得到稽核任务；

4)基于所述稽核任务与质量规则项对应的稽核处理方法，获得所述待稽查数据集的稽核处理方法，以生成所述待稽查数据集的稽核脚本；

5)运行所述稽核脚本对所述待稽查数据集进行稽查以获得稽核结果。

2.根据权利要求1所述的数据质量稽核方法，其特征在于，所述步骤2)中进行匹配所采用的匹配方法是正则表达式算法或Jaro Distance字符串相似性度量算法。

3.根据权利要求1所述的数据质量稽核方法，其特征在于，所述元数据还包括数据集记录数，若数据集记录数为零，则该待稽查数据集为空数据集，不对该待稽查数据集进行稽查。

4.根据权利要求1所述的数据质量稽核方法，其特征在于，所述元数据还包括数据属性值去重个数，所述数据属性值去重个数表示任意属性下数据记录去重后的个数，若数据属性值去重个数为零，则该待稽查数据集的元数据中存在空值数据属性，不对该空值数据属性进行稽查；若不为零，按照数据属性值去重个数对所属属性进行稽核。

5.根据权利要求1所述的数据质量稽核方法，其特征在于，所述待稽查数据集为多个时，获得各待稽查数据集的稽核脚本，按照设定顺序运行各待稽查数据集的稽核脚本。

6.根据权利要求5所述的数据质量稽核方法，其特征在于，各待稽查数据集的稽核脚本可以同时获得或顺次获得。

7.根据权利要求1所述的数据质量稽核方法，其特征在于，还包括对经过稽核的数据集中各个已稽核数据属性的稽核结果进行合并与保存。

8.根据权利要求7所述的数据质量稽核方法，其特征在于，在经过稽核的数据集中增加稽核结果数据属性，所述稽核结果数据属性用于存储经过稽核的数据集的稽核结果。

9.根据权利要求1所述的数据质量稽核方法，其特征在于，若质量规则项更新，则基于更新后的质量规则项对待稽查数据集进行稽查。

10.一种数据质量稽核引擎，其特征在于，包括：存储器和处理器，所述处理器用于执行存储在所述存储器中的指令，以实现权利要求1-9中任一项所述的数据质量稽核方法。