CN113157676A - 一种数据质量管理方法、***、装置及存储介质 - Google Patents

一种数据质量管理方法、***、装置及存储介质 Download PDF

Info

Publication number
CN113157676A
CN113157676A CN202110401537.9A CN202110401537A CN113157676A CN 113157676 A CN113157676 A CN 113157676A CN 202110401537 A CN202110401537 A CN 202110401537A CN 113157676 A CN113157676 A CN 113157676A
Authority
CN
China
Prior art keywords
quality inspection
data
quality
module
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110401537.9A
Other languages
English (en)
Inventor
张迎峰
吴仲维
黎永昇
钟炳汉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unicom Guangdong Industrial Internet Co Ltd
Original Assignee
China Unicom Guangdong Industrial Internet Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unicom Guangdong Industrial Internet Co Ltd filed Critical China Unicom Guangdong Industrial Internet Co Ltd
Priority to CN202110401537.9A priority Critical patent/CN113157676A/zh
Publication of CN113157676A publication Critical patent/CN113157676A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Factory Administration (AREA)

Abstract

本发明公开了一种数据质量管理方法、***、装置及存储介质,其中数据质量管理***包括业务平台、ETL平台、调度工具以及数据中心,用户可以通过业务平台发起质检服务,并利用ETL平台配置质检规则,并对数据中心提供的数据进行质检,使用调度工具进行质检任务调度,该***根据业务需要自主配置质检规则,提高质检的灵活度以及质检的有效性。本发明还提供一种数据质量管理方法,根据数据中心的数据源确定同步数据,根据业务平台和ETL平台确定质检服务,对同步数据进行字段级的质检并确定质检报告。本申请实施例通过对同步数据的字段级质检生成质检报告,准确定位有问题的数据字段,方便根据问题数据字段分析质检不通过的原因,提高质检质量。

Description

一种数据质量管理方法、***、装置及存储介质
技术领域
本申请涉及数据质量管理领域,尤其涉及一种数据质量管理方法、***、装置及存储介质。
背景技术
在现代信息技术的飞速发展下,大数据时代已经到来,各种数据每天呈“***式”增长,数据资源得到了极大丰富。以政府部门执行政务为例,政府部门依赖海量的数据进行地区人口流动分析、生育率统计、就业率统计等等工作,而在政府部门充分利用各种数据资源的过程中,需要保障这些数据具有较高的质量水平,这样才能真正发挥数据资源的作用。但由于政府数据来源很大部分是人工录入,数据质量较差;而且由于数据量大,后期人工核查也相当困难。
相关技术中,提供了一些数据质量的监控平台,但这些平台存在体系庞大、依赖组件繁多、部署麻烦等不足。这些平台大多为企业私有,根据企业的业务来设计,对于其他行业的数据并不能完全适用。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出一种一种数据质量管理方法、***、装置及存储介质。
第一方面,本申请实施例提供了一种数据质量管理***,包括业务平台、ETL平台、调度工具以及数据中心;所述业务平台用于提供质检服务;所述ETL平台用于配置和管理质检规则;所述调度工具用于进行质检任务调度;所述数据中心用于管理数据源,并用于执行质检任务。
可选地,所述ETL平台包括规则生成模块、变量管理模块、检测模块以及实例管理模块;所述规则定义模块用于对质检规则作预定义;所述变量管理模块用于管理时间变量,所述时间变量用于确定质检周期;所述检测模块用于配置所述质检规则,并根据所述质检规则,对数据的特定字段进行检测,生成实例;所述实例管理模块用于管理所述实例,所述实例至少包括质检日志以及质检报告。
可选地,所述业务平台包括质检模块、规则管理模块、文件管理模块以及报告管理模块;所述质检模块用于发起所述质检任务;所述规则管理模块用于配置字段级的质检规则;所述文件管理模块用于管理依据文件;所述报告管理模块用于管理所述数据质检报告。
可选地,所述数据中心包括数据仓库工具、文件存储模块以及数据同步工具;所述数据仓库工具用于进行数据的提取、转化和加载;所述文件存储模块用于存储数据;所述数据同步工具用于同步数据。
可选地,所述***还包括自动质检模块和第三方质检模块;所述自动质检模块用于对数据的目录挂接进行自动质检;所述第三方质检模块用于第三方应用程序发起质检服务。
第二方面,本申请实施例提供了一种数据质量管理方法,应用第一方面所述的数据质量管理***,所述方法包括:根据所述数据中心的数据源,确定同步数据;根据所述业务平台和所述ETL平台,确定质检服务;根据所述质检服务,对所述同步数据进行质检,并确定质检报告;其中,所述质检服务至少包括若干质检字段和质检字段对应的质检规则。
可选地,所述质检报告至少包括整体质检结果、整体质检合格率、各字段合格率以及质检问题清单。
可选地,所述质检规则至少包括空值校验、格式校验、最值校验、值域校验、记录数校验。
第三方面,本申请实施例提供了一种装置,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如第二方面所述的数据质量管理方法。
第四方面,本申请实施例提供了一种计算机存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由所述处理器执行时用于实现如第二方面所述的数据质量管理方法。
本申请实施例的有益效果如下:提供一种数据质量管理***,该***包括业务平台、ETL平台、调度工具以及数据中心,用户可以通过业务平台发起质检服务,并利用ETL平台配置质检规则,并对数据中心提供的数据进行质检,***使用调度工具进行质检任务调度,完成数据的质检,本申请实施例可以根据业务需要自主配置质检规则,提高数据质检的灵活度以及质检的有效性。另外,本申请实施例还提供一种数据质量管理方法,应用于上述数据质量管理***,首先根据数据中心的数据源确定同步数据,然后根据业务平台和ETL平台确定质检服务,质检服务至少包括质检字段和质检规则,对同步数据进行字段级的质检并确定质检报告。本申请实施例通过对同步数据的字段级质检生成质检报告,可以准确定位有问题的数据字段,方便根据问题数据字段分析质检不通过的原因,有效提高数据质检质量。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1是本申请实施例提供的数据质量管理***架构的第一示意图;
图2是本申请实施例提供的数据质量管理方法的步骤流程图;
图3是本申请实施例提供的数据质量管理***架构的第二示意图;
图4为本申请实施例提供的一种装置。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在***示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于***中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
在如今的大数据时代下,对于如政府部门这样的机关单位来说,由于政府数据来源很大部分是人工录入,数据质量较差;而且由于数据量大,后期人工核查也相当困难,因此实现对这些数据的质量管理十分重要。相关技术中,提供了一些数据质量的监控平台,目前主要的质量检测平台如Data Quality Center(DQC阿里巴巴数据质量监控平台)、BDP(京东大数据质量监控平台)等都不对外开放,而且这些平台均是根据企业的业务需求开发,对于其他行业的数据并不能完全适用。而相关技术中也有一些开源的质量监控平台,以Apache Griffin为例,Apache Griffin是一个开源的大数据数据质量解决方案,虽然它可以实现数据质量监控,但是它部署麻烦、体系庞大、依赖组件过多、用户体验并不理想,且不支持Oracle、Mysql、Hive等数据源。
基于上述相关技术中存在的不足,本申请实施例提供一种数据质量管理***,该***包括业务平台、ETL平台、调度工具以及数据中心,用户可以通过业务平台发起质检服务,并利用ETL平台配置质检规则,并对数据中心提供的数据进行质检,***使用调度工具进行质检任务调度,完成数据的质检,本申请实施例可以根据业务需要自主配置质检规则,提高数据质检的灵活度以及质检的有效性。另外,本申请实施例还提供一种数据质量管理方法,应用于上述数据质量管理***,首先根据数据源确定同步数据,然后根据质检服务确定需要质检的质检字段以及质检规则,对同步数据进行字段级的质检并确定质检报告。本申请实施例通过对同步数据的字段级质检生成质检报告,可以准确定位有问题的数据字段,方便根据问题数据字段分析质检不通过的原因,有效提高数据质检质量。
下面结合附图,对本申请实施例作进一步阐述。
参考图1,图1是本申请实施例提供的数据质量管理***架构的第一示意图,该***100包括:业务平台110、ETL平台120、调度工具130以及数据中心140.通过业务人员易于理解的操作方式,在业务平台110提供质检服务。通过业务平台,本申请实施例实现数据质检的业务配置,并将质检服务封装,实现从业务平台到数据中心,自上而下的能力调用链。ETL(Extract-Transform-Load)用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,在本申请实施例中,ETL平台120用于配置质检规则,以及根据质检规则对数据进行质检。调度工具130用于对质检任务进行调度,令***执行或者是定时调度执行质检任务,在本申请实施例中,使用的调度工具可以是DolphinScheduler(海豚调度),DolphinScheduler是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度***,是用于运行数据质检底层逻辑任务的组件。数据中心140用于管理数据源,本申请实施例中的数据中心可以是基于CDH(Cloudera’s DistributionIncluding Apache Hadoop,Cloudera公司发行的Hadoop版本)大数据集群的数据中心,称为CDH数据中心。
通过图1所示的数据质量管理***,本申请实施例提供了方便用户操作的业务平台,用户通过业务平台发起质检服务,***将质检服务封装并调用ETL平台,配置质检规则以及对数据中心的数据进行质检,期间由调度工具对质检服务进行调度。本申请实施例提供了一套自主数据质检***,通过上述的平台完成对数据的质量检测流程。
由于各行业业务不同,对应的质检规则也会有差别,所以基于相关技术的质检平台质检得到的数据,正确率得不到保障。其次,进行质检规则的目的是想优化现有数据质量,如果只是检测出来通过或者不通过,无法定位问题数据,那么这样的质检意义不大。
基于上述相关技术的不足,本申请实施例提供了一种数据质量管理方法。参照图2,图2是本申请实施例提供的数据质量管理方法的步骤流程图,该方法包括但不限于步骤S200-S220:
S200、根据数据中心的数据源,确定同步数据;
具体地,在本申请实施例提供的数据质量管理***中,***底层基于CDH数据中心以及调度工具DolphinScheduler的能力,实现数据的同步,确定同步数据。另外,根据数据中心和调度工具,本申请实施例还可以实现数据的储存、调度和计算。
S210、根据业务平台和ETL平台,确定质检服务;
具体地,在本申请实施例提供的数据质量管理***中,***上层设置业务平台,用户利用业务平台发起质检服务,该质检服务至少包括若干质检字段和质检字段对应的质检规则。业务平台设置于***上层,方便用户根据业务需求发起质检任务,而ETL平台设置于***底层,用于配置和管理底层的质检规则,业务平台从ETL平台获取已有的底层质检规则,配置依据文件和字段级别的质检规则,并与ETL平台的底层质检规则进行绑定,完成质检任务的配置。通过字段级的质检规则配置,本申请实施例可以对指定数据的字段进行质检,首先实现指定字段质检有利于减少每次质检的数据量,加快质检进程,提高质检效率;另外,实现指定字段质检有助于准确定位有问题的数据字段,方便分析质检结果,提高质检质量。
S220、根据质检服务,对同步数据进行质检,并确定质检报告;
具体地,根据质检服务中的质检字段和质检规则,对同步数据进行质检。需要说明的是,多个字段可以分别使用不同或相同的质检规则并行进行质检。数据质检的计算过程通过DolphinScheduler进行任务调度,并在CDH数据中心中进行数据质检。完成质检后,确定质检报告,用户通过质检报告直观地查看本次数据质检的结果。由于本申请实施例可以实现字段级的数据质检,因此质检报告中至少包括整体质检结果、整体质检合格率、各字段合格率以及质检问题清单。
通过步骤S200-S220,本申请实施例提供一种数据质量管理方法,应用于上述数据质量管理***,首先根据数据中心的数据源确定同步数据,然后根据业务平台和ETL平台确定质检服务,质检服务至少包括质检字段和质检规则,对同步数据进行字段级的质检并确定质检报告。本申请实施例通过对同步数据的字段级质检生成质检报告,可以准确定位有问题的数据字段,方便根据问题数据字段分析质检不通过的原因,有效提高数据质检质量。
参照图3,图3是本申请实施例提供的数据质量管理***架构的第二示意图,需要说明的是,图3与上述图1使用相同的标号表示同一模块,如图1和图3均使用标号110表示业务平台。另外图3还包括自动质检模块310以及第三方质检模块320。业务平台包括质检模块111、规则管理模块112、文件管理模块113以及报告管理模块114,质检模块用于发起质检任务;规则管理模块用于配置字段级的质检规则;文件管理模块用于管理依据文件;报告管理模块用于管理数据质检报告。
其中,文件管理模块用于管理依据文件。依据文件是指用户上传的业务依据或者是发文,发文可以是企业的内部规则文件或者是官方下发的文件。用户可以根据依据文件设置相应的质检规则。示例性地,依据文件可以是公安局下发的《公民姓名规范》。文件管理模块实现对依据文件的基本信息、一对多的附件上传和操作日志的全过程管理,管理的内容包括但不限于搜索、新增、编辑、删除、查看、上传依据文件,还包括记录操作日志、获取时间搜索选项的记录数等等。在上传依据文件时,需要完善依据文件的基本信息,基本信息字段包括文件名称、文件编号、发布单位、文件类型、文件生效时间。依据文件不能重复,用户可以设置一定的文件编号规则,例如以“YJA”+6位年月+4位顺序号这样的规则来确定文件编号。示例性地,当文件管理模块实现对依据文件的搜索功能,则根据文件编号、文件名称、发布单位、文件类别和创建时间中的至少一个字段来进行搜索,以创建时间一项为例,创建时间可以包括全部、近一周、近一月、近三月和自定义等5个选项,则业务平台显示符合该创建时间字段的依据文件记录。可以理解的是,文件管理模块可以记录操作日志,操作日志的内容至少包括对依据文件的新增、修改、删除等操作。
再者,规则管理模块用于配置字段级的质检规则,是指用户不需要进行底层设置,通过业务平台的规则管理模块即可设置需要检测的字段。规则管理模块实现对质检规则的基本信息、一对多的依据文件和操作日志的全过程管理,管理内容包括但不限于搜索、新增、编辑、删除、查看、审核质检规则,还包括添加规则依据、绑定ETL平台底层规则、下载当前列表、记录操作日志、获取时间搜索选项的记录数等等。制定质检规则时需要完善质检规则的基本信息字段,该基本信息字段包括但不限于规则名称、规则编号、依据类型、规则类别、对应底层规则和规则描述。其中,依据类型表示针对不同依据文件设定的不同类型的规则,因此依据类型包括发文对应的规则和业务依据对应的规则。底层规则包括空值校验、格式校验、最值校验、值域校验、记录数校验五种。规则类别则是指不同质检角度对应的规则类别,参照以下表1,表1为本申请实施例提供的规则类别表,如表1所示,本申请实施例中的数据质量管理***从及时性、完整性、一致性、准确性、唯一性、合理性六个角度设计了不同类别的规则,实现了11类的数据质量规则,覆盖了国家206项文件的标准。
Figure BDA0003020516600000061
Figure BDA0003020516600000071
表1
在本申请实施例中,质检规则不能重复,用户可以设计一定的规则编号规则,例如以“GZA”+6位年月+4位顺序号这样的规则来确定规则的编号。规则管理模块还用于实现质检规则和依据文件的一对多管理,也就是在质检规则基本信息的新增和编辑过程中,添加一个或多个依据文件进行绑定。可以理解的是,规则管理模块可以记录操作日志,操作日志的内容至少包括对质检规则的新增、修改、删除等操作,另外,还包括质检规则的启停时间,审核结果,依据文件绑定日志等等。示例性地,如根据《中华人民共和国国家标准-公民身份号码(GB 11643-1999)》第五条对公民身份证号的标准说明:公民身份号码是特征组合码,由十七位数字本体码和一位校验码组成,公民身份号码的排列顺序从左至右依次为:六位数字地址码,八位数字出生日期码,三位数字顺序码和一位数字校验码。因此,当用户使用本申请实施例的数据质量管理***对公民身份号码进行质检,可以在业务平台对不同的字段使用不同的校验规则,如对八位数字出生日期码进行长度检验,对一位校验码进行非空检验等等,用户在通过规则管理模块可以简单快速地配置字段级的质检规则,实现对数据的快速质检。
另外,报告管理模块用于管理数据质检报告,是指理实现对根据各质检字段的质检规则完成质检后,最终输出包含合格率、失败清单等结果的质检报告,并对质检报告进行管理。质检报告的内容至少包括整体质检结果、整体质检合格率、各字段合格率以及质检问题清单。生成质检报告时需要完善质检报告的基本信息字段,该基本信息字段包括但不限于质检单号、数据所属单位、数据类型、质检机构、合格率、检测单位、检测单位联系电话、质检清单。该质检清单包括信息项名称、质检规则、质检依据、质检合格率。示例性地,当报告管理模块实现对质检报告的搜索功能,则根据资源编号、资源名称、所属部门、数据类型、质检状态、入库时间中的至少一个字段来进行搜索,以入库时间一项为例,入库时间可以包括全部、近一周、近一月、近三月和自定义等5个选项,则业务平台显示符合该入库时间字段的质检报告记录。
参照图3,ETL平台包括规则生成模块121、变量管理模块122、检测模块123以及实例管理模块124,规则定义模块用于对质检规则作预定义;变量管理模块用于管理时间变量,时间变量用于确定质检周期;检测模块用于配置质检规则,并根据质检规则,对数据的特定字段进行检测,生成实例;实例管理模块用于管理实例,实例至少包括质检日志以及质检报告。
其中,规则定义模块用于对质检规则作预定义,是指对于常用的规则模板或者是国家标准,先对需要用到的质检规则作预定义。预定义完成后,在配置质检规则的时候可以直接引用,无需一步一步配置,具体使用时则根据实际业务中的数据表进行使用即可。
再者,变量管理模块用于管理时间变量,时间变量是指根据时间变化而发生变化的值,例如设定一个时间变量的含义为当前日期的前3天,当前质检任务要求质检当前日期前三天的数据,若当前日期为1月4日,则需要质检的数据的日期则为1月1日;若当前日期改变,当前日期为1月5日,则在当前时间变量控制下,需要质检的数据的日期变为1月2日。当变量定义完毕,那么在数据质量定义窗口就可以直接使用该变量。变量的应用目的是为了在灵活多变的业务场景下,实现质检规则复用、周期调用等效果。例如,数据按时更新,在增量质检的场景下,通过变量可以动态地控制质检的范围。
另外,检测模块用于配置质检规则,并根据质检规则,对数据的特定字段进行检测,生成实例。与业务平台中用户配置的字段级的质检规则有所区别的是,本申请实施例的ETL平台需要配置底层的质检规则,用于对数据源的表的特定数据集的特定字段进行一系列的检测操作,并对质检任务的调度或定时任务进行配置。一个质检规则可以多次运行,通过给质检任务加入变量和定时调度,从而实现不同组合的质检方式。
另外,实例管理模块用于管理实例,实例至少包括质检日志以及质检报告。当质检任务开始运行之后会产生的具体实例,实例至少包括质检日志以及质检报告。技术人员通过实例可以查看质检日志,方便技术人员查看本次质检的具体执行过程,另外每个质检任务都有质检报告,本申请实施例提出的数据质量管理***支持下载包含明细质检报告的Excel文件。
参照图3,在一些实施例中,数据中心包括数据仓库工具131,文件存储模块132和数据同步工具133,数据仓库工具131用于进行数据的提取、转化和加载,本申请实施例使用hive作为数据仓库工具,hive是基于Hadoop构建的一套数据仓库分析***,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件***中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能。文件存储模块132用于存储数据,本申请实施例使用HDFS(Hadoop Distributed File System,Hadoop分布式文件***)作为文件存储模块,HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。数据同步工具133用于同步数据,本申请实施例使用sqoop作为数据同步工具,作为一款开源工具,sqoop主要用于在Hive与传统的数据库(例如MySQL,Oracle,Postgres)间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。通过上述内容不难看出,本申请实施例提出的数据质量管理***基于高可用、分布式的运行机制设计,具有高可用、高容错、分布式的特性。
在一些实施例中,如图3所示,数据质量管理***还包括自动质检模块,该自动质检模块用于对数据的目录挂接进行自动质检,可以理解的是,该自动质检可以为定期质检或者是用户手动发起的质检,质检的范围可以是全量质检、抽样质检或者是定时增量质检。
在一些实施例中,如图3所示,数据质量管理***还包括第三方质检模块,***上层提供了API(Application Programming Interface,应用程序接口),支持第三方应用调用发起质检请求,使得本申请实施例的***有良好的拓展性,适用于更广的业务范围。
综上,本申请实施例提供一种数据质量管理***,该***包括业务平台、ETL平台、调度工具以及数据中心,用户可以通过业务平台发起质检服务,并利用ETL平台配置质检规则,并对数据中心提供的数据进行质检,***使用调度工具进行质检任务调度,完成数据的质检,本申请实施例可以根据业务需要自主配置质检规则,提高数据质检的灵活度以及质检的有效性。另外,本申请实施例还提供一种数据质量管理方法,应用于上述数据质量管理***,首先根据数据中心的数据源确定同步数据,然后根据业务平台和ETL平台确定质检服务,质检服务至少包括质检字段和质检规则,对同步数据进行字段级的质检并确定质检报告。本申请实施例通过对同步数据的字段级质检生成质检报告,可以准确定位有问题的数据字段,方便根据问题数据字段分析质检不通过的原因,有效提高数据质检质量。本申请实施例提供的数据质量管理***可以覆盖大部分国家标准,且支持用于根据业务需要自主配置质检规则,对数据进行字段级的精准质检,并得到详细的质检报告。
参考图4,图4为本申请实施例提供的一种装置,该装置400包括至少一个处理器410,还包括至少一个存储器420,用于存储至少一个程序;图4中以一个处理器及一个存储器为例。
处理器和存储器可以通过总线或者其他方式连接,图4中以通过总线连接为例。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请的另一个实施例还提供了一种装置,该装置可用于执行如上任意实施例中的控制方法,例如,执行以上描述的图2中的方法步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本申请实施例还公开了一种计算机存储介质,其中存储有处理器可执行的程序,其特征在于,处理器可执行的程序在由处理器执行时用于实现本申请提出的数据质量管理方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种数据质量管理***,其特征在于,包括业务平台、ETL平台、调度工具以及数据中心;
所述业务平台用于提供质检服务;
所述ETL平台用于配置和管理质检规则;
所述调度工具用于进行质检任务调度;
所述数据中心用于管理数据源,并用于执行质检任务。
2.根据权利要求1所述的数据质量管理***,其特征在于,所述ETL平台包括规则生成模块、变量管理模块、检测模块以及实例管理模块;
所述规则定义模块用于对质检规则作预定义;
所述变量管理模块用于管理时间变量,所述时间变量用于确定质检周期;
所述检测模块用于配置所述质检规则,并根据所述质检规则,对数据的特定字段进行检测,生成实例;
所述实例管理模块用于管理所述实例,所述实例至少包括质检日志以及质检报告。
3.根据权利要求1所述的数据质量管理***,其特征在于,所述业务平台包括质检模块、规则管理模块、文件管理模块以及报告管理模块;
所述质检模块用于发起所述质检任务;
所述规则管理模块用于配置字段级的质检规则;
所述文件管理模块用于管理依据文件;
所述报告管理模块用于管理所述质检报告。
4.根据权利要求1所述的数据质量管理***,其特征在于,所述数据中心包括数据仓库工具、文件存储模块以及数据同步工具;
所述数据仓库工具用于进行数据的提取、转化和加载;
所述文件存储模块用于存储数据;
所述数据同步工具用于同步数据。
5.根据权利要求1所述的数据质量管理***,其特征在于,所述***还包括自动质检模块和第三方质检模块;
所述自动质检模块用于对数据的目录挂接进行自动质检;
所述第三方质检模块用于第三方应用程序发起质检服务。
6.一种数据质量管理方法,应用权利要求1-5任一项的数据质量管理***,其特征在于,
根据所述数据中心的数据源,确定同步数据;
根据所述业务平台和所述ETL平台,确定质检服务;
根据所述质检服务,对所述同步数据进行质检,并确定质检报告;
其中,所述质检服务至少包括若干质检字段和质检字段对应的质检规则。
7.根据权利要求6所述的数据质量管理方法,其特征在于:
所述质检报告至少包括整体质检结果、整体质检合格率、各字段合格率以及质检问题清单。
8.根据权利要求6所述的数据质量管理方法,其特征在于:
所述质检规则至少包括空值校验、格式校验、最值校验、值域校验、记录数校验。
9.一种装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求6-8中任一项所述的数据质量管理方法。
10.一种计算机存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求6-8任一项所述的数据质量管理方法。
CN202110401537.9A 2021-04-14 2021-04-14 一种数据质量管理方法、***、装置及存储介质 Pending CN113157676A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110401537.9A CN113157676A (zh) 2021-04-14 2021-04-14 一种数据质量管理方法、***、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110401537.9A CN113157676A (zh) 2021-04-14 2021-04-14 一种数据质量管理方法、***、装置及存储介质

Publications (1)

Publication Number Publication Date
CN113157676A true CN113157676A (zh) 2021-07-23

Family

ID=76890455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110401537.9A Pending CN113157676A (zh) 2021-04-14 2021-04-14 一种数据质量管理方法、***、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113157676A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722352A (zh) * 2021-08-31 2021-11-30 航天信息***工程(北京)有限公司 一种报审价方案的智能数据校验方法、***及存储介质
CN115718745A (zh) * 2023-01-09 2023-02-28 中科金瑞(北京)大数据科技有限公司 基于dag图任务调度的数据质量检测方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958049A (zh) * 2017-11-28 2018-04-24 航天科工智慧产业发展有限公司 一种数据质量稽查管理***
CN109947746A (zh) * 2017-10-26 2019-06-28 亿阳信通股份有限公司 一种基于etl流程的数据质量管控方法和***
CN111159191A (zh) * 2019-12-30 2020-05-15 深圳博沃智慧科技有限公司 一种数据处理方法、装置和界面

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947746A (zh) * 2017-10-26 2019-06-28 亿阳信通股份有限公司 一种基于etl流程的数据质量管控方法和***
CN107958049A (zh) * 2017-11-28 2018-04-24 航天科工智慧产业发展有限公司 一种数据质量稽查管理***
CN111159191A (zh) * 2019-12-30 2020-05-15 深圳博沃智慧科技有限公司 一种数据处理方法、装置和界面

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722352A (zh) * 2021-08-31 2021-11-30 航天信息***工程(北京)有限公司 一种报审价方案的智能数据校验方法、***及存储介质
CN115718745A (zh) * 2023-01-09 2023-02-28 中科金瑞(北京)大数据科技有限公司 基于dag图任务调度的数据质量检测方法和装置

Similar Documents

Publication Publication Date Title
US11301419B2 (en) Data retention handling for data object stores
EP2577507B1 (en) Data mart automation
US20180322440A1 (en) Method and device for prompting relationship and task during communication
US9356966B2 (en) System and method to provide management of test data at various lifecycle stages
CN113157676A (zh) 一种数据质量管理方法、***、装置及存储介质
CN109656963B (zh) 元数据获取方法、装置、设备及计算机可读存储介质
CN102999537A (zh) 一种数据迁移***和方法
CN109241184B (zh) 数据同步方法、装置、计算机设备和存储介质
CN113535856B (zh) 数据同步方法及***
CN111460019A (zh) 一种异构数据源的数据转换方法及中间件
CN104767795A (zh) 一种基于hadoop的lte mro数据统计方法及***
CN109977157A (zh) 一种基于数据平台将数据导入目标目录的方法和电子设备
CN115794839B (zh) 基于Php+Mysql体系的数据归集方法、计算机设备及存储介质
CN112148689A (zh) 一种用于城市级数据中台的数据共享交换***
CN112700083A (zh) 构建资源综合利用和服务指数指标体系场景的方法及装置
CN110895544A (zh) 一种接口数据处理方法、装置、***及存储介质
CN106777265B (zh) 一种业务数据的处理方法及装置
CN108984757A (zh) 一种数据导入方法及设备
CN111723004B (zh) 敏捷软件开发的度量方法,度量数据输出方法以及装置
CN116450691A (zh) 一种数据资源管理方法、装置、设备及介质
CN109992573B (zh) 一种实现hdfs文件占用率自动监控的方法及***
CN111078905A (zh) 一种数据处理方法、装置、介质以及设备
CN112817931B (zh) 一种增量版本文件的生成方法及装置
CN110866005A (zh) 一种物联网数据采集管理方法及***、存储介质及终端
US11663613B2 (en) Approaches for analyzing entity relationships

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination