CN112667622A - 一种进行业务数据质量检核的方法和*** - Google Patents

一种进行业务数据质量检核的方法和*** Download PDF

Info

Publication number
CN112667622A
CN112667622A CN202110019064.6A CN202110019064A CN112667622A CN 112667622 A CN112667622 A CN 112667622A CN 202110019064 A CN202110019064 A CN 202110019064A CN 112667622 A CN112667622 A CN 112667622A
Authority
CN
China
Prior art keywords
data
quality
checking
standard
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110019064.6A
Other languages
English (en)
Inventor
邹帮山
赵洋
李成功
温强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank Of Jilin Co ltd
Original Assignee
Bank Of Jilin Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank Of Jilin Co ltd filed Critical Bank Of Jilin Co ltd
Priority to CN202110019064.6A priority Critical patent/CN112667622A/zh
Publication of CN112667622A publication Critical patent/CN112667622A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Stored Programmes (AREA)

Abstract

本发明公开了一种进行业务数据质量检核的方法和***,该方法为:定义业务数据标准,并定义所述业务数据标准对应的质量要求,以此获得相应的标准集合;依据业务数据标准对应的质量要求,定义数据质量检核方法和模型,以此获得相应的数据质量检核规则集合;获取待质量检核的业务源数据,并配置应用数据质量检核规则和检核方法,形成业务数据质量检核方案集合;对业务数据检核方案进行配置执行,以此获得业务数据质量问题数据列表。本发明的进行业务数据质量检核的方法和***能够保证源数据中的每一项数据均能够获得有效和准确的质量检核,依照数据质量问题报告对业务数据进行数据治理,从而实现数据质量的全面提升和数据资产的价值提升。

Description

一种进行业务数据质量检核的方法和***
技术领域
本发明涉及数据资产质量管理技术领域,具体来说,涉及一种进行业务数据质量检核的方法和***。
背景技术
在信息管理与信息***领域中,数据资产是重要的核心价值所在。随着信息技术的不断发展和信息***间的深入融合和集成共享,数据资产的质量问题显得尤为重要。影响数据资产质量的主要因素包括数据的真实性、完整性、准确性、数据成本、安全性。
目前数据资产的质量检核存在以下问题:
(1)需求定制化
根据用户的数据质量需求,定制数据质量检核方案,进行需求的定制化平台开发,以达到对业务数据质量检核目的。这种方法存在着通用性和适应性方面的缺点,新增***或者增加变更数据质量检核要求,都需要进行定制化开发工作,***开发周期长,效率底下。
(2)数据质量检核规则缺少通用性
目前的数据质量检核规则都与待检核信息***相关联,每一个***中的数据都有着个性化的定义,针对每个***制定独立的检核规则。这种方法存在着工作量大、实施周期长、扩展性差的缺点,每当有新的***上线或原有***更新,都需要进行质量检核规则的调整和开发,运维成本高,不易扩展。
发明内容
针对相关技术中的上述技术问题,本发明提出一种动态进行业务数据质量检核的方法和***,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种进行业务数据质量检核的方法,包括以下步骤:
S1 定义业务数据标准,并定义所述业务数据标准对应的质量要求,以此获得相应的标准集合;
S2 依据业务数据标准对应的质量要求,定义数据质量检核方法和模型,以此获得相应的数据质量检核规则集合;
S3 获取待质量检核的业务源数据,并配置应用数据质量检核规则和检核方法,形成业务数据质量检核方案集合;
S4 对业务数据检核方案进行配置执行,以此获得业务数据质量问题数据列表。
进一步地,所述步骤S1具体包括:
S101 对业务数据标准分类进行定义,获取业务数据标准的分类集合;
S102 根据步骤S101中定义的业务数据标准分类定义详细的业务数据标准,形成标准的唯一编号、标准中文名称、业务数据定义、业务规则等业务属性集合;
S103 依据定义的业务属性集合,定义数据标准的数据类型、值域、代码编码规则、数据格式、计量单位等技术属性集合;
S104 对定义的数据标准,进行数据查重处理校验,以此获得相应的数据标准集合。
进一步地,所述步骤S2具体包括:
S201 根据步骤S1所述业务数据标准中的业务数据定义、业务规则,从数据质量的规范性、完整性、唯一性、一致性方面,定义数据质量检核的规则方法标准库;
S202 根据所述业务数据标准中的技术属性中数据类型为代码值类的,定义元数据代码值域的数据质量规则方法标准库;
S203 依据数据质量检核的规则方法标准库和元数据代码值域的数据质量规则方法标准库,生成业务数据质量检核模型。
进一步地,所述步骤S3具体包括:
S301 获取待质量检核的业务源数据的类型,与数据标准集合进行对照映射,生成业务数据质量检核的字段列表集合;
S302 根据业务数据对照映射结果和数据质量检核模型,选择数据的规范性、完整性、唯一性、一致性检核规则和检核方法;
S303 依据选择的业务数据质量检核规则和检核方法,生成业务数据质量检核方案。
进一步地,所述步骤S4具体包括:
S401 获取已定义的数据质量检核方案,配置方案检测时间计划;
S402 依据定义的数据质量检核方案执行计划,自动执行业务数据检核;
S403 按照业务数据项自动生成存在质量问题的数据列表和数据检核报告,进行业务数据质量的持续提升。
根据本发明的另一方面,提供了一种进行业务数据质量检核的***,包括:
数据标准管理模块,用于定义业务数据标准和质量要求的数据集合;
检核模型和检核规则配置模块,用于对所述数据标准管理模块定义的数据标准和数据质量要求,进行定义数据检核模型,以此获得数据质量检核的规则方法标准库;
数据适配和数据采集获取模块,用于对源***进行配置,自动化采集源***的业务数据集合;
数据检核和质量报告生成模块,用于通过所述检核模型和检核规则配置模块配置数据检核方案,并对所述数据适配和数据采集获取模块采集的源***数据进行定时轮询的质量检核,以此获得数据质量报告。
进一步地,所述数据标准管理模块包括:
数据标准子模块,用于管理标准分类信息和数据标准信息,以此确定数据标准的唯一编号、业务属性和技术属性,形成数据标准集合;
维度值子模块,用于代码维度分类和代码值域的管理,以此确定代码标准的内容,形成维度值集合。
进一步地,所述检核模型和检核规则配置模块包括:
标准检核规则库子模块,用于定义标准化的数据质量检核规则库,配置标准检核规则,以此获得数据质量检核的规则方法标准库;
检核模型子模块,用于预先定义业务数据标准化的质量检核模型,选择数据的规范性、完整性、唯一性和一致性检核规则和检核方法,以此获得数据检核方案。
进一步地,所述数据适配和数据采集获取模块包括:
数据适配子模块,用于根据源数据的种类,从数据库、文件、文本等配置自动化采集方式,以此形成数据适配采集规则集合;
数据采集获取子模块,用于依据所述数据适配子模块已定义的数据适配采集规则从各类数据源中采集数据质量检核的源数据,形成源数据集合。
进一步地,所述数据检核和质量报告生成模块包括:
数据检核方案子模块,用于依据数据质量检核模型,自动生成数据检核方案,对业务数据进行定时循环质量检核处理;
质量报告子模块,用于依据数据检核方案子模块在质量检核过程中记录的问题数据,生成业务数据质量检核的报告,提供为业务进行数据修订和质量改善。
本发明的有益效果:本发明的进行业务数据质量检核的方法和***通过模块化的方式,对业务源数据依据数据标准和检核,以此进行数据标准对标映射、数据质量检核、数据质量问题报告生成,以此获得数据质量问题的明细数据,在数据质量检核领域提出了一种全新的技术实现方式,这样能够保证该源数据中的每一项数据均能够获得有效和准确的质量检核,依照数据质量问题报告对业务数据进行数据治理;能够根据用户的需求自动生成不同的数据质量检核模型,通过灵活的可视化配置快速实现,方法简单易懂,定义新的数据检核***和检核规则无需二次开发,只需要增加对应适配器及检核模型,即可实现对不同***、不同类型数据的质量进行定期定时自动化检核,从而实现数据质量的全面提升和数据资产的价值提升;从而实现数据资产内在价值的快速提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的进行业务数据质量检核的方法流程图;
图2是根据本发明实施例所述的进行业务数据质量检核的***的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,根据本发明实施例所述的进行业务数据质量检核的方法,包括以下步骤:
S1 定义业务数据标准,并定义所述业务数据标准对应的质量要求,以此获得相应的标准集合,具体包括:
S101 对业务数据标准分类进行定义,获取业务数据标准的分类集合;
S102 根据步骤S101中定义的业务数据标准分类定义详细的业务数据标准,形成标准的唯一编号、标准中文名称、业务数据定义、业务规则等业务属性集合;
S103 依据定义的业务属性集合,定义数据标准的数据类型、值域、代码编码规则、数据格式、计量单位等技术属性集合;
S104 对定义的数据标准,进行数据查重处理校验,以此获得相应的数据标准集合;
S2 依据业务数据标准对应的质量要求,定义数据质量检核方法和模型,以此获得相应的数据质量检核规则集合,具体包括:
S201 根据步骤S1所述业务数据标准中的业务数据定义、业务规则,从数据质量的规范性、完整性、唯一性、一致性方面,定义数据质量检核的规则方法标准库;
S202 根据所述业务数据标准中的技术属性中数据类型为代码值类的,定义元数据代码值域的数据质量规则方法标准库;
S203 依据数据质量检核的规则方法标准库和元数据代码值域的数据质量规则方法标准库,生成业务数据质量检核模型;
S3 获取待质量检核的业务源数据,并配置应用数据质量检核规则和检核方法,形成业务数据质量检核方案集合,具体包括:
S301 获取待质量检核的业务源数据的类型,与数据标准集合进行对照映射,生成业务数据质量检核的字段列表集合;
S302 根据业务数据对照映射结果和数据质量检核模型,选择数据的规范性、完整性、唯一性、一致性检核规则和检核方法;
S303 依据选择的业务数据质量检核规则和检核方法,生成业务数据质量检核方案;
S4 对业务数据检核方案进行配置执行,以此获得业务数据质量问题数据列表,具体包括:
S401 获取已定义的数据质量检核方案,配置方案检测时间计划;
S402 依据定义的数据质量检核方案执行计划,自动执行业务数据检核;
S403 按照业务数据项自动生成存在质量问题的数据列表和数据检核报告,进行业务数据质量的持续提升。
如图2所示,根据本发明实施例所述的进行业务数据质量检核的***,包括:
数据标准管理模块,用于定义业务数据标准和质量要求的数据集合;
检核模型和检核规则配置模块,用于对所述数据标准管理模块定义的数据标准和数据质量要求,进行定义数据检核模型,以此获得数据质量检核的规则方法标准库;
数据适配和数据采集获取模块,用于对源***进行配置,自动化采集源***的业务数据集合;
数据检核和质量报告生成模块,用于通过所述检核模型和检核规则配置模块配置数据检核方案,并对所述数据适配和数据采集获取模块采集的源***数据进行定时轮询的质量检核,以此获得数据质量报告。
所述数据标准管理模块包括:数据标准子模块,用于管理标准分类信息和数据标准信息,以此确定数据标准的唯一编号、业务属性和技术属性,形成数据标准集合;维度值子模块,用于代码维度分类和代码值域的管理,以此确定代码标准的内容,形成维度值集合。
所述检核模型和检核规则配置模块包括:标准检核规则库子模块,用于定义标准化的数据质量检核规则库,配置标准检核规则,以此获得数据质量检核的规则方法标准库;检核模型子模块,用于预先定义业务数据标准化的质量检核模型,选择数据的规范性、完整性、唯一性和一致性检核规则和检核方法,以此获得数据检核方案。
所述数据适配和数据采集获取模块包括:数据适配子模块,用于根据源数据的种类,从数据库、文件、文本等配置自动化采集方式,以此形成数据适配采集规则集合;数据采集获取子模块,用于依据所述数据适配子模块已定义的数据适配采集规则从各类数据源中采集数据质量检核的源数据,形成源数据集合。
所述数据检核和质量报告生成模块包括:数据检核方案子模块,用于依据数据质量检核模型,自动生成数据检核方案,对业务数据进行定时循环质量检核处理;质量报告子模块,用于依据数据检核方案子模块在质量检核过程中记录的问题数据,生成业务数据质量检核的报告,提供为业务进行数据修订和质量改善。
综上所述,借助于本发明的上述技术方案,本发明的进行业务数据质量检核的方法和***包括数据标准管理、检核模型管理、检核规则管理、数据适配管理、数据采集管理、质量报告、输出管理,通过数据标准管理定义数据质量的标准化要求,通过检核模型管理根据数据标准和检核规则库定义数据质量检核模型,通过数据适配器和数据采集管理将业务***数据及元数据输入到检核模型,通过质量报告和数据管理将质量检核结果进行持久化输出,能够依据用户的质量检核个性化需求,通过可视化配置进行***数据的自动化抽取,同时依据检核规则库动态生成业务数据质量检核模型,实现快速地对不同***和不同数据进行质量检核工作;同时,新***和新数据的接入无需任何开发工作,只需配置新的检核方案即可。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种进行业务数据质量检核的方法,其特征在于,包括以下步骤:
S1 定义业务数据标准,并定义所述业务数据标准对应的质量要求,以此获得相应的标准集合;
S2 依据业务数据标准对应的质量要求,定义数据质量检核方法和模型,以此获得相应的数据质量检核规则集合;
S3 获取待质量检核的业务源数据,并配置应用数据质量检核规则和检核方法,形成业务数据质量检核方案集合;
S4 对业务数据检核方案进行配置执行,以此获得业务数据质量问题数据列表。
2.根据权利要求1所述的进行业务数据质量检核的方法,其特征在于,所述步骤S1具体包括:
S101 对业务数据标准分类进行定义,获取业务数据标准的分类集合;
S102 根据步骤S101中定义的业务数据标准分类定义业务数据标准,形成数据标准的唯一编号和业务属性集合,所述业务属性包括标准中文名称、业务数据定义和业务规则;
S103 依据定义的业务属性集合,定义数据标准的技术属性集合,所述技术属性包括数据标准的数据类型、值域、代码编码规则、数据格式和计量单位;
S104 对定义的数据标准,进行数据查重处理校验,以此获得相应的数据标准集合。
3.根据权利要求2所述的进行业务数据质量检核的方法,其特征在于,所述步骤S2具体包括:
S201 根据步骤S1所述业务数据标准中的业务数据定义和业务规则,从数据质量的规范性、完整性、唯一性和一致性方面,定义数据质量检核的规则方法标准库;
S202 根据所述业务数据标准中的数据类型为代码值类的,定义元数据代码值域的数据质量规则方法标准库;
S203 依据数据质量检核的规则方法标准库和元数据代码值域的数据质量规则方法标准库,生成业务数据质量检核模型。
4.根据权利要求3所述的进行业务数据质量检核的方法,其特征在于,所述步骤S3具体包括:
S301 获取待质量检核的业务源数据的类型,与数据标准集合进行对照映射,生成业务数据质量检核的字段列表集合;
S302 根据业务数据对照映射结果和数据质量检核模型,选择数据的规范性、完整性、唯一性和一致性检核规则和检核方法;
S303 依据选择的检核规则和检核方法,生成业务数据质量检核方案。
5.根据权利要求4所述的进行业务数据质量检核的方法,其特征在于,所述步骤S4具体包括:
S401 获取已定义的数据质量检核方案,配置方案检测时间计划;
S402 依据定义的数据质量检核方案的检测时间计划,自动执行业务数据检核;
S403 按照业务数据项自动生成存在质量问题的数据列表和数据检核报告,进行业务数据质量的持续提升。
6.一种进行业务数据质量检核的***,其特征在于,包括:
数据标准管理模块,用于定义业务数据标准和质量要求的数据集合;
检核模型和检核规则配置模块,用于对所述数据标准管理模块定义的数据标准和数据质量要求,进行定义数据检核模型,以此获得数据质量检核的规则方法标准库;
数据适配和数据采集获取模块,用于对源***进行配置,自动化采集源***的业务数据集合;
数据检核和质量报告生成模块,用于通过所述检核模型和检核规则配置模块配置数据检核方案,并对所述数据适配和数据采集获取模块采集的源***数据进行定时轮询的质量检核,以此获得数据质量报告。
7.根据权利要求6所述的进行业务数据质量检核的***,其特征在于,所述数据标准管理模块包括:
数据标准子模块,用于管理标准分类信息和数据标准信息,以此确定数据标准的唯一编号、业务属性和技术属性,形成数据标准集合;
维度值子模块,用于代码维度分类和代码值域的管理,以此确定代码标准的内容,形成维度值集合。
8.根据权利要求6所述的进行业务数据质量检核的***,其特征在于,所述检核模型和检核规则配置模块包括:
标准检核规则库子模块,用于定义标准化的数据质量检核规则库,配置标准检核规则,以此获得数据质量检核的规则方法标准库;
检核模型子模块,用于预先定义业务数据标准化的质量检核模型,选择数据的规范性、完整性、唯一性和一致性检核规则和检核方法,以此获得数据检核方案。
9.根据权利要求6所述的进行业务数据质量检核的***,其特征在于,所述数据适配和数据采集获取模块包括:
数据适配子模块,用于根据源数据的种类,从数据库、文件、文本配置自动化采集方式,以此形成数据适配采集规则集合;
数据采集获取子模块,用于依据所述数据适配子模块已定义的数据适配采集规则从各类数据源中采集数据质量检核的源数据,形成源数据集合。
10.根据权利要求6所述的进行业务数据质量检核的***,其特征在于,所述数据检核和质量报告生成模块包括:
数据检核方案子模块,用于依据数据质量检核模型,自动生成数据检核方案,对业务数据进行定时循环质量检核处理;
质量报告子模块,用于依据数据检核方案子模块在质量检核过程中记录的问题数据,生成业务数据质量检核的报告,提供为业务进行数据修订和质量改善。
CN202110019064.6A 2021-01-07 2021-01-07 一种进行业务数据质量检核的方法和*** Pending CN112667622A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110019064.6A CN112667622A (zh) 2021-01-07 2021-01-07 一种进行业务数据质量检核的方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110019064.6A CN112667622A (zh) 2021-01-07 2021-01-07 一种进行业务数据质量检核的方法和***

Publications (1)

Publication Number Publication Date
CN112667622A true CN112667622A (zh) 2021-04-16

Family

ID=75413414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110019064.6A Pending CN112667622A (zh) 2021-01-07 2021-01-07 一种进行业务数据质量检核的方法和***

Country Status (1)

Country Link
CN (1) CN112667622A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641399A (zh) * 2021-08-10 2021-11-12 上海浦东发展银行股份有限公司 配置数据处理***、方法、电子设备及存储介质
CN116108021A (zh) * 2023-04-11 2023-05-12 北方健康医疗大数据科技有限公司 基于标准数据集进行多维度数据质控的方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407640A (zh) * 2015-07-31 2017-02-15 埃森哲环球服务有限公司 数据可靠性分析
CN111143334A (zh) * 2019-11-13 2020-05-12 深圳市华傲数据技术有限公司 一种数据质量闭环控制方法
CN111339136A (zh) * 2020-02-19 2020-06-26 中国建设银行股份有限公司 一种数据检核方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407640A (zh) * 2015-07-31 2017-02-15 埃森哲环球服务有限公司 数据可靠性分析
CN111143334A (zh) * 2019-11-13 2020-05-12 深圳市华傲数据技术有限公司 一种数据质量闭环控制方法
CN111339136A (zh) * 2020-02-19 2020-06-26 中国建设银行股份有限公司 一种数据检核方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641399A (zh) * 2021-08-10 2021-11-12 上海浦东发展银行股份有限公司 配置数据处理***、方法、电子设备及存储介质
CN113641399B (zh) * 2021-08-10 2024-04-09 上海浦东发展银行股份有限公司 配置数据处理***、方法、电子设备及存储介质
CN116108021A (zh) * 2023-04-11 2023-05-12 北方健康医疗大数据科技有限公司 基于标准数据集进行多维度数据质控的方法、装置及设备
CN116108021B (zh) * 2023-04-11 2023-09-08 北方健康医疗大数据科技有限公司 基于标准数据集进行多维度数据质控的方法、装置及设备

Similar Documents

Publication Publication Date Title
CN111722839B (zh) 一种代码生成方法、装置、电子设备及存储介质
CN103473108A (zh) 一种Java代码生成方法
CN105589874A (zh) Etl任务依赖关系的检测方法、装置及etl工具
CN104035859A (zh) 一种可视化自动测试方法及其***
CN112667622A (zh) 一种进行业务数据质量检核的方法和***
CN102929664A (zh) 一种基于xsd结构的通用数据交换方法
CN111813804A (zh) 一种数据查询方法、装置、电子设备及存储介质
CN108958959A (zh) 检测hive数据表的方法和装置
CN112181967B (zh) 源数据质量的监测方法、装置、计算机设备及介质
CN110765750A (zh) 报表数据录入方法及终端设备
CN112416904A (zh) 电力数据规范化处理方法及装置
US20110023010A1 (en) Reserved component container-based software development method and apparatus
US20220292136A1 (en) Method and system for generating a digital representation of asset information in a cloud computing environment
CN108520032B (zh) 数据接口建立方法、***、计算机设备及存储介质
CN114792145B (zh) 一种基于知识图谱的标准数字化管理维护***及方法
CN115344631A (zh) 企业数据管理平台
CN114741276A (zh) 国产操作***测试用例的复用方法和装置
CN113254455A (zh) 数据库的动态配置方法、装置、计算机设备及存储介质
CN111143322A (zh) 一种数据标准治理***及方法
CN117973566B (zh) 训练数据处理方法、装置及相关设备
CN116755684B (zh) OAS Schema的生成方法、装置、设备及介质
CN115543969B (zh) 一种数据迁移方法、装置、设备及介质
CN112507011A (zh) 一种程序自动化数据库模型建立的方法
CN117851522A (zh) 基于电网大数据中心的数据仓库建模方法
CN114610809A (zh) 电网数据结构化处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination