CN109522318A - 一种数据质量管理方法及*** - Google Patents

一种数据质量管理方法及*** Download PDF

Info

Publication number
CN109522318A
CN109522318A CN201811228360.1A CN201811228360A CN109522318A CN 109522318 A CN109522318 A CN 109522318A CN 201811228360 A CN201811228360 A CN 201811228360A CN 109522318 A CN109522318 A CN 109522318A
Authority
CN
China
Prior art keywords
data
index
report
analysis
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811228360.1A
Other languages
English (en)
Other versions
CN109522318B (zh
Inventor
范怡
蒋先虎
彭轶
高迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN201811228360.1A priority Critical patent/CN109522318B/zh
Publication of CN109522318A publication Critical patent/CN109522318A/zh
Application granted granted Critical
Publication of CN109522318B publication Critical patent/CN109522318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据质量管理方法及***,该方法包括:对数据观测指标进行配置,获得指标配置表,其中,数据观测指标表征数据报送中的关注点;对指标配置表中的指标配置信息,对数据观测指标进行计算获得指标值,并根据指标值在预设时间范围内的变化数据,生成指标数据质量报告;确定监管报送数据的主题,对每个主题进行数据分析,获得主题化的数据质量报告;根据指标值,确定预警阈值,对数据观测指标进行预警处理,获得预警信息;根据指标数量质量报告、主题化的数据质量报告和预警信息,生成数据质量监控分析报告。通过本发明实现了提高数据报送质量和对数据质量的监控的准确性。

Description

一种数据质量管理方法及***
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据质量管理方法及***。
背景技术
在金融机构的某些申报***中,由于这些申报***通常会面向外管局、人民银行等监管机构,报送监管***。随着监管机构对于数据质量要求的不断提升,原有的上游采集加报送的模式,已经逐渐无法应对监管机构的监管压力。一些银行的总行和分行的业务部门也反馈***内数据越来越多,监管压力日益增大。
在现有对数据进行监控的过程会使用数据质量监控分析工具,基于该工具产生的结果数据是以报表的形式实现的,即以表格的形式展示数据情况,并且在数据预警方面,预警阈值大多依赖于业务部门人工参数维护。由于数据以表格形式展现,使得数据可读性较差,并且基于人工设置的预警阈值,会降低数据预警的准确性和时更性较差的问题,从而降低数据报送质量。
发明内容
针对于上述问题,本发明提供一种数据质量管理方法及***,实现了提高数据报送质量和对数据质量的监控的准确性。
为了实现上述目的,本发明提供了如下技术方案:
一种数据质量管理方法,该方法包括:
对数据观测指标进行配置,获得指标配置表,其中,所述数据观测指标表征数据报送中的关注点;
对所述指标配置表中的指标配置信息,对所述数据观测指标进行计算获得指标值,并根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告;
确定监管报送数据的主题,对每个主题进行数据分析,获得主题化的数据质量报告;
根据所述指标值,确定预警阈值,对所述数据观测指标进行预警处理,获得预警信息;
根据所述指标数量质量报告、所述主题化的数据质量报告和所述预警信息,生成数据质量监控分析报告。
可选地,所述对数据观测指标进行配置,获得指标配置表,包括:
获取数据报送中的关注点,将所述关注点定义为数据观测指标;
根据各个关注点之间的关联关系,确定各个数据观测指标之间的指标依赖关系;
对所述指标依赖关系进行校验,获得满足校验条件的指标依赖关系;
根据所述数据观测指标和校验后的指标依赖关系,对所述数据观测指标进行配置,获得指标配置表。
可选地,所述对所述指标配置表中的指标配置信息,对所述数据观测指标进行计算获得指标值,并根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告,包括:
对所述指标配置表中的指标配置信息进行解析,获得指标运算模式;
判断所述指标配置表中是否存在待运算指标,如果是,则确定与所述待运算指标相匹配的指标运算模式;
根据与所述待运算指标相匹配的指标运算模式,对所述待运算指标进行汇总计算,获得指标值;
根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告,其中,所述指标数据质量报告用于对数据观测指标的相关数据进行可视化展示。
可选地,所述确定监管报送数据的主题,对每个主题进行数据分析,获得主题化的数据质量报告,包括:
确定监管报送数据的主题,其中,所述主题包括上游***数据、人工补录数据、数据报送、反馈错误和逾期数据;
对所述上游***数据进行数据来源分析,并进行数据校验分析,获得上游***数据分析结果;
对所述人工补录数据进行数据量统计,并进行补录原因分析,获得人工补录数据分析结果;
对所述数据报送进行分析,获得数据报送结果,其中,所述数据报送结果包括正常报送数据量和逾期报送数据量;
根据预设字段维度对所述反馈错误进行分析,获得反馈错误分析结果;
对所述逾期数据进行统计分析,获得逾期数据分析结果;
根据所述上游***数据分析结果、人工补录数据分析结果、数据报送结果、反馈错误分析结果和逾期数据分析结果,生成主题化的数据质量报告。
可选地,确定预警阈值,对所述数据观测指标进行预警处理,获得预警信息,包括:
根据所述指标值,计算获得数据观测指标的均值和方差;
根据所述均值和方差,确定所述数据观测指标的置信区间;
基于所述置信区间,确定预警阈值;
依据所述预警阈值,对所述数据观测指标进行预警处理,获得预警信息。
一种数据质量管理***,该***包括:
配置单元,用于对数据观测指标进行配置,获得指标配置表,其中,所述数据观测指标表征数据报送中的关注点;
指标计算单元,用于对所述指标配置表中的指标配置信息,对所述数据观测指标进行计算获得指标值,并根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告;
主题分析单元,用于确定监管报送数据的主题,对每个主题进行数据分析,获得主题化的数据质量报告;
预警单元,用于根据所述指标值,确定预警阈值,对所述数据观测指标进行预警处理,获得预警信息;
报告生成单元,用于根据所述指标数量质量报告、所述主题化的数据质量报告和所述预警信息,生成数据质量监控分析报告。
可选地,所述配置单元包括:
获取子单元,由于获取数据报送中的关注点,将所述关注点定义为数据观测指标;
关系确定子单元,用于根据各个关注点之间的关联关系,确定各个数据观测指标之间的指标依赖关系;
校验子单元,用于对所述指标依赖关系进行校验,获得满足校验条件的指标依赖关系;
配置子单元,用于根据所述数据观测指标和校验后的指标依赖关系,对所述数据观测指标进行配置,获得指标配置表。
可选地,所述指标计算单元包括:
解析子单元,用于对所述指标配置表中的指标配置信息进行解析,获得指标运算模式;
判断子单元,用于判断所述指标配置表中是否存在待运算指标,如果是,则确定与所述待运算指标相匹配的指标运算模式;
第一计算子单元,用于根据与所述待运算指标相匹配的指标运算模式,对所述待运算指标进行汇总计算,获得指标值;
第一报告生成子单元,用于根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告,其中,所述指标数据质量报告用于对数据观测指标的相关数据进行可视化展示。
可选地,所述主题分析单元包括:
主题确定子单元,用于确定监管报送数据的主题,其中,所述主题包括上游***数据、人工补录数据、数据报送、反馈错误和逾期数据;
第一分析子单元,用于对所述上游***数据进行数据来源分析,并进行数据校验分析,获得上游***数据分析结果;
第二分析子单元,用于对所述人工补录数据进行数据量统计,并进行补录原因分析,获得人工补录数据分析结果;
第三分析子单元,用于对所述数据报送进行分析,获得数据报送结果,其中,所述数据报送结果包括正常报送数据量和逾期报送数据量;
第四分析子单元,用于根据预设字段维度对所述反馈错误进行分析,获得反馈错误分析结果;
第五分析子单元,用于对所述逾期数据进行统计分析,获得逾期数据分析结果;
第二报告生成子单元,用于根据所述上游***数据分析结果、人工补录数据分析结果、数据报送结果、反馈错误分析结果和逾期数据分析结果,生成主题化的数据质量报告。
可选地,所述预警单元包括:
第二计算子单元,用于根据所述指标值,计算获得数据观测指标的均值和方差;
区间确定子单元,用于根据所述均值和方差,确定所述数据观测指标的置信区间;
阈值确定子单元,用于基于所述置信区间,确定预警阈值;
预警处理子单元,用你有依据所述预警阈值,对所述数据观测指标进行预警处理,获得预警信息
相较于现有技术,本发明提供了一种数据质量管理方法及装置,在该方法中将数据报送中的关注点确定为数据观测指标,并对数据观测指标配置得到指标配置表,然后基于指标配置表对各个数据观测指标进行数据跟踪分析、计算获得是标志,实现了可以快速响应和调整指标的目的,使得生成的指标数据质量报告更加精准,并能够进行可视化展示,同时基于主题进行分析可进行主题数据的分析和展示,使得数据的监控更加完整,根据指标值进行预警阈值的确定,能够使得阈值更加精准并且具有实时性,最终生成的数据质量监控分析报告能够更加清晰、完整和准确的展示数据质量信息,实现了提高数据报送质量和对数据质量的监控的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种数据质量管理方法的流程示意图;
图2为本发明实施例提供的一种获取指标配置表的方法的流程示意图;
图3为本发明实施例提供的一种指标运算方法的流程示意图;
图4为本发明实施例提供的一种数据质量管理***的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在本发明实施例中提供了一种数据质量管理方法,参见图1,该方法包括:
S101、对数据观测指标进行配置,获得指标配置表;
其中,数据观测指标表征数据报送中的关注点。在本发明实施例中以“指标”形式,标准化业务人员每日关注的数据质量点,将每个数据质量的关注点,化为一个数据观测指标。以数据观测指标为最小单位,计算各数据报送中的关注点,并且需要对数据观测指标之间的依赖关系进行验证,同时要根据数据观测指标的相关信息进行配置,获得指标配置表。
S102、对指标配置表中的指标配置信息,对数据观测指标进行计算获得指标值,并根据指标值在预设时间范围内的变化数据,生成指标数据质量报告。
具体的该过程包括:
对所述指标配置表中的指标配置信息进行解析,获得指标运算模式;
判断所述指标配置表中是否存在待运算指标,如果是,则确定与所述待运算指标相匹配的指标运算模式;
根据与所述待运算指标相匹配的指标运算模式,对所述待运算指标进行汇总计算,获得指标值;
根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告,其中,所述指标数据质量报告用于对数据观测指标的相关数据进行可视化展示。
S103、确定监管报送数据的主题,对每个主题进行数据分析,获得主题化的数据质量报告;
监管报送类***的通用模式一般为:上游采集、***加工、业务干预、报送监管、监管反馈。基于以上流程,在本发明实施例中以主题的形式,进行进一步的分析与展示,目前已有的主题包括以下几项:上游***数据、人工补录数据、数据报送、反馈错误和逾期数据。分析主题所依赖的数据大部分来自于指标计算结果,但因指标配置的灵活性、通用性,少量***特性的数据计算,将在分析主题辅助数据计算中完成。
S104、根据指标值,确定预警阈值,对数据观测指标进行预警处理,获得预警信息;
监管类***的阈值设置一般凭借业务部门经验进行,阈值有效性、更新及时性存在不足,因此在指标预警部分,设计阈值区间定期计算功能,提供业务人员参考,如业务人员接受***计算阈值结果,则可采纳并生效。
具体的,该过程可以包括:
根据所述指标值,计算获得数据观测指标的均值和方差;
根据所述均值和方差,确定所述数据观测指标的置信区间;
基于所述置信区间,确定预警阈值;
依据所述预警阈值,对所述数据观测指标进行预警处理,获得预警信息。
S105、根据指标数量质量报告、主题化的数据质量报告和预警信息,生成数据质量监控分析报告。
可视化的数据质量分析报告、主题化的数据质量分析、每日动态预警,并基于以上三项形成数据质量监控分析报告,提供全面、直观的每日数据情况视图。
本发明提供了一种数据质量管理方法,在该方法中将数据报送中的关注点确定为数据观测指标,并对数据观测指标配置得到指标配置表,然后基于指标配置表对各个数据观测指标进行数据跟踪分析、计算获得是标志,实现了可以快速响应和调整指标的目的,使得生成的指标数据质量报告更加精准,并能够进行可视化展示,同时基于主题进行分析可进行主题数据的分析和展示,使得数据的监控更加完整,根据指标值进行预警阈值的确定,能够使得阈值更加精准并且具有实时性,最终生成的数据质量监控分析报告能够更加清晰、完整和准确的展示数据质量信息,实现了提高数据报送质量和对数据质量的监控的准确性。
在上述实施例的基础上,参见图2,在本分明的另一实施例中还提供了一种获取指标配置表的方法,包括:
S201、获取数据报送中的关注点,将所述关注点定义为数据观测指标;
S202、根据各个关注点之间的关联关系,确定各个数据观测指标之间的指标依赖关系;
S203、对所述指标依赖关系进行校验,获得满足校验条件的指标依赖关系;
S204、根据所述数据观测指标和校验后的指标依赖关系,对所述数据观测指标进行配置,获得指标配置表。
具体的,以数据观测指标为最小单位,计算各数据报送中的关注点,因关注点间可能存在关联关系,例如,计算比例、占比等情况,指标支持相互依赖,例如,A指标可依赖于B指标的计算结果,则执行计算前,进行指标依赖关系合法性校验,避免发生指标依赖嵌套或指标依赖于不存在的指标等情况。根据上述需求,设计指标配置表中主要包括如下信息:
支持分***运算:通过SYSTEM字段配置,不同***不同配置,分别运算;
支持分省运算:通过BYBRANCH字段配置,考虑不同***分省依据不同,分省依据在另一***配置表内配置;
支持不同频度运算:通过TARGET_TYPE配置指标运算频率,可按日、按月、按年进行配置;
支持指标依赖:通过REL_TARGET进行配置;
支持指标明细存储:在业务人员日常查看时,时常需要查看某数值下具体对应明细,如告诉业务人员,今天有10笔反馈错误,如果能够同时提供10笔反馈的具体明细,而不是让业务人员通过其他功能再次查询、查看,能够提升业务人员的数据处理及操作便利性,增加其对功能的使用好感。因此可通过NEED_DETAIL配置是否需要明细,同时为了降低明细存储代价、同时保证配置的灵活性,NEED_DETAIL配置为Y时,需配置DATA_KEY字段,记录明细的主键(明细信息仅存储主键);
支持部分指标执行:通过VALID配置,可对指标进行部分执行(诸如遇到某些指标项需重新计算的情况时,无需全量计算);
支持多维度计算:配置有TARGET_UNIT字段,可适应监控在金额、笔数等多维度监控。
在本发明实施例中还提供了一种指标计算方法,包括:
对所述指标配置表中的指标配置信息进行解析,获得指标运算模式;
判断所述指标配置表中是否存在待运算指标,如果是,则确定与所述待运算指标相匹配的指标运算模式;
根据与所述待运算指标相匹配的指标运算模式,对所述待运算指标进行汇总计算,获得指标值;
根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告,其中,所述指标数据质量报告用于对数据观测指标的相关数据进行可视化展示。
需要说明的是,指标运算依据指标配置表内的配置,从叶子指标(即不依赖于其他指标的指标)开始,循环计算,直至所有生效指标计算完毕为止。下面以指标运算模式为分省运算,参见图3,为本发明实施例提供的一种指标运算方法的流程示意图,该过程包括:
S301、更新待执行指标状态为初始状态;
S302、在状态为初始状态的指标中,查找可运算的指标;
S303、判断是否有可运算的指标,如果是,则执行S304;
S304、判断是否需要分省执行,如果是,则执行S305,否则执行S306;
S305、读取分省依据表,依据分省机构循环分省执行;
S306、执行全辖汇总计算;
S307、是否需要记录明细,如果是,则执行S308,否则执行S309;
S308、读取明细配置表,记录明细;
S309、执行完毕,更新指标状态为目标状态。
明细存储的部分,如上一点中所述,业务人员希望看到的往往是基础数据的明细,如反馈了5条错误,业务希望看到的是错误了什么,如迟报了10条,业务会希望看到是哪十条迟报了,因此明细的存储涉及的表覆盖面广,同时表内的数据均是***已有的,如在明细存储时,将对应数据重新复制、提取存储,将导致数据重复存储、扩展性、灵活性不足的问题,因此设计如下:
建立指标明细表:以“指标—日期—明细主键”的形式记录明细,即仅记录主键,同时在指标明细配置表中,记录指标对应的具体业务表名称,在用户查询、查看明细时,通过关联明细表与指标明细配置表,读取具体业务数据表中的数据并进行展示。该设计可灵活支持不同业务数据表的明细展示,同时后期新增指标、新增明细时,仅通过配置即可实现,无需重新建表、重新开发查询导出功能。
在本发明实施例中还提供了一种主题数据分析的方法,包括:
确定监管报送数据的主题,其中,所述主题包括上游***数据、人工补录数据、数据报送、反馈错误和逾期数据;
对所述上游***数据进行数据来源分析,并进行数据校验分析,获得上游***数据分析结果;
对所述人工补录数据进行数据量统计,并进行补录原因分析,获得人工补录数据分析结果;
对所述数据报送进行分析,获得数据报送结果,其中,所述数据报送结果包括正常报送数据量和逾期报送数据量;
根据预设字段维度对所述反馈错误进行分析,获得反馈错误分析结果;
对所述逾期数据进行统计分析,获得逾期数据分析结果;
根据所述上游***数据分析结果、人工补录数据分析结果、数据报送结果、反馈错误分析结果和逾期数据分析结果,生成主题化的数据质量报告。
举例说明,项目组依据日常生产运维经验,以及与业务部门的沟通了解,配置了以下指标,主要涉及上游数据情况、人工补录情况、数据报送情况、反馈错误情况、逾期数据五个主题:
上游***数据分析:
监管报送类***一般涉及数个乃至十数个、数十个上游***,上游***的数据质量对于报送数据有着举足轻重的影响,可以说,提升上游***数据质量,是提升监管报送质量、降低人工干预的基础,因此设计了以下几项源***数据分析:
各***数据量统计分析--统计分析每日数据来源分布情况;
各***数据质量统计分析—统计分析每日各***所涉数据的校验情况,即上游***给了多少正确数据、多少错误数据,错误原因有哪些,涉及了哪些字段;
通过以上分析结果,可协助项目组与业务部门,及时发现上游***存在的问题,及时与上游***沟通分析,改进源***质量,从根本上降低错误数据、人工干预量。
人工补录数据分析:
目前仍存在部分业务不通过上游采集,由业务人员直接录入***的情况,该情况各分行有各分行不同的原因及困难,因此设计了人工补录数据分析,每日统计各分行人工补录的数据量,并提供对应分行操作柜员信息,以在观察一段时间后,项目组能够主动发起联系总行及所涉分行,讨论人工补录数据原因并分析能否通过自动采集的方式采集数据。
数据报送分析:包括正常报送数据量和逾期报送数据量。
反馈错误分析:
监管机构对于报送数据将进行错误反馈,因此设计了反馈错误分析,每日统计当日错误反馈情况,目前包含以下几部分:
字段维度的反馈错误分析–以字段为维度,统计反馈错误情况,发现错误集中的字段,进行及时干预。
分行维度的反馈错误分析—以机构为维度,展示反馈错误情况,发现错误集中的分行,及时联系并与其分析解决方案。
逾期数据分析:
逾期数据一直是业务部门监管报送时的痛点,逾期将造成监管机构的扣分或处罚,因此如何发现逾期、及时处理逾期,是***需要协助业务部门所进行的,因此设计了逾期数据分析的功能,从机构维度统计分析每日逾期情况,协助总分行抓住重点、区分轻重缓急,以较小的精力达成提升数据质量的目的。
并且定期结合前日数据情况,动态生成预警阈值,以最近的数据经验为基础,生成最为准确的预警阈值,根据上述指标为维度,进行监控预警,及时发现异常数据点。
例如,监管类信通的阈值设置一般凭借业务部分经验进行,阈值有效性、更新及时性存在不足,因此在指标预警部分,设计阈值区间定期计算功能,提供业务人员参考,如业务人员接受***计算阈值结果,则可采纳并生效。阈值计算使用正态分布公式,通过定期计算预设时间范围(例如过去一年)内指标的均值和方差,得到该指标的置信区间。在计算过程中,考虑到银行***和监管报送的特性(如节假日不报送数据,节假日后第一个工作日报送前N个休息日的数据),对不同指标可进行计算日、工作日、节假日、节假日后首个工作日等类型的设置,按不同类型,计算同置信区间。计算得到的置信区间,将提供运维、业务部门参考,如采纳,将作为指标的上下阈值,进行预警判定。
在本发明实施例中生成了数据质量监控分析报告,将在***的前端提供该报告的展示,该报告的展示项依据指标、主题、主题分析的配置,动态生成。同时可以利用可视化工具(例如echarts3工具)进行展示。例如可以将展示页面分为左右两个展示页面,左侧展示指标数据质量报告,可以通过读取期中的指标配置表及指标计算结果表,展示下辖数据情况,点击数值字段,可在页面下方查看指标近一个月的变化情况,并支持当日明细查询导出。可以通过右侧的主题化的数据质量报告中读取主题分析配置表,展示对应主题配置的分析功能,并且可以设置对应的链接,通过点击链接,将在页面下方查看具体分析结果,可以使得后续随业务需求、监管要求继续不断添加、细化。即在报告的展示过程中实现了可视化的数据展示,例如趋势图等展示。
本发明通过将数据质量分析报告框架化,将数据质量监控点指标化,达到监控***数据质量的目的,同时做到了能够快速响应、及时调整监控点,适应外部监管、内部管理的变化需求。在指标预警方面,依据历史指标数据,进行每月指标阈值计算,借鉴历史数据,协助业务人员及时调整阈值参数,适应数据的不断变化。采用了可视化工具,将枯燥的数据质量分析报告化为各种直观的趋势、变化图形,同时框架化的数据质量分析报告,又能够支持后续更多的可视化分析及时按照业务需求开发并配置入报告内,不断提升数据质量分析报告的价值。
对应的,在本发明的另一实施例中还提供了一种数据质量管理***,参见图4,该***包括:
配置单元401,用于对数据观测指标进行配置,获得指标配置表,其中,所述数据观测指标表征数据报送中的关注点;
指标计算单元402,用于对所述指标配置表中的指标配置信息,对所述数据观测指标进行计算获得指标值,并根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告;
主题分析单元403,用于确定监管报送数据的主题,对每个主题进行数据分析,获得主题化的数据质量报告;
预警单元404,用于根据所述指标值,确定预警阈值,对所述数据观测指标进行预警处理,获得预警信息;
报告生成单元405,用于根据所述指标数量质量报告、所述主题化的数据质量报告和所述预警信息,生成数据质量监控分析报告。
本发明提供了一种数据质量管理装置,将数据报送中的关注点确定为数据观测指标,并在配置单元中对数据观测指标配置得到指标配置表,然后基于指标配置表在指标计算单元中对各个数据观测指标进行数据跟踪分析、计算获得是标志,实现了可以快速响应和调整指标的目的,使得生成的指标数据质量报告更加精准,并能够进行可视化展示,同时在主题分析单元中基于主题进行分析可进行主题数据的分析和展示,使得数据的监控更加完整,根据指标值进行预警阈值的确定,能够使得阈值更加精准并且具有实时性,最终在报告生成单元中生成的数据质量监控分析报告能够更加清晰、完整和准确的展示数据质量信息,实现了提高数据报送质量和对数据质量的监控的准确性。
在上述实施例的基础上,所述配置单元包括:
获取子单元,由于获取数据报送中的关注点,将所述关注点定义为数据观测指标;
关系确定子单元,用于根据各个关注点之间的关联关系,确定各个数据观测指标之间的指标依赖关系;
校验子单元,用于对所述指标依赖关系进行校验,获得满足校验条件的指标依赖关系;
配置子单元,用于根据所述数据观测指标和校验后的指标依赖关系,对所述数据观测指标进行配置,获得指标配置表。
可选地,所述指标计算单元包括:
解析子单元,用于对所述指标配置表中的指标配置信息进行解析,获得指标运算模式;
判断子单元,用于判断所述指标配置表中是否存在待运算指标,如果是,则确定与所述待运算指标相匹配的指标运算模式;
第一计算子单元,用于根据与所述待运算指标相匹配的指标运算模式,对所述待运算指标进行汇总计算,获得指标值;
第一报告生成子单元,用于根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告,其中,所述指标数据质量报告用于对数据观测指标的相关数据进行可视化展示。
可选地,所述主题分析单元包括:
主题确定子单元,用于确定监管报送数据的主题,其中,所述主题包括上游***数据、人工补录数据、数据报送、反馈错误和逾期数据;
第一分析子单元,用于对所述上游***数据进行数据来源分析,并进行数据校验分析,获得上游***数据分析结果;
第二分析子单元,用于对所述人工补录数据进行数据量统计,并进行补录原因分析,获得人工补录数据分析结果;
第三分析子单元,用于对所述数据报送进行分析,获得数据报送结果,其中,所述数据报送结果包括正常报送数据量和逾期报送数据量;
第四分析子单元,用于根据预设字段维度对所述反馈错误进行分析,获得反馈错误分析结果;
第五分析子单元,用于对所述逾期数据进行统计分析,获得逾期数据分析结果;
第二报告生成子单元,用于根据所述上游***数据分析结果、人工补录数据分析结果、数据报送结果、反馈错误分析结果和逾期数据分析结果,生成主题化的数据质量报告。
可选地,所述预警单元包括:
第二计算子单元,用于根据所述指标值,计算获得数据观测指标的均值和方差;
区间确定子单元,用于根据所述均值和方差,确定所述数据观测指标的置信区间;
阈值确定子单元,用于基于所述置信区间,确定预警阈值;
预警处理子单元,用你有依据所述预警阈值,对所述数据观测指标进行预警处理,获得预警信息
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据质量管理方法,其特征在于,该方法包括:
对数据观测指标进行配置,获得指标配置表,其中,所述数据观测指标表征数据报送中的关注点;
对所述指标配置表中的指标配置信息,对所述数据观测指标进行计算获得指标值,并根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告;
确定监管报送数据的主题,对每个主题进行数据分析,获得主题化的数据质量报告;
根据所述指标值,确定预警阈值,对所述数据观测指标进行预警处理,获得预警信息;
根据所述指标数量质量报告、所述主题化的数据质量报告和所述预警信息,生成数据质量监控分析报告。
2.根据权利要求1所述的方法,其特征在于,所述对数据观测指标进行配置,获得指标配置表,包括:
获取数据报送中的关注点,将所述关注点定义为数据观测指标;
根据各个关注点之间的关联关系,确定各个数据观测指标之间的指标依赖关系;
对所述指标依赖关系进行校验,获得满足校验条件的指标依赖关系;
根据所述数据观测指标和校验后的指标依赖关系,对所述数据观测指标进行配置,获得指标配置表。
3.根据权利要求2所述的方法,其特征在于,所述对所述指标配置表中的指标配置信息,对所述数据观测指标进行计算获得指标值,并根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告,包括:
对所述指标配置表中的指标配置信息进行解析,获得指标运算模式;
判断所述指标配置表中是否存在待运算指标,如果是,则确定与所述待运算指标相匹配的指标运算模式;
根据与所述待运算指标相匹配的指标运算模式,对所述待运算指标进行汇总计算,获得指标值;
根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告,其中,所述指标数据质量报告用于对数据观测指标的相关数据进行可视化展示。
4.根据权利要求1所述的方法,其特征在于,所述确定监管报送数据的主题,对每个主题进行数据分析,获得主题化的数据质量报告,包括:
确定监管报送数据的主题,其中,所述主题包括上游***数据、人工补录数据、数据报送、反馈错误和逾期数据;
对所述上游***数据进行数据来源分析,并进行数据校验分析,获得上游***数据分析结果;
对所述人工补录数据进行数据量统计,并进行补录原因分析,获得人工补录数据分析结果;
对所述数据报送进行分析,获得数据报送结果,其中,所述数据报送结果包括正常报送数据量和逾期报送数据量;
根据预设字段维度对所述反馈错误进行分析,获得反馈错误分析结果;
对所述逾期数据进行统计分析,获得逾期数据分析结果;
根据所述上游***数据分析结果、人工补录数据分析结果、数据报送结果、反馈错误分析结果和逾期数据分析结果,生成主题化的数据质量报告。
5.根据权利要求1所述的方法,其特征在于,所述根据所述指标值,确定预警阈值,对所述数据观测指标进行预警处理,获得预警信息,包括:
根据所述指标值,计算获得数据观测指标的均值和方差;
根据所述均值和方差,确定所述数据观测指标的置信区间;
基于所述置信区间,确定预警阈值;
依据所述预警阈值,对所述数据观测指标进行预警处理,获得预警信息。
6.一种数据质量管理***,其特征在于,该***包括:
配置单元,用于对数据观测指标进行配置,获得指标配置表,其中,所述数据观测指标表征数据报送中的关注点;
指标计算单元,用于对所述指标配置表中的指标配置信息,对所述数据观测指标进行计算获得指标值,并根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告;
主题分析单元,用于确定监管报送数据的主题,对每个主题进行数据分析,获得主题化的数据质量报告;
预警单元,用于根据所述指标值,确定预警阈值,对所述数据观测指标进行预警处理,获得预警信息;
报告生成单元,用于根据所述指标数量质量报告、所述主题化的数据质量报告和所述预警信息,生成数据质量监控分析报告。
7.根据权利要求6所述的***,其特征在于,所述配置单元包括:
获取子单元,由于获取数据报送中的关注点,将所述关注点定义为数据观测指标;
关系确定子单元,用于根据各个关注点之间的关联关系,确定各个数据观测指标之间的指标依赖关系;
校验子单元,用于对所述指标依赖关系进行校验,获得满足校验条件的指标依赖关系;
配置子单元,用于根据所述数据观测指标和校验后的指标依赖关系,对所述数据观测指标进行配置,获得指标配置表。
8.根据权利要求7所述的***,其特征在于,所述指标计算单元包括:
解析子单元,用于对所述指标配置表中的指标配置信息进行解析,获得指标运算模式;
判断子单元,用于判断所述指标配置表中是否存在待运算指标,如果是,则确定与所述待运算指标相匹配的指标运算模式;
第一计算子单元,用于根据与所述待运算指标相匹配的指标运算模式,对所述待运算指标进行汇总计算,获得指标值;
第一报告生成子单元,用于根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告,其中,所述指标数据质量报告用于对数据观测指标的相关数据进行可视化展示。
9.根据权利要求6所述的***,其特征在于,所述主题分析单元包括:
主题确定子单元,用于确定监管报送数据的主题,其中,所述主题包括上游***数据、人工补录数据、数据报送、反馈错误和逾期数据;
第一分析子单元,用于对所述上游***数据进行数据来源分析,并进行数据校验分析,获得上游***数据分析结果;
第二分析子单元,用于对所述人工补录数据进行数据量统计,并进行补录原因分析,获得人工补录数据分析结果;
第三分析子单元,用于对所述数据报送进行分析,获得数据报送结果,其中,所述数据报送结果包括正常报送数据量和逾期报送数据量;
第四分析子单元,用于根据预设字段维度对所述反馈错误进行分析,获得反馈错误分析结果;
第五分析子单元,用于对所述逾期数据进行统计分析,获得逾期数据分析结果;
第二报告生成子单元,用于根据所述上游***数据分析结果、人工补录数据分析结果、数据报送结果、反馈错误分析结果和逾期数据分析结果,生成主题化的数据质量报告。
10.根据权利要求6所述的***,其特征在于,所述预警单元包括:
第二计算子单元,用于根据所述指标值,计算获得数据观测指标的均值和方差;
区间确定子单元,用于根据所述均值和方差,确定所述数据观测指标的置信区间;
阈值确定子单元,用于基于所述置信区间,确定预警阈值;
预警处理子单元,用你有依据所述预警阈值,对所述数据观测指标进行预警处理,获得预警信息。
CN201811228360.1A 2018-10-22 2018-10-22 一种数据质量管理方法及*** Active CN109522318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811228360.1A CN109522318B (zh) 2018-10-22 2018-10-22 一种数据质量管理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811228360.1A CN109522318B (zh) 2018-10-22 2018-10-22 一种数据质量管理方法及***

Publications (2)

Publication Number Publication Date
CN109522318A true CN109522318A (zh) 2019-03-26
CN109522318B CN109522318B (zh) 2022-01-21

Family

ID=65772784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811228360.1A Active CN109522318B (zh) 2018-10-22 2018-10-22 一种数据质量管理方法及***

Country Status (1)

Country Link
CN (1) CN109522318B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309125A (zh) * 2019-06-24 2019-10-08 招商局金融科技有限公司 数据校验方法、电子装置及存储介质
CN111241086A (zh) * 2020-01-17 2020-06-05 甘肃省卫生健康统计信息中心(西北人口信息中心) 一种基于医疗大数据的数据质量改进方法及***
CN111311086A (zh) * 2020-02-11 2020-06-19 ***股份有限公司 一种容量监控方法、装置及计算机可读存储介质
CN111949642A (zh) * 2020-08-13 2020-11-17 中国工商银行股份有限公司 数据质量管控的方法及装置
CN112579699A (zh) * 2020-12-14 2021-03-30 广州信安数据有限公司 业务数据处理链路的质量监控方法、***及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550511A (zh) * 2015-12-11 2016-05-04 北京锐软科技股份有限公司 一种基于数据校验技术的数据质量测评***及方法
CN106649840A (zh) * 2016-12-30 2017-05-10 国网江西省电力公司经济技术研究院 一种适用于电力数据质量评估与规则校验的方法
CN107358416A (zh) * 2017-09-12 2017-11-17 安徽易商数码科技有限公司 一种产品质量监督管理***
CN108460678A (zh) * 2017-02-22 2018-08-28 北京数信互融科技发展有限公司 资产筛选、质量监测、预测全流程互联网金融资产管理云平台
CN108647340A (zh) * 2018-05-14 2018-10-12 浪潮通用软件有限公司 一种基于动态交叉表的多维数据实时分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550511A (zh) * 2015-12-11 2016-05-04 北京锐软科技股份有限公司 一种基于数据校验技术的数据质量测评***及方法
CN106649840A (zh) * 2016-12-30 2017-05-10 国网江西省电力公司经济技术研究院 一种适用于电力数据质量评估与规则校验的方法
CN108460678A (zh) * 2017-02-22 2018-08-28 北京数信互融科技发展有限公司 资产筛选、质量监测、预测全流程互联网金融资产管理云平台
CN107358416A (zh) * 2017-09-12 2017-11-17 安徽易商数码科技有限公司 一种产品质量监督管理***
CN108647340A (zh) * 2018-05-14 2018-10-12 浪潮通用软件有限公司 一种基于动态交叉表的多维数据实时分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周天军: ""基于数据仓库的银行监管报送***设计与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309125A (zh) * 2019-06-24 2019-10-08 招商局金融科技有限公司 数据校验方法、电子装置及存储介质
CN110309125B (zh) * 2019-06-24 2021-09-21 招商局金融科技有限公司 数据校验方法、电子装置及存储介质
CN111241086A (zh) * 2020-01-17 2020-06-05 甘肃省卫生健康统计信息中心(西北人口信息中心) 一种基于医疗大数据的数据质量改进方法及***
CN111241086B (zh) * 2020-01-17 2021-08-31 甘肃省卫生健康统计信息中心(西北人口信息中心) 一种基于医疗大数据的数据质量改进方法及***
CN111311086A (zh) * 2020-02-11 2020-06-19 ***股份有限公司 一种容量监控方法、装置及计算机可读存储介质
CN111311086B (zh) * 2020-02-11 2024-02-09 ***股份有限公司 一种容量监控方法、装置及计算机可读存储介质
CN111949642A (zh) * 2020-08-13 2020-11-17 中国工商银行股份有限公司 数据质量管控的方法及装置
CN111949642B (zh) * 2020-08-13 2024-07-09 中国工商银行股份有限公司 数据质量管控的方法及装置
CN112579699A (zh) * 2020-12-14 2021-03-30 广州信安数据有限公司 业务数据处理链路的质量监控方法、***及存储介质

Also Published As

Publication number Publication date
CN109522318B (zh) 2022-01-21

Similar Documents

Publication Publication Date Title
CN109522318A (zh) 一种数据质量管理方法及***
US5771179A (en) Measurement analysis software system and method
US8818758B1 (en) Methods and apparatus to track, visualize and understand energy and utilities usage
US20060106755A1 (en) Tracking usage of data elements in electronic business communications
KR101167848B1 (ko) 세부 공간 또는 부위 정보를 포함하는 정확한 건설 노무 관리를 수행하는 건설 공사비 정보 처리 시스템의 정보 처리 방법
CN109784689B (zh) 一种电网基建工程报表数据处理方法
CN102819774A (zh) 工程项目成本管理***及其构架
US20180158145A1 (en) Resource planning system, particularly for vehicle fleet management
CN106530069A (zh) 一种财务数据的分析方法及***
CN112907034B (zh) 一种基于物联网和机器学习的分区计量漏损监控管理***
US20140365253A1 (en) System for Calculating, Analyzing and Tracking Regulatory Recovery in a Relational Database relating to Regulatory Management
CN110084439A (zh) 一种基于nesma功能点估算的软件成本度量方法及云***
CN115145358A (zh) 一种基于边云协同的碳排放计量一体机
US20130198049A1 (en) System and method for electronic time reconciliation
US8473389B2 (en) Methods and systems of purchase contract price adjustment calculation tools
TWI503780B (zh) 契約容量最佳化系統及最佳化方法
CN108876298A (zh) 一种收益分享管理方法及***
CN106934518A (zh) 一种资金限额控制方法及***
RU122793U1 (ru) Устройство автоматизированного формирования, расчета и анализа зарплаты рабочих на производственном предприятии
CN115630113A (zh) 一种账户流水核对方法及装置
RU127976U1 (ru) Устройство автоматизированного формирования трудоемкости изготовления изделия при опытно-конструкторских работах
CN117557395B (zh) 一种研发成本管控方法、***、电子设备及存储介质
US20230306479A1 (en) Systems and methods of utility data triangulation to verify data accuracy
CN113592627A (zh) 债券业务管理方法、***及计算机可读存储介质
CN116402470A (zh) 一种多维预算管理***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant