CN107870827B - 基于校验的数据质量控制方法和装置 - Google Patents

基于校验的数据质量控制方法和装置 Download PDF

Info

Publication number
CN107870827B
CN107870827B CN201711083526.0A CN201711083526A CN107870827B CN 107870827 B CN107870827 B CN 107870827B CN 201711083526 A CN201711083526 A CN 201711083526A CN 107870827 B CN107870827 B CN 107870827B
Authority
CN
China
Prior art keywords
verification
data
check
error
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711083526.0A
Other languages
English (en)
Other versions
CN107870827A (zh
Inventor
杨洁
吴永华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN201711083526.0A priority Critical patent/CN107870827B/zh
Publication of CN107870827A publication Critical patent/CN107870827A/zh
Application granted granted Critical
Publication of CN107870827B publication Critical patent/CN107870827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开一种基于校验的数据质量控制方法和装置,所述方法包括:获取全量数据;读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集;以所述第一校验规则集对所述全量数据进行校验,得到第一结果集;将所述第一结果集内的校验错误信息对应的数据记录存放至错误库;响应所述过滤操作指令,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于确定性校验的数据记录,生成确定性错误库;以所述确定性错误库筛选所述全量数据,将经过所述筛选的全量数据作为报送库的数据。本发明提供的技术方案,能够很好的适用于时效性要求高、数据量大以及校验规则复杂的***。

Description

基于校验的数据质量控制方法和装置
技术领域
本发明涉及软件技术领域,尤其涉及一种基于校验的数据质量控制方法和装置。
背景技术
传统的校验方式在处理复杂的校验规则时,通常采用的方案是人工校验或逐条校验。人工校验是指让熟悉***校验规则的维护人员根据数据情况自行补录,也就是靠人力进行数据错误排查,对人力维护的人员要求较高。逐条校验则是指将每条校验规则逐条单独写入程序,要求开发人员将全部校验规则转换成代码语句写在程序中,从而实现校验规则相对复杂的数据质量控制。
而人工校验对维护人员的要求很高,必须非常熟悉每条校验规则,且工作量极大,效率较低,也无法保证最终数据的准确性,常常出现需要返工的情况,排错难度高。另一方面,采用逐条校验的***运行效率非常低,每次校验都是一次数据表读写操作,IO开销大,反应速度慢,无法实现校验结果的及时反馈,对于开发人员来说也更加困难,需要进行大量的重复劳动,误码率高,也影响最终数据的准确性。
因此,现有的技术中,都存在效率低和数据校验的准确率低,从而无法有效对数据质量进行控制的问题,从而无法适用于时效性要求高、数据量大以及校验规则复杂的***。
发明内容
有鉴于此,本发明提供了一种基于校验的数据质量控制方法和装置,能够有效解决现有技术中存在的效率低和数据校验的准确率低,从而无法有效对数据质量进行控制的问题,能够很好的适用于时效性要求高、数据量大以及校验规则复杂的***。
为实现上述目的,本发明提供如下技术方案:
一种基于校验的数据质量控制方法,包括:
获取全量数据,所述全量数据包括数据记录;
读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集;
以所述第一校验规则集对所述全量数据进行校验,得到第一结果集;
将所述第一结果集内的校验错误信息对应的数据记录存放至错误库;
获取过滤操作指令;
响应所述过滤操作指令,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于确定性校验的数据记录,生成确定性错误库;
以所述确定性错误库筛选所述全量数据,将经过所述筛选的全量数据作为报送库的数据。
进一步的,读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集,包括:
读取所述全量数据对应的位于校验参数表中的校验标识号、校验信息描述、校验目标表、校验目标字段、校验语句配置和校验开关,通过组合校验逻辑生成第一校验规则集。
进一步的,所述全量数据包括数据项标准列,所述以所述第一校验规则集对所述全量数据进行校验,得到第一结果集,包括:
以所述第一校验规则集对所述全量数据进行校验,得到包括数据项标准列、校验标识号和校验状态的第一结果集;所述校验状态包括校验正确信息和校验错误信息。
进一步的,所述将所述第一结果集内的校验错误信息对应的数据记录存放至错误库,包括:
将与所述校验错误信息分别相对应的数据项标准列和校验标志号,以及所述校验错误信息对应的数据项标准列定位到的数据记录存放至错误库。
进一步的,所述获取过滤操作指令之前,还包括:
显示错误库中的数据记录。
进一步的,所述显示错误库中的数据记录之后、所述获取过滤操作指令之前,还包括:
获取用户补录的数据记录;所述补录的数据记录与所述错误库中的数据记录相对应;
将所述补录的数据记录写入全量数据,对更新的数据记录做标记;
通过所述校验参数表和已标记的数据记录组合校验逻辑,生成第二校验规则集;
以所述第二校验规则集对已标记的数据记录进行校验,得到第二结果集;
删除所述错误库中的数据,将所述第二结果集内的校验错误信息对应的数据记录存放至错误库。
一种基于校验的数据质量控制装置,包括:
第一获取模块,用于获取全量数据,所述全量数据包括数据记录;
读取模块,用于读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集;
第一校验模块,用于以所述第一校验规则集对所述全量数据进行校验,得到第一结果集;
存放模块,用于将所述第一结果集内的校验错误信息对应的数据记录存放至错误库;
第二获取模块,用于获取过滤操作指令;
第一生成模块,用于响应所述过滤操作指令,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于确定性校验的数据记录,生成确定性错误库;
过滤模块,用于以所述确定性错误库筛选所述全量数据,将经过所述筛选的全量数据作为报送库的数据。
进一步的,所述读取模块具体用于:
读取所述全量数据对应的位于校验参数表中的校验标识号、校验信息描述、校验目标表、校验目标字段、校验语句配置和校验开关,通过组合校验逻辑生成第一校验规则集。
进一步的,所述全量数据包括数据项标准列,所述第一校验模块具体用于:
以所述第一校验规则集对所述全量数据进行校验,得到包括数据项标准列、校验标识号和校验状态的第一结果集;所述校验状态包括校验正确信息和校验错误信息。
进一步的,所述存放模块具体用于:
将与所述校验错误信息分别相对应的数据项标准列和校验标志号,以及所述校验错误信息对应的数据项标准列定位到的数据记录存放至错误库。
进一步的,还包括:
显示模块,用于显示错误库中的数据记录。
进一步的,还包括:
第三获取模块,用于获取用户补录的数据记录;所述补录的数据记录与所述错误库中的数据记录相对应;
标记模块,用于将所述补录的数据记录写入全量数据,对更新的数据记录做标记;
第二生成模块,用于通过所述校验参数表和已标记的数据记录组合校验逻辑,生成第二校验规则集;
第二校验模块,用于以所述第二校验规则集对已标记的数据记录进行校验,得到第二结果集;
更新模块,用于删除所述错误库中的数据,将所述第二结果集内的校验错误信息对应的数据记录存放至错误库。
经由上述的技术方案可知,与现有技术相比,本发明提供了一种基于校验的数据质量控制方法和装置。本发明提供的技术方案,首先获取全量数据,其中,所述全量数据包括数据记录,然后读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集,以所述第一校验规则集一次性对所有全量数据进行校验,得到第一结果集,仅一次IO操作,相对于现有技术中逐条校验的方式,能够大幅度降低IO开销,有效提高效率,同时,相对于人工校验的方式,也能够有效提高效率,然后将所述第一结果集内的校验错误信息对应的数据记录存放至错误库,获取过滤操作指令,响应所述过滤操作指令,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于确定性校验的数据记录,生成确定性错误库,最后以所述确定性错误库筛选所述全量数据,将经过所述筛选的全量数据作为报送库的数据,能够过滤错误库中确定性错误的数据记录,此外,一方面,由于本发明提供的技术方案执行自动校验而并非主要依靠人工校验,能够避免主要依靠人工校验容易出错的问题,另一方面,本发明提供的技术方案相对于现有技术,不需要开发人员进行大量的重复劳动,能够降低误码率,从而能够提高数据校验的准确性,因此,本发明提供的技术方案能够有效提高数据校验的准确率,从而能够有效对数据质量进行控制。即本发明提供的技术方案,能够有效解决现有技术中存在的效率低和数据校验的准确率低,从而无法有效对数据质量进行控制的问题,能够很好的适用于时效性要求高、数据量大以及校验规则复杂的***。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于校验的数据质量控制方法的流程图;
图2为本发明实施例提供的另外一种基于校验的数据质量控制方法的流程图;
图3为本发明实施例提供的一种基于校验的数据质量控制装置的结构图;
图4为本发明实施例提供的另外一种基于校验的数据质量控制装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例
请参阅图1,图1为本发明实施例提供的一种基于校验的数据质量控制方法的流程图。如图1所示,该方法包括:
步骤S101,获取全量数据;
可选的,获取由批量程序自动提起或由维护人员发起,传入到校验数据准备区的最新的全量数据。其中,所述全量数据用于提供待报送数据,包括多个数据表,数据表中包括数据记录。
可选的,所述全量数据包括数据项标准列(DATA_ID)和数据项其余信息。数据项标准列包含一系列字段,用于定位不同数据表中具体数据记录的条目;数据项其余信息包含具体的数据记录详情。
步骤S102,读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集;
可选的,所述校验参数表用于存放校验规则信息及相关配置,包括:
校验标识号(CHK_ID),用于定位每条校验规则的标识号;
校验信息描述,用于明确描述具体的校验规则;
校验目标表,用于明确当前校验规则的适用表;
校验目标字段,用于明确当前校验规则适用的表内字段;
校验语句配置,用于将校验信息描述翻译成代码,以便执行校验程序时调用;
校验类型,用于设置校验的严重级别,包括“确定性错误”和“提示性错误”;
校验开关,用于控制每条校验规则是否生效;这个字段与“校验类型”共同实现了维护人员对校验规则的灵活配置。
可选的,所述步骤S102包括:
读取所述全量数据对应的位于校验参数表中的校验标识号、校验信息描述、校验目标表、校验目标字段、校验语句配置和校验开关,通过组合校验逻辑生成第一校验规则集。
步骤S103,以所述第一校验规则集对所述全量数据进行校验,得到第一结果集;
可选的,所述步骤S103包括:
以所述第一校验规则集对所述全量数据进行校验,得到包括数据项标准列、校验标识号和校验状态的第一结果集;所述校验状态包括校验正确信息和校验错误信息。
具体的,为了更清楚的阐述所述步骤S102和所述步骤S103,下面举例说明:
例如,数据表A中有两个字段a和b需要进行校验(即存在校验规则),校验规则的说明见表1:
表1
Figure BDA0001459536270000071
将校验规则配入校验参数表后,以校验参数表为单位提取校验规则集,那么数据表A的规则集就是两条规则,见表2:
表2
Figure BDA0001459536270000072
提取了校验参数表的校验规则集后,将根据校验规则集结合全量数据中的内容生成结果集。
基于***高效性的考虑,设计为一张校验参数表,即仅需要一次IO操作。因此,在生成语句时将配置参数通过unpivot函数作行列互转,将校验对象相同的校验规则集放到一条DML(data manipulation language,数据操纵语言)语句中对源表进行数值提取,实现一次性统一对该表的全部规则进行处理,即实现每张物理表仅一次IO操作,从而有效减少大数据量表的IO开销,有效提高***运行效率。
首先对校验规则集进行拉平,关联到全量数据中,假定数据表A中有两条记录,假定字段a与字段b的情况如表3所示:
表3
数据项标准列 字段a 字段b
记录1 1 1
记录2 2 22
可见,记录1符合校验规则1,但不符合校验规则2;记录2两条校验规则均符合。将其校验规则集拉平后形式如表4:
表4
数据项标准列 RULE-01 RULE-02
记录1 正确 错误
记录2 正确 正确
因为将校验规则集以字段的形式排列在全量数据的数据记录之后,在这个过程中对全量数据仅需一次读取即可完成,有效提高了运行效率。随后将拉平的数据记录以校验标识号为维度进行转置,就形成了结果集,结果集会以“数据项标准列”“校验标识号”“校验状态”三个抽象维度的形式展示。取记录1和记录2,示例如表5:
表5
数据项标准列 校验标识号 校验状态
记录1 RULE-01 正确
记录1 RULE-02 错误
记录2 RULE-01 正确
记录2 RULE-02 正确
结果集能够直观地体现出表中每条数据记录对应每条校验的结果正确与否。
步骤S104,将所述第一结果集内的校验错误信息对应的数据记录存放至错误库;
可选的,所述步骤S104包括:
将与所述校验错误信息分别相对应的数据项标准列和校验标志号,以及所述校验错误信息对应的数据项标准列定位到的数据记录存放至错误库。
具体的,仍沿用上述示例,则将其中校验状态为错误的数据记录提取出来,就形成了错误库。上述例子中最终的错误库只保存一条[记录1-校验规则2]的数据记录。
步骤S105,获取过滤操作指令;
具体的,获取维护人员输入的过滤操作指令。
步骤S106,响应所述过滤操作指令,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于确定性校验的数据记录,生成确定性错误库;
具体的,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于“确定性错误”的数据记录,抽取对应于“确定性错误”的数据记录,生成确定性错误库。
步骤S107,以所述确定性错误库筛选所述全量数据,将经过所述筛选的全量数据作为报送库的数据;
具体的,因校验规则的严重性通常有所不同,分为严重性较高的“确定性校验”和严重性较低、仅需做出提示的“提示性校验”,即出现确定性校验类错误的数据记录不能报送,仅出现提示性校验类错误的数据记录可以报送。因此在筛选过程中,***会将校验参数表结合错误库,若任一数据记录存在一条或一条以上的确定性校验错误则需要被过滤,若数据记录正确或仅存在提示性校验错误则通过过滤,将通过过滤的数据记录放置在报送库中以备随时报送,达到数据过滤的目标。
本发明实施例提供的技术方案,首先获取全量数据,其中,所述全量数据包括数据记录,然后读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集,以所述第一校验规则集一次性对所有全量数据进行校验,得到第一结果集,仅一次IO操作,相对于现有技术中逐条校验的方式,能够大幅度降低IO开销,有效提高效率,同时,相对于人工校验的方式,也能够有效提高效率,然后将所述第一结果集内的校验错误信息对应的数据记录存放至错误库,获取过滤操作指令,响应所述过滤操作指令,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于确定性校验的数据记录,生成确定性错误库,最后以所述确定性错误库筛选所述全量数据,将经过所述筛选的全量数据作为报送库的数据,能够过滤错误库中确定性错误的数据记录,此外,一方面,由于本发明实施例提供的技术方案执行自动校验而并非主要依靠人工校验,能够避免主要依靠人工校验容易出错的问题,另一方面,本发明实施例提供的技术方案相对于现有技术,不需要开发人员进行大量的重复劳动,能够降低误码率,从而能够提高数据校验的准确性,因此,本发明实施例提供的技术方案能够有效提高数据校验的准确率,从而能够有效对数据质量进行控制。即本发明实施例提供的技术方案,能够有效解决现有技术中存在的效率低和数据校验的准确率低,从而无法有效对数据质量进行控制的问题,能够很好的适用于时效性要求高、数据量大以及校验规则复杂的***。
此外,本发明实施例提供的技术方案,在生成校验规则集,匹配校验对象和实施校验的过程中,抽取、匹配等操作均采用参数配置的方式。一方面,通过校验参数表的形式配置校验规则可以在校验规则变更时,及时方便地做出简便的更新,能够有效节省后续开发成本;另一方面,也能实现维护人员很方便地对校验规则进行自主控制,从而契合实际业务开展情况做出调整,满足一些个性化需求。
可选的,本发明另外一个实施例提供的基于校验的数据质量控制方法,所述步骤S105之前,还包括:
显示错误库中的数据记录。
具体的,将错误库中的数据记录显示给维护人员,能够方便维护人员查看错误库中的数据记录,从而决定是否发起过滤操作,即决定是否输入过滤操作指令。
可选的,如果维护人员判定错误库中的数据记录较多,暂时还不能发起过滤操作时,需要对应于错误库中的数据记录,在全量数据中的对应位置补录新的数据记录,并对其重新进行校验,本发明实施例将其定义为增量校验。而定义所述步骤S101~步骤S104为基础校验。
请参阅图2,图2为本发明实施例提供的另外一种基于校验的数据质量控制方法的流程图。本发明实施例提供的另外一种基于校验的数据质量控制方法包含增量校验,如图2所示,该方法包括:
步骤S201,获取全量数据;
可选的,获取由批量程序自动提起或由维护人员发起,传入到校验数据准备区的最新的全量数据。其中,所述全量数据用于提供待报送数据,包括多个数据表,数据表中包括数据记录。
可选的,所述全量数据包括数据项标准列(DATA_ID)和数据项其余信息。数据项标准列包含一系列字段,用于定位不同数据表中具体数据记录的条目;数据项其余信息包含具体的数据记录详情。
步骤S202,读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集;
可选的,所述校验参数表用于存放校验规则信息及相关配置,包括:
校验标识号(CHK_ID),用于定位每条校验规则的标识号;
校验信息描述,用于明确描述具体的校验规则;
校验目标表,用于明确当前校验规则的适用表;
校验目标字段,用于明确当前校验规则适用的表内字段;
校验语句配置,用于将校验信息描述翻译成代码,以便执行校验程序时调用;
校验类型,用于设置校验的严重级别,包括“确定性错误”和“提示性错误”;
校验开关,用于控制每条校验规则是否生效;这个字段与“校验类型”共同实现了维护人员对校验规则的灵活配置。
可选的,所述步骤S202包括:
读取所述全量数据对应的位于校验参数表中的校验标识号、校验信息描述、校验目标表、校验目标字段、校验语句配置和校验开关,通过组合校验逻辑生成第一校验规则集。
步骤S203,以所述第一校验规则集对所述全量数据进行校验,得到第一结果集;
可选的,所述步骤S203包括:
以所述第一校验规则集对所述全量数据进行校验,得到包括数据项标准列、校验标识号和校验状态的第一结果集;所述校验状态包括校验正确信息和校验错误信息。
步骤S204,将所述第一结果集内的校验错误信息对应的数据记录存放至错误库;
可选的,所述步骤S204包括:
将与所述校验错误信息分别相对应的数据项标准列和校验标志号,以及所述校验错误信息对应的数据项标准列定位到的数据记录存放至错误库。
步骤S205,显示错误库中的数据记录;
步骤S206,获取用户补录的数据记录;
具体的,所述补录的数据记录与所述错误库中的数据记录相对应。比如,错误库中的数据记录为A表中的记录1,那么获取用户补录的A表中的记录1。
步骤S207,将所述补录的数据记录写入全量数据,对更新的数据记录做标记;
具体的,将所述补录的数据记录写入全量数据,作为更新后的全量数据。对更新的数据记录做标记,能够方便通过标记快速定位更新的数据记录。
步骤S208,通过所述校验参数表和已标记的数据记录组合校验逻辑,生成第二校验规则集;
步骤S209,以所述第二校验规则集对已标记的数据记录进行校验,得到第二结果集;
步骤S210,删除所述错误库中的数据,将所述第二结果集内的校验错误信息对应的数据记录存放至错误库;
需要说明的是,所述步骤S208~步骤S210的具体实现方法与所述步骤S102~步骤S104的具体实现方法相同,区别在于:一方面所述步骤S208~步骤S210中,需要以已标记的数据记录替代全量数据进行后续校验,校验工作量要小很多,效率较高;另一方面,需要删除原错误库中的数据,将所述第二结果集内的校验错误信息对应的数据记录存放至错误库。至于所述步骤S208~步骤S210的其他具体实现部分,可参照所述步骤S102~步骤S104的具体实现部分,本实施例不再赘述。
步骤S211,获取过滤操作指令;
具体的,获取维护人员输入的过滤操作指令。
步骤S212,响应所述过滤操作指令,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于确定性校验的数据记录,生成确定性错误库;
具体的,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于“确定性错误”的数据记录,抽取对应于“确定性错误”的数据记录,生成确定性错误库。
步骤S213,以所述确定性错误库筛选所述全量数据,将经过所述筛选的全量数据作为报送库的数据;
具体的,因校验规则的严重性通常有所不同,分为严重性较高的“确定性校验”和严重性较低、仅需做出提示的“提示性校验”,即出现确定性校验类错误的数据记录不能报送,仅出现提示性校验类错误的数据记录可以报送。因此在筛选过程中,***会将校验参数表结合错误库,若任一数据记录存在一条或一条以上的确定性校验错误则需要被过滤,若数据记录正确或仅存在提示性校验错误则通过过滤,将通过过滤的数据记录放置在报送库中以备随时报送,达到数据过滤的目标。
本发明实施例提供的技术方案,添加了增量校验的方式,方便维护人员补录校验状态为错误的数据记录,而标记补录的数据记录,在后续校验时仅校验标记过的数据记录,不必对全量数据重新进行校验,校验的数据量较小,从而运行效率较高。
为了更加全面地阐述本发明提供的技术方案,对应于本发明实施例提供的基于校验的数据质量控制方法,本发明公开一种基于校验的数据质量控制装置。
请参阅图3,图3为本发明实施例提供的一种基于校验的数据质量控制装置的结构图。如图3所示,该装置包括:
第一获取模块301,用于获取全量数据,所述全量数据包括数据记录;
读取模块302,用于读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集;
可选的,所述读取模块302具体用于:
读取所述全量数据对应的位于校验参数表中的校验标识号、校验信息描述、校验目标表、校验目标字段、校验语句配置和校验开关,通过组合校验逻辑生成第一校验规则集。
第一校验模块303,用于以所述第一校验规则集对所述全量数据进行校验,得到第一结果集;
可选的,所述全量数据包括数据项标准列,所述第一校验模块303具体用于:
以所述第一校验规则集对所述全量数据进行校验,得到包括数据项标准列、校验标识号和校验状态的第一结果集;所述校验状态包括校验正确信息和校验错误信息。
存放模块304,用于将所述第一结果集内的校验错误信息对应的数据记录存放至错误库;
可选的,所述存放模块304具体用于:
将与所述校验错误信息分别相对应的数据项标准列和校验标志号,以及所述校验错误信息对应的数据项标准列定位到的数据记录存放至错误库。
第二获取模块305,用于获取过滤操作指令;
第一生成模块306,用于响应所述过滤操作指令,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于确定性校验的数据记录,生成确定性错误库;
过滤模块307,用于以所述确定性错误库筛选所述全量数据,将经过所述筛选的全量数据作为报送库的数据。
应用本发明实施例提供的基于校验的数据质量控制装置,能够有效提高数据校验的准确率,从而能够有效对数据质量进行控制。即本发明实施例提供的基于校验的数据质量控制装置,能够有效解决现有技术中存在的效率低和数据校验的准确率低,从而无法有效对数据质量进行控制的问题,能够很好的适用于时效性要求高、数据量大以及校验规则复杂的***。
此外,本发明实施例提供的基于校验的数据质量控制装置,在生成校验规则集,匹配校验对象和实施校验的过程中,抽取、匹配等操作均采用参数配置的方式。一方面,通过校验参数表的形式配置校验规则可以在校验规则变更时,及时方便地做出简便的更新,能够有效节省后续开发成本;另一方面,也能实现维护人员很方便地对校验规则进行自主控制,从而契合实际业务开展情况做出调整,满足一些个性化需求。
可选的,本发明另外一个实施例提供的基于校验的数据质量控制装置,还包括:
显示模块,用于显示错误库中的数据记录。
可选的,如果维护人员判定错误库中的数据记录较多,暂时还不能发起过滤操作时,需要对应于错误库中的数据记录,在全量数据中的对应位置补录新的数据记录,并对其重新进行校验,本发明实施例将其定义为增量校验。而定义所述第一获取模块、读取模块、第一校验模块和存放模块的部分为基础校验。
请参阅图4,图4为本发明实施例提供的另外一种基于校验的数据质量控制装置的流程图。本发明实施例提供的另外一种基于校验的数据质量控制装置包含增量校验,如图4所示,该装置包括:
第一获取模块401,用于获取全量数据,所述全量数据包括数据记录;
读取模块402,用于读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集;
第一校验模块403,用于以所述第一校验规则集对所述全量数据进行校验,得到第一结果集;
存放模块404,用于将所述第一结果集内的校验错误信息对应的数据记录存放至错误库;
显示模块405,用于显示错误库中的数据记录;
第三获取模块406,用于获取用户补录的数据记录;所述补录的数据记录与所述错误库中的数据记录相对应;
标记模块407,用于将所述补录的数据记录写入全量数据,对更新的数据记录做标记;
第二生成模块408,用于通过所述校验参数表和已标记的数据记录组合校验逻辑,生成第二校验规则集;
第二校验模块409,用于以所述第二校验规则集对已标记的数据记录进行校验,得到第二结果集;
更新模块410,用于删除所述错误库中的数据,将所述第二结果集内的校验错误信息对应的数据记录存放至错误库;
第二获取模块411,用于获取过滤操作指令;
第一生成模块412,用于响应所述过滤操作指令,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于确定性校验的数据记录,生成确定性错误库;
过滤模块413,用于以所述确定性错误库筛选所述全量数据,将经过所述筛选的全量数据作为报送库的数据。
本发明实施例提供的基于校验的数据质量控制装置,添加了增量校验的方式,方便维护人员补录校验状态为错误的数据记录,而标记补录的数据记录,在后续校验时仅校验标记过的数据记录,不必对全量数据重新进行校验,校验的数据量较小,从而运行效率较高。
经由上述的技术方案可知,与现有技术相比,本发明提供了一种基于校验的数据质量控制方法和装置。本发明提供的技术方案,首先获取全量数据,其中,所述全量数据包括数据记录,然后读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集,以所述第一校验规则集一次性对所有全量数据进行校验,得到第一结果集,仅一次IO操作,相对于现有技术中逐条校验的方式,能够大幅度降低IO开销,有效提高效率,同时,相对于人工校验的方式,也能够有效提高效率,然后将所述第一结果集内的校验错误信息对应的数据记录存放至错误库,获取过滤操作指令,响应所述过滤操作指令,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于确定性校验的数据记录,生成确定性错误库,最后以所述确定性错误库筛选所述全量数据,将经过所述筛选的全量数据作为报送库的数据,能够过滤错误库中确定性错误的数据记录,此外,一方面,由于本发明提供的技术方案执行自动校验而并非主要依靠人工校验,能够避免主要依靠人工校验容易出错的问题,另一方面,本发明提供的技术方案相对于现有技术,不需要开发人员进行大量的重复劳动,能够降低误码率,从而能够提高数据校验的准确性,因此,本发明提供的技术方案能够有效提高数据校验的准确率,从而能够有效对数据质量进行控制。即本发明提供的技术方案,能够有效解决现有技术中存在的效率低和数据校验的准确率低,从而无法有效对数据质量进行控制的问题,能够很好的适用于时效性要求高、数据量大以及校验规则复杂的***。
此外,本发明实施例提供的技术方案,在生成校验规则集,匹配校验对象和实施校验的过程中,抽取、匹配等操作均采用参数配置的方式。一方面,通过校验参数表的形式配置校验规则可以在校验规则变更时,及时方便地做出简便的更新,能够有效节省后续开发成本;另一方面,也能实现维护人员很方便地对校验规则进行自主控制,从而契合实际业务开展情况做出调整,满足一些个性化需求。
此外,本发明实施例提供的另外一种技术方案,还添加了增量校验的方式,方便维护人员补录校验状态为错误的数据记录,而标记补录的数据记录,在后续校验时仅校验标记过的数据记录,不必对全量数据重新进行校验,校验的数据量较小,从而运行效率较高。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于校验的数据质量控制方法,其特征在于,包括:
获取全量数据,所述全量数据包括数据记录;
读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集;
以所述第一校验规则集对所述全量数据进行校验,得到第一结果集;
将所述第一结果集内的校验错误信息对应的数据记录存放至错误库;
获取过滤操作指令;
响应所述过滤操作指令,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于确定性校验的数据记录,生成确定性错误库;
以所述确定性错误库筛选所述全量数据,将经过所述筛选的全量数据作为报送库的数据;
其中,读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集,包括:
读取所述全量数据对应的位于校验参数表中的校验标识号、校验信息描述、校验目标表、校验目标字段、校验语句配置和校验开关,通过组合校验逻辑生成第一校验规则集;
所述校验参数表中的校验标识号,用于定位每条校验规则的标识号;
所述校验参数表中的校验信息描述,用于明确描述具体的校验规则;
所述校验参数表中的校验目标表,用于明确当前校验规则的适用表;
所述校验参数表中的校验目标字段,用于明确当前校验规则适用的表内字段;
所述校验参数表中的校验语句配置,用于将校验信息描述翻译成代码,以便执行校验程序时调用;
所述校验参数表中的校验开关,用于控制每条校验规则是否生效。
2.根据权利要求1所述的方法,其特征在于,所述全量数据包括数据项标准列,所述以所述第一校验规则集对所述全量数据进行校验,得到第一结果集,包括:
以所述第一校验规则集对所述全量数据进行校验,得到包括数据项标准列、校验标识号和校验状态的第一结果集;所述校验状态包括校验正确信息和校验错误信息。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一结果集内的校验错误信息对应的数据记录存放至错误库,包括:
将与所述校验错误信息分别相对应的数据项标准列和校验标识号,以及所述校验错误信息对应的数据项标准列定位到的数据记录存放至错误库。
4.根据权利要求1~3任一项所述的方法,其特征在于,所述获取过滤操作指令之前,还包括:
显示错误库中的数据记录。
5.根据权利要求4所述的方法,其特征在于,所述显示错误库中的数据记录之后、所述获取过滤操作指令之前,还包括:
获取用户补录的数据记录;所述补录的数据记录与所述错误库中的数据记录相对应;
将所述补录的数据记录写入全量数据,对更新的数据记录做标记;
通过所述校验参数表和已标记的数据记录组合校验逻辑,生成第二校验规则集;
以所述第二校验规则集对已标记的数据记录进行校验,得到第二结果集;
删除所述错误库中的数据记录,将所述第二结果集内的校验错误信息对应的数据记录存放至错误库。
6.一种基于校验的数据质量控制装置,其特征在于,包括:
第一获取模块,用于获取全量数据,所述全量数据包括数据记录;
读取模块,用于读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集;
第一校验模块,用于以所述第一校验规则集对所述全量数据进行校验,得到第一结果集;
存放模块,用于将所述第一结果集内的校验错误信息对应的数据记录存放至错误库;
第二获取模块,用于获取过滤操作指令;
第一生成模块,用于响应所述过滤操作指令,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于确定性校验的数据记录,生成确定性错误库;
过滤模块,用于以所述确定性错误库筛选所述全量数据,将经过所述筛选的全量数据作为报送库的数据;
其中,所述读取模块具体用于:
读取所述全量数据对应的位于校验参数表中的校验标识号、校验信息描述、校验目标表、校验目标字段、校验语句配置和校验开关,通过组合校验逻辑生成第一校验规则集;
所述校验参数表中的校验标识号,用于定位每条校验规则的标识号;
所述校验参数表中的校验信息描述,用于明确描述具体的校验规则;
所述校验参数表中的校验目标表,用于明确当前校验规则的适用表;
所述校验参数表中的校验目标字段,用于明确当前校验规则适用的表内字段;
所述校验参数表中的校验语句配置,用于将校验信息描述翻译成代码,以便执行校验程序时调用;
所述校验参数表中的校验开关,用于控制每条校验规则是否生效。
7.根据权利要求6所述的装置,其特征在于,所述全量数据包括数据项标准列,所述第一校验模块具体用于:
以所述第一校验规则集对所述全量数据进行校验,得到包括数据项标准列、校验标识号和校验状态的第一结果集;所述校验状态包括校验正确信息和校验错误信息。
8.根据权利要求7所述的装置,其特征在于,所述存放模块具体用于:
将与所述校验错误信息分别相对应的数据项标准列和校验标识号,以及所述校验错误信息对应的数据项标准列定位到的数据记录存放至错误库。
9.根据权利要求6~8任一项所述的装置,其特征在于,还包括:
显示模块,用于显示错误库中的数据记录。
10.根据权利要求9所述的装置,其特征在于,还包括:
第三获取模块,用于获取用户补录的数据记录;所述补录的数据记录与所述错误库中的数据记录相对应;
标记模块,用于将所述补录的数据记录写入全量数据,对更新的数据记录做标记;
第二生成模块,用于通过所述校验参数表和已标记的数据记录组合校验逻辑,生成第二校验规则集;
第二校验模块,用于以所述第二校验规则集对已标记的数据记录进行校验,得到第二结果集;
更新模块,用于删除所述错误库中的数据记录,将所述第二结果集内的校验错误信息对应的数据记录存放至错误库。
CN201711083526.0A 2017-11-07 2017-11-07 基于校验的数据质量控制方法和装置 Active CN107870827B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711083526.0A CN107870827B (zh) 2017-11-07 2017-11-07 基于校验的数据质量控制方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711083526.0A CN107870827B (zh) 2017-11-07 2017-11-07 基于校验的数据质量控制方法和装置

Publications (2)

Publication Number Publication Date
CN107870827A CN107870827A (zh) 2018-04-03
CN107870827B true CN107870827B (zh) 2021-01-08

Family

ID=61753667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711083526.0A Active CN107870827B (zh) 2017-11-07 2017-11-07 基于校验的数据质量控制方法和装置

Country Status (1)

Country Link
CN (1) CN107870827B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694522B (zh) * 2018-07-06 2023-05-09 中国银行股份有限公司 一种数据分析方法及装置
CN109359277B (zh) * 2018-10-22 2023-04-28 众安在线财产保险股份有限公司 数据监控方法、设备及计算机存储介质
CN110427277B (zh) * 2019-07-30 2021-09-21 腾讯科技(深圳)有限公司 数据校验方法、装置、设备及存储介质
CN112148721B (zh) * 2020-09-25 2022-08-19 新华三大数据技术有限公司 数据检核方法、装置、电子设备及存储介质
CN112948429B (zh) * 2021-02-02 2024-04-26 中国工商银行股份有限公司 一种数据报送方法、装置和设备
CN113076285A (zh) * 2021-03-05 2021-07-06 上海明略人工智能(集团)有限公司 用于上传数据文件的处理方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183609A (zh) * 2015-09-16 2015-12-23 焦点科技股份有限公司 一种应用于软件***的实时监控***及方法
CN105740121A (zh) * 2016-01-26 2016-07-06 中国银行股份有限公司 一种日志文本监控与预警方法、装置
CN106254045A (zh) * 2016-08-09 2016-12-21 中国银行股份有限公司 一种数据校验方法及装置
CN106407028A (zh) * 2016-08-26 2017-02-15 佛山智能装备技术研究院 一种双缓冲式的机器人软件日志存储方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183609A (zh) * 2015-09-16 2015-12-23 焦点科技股份有限公司 一种应用于软件***的实时监控***及方法
CN105740121A (zh) * 2016-01-26 2016-07-06 中国银行股份有限公司 一种日志文本监控与预警方法、装置
CN106254045A (zh) * 2016-08-09 2016-12-21 中国银行股份有限公司 一种数据校验方法及装置
CN106407028A (zh) * 2016-08-26 2017-02-15 佛山智能装备技术研究院 一种双缓冲式的机器人软件日志存储方法

Also Published As

Publication number Publication date
CN107870827A (zh) 2018-04-03

Similar Documents

Publication Publication Date Title
CN107870827B (zh) 基于校验的数据质量控制方法和装置
CN110955661B (zh) 数据融合方法、装置、可读存储介质及电子设备
CN107239392B (zh) 一种测试方法、装置、终端及存储介质
CA2907208C (en) System and method for developing business rules for decision engines
CN109710237A (zh) 一种基于自定义二维报表的在线修改校验方法及设备
CN108491326B (zh) 测试行为重组方法、装置及存储介质
CN115167891B (zh) 接口控制文件的数据更新方法、装置、设备及存储介质
US8108823B2 (en) User selected grid for logically representing an electronic circuit
CN117851484A (zh) 基于规则引擎的数据处理方法、装置、计算机设备
CN110795129B (zh) 一种数据刷写方法、装置和设备
CN112685277B (zh) 警告信息检查方法、装置、电子设备和可读存储介质
CN115203300A (zh) 一种数据验证方法及装置
CN115168217A (zh) 源代码文件的缺陷发现方法及装置
CN110334055B (zh) 一种获取材料计算数据的方法
CN109639520B (zh) 一种反应堆保护***网络通信的计算机辅助测试方法
CN116822486B (zh) 一种Revit建模考试的作弊行为检测方法、存储介质及设备
CN112416983B (zh) 一种数据处理方法及装置、计算机可读存储介质
CN117826663A (zh) 一种工程调试的方法及***
JP2023151987A (ja) 項目名チェック装置、項目名チェック方法、及びプログラム
KR20240047548A (ko) 사용자 범용성 확대를 위한 인공지능 학습용 데이터 구문정확성 검증 시스템 및 그 방법
CN115291932A (zh) 相似度阈值的获取方法、数据处理方法及产品
JP2006146470A (ja) データベース更新方法、データベース更新プログラム及びプログラム記録媒体
CN117331812A (zh) 业务代码验证方法、装置、计算机设备、存储介质和产品
CN117743443A (zh) 数据采集方法、装置、电子设备及存储介质
CN114528348A (zh) 一种基于配置文件的数据库表结构同步方法、装置和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant