CN112182507A - 数据质量的度量方法、装置及设备 - Google Patents

数据质量的度量方法、装置及设备 Download PDF

Info

Publication number
CN112182507A
CN112182507A CN202010974674.7A CN202010974674A CN112182507A CN 112182507 A CN112182507 A CN 112182507A CN 202010974674 A CN202010974674 A CN 202010974674A CN 112182507 A CN112182507 A CN 112182507A
Authority
CN
China
Prior art keywords
data
measured
file
rule
rule set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010974674.7A
Other languages
English (en)
Other versions
CN112182507B (zh
Inventor
尚娇娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010974674.7A priority Critical patent/CN112182507B/zh
Publication of CN112182507A publication Critical patent/CN112182507A/zh
Application granted granted Critical
Publication of CN112182507B publication Critical patent/CN112182507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Finance (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Stored Programmes (AREA)
  • General Factory Administration (AREA)

Abstract

本说明书实施例提供了一种数据质量的度量方法、装置及设备,其中方法包括:获取基于预设的数据规则集合所创建的待度量的数据文件;其中,数据文件中包括至少一个待度量数据;确定待度量数据符合的数据规则集合中的数据规则;根据待度量数据符合的数据规则的第一数量和数据规则集合包括的数据规则的第二数量,对待度量数据的数据质量进行度量处理。

Description

数据质量的度量方法、装置及设备
技术领域
本文件涉及数据处理技术领域,尤其涉及一种数据质量的度量方法、装置及设备。
背景技术
表格是在各业务中对业务数据进行统计常用的工具,也是在业务监管过程中提供给监管方供监管使用的文件之一。通常的,由于用户的个人习惯不同、以及相关企业对数据的定义方式不同,因此即使是相同的业务,不同的用户或不同的企业所制作的表格也往往不同。而面对各式各样的自定义形式的表格,监管方则需要花费更多的时间和精力去分析每个表格,监管效率低。
发明内容
本说明书一个或多个实施例的目的是提供一种数据质量的度量方法、装置及设备,以在规范数据文件的创建的基础上,对数据的数据质量进行度量,从而提升数据质量,使数据更好的满足于监管需求,提升监管效率。
为解决上述技术问题,本说明书一个或多个实施例是这样实现的:
本说明书一个或多个实施例提供了一种数据质量的度量方法。该方法包括获取待度量的数据文件。其中,所述数据文件基于预设的数据规则集合所创建。所述数据文件中包括至少一个待度量数据。所述数据规则集合为针对数据文件的创建以及进行数据质量的度量处理所设置。确定所述待度量数据符合的所述数据规则集合中的数据规则。根据所述待度量数据符合的所述数据规则的第一数量和所述数据规则集合包括的数据规则的第二数量,对所述待度量数据的数据质量进行度量处理。
本说明书一个或多个实施例提供了一种数据质量的度量装置。该装置包括获取模块,获取待度量的数据文件。其中,所述数据文件基于预设的数据规则集合所创建,所述数据文件中包括至少一个待度量数据。所述数据规则集合为针对数据文件的创建以及进行数据质量的度量处理所设置。该装置还包括确定模块,确定所述待度量数据符合的所述数据规则集合中的数据规则。该装置还包括度量模块,根据所述待度量数据符合的所述数据规则的第一数量和所述数据规则集合包括的数据规则的第二数量,对所述待度量数据的数据质量进行度量处理。
本说明书一个或多个实施例提供了一种数据质量的度量设备。该设备包括处理器。该设备还包括被安排成存储计算机可执行指令的存储器。所述计算机可执行指令在被执行时使所述处理器获取待度量的数据文件。其中,所述数据文件基于预设的数据规则集合所创建。所述数据文件中包括至少一个待度量数据。所述数据规则集合为针对数据文件的创建以及进行数据质量的度量处理所设置。确定所述待度量数据符合的所述数据规则集合中的数据规则。根据所述待度量数据符合的所述数据规则的第一数量和所述数据规则集合包括的数据规则的第二数量,对所述待度量数据的数据质量进行度量处理。
本说明书一个或多个实施例提供了一种存储介质。该存储介质用于存储计算机可执行指令。所述计算机可执行指令在被处理器执行时获取待度量的数据文件。其中,所述数据文件基于预设的数据规则集合所创建。所述数据文件中包括至少一个待度量数据。所述数据规则集合为针对数据文件的创建以及进行数据质量的度量处理所设置。确定所述待度量数据符合的所述数据规则集合中的数据规则。根据所述待度量数据符合的所述数据规则的第一数量和所述数据规则集合包括的数据规则的第二数量,对所述待度量数据的数据质量进行度量处理。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例提供的一种数据质量的度量方法的场景示意图;
图2为本说明书一个或多个实施例提供的一种数据质量的度量方法的第一种流程示意图;
图3为本说明书一个或多个实施例提供的一种数据质量的度量方法的第二种流程示意图;
图4为本说明书一个或多个实施例提供的一种数据质量的度量方法的第三种流程示意图;
图5为本说明书一个或多个实施例提供的一种数据质量的度量方法的第四种流程示意图;
图6为本说明书一个或多个实施例提供的一种数据质量的度量方法的第五种流程示意图;
图7为本说明书一个或多个实施例提供的一种数据质量的度量方法的第六种流程示意图;
图8为本说明书一个或多个实施例提供的一种数据质量的度量方法的第七种流程示意图;
图9为本说明书一个或多个实施例提供的一种数据质量的度量方法的第八种流程示意图;
图10为本说明书一个或多个实施例提供的一种数据质量的度量装置的模块组成示意图;
图11为本说明书一个或多个实施例提供的一种数据质量的度量设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都应当属于本文件的保护范围。
图1为本说明书一个或多个实施例提供的一种数据质量的度量方法的应用场景示意图,如图1所示,数据质量的度量装置(以下简称为度量装置)在获取到基于预设的数据规则集合所创建的待度量的数据文件时,从待度量的数据文件中获取至少一个待度量数据,确定待度量数据符合的数据规则集合中的数据规则;根据待度量数据符合的数据规则的第一数量和数据规则集合包括的数据规则的第二数量,对待度量数据的数据质量进行度量处理。其中,度量装置可以为终端设备,如手机、平板电脑、台式计算机、便携笔记本式计算机等;度量装置还可以为服务端,如独立的服务器、由多个服务器组成的服务器集群等;数据质量的度量装置还可以嵌入的方式设置于某个***或平台中等(图1中以独立的服务器为例)。由此,通过预先设置数据规则集合,使得各数据文件在创建过程中能够有统一的规则标准可遵循,因此避免了在监管过程中因面对各式各样的自定义形式的文件而降低监管效率的问题;同时,基于设置的数据规则集合对数据文件包括的数据的数据质量进行度量处理,能够鞭策用户遵循数据规则,从而提升数据质量,使数据文件中的数据能够更好的满足监管需求,进而提升基于该数据文件的监管效率。
基于上述应用场景架构,本说明书一个或多个实施例提供了一种数据质量的度量方法。图2为本说明书一个或多个实施例提供的一种数据质量的度量方法的流程示意图,图2中的方法能够由图1中的度量装置执行,如图2所示,该方法包括以下步骤:
步骤S102,获取待度量的数据文件;其中,数据文件基于预设的数据规则集合所创建,数据文件中包括至少一个待度量数据;数据规则集合为针对数据文件的创建以及进行数据质量的度量处理所设置;
为了规范数据文件的创建以及对数据文件中的数据的数据质量进行度量,本说明书一个或多个实施例中,预先设置数据规则集合,以使各用户基于该数据规则集合创建数据文件,同时度量装置基于该数据规则集合对数据文件中的数据的数据质量进行度量处理。由于数据规则集合中通常包括至少一个数据规则,为了避免用户在创建数据文件时,遗漏了某些规则,用户可以在基于数据规则集合创建数据文件之后,将创建的数据文件确定为待度量的数据文件,并根据待度量的数据文件向度量装置发送度量请求;相应的,步骤S102包括:接收用户发送的度量请求,从该度量请求中获取待度量的数据文件。或者,用户可以在基于数据规则集合创建数据文件之后,将创建的数据文件保存至指定的存储区域,并将该指定存储区域的访问接口开放给数据质量的度量装置;相应的,步骤S102可以包括:每隔预设时间间隔根据预设的访问接口从相应的存储区域中获取待度量的数据文件;或者,若通过预设的访问接口监听到相应的存储区域中有数据文件的保存事件,则从该存储区域中获取该保存事件对应的待度量的数据文件。其中,数据文件可以是表格、文档等各种形式的文件,本说明书中对此不做具体限定。规则集合中的规则如非空校验、主键唯一校验、表间数据一致性校验、乱码校验、正则匹配校验等规则,具体的规则可以根据需要自行设定。
步骤S104,确定待度量数据符合的数据规则集合中的数据规则;
步骤S106,根据待度量数据符合的数据规则的第一数量和数据规则集合包括的数据规则的第二数量,对待度量数据的数据质量进行度量处理。
本说明书一个或多个实施例中,在获取到基于预设的数据规则集合所创建的待度量的数据文件时,确定该数据文件中的待度量数据所符合的数据规则集合中的数据规则;并根据待度量数据符合的数据规则的第一数量和数据规则集合包括的数据规则的第二数量,对待度量数据的数据质量进行度量处理。由此,通过设置数据规则集合,使得各数据文件在创建过程中能够有统一的规则标准可遵循,因此避免了在监管过程中因面对各式各样的自定义形式的文件而降低监管效率的问题;同时,基于设置的数据规则集合对数据文件包括的数据的数据质量进行度量处理,能够鞭策用户遵循数据规则,从而提升数据质量,使数据文件中的数据能够更好的满足监管需求,进而提升基于该数据文件的监管效率。
为了使度量装置能够有效的确定待度量数据所符合的数据规则集合中的数据规则,本说明书一个或多个实施例中,用户可以通过文件创建平台创建数据文件,该文件创建平台基于用户创建数据文件所依据的数据规则的规则信息,生成所创建的数据文件的创建信息,并将创建信息与数据文件的文件信息关联保存至指定的数据库中,该指定的数据库中包括多个数据文件的文件信息与创建信息的关联关系。相应的,如图3所示,步骤S104包括以下步骤S104-2至步骤S104-6:
步骤S104-2,获取待度量的数据文件的创建信息;
具体的,确定待度量的数据文件的文件信息,根据确定的文件信息从指定的数据库中获取关联的创建信息。更加具体的,度量装置可以设置于文件创建平台中,相应的,指定的数据库可以是文件创建平台本地的数据库,度量装置具有该数据库的访问权限,并根据确定的文件信息从该数据库中获取关联的创建信息。进一步的,度量装置还可以与文件创建平台分离而独立存在,相应的,指定的数据库可以是共享数据库,文件创建平台和度量装置均可根据该指定的数据库的地址访问该共享数据库;或者,指定的数据库可以是文件创建平台的数据库,如文件创建平台的本地数据库或云端数据库等;相应的,度量装置根据确定的文件信息向文件创建平台发送创建信息获取请求,文件创建平台根据创建信息获取请求包括的文件信息,从该指定的数据库中获取关联的创建信息并发送给度量装置;度量装置接收文件创建平台发送的创建信息。对于创建信息的获取方式,本说明书中不做具体限定,可以在实际应用中根据需要自行设定。
进一步的,对于文件信息和创建信息的具体内容也可以在实际应用中根据需要自行设定。作为示例,文件信息如文件标识、文件名称等,其中,文件标识可以位于文件名称中,还可以为位于数据文件中;创建信息如数据文件的创建时间信息、创建用户的用户信息、数据文件所依据的数据规则的规则信息等;该规则信息如数据规则的规则标识信息、数据规则的具体内容等。
步骤S104-4,从创建信息中获取属于数据规则集合的数据规则;
步骤S104-6,将获取的数据规则确定为待度量数据符合的数据规则集合中的数据规则。
作为示例,创建信息中包括规则标识信息,则从创建信息中获取规则标识,将获取的规则标识信息所对应的数据规则确定为待度量数据符合的数据规则集合中的数据规则。
由此,在创建数据文件时,基于创建所依据的数据规则的规则信息生成创建信息,能够使度量装置基于该创建信息准确的确定待度量数据所符合的数据规则,进而可基于确定的数据规则进行数据质量的度量处理。
考虑到在实际应用中,不同类型的数据文件往往对应的数据规则不同,例如用于记录交易的交易数据的数据文件和用于记录生产产品的生产数据的数据文件,由于交易的处理方式以及监管需求等与生产产品的处理方式和监管需求均不同,因此需要有不同的数据规则来规范相应数据文件的创建。基于此,本说明书一个或多个实施例中,预先根据不同类型的数据文件创建相应的数据规则集合,并建立文件类型信息与数据规则集合的关联关系。需要指出的是,文件类型的划分方式可以在实际应用中根据需要自行设定,作为一个示例,根据待度量数据所对应的业务划分;作为另一示例,在数据处理体系中通常包括多个处理层,如原始层、中间层、集市层等,可以根据数据文件所对应的处理层而划分。相应的,如图4所示,步骤S104可以包括以下步骤S104-8至步骤S104-12:
步骤S104-8,确定待度量的数据文件的文件类型信息;
可选地,数据文件的文件名称中包括表征文件类型的字段,度量装置解析待度量的数据文件的文件名称得到该字段,根据得到的字段确定待度量的数据文件的文件类型信息。或者,数据文件中包括表征文件类型的字段,度量装置从数据文件中获取该字段,并根据获取的字段确定待度量的数据文件的文件类型信息;或者,用户在向度量装置发送度量请求时,指定了待度量的数据文件的文件类型信息,度量装置从度量请求中获取待度量的数据文件的文件类型信息。
步骤S104-10,基于预设的文件类型信息与数据规则集合的关联关系,获取与待度量的数据文件的文件类型信息关联的目标数据规则集合;
具体的,将确定的文件类型信息与预设的文件类型信息与数据规则集合的关联关系中的文件类型信息匹配,并将匹配成功的文件类型信息所关联的数据规则集合确定为目标数据规则集合。
步骤S104-12,确定待度量数据符合的目标数据规则集合中的数据规则。
在一个具体的实施例中,基于预设的文件类型信息与数据规则集合的关联关系,获取到与待度量的数据文件的文件类型信息关联的目标数据规则集合之后,可以根据数据文件的文件信息获取数据文件的创建信息,从该创建信息中获取待度量数据符合的目标数据规则集合中的数据规则。
进一步的,与上述步骤S104-8和步骤S104-12对应的,如图4所示,步骤106可以包括以下步骤S106-2和步骤S106-4:
步骤S106-2,统计待度量数据符合的数据规则的第一数量、目标数据规则集合包括的数据规则的第二数量;
步骤S106-4,根据预设的度量方式,基于第一数量和第二数量对待度量数据的数据质量进行度量处理。
通过对不同类型的数据文件设置不同的数据规则集合,并在对数据质量进行度量处理时,确定相应的目标数据规则集合,不仅能够满足相应的业务需求,而且能够满足不同业务的监管需求。
为了从数字层面准确的体现待度量数据的数据质量,本说明书一个或多个实施例中,采用待度量数据对规则的覆盖程度来衡量待度量数据的数据质量,规则覆盖程度越高表征待度量数据的数据质量越高,反之规则覆盖程度越低表征待度量数据的数据质量越差。具体的,如图5所示,步骤S106-4可以包括以下步骤S106-42:
步骤S106-42,将第一数量与第二数量进行相除处理,将相除处理的处理结果信息确定为待度量数据的数据质量。
作为示例,第一数量是8,第二数量是10,可得到待度量数据的数量质量为8/10=0.8,即待度量数据对规则覆盖程度为80%。
进一步的,考虑到一些用户对于具体的数字并不敏感,本说明书一个或多个实施例中,还可以采用等级信息作为待度量数据的数据质量。具体的,如图6示步骤S106-4可以包括以下步骤S106-44:
步骤S106-44,将第一数量与第二数量进行相除处理,确定相除处理的处理结果信息在预设的多个数值区间中所属的目标数值区间,将目标数值区间所对应的等级信息确定为待度量数据的数据质量。
其中,数值区间的具体跨度可以在实际应用中根据需要自行设定。作为示例,X>0.9对应的等级信息是优、0.9≥X≥0.8对应的等级信息是良好,0.8>X>0.7对应的等级信息是中等,0.7≥X对应的等级信息是差,其中,X是相除处理的处理结果。仍以第一数量是8,第二数量是10为例进行说明,可得到待度量数据的数量质量为良好。
需要指出的是,在基于第一数量和第二数量对待度量数据的数据质量进行度量处理时,不限为上述处理方式,可以在实际应用中根据需要自行设定,这里不再一一例举。
为了使用户知晓待度量的数据文件所包括的待度量数据的数据质量,本说明书一个或多个实施例中,步骤S106之后还包括:向待度量的数据文件所对应的用户发送度量结果信息。具体的,当在步骤S102中度量装置接收用户发送的度量请求时,相应的,在度量装置得到待度量数据的数据质量后,根据待度量数据的数据质量向该用户发送度量结果信息。当在步骤S102中度量装置从指定的存储区域获取待度量的数据文件时,相应的,在度量装置得到待度量数据的数据质量后,根据待度量数据的数据质量向预设的联系方式中发送度量结果信息;其中,联系方式如手机号码、邮箱等,以使用户从信息或邮件中查阅度量结果信息。
进一步的,当待度量数据的数据质量表征待度量数据没有覆盖相应数据规则集合中的所有数据规则时,为了提升数据质量,本说明书一个或多个实施例中,如图7所示,步骤S106之后还包括:
步骤S108,若根据度量处理的度量结果信息确定符合预设的提示条件,则根据待度量数据符合的数据规则和数据规则集合,确定待度量数据不符合的数据规则;
可选地,若根据度量处理的度量结果信息确定存在未覆盖的数据规则,则确定符合预设的提示条件;或者,当步骤S106-4包括步骤S106-42时,若确定数据质量小于预设值,则确定符合预设的提示条件;或者,当步骤S106-4包括步骤S106-44时,若确定等级信息为预设的等级信息,则确定符合预设的提示条件。
步骤S110,根据待度量数据不符合的数据规则进行提示处理。
具体而言,本说明书一个或多个实施例中,可以以文件级别进行提示处理,相应的,如图8所示,步骤S108可以包括以下步骤S108-2:
步骤S108-2,若根据度量处理的度量结果信息确定符合预设的提示条件,则将数据规则集合中除待度量数据符合的数据规则以外的数据规则确定为待度量数据不符合的数据规则。
进一步的,当针对不同类型的数据文件,设置相应的数据规则集合时,若根据度量处理的度量结果信息确定符合预设的提示条件,则将目标数据规则集合中除待度量数据符合的数据规则以外的数据规则确定为待度量数据不符合的数据规则。
与步骤S108-2对应的,如图8所示,步骤S110可以包括以下步骤S110-2:
步骤S110-2,根据确定的待度量数据不符合的数据规则的规则信息生成提示信息,向相应的用户发送生成的提示信息。
其中,规则信息如规则标识信息等,提示信息中还可以包括数据文件的文件信息、度量时间等。需要指出的是,提示信息的具体内容可以在实际应用中根据需要自行设定。
作为示例,数据规则集合中包括8个规则,规则标识信息分别为001、002、003…008,待度量数据不符合的数据规则的规则标识信息为001和005,则根据规则标识信息001和005以及数据文件的文件名称生成提示信息。
进一步的,考虑到数据文件中通常包括多个待度量数量,为了使用户能够清楚的知道具体是哪个待度量数据不合符哪个数据规则,本说明书一个或多个实施例中还可以以字段级别进行提示处理,相应的,如图9所示,步骤S104可以包括以下步骤S104-14:
步骤S104-14,确定每个待度量数据符合的数据规则集合中的数据规则;
与步骤S104-14对应的,如图9所示,步骤S108包括以下步骤S108-4和步骤S108-6:
步骤S108-4,若根据度量处理的度量结果信息确定符合预设的提示条件,则根据每个待度量数据所对应的字段标识信息,从数据规则集合包括的字段标识信息与数据规则的关联关系中获取关联的目标数据规则;
步骤S108-6,根据每个待度量数据符合的数据规则和获取的目标数据规则,确定每个待度量数据不符合的数据规则。
进一步的,与步骤S104-14、步骤S108-4和步骤S108-6对应的,如图9所示,步骤S110包括以下步骤S110-4:
步骤S110-4,根据存在不符合的数据规则的待度量数据所对应的字段标识信息、该待度量数据不符合的数据规则的规则信息生成提示信息,向相应的用户发送提示信息。
作为示例,待度量的数据文件包括的待度量数据所对应的字段标识信息分别为01、02、03、04,数据规则集合中的关联关系包括字段标识信息01关联规则标识信息为001和002的数据规则,字段标识信息02关联规则标识信息为003的数据规则,字段标识信息03关联规则标识信息为001、004、005的数据规则,字段标识信息04关联规则标识信息为006和007的数据规则;且确定只有字段标识信息01对应的待度量数据不符合规则标识信息为002的数据规则,字段标识信息04对应的待度量数据不符合规则标识信息为006的数据规则,则根据字段标识信息信息01与规则标识信息002的关联关系、字段标识信息04与规则标识信息006的关联关系,生成提示信息。
进一步的,当在步骤S102中度量装置接收用户发送的度量请求时,相应的,在度量装置在生成提示信息后,向该用户发送提示信息,以使该用户知晓待度量数据不符合的数据规则。当在步骤S102中度量装置从指定的存储区域获取待度量的数据文件时,相应的,在度量装置在生成提示信息后,向预设的联系方式中发送提示信息;其中,联系方式如手机号码、邮箱等,以使用户从信息或邮件中查阅待度量数据不符合的数据规则。需要指出的是,前述度量结果信息中可以包括该提示信息,从而度量结果信息与提示信息同时发送给相应的用户;还可以将度量结果信息与提示信息分别发送给相应的用户。
通过进行提示处理,以向用户发送提示信息,能够使用户基于该提示信息对待度量的数据文件进行完善,从而提升数据文件中数据的数据质量,以更好的满足监管需求。
本说明书一个或多个实施例中,在获取到基于预设的数据规则集合所创建的待度量的数据文件时,确定该数据文件中的待度量数据所符合的数据规则集合中的数据规则;并根据待度量数据符合的数据规则的第一数量和数据规则集合包括的数据规则的第二数量,对待度量数据的数据质量进行度量处理。由此,通过设置数据规则集合,使得各数据文件在创建过程中能够有统一的规则标准可遵循,因此避免了在监管过程中因面对各式各样的自定义形式的文件而降低监管效率的问题;同时,基于设置的数据规则集合对数据文件包括的数据的数据质量进行度量处理,能够鞭策用户遵循数据规则,从而提升数据质量,使数据文件中的数据能够更好的满足监管需求,进而提升基于该数据文件的监管效率。
对应上述图2至图9描述的数据质量的度量方法,基于相同的技术构思,本说明书一个或多个实施例还提供一种数据质量的度量装置。图10为本说明书一个或多个实施例提供的一种数据质量的度量装置的模块组成示意图,该装置用于执行图2至图9描述的数据质量的度量方法,如图10所示,该装置包括:
获取模块201,获取待度量的数据文件;其中,所述数据文件基于预设的数据规则集合所创建,所述数据文件中包括至少一个待度量数据;所述数据规则集合为针对数据文件的创建以及进行数据质量的度量处理所设置;
确定模块202,确定所述待度量数据符合的所述数据规则集合中的数据规则;
度量模块203,根据所述待度量数据符合的所述数据规则的第一数量和所述数据规则集合包括的数据规则的第二数量,对所述待度量数据的数据质量进行度量处理。
本说明书一个或多个实施例提供的数据质量的度量装置,在获取到基于预设的数据规则集合所创建的待度量的数据文件时,确定该数据文件中的待度量数据所符合的数据规则集合中的数据规则;并根据待度量数据符合的数据规则的第一数量和数据规则集合包括的数据规则的第二数量,对待度量数据的数据质量进行度量处理。由此,通过设置数据规则集合,使得各数据文件在创建过程中能够有统一的规则标准可遵循,因此避免了在监管过程中因面对各式各样的自定义形式的文件而降低监管效率的问题;同时,基于设置的数据规则集合对数据文件包括的数据的数据质量进行度量处理,能够鞭策用户遵循数据规则,从而提升数据质量,使数据文件中的数据能够更好的满足监管需求,进而提升基于该数据文件的监管效率。
可选地,所述确定模块202,获取所述待度量的数据文件的创建信息;以及,
从所述创建信息中获取属于所述数据规则集合的数据规则;
将获取的所述数据规则确定为所述待度量数据符合的所述数据规则集合中的数据规则。
可选地,所述确定模块202,确定所述待度量的数据文件的文件类型信息;以及,
基于预设的文件类型信息与数据规则集合的关联关系,获取与所述待度量的数据文件的文件类型信息关联的目标数据规则集合;
确定所述待度量数据符合的所述目标数据规则集合中的数据规则。
可选地,所述度量模块203,统计所述待度量数据符合的所述数据规则的第一数量、所述目标数据规则集合包括的数据规则的第二数量;
根据预设的度量方式,基于所述第一数量和所述第二数量对所述待度量数据的数据质量进行度量处理。
可选地,所述度量模块203,将所述第一数量与所述第二数量进行相除处理;以及,
将所述相除处理的处理结果信息确定为所述待度量数据的数据质量;或者,确定所述相除处理的处理结果信息在预设的多个数值区间中所属的目标数值区间,将所述目标数值区间所对应的等级信息确定为所述待度量数据的数据质量。
可选地,所述装置还包括:提示模块;
所述提示模块,若根据所述度量处理的处理结果信息确定符合预设的提示条件,则根据所述待度量数据符合的所述数据规则和所述数据规则集合,确定所述待度量数据不符合的数据规则;
根据所述待度量数据不符合的数据规则进行提示处理。
可选地,所述数据规则集合包括:字段标识信息与数据规则的关联关系;
所述确定模块202,确定每个待度量数据符合的所述数据规则集合中的数据规则;
所述提示模块,根据每个待度量数据所对应的字段标识信息,从所述数据规则集合中获取关联的目标数据规则;
根据每个待度量数据符合的数据规则和所述目标数据规则,确定每个待度量数据不符合的数据规则。
本说明书一个或多个实施例提供的数据质量的度量装置,在获取到基于预设的数据规则集合所创建的待度量的数据文件时,确定该数据文件中的待度量数据所符合的数据规则集合中的数据规则;并根据待度量数据符合的数据规则的第一数量和数据规则集合包括的数据规则的第二数量,对待度量数据的数据质量进行度量处理。由此,通过设置数据规则集合,使得各数据文件在创建过程中能够有统一的规则标准可遵循,因此避免了在监管过程中因面对各式各样的自定义形式的文件而降低监管效率的问题;同时,基于设置的数据规则集合对数据文件包括的数据的数据质量进行度量处理,能够鞭策用户遵循数据规则,从而提升数据质量,使数据文件中的数据能够更好的满足监管需求,进而提升基于该数据文件的监管效率。
需要说明的是,本说明书中关于数据质量的度量装置的实施例与本说明书中关于数据质量的度量方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的数据质量的度量方法的实施,重复之处不再赘述。
进一步地,对应上述描述的数据质量的度量方法,基于相同的技术构思,本说明书一个或多个实施例还提供一种数据质量的度量设备,该设备用于执行上述的数据质量的度量方法,图11为本说明书一个或多个实施例提供的一种数据质量的度量设备的结构示意图。
如图11所示,数据质量的度量设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器301和存储器302,存储器302中可以存储有一个或一个以上存储应用程序或数据。其中,存储器302可以是短暂存储或持久存储。存储在存储器302的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括数据质量的度量设备中的一系列计算机可执行指令。更进一步地,处理器301可以设置为与存储器302通信,在数据质量的度量设备上执行存储器302中的一系列计算机可执行指令。数据质量的度量设备还可以包括一个或一个以上电源303,一个或一个以上有线或无线网络接口304,一个或一个以上输入输出接口305,一个或一个以上键盘306等。
在一个具体的实施例中,数据质量的度量设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对数据质量的度量设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待度量的数据文件;其中,所述数据文件基于预设的数据规则集合所创建,所述数据文件中包括至少一个待度量数据;所述数据规则集合为针对数据文件的创建以及进行数据质量的度量处理所设置;
确定所述待度量数据符合的所述数据规则集合中的数据规则;
根据所述待度量数据符合的所述数据规则的第一数量和所述数据规则集合包括的数据规则的第二数量,对所述待度量数据的数据质量进行度量处理。
可选地,计算机可执行指令在被执行时,所述确定所述待度量数据符合的所述数据规则集合中的数据规则,包括:
获取所述待度量的数据文件的创建信息;
从所述创建信息中获取属于所述数据规则集合的数据规则;
将获取的所述数据规则确定为所述待度量数据符合的所述数据规则集合中的数据规则。
可选地,计算机可执行指令在被执行时,所述确定所述待度量数据符合的所述数据规则集合中的数据规则,包括:
确定所述待度量的数据文件的文件类型信息;
基于预设的文件类型信息与数据规则集合的关联关系,获取与所述待度量的数据文件的文件类型信息关联的目标数据规则集合;
确定所述待度量数据符合的所述目标数据规则集合中的数据规则。
可选地,计算机可执行指令在被执行时,所述根据所述待度量数据符合的所述数据规则的第一数量和所述数据规则集合包括的数据规则的第二数量,对所述待度量数据的数据质量进行度量处理,包括:
统计所述待度量数据符合的所述数据规则的第一数量、所述目标数据规则集合包括的数据规则的第二数量;
根据预设的度量方式,基于所述第一数量和所述第二数量对所述待度量数据的数据质量进行度量处理。
可选地,计算机可执行指令在被执行时,所述根据预设的度量方式,基于所述第一数量和所述第二数量对所述待度量数据的数据质量进行度量处理,包括:
将所述第一数量与所述第二数量进行相除处理;
将所述相除处理的处理结果信息确定为所述待度量数据的数据质量;或者,确定所述相除处理的处理结果信息在预设的多个数值区间中所属的目标数值区间,将所述目标数值区间所对应的等级信息确定为所述待度量数据的数据质量。
可选地,计算机可执行指令在被执行时,所述方法还包括:
若根据所述度量处理的度量结果信息确定符合预设的提示条件,则根据所述待度量数据符合的所述数据规则和所述数据规则集合,确定所述待度量数据不符合的数据规则;
根据所述待度量数据不符合的数据规则进行提示处理。
本说明书一个或多个实施例提供的数据质量的度量设备,在获取到基于预设的数据规则集合所创建的待度量的数据文件时,确定该数据文件中的待度量数据所符合的数据规则集合中的数据规则;并根据待度量数据符合的数据规则的第一数量和数据规则集合包括的数据规则的第二数量,对待度量数据的数据质量进行度量处理。由此,通过设置数据规则集合,使得各数据文件在创建过程中能够有统一的规则标准可遵循,因此避免了在监管过程中因面对各式各样的自定义形式的文件而降低监管效率的问题;同时,基于设置的数据规则集合对数据文件包括的数据的数据质量进行度量处理,能够鞭策用户遵循数据规则,从而提升数据质量,使数据文件中的数据能够更好的满足监管需求,进而提升基于该数据文件的监管效率。
需要说明的是,本说明书中关于数据质量的度量设备的实施例与本说明书中关于数据质量的度量方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的数据质量的度量方法的实施,重复之处不再赘述。
进一步地,对应上述描述的数据质量的度量方法,基于相同的技术构思,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令,一个具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:
获取待度量的数据文件;其中,所述数据文件基于预设的数据规则集合所创建,所述数据文件中包括至少一个待度量数据;所述数据规则集合为针对数据文件的创建以及进行数据质量的度量处理所设置;
确定所述待度量数据符合的所述数据规则集合中的数据规则;
根据所述待度量数据符合的所述数据规则的第一数量和所述数据规则集合包括的数据规则的第二数量,对所述待度量数据的数据质量进行度量处理。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述确定所述待度量数据符合的所述数据规则集合中的数据规则,包括:
获取所述待度量的数据文件的创建信息;
从所述创建信息中获取属于所述数据规则集合的数据规则;
将获取的所述数据规则确定为所述待度量数据符合的所述数据规则集合中的数据规则。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述确定所述待度量数据符合的所述数据规则集合中的数据规则,包括:
确定所述待度量的数据文件的文件类型信息;
基于预设的文件类型信息与数据规则集合的关联关系,获取与所述待度量的数据文件的文件类型信息关联的目标数据规则集合;
确定所述待度量数据符合的所述目标数据规则集合中的数据规则。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述根据所述待度量数据符合的所述数据规则的第一数量和所述数据规则集合包括的数据规则的第二数量,对所述待度量数据的数据质量进行度量处理,包括:
统计所述待度量数据符合的所述数据规则的第一数量、所述目标数据规则集合包括的数据规则的第二数量;
根据预设的度量方式,基于所述第一数量和所述第二数量对所述待度量数据的数据质量进行度量处理。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述根据预设的度量方式,基于所述第一数量和所述第二数量对所述待度量数据的数据质量进行度量处理,包括:
将所述第一数量与所述第二数量进行相除处理;
将所述相除处理的处理结果信息确定为所述待度量数据的数据质量;或者,确定所述相除处理的处理结果信息在预设的多个数值区间中所属的目标数值区间,将所述目标数值区间所对应的等级信息确定为所述待度量数据的数据质量。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述方法还包括:
若根据所述度量处理的度量结果信息确定符合预设的提示条件,则根据所述待度量数据符合的所述数据规则和所述数据规则集合,确定所述待度量数据不符合的数据规则;
根据所述待度量数据不符合的数据规则进行提示处理。
本说明书一个或多个实施例提供的存储介质存储的计算机可执行指令在被处理器执行时,在获取到基于预设的数据规则集合所创建的待度量的数据文件时,确定该数据文件中的待度量数据所符合的数据规则集合中的数据规则;并根据待度量数据符合的数据规则的第一数量和数据规则集合包括的数据规则的第二数量,对待度量数据的数据质量进行度量处理。由此,通过设置数据规则集合,使得各数据文件在创建过程中能够有统一的规则标准可遵循,因此避免了在监管过程中因面对各式各样的自定义形式的文件而降低监管效率的问题;同时,基于设置的数据规则集合对数据文件包括的数据的数据质量进行度量处理,能够鞭策用户遵循数据规则,从而提升数据质量,使数据文件中的数据能够更好的满足监管需求,进而提升基于该数据文件的监管效率。
需要说明的是,本说明书中关于存储介质的实施例与本说明书中关于数据质量的度量方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的数据质量的度量方法的实施,重复之处不再赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、***或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本文件的实施例而已,并不用于限制本文件。对于本领域技术人员来说,本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本文件的权利要求范围之内。

Claims (16)

1.一种数据质量的度量方法,包括:
获取待度量的数据文件;其中,所述数据文件基于预设的数据规则集合所创建,所述数据文件中包括至少一个待度量数据;所述数据规则集合为针对数据文件的创建以及进行数据质量的度量处理所设置;
确定所述待度量数据符合的所述数据规则集合中的数据规则;
根据所述待度量数据符合的所述数据规则的第一数量和所述数据规则集合包括的数据规则的第二数量,对所述待度量数据的数据质量进行度量处理。
2.根据权利要求1所述的方法,所述确定所述待度量数据符合的所述数据规则集合中的数据规则,包括:
获取所述待度量的数据文件的创建信息;
从所述创建信息中获取属于所述数据规则集合的数据规则;
将获取的所述数据规则确定为所述待度量数据符合的所述数据规则集合中的数据规则。
3.根据权利要求2所述的方法,所述获取所述待度量的数据文件的创建信息,包括:
确定所述待度量的数据文件的文件信息;
根据所述文件信息从指定的数据库中获取关联的创建信息;其中,所述数据库中包括多个数据文件的文件信息与创建信息的关联关系。
4.根据权利要求1所述的方法,所述确定所述待度量数据符合的所述数据规则集合中的数据规则,包括:
确定所述待度量的数据文件的文件类型信息;
基于预设的文件类型信息与数据规则集合的关联关系,获取与所述待度量的数据文件的文件类型信息关联的目标数据规则集合;
确定所述待度量数据符合的所述目标数据规则集合中的数据规则。
5.根据权利要求4所述的方法,所述根据所述待度量数据符合的所述数据规则的第一数量和所述数据规则集合包括的数据规则的第二数量,对所述待度量数据的数据质量进行度量处理,包括:
统计所述待度量数据符合的所述数据规则的第一数量、所述目标数据规则集合包括的数据规则的第二数量;
根据预设的度量方式,基于所述第一数量和所述第二数量对所述待度量数据的数据质量进行度量处理。
6.根据权利要求5所述的方法,所述根据预设的度量方式,基于所述第一数量和所述第二数量对所述待度量数据的数据质量进行度量处理,包括:
将所述第一数量与所述第二数量进行相除处理;
将所述相除处理的处理结果信息确定为所述待度量数据的数据质量;或者,确定所述相除处理的处理结果信息在预设的多个数值区间中所属的目标数值区间,将所述目标数值区间所对应的等级信息确定为所述待度量数据的数据质量。
7.根据权利要求1所述的方法,所述方法还包括:
若根据所述度量处理的度量结果信息确定符合预设的提示条件,则根据所述待度量数据符合的所述数据规则和所述数据规则集合,确定所述待度量数据不符合的数据规则;
根据所述待度量数据不符合的数据规则进行提示处理。
8.根据权利要求7所述的方法,所述数据规则集合包括:字段标识信息与数据规则的关联关系;
所述确定所述待度量数据符合的所述数据规则集合中的数据规则,包括:
确定每个待度量数据符合的所述数据规则集合中的数据规则;
所述根据所述待度量数据符合的所述数据规则和所述数据规则集合,确定所述待度量数据不符合的数据规则,包括:
根据每个待度量数据所对应的字段标识信息,从所述数据规则集合中获取关联的目标数据规则;
根据每个待度量数据符合的数据规则和所述目标数据规则,确定每个待度量数据不符合的数据规则。
9.一种数据质量的度量装置,包括:
获取模块,获取待度量的数据文件;其中,所述数据文件基于预设的数据规则集合所创建,所述数据文件中包括至少一个待度量数据;所述数据规则集合为针对数据文件的创建以及进行数据质量的度量处理所设置;
确定模块,确定所述待度量数据符合的所述数据规则集合中的数据规则;
度量模块,根据所述待度量数据符合的所述数据规则的第一数量和所述数据规则集合包括的数据规则的第二数量,对所述待度量数据的数据质量进行度量处理。
10.根据权利要求9所述的装置,
所述确定模块,获取所述待度量的数据文件的创建信息;以及,
从所述创建信息中获取属于所述数据规则集合的数据规则;
将获取的所述数据规则确定为所述待度量数据符合的所述数据规则集合中的数据规则。
11.根据权利要求9所述的装置,
所述确定模块,确定所述待度量的数据文件的文件类型信息;以及,
基于预设的文件类型信息与数据规则集合的关联关系,获取与所述待度量的数据文件的文件类型信息关联的目标数据规则集合;
确定所述待度量数据符合的所述目标数据规则集合中的数据规则。
12.根据权利要求11所述的装置,
所述度量模块,统计所述待度量数据符合的所述数据规则的第一数量、所述目标数据规则集合包括的数据规则的第二数量;
根据预设的度量方式,基于所述第一数量和所述第二数量对所述待度量数据的数据质量进行度量处理。
13.根据权利要求12所述的装置,
所述度量模块,将所述第一数量与所述第二数量进行相除处理;
将所述相除处理的处理结果信息确定为所述待度量数据的数据质量;或者,确定所述相除处理的处理结果信息在预设的多个数值区间中所属的目标数值区间,将所述目标数值区间所对应的等级信息确定为所述待度量数据的数据质量。
14.根据权利要求9所述的装置,所述装置还包括:提示模块;
所述提示模块,若根据所述度量处理的处理结果信息确定符合预设的提示条件,则根据所述待度量数据符合的所述数据规则和所述数据规则集合,确定所述待度量数据不符合的数据规则;
根据所述待度量数据不符合的数据规则进行提示处理。
15.一种数据质量的度量设备,包括:
处理器;以及,
被安排成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器:
获取待度量的数据文件;其中,所述数据文件基于预设的数据规则集合所创建,所述数据文件中包括至少一个待度量数据;所述数据规则集合为针对数据文件的创建以及进行数据质量的度量处理所设置;
确定所述待度量数据符合的所述数据规则集合中的数据规则;
根据所述待度量数据符合的所述数据规则的第一数量和所述数据规则集合包括的数据规则的第二数量,对所述待度量数据的数据质量进行度量处理。
16.一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下流程:
获取待度量的数据文件;其中,所述数据文件基于预设的数据规则集合所创建,所述数据文件中包括至少一个待度量数据;所述数据规则集合为针对数据文件的创建以及进行数据质量的度量处理所设置;
确定所述待度量数据符合的所述数据规则集合中的数据规则;
根据所述待度量数据符合的所述数据规则的第一数量和所述数据规则集合包括的数据规则的第二数量,对所述待度量数据的数据质量进行度量处理。
CN202010974674.7A 2020-09-16 2020-09-16 数据质量的度量方法、装置及设备 Active CN112182507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010974674.7A CN112182507B (zh) 2020-09-16 2020-09-16 数据质量的度量方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010974674.7A CN112182507B (zh) 2020-09-16 2020-09-16 数据质量的度量方法、装置及设备

Publications (2)

Publication Number Publication Date
CN112182507A true CN112182507A (zh) 2021-01-05
CN112182507B CN112182507B (zh) 2024-04-19

Family

ID=73921441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010974674.7A Active CN112182507B (zh) 2020-09-16 2020-09-16 数据质量的度量方法、装置及设备

Country Status (1)

Country Link
CN (1) CN112182507B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024027424A1 (zh) * 2022-07-31 2024-02-08 华为技术有限公司 一种数据质量度量方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894319A (zh) * 2010-06-28 2010-11-24 中国烟草总公司湖南省公司 一种烟草企业数据质量管理***及方法
CN102272736A (zh) * 2009-01-13 2011-12-07 国际商业机器公司 提高资源监视数据的消费者***和生产者***之间的规模
US8458232B1 (en) * 2009-03-31 2013-06-04 Symantec Corporation Systems and methods for identifying data files based on community data
CN108595563A (zh) * 2018-04-13 2018-09-28 林秀丽 一种数据质量管理方法及装置
CN108628947A (zh) * 2018-04-02 2018-10-09 阿里巴巴集团控股有限公司 一种业务规则匹配处理方法、装置及处理设备
CN111489163A (zh) * 2020-04-07 2020-08-04 支付宝(杭州)信息技术有限公司 一种业务处理方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102272736A (zh) * 2009-01-13 2011-12-07 国际商业机器公司 提高资源监视数据的消费者***和生产者***之间的规模
US8458232B1 (en) * 2009-03-31 2013-06-04 Symantec Corporation Systems and methods for identifying data files based on community data
CN101894319A (zh) * 2010-06-28 2010-11-24 中国烟草总公司湖南省公司 一种烟草企业数据质量管理***及方法
CN108628947A (zh) * 2018-04-02 2018-10-09 阿里巴巴集团控股有限公司 一种业务规则匹配处理方法、装置及处理设备
CN108595563A (zh) * 2018-04-13 2018-09-28 林秀丽 一种数据质量管理方法及装置
CN111489163A (zh) * 2020-04-07 2020-08-04 支付宝(杭州)信息技术有限公司 一种业务处理方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIU FANG等: "Hierarchical Clustering Based Teaching Reform Courses Examination Data Analysis Approach Applied in China Open University System", 《2014 SEVENTH INTERNATIONAL SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE AND DESIGN》 *
尹党辉;冯俊池;安丰亮;: "基于关联规则的数据质量分析与修复方法研究", 电子设计工程, no. 10 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024027424A1 (zh) * 2022-07-31 2024-02-08 华为技术有限公司 一种数据质量度量方法及装置

Also Published As

Publication number Publication date
CN112182507B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
TWI748175B (zh) 資料的處理方法、裝置及設備
TWI718643B (zh) 異常群體識別方法及裝置
KR20180069813A (ko) 타이틀 표시 방법 및 장치
TWI694700B (zh) 資料處理方法和裝置、用戶端
CN110503435B (zh) 基于区块链的交易预警方法、装置及设备
CN108243032B (zh) 一种服务等级信息的获取方法、装置及设备
CN110046187B (zh) 数据处理***、方法及装置
CN110751515A (zh) 一种基于用户消费行为的决策方法和装置、电子设备及存储介质
US10803091B2 (en) Method and device for determining a category directory, and an automatic classification method and device
CN114638005A (zh) 基于区块链的数据处理方法、装置及***、存储介质
CN112182507A (zh) 数据质量的度量方法、装置及设备
JP2017531882A5 (zh)
CN117130979A (zh) 一种业务资源的迁移方法、装置及电子设备
CN112491943A (zh) 数据请求方法、装置、存储介质和电子设备
CN111967769B (zh) 一种风险识别方法、装置、设备及介质
CN113672660B (zh) 一种数据查询方法、装置及设备
CN110245136B (zh) 数据检索方法及装置、设备及存储设备
CN115061928A (zh) 微服务自动化测试方法、装置、电子设备及存储介质
CN112182510B (zh) 产品覆盖程度的度量方法、装置及设备
CN111339117B (zh) 数据处理方法、装置及设备
CN112800188B (zh) 一种对话处理方法及装置
CN111552977A (zh) 一种应用权限的确定方法、装置及***
CN110968580A (zh) 一种数据存储结构的创建方法及装置
US11348052B2 (en) Cloud computing account management and control aggregation of notifications and service limits
CN113011165B (zh) 一种识别被封锁关键词的方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant