CN111427928A - 一种数据质量检测方法及装置 - Google Patents

一种数据质量检测方法及装置 Download PDF

Info

Publication number
CN111427928A
CN111427928A CN202010223574.0A CN202010223574A CN111427928A CN 111427928 A CN111427928 A CN 111427928A CN 202010223574 A CN202010223574 A CN 202010223574A CN 111427928 A CN111427928 A CN 111427928A
Authority
CN
China
Prior art keywords
data
detected
inspection
strategy
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010223574.0A
Other languages
English (en)
Inventor
谢良武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN202010223574.0A priority Critical patent/CN111427928A/zh
Publication of CN111427928A publication Critical patent/CN111427928A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Quality & Reliability (AREA)
  • General Factory Administration (AREA)

Abstract

本申请涉及一种数据质量检测方法及装置,其中方法包括:确定待检测数据集合对应的检验策略,所述检验策略用于检验所述待检测数据集合中的待检测数据是否符合预设数据质量要求;通过所述检验策略对待检测数据进行检验,得到所述待检测数据对应的检验结果;根据所述检验结果得到所述待检测数据集合的数据质量检测结果。本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请方案能够解决在大数据质量检测过程中人工抽样样本生成耗时费力、检测成本高、验证周期长的问题,并且能够实现生成随机检测样本自动化、检测过程自动化、适用于多种检测场景,进而具备了降低人力成本、扩大抽样范围、加快检测速度的优点。

Description

一种数据质量检测方法及装置
技术领域
本申请涉及大数据技术领域,尤其涉及一种数据质量检测方法及装置。
背景技术
对大数据进行处理过程中,需要检测大数据的质量,在相关技术中,检测大数据质量的方法有两种方法:
(1)人工抽样测试:研发人员需要从总体中随机抽取一定数量的样本,然后采用人工对比测试方法检查抽样样本的质量,以样本的质量来评估大数据的质量;
(2)定制化检测程序:开发定制化检测程序,对大数据每一个个体的各种维度的数据进行检查,以确定大数据是否符合质量标准。
申请人在实现本发明的过程中发现,现有验证数据质量的方法存在下述问题:
(1)采用人工抽样测试方法进行测试,由于人工检测成本高、样本分布不均、检测的样本小、验证周期长、检测结果受检测人员个人素质影响;
(2)定制化检测程序通常只能解决某一特定场景的数据质量,通用性不高。
针对相关技术中存在的诸多技术问题,目前尚未提供有效的解决方案。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种数据质量检测方法及装置。
第一方面,本申请实施例提供了一种数据质量检测方法,包括:
确定待检测数据集合对应的检验策略,所述检验策略用于检验所述待检测数据集合中的待检测数据是否符合预设数据质量要求;
通过所述检验策略对待检测数据进行检验,得到所述待检测数据对应的检验结果;
根据所述检验结果得到所述待检测数据集合的数据质量检测结果。
可选的,如前述的数据质量检测方法,所述通过所述检验策略对待检测数据进行检验,得到检验结果,包括:
对所述待检测数据集合中的候选数据进行随机选择,得到所述待检测数据;
通过所述检验策略对所述待检测数据进行数据质量检验,得到所述检验结果;
持续对所述待检测数据集合中的候选数据进行随机选择,得到所述待检测数据,以及通过所述检验策略对所述待检测数据进行数据质量检验,得到所述检验结果,直至随机选择得到的所述待检测数据的总数达到预设数量。
可选的,如前述的数据质量检测方法,所述确定待检测数据集合对应的检验策略,包括:
确定所述待检测数据中各个字段信息对应的属性类型;
确定所述检验策略中的字段检验策略与所述属性类型之间的对应关系,所述检验策略包括至少一个所述字段检验策略,所述字段检验策略用于检验所述属性类型对应的字段信息是否满足预设字段质量要求。
可选的,如前述的数据质量检测方法,所述通过所述检验策略对待检测数据进行检验,包括:
确定各个所述字段检验策略预设的标准数据格式;
在按照所述对应关系将所述待检测数据中的各个字段信息转换为标准数据格式的标准字段信息后,得到转换后数据;
根据所述对应关系,通过各个字段检验策略对所述转换后数据中各个字段信息进行检验。
可选的,如前述的数据质量检测方法,所述通过所述检验策略对所述待检测数据进行数据质量检验之前,还包括:
判断所述待检测数据是否符合预设整体要求;
在所述待检测数据符合所述预设整体要求时,执行后一步骤;
在所述待检测数据不符合所述预设整体要求时,判定所述待检测数据的检验结果为未检验通过。
可选的,如前述的数据质量检测方法,所述根据所述检验结果得到所述待检测数据集合的数据质量检测结果,包括:
在进行数据质量检验的次数达到预设数量时,确定所述检验结果中正常检验结果的数量,所述正常检验结果为表征数据质量符合预设要求的检验结果;
根据所述正常检验结果的数量以及所述预设数量得到所述待检测数据集合的数据质量检测结果。
可选的,如前述的数据质量检测方法,所述确定所述检验结果中正常检验结果的正确数量,包括:
确定所述检验结果中每个字段信息均满足对应的预设数据质量要求时得到的正常检验结果;
根据所有所述正常检验结果得到所述正确数量。
第二方面,本申请实施例提供了一种数据质量检测装置,包括:
确定模块,用于确定待检测数据集合中数据对应的检验策略,所述检验策略用于检验所述数据的数据质量是否符合预设要求;
检验模块,用于通过所述检验策略对所述待检测数据进行数据质量检验,得到检验结果;
质量获取模块,用于根据所述检验结果得到所述待检测数据集合中数据的数据质量。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述计算机程序时,实现如前述任一项所述的数据质量检测方法。
第四方面,本申请实施例提供了一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如前述任一项所述的数据质量检测方法。
本申请实施例提供了一种数据质量检测方法及装置,其中方法包括:确定待检测数据集合对应的检验策略,所述检验策略用于检验所述待检测数据集合中的待检测数据是否符合预设数据质量要求;通过所述检验策略对待检测数据进行检验,得到所述待检测数据对应的检验结果;根据所述检验结果得到所述待检测数据集合的数据质量检测结果。本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请方案能够解决在大数据质量检测过程中人工抽样样本生成耗时费力、检测成本高、验证周期长的问题,并且能够实现生成随机检测样本自动化、检测过程自动化、适用于多种检测场景,进而具备了降低人力成本、扩大抽样范围、加快检测速度的优点。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据质量检测方法的流程示意图;
图2为本申请另一实施例提供的一种数据质量检测方法的流程示意图;
图3为本申请另一实施例提供的一种数据质量检测方法的流程示意图;
图4为本申请另一实施例提供的一种数据质量检测方法的流程示意图;
图5为本申请实施例提供的一种数据质量检测装置的框图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种数据质量检测方法,包括如下所述步骤S1至S3:
步骤S1.确定待检测数据集合对应的检验策略,检验策略用于检验待检测数据集合中的待检测数据是否符合预设数据质量要求;
具体的,数据质量是保证数据应用的基础,它的评估标准主要包括四个方面,完整性、一致性、准确性、及时性。评估数据是否达到预期设定的数据质量要求,可以通过这四个方面来进行判断。
完整性:完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值就会大大降低,也是数据质量最为基础的一项评估标准。数据质量的完整性比较容易去评估,一般可以通过数据统计中的记录值和唯一值进行评估。例如,网站日志日访问量就是一个记录值,平时的日访问量在1000左右,突然某一天降到100了,需要检查一下数据是否存在缺失了。再例如,网站统计地域分布情况的每一个地区名就是一个唯一值,我国包括了32个省和直辖市,如果统计得到的唯一值小于32,则可以判断数据有可能存在缺失。
一致性:一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。规范指的是,一项数据存在它特定的格式,例如手机号码一定是13位的数字,IP地址一定是由4个0到255间的数字加上“.”组成的。逻辑指的是,多项数据间存在着固定的逻辑关系,例如,某一网站的PV(Page View,访问量)一定是大于等于UV(Unique Visitor,访客数)的,跳出率一定是在0到1之间的。一般的数据都有着标准的编码规则,对于数据记录的一致性检验是较为简单的,只要符合标准编码规则即可,例如:当地区类的标准编码格式为“北京”而不是“北京市”,则只需将相应的唯一值映射到标准的唯一值上就可以了。
准确性:准确性是指数据记录的信息是否存在异常或错误。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致。最为常见的数据准确性错误就如乱码。其次,异常的大或者小的数据也是不符合条件的数据。数据质量的准确性可能存在于个别记录,也可能存在于整个数据集,例如数量级记录错误。这类错误则可以使用最大值和最小值的统计量去审核。一般数据都符合正态分布的规律,如果一些占比少的数据存在问题,则可以通过比较其他数量少的数据比例,来做出判断。当然如果统计的数据异常并不显著,但依然存在着错误,这类值的检查是最为困难的,需要通过复杂的统计分析对比找到蛛丝马迹,这里可以借助一些数据分析工具,那么具体的数据修正方法就不在这里介绍了。
及时性:及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。及时性对于数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了借鉴意义。
检验策略为用于对待检测数据集合中的任一数据进行检验的策略,进一步的,一个数据中可能只包括一个字段信息,例如中国的省和直辖市的总数,为32个;一个数据中也可能包括多个字段信息,例如:驾驶员保险信息中,可能包括车辆型号,驾驶员信息,保险记录等多种信息;检验策略中可以只包括一个检验方法,也可以包括多个检验方法,一般的,每个检验方法都有与其对应的字段信息。
待检测数据是从待检测数据集合中选出的进行检验的数据,可以是随机抽样选出,也可以是逐个选出得到。
在一些可选实现方式中,当待检测数据通过检验策略时,即可判定其符合预设数据质量要求。
步骤S2.通过检验策略对待检测数据进行检验,得到待检测数据对应的检验结果。
具体的,当待检测数据存在多个需要检验的字段信息时,检验结果中可能包括多个子检验结果,以上一步骤中的所举例子为例:由于驾驶员保险信息中,可能包括车辆型号,驾驶员信息,保险记录等多种信息,因此会得到分别与车辆型号,驾驶员信息,保险记录等对应的子检验结果。
步骤S3.根据检验结果得到待检测数据集合的数据质量检测结果。
具体的,当待检测数据集合中的数据存在数千万或者上亿条的时候,对每个数据都进行检验,会耗费大量的运算资源,且处理周期很长,效率低下,因此,一般会抽选出部分数据(即待检测数据)进行抽样检测,并根据各个待检测数据的检验结果得到整个待检测数据集合的数据质量检测结果。
当对大数据进行处理的过程中,需要从大数据中挑出指定样本大小的样本,检测每一个样本的各项属性的数据质量是否符合标准。由于数据量大、数据来源多、收集数据的时间长,随着时间的增长,部分数据不满足数据处理程序处理数据的标准,因此在数据处理过程中判定数据是否符合数据处理程序标准,即需要检测数据的质量。
通常做法是从大数据中选择一个数据样本,人工验证数据的质量。但是人工检测数据质量持续时间长、样本较小、不能发现未知问题。
通过本实施例中的方案能够解决在大数据质量检测过程中人工抽样样本生成耗时费力、检测成本高、验证周期长的问题,并且能够实现生成随机检测样本自动化、检测过程自动化、适用于多种检测场景,进而具备了降低人力成本、加快检测速度的优点。
在一些实施例中,如前述的数据质量检测方法,步骤S2通过检验策略对待检测数据进行检验,得到检验结果,包括如下所述步骤A1至A3:
步骤A1.对待检测数据集合中的候选数据进行随机选择,得到待检测数据;
具体的,待检测数据集合中的数据统称为候选数据;且待检测数据为:随机选择得到的候选数据。
步骤A2.通过检验策略对待检测数据进行数据质量检验,得到检验结果;其中,校验未通过的数据的校验结果中记录了异常数据;
步骤A3.持续对待检测数据集合中的候选数据进行随机选择,得到待检测数据,以及通过检验策略对待检测数据进行数据质量检验,得到检验结果,直至随机选择得到的待检测数据的总数达到预设数量。
本实施例其中一种可选的实现方法可以为:
(11)确定预设数量的大小M;
(12)从待检测数据集合中随机选择一个候选数据作为待检测数据;
(13)计算当次选择的待检测数据是否符合质量标准,并对随机选择得到的待检测数据的总数进行加1;
(14)判断随机选择得到的待检测数据的总数是否等于预设数量的大小M;
(15)在已抽样待检测数据的个数<预设数量的大小M,循环步骤(12)、(13)、(14);
(16)已抽样待检测数据的个数=预设数量的大小M,停止抽样检查。
本实施例另一种可选的实现方法可以为:
(21)确定预设数量的大小M;
(22)从待检测数据集合中随机选择一个候选数据作为待检测数据;
(23)对已抽样待检测数据总数进行加1,并判断随机选择得到的待检测数据的总数是否等于预设数量的大小M;
(24)计算当次选择的待检测数据是否符合质量标准;
(25)在已抽样待检测数据的个数<预设数量的大小M,循环步骤(22)、(23)、(24);
(26)已抽样待检测数据的个数=预设数量的大小M,停止抽样检查。
进一步的,在(13)计算每个待检测数据的是否符合质量标准之后,还可以包括:对每个待检测数据的检测结果进行存储;其中检测结果可能会包括异常数据,进而以便于后期可以根据检测结果进行人工分析异常数据发现未知问题,同时可以根据异常记录优化检验策略(例如:检测函数),使检测能够达到更好的效果。
可选的,通过monkey测试进行待检测数据的随机选择以及检验,由于monkey测试(即乱点测试)的随机性,可以随机从待检测数据集合中随机选择一个候选数据作为待检测数据进行检验;当检验的次数达到了预设数量时,便停止从待检测数据集中随机选取候选数据作为所述待检测数据以及进行检验等相关操作,进而在无人监控的情况下也能够实现测试的自动停止;此外,还可以根据数据的某一属性进行选择,例如:根据数据的时间属性进行随机选择,每隔一时间段选择若干条数据作为待检测数据;或者按照数据量大小进行选择,从数据量大小在某一区间内的数据中选择若干个数据作为待检测数据;除此之外,还可以采用其它方式进行数据的随机选择,在此不一一进行举例。利用这种测试方式可以在诸如大数据集等数据量大的数据库中快速找到数据质量不符合要求的数据,以及得到整体的抽样情况,在扩大样本的同时,缩短验证周期,能够发现更多未知问题。
如图2所示,在一些实施例中,如前述的数据质量检测方法,步骤S1确定待检测数据集合对应的检验策略,包括如下所述步骤S11和S12:
步骤S11.确定待检测数据中各个字段信息对应的属性类型。
具体的,本步骤即表征,在一些情况下,待检测数据在一些情况下是由不同的字段信息构成的,即如步骤S2中所举例子:驾驶员保险信息中,可能包括车辆型号,驾驶员信息,保险记录等多种信息,其中:车辆型号,驾驶员信息,保险记录即可以为本实施例中所述的属性类型,而字段信息则为该属性类型的具体信息;进一步的,字段信息中可以包括子字段信息,一个属性类型下也可以包括多个子属性类型,举例来说:驾驶员信息还可以包括:驾驶员姓名、驾驶员年龄、驾驶员性别等等;其中,驾驶员姓名、驾驶员年龄、驾驶员性别即为子属性类型,而其中具体的信息则为子字段信息。
步骤S12.确定检验策略中的字段检验策略与属性类型之间的对应关系,检验策略包括至少一个字段检验策略,字段检验策略用于检验属性类型对应的字段信息是否满足预设字段质量要求。
具体的,不同的属性类型对应的规则是不一样的,举例来说:车辆型号可以一般会包括制造商以及具体产品型号,例如:宝马X5、奔驰e300等等,因此其对应的字段检验策略则可以为包括2个字符以上的中文字符以及若干英文字符和若干数字;当属性类型为驾驶员年龄时,则其对应字段检验策略为年龄在18岁至120岁之间,若存在待检测数据的驾驶员年龄为200岁或5岁时,则该待检测数据是明显有误的,属于数据质量有问题的情况;当一检验策略对应的属性类别为驾驶员年龄时,其只包括一个字段检验策略,当检验策略对应的是驾驶员信息或驾驶员保险信息时,则由于驾驶员信息或驾驶员保险信息中包括多个属性类型,因此需要不同的字段检验策略分别对每个属性类型对应的字段信息进行检验,以判断各个字段信息是否满足预设字段质量要求;一般的,当字段信息通过对应的字段检验策略的检验时,即可判定为满足预设字段质量要求。
如图3所示,在一些实施例中,如前述的数据质量检测方法,步骤S2通过检验策略对待检测数据进行检验,包括如下所述步骤S21和S23:
步骤S21.确定各个字段检验策略预设的标准数据格式。
具体的,由于待检测数据集中的数据可能由多方导入得到,因此各个候选数据和待检测数据的数据格式可能各不相同,但是,由于字段检验策略在进行检测时,需要对各个字段信息进行比较和判断,当待检测数据的字段信息的数据格式与标准数据格式不同时,会导致比对失败或者无法比对的情况;因此,需要确定各个字段检验策略中预设的标准数据格式,举例来说:当车辆型号的标准数据格式为:厂商+具体车辆型号,而一待检测数据中却为:具体车辆型号+厂商,则可能导致比对时发生问题。且字段检验策略与标准数据格式之间也可建立相应的对应关系或者字段检验策略中携带有标准数据格式的方式实现本步骤。
步骤S22.在按照对应关系将待检测数据中的各个字段信息转换为标准数据格式的标准字段信息后,得到转换后数据。
具体的,由于字段检验策略预设有标准数据格式,对应关系为字段检验策略与属性类型之间相互对应的关系,因此在确定待检测数据中各个字段信息的属性类型之后,可根据属性类型以及对应关系确定各个字段信息对应的标准数据格式,即可对各个字段信息按照标准数据格式进行转换处理得到标准字段信息,进而得到转换后数据。
步骤S23.根据对应关系,通过各个字段检验策略对转换后数据中各个字段信息进行检验。
具体的,由于对应关系为字段检验策略与属性类型之间相互对应的关系,每个字段信息也都有对应的属性类型,因此,可以确定各个属性类型对应的字段检验策略,进而实现通过各个字段检验策略对转换后数据中各个字段信息进行检验的目的。
通过本实施例中的方法,可以对待检测数据进行标准化处理,进而可以加快检验的速度,同时可以防止因为格式不对应造成检验失败,而影响最终得到的数据质量检测结果的准确性的问题。
在一些实施例中,如前述的数据质量检测方法,在步骤A2通过检验策略对待检测数据进行数据质量检验之前,还包括如下所述步骤A4至A6:
步骤A4.判断待检测数据是否符合预设整体要求。
具体的,预设整体要求,可以是用于对待检测数据进行整体上判断的策略。
步骤A5.在待检测数据符合预设整体要求时,执行后一步骤;
步骤A6.在待检测数据不符合预设整体要求时,判定待检测数据的检验结果为未检验通过,未校验通过的数据的校验结果记录了异常数据。
具体的,在待检测数据在满足预设整体要求时,才对其执行步骤A2,进行后续的其它检验动作。否则直接判定其检验结果为未通过。
可选的,预设整体要求可以包括完整性的要求。
由于对待检测数据进行检验时,需要对具体的字段信息进行比对判断,因此是比较耗费处理性能的;但是有一些待检测数据,可能存在数据缺失的情况,例如:驾驶员保险信息中缺少驾驶员信息,则该数据的明显完整性不符合预设完整性要求,数据质量一定存在问题,若按照常规手段,在获取一个待检测数据之后便对各个字段信息依次进行比较判断,则会浪费大量的处理性能;采用本实施例中的方法,则可以先进行一个整体上完整性的判断,在其符合完整性的基础上再进行后续动作,可以有效降低无效的处理量。
在一些实施例中,预设整体要求还可以包括重复性,因此,可以预先判断待检测数据是否为重复数据,若是重复数据,则对其进行去重删除,以避免对重复数据进行检验。
并且,在待检测数据满足预设完整性要求时,才对其执行步骤A2,进行后续的其它检验动作。
如图4所示,在一些实施例中,如前述的数据质量检测方法,所述步骤S3根据检验结果得到待检测数据集合的数据质量检测结果,包括如下所述步骤S31和S32:
步骤S31.在进行数据质量检验的次数达到预设数量时,确定检验结果中正常检验结果的数量,正常检验结果为表征数据质量符合预设要求的检验结果。
其中一种可选的实现方法为:在通过Monkey测试,进行数据质量检验的次数达到预设数量(例如:1000次)时,确定正常检验结果的数量;预设要求可以是待检测数据完全正确或者正确率达到预设值(例如95%)等要求。
所述步骤S31中确定检验结果中正常检验结果的正确数量,包括如下所述步骤B1和B2:
步骤B1.确定检验结果中每个字段信息均满足对应的预设数据质量要求时得到的正常检验结果;
步骤B2.根据所有正常检验结果得到正确数量。
具体的,步骤B1和B2中限定的步骤表征,只有当某一待检测数据的检验结果中,各个字段信息均为检验通过时,才判定该待检测数据的数据质量是符合预设数据质量要求的。
步骤S32.根据正常检验结果的数量以及预设数量得到待检测数据集合的数据质量检测结果。
其中一种可选的实现方法为:将数据质量符合预设要求的检验结果数量定义为R,将所有待检测数据的数量定义为Q,则数据质量检测结果为R/Q。
如图5所示,根据本申请的另一方面,本申请实施例还提供了一种数据质量检测装置,包括:
确定模块1,用于确定待检测数据集合中数据对应的检验策略,检验策略用于检验数据的数据质量是否符合预设要求;
检验模块2,用于通过检验策略对待检测数据进行数据质量检验,得到检验结果;
质量获取模块3,用于根据检验结果得到待检测数据集合中数据的数据质量。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
根据本申请的另一个实施例,还提供一种电子设备,包括:如图6所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。
存储器1503,用于存放计算机程序;
处理器1501,用于执行存储器1503上所存放的程序时,实现上述方法实施例的步骤。
上述电子设备提到的总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例还提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行上述方法实施例的步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据质量检测方法,其特征在于,包括:
确定待检测数据集合对应的检验策略,所述检验策略用于检验所述待检测数据集合中的待检测数据是否符合预设数据质量要求;
通过所述检验策略对待检测数据进行检验,得到所述待检测数据对应的检验结果;
根据所述检验结果得到所述待检测数据集合的数据质量检测结果。
2.根据权利要求1所述的数据质量检测方法,其特征在于,所述通过所述检验策略对待检测数据进行检验,得到检验结果,包括:
对所述待检测数据集合中的候选数据进行随机选择,得到所述待检测数据;
通过所述检验策略对所述待检测数据进行数据质量检验,得到所述检验结果;
持续对所述待检测数据集合中的候选数据进行随机选择,得到所述待检测数据,以及通过所述检验策略对所述待检测数据进行数据质量检验,得到所述检验结果,直至随机选择得到的所述待检测数据的总数达到预设数量。
3.根据权利要求2所述的数据质量检测方法,其特征在于,所述确定待检测数据集合对应的检验策略,包括:
确定所述待检测数据中各个字段信息对应的属性类型;
确定所述检验策略中的字段检验策略与所述属性类型之间的对应关系,所述检验策略包括至少一个所述字段检验策略,所述字段检验策略用于检验所述属性类型对应的字段信息是否满足预设字段质量要求。
4.根据权利要求3所述的数据质量检测方法,其特征在于,所述通过所述检验策略对待检测数据进行检验,包括:
确定各个所述字段检验策略预设的标准数据格式;
在按照所述对应关系将所述待检测数据中的各个字段信息转换为标准数据格式的标准字段信息后,得到转换后数据;
根据所述对应关系,通过各个字段检验策略对所述转换后数据中各个字段信息进行检验。
5.根据权利要求2所述的数据质量检测方法,其特征在于,所述通过所述检验策略对所述待检测数据进行数据质量检验之前,还包括:
判断所述待检测数据是否符合预设整体要求;
在所述待检测数据符合所述预设整体要求时,执行后一步骤;
在所述待检测数据不符合所述预设整体要求时,判定所述待检测数据的检验结果为未检验通过。
6.根据权利要求2所述的数据质量检测方法,其特征在于,所述根据所述检验结果得到所述待检测数据集合的数据质量检测结果,包括:
在进行数据质量检验的次数达到预设数量时,确定所述检验结果中正常检验结果的数量,所述正常检验结果为表征数据质量符合预设要求的检验结果;
根据所述正常检验结果的数量以及所述预设数量得到所述待检测数据集合的数据质量检测结果。
7.根据权利要求6所述的数据质量检测方法,其特征在于,所述确定所述检验结果中正常检验结果的正确数量,包括:
确定所述检验结果中每个字段信息均满足对应的预设数据质量要求时得到的正常检验结果;
根据所有所述正常检验结果得到所述正确数量。
8.一种数据质量检测装置,其特征在于,包括:
确定模块,用于确定待检测数据集合中数据对应的检验策略,所述检验策略用于检验所述数据的数据质量是否符合预设要求;
检验模块,用于通过所述检验策略对所述待检测数据进行数据质量检验,得到检验结果;
质量获取模块,用于根据所述检验结果得到所述待检测数据集合中数据的数据质量。
9.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述计算机程序时,实现权利要求1-7任一项所述的数据质量检测方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行权利要求1-7任一项所述的数据质量检测方法。
CN202010223574.0A 2020-03-26 2020-03-26 一种数据质量检测方法及装置 Pending CN111427928A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010223574.0A CN111427928A (zh) 2020-03-26 2020-03-26 一种数据质量检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010223574.0A CN111427928A (zh) 2020-03-26 2020-03-26 一种数据质量检测方法及装置

Publications (1)

Publication Number Publication Date
CN111427928A true CN111427928A (zh) 2020-07-17

Family

ID=71548850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010223574.0A Pending CN111427928A (zh) 2020-03-26 2020-03-26 一种数据质量检测方法及装置

Country Status (1)

Country Link
CN (1) CN111427928A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395280A (zh) * 2021-01-19 2021-02-23 睿至科技集团有限公司 一种数据质量检测方法及其***
CN112487453A (zh) * 2020-12-07 2021-03-12 马力 一种基于中央协调方的数据安全共享方法及装置
WO2021147559A1 (zh) * 2020-08-31 2021-07-29 平安科技(深圳)有限公司 业务数据质量检测方法、装置、计算机设备及存储介质
CN116680337A (zh) * 2023-07-10 2023-09-01 天津云检医学检验所有限公司 一种qPCR检测数据可视化处理方法、***和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445938A (zh) * 2015-08-05 2017-02-22 阿里巴巴集团控股有限公司 一种数据检测方法及装置
CN106708909A (zh) * 2015-11-18 2017-05-24 阿里巴巴集团控股有限公司 数据质量的检测方法和装置
CN109241043A (zh) * 2018-08-13 2019-01-18 蜜小蜂智慧(北京)科技有限公司 一种数据质量检测方法及装置
CN109271377A (zh) * 2018-08-10 2019-01-25 蜜小蜂智慧(北京)科技有限公司 一种数据质量检测方法及装置
CN109656812A (zh) * 2018-11-19 2019-04-19 平安科技(深圳)有限公司 数据质量检测方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445938A (zh) * 2015-08-05 2017-02-22 阿里巴巴集团控股有限公司 一种数据检测方法及装置
CN106708909A (zh) * 2015-11-18 2017-05-24 阿里巴巴集团控股有限公司 数据质量的检测方法和装置
CN109271377A (zh) * 2018-08-10 2019-01-25 蜜小蜂智慧(北京)科技有限公司 一种数据质量检测方法及装置
CN109241043A (zh) * 2018-08-13 2019-01-18 蜜小蜂智慧(北京)科技有限公司 一种数据质量检测方法及装置
CN109656812A (zh) * 2018-11-19 2019-04-19 平安科技(深圳)有限公司 数据质量检测方法、装置及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021147559A1 (zh) * 2020-08-31 2021-07-29 平安科技(深圳)有限公司 业务数据质量检测方法、装置、计算机设备及存储介质
CN112487453A (zh) * 2020-12-07 2021-03-12 马力 一种基于中央协调方的数据安全共享方法及装置
CN112395280A (zh) * 2021-01-19 2021-02-23 睿至科技集团有限公司 一种数据质量检测方法及其***
CN116680337A (zh) * 2023-07-10 2023-09-01 天津云检医学检验所有限公司 一种qPCR检测数据可视化处理方法、***和存储介质

Similar Documents

Publication Publication Date Title
CN111427928A (zh) 一种数据质量检测方法及装置
WO2017113677A1 (zh) 处理用户行为数据的方法和***
CN109271315B (zh) 脚本代码检测方法、装置、计算机设备及存储介质
CN112346993B (zh) 一种情报分析引擎的测试方法、装置及设备
CN115841046B (zh) 基于维纳过程的加速退化试验数据处理方法和装置
CN110908920A (zh) 一种接口功能测试方法、装置及相关组件
CN108985187A (zh) 一种数字化档案自我校验实现自动质检的方法
CN113468034A (zh) 数据质量评估方法、装置、存储介质和电子设备
CN110046086B (zh) 用于测试的期望数据生成方法及装置和电子设备
CN113806343B (zh) 一种车联网数据质量的评估方法和***
CN111274056B (zh) 智能电能表故障库的自学习方法与装置
CN112948262A (zh) 一种***测试方法、装置、计算机设备和存储介质
CN110769076B (zh) 一种dns测试方法和***
CN111413952A (zh) 机器人故障检测方法、装置、电子设备及可读存储介质
CN110795308A (zh) 一种服务器检验方法、装置、设备及存储介质
CN116662186A (zh) 基于逻辑回归的日志回放断言方法及其装置、电子设备
CN111209180A (zh) 一种基于模糊匹配的回归测试方法和装置
CN114077545A (zh) 验证数据的获取方法、装置、设备及可读存储介质
CN115309661A (zh) 一种应用测试方法、装置、电子设备及可读存储介质
CN110362498B (zh) 页面热点的测试方法、装置及服务器
CN112580334A (zh) 一种文案处理方法、装置、服务器及存储介质
CN109710651B (zh) 数据类型识别方法及装置
TWI778634B (zh) 故障分類方法、電子設備及儲存介質
CN112762976B (zh) 一种对bmc传感器综合测试的自动化方法及装置
CN115576801A (zh) 埋点数据的测试方法、装置、电子装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: Jingdong Digital Technology Holding Co.,Ltd.

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Digital Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

CB02 Change of applicant information