CN117609202A - 数据质量检测方法、装置、电子设备及计算机存储介质 - Google Patents

数据质量检测方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN117609202A
CN117609202A CN202311491295.2A CN202311491295A CN117609202A CN 117609202 A CN117609202 A CN 117609202A CN 202311491295 A CN202311491295 A CN 202311491295A CN 117609202 A CN117609202 A CN 117609202A
Authority
CN
China
Prior art keywords
data
detected
target
evaluation
quality detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311491295.2A
Other languages
English (en)
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen TCL New Technology Co Ltd
Original Assignee
Shenzhen TCL New Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen TCL New Technology Co Ltd filed Critical Shenzhen TCL New Technology Co Ltd
Priority to CN202311491295.2A priority Critical patent/CN117609202A/zh
Publication of CN117609202A publication Critical patent/CN117609202A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)

Abstract

本申请涉及数据处理技术领域,公开了一种数据质量检测方法、装置、电子设备及计算机存储介质,包括:基于目标数据处理库从目标数据源读取待检测数据,并获取待检测数据对应的质量检测指标;根据质量检测指标对待检测数据进行质量评估,得到目标评估结果;若目标评估结果为待检测数据是异常数据,则获取异常数据的异常等级,按照异常等级对异常数据进行告警。本申请实现了无侵入式实时数据质量检测,减少了异常数据排查时长,提高了异常数据检测效率和异常数据识别准确率。

Description

数据质量检测方法、装置、电子设备及计算机存储介质
技术领域
本申请涉及数据处理技术领域,具体涉及一种数据质量检测方法、装置、电子设备及计算机存储介质。
背景技术
当前,在数据埋点接入、动态数据接入场景中,数据的质量问题会直接影响到线上底层基础数据以及业务指标数据的准确性。在数据处理时,通常只有通过经过业务代码中的处理逻辑时才能感知到数据错误、缺失等数据质量问题。同时对应的数据质量问题通常会以报错日志等方式暴露,该数据质量检测方式效率低下。并且,在新的数据未被数据质量检测规则覆盖,或对异常数据进行处理时,往往需要重新对数据规则进行提取,重新打包发布,亦会导致数据质量检测效率低下的问题。
发明内容
本申请实施例提供一种数据质量检测方法、装置、电子设备及计算机存储介质,可以解决数据质量检测效率低下的技术问题。
本申请实施例提供一种数据质量检测方法,包括:
基于目标数据处理库从目标数据源读取待检测数据,并获取所述待检测数据对应的质量检测指标;
根据所述质量检测指标对所述待检测数据进行质量评估,得到目标评估结果;
若所述目标评估结果为所述待检测数据是异常数据,则获取所述异常数据的异常等级,按照所述异常等级对所述异常数据进行告警。
进一步的,上述基于目标数据处理库从目标数据源读取待检测数据,包括:
获取所述待检测数据的标签信息,以及所述待检测数据在所述目标数据源的连接信息;
在所述目标数据处理库中根据所述标签信息和所述连接信息,从所述目标数据源读取出所述待检测数据。
进一步的,上述获取所述待检测数据对应的质量检测指标,包括:
获取所述待检测数据的检测维度,以及所述待检测数据所属业务的业务信息;
根据所述检测维度和所述业务信息,确定所述待检测数据对应的质量检测指标。
进一步的,上述根据所述质量检测指标对所述待检测数据进行质量评估,得到目标评估结果,包括:
根据所述质量检测指标对所述待检测数据进行初始质量评估,得到初始评估值;
在预设的评估周期内对所述初始评估值进行统计,得到所述待检测数据对应的目标评估结果。
进一步的,上述质量检测指标包括多个子检测指标,所述根据所述质量检测指标对所述待检测数据进行初始质量评估,得到初始评估值,包括:
计算所述待检测数据在各所述子检测指标的子评估值;
根据所述子评估值和所述子评估值对应的预设评估系数,确定所述待检测数据的初始评估值。
进一步的,上述在预设的评估周期内对所述初始评估值进行统计,得到所述待检测数据对应的目标评估结果,包括:
获取所述待检测数据在所述评估周期内不同评估时段的检测数据量;
根据所述检测数据量对各所述评估时段的初始评估值进行统计,得到所述待检测数据对应的目标评估结果。
进一步的,在上述按照所述异常等级对所述异常数据进行告警之后,还包括:
根据预设的目标接口对存储所述质量检测指标的数据库进行监控;
当检测到所述数据库存在指标更新时,获取目标更新指标,将所述目标更新指标对应的变更信息存储至所述待检测数据对应的容器中。
相应地,本申请实施例提供一种数据质量检测装置,包括:
读取模块,用于基于目标数据处理库从目标数据源读取待检测数据,并获取所述待检测数据对应的质量检测指标;
评估模块,用于根据所述质量检测指标对所述待检测数据进行质量评估,得到目标评估结果;
告警模块,用于若所述目标评估结果为所述待检测数据是异常数据,则获取所述异常数据的异常等级,按照所述异常等级对所述异常数据进行告警。
此外,本申请实施例还提供一种电子设备,包括处理器和存储器,上述存储器存储有计算机程序,上述处理器用于运行上述存储器内的计算机程序实现本申请实施例提供的数据质量检测方法。
此外,本申请实施例还提供一种计算机存储介质,上述计算机存储介质存储有计算机程序,上述计算机程序适于处理器进行加载,以执行本申请实施例所提供的任一种数据质量检测方法。
此外,本申请实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本申请实施例所提供的任一种数据质量检测方法。
在本申请实施例中,通过基于目标数据处理库从目标数据源读取待检测数据,并获取待检测数据对应的质量检测指标,使得通过该目标数据处理库和目标数据源能够对数据的零侵入式的质量检测;之后,根据质量检测指标对待检测数据进行质量评估,得到目标评估结果,实现了对待检测数据的精确评估;若目标评估结果为待检测数据是异常数据,则获取异常数据的异常等级,按照异常等级对异常数据进行告警,实现了无侵入式实时数据质量检测,减少了异常数据排查时长,提高了异常数据检测效率和异常数据识别准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的数据质量检测方法的流程示意图;
图2是本申请实施例提供的数据质量检测方法的另一实施例流程示意图;
图3是本申请实施例提供的数据质量检测方法的另一实施例流程示意图;
图4是本申请实施例提供的数据质量检测装置的结构示意图;
图5是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种数据质量检测方法、装置、电子设备及计算机存储介质。该数据质量检测装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Del ivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
另外,本申请实施例中的“多个”指两个或两个以上。本申请实施例中的“第一”和“第二”等用于区分描述,而不能理解为暗示相对重要性。
以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
请参阅图1,图1是本申请一实施例提供的数据质量检测方法的流程示意图。该数据质量检测方法可以包括:
S101、基于目标数据处理库从目标数据源读取待检测数据,并获取所述待检测数据对应的质量检测指标。
在本实施例中,目标数据源为数据的初始来源,通过该目标数据源可以对数据进行处理及消费,如是kafka,流数据处理平台。该目标数据源中的数据可以流向下游业务中,作为业务数据。为了实现一种零侵入式数据质量检测,本实施例构建目标数据处理库,将目标数据源中的数据流向目标数据处理库,该目标数据处理库与下游业务为两种并列或衔接的数据流向目标。其中,该目标数据处理库为对目标数据源中的数据进行处理的数据库,如Fl ink CEP(Complex Event Process ing),Fl ink CEP是基于Fl ink流处理引擎的复杂事件处理库,Fl ink CEP提供了一组接口和库,可以对数据流进行模式匹配、时间窗口、排队等操作,从而有效地检测和处理复杂事件。通过目标数据处理库从目标数据源读取待检测数据,可以避免对业务数据代码的直接处理,进而实现零侵入式数据质量检测。
在得到待检测数据时,获取待检测数据对应的质量检测指标。其中,该质量检测指标为衡量待检测数据质量的指标,不同待检测数据对应的质量检测指标可能相同也可能不同。在本实施例中,该质量检测指标可通过数据质量检测引擎和目标数据处理库进行识别。其中,数据质量检测引擎包括规则引擎,如drools规则引擎。基于目标数据处理库和数据质量检测引擎对待检测数据进行识别,得到该待检测数据对应的质量检测指标。
进一步的,在得到该质量检测指标时,可以将该质量检测指标存储至数据质量检测引擎对应的底层数据库中,该数据库可以为关系型数据库或非关系型数据库。在该数据库中包括数据库名称、数据库摘要信息、质量检测指标存储的表名和用户名等信息。除此之外,该质量检测指标亦可通过对象或流处理平台(如kafka)实例等连接信息进行存储。
S102、根据所述质量检测指标对所述待检测数据进行质量评估,得到目标评估结果。
在本实施例中,在得到待检测数据对应的质量检测指标时,根据该质量检测指标对待检测数据进行质量评估。具体地,获取该待检测数据在当前质量检测指标下的目标评估值,根据该目标评估值确定该待检测数据的目标评估结果。例如,当前待检测数据的质量检测指标包括字段完整性和字段正确率,则获取在该字段完整性指标下当前待检测数据的字段值完整率或字段置空率,以及在字段正确率指标下当前待检测数据的字段正确率;该字段完整率和字段正确率即为待检测数据在当前质量检测指标下的目标评估值。
而后,获取各质量监测指标对应的预设评估阈值,该预设评估阈值可以是单个阈值也可以是阈值区间,不同质量检测指标的预设评估阈值可能相同也可能不同。对当前质量检测指标的评估阈值和其对应的目标评估值进行比对,根据比对结果确定当前质量检测指标下的待检测数据是否存在异常。其中,若该目标评估值小于或等于评估阈值,则确定当前质量检测指标下的待检测数据不存在异常;若该目标评估值大于评估阈值,则确定当前质量检测指标下的待检测数据存在异常。进一步的,若在当前质量检测指标下的待检测数据存在异常,则确定当前该质量检测指标为异常数据指标。若该待检测数据的所有质量检测指标中存在任意一个异常数据指标,则确定目标评估结果为待检测数据是异常数据;若该待检测数据对应的所有质量检测指标均非异常数据指标,则确定目标评估结果为待检测数据是正常数据。
S103、若所述目标评估结果为所述待检测数据是异常数据,则获取所述异常数据的异常等级,按照所述异常等级对所述异常数据进行告警。
在本实施例中,若目标评估结果为待检测数据是异常数据,则获取异常数据的异常等级,根据该异常等级对异常数据进行告警。具体地,在确定待检测数据为异常数据时,获取待检测数据的异常数据指标,该待检测数据对应的异常数据指标可能有多个。其中,每个质量检测指标对应有指标等级,不同的质量检测指标可能对应不同的指标等级,该指标等级从高到低可以分为严重告警等级、一般告警等级和最小告警等级。获取该待检测数据对应的各异常数据指标的指标等级,根据该指标等级确定异常数据的异常等级。当异常数据的异常数据指标有多个,且各异常数据指标的指标等级不同时,选取其中等级最高的指标等级作为当前异常数据的异常等级。基于该异常等级选取对应的告警方式,对异常数据进行告警。该告警方式包括发送告警邮件、拨打告警电话和创建告警即时通信应用接口等方式。
进一步的,在确定待检测数据为异常数据时,还可以将异常数据独立存储至目标数据源的新主题(topic)下。该新主题与异常数据的异常类型相关联,通过该新主题可以获取到该异常数据。当对该异常数据进行重新处理时,通过获取该异常数据对应的异常类型,进而确定该异常数据对应的新主题;基于该新主题即可对异常数据进行重新处理,如对异常数据进行数据补充和数据变更等操作。
除此之外,还可以将异常数据发送至目标数据源的消息队列中,并提供数据源连接方式、该异常数据的主题名称、主题标签和并行度等信息。可选的,还可以将该异常数据发送至关系型数据库、或者对象存储等可以将数据持久化存储的位置,同时提供数据源的连接方式、或者对象存储的请求接口。可选的,亦可以将该异常数据进行丢弃。
进一步的,该数据质量检测均可通过可视化页面进行展示,基于该可视化页面可以对待检测数据、质量检测指标及异常数据等数据进行展示、增加、删除和修改等操作。
本申请通过基于目标数据处理库从目标数据源读取待检测数据,并获取待检测数据对应的质量检测指标,使得通过该目标数据处理库和目标数据源能够对数据的零侵入式的质量检测;之后,根据质量检测指标对待检测数据进行质量评估,得到目标评估结果,实现了对待检测数据的精确评估;若目标评估结果为待检测数据是异常数据,则获取异常数据的异常等级,按照异常等级对异常数据进行告警,实现了无侵入式实时数据质量检测,减少了异常数据排查时长,提高了异常数据检测效率和异常数据识别准确率。
图2是本申请实施例提供的数据质量检测方法的另一实施例流程示意图,如图2所示,在本申请一些实施例中,上述基于目标数据处理库从目标数据源读取待检测数据,包括:
S201、获取所述待检测数据的标签信息,以及所述待检测数据在所述目标数据源的连接信息;
S202、在所述目标数据处理库中根据所述标签信息和所述连接信息,从所述目标数据源读取出所述待检测数据。
在本实施例中,标签信息为待检测数据所属的业务信息,不同的业务对应的待检测数据的标签信息不同;连接信息为待检测数据在目标数据源中的路径信息,该连接信息具体包括待检测数据在目标数据源中的消息队列连接地址,待检测数据在目标数据源的起始消费位置,以及待检测数据在目标数据源的主题名称等。在目标数据处理库中通过该连接信息和标签信息,可以从目标数据源中读取出待检测数据。其中,目标数据源为支持多个消费者实时接入消费数据的数据源,在目标数据处理库中通过标签信息和连接信息对该目标数据源进行实时消费(即数据获取),可以提高待检测数据的获取效率。
本实施例通过获取待检测数据的标签信息,以及待检测数据在目标数据源的连接信息;之后,在目标数据处理库中根据标签信息和连接信息,从目标数据源读取出待检测数据,实现了对待检测数据的精确实时获取,提高了待检测数据的获取效率,并且无需从业务数据直接选取待检测数据,进一步实现了无侵入式数据质量检测。
图3是本申请实施例提供的数据质量检测方法的另一实施例流程示意图,如图3所示,在本申请一些实施例中,上述获取所述待检测数据对应的质量检测指标,包括:
S301、获取所述待检测数据的检测维度,以及所述待检测数据所属业务的业务信息;
S302、根据所述检测维度和所述业务信息,确定所述待检测数据对应的质量检测指标。
在本实施例中,检测维度为待检测数据预先设定的检测维度,该待检测数据的检测维度可以分为完整性检测维度、标准率检测维度和格式错误率检测维度。业务信息包括待检测数据所属的业务标签名称,以及其他分类名称,该其他分类名称为待检测数据所属的业务所在的类别,如公共数据或销售数据。获取该待检测数据的检测维度和待检测数据所属业务的业务信息,根据该检测维度和业务信息构建待检测数据的质量检测指标。其中,一个检测维度对应一个质量检测指标。除此之外,还可以获取该检测维度下待检测数据的计算逻辑代码,如格式错误率检测维度下待检测数据的计算格式错误率的逻辑代码。基于该检测维度、业务信息,以及该检测维度下待检测数据的计算逻辑代码构建待检测数据的质量检测指标。
本实施例通过根据检测维度和业务信息,确定待检测数据对应的质量检测指标,实现了对待检测数据对应的质量检测指标的高效精确确定,进而使得通过该质量检测指标能够待检测数据进行精确评估,提高了异常数据的检测准确度。
在本申请一些实施例中,上述根据所述质量检测指标对所述待检测数据进行质量评估,得到目标评估结果,包括:
根据所述质量检测指标对所述待检测数据进行初始质量评估,得到初始评估值;
在预设的评估周期内对所述初始评估值进行统计,得到所述待检测数据对应的目标评估结果。
在本实施例中,在得到质量检测指标时,根据质量检测指标对待检测数据进行初始质量评估,得到初始评估值。其中,该初始质量评估为对待检测数据进行实时质量评分,在得到质量检测指标时,对该质量检测指标下待检测数据的评估值进行计算,得到初始评估值。之后,对预设评估周期内的该待检测数据在同一质量检测指标的初始评估值进行统计,即得到目标评估值,相对于该目标评估值,该待检测数据的初始评估值为一种实时评估值,根据该初始评估值可以对某一评估时段或某一评估时刻的待检测数据的质量进行实时评估。根据该目标评估值确定待检测数据对应的目标评估结果。具体地,在得到目标评估值时,获取该目标评估值对应的评估阈值,比对该评估阈值和目标评估值;根据比对结果确定待检测数据对应的目标评估结果。
进一步的,在得到初始评估值之后,还可以根据该初始评估值对该质量检测指标下待检测数据的初始评估值进行预测。具体地,基础筛选周期可以直接选取各个质量检测指标设定的监测频率,例如30min或者1小时;计算每个基础筛选周期的初始评估值的平均值。在计算3h移动平均线时,将最近3h的数据质量评分相加,然后除以3即可得到3h移动平均线的值。以此类推,计算出各个周期的移动平均值;最终将离散点使用平滑曲线进行拟合,得到最终的平滑曲线。其中,拟合方式可以采用插值法,也可采用多项式拟合。由此,通过将待检测数据质量的实时的初始评估值转换为时间序列,之后根据移动平均线算法计算出平滑曲线,基于该平滑曲线对评估值进行预测,可以对待检测数据的质量进行高效预测,进而对待检测数据进行及时筛选预防。
本实施例根据质量检测指标对待检测数据进行初始质量评估,得到初始评估值;在预设的评估周期内对初始评估值进行统计,得到待检测数据对应的目标评估结果,实现了对数据质量的多次检测,提高了数据质量检测的准确率,并实现了对数据质量的实时监控。
在本申请一些实施例中,上述质量检测指标包括多个子检测指标,所述根据所述质量检测指标对所述待检测数据进行初始质量评估,得到初始评估值,包括:
计算所述待检测数据在各所述子检测指标的子评估值;
根据所述子评估值和所述子评估值对应的预设评估系数,确定所述待检测数据的初始评估值。
在本实施例中,待检测数据对应的质量检测指标下可以包括多个子检测指标,该子检测指标为待检测数据对应的最小评估单位。计算待检测数据在子检测指标下的子评估值,根据该子评估值确定待检测数据对应的初始评估值。具体地,获取各子检测指标对应的预设评估系数;根据该预设评估系数对该子评估值进行加权求和,得到待检测数据在该质量检测指标下的初始评估值。以质量检测指标包括字段的范围错误率、字段的格式错误率、字段的不标准率和字段的完整率为例,该字段的范围错误率、字段的格式错误率、字段的不标准率和字段的完整率即为该质量检测指标下的子检测指标。该质量检测指标的初始评估值即为该字段的范围错误率、字段的格式错误率、字段的不标准率和字段的完整率,分别与各自对应的预设评估系数进行加权求和得到。该待检测数据在该质量检测指标下的初始评估值的计算公式如下:
RealTimeScore(t)=a*ErrorRate(t)+b*FormatRate(t)+c*StandardRate(t)+d*CompleteRate(t)
其中,RealTimeScore(t)为初始评估值,a、b、c、d分别代表加权参数,t代表时间变量,为离散值,如小时值,ErrorRate(t)、FormatRate(t)、StandardRate(t)、CompleteRate(t)分别代表字段的范围错误率、字段的格式错误率、字段的不标准率和字段的完整率。
本实施例通过计算待检测数据在各所述子检测指标的子评估值,根据子评估值和子评估值对应的预设评估系数,确定待检测数据的初始评估值,实现了对待检测数据质量的初步实时检测,进一步提高了数据质量检测的准确度。
在本申请一些实施例中,上述在预设的评估周期内对所述初始评估值进行统计,得到所述待检测数据对应的目标评估结果,包括:
获取所述待检测数据在所述评估周期内不同评估时段的检测数据量;
根据所述检测数据量对各所述评估时段的初始评估值进行统计,得到所述待检测数据对应的目标评估结果。
在本实施例中,在得到待检测数据在质量检测指标下不同评估时段的初始评估值时,获取待检测数据在评估周期内不同评估时段的检测数据量,该检测数据量即为每个评估时段各初始评估值对应的待检测数据量。根据该检测数据量对各评估时段的初始评估值进行统计,即得到待检测数据对应的目标评估分数。具体的,该目标评估分数的计算公式如下:
OverallScore=V1*s(t1)+V2*s(t2)+...+Vn*s(tn)
其中,n为评估次数,一个评估时段对应一次评估,Vn为检测数据量,s(tn)为初始评估值,OverallScore为目标评估分数。根据该目标评估分数即可确定该待检测数据的目标评估结果。
本实施例通过检测数据量对各评估时段的初始评估值进行统计,得到待检测数据对应的目标评估结果,实现了对待检测数据的综合评估,提高了待检测数据质量检测的准确率。
在本申请一些实施例中,在上述按照所述异常等级对所述异常数据进行告警之后,还包括:
根据预设的目标接口对存储所述质量检测指标的数据库进行监控;
当检测到所述数据库存在指标更新时,获取目标更新指标,将所述目标更新指标对应的变更信息存储至所述待检测数据对应的容器中。
在本实施例中,在按照异常等级对异常数据进行告警之后,还可以根据预设的目标接口对存储质量检测指标的数据库进行监控。具体地,预设的目标接口为捕获数据库中存在变更的服务接口,如debezium。基于该目标接口,通过消息广播方式对存储质量检测指标的数据库的指标更新请求进行监控,当监控到指标更新请求时,确定数据库存在指标更新。除此之外,亦可通过数据库的连接器(如fl ink cdc)或定时器,对质量检测指标对应的存储表的变更日志流进行检测,进而确定数据库是否存在指标更新。其中,指标更新包括指标对应的质量检测规则和名称等的变更,若指标对应的质量检测规则或名称等存在变更,均确定数据库存在指标更新。因此,在检测到数据库存在指标更新时,获取目标更新指标,将目标更新指标更新及该目标更新指标对应的变更信息存储至待检测数据对应的容器中。该容器为待检测数据对应的任务容器。
本实施例通过根据预设的目标接口对存储质量检测指标的数据库进行监控,之后,当检测到数据库存在指标更新时,获取目标更新指标,将目标更新指标对应的变更信息存储至待检测数据对应的容器中,实现了对数据质量检测信息变更的热启动,无需重复修改代码,即可对数据质量检测的变更信息进行重发布,并支持指标的在线修改。
为便于更好的实施本申请实施例提供的数据质量检测方法,本申请实施例还提供一种基于上述数据质量检测方法的装置。其中名词的含义与上述数据质量检测方法中相同,具体实现细节可以参考方法实施例中的说明。
例如,如图4所示,该数据质量检测装置可以包括:读取模块401、评估模块402和告警模块403。其中,
读取模块401,用于基于目标数据处理库从目标数据源读取待检测数据,并获取所述待检测数据对应的质量检测指标;
评估模块402,用于根据所述质量检测指标对所述待检测数据进行质量评估,得到目标评估结果;
告警模块403,用于若所述目标评估结果为所述待检测数据是异常数据,则获取所述异常数据的异常等级,按照所述异常等级对所述异常数据进行告警。
在本申请一实施例中,上述读取模块401,包括:
第一获取单元,用于获取所述待检测数据的标签信息,以及所述待检测数据在所述目标数据源的连接信息;
读取单元,用于在所述目标数据处理库中根据所述标签信息和所述连接信息,从所述目标数据源读取出所述待检测数据。
在本申请一实施例中,上述读取模块401,还包括:
第二获取单元,用于获取所述待检测数据的检测维度,以及所述待检测数据所属业务的业务信息;
第一确认单元,用于根据所述检测维度和所述业务信息,确定所述待检测数据对应的质量检测指标。
在本申请一实施例中,上述评估模块402,包括:
初始评估单元,用于根据所述质量检测指标对所述待检测数据进行初始质量评估,得到初始评估值;
统计单元,用于在预设的评估周期内对所述初始评估值进行统计,得到所述待检测数据对应的目标评估结果。
在本申请一实施例中,上述初始评估单元,包括:
处理单元,用于计算所述待检测数据在各所述子检测指标的子评估值;
第二确认单元,用于根据所述子评估值和所述子评估值对应的预设评估系数,确定所述待检测数据的初始评估值。
在本申请一实施例中,上述统计单元,包括:
第三获取单元,用于获取所述待检测数据在所述评估周期内不同评估时段的检测数据量;
统计子单元,用于根据所述检测数据量对各所述评估时段的初始评估值进行统计,得到所述待检测数据对应的目标评估结果。
在本申请一实施例中,上述数据质量检测装置还包括:
监控模块,用于根据预设的目标接口对存储所述质量检测指标的数据库进行监控;
更新模块,用于当检测到所述数据库存在指标更新时,获取目标更新指标,将所述目标更新指标对应的变更信息存储至所述待检测数据对应的容器中。
本申请提出的数据质量检测装置,实现了无侵入式实时数据质量检测,减少了异常数据排查时长,提高了异常数据检测效率和异常数据识别准确率。
具体实施时,以上各个模块可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个模块的具体实施方式以及对应的有益效果可参见前面的方法实施例,在此不再赘述。
本申请实施例还提供一种电子设备,该电子设备可以是服务器或终端等,如图5所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解,图5中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中:
处理器601是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器602内的计算机程序和/或模块,以及调用存储在存储器602内的数据,执行电子设备的各种功能和处理数据。可选的,处理器601可包括一个或多个处理核心;优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储计算机程序以及模块,处理器601通过运行存储在存储器602的计算机程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
电子设备还包括给各个部件供电的电源603,优选的,电源603可以通过电源管理***与处理器601逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器601会按照如下的指令,将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的计算机程序,从而实现各种功能,比如:
基于目标数据处理库从目标数据源读取待检测数据,并获取所述待检测数据对应的质量检测指标;
根据所述质量检测指标对所述待检测数据进行质量评估,得到目标评估结果;
若所述目标评估结果为所述待检测数据是异常数据,则获取所述异常数据的异常等级,按照所述异常等级对所述异常数据进行告警。
本申请提出的电子设备,实现了无侵入式实时数据质量检测,减少了异常数据排查时长,提高了异常数据检测效率和异常数据识别准确率。
以上各个操作的具体实施方式以及对应的有益效果可参见上文对数据质量检测方法的详细描述,在此不作赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种数据质量检测方法中的步骤。例如,该计算机程序可以执行如下步骤:
基于目标数据处理库从目标数据源读取待检测数据,并获取所述待检测数据对应的质量检测指标;
根据所述质量检测指标对所述待检测数据进行质量评估,得到目标评估结果;
若所述目标评估结果为所述待检测数据是异常数据,则获取所述异常数据的异常等级,按照所述异常等级对所述异常数据进行告警。
本申请提出的计算机存储介质,实现了无侵入式实时数据质量检测,减少了异常数据排查时长,提高了异常数据检测效率和异常数据识别准确率。
以上各个操作的具体实施方式以及对应的有益效果可参见前面的实施例,在此不再赘述。
其中,该计算机存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种数据质量检测方法中的步骤,因此,可以实现本申请实施例所提供的任一种数据质量检测方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机存储介质中。计算机设备的处理器从计算机存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述数据质量检测方法。
以上对本申请实施例所提供的一种数据质量检测方法、装置、电子设备及计算机存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种数据质量检测方法,其特征在于,包括:
基于目标数据处理库从目标数据源读取待检测数据,并获取所述待检测数据对应的质量检测指标;
根据所述质量检测指标对所述待检测数据进行质量评估,得到目标评估结果;
若所述目标评估结果为所述待检测数据是异常数据,则获取所述异常数据的异常等级,按照所述异常等级对所述异常数据进行告警。
2.根据权利要求1所述的数据质量检测方法,其特征在于,所述基于目标数据处理库从目标数据源读取待检测数据,包括:
获取所述待检测数据的标签信息,以及所述待检测数据在所述目标数据源的连接信息;
在所述目标数据处理库中根据所述标签信息和所述连接信息,从所述目标数据源读取出所述待检测数据。
3.根据权利要求1所述的数据质量检测方法,其特征在于,所述获取所述待检测数据对应的质量检测指标,包括:
获取所述待检测数据的检测维度,以及所述待检测数据所属业务的业务信息;
根据所述检测维度和所述业务信息,确定所述待检测数据对应的质量检测指标。
4.根据权利要求1所述的数据质量检测方法,其特征在于,所述根据所述质量检测指标对所述待检测数据进行质量评估,得到目标评估结果,包括:
根据所述质量检测指标对所述待检测数据进行初始质量评估,得到初始评估值;
在预设的评估周期内对所述初始评估值进行统计,得到所述待检测数据对应的目标评估结果。
5.根据权利要求4所述的数据质量检测方法,其特征在于,所述质量检测指标包括多个子检测指标,所述根据所述质量检测指标对所述待检测数据进行初始质量评估,得到初始评估值,包括:
计算所述待检测数据在各所述子检测指标的子评估值;
根据所述子评估值和所述子评估值对应的预设评估系数,确定所述待检测数据的初始评估值。
6.根据权利要求4所述的数据质量检测方法,其特征在于,所述在预设的评估周期内对所述初始评估值进行统计,得到所述待检测数据对应的目标评估结果,包括:
获取所述待检测数据在所述评估周期内不同评估时段的检测数据量;
根据所述检测数据量对各所述评估时段的初始评估值进行统计,得到所述待检测数据对应的目标评估结果。
7.根据权利要求1所述的数据质量检测方法,其特征在于,在所述按照所述异常等级对所述异常数据进行告警之后,还包括:
根据预设的目标接口对存储所述质量检测指标的数据库进行监控;
当检测到所述数据库存在指标更新时,获取目标更新指标,将所述目标更新指标对应的变更信息存储至所述待检测数据对应的容器中。
8.一种数据质量检测装置,其特征在于,包括:
读取模块,用于基于目标数据处理库从目标数据源读取待检测数据,并获取所述待检测数据对应的质量检测指标;
评估模块,用于根据所述质量检测指标对所述待检测数据进行质量评估,得到目标评估结果;
告警模块,用于若所述目标评估结果为所述待检测数据是异常数据,则获取所述异常数据的异常等级,按照所述异常等级对所述异常数据进行告警。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行权利要求1至7任一项所述的数据质量检测方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行权利要求1至7任一项所述的数据质量检测方法。
CN202311491295.2A 2023-11-08 2023-11-08 数据质量检测方法、装置、电子设备及计算机存储介质 Pending CN117609202A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311491295.2A CN117609202A (zh) 2023-11-08 2023-11-08 数据质量检测方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311491295.2A CN117609202A (zh) 2023-11-08 2023-11-08 数据质量检测方法、装置、电子设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN117609202A true CN117609202A (zh) 2024-02-27

Family

ID=89958801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311491295.2A Pending CN117609202A (zh) 2023-11-08 2023-11-08 数据质量检测方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN117609202A (zh)

Similar Documents

Publication Publication Date Title
CN110213068A (zh) 一种消息中间件的监控方法及相关设备
CN110377704B (zh) 数据一致性的检测方法、装置和计算机设备
CN106649681B (zh) 一种数据处理方法、装置及设备
CN109241084B (zh) 数据的查询方法、终端设备及介质
CN114091704B (zh) 一种告警压制方法和装置
CN112650608B (zh) 异常根因定位方法以及相关装置、设备
CN110866698A (zh) 用于评定服务提供方的服务分值的装置
CN112861895B (zh) 一种异常物品的检测方法和装置
CN112995690A (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN110413881B (zh) 一种识别标签准确性的方法、装置、网络设备和存储介质
CN113849362B (zh) 一种业务服务平台管理方法、装置和计算机可读存储介质
CN112767080A (zh) 一种基于流式计算的告警方法、装置及介质
CN110717653A (zh) 风险识别方法及装置和电子设备
CN117609202A (zh) 数据质量检测方法、装置、电子设备及计算机存储介质
CN110991241A (zh) 异常识别方法、设备及计算机可读介质
CN115641198A (zh) 用户运营方法、装置、电子设备和存储介质
CN113568769B (zh) 异常处理方法、装置、服务器及存储介质
CN114374857B (zh) 一种内容分发方法、装置、服务器及存储介质
CN114860672A (zh) 批处理数据任务的节点管理方法与***
CN114443407A (zh) 一种服务器的检测方法、***、电子设备及存储介质
CN113342625A (zh) 一种数据监控方法及***
WO2014066355A1 (en) Content item type determination and selection
CN113111139A (zh) 一种基于物联传感器的告警检测方法和装置
CN113873278A (zh) 播放内容审核方法、装置及电子设备
CN110688273B (zh) 分类模型的监控方法、装置、终端以及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination