CN113220530A - 数据质量监控方法及平台 - Google Patents

数据质量监控方法及平台 Download PDF

Info

Publication number
CN113220530A
CN113220530A CN202110529402.0A CN202110529402A CN113220530A CN 113220530 A CN113220530 A CN 113220530A CN 202110529402 A CN202110529402 A CN 202110529402A CN 113220530 A CN113220530 A CN 113220530A
Authority
CN
China
Prior art keywords
data
computing
calculation
node
data quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110529402.0A
Other languages
English (en)
Other versions
CN113220530B (zh
Inventor
张杨
刘方奇
郑志升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bilibili Technology Co Ltd
Original Assignee
Shanghai Bilibili Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bilibili Technology Co Ltd filed Critical Shanghai Bilibili Technology Co Ltd
Priority to CN202110529402.0A priority Critical patent/CN113220530B/zh
Publication of CN113220530A publication Critical patent/CN113220530A/zh
Application granted granted Critical
Publication of CN113220530B publication Critical patent/CN113220530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供了一种数据质量监控平台,所述数据质量监控平台包括:工作流引擎,所述工作流引擎包括至少一个数据计算节点及至少一个数据存储节点,其中,每一个数据计算节点用于对从数据源中获取数据并按照预设的计算规则对获取到的数据进行计算,得到第一计算结果,所述数据存储节点与所述数据计算节点一一对应,用于存储所述数据计算节点的第一计算结果;数据存储***,用于存储从每一个数据计算节点中获取到的第一计算结果中包含的预设类型的第二计算结果;数据质量监控***,用于从所述数据存储装置中消费多个第二计算结果,并对消费到的各个第二计算结果进行数据质量分析,得到数据质量分析结果。本申请可以提高排查效率。

Description

数据质量监控方法及平台
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种数据质量监控方法及平台。
背景技术
随着网络技术的飞速发展,许多企业和团体通过构建工作流引擎来对每一天收集到的各种类型的数据进行分析。现有技术中,工作流引擎一般包括多个数据计算节点以及多个数据存储节点,通过数据计算节点对各种类型的数据进行计算,并将计算得到的数据结果存储至数据存储节点中。
然而,发明人发现,由于工作流引擎中存在多个数据计算节点,当某个数据计算节点在对数据进行计算的过程中,因各种原因导致计算结果出现问题时,要在该工作流引擎中分析出具体是哪个数据节点出现问题时非常困难,一般需要对数据计算节点一个一个进行排查,需要耗费大量的时间,排查效率非常低。
发明内容
本申请实施例的目的是提供一种数据质量监控平台,可以解决现有技术中的工作流引擎中的数据计算节点在出现问题时,排查出具体是哪个数据计算节点出现问题需要耗费大量数量,排查效率非常低的问题。
本申请实施例的一个方面提供了一种数据质量监控平台,包括:
工作流引擎,所述工作流引擎包括至少一个数据计算节点及至少一个数据存储节点,其中,每一个数据计算节点用于对从数据源中获取数据并按照预设的计算规则对获取到的数据进行计算,得到第一计算结果,所述数据存储节点与所述数据计算节点一一对应,用于存储所述数据计算节点的第一计算结果,至少一个第一数据计算节点的第一计算结果作为第二数据计算节点的输入数据,所述第一数据计算节点与所述第二数据节点皆为所述工作流引擎中的其中一个数据计算节点;
数据存储***,用于存储从每一个数据计算节点中获取到的第一计算结果中包含的预设类型的第二计算结果;
数据质量监控***,用于从所述数据存储装置中获取多个第二计算结果,并对获取到的各个第二计算结果进行数据质量分析,得到数据质量分析结果。
可选的,所述数据质量监控平台还包括:
数据分析***,用于存储所述数据质量分析结果,以便用户对所述数据质量分析结果进行查询与分析。
可选的,所述工作流引擎,还用于在每一个数据计算节点中设置通过侧输出方式输出的数据的数据类型,以作为所述第二计算结果的数据类型。
可选的,所述数据质量监控平台,还用于设置每一个数据计算节点对应的数据质量校验规则。
可选的,所述数据质量监控平台,还用于:
在从所述数据存储装置中获取到多个第二计算结果时,确定每一个第二计算结果对应的数据计算节点;
获取确定的各个数据计算节点对应的数据质量校验规则;
判断每一个第二计算结果是否符合对应的数据质量校验规则;
若当前的第二计算结果不符合数据质量校验规则,则输出告警信息。
可选的,所述数据质量监控平台,还用于:
若当前的第二计算结果不符合数据质量校验规则,则将当前的第二计算结果进行数据清洗处理。
可选的,所述数据质量校验规则包括第二计算结果是否超过预设的告警阈值,所述数据质量监控平台,还用于:
若当前的第二计算结果超过对应的告警阈值,则输出告警信息。
可选的,所述告警阈值包括以下至少一种:
预设时间段内的第二计算结果的均值、预设时间段内的第二计算结果的最大值、预设时间段内的第二计算结果的最小值。
本申请还提供一种数据质量监控方法,应用于包括工作流引擎、数据存储***、数据质量监控***的数据质量监控平台中,所述方法包括:
在所述工作流引擎中创建至少一个数据计算节点及至少一个数据存储节点,其中,每一个数据计算节点用于对从数据源中获取数据并按照预设的计算规则对获取到的数据进行计算,得到第一计算结果,所述数据存储节点与所述数据计算节点一一对应,用于存储所述数据计算节点的第一计算结果,至少一个第一数据计算节点的第一计算结果作为第二数据计算节点的输入数据,所述第一数据计算节点与所述第二数据节点皆为所述工作流引擎中的其中一个数据计算节点;
通过所述数据存储***存储从每一个数据计算节点中获取到的第一计算结果中包含的预设类型的第二计算结果;
通过所述数据质量监控***从所述数据存储装置中获取多个第二计算结果,并对获取到的各个第二计算结果进行数据质量分析,得到数据质量分析结果。
可选地,所述数据质量监控平台还包括数据质量监控平台,所述方法还包括:通过所述数据分析***存储所述数据质量分析结果,以便用户对所述数据质量分析结果进行查询与分析本申请实施例提供的数据质量监控平台,通过对每一个数据计算节点采用侧输出方式输出数据到数据存储***,并通过数据质量监控平台从数据存储***中获取数据,以及对获取到的数据进行数据质量分析,得到数据质量分析结果。在本申请中,由于存储至数据存储***中的数据是来自各个数据计算节点的,因此,对这些数据进行分析时,当分析结果为数据异常时,即可以直接确定出是是哪一个数据计算节点出现问题,及时发现出现问题的数据计算节点,提高排查效率。
附图说明
图1示意性示出了本申请一实施方式中的数据质量监控平台的架构示意图;
图2示意性示出了本申请一实施方式的数据质量监控平台的框图;
图3为意性示出了本申请实施例中的工作流引擎的架构示意图;
图4示意性示出了本申请另一实施方式的数据质量监控平台的框图;
图5示意性示出了本申请一实施方式的数据质量监控方法的流程示意图。
具体实施方式
为了使本申请实施例的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
图1示意性示出了本申请一实施方式中的数据质量监控平台的架构示意图,在示例性的实施方式中,该数据质量监控平台可以包括以下几部分:工作流引擎1、数据存储***2、数据质量监控***3(Data Quality Center,数据质量中心)。
所述工作流引擎1可以为Airflow,Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行。
所述数据存储***2用于存储数据的数据库,所述数据库可以ES、Hive、Kafka、HDFS和Hbase等,在本实施例中,所述数据库优选为Kafka。
所述数据质量监控***3,或者称为数据质量中心(Data Quality Center,DQC),用于对数据质量进行监测,可以通过配置数据质量校验规则,自动在数据处理任务过程中进行数据质量方面的监控。
DQC主要有数据监控和数据清洗两大功能。数据监控,指的是能监控数据质量并报警,其本身不对数据产出进行处理,需要报警接收人判断并决定如何处理;而数据清洗则是将不符合既定规则的数据清洗掉,以保证最终数据产出不含“脏数据”,数据清洗不会触发报警。
为了帮助理解所述数据质量监控平台的工作原理,下面对其提供的数据质量监控服务进行介绍:客户端通过HTTP、RPC等协议将各种待分析的数据源上报至对应的数据计算节点中,以通过数据计算节点对数据源进行相应地计算,并在完成计算后,将计算结果存储至与之对应的数据存储节点中,同时,数据计算节点会通过侧输出的方式输出该计算结果中满足预设规则的数据至数据存储***2,之后,通过数据质量监控***3从数据存储***2中获取数据,并对获取到的数据进行分析,得到数据质量分析结果,比如得到告警信息。
图2示意性示出了根据本申请实施例一实施方式的数据质量监控平台的框图。如图2所示,该数据质量监控平台可以包括工作流引擎20、数据存储***21及数据质量监控***22,其中:
工作流引擎20包括至少一个数据计算节点201及至少一个数据存储节点202,其中,图2中以一个数据计算节点201及一个数据存储节点202作为示例。
其中,每一个数据计算节点201用于从数据源中获取数据,并按照预设的计算规则对获取到的数据进行计算,得到第一计算结果,至少一个第一数据计算节点的第一计算结果作为第二数据计算节点的输入数据,所述第一数据计算节点与所述第二数据节点皆为所述工作流引擎中的其中一个数据计算节点。
具体地,所述数据源为需要分析的业务数据,客户端可以通过HTTP、RPC等协议将这些数据上报至对应的数据计算节点中,以供数据计算节点进行计算。在一视频场景中,所述数据源可以为视频应用(app)通过HTTP、RPC等协议上报的用户观看视频时的观看时长信息,视频名称信息、视频类型信息等,也可以为用户观看视频时的用户行为数据,其中,用户行为数据可以包括用户对视频的收藏行为,点赞行为等。
在本实施例中,该数据计算节点201可以为Spark或Spark。Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎,其可以对对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是:Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark也是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使Spark在某些工作负载方面表现得更加优越,换句话说,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark是在Scala语言中实现的,它将Scala用作其应用程序框架。与Hadoop不同,Spark和Scala能够紧密集成,其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。
需要说明是,上述Flink或Spark一般通过Flink集群或者Spark集群的方式对外提供数据计算服务。
其中,所述计算规则为用户预先设定的对获取到的数据进行计算的规则,比如,若获取到的数据为视频的播放时长数据,则该计算规则可以为统计用户观看某一类型的视频的总时长。
所述数据存储节点202与数据计算节点201一一对应,用于存储数据计算节点202的第一计算结果。
在本实施例中,该数据存储节点可以为Kafka、Redis或hive。
其中,Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息***,它可以处理获取者在网站中的所有动作流数据,其中,动作流数据包括网页浏览,搜索和其他行为数据。
Redis是一个key-value存储***。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set--有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,Redis支持各种不同方式的排序。与memcached一样,为了保证效率,数据都是缓存在内存中。区别的是Redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了master-slave(主从)同步。
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。Hive十分适合对数据仓库进行统计分析。
在一示例性的实施方式中,参照图3,所述工作流引擎20可以包括第三数据计算节点(Flink A)、用于存储第三数据计算节点的计算结果的第一数据存储节点(Kafka A)、第四数据计算节点(Spark)、用于存储第四数据计算节点的计算结果的第二数据存储节点(Redis A)、用于从所述第一数据存储节点及所述第二数据存储节点中获取数据,并对获取到的数据进行数据流合并与计算的第五数据计算节点(Flink B)、用于存储第五数据计算节点的计算结果的第三数据存储节点(Kafka B)、第六数据计算节点(Flink C)、用于存储第六数据计算节点的计算结果的第四数据存储节点(Redis B)、用于从所述第三数据存储节点及所述第四数据存储节点中获取数据,并对获取到的数据进行数据流合并与计算的第七数据计算节点(Flink D)、以及用于存储第七数据计算节点的计算结果的第五数据存储节点(Hive)。
需要说明的是,第三数据计算节点、第四数据计算节点及第六数据计算节点中对需要进行计算的数据是不同的。
数据存储***21,用于存储从每一个数据计算节点中获取到的第一计算结果中包含的预设类型的第二计算结果。
具体地,可以通过侧输出(side-output)方式从每一个数据计算节点中获取第一计算结果中包含的第二计算结果。
其中,侧输出(side-output)是一种将数据流进行分割,而不对数据流进行复制的分流机制。其中,侧输出结果流的数据类型不需要与主数据流的类型一致,不同侧输出流的类型也可以不同。
所述预设类型是用户预先设定的侧输出方式需要输出的数据的类型。
在本实施例中,为了从每一个数据计算节点的第一计算结果中获取预设类型的第二计算结果,需要先通过工作流引擎20在每一个数据计算节点中设置通过侧输出方式输出的数据的数据类型,以作为所述第二计算结果的数据类型。具体而言,可以定义一个OutputTag,这个OutputTag将用来标识一个侧输出流所需输出的数据的数据类型。
在本实施例中,当在数据计算节点中定义了通过侧输出方式输出的数据的数据类型后,则在数据计算节点对数据进行计算得到第一计算结果后,即会对计算得到的第一计算结果与侧输出所设定的数据类型进行匹配,以确定当前得到的第一计算结果的数据类型是否为侧输出方式所定义的数据类型,若该第一计算结果的数据类型与侧输出方式所定义的数据类型相匹配,则会将该第一计算结果作为第二计算结果,并将该第二计算结果输出至数据存储***21中。
需要说明的是,为了便于后续可以区分各个数据计算节点通过侧输出方式输出的第二计算结果,在将第二计算结果输出至数据存储***时,每一个第二计算结果会携带当前的数据计算节点的标识信息,其中,该标识信息用于唯一区分不同的数据计算节点。
在本实施例中,该数据存储***优选为Kafka集群。
数据质量监控***22,用于从所述数据存储装置中获取多个第二计算结果,并对获取到的各个第二计算结果进行数据质量分析,得到数据质量分析结果。
具体地,为了便于对各个第二计算结果进行数据质量分析,数据质量监控***22,可以预先设置每一个数据计算节点201对应的数据质量校验规则。在本实施例中,每一个数据计算节点201可以设置一条数据质量校验规则,也可以设置多条数据质量校验规则,具体设定的数据质量校验规则数目可以根据实际情况进行确定,在本实施例中不作限定。
其中,所述数据质量校验规则为用于对第二计算结果进行校验的规则。在本实施例中,该数据质量校验规则可以包括主键监控规则、表数据量监控规则及波动监控规则、重要字段的非空监控规则、重要枚举字段的离散值监控规则、指标值波动监控规则、业务规则监控规则等。
所述数据质量分析结果可以为输出告警信息,或者为需要对当前的第二计算结果进行数据清理操作等。
在一示例性的实施方式中,数据质量监控***22,还用于在从所述数据存储装置中获取到多个第二计算结果时,确定每一个第二计算结果对应的数据计算节点;获取确定的各个数据计算节点对应的数据质量校验规则;判断每一个第二计算结果是否符合对应的数据质量校验规则;若当前的第二计算结果不符合数据质量校验规则,则输出告警信息。
具体地,由于不同的第二计算结果可能来自于不同的数据计算节点,因此,在对每一个第二计算结果进行校验时,需要先确定当前的第二计算结果来自于哪个数据计算节点,之后,可以获取该数据计算节点对应的数据质量校验规则。比如,数据计算节点A对应的数据质量校验规则为规则1、数据计算节点B对应的数据质量校验规则为规则2及规则3,则在当前的第二计算结果来自于数据计算节点B时,则可以采用规则2及规则3对当前的第二计算结果进行校验。
在本实施例中,当通过数据质量校验规则对当前的第二计算结果进行校验时,发现当前的第二计算结果不符合数据质量校验规则时,则可以输出告警信息,以告知用户当前哪个数据计算节点出现了问题。
在一示例性的实施方式中,所述数据质量监控平台22,还用于:若当前的第二计算结果不符合数据质量校验规则,则将当前的第二计算结果进行数据清洗处理。
具体地,在进行数据清洗之前,需要先配置数据清洗规则,这样,在进行数据清洗处理时,即可以调用预先配置好的数据清洗规则将符合数据清洗规则的数据清洗掉。
在一示例性的实施方式中,所述数据质量校验规则可以包括第二数据计算结果是否超过预设的告警阈值,其中,所述告警阈值可以为预设时间段内的第二计算结果的均值、预设时间段内的第二计算结果的最大值、预设时间段内的第二计算结果的最小值。该预设时间段可以根据实际情况进行设定,比如,所述预设时间段为最近一星期,最近一个月,最近一天等。
需要说明的是,来自于不同数据计算节点的第二计算结果对应的告警阈值是根据对应的数据计算节点接收到的第二计算结果进行确定的。比如,对于数据计算节点A对应的告警阈值为根据最近30天从数据计算节点A接收到第二计算结果进行确定的,比如,将30天接收到的第二计算结果的平均值作为该告警阈值,或者将30天接收到的第二计算结果的最大值作为该告警阈值,或者将30天接收到的第二计算结果的最小值作为该告警阈值。
在本实施例中,若当前的第二计算结果超过对应的告警阈值,所述数据质量监控平台22才会输出告警信息。若当前的第二计算结果没有超过对应的告警阈值,则所述数据质量监控平台22不会输出告警信息。
作为示例,假设当前的第二计算结果为视频的播放时长数据,对当前的第二计算结果对应的告警阈值为播放时长为3小时。此时,若当前的第二计算结果为播放时长为3.5小时,则可以判定当前的第二计算结果超过告警阈值,输出告警信息给用户。
在一示例性的实施方式中,参照图4,所述数据质量监控平台包括:工作流引擎40、数据存储***41、数据质量监控***42及数据分析***43。
其中,工作流引擎40、数据存储***41、数据质量监控***42与上述实施例中的工作流引擎20、数据存储***21、数据质量监控***22相同,在本实施例中不再赘述。
所述数据分析***43,用于存储所述数据质量分析结果,以便用户对所述数据质量分析结果进行查询与分析。
具体地,所述数据分析***43可以为ClickHouse数据库。
其中,ClickHouse数据库是一个用于实时数据分析的基于列存储的数据库,其处理数据的速度比传统方法快100-1000倍。ClickHouse的性能超过了目前市场上可比的面向列的DBMS,每秒钟每台服务器每秒处理数亿至十亿多行和数十千兆字节的数据。ClickHouse从OLAP场景需求出发,定制开发了一套全新的高效列式存储引擎,并且实现了数据有序存储、主键索引、稀疏索引、数据Sharding、数据Partitioning、TTL、主备复制等丰富功能。
本实施例中,通过ClickHouse对数据质量分析结果进行存储,使得用户可以非常方便地对所述数据质量分析结果进行查询与分析。在一实施方式中,通过对该数据质量分析结果进行存储,也可以用来绘制监控面板,以实现对各个数据计算节点的监控。
本申请实施例提供的数据质量监控平台,通过对每一个数据计算节点采用侧输出方式输出数据到数据存储***,并通过数据质量监控平台从数据存储***中获取数据,以及对获取到的数据进行数据质量分析,得到数据质量分析结果。在本申请中,由于存储至数据存储***中的数据是来自各个数据计算节点的,因此,对这些数据进行分析时,当分析结果为数据异常时,即可以直接确定出是是哪一个数据计算节点出现问题,及时发现出现问题的数据计算节点,提高排查效率。
参照图5,其为本申请一实施例的数据质量监控方法的流程示意图。该方法应用于包括工作流引擎、数据存储***、数据质量监控***的数据质量监控平台中,其中,所述数据质量监控平台为上述实施例中的数据质量监控平台,在本实施例中不再赘述。
在本实施例中,所述方法包括:
步骤S50,在所述工作流引擎中创建至少一个数据计算节点及至少一个数据存储节点,其中,每一个数据计算节点用于对从数据源中获取数据并按照预设的计算规则对获取到的数据进行计算,得到第一计算结果,所述数据存储节点与所述数据计算节点一一对应,用于存储所述数据计算节点的第一计算结果,至少一个第一数据计算节点的第一计算结果作为第二数据计算节点的输入数据,所述第一数据计算节点与所述第二数据节点皆为所述工作流引擎中的其中一个数据计算节点。
步骤S51,通过所述数据存储***存储从每一个数据计算节点中获取到的第一计算结果中包含的预设类型的第二计算结果。
步骤S52,通过所述数据质量监控***从所述数据存储装置中获取多个第二计算结果,并对获取到的各个第二计算结果进行数据质量分析,得到数据质量分析结果。
在一示例性的实施方式中,所述数据质量监控平台还包括:数据分析***,所述方法还包括:通过所述数据分析***存储所述数据质量分析结果,以便用户对所述数据质量分析结果进行查询与分析。
在一示例性的实施方式中,所述方法还包括:
通过所述工作流引擎在每一个数据计算节点中设置通过侧输出方式输出的数据的数据类型,以作为所述第二计算结果的数据类型。
在一示例性的实施方式中,所述方法还包括:通过所述数据质量监控平台设置每一个数据计算节点对应的数据质量校验规则。
在一示例性的实施方式中,通过所述数据质量监控***从所述数据存储装置中获取多个第二计算结果,并对获取到的各个第二计算结果进行数据质量分析,得到数据质量分析结果包括:在从所述数据存储装置中消费到多个第二计算结果时,确定每一个第二计算结果对应的数据计算节点;获取确定的各个数据计算节点对应的数据质量校验规则;判断每一个第二计算结果是否符合对应的数据质量校验规则;若当前的第二计算结果不符合数据质量校验规则,则输出告警信息。
在一示例性的实施方式中,通过所述数据质量监控***从所述数据存储装置中获取多个第二计算结果,并对获取到的各个第二计算结果进行数据质量分析,得到数据质量分析结果还包括:
若当前的第二计算结果不符合数据质量校验规则,则将当前的第二计算结果进行数据清洗处理。
在一示例性的实施方式中,所述数据质量校验规则包括第二计算结果是否超过预设的告警阈值,所述若当前的第二计算结果不符合数据质量校验规则,则输出告警信息包括:
若当前的第二计算结果超过对应的告警阈值,则输出告警信息。
本申请实施例提供的数据质量监控方法,通过对每一个数据计算节点采用侧输出方式输出数据到数据存储***,并通过数据质量监控平台从数据存储***中获取数据,以及对获取到的数据进行数据质量分析,得到数据质量分析结果。在本申请中,由于存储至数据存储***中的数据是来自各个数据计算节点的,因此,对这些数据进行分析时,当分析结果为数据异常时,即可以直接确定出是是哪一个数据计算节点出现问题,及时发现出现问题的数据计算节点,提高排查效率。
本实施例还提供一种计算机可读存储介质,计算机可读存储介质其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
在工作流引擎中创建至少一个数据计算节点及至少一个数据存储节点,其中,每一个数据计算节点用于对从数据源中获取数据并按照预设的计算规则对获取到的数据进行计算,得到第一计算结果,所述数据存储节点与所述数据计算节点一一对应,用于存储所述数据计算节点的第一计算结果,至少一个第一数据计算节点的第一计算结果作为第二数据计算节点的输入数据,所述第一数据计算节点与所述第二数据节点皆为所述工作流引擎中的其中一个数据计算节点;
通过数据存储***存储从每一个数据计算节点中获取到的第一计算结果中包含的预设类型的第二计算结果;
通过数据质量监控***从所述数据存储装置中获取多个第二计算结果,并对获取到的各个第二计算结果进行数据质量分析,得到数据质量分析结果。
本实施例中,计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,计算机可读存储介质可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,计算机可读存储介质也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,计算机可读存储介质通常用于存储安装于计算机设备的操作***和各类应用软件,例如实施例中的用于通过所述数据质量监控平台实现的数据质量监控方法的程序代码等。此外,计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种数据质量监控平台,其特征在于,所述数据质量监控平台包括:
工作流引擎,所述工作流引擎包括至少一个数据计算节点及至少一个数据存储节点,其中,每一个数据计算节点用于对从数据源中获取数据并按照预设的计算规则对获取到的数据进行计算,得到第一计算结果,所述数据存储节点与所述数据计算节点一一对应,用于存储所述数据计算节点的第一计算结果;至少一个第一数据计算节点的第一计算结果作为第二数据计算节点的输入数据,所述第一数据计算节点与所述第二数据节点皆为所述工作流引擎中的其中一个数据计算节点;
数据存储***,用于存储从每一个数据计算节点中获取到的第一计算结果中包含的预设类型的第二计算结果;
数据质量监控***,用于从所述数据存储装置中获取多个第二计算结果,并对获取到的各个第二计算结果进行数据质量分析,得到数据质量分析结果。
2.根据权利要求1所述的数据质量监控平台,其特征在于,所述数据质量监控平台还包括:
数据分析***,用于存储所述数据质量分析结果,以便用户对所述数据质量分析结果进行查询与分析。
3.根据权利要求1所述的数据质量监控平台,其特征在于,所述工作流引擎,还用于在每一个数据计算节点中设置通过侧输出方式输出的数据的数据类型,以作为所述第二计算结果的数据类型。
4.根据权利要求1所述的数据质量监控平台,其特征在于,所述数据质量监控平台,还用于设置每一个数据计算节点对应的数据质量校验规则。
5.根据权利要求4所述的数据质量监控平台,其特征在于,所述数据质量监控平台,还用于:
在从所述数据存储装置中消费到多个第二计算结果时,确定每一个第二计算结果对应的数据计算节点;
获取确定的各个数据计算节点对应的数据质量校验规则;
判断每一个第二计算结果是否符合对应的数据质量校验规则;
若当前的第二计算结果不符合数据质量校验规则,则输出告警信息。
6.根据权利要求5所述的数据质量监控平台,其特征在于,所述数据质量监控平台,还用于:
若当前的第二计算结果不符合数据质量校验规则,则将当前的第二计算结果进行数据清洗处理。
7.根据权利要求5所述的数据质量监控平台,其特征在于,所述数据质量校验规则包括第二计算结果是否超过预设的告警阈值,所述数据质量监控平台,还用于:
若当前的第二计算结果超过对应的告警阈值,则输出告警信息。
8.根据权利要求7所述的数据质量监控平台,其特征在于,所述告警阈值包括以下至少一种:
预设时间段内的第二计算结果的均值、预设时间段内的第二计算结果的最大值、预设时间段内的第二计算结果的最小值。
9.一种数据质量监控方法,应用于包括工作流引擎、数据存储***、数据质量监控***的数据质量监控平台中,其特征在于,所述方法包括:
在所述工作流引擎中创建至少一个数据计算节点及至少一个数据存储节点,其中,每一个数据计算节点用于对从数据源中获取数据并按照预设的计算规则对获取到的数据进行计算,得到第一计算结果,所述数据存储节点与所述数据计算节点一一对应,用于存储所述数据计算节点的第一计算结果;至少一个第一数据计算节点的第一计算结果作为第二数据计算节点的输入数据,所述第一数据计算节点与所述第二数据节点皆为所述工作流引擎中的其中一个数据计算节点;
通过所述数据存储***存储从每一个数据计算节点中获取到的第一计算结果中包含的预设类型的第二计算结果;
通过所述数据质量监控***从所述数据存储装置中获取多个第二计算结果,并对获取到的各个第二计算结果进行数据质量分析,得到数据质量分析结果。
10.根据权利要求9所述的数据质量监控方法,其特征在于,所述数据质量监控平台还包括数据质量监控平台,所述方法还包括:通过所述数据分析***存储所述数据质量分析结果,以便用户对所述数据质量分析结果进行查询与分析。
CN202110529402.0A 2021-05-14 2021-05-14 数据质量监控方法及平台 Active CN113220530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110529402.0A CN113220530B (zh) 2021-05-14 2021-05-14 数据质量监控方法及平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110529402.0A CN113220530B (zh) 2021-05-14 2021-05-14 数据质量监控方法及平台

Publications (2)

Publication Number Publication Date
CN113220530A true CN113220530A (zh) 2021-08-06
CN113220530B CN113220530B (zh) 2022-07-19

Family

ID=77092018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110529402.0A Active CN113220530B (zh) 2021-05-14 2021-05-14 数据质量监控方法及平台

Country Status (1)

Country Link
CN (1) CN113220530B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641420A (zh) * 2021-08-16 2021-11-12 北京明略昭辉科技有限公司 基于Flink的工作流引擎实现方法、***、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9317805B1 (en) * 2013-03-12 2016-04-19 Ubs Ag System and method of performing modular quantitative analysis with nodes that have contextual labels
CN108270618A (zh) * 2017-12-30 2018-07-10 杭州华为数字技术有限公司 告警判定的方法、装置及告警***
CN110908883A (zh) * 2019-11-15 2020-03-24 江苏满运软件科技有限公司 用户画像数据监控方法、***、设备及存储介质
CN111459986A (zh) * 2020-04-07 2020-07-28 中国建设银行股份有限公司 数据计算***及方法
CN111563103A (zh) * 2020-04-28 2020-08-21 厦门市美亚柏科信息股份有限公司 一种用于数据血缘检测方法和***
CN112529528A (zh) * 2020-12-16 2021-03-19 中国南方电网有限责任公司 基于大数据流计算的工作流监控与告警方法、装置及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9317805B1 (en) * 2013-03-12 2016-04-19 Ubs Ag System and method of performing modular quantitative analysis with nodes that have contextual labels
CN108270618A (zh) * 2017-12-30 2018-07-10 杭州华为数字技术有限公司 告警判定的方法、装置及告警***
CN110908883A (zh) * 2019-11-15 2020-03-24 江苏满运软件科技有限公司 用户画像数据监控方法、***、设备及存储介质
CN111459986A (zh) * 2020-04-07 2020-07-28 中国建设银行股份有限公司 数据计算***及方法
CN111563103A (zh) * 2020-04-28 2020-08-21 厦门市美亚柏科信息股份有限公司 一种用于数据血缘检测方法和***
CN112529528A (zh) * 2020-12-16 2021-03-19 中国南方电网有限责任公司 基于大数据流计算的工作流监控与告警方法、装置及***

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
卜尧等: "BDAP――一个基于Spark的数据挖掘工具平台", 《中国科学技术大学学报》 *
曹舒扬等: "基于大数据的广播电视节目互联网舆情分析***设计", 《广播电视信息》 *
柯文等: "信息化综合运维管理***的设计与实现", 《铁路计算机应用》 *
潘卫军等: "民航空管大数据处理平台架构研究", 《计算机应用与软件》 *
王兴等: "基于物联网的林产品可追溯***设计", 《森林工程》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641420A (zh) * 2021-08-16 2021-11-12 北京明略昭辉科技有限公司 基于Flink的工作流引擎实现方法、***、设备及存储介质

Also Published As

Publication number Publication date
CN113220530B (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
US20230126005A1 (en) Consistent filtering of machine learning data
US10366053B1 (en) Consistent randomized record-level splitting of machine learning data
US8719271B2 (en) Accelerating data profiling process
US10713589B1 (en) Consistent sort-based record-level shuffling of machine learning data
US11100420B2 (en) Input processing for machine learning
US11182691B1 (en) Category-based sampling of machine learning data
US10318882B2 (en) Optimized training of linear machine learning models
US10614087B2 (en) Data analytics on distributed databases
US8276022B2 (en) Efficient failure detection for long running data transfer jobs
CN111209352A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN107391528B (zh) 前端组件依赖信息搜索方法及设备
CN111314158B (zh) 大数据平台监控方法、装置及设备、介质
AU2021244852B2 (en) Offloading statistics collection
CN116009428A (zh) 基于流式计算引擎的工业数据监控***和方法、介质
KR20150118963A (ko) 큐 모니터링 및 시각화
CN113190426B (zh) 一种大数据评分***稳定性监控方法
CN113360581A (zh) 数据处理方法、装置及存储介质
CN113220530B (zh) 数据质量监控方法及平台
CN113468196B (zh) 用于处理数据的方法、装置、***、服务器和介质
CN116010452A (zh) 基于流式计算引擎的工业数据处理***和方法、介质
CN113760677A (zh) 异常链路分析方法、装置、设备及存储介质
US11023449B2 (en) Method and system to search logs that contain a massive number of entries
CN104317820B (zh) 报表的统计方法和装置
CN117131059A (zh) 报表数据处理方法、装置、设备及存储介质
US20130151478A1 (en) Verifying consistency levels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant