CN115328974A - 一种数据实时性检测方法、装置、设备及可读存储介质 - Google Patents

一种数据实时性检测方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN115328974A
CN115328974A CN202211243628.5A CN202211243628A CN115328974A CN 115328974 A CN115328974 A CN 115328974A CN 202211243628 A CN202211243628 A CN 202211243628A CN 115328974 A CN115328974 A CN 115328974A
Authority
CN
China
Prior art keywords
data
time
layer table
real
piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211243628.5A
Other languages
English (en)
Other versions
CN115328974B (zh
Inventor
龚浩
张宇
李晓聪
王浩东
姚树为
代陶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Sagittarius Integration Co Ltd
Original Assignee
South Sagittarius Integration Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Sagittarius Integration Co Ltd filed Critical South Sagittarius Integration Co Ltd
Priority to CN202211243628.5A priority Critical patent/CN115328974B/zh
Publication of CN115328974A publication Critical patent/CN115328974A/zh
Application granted granted Critical
Publication of CN115328974B publication Critical patent/CN115328974B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及一种数据实时性检测方法、装置、设备及可读存储介质,包括通过流计算引擎对待计算流数据进行处理,以生成原始数据层表,所述原始数据层表包括多条数据以及每条数据处理完成后对应的第一时刻;基于所述流计算引擎和原始数据层表生成数据应用层表,所述数据应用层表包括每条数据处理完成后对应的第二时刻;基于所述第二时刻和所述第一时刻计算所述数据应用层表中每条数据的总延迟时间;根据所述数据应用层表中各条数据的总延迟时间确定出总延迟时间95%分位数;当检测到总延迟时间95%分位数大于目标实时性指标阈值时,判定数据的实时性不达标。本申请不仅逻辑简单、易实现和易标准化,且适用范围广,可适用于各种形态的实时任务。

Description

一种数据实时性检测方法、装置、设备及可读存储介质
技术领域
本申请涉及实时数仓、数据治理及车辆大数据的数据校验技术领域,特别涉及一种数据实时性检测方法、装置、设备及可读存储介质。
背景技术
车辆大数据***是以车辆数据为核心,实现多源海量车辆资源信息的联网接入、分析处理、云存储、智能研判及可视化展示的车辆大数据研判挖掘平台。而数据质量直接决定了数据是否可用,是后续分析挖掘的基础。其中,数据实时性是实时数仓与离线数仓最大的区别,因此,在数据治理层面,数据实时性是实时数仓要进行评价的核心指标之一。不过,针对车辆大数据来说,当前进行数据实时性检测的方法往往存在检测逻辑复杂且适用范围小的问题。
发明内容
本申请提供一种数据实时性检测方法、装置、设备及可读存储介质,以解决相关技术中存在的检测逻辑复杂且适用范围小的问题。
第一方面,提供了一种数据实时性检测方法,包括以下步骤:
通过流计算引擎对待计算流数据进行处理,以生成原始数据层表,所述原始数据层表包括多条数据以及每条数据处理完成后对应的第一时刻;
基于所述流计算引擎和所述原始数据层表生成数据应用层表,所述数据应用层表包括每条数据处理完成后对应的第二时刻;
基于所述第二时刻和所述第一时刻计算所述数据应用层表中每条数据的总延迟时间;
根据所述数据应用层表中各条数据的总延迟时间确定出总延迟时间95%分位数;
当检测到总延迟时间95%分位数大于目标实时性指标阈值时,判定数据的实时性不达标。
一些实施例中,所述基于所述流计算引擎和所述原始数据层表生成数据应用层表,包括:
通过所述流计算引擎对所述原始数据层表进行逻辑计算,以生成明细数据层表,所述明细数据层表包括每条数据处理完成后对应的第三时刻;
通过所述流计算引擎对所述明细数据层表进行逻辑计算,以生成服务数据层表,所述服务数据层表包括每条数据处理完成后对应的第四时刻;
通过所述流计算引擎对所述服务数据层表进行逻辑计算,以生成数据应用层表。
一些实施例中,在所述基于所述流计算引擎和所述原始数据层表生成数据应用层表的步骤之后,还包括:
基于所述第三时刻和所述第一时刻计算出所述明细数据层表中每条数据的第一延迟时间;
根据所述明细数据层表中各条数据的第一延迟时间确定出第一延迟时间95%分位数;
基于所述第四时刻和所述第三时刻计算出所述服务数据层表中每条数据的第二延迟时间;
根据所述服务数据层表中各条数据的第二延迟时间确定第二延迟时间95%分位数;
基于所述第二时刻和所述第四时刻计算出所述数据应用层表中每条数据的第三延迟时间;
根据所述数据应用层表中各条数据的第三延迟时间确定出第三延迟时间95%分位数。
一些实施例中,在所述判定数据的实时性不达标的步骤之后,还包括:
当检测到第一延迟时间95%分位数大于第一实时性指标阈值时,对明细数据层表中的数据进行优化处理,以使数据的实时性达标;
当检测到第二延迟时间95%分位数大于第二实时性指标阈值时,对服务数据层表中的数据进行优化处理,以使数据的实时性达标;
当检测到第三延迟时间95%分位数大于第三实时性指标阈值时,对数据应用层表中的数据进行优化处理,以使数据的实时性达标。
一些实施例中,所述方法还包括:
分别将所述原始数据层表、所述明细数据层表和所述服务数据层表存入消息***,以供所述流计算引擎从所述消息***中读取所述原始数据层表、所述明细数据层表和所述服务数据层表进行逻辑运算;
将所述数据应用层表存入OLTP数据库。
一些实施例中,在所述判定数据的实时性不达标的步骤之后,还包括:进行数据实时性第一级别的异常告警。
一些实施例中,在所述进行数据实时性第一级别的异常告警的步骤之后,还包括:
若检测到连续进行数据实时性第一级别的异常告警的次数达到第一预设次数或在预设时间内检测到进行数据实时性第一级别的异常告警的次数达到第二预设次数,则进行数据实时性第二级别的异常告警,所述第二级别的告警程度高于第一级别的告警程度,所述第一预设次数小于第二预设次数。
第二方面,提供了一种数据实时性检测装置,包括:
第一处理单元,其用于通过流计算引擎对待计算流数据进行处理,以生成原始数据层表,所述原始数据层表包括多条数据以及每条数据处理完成后对应的第一时刻;
第二处理单元,其用于基于所述流计算引擎和所述原始数据层表生成数据应用层表,所述数据应用层表包括每条数据处理完成后对应的第二时刻;
计算单元,其用于基于所述第二时刻和所述第一时刻计算所述数据应用层表中每条数据的总延迟时间;
确定单元,其用于根据所述数据应用层表中各条数据的总延迟时间确定出总延迟时间95%分位数;
检测单元,其用于当检测到总延迟时间95%分位数大于目标实时性指标阈值时,判定数据的实时性不达标。
第三方面,提供了一种数据实时性检测设备,包括:存储器和处理器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现前述的数据实时性检测方法。
第四方面,提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,当所述计算机程序被处理器执行时,以实现前述的数据实时性检测方法。
本申请提供的技术方案带来的有益效果包括:不仅逻辑简单、易实现和易标准化,且适用范围广,可适用于各种形态的实时任务。
本申请提供了一种数据实时性检测方法、装置、设备及可读存储介质,包括通过流计算引擎对待计算流数据进行处理,以生成原始数据层表,所述原始数据层表包括多条数据以及每条数据处理完成后对应的第一时刻;基于所述流计算引擎和所述原始数据层表生成数据应用层表,所述数据应用层表包括每条数据处理完成后对应的第二时刻;基于所述第二时刻和所述第一时刻计算所述数据应用层表中每条数据的总延迟时间;根据所述数据应用层表中各条数据的总延迟时间确定出总延迟时间95%分位数;当检测到总延迟时间95%分位数大于目标实时性指标阈值时,判定数据的实时性不达标。通过本申请,只需数据应用层表便能知悉数据应用层表的全流程延迟情形,并通过在表里增加用于存储数据被流计算引擎处理完成后对应的时刻的时间字段来确定各个数据的延迟时间,最后通过延迟时间95%分位数来判定数据的实时性是否达标,不仅逻辑简单、易实现和易标准化,且适用范围广,可适用于各种形态的实时任务。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据实时性检测方法的流程示意图;
图2为本申请实施例提供的数据实时性检测方法的具体流程示意图;
图3为本申请实施例提供的一种数据实时性检测装置的结构示意图;
图4为本申请实施例提供的一种数据实时性检测设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种数据实时性检测方法、装置、设备及可读存储介质,其能解决相关技术中存在的检测逻辑复杂且适用范围小的问题。
参见图1和图2所示,本申请实施例提供一种数据实时性检测方法,包括以下步骤:
步骤S10:通过流计算引擎对待计算流数据进行处理,以生成原始数据层表,所述原始数据层表包括多条数据以及每条数据处理完成后对应的第一时刻;
示范性的,在本实施例中,针对接入的车辆终端数据,为实时数仓的及时性给出衡量指标,并为及时性提供分析优化的依据,使得数据的实时性得到保证,同时为计算资源的优化提供依据。具体的,可通过流计算引擎来实时接入需要计算的流数据,其中,本实施例中的流计算引擎可优选为Flink(Flink是一个开源的流处理框架,应用于分布式、高性能、高可用的数据流应用程序);因此,可通过Flink实时接入需要计算的流数据,并生成特定的ODS层表(即原始数据层表)ods_t,且在ods_t表上添加字段ods_ingest_time(该字段的类型可优选为Timestamp类型),其中,ods_ingest_time的取值为Flink中内置的ingesttime,其对应的就是第一时刻;最后可将ods_t表存入kafka(即消息***),以完成ods层表的入库,使得Flink后续可直接从kafka中读取ods_t表,进而可有效提升读取速度。
步骤S20:基于所述流计算引擎和所述原始数据层表生成数据应用层表,所述数据应用层表包括每条数据处理完成后对应的第二时刻;
进一步的,所述基于所述流计算引擎和所述原始数据层表生成数据应用层表,包括:
通过所述流计算引擎对所述原始数据层表进行逻辑计算,以生成明细数据层表,所述明细数据层表包括每条数据处理完成后对应的第三时刻;
通过所述流计算引擎对所述明细数据层表进行逻辑计算,以生成服务数据层表,所述服务数据层表包括每条数据处理完成后对应的第四时刻;
通过所述流计算引擎对所述服务数据层表进行逻辑计算,以生成数据应用层表。
示范性的,在本实施例中,Flink读取ods_t表,并进行需要的逻辑计算后生成对应的DWD层表(即明细数据层表)dwd_t,且在dwd_t表入库前,添加字段dwd_process_time(该字段的类型可优选为Timestamp类型),其中,dwd_process_time的取值为Flink中内置的process time,其对应的就是第三时刻;最后可将dwd_t表存入kafka,以完成dwd层表的入库。
Flink再读取dwd_t表,并进行需要的逻辑计算后生成对应的DWS层表(即服务数据层表)dws_t,且在dws_t表入库前,添加字段dws_process_time(该字段的类型可优选为Timestamp类型),其中,dws_process_time的取值也为Flink中内置的process time,其对应的就是第四时刻;最后可将dws_t表存入kafka,以完成dws层表的入库。
Flink读取dws_t表,并进行需要的逻辑计算后生成对应的ADS层表(即数据应用层表)ads_t,且在ads_t表入库前,添加字段ads_process_time(该字段的类型可优选为Timestamp类型),ads_process_time的取值同样为Flink中内置的process time,其对应的就是第二时刻;最后可将ads_t表存入OLTP数据库,以完成ads层表的入库。
步骤S30:基于所述第二时刻和所述第一时刻计算所述数据应用层表中每条数据的总延迟时间;
步骤S40:根据所述数据应用层表中各条数据的总延迟时间确定出总延迟时间95%分位数;
进一步的,在所述基于所述流计算引擎和所述原始数据层表生成数据应用层表的步骤之后,还包括:
基于所述第三时刻和所述第一时刻计算出所述明细数据层表中每条数据的第一延迟时间;
根据所述明细数据层表中各条数据的第一延迟时间确定出第一延迟时间95%分位数;
基于所述第四时刻和所述第三时刻计算出所述服务数据层表中每条数据的第二延迟时间;
根据所述服务数据层表中各条数据的第二延迟时间确定第二延迟时间95%分位数;
基于所述第二时刻和所述第四时刻计算出所述数据应用层表中每条数据的第三延迟时间;
根据所述数据应用层表中各条数据的第三延迟时间确定出第三延迟时间95%分位数。
示范性的,本实施例中,可以理解的是,在完成ads_t表的入库后,Flink将开启数据质量实时检测任务,并读取ads_t表实时计算每条数据的层延迟以及总延迟(单位为毫秒),即:
dwd_diff (即第一延迟时间)=dwd_process_time(即第三时刻)-ods_ingest_time(即第一时刻);
dws_diff(即第二延迟时间)=dws_process_time(即第四时刻)-dwd_process_time(即第三时刻);
ads_diff(即第三延迟时间)=ads_process_time(即第二时刻)-dws_process_time(即第四时刻);
total_diff(即总延迟时间)=ads_process_time(即第二时刻)-ods_ingest_time(即第一时刻);
由此可以得到ads_t表中每条数据不同的层延迟时间以及总的延迟时间,以形成ads_t表的延迟指标字段。
然后可以以某一段时间内的延迟指标,计算出95%分位数。例如,以1小时为窗口,计算各层的延迟指标的95%分位数以及总延迟指标的95%分位数,即:dwd_diff的95%分位数为dwd_diff_95(即第一延迟时间95%分位数);dws_diff 的95%分位数为dws_diff_95(即第二延迟时间95%分位数);ads_diff 的95%分位数为ads_diff_95(即第三延迟时间95%分位数);total_diff 的95%分位数为total_diff_95(即总延迟时间95%分位数)。
步骤S50:当检测到总延迟时间95%分位数大于目标实时性指标阈值时,判定数据的实时性不达标。
示范性的,在本实施例中,数据质量实时检测任务通过Atlas API读取ads_t表的数据质量指标集合的实时性指标t_flag(即目标实时性指标阈值)以及ads_t的血缘数据,若total_diff_95>t_flag,说明ads_t表的数据实时性不达标,需要进行优化,而若total_diff_95≤t_flag,说明ads_t表的数据实时性达标,可满足实时数仓的需求。
进一步的,在所述判定数据的实时性不达标的步骤之后,还包括:进行数据实时性第一级别的异常告警。
示范性的,在本实施例中,若total_diff_95>t_flag,说明ads_t表的数据实时性不达标,此时会进行实时性第一级别异常告警,并推送告警消息,告警消息包括ads_t表的血缘关系及dwd_diff_95、dws_diff_95、ads_diff_95、total_diff_95,同时记录此次告警信息。其中,第一级别异常告警的告警程度不是最高的,可以仅是低级别的普通提醒,也可以是较高级别的提醒,可根据实际需求进行定义,在此不作限定。
进一步的,在所述进行数据实时性第一级别的异常告警的步骤之后,还包括:
若检测到连续进行数据实时性第一级别的异常告警的次数达到第一预设次数或在预设时间内检测到进行数据实时性第一级别的异常告警的次数达到第二预设次数,则进行数据实时性第二级别的异常告警,所述第二级别的告警程度高于第一级别的告警程度,所述第一预设次数小于第二预设次数。
示范性的,本实施例中,在确定ads_t表的数据实时性不达标后,会对所记录的告警信息进行查询,若ads_t表连续产生第一预设次数的第一级别的异常告警或在某一时间段内产生第二预设次数的第一级别的异常告警,则应该将告警级别上升,其中,第二级别的告警程度高于第一级别的告警程度,第一预设次数小于第二预设次数,具体值可根据实际需求确定,在此不作限定。比如,第一级别异常告警为B级,若ads_t表连续产生2次以上的B级异常告警或在24小时内产生4次以上的B级异常告警,此时将把告警级别升级为A级,即进行实时性A级异常告警,以提醒用户该ads_t表的数据存在较为严重的实时性问题,需要采取相应的优化措施。
进一步的,在所述判定数据的实时性不达标的步骤之后,还包括:
当检测到第一延迟时间95%分位数大于第一实时性指标阈值时,对明细数据层表中的数据进行优化处理,以使数据的实时性达标;
当检测到第二延迟时间95%分位数大于第二实时性指标阈值时,对服务数据层表中的数据进行优化处理,以使数据的实时性达标;
当检测到第三延迟时间95%分位数大于第三实时性指标阈值时,对数据应用层表中的数据进行优化处理,以使数据的实时性达标。
示范性的,在本实施例中,当根据total_diff_95检测出ads_t表数据的实时性无法满足实时数仓的需求时,可以分别通过dwd_diff_95、dws_diff_95以及ads_diff_95与其对应的实时性指标之间的大小关系来确定各层的延迟情况和性能,进而确定所需优化的层级,为后续性能分析和优化提供了良好的支撑。
进一步的,所述方法还包括:
分别将所述原始数据层表、所述明细数据层表和所述服务数据层表存入消息***,以供所述流计算引擎从所述消息***中读取所述原始数据层表、所述明细数据层表和所述服务数据层表进行逻辑运算;
将所述数据应用层表存入OLTP数据库。
示范性的,在本实施例中,将ods_t表、dwd_t表和dws_t表均存入kafka,使得Flink后续可直接从kafka中读取ods_t表,进而能够有效提升Flink的读取速度和效率。
综上,本实施例提供一种车辆终端数据事件时间缺失值高精度填充方法,该方法逻辑简单且易实现,为事件时间缺失值填充而设计,其精度更高,能够充分满足离线填充高精度和实时填充低延迟的需求,即只需数据应用层表便能知悉数据应用层表的全流程延迟情形,并通过在表里增加时间字段来确定各个数据的延迟时间,最后通过延迟时间95%分位数来判定数据的实时性是否达标,不仅逻辑简单、易实现和易标准化,能为后续性能分析、优化提供良好支撑,且适用范围广,可适用于各种形态的实时任务。
参见图3所示,本申请实施例还提供一种数据实时性检测装置,包括:
第一处理单元,其用于通过流计算引擎对待计算流数据进行处理,以生成原始数据层表,所述原始数据层表包括多条数据以及每条数据处理完成后对应的第一时刻;
第二处理单元,其用于基于所述流计算引擎和所述原始数据层表生成数据应用层表,所述数据应用层表包括每条数据处理完成后对应的第二时刻;
计算单元,其用于基于所述第二时刻和所述第一时刻计算所述数据应用层表中每条数据的总延迟时间;
确定单元,其用于根据所述数据应用层表中各条数据的总延迟时间确定出总延迟时间95%分位数;
检测单元,其用于当检测到总延迟时间95%分位数大于目标实时性指标阈值时,判定数据的实时性不达标。
进一步的,所述第二处理单元具体用于:
通过所述流计算引擎对所述原始数据层表进行逻辑计算,以生成明细数据层表,所述明细数据层表包括每条数据处理完成后对应的第三时刻;
通过所述流计算引擎对所述明细数据层表进行逻辑计算,以生成服务数据层表,所述服务数据层表包括每条数据处理完成后对应的第四时刻;
通过所述流计算引擎对所述服务数据层表进行逻辑计算,以生成数据应用层表。
进一步的,所述计算单元还用于:基于所述第三时刻和所述第一时刻计算出所述明细数据层表中每条数据的第一延迟时间;基于所述第四时刻和所述第三时刻计算出所述服务数据层表中每条数据的第二延迟时间;基于所述第二时刻和所述第四时刻计算出所述数据应用层表中每条数据的第三延迟时间;所述确定单元还用于:根据所述明细数据层表中各条数据的第一延迟时间确定出第一延迟时间95%分位数;根据所述服务数据层表中各条数据的第二延迟时间确定第二延迟时间95%分位数;根据所述数据应用层表中各条数据的第三延迟时间确定出第三延迟时间95%分位数。
进一步的,所述装置还包括优化单元,其用于:
当检测到第一延迟时间95%分位数大于第一实时性指标阈值时,对明细数据层表中的数据进行优化处理,以使数据的实时性达标;
当检测到第二延迟时间95%分位数大于第二实时性指标阈值时,对服务数据层表中的数据进行优化处理,以使数据的实时性达标;
当检测到第三延迟时间95%分位数大于第三实时性指标阈值时,对数据应用层表中的数据进行优化处理,以使数据的实时性达标。
进一步的,所述第一处理单元还用于将所述原始数据层表存入消息***,以供所述流计算引擎从所述消息***中读取所述原始数据层表进行逻辑运算;所述第二处理单元还用于分别将所述明细数据层表和所述服务数据层表存入消息***,以供所述流计算引擎从所述消息***中读取所述明细数据层表和所述服务数据层表进行逻辑运算;将所述数据应用层表存入OLTP数据库。
进一步的,所述装置还包括告警单元,其用于:进行数据实时性第一级别的异常告警。
进一步的,所述告警单元还用于:
若检测到连续进行数据实时性第一级别的异常告警的次数达到第一预设次数或在预设时间内检测到进行数据实时性第一级别的异常告警的次数达到第二预设次数,则进行数据实时性第二级别的异常告警,所述第二级别的告警程度高于第一级别的告警程度,所述第一预设次数小于第二预设次数。
需要说明的是,所属本领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各单元的具体工作过程,可以参考前述数据实时性检测方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图4所示的数据实时性检测设备上运行。
本申请实施例还提供了一种数据实时性检测设备,包括:通过***总线连接的存储器、处理器和网络接口,存储器中存储有至少一条指令,至少一条指令由处理器加载并执行,以实现前述的数据实时性检测方法的全部步骤或部分步骤。
其中,网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
处理器可以是CPU,还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路( Application Specific Integrated Circuit,ASIC)、现场可编程逻辑门阵列( Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件分立硬件组件等。通用处理器可以是微处理器,或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如视频播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如视频数据、图像数据等)等。此外,存储器可以包括高速随存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字( Secure digital,SD)卡、闪存卡( Flash Card)、至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现前述的数据实时性检测方法的全部步骤或部分步骤。
本申请实施例实现前述的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only memory,ROM)、随机存取存储器(Random Accessmemory,RAM )、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、服务器或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据实时性检测方法,其特征在于,包括以下步骤:
通过流计算引擎对待计算流数据进行处理,以生成原始数据层表,所述原始数据层表包括多条数据以及每条数据处理完成后对应的第一时刻;
基于所述流计算引擎和所述原始数据层表生成数据应用层表,所述数据应用层表包括每条数据处理完成后对应的第二时刻;
基于所述第二时刻和所述第一时刻计算所述数据应用层表中每条数据的总延迟时间;
根据所述数据应用层表中各条数据的总延迟时间确定出总延迟时间95%分位数;
当检测到总延迟时间95%分位数大于目标实时性指标阈值时,判定数据的实时性不达标。
2.如权利要求1所述的数据实时性检测方法,其特征在于,所述基于所述流计算引擎和所述原始数据层表生成数据应用层表,包括:
通过所述流计算引擎对所述原始数据层表进行逻辑计算,以生成明细数据层表,所述明细数据层表包括每条数据处理完成后对应的第三时刻;
通过所述流计算引擎对所述明细数据层表进行逻辑计算,以生成服务数据层表,所述服务数据层表包括每条数据处理完成后对应的第四时刻;
通过所述流计算引擎对所述服务数据层表进行逻辑计算,以生成数据应用层表。
3.如权利要求2所述的数据实时性检测方法,其特征在于,在所述基于所述流计算引擎和所述原始数据层表生成数据应用层表的步骤之后,还包括:
基于所述第三时刻和所述第一时刻计算出所述明细数据层表中每条数据的第一延迟时间;
根据所述明细数据层表中各条数据的第一延迟时间确定出第一延迟时间95%分位数;
基于所述第四时刻和所述第三时刻计算出所述服务数据层表中每条数据的第二延迟时间;
根据所述服务数据层表中各条数据的第二延迟时间确定第二延迟时间95%分位数;
基于所述第二时刻和所述第四时刻计算出所述数据应用层表中每条数据的第三延迟时间;
根据所述数据应用层表中各条数据的第三延迟时间确定出第三延迟时间95%分位数。
4.如权利要求3所述的数据实时性检测方法,其特征在于,在所述判定数据的实时性不达标的步骤之后,还包括:
当检测到第一延迟时间95%分位数大于第一实时性指标阈值时,对明细数据层表中的数据进行优化处理,以使数据的实时性达标;
当检测到第二延迟时间95%分位数大于第二实时性指标阈值时,对服务数据层表中的数据进行优化处理,以使数据的实时性达标;
当检测到第三延迟时间95%分位数大于第三实时性指标阈值时,对数据应用层表中的数据进行优化处理,以使数据的实时性达标。
5.如权利要求2所述的数据实时性检测方法,其特征在于,所述方法还包括:
分别将所述原始数据层表、所述明细数据层表和所述服务数据层表存入消息***,以供所述流计算引擎从所述消息***中读取所述原始数据层表、所述明细数据层表和所述服务数据层表进行逻辑运算;
将所述数据应用层表存入OLTP数据库。
6.如权利要求1所述的数据实时性检测方法,其特征在于,在所述判定数据的实时性不达标的步骤之后,还包括:进行数据实时性第一级别的异常告警。
7.如权利要求6所述的数据实时性检测方法,其特征在于,在所述进行数据实时性第一级别的异常告警的步骤之后,还包括:
若检测到连续进行数据实时性第一级别的异常告警的次数达到第一预设次数或在预设时间内检测到进行数据实时性第一级别的异常告警的次数达到第二预设次数,则进行数据实时性第二级别的异常告警,所述第二级别的告警程度高于第一级别的告警程度,所述第一预设次数小于第二预设次数。
8.一种数据实时性检测装置,其特征在于,包括:
第一处理单元,其用于通过流计算引擎对待计算流数据进行处理,以生成原始数据层表,所述原始数据层表包括多条数据以及每条数据处理完成后对应的第一时刻;
第二处理单元,其用于基于所述流计算引擎和所述原始数据层表生成数据应用层表,所述数据应用层表包括每条数据处理完成后对应的第二时刻;
计算单元,其用于基于所述第二时刻和所述第一时刻计算所述数据应用层表中每条数据的总延迟时间;
确定单元,其用于根据所述数据应用层表中各条数据的总延迟时间确定出总延迟时间95%分位数;
检测单元,其用于当检测到总延迟时间95%分位数大于目标实时性指标阈值时,判定数据的实时性不达标。
9.一种数据实时性检测设备,其特征在于,包括:存储器和处理器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现权利要求1至7中任一项所述的数据实时性检测方法。
10.一种计算机可读存储介质,其特征在于:所述计算机存储介质存储有计算机程序,当所述计算机程序被处理器执行时,以实现权利要求1至7中任一项所述的数据实时性检测方法。
CN202211243628.5A 2022-10-12 2022-10-12 一种数据实时性检测方法、装置、设备及可读存储介质 Active CN115328974B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211243628.5A CN115328974B (zh) 2022-10-12 2022-10-12 一种数据实时性检测方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211243628.5A CN115328974B (zh) 2022-10-12 2022-10-12 一种数据实时性检测方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN115328974A true CN115328974A (zh) 2022-11-11
CN115328974B CN115328974B (zh) 2022-12-13

Family

ID=83913407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211243628.5A Active CN115328974B (zh) 2022-10-12 2022-10-12 一种数据实时性检测方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN115328974B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701363A (zh) * 2023-03-10 2023-09-05 浪潮智慧科技有限公司 一种基于流式计算的数据质量实时检测方法、***及介质
CN117009108A (zh) * 2023-02-24 2023-11-07 荣耀终端有限公司 消息处理方法、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345164A (zh) * 2013-07-18 2013-10-09 吉林大学 多自主车辆决策与控制实时仿真实验***
CN111460038A (zh) * 2020-04-07 2020-07-28 中国建设银行股份有限公司 一种数据准实时同步方法及装置
CN111813833A (zh) * 2020-07-13 2020-10-23 敏博科技(武汉)有限公司 一种实时二度通联关系数据挖掘的方法
CN112507029A (zh) * 2020-12-18 2021-03-16 上海哔哩哔哩科技有限公司 数据处理***及数据实时处理方法
CN113342608A (zh) * 2021-06-08 2021-09-03 中国建设银行股份有限公司 流式计算引擎任务的监控方法及装置
CN113887616A (zh) * 2021-09-30 2022-01-04 海看网络科技(山东)股份有限公司 一种epg连接数的实时异常检测***及方法
US20220083445A1 (en) * 2020-09-17 2022-03-17 Paypal, Inc. System to track and measure machine learning model efficacy
CN114510708A (zh) * 2021-12-28 2022-05-17 奇安信科技集团股份有限公司 实时数据仓库构建、异常检测方法、装置、设备及产品

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345164A (zh) * 2013-07-18 2013-10-09 吉林大学 多自主车辆决策与控制实时仿真实验***
CN111460038A (zh) * 2020-04-07 2020-07-28 中国建设银行股份有限公司 一种数据准实时同步方法及装置
CN111813833A (zh) * 2020-07-13 2020-10-23 敏博科技(武汉)有限公司 一种实时二度通联关系数据挖掘的方法
US20220083445A1 (en) * 2020-09-17 2022-03-17 Paypal, Inc. System to track and measure machine learning model efficacy
CN112507029A (zh) * 2020-12-18 2021-03-16 上海哔哩哔哩科技有限公司 数据处理***及数据实时处理方法
CN113342608A (zh) * 2021-06-08 2021-09-03 中国建设银行股份有限公司 流式计算引擎任务的监控方法及装置
CN113887616A (zh) * 2021-09-30 2022-01-04 海看网络科技(山东)股份有限公司 一种epg连接数的实时异常检测***及方法
CN114510708A (zh) * 2021-12-28 2022-05-17 奇安信科技集团股份有限公司 实时数据仓库构建、异常检测方法、装置、设备及产品

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹云柯: "一种基于Flink实时数仓的***设计及功能实现研究", 《电子技术与软件工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117009108A (zh) * 2023-02-24 2023-11-07 荣耀终端有限公司 消息处理方法、设备及存储介质
CN116701363A (zh) * 2023-03-10 2023-09-05 浪潮智慧科技有限公司 一种基于流式计算的数据质量实时检测方法、***及介质

Also Published As

Publication number Publication date
CN115328974B (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
CN115328974B (zh) 一种数据实时性检测方法、装置、设备及可读存储介质
CN113485988A (zh) 一种数据质量监控方法、设备及计算机可读存储介质
CN112365070A (zh) 一种电力负荷预测方法、装置、设备及可读存储介质
CN106909454B (zh) 一种规则处理方法和设备
CN110941632A (zh) 一种数据库审计方法、装置及设备
CN110142940B (zh) 应用于注塑模具的良品检测方法及装置
CN110018932B (zh) 一种容器磁盘的监控方法及装置
CN110390463B (zh) 风控数据处理方法、装置及终端设备
CN109598525B (zh) 数据处理方法和装置
CN108154377B (zh) 广告作弊预测方法及装置
CN114244681B (zh) 设备连接故障预警方法、装置、存储介质及电子设备
CN113626705B (zh) 用户留存分析方法、装置、电子设备和存储介质
CN111198986B (zh) 信息发送方法、装置、电子设备及存储介质
CN115659045A (zh) 用户操作的识别方法、装置、存储介质以及电子设备
CN114861321A (zh) 交通流仿真的问题场景提取方法、装置、设备及介质
CN113034201A (zh) 一种基于广告投放过程的实时预警方法、***及计算机
CN111222928A (zh) 一种用于监控企业规范开具***的方法及***
CN111629005A (zh) 一种反作弊方法、装置、电子设备及存储介质
CN108629610B (zh) 推广信息曝光量的确定方法和装置
CN109446051A (zh) 一种告警分析方法和装置
CN115174667B (zh) 大数据的推送方法、***和电子设备
CN114238476A (zh) 数据处理方法、装置、终端设备及存储介质
CN109254768B (zh) 制证信息的获取方法、终端设备及介质
CN113902139A (zh) 一种基于物联网的自助借还机运维管控方法、装置及服务器
CN117851983A (zh) 一种开源组件许可证风险处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant