CN112988512A - 一种时序数据异常检测方法、装置、设备及存储介质 - Google Patents

一种时序数据异常检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112988512A
CN112988512A CN202110269901.0A CN202110269901A CN112988512A CN 112988512 A CN112988512 A CN 112988512A CN 202110269901 A CN202110269901 A CN 202110269901A CN 112988512 A CN112988512 A CN 112988512A
Authority
CN
China
Prior art keywords
time sequence
sequence data
detected
data segment
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110269901.0A
Other languages
English (en)
Inventor
曹臻
潘陈益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202110269901.0A priority Critical patent/CN112988512A/zh
Publication of CN112988512A publication Critical patent/CN112988512A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明实施例提供了一种时序数据异常检测方法、装置、设备及存储介质,获取待检测时序数据片段及多个历史时序数据片段,待检测时序数据片段为发生数值突变的时序数据片段;计算每个历史时序数据片段与待检测时序数据片段之间的欧式距离;判断是否存在与待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段;若不存在,则针对待检测时序数据片段发送异常告警。如果不存在与其距离相近的历史时序数据片段,表示时序数据片段的数值突变短时间内未曾发生,无法被认定为是由于用户在短期内的固定行为导致的,这种情况下,才判定为异常时序数据片段,进而发送异常告警,可以减少对时序数据异常的无效告警。

Description

一种时序数据异常检测方法、装置、设备及存储介质
技术领域
本发明涉及数据分析技术领域,特别是涉及一种时序数据异常检测方法、装置、设备及存储介质。
背景技术
在互联网平台中,每天都会产生大量的时序数据,时序数据是指时间序列数据,是同一统一指标按时间顺序记录的数据列,在同一数据列中的各个数据必须是同口径的,具有可比性。
时序数据异常检测作为一种判断数据状态的辅助手段,目的是为了及时发现异常数据,方便及时采取措施消除或削弱异常,减小异常所造成的损失,保证各项业务正常运转。
现有技术中,可以基于历史时序数据,预测时序数据在未来一段时间内的上下阈值,进而根据预测到的上下阈值,对未来一段时间内获取到的时序数据进行异常检测,也就是说,如果时序数据的取值超过了对其进行预测的阈值,则认为该时序数据是异常的。
但是,一些情况下,用户在短期内的固定行为可能导致时序数据的取值在短时间内频繁出现快速增长的现象,而剩余大部分时间内,时序数据的的取值则相对平稳。如果采用上述基于历史时序数据进行预测的方式,那么,时序数据每一次快速增长后,其取值都可能超出预测到的上下阈值,从而频繁地被检测为异常数据。可以理解,用户在短期内的固定行为是较为常见的行为模式,因此,时序数据的取值在短时间内频繁出现快速增长的现象也无需进行关注,这种情况下,就产生了大量的无效告警,增加了对时序数据的运维成本。
发明内容
本发明实施例的目的在于提供一种时序数据异常检测方法、装置、设备及存储介质,以提高时序数据异常检测的准确度,减少对时序数据异常的无效告警,降低对时序数据的运维成本。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种时序数据异常检测方法,所述方法包括:
获取待检测时序数据片段及多个历史时序数据片段,所述历史时序数据片段的时间戳早于所述待检测时序数据片段,所述待检测时序数据片段为发生数值突变的时序数据片段;
计算每个历史时序数据片段与所述待检测时序数据片段之间的欧式距离;
判断是否存在与所述待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段;
若不存在,则针对所述待检测时序数据片段发送异常告警。
可选的,在存在与所述待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段的情况下,所述方法还包括:
将满足所述距离相近条件的历史时序数据片段作为目标时序数据片段,计算所述目标时序数据片段与所述待检测时序数据片段的变化趋势相似度;
若所述变化趋势相似度小于预设相似度阈值,则针对所述待检测时序数据片段发送异常告警。
可选的,所述获取待检测时序数据片段及多个历史时序数据片段,包括:
获取待检测时序数据片段及时间戳早于所述待检测时序数据片段的历史时序数据;
从所述历史时序数据中,提取出多个与所述待检测时序数据片段的长度相同的历史时序数据片段,其中,每两个相邻历史时序数据片段之间具有重叠部分,所述重叠部分的长度为所述待检测时序数据片段的长度减1。
可选的,所述计算每个历史时序数据片段与所述待检测时序数据片段之间的欧式距离,包括:
根据邻近算法,计算每个历史时序数据片段与所述待检测时序数据片段之间的欧氏距离。
可选的,所述判断是否存在与所述待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段,包括:
从所述历史时序数据片段中,确定与所述待检测时序数据片段之间的欧式距离的排序为第一预设值及第二预设值的历史时序数据片段,分别作为第一片段和第二片段,所述第一预设值小于所述第二预设值;
判断所述第一片段与所述待检测时序数据片段之间的欧式距离和所述第二片段数据与所述待检测时序数据片段的欧式距离的比值是否大于预设比值阈值;
若不大于所述预设比值阈值,则判定存在与所述待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段。
可选的,所述计算目标时序数据片段与所述待检测时序数据片段的变化趋势相似度,包括:
根据所述多个历史时序数据片段的取值范围,进行数值分区,每个数值分区对应一个分区索引;
根据时序数据的数值及所述数值分区,将所述目标时序数据片段与所述待检测时序数据片段中的时序数据替换为对应的分区索引;
对替换后的目标时序数据片段与替换后的待检测时序数据片段进行独热编码;
计算编码后的目标时序数据片段与编码后的待检测时序数据片段之间的余弦相似度,作为所述目标时序数据片段与所述待检测时序数据片段的变化趋势相似度。
在本发明实施的第二方面,还提供了一种时序数据异常检测装置,所述装置包括:
获取模块,用于获取待检测时序数据片段及多个历史时序数据片段,所述历史时序数据片段的时间戳早于所述待检测时序数据片段,所述待检测时序数据片段为发生数值突变的时序数据片段;
距离计算模块,用于计算每个历史时序数据片段与所述待检测时序数据片段之间的欧式距离;
距离判断模块,用于判断是否存在与所述待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段;若不存在,则判定所述待检测时序数据片段为异常时序数据片段。
可选的,所述距离判断模块,还用于:
将满足所述距离相近条件的历史时序数据片段作为目标时序数据片段,计算所述目标时序数据片段与所述待检测时序数据片段的变化趋势相似度;
若所述变化趋势相似度小于预设相似度阈值,则针对所述待检测时序数据片段发送异常告警。
可选的,所述获取模块,具体用于:
获取待检测时序数据片段及时间戳早于所述待检测时序数据片段的历史时序数据;
从所述历史时序数据中,提取出多个与所述待检测时序数据片段的长度相同的历史时序数据片段,其中,每两个相邻历史时序数据片段之间具有重叠部分,所述重叠部分的长度为所述待检测时序数据片段的长度减1。
可选的,所述距离计算模块,具体用于:
根据邻近算法,计算每个历史时序数据片段与所述待检测时序数据片段之间的欧氏距离。
可选的,所述距离判断模块,具体用于:
从所述历史时序数据片段中,确定与所述待检测时序数据片段之间的欧式距离的排序为第一预设值及第二预设值的历史时序数据片段,分别作为第一片段和第二片段,所述第一预设值小于所述第二预设值;
判断所述第一片段与所述待检测时序数据片段之间的欧式距离和所述第二片段数据与所述待检测时序数据片段的欧式距离的比值是否大于预设比值阈值;
若不大于所述预设比值阈值,则判定存在与所述待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段。
可选的,所述距离判断模块,具体用于:
根据所述多个历史时序数据片段的取值范围,进行数值分区,每个数值分区对应一个分区索引;
根据时序数据的数值及所述数值分区,将所述目标时序数据片段与所述待检测时序数据片段中的时序数据替换为对应的分区索引;
对替换后的目标时序数据片段与替换后的待检测时序数据片段进行独热编码;
计算编码后的目标时序数据片段与编码后的待检测时序数据片段之间的余弦相似度,作为所述目标时序数据片段与所述待检测时序数据片段的变化趋势相似度。
在本发明实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的时序数据异常检测方法。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的时序数据异常检测方法。
在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的时序数据异常检测方法。
本发明实施例提供的时序数据异常检测方法、装置、设备及存储介质,获取待检测时序数据片段及多个历史时序数据片段,所述历史时序数据片段的时间戳早于所述待检测时序数据片段,所述待检测时序数据片段为发生数值突变的时序数据片段;计算每个历史时序数据片段与所述待检测时序数据片段之间的欧式距离;判断是否存在与所述待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段;若不存在,则针对所述待检测时序数据片段发送异常告警。
这样,对发生数值突变的时序数据片段进行了进一步的检测,如果不存在与其欧式距离相近的历史时序数据片段,表示时序数据片段的数值突变在短时间之内不可能发生过,不能认定为是频繁出现的情况,也就是说,时序数据片段的数值突变无法被认定为是由于用户在短期内的固定行为导致的,这种情况下,可以判定待检测时序数据片段为异常时序数据片段,在这种情况下,再针对待检测时序数据片段发送异常告警,从而可以减少对时序数据异常的无效告警,降低对时序数据的运维成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例中一种时序数据异常检测方法的步骤流程图;
图2为本发明实施例中另一种时序数据异常检测方法的步骤流程图;
图3为本发明实施例中一种时序数据异常检测装置的结构示意图;
图4为本发明实施例的一种电子设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
相关技术中,可以基于历史时序数据,预测时序数据在未来一段时间内的上下阈值,进而对未来一段时间内获取到的时序数据进行异常检测,如果时序数据的取值超过了对其进行预测的阈值,则认为该时序数据是异常的。
但是,用户在短期内的固定行为导致的时序数据的取值在短时间内频繁出现的类似的快速增长的现象原本无需进行关注,而如果采用上述基于历史时序数据进行预测的方式,那么,时序数据每一次快速增长后,其取值都可能超出预测到的上下阈值,从而频繁地被检测为异常数据,从而产生大量的无效告警,增加了对时序数据的运维成本。
为了解决上述问题,本发明实施例提出了一种时序数据异常检测方法,下面从总体上对本发明实施例提供的时序数据异常检测方法进行说明:
获取待检测时序数据片段及多个历史时序数据片段,所述历史时序数据片段的时间戳早于所述待检测时序数据片段,所述待检测时序数据片段为发生数值突变的时序数据片段;
计算每个历史时序数据片段与所述待检测时序数据片段之间的欧式距离;
判断是否存在与所述待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段;
若不存在,则针对所述待检测时序数据片段发送异常告警。
由以上可见,本发明实施例提供的时序数据异常检测方法中,对发生数值突变的时序数据片段进行了进一步的检测,如果不存在与其欧式距离相近的历史时序数据片段,表示时序数据片段的数值突变在短时间之内不可能发生过,不能认定为是频繁出现的情况,也就是说,时序数据片段的数值突变无法被认定为是由于用户在短期内的固定行为导致的,这种情况下,可以判定待检测时序数据片段为异常时序数据片段,从而可以提高时序数据异常检测的准确度,减少对时序数据异常的无效告警,降低对时序数据的运维成本。
下面将通过具体的实施例,对本发明实施例提供的时序数据异常检测方法进行详细描述。
参照图1,示出了本申请的一种时序数据异常检测方法的步骤流程图,具体可以包括如下步骤:
S101:获取待检测时序数据片段及多个历史时序数据片段。
其中,历史时序数据片段的时间戳早于待检测时序数据片段,待检测时序数据片段为发生数值突变的时序数据片段。待检测时序数据片段可以采用相关技术中,基于历史时序数据进行预测的方式确定,或者,也可以通过比较待检测时序数据片段与预设时间间隔内获取的历史时序数据片段确定,具体不作限定。
一种实现方式中,获取多个历史时序数据片段可以包括如下步骤:
首先,获取待检测时序数据片段及时间戳早于待检测时序数据片段的历史时序数据。其中,历史时序数据可以为时间戳在待检测时序数据片段的最近T个周期之内的数据,待检测时序数据片段的周期可以根据待检测时序数据的属性设定,T的取值也可以根据情况进行设定,在本发明实施例中,待检测时序数据片段的T个周期之前的数据可以认为是较为老旧的数据,参考性较低。只获取在待检测时序数据片段的最近T个周期之内的历史时序数据,一方面,可以有效节省计算资源,另一方面,可以提高历史时序数据的可参考性,进而提高时序数据异常检测的准确度。
然后,从历史时序数据中,提取出多个与待检测时序数据片段的长度相同的历史时序数据片段,其中,每两个相邻历史时序数据片段之间具有重叠部分,重叠部分的长度为待检测时序数据片段的长度减1。这样,历史时序数据中与待检测时序数据片段的长度相同的每一个数据片段都作为历史时序数据片段,后续对历史数据数据的分析更全面,减少由于某一数据片段未被检测,而导致的时序数据异常检测失误。
举例而言,假设历史时序数据是[1,2,3,4,5,6,…,100],待检测时序数据片段的长度为3,那么,从历史时序数据中,提取出的历史时序数据片段可以分别为[1,2,3],[2,3,4],[3,4,5],…,等等。
在本步骤中,获取到历史时序数据片段之后,可以对所获取的历史时序数据片段进行归一化,将历史时序数据片段中每个时序数据的取值转化为0到1之间的小数,从而去除历史时序数据片段的量纲属性,便于后续对历史时序数据片段的计算。
S102:计算每个历史时序数据片段与待检测时序数据片段之间的欧式距离。
其中,欧式距离用于衡量每个历史时序数据片段与待检测时序数据片段在空间上存在的距离,欧式距离越大,说明历史时序数据片段与待检测时序数据片段之间在空间上存在的距离越远,差异越大。
在本步骤中,可以根据邻近算法,计算每个历史时序数据片段与待检测时序数据片段之间的欧氏距离。其中,邻近算法可以为KNN算法,KNN(K Near Neighbor,K邻近)算法中,即每个样本都可以用它最接近的K个邻居来代表,具体地,可以采用KDTree进行计算。根据邻近算法计算得到的每个历史时序数据片段与待检测时序数据片段之间的欧氏距离是从小到大排序的。
S103:判断是否存在与待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段,若不存在,则执行S104。
一种实现方式中,判断是否存在与待检测时序数据片段之间的距离满足距离相近条件的历史时序数据片段的步骤可以包括:
首先,从历史时序数据片段中,确定与待检测时序数据片段之间的欧式距离的排序为第一预设值及第二预设值的历史时序数据片段,分别作为第一片段和第二片段,第一预设值小于第二预设值。
其中,第一预设值和第二预设值可以根据具体场景进行调整,但是第一预设值和第二预设值之间需要具有较大的差值,也就是说,排序在第一预设值及第二预设值之间的历史时序数据片段占全部历史时序数据片段中的大部分,这样,第一片段和第二片段与待检测时序数据片段之间的欧式距离的范围可以代表全部历史时序数据片段中的大部分与待检测时序数据片段之间的欧式距离的范围。另外,通过设定第一预设值和第二预设值,相比于根据与待检测时序数据片段之间的欧式距离最大及最小的历史时序数据片段进行判断的方法,可以减少两端极值导致判断失误的情况,进一步提高时序数据异常检测的准确度。比如,若历史时序数据片段共有120个,那么,第一预设值可以取值为3,第二预设值可以取值为100。
然后,判断第一片段与待检测时序数据片段之间的欧式距离和第二片段数据与待检测时序数据片段的欧式距离的比值是否大于预设比值阈值;若大于,则判定不存在与待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段;若不大于预设比值阈值,则判定存在与待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段。
其中,预设比值阈值可以为预设经验值,取值范围在0到1之间,当第一片段与待检测时序数据片段之间的欧式距离和第二片段数据与待检测时序数据片段的欧式距离的比值大于预设比值阈值,则表示各个历史时序数据片段均与待检测时序数据片段的欧式距离相差较大。
举例而言,若第一预设值取值为3,第二预设值取值为100。假设第一片段与待检测时序数据片段之间的欧式距离为100,第二片段与待检测时序数据片段之间的欧式距离为103,此时,第一片段与待检测时序数据片段之间的欧式距离和第二片段数据与待检测时序数据片段的欧式距离的比值为100/103。如果第一片段与待检测时序数据片段之间的欧式距离为20,那么,第一片段与待检测时序数据片段之间的欧式距离和第二片段数据与待检测时序数据片段的欧式距离的比值为20/103。
相比而言,第一种情况下,排序在第一预设值和第二预设值之间的其他历史时序数据片段与待检测时序数据片段之间的欧式距离均处于[100,103]之间,即,排序在第3名之后的其他历史时序数据片段与待检测时序数据片段之间的欧式距离均大于100,而在第二种情况下,排序在第一预设值和第二预设值之间的其他历史时序数据片段与待检测时序数据片段之间的欧式距离均处于[20,103]之间,即,排序在第3名之后的其他历史时序数据片段与待检测时序数据片段之间的欧式距离均大于20,换句话说,第一种情况下,各个历史时序数据片段均与待检测时序数据片段之间的欧式距离相差较大,两种情况下的比值也是100/103大于20/103。
如果预设比值阈值在100/103到20/103之间取值,那么,第一种情况下,不存在与待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段,第二种情况下,存在与待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段。
S104:针对待检测时序数据片段发送异常告警。
在本步骤中,如果不存在与其欧式距离相近的历史时序数据片段,表示时序数据片段的数值突变在短时间之内不可能发生过,不能认定为是频繁出现的情况,也就是说,时序数据片段的数值突变无法被认定为是由于用户在短期内的固定行为导致的,可以判定待检测时序数据片段为异常时序数据片段。
其中,发送异常告警的方式可以是发送告警信息,或者,也可以向告警设备发送相关指令,指示告警设备执行相应的操作,等等,具体不作限定。
一种实现方式中,如果S103中判定存在与待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段,那么,如图2所示,在S103之后,可以继续执行S105至S106。
S105:将满足距离相近条件的历史时序数据片段作为目标时序数据片段,计算目标时序数据片段与待检测时序数据片段的变化趋势相似度。
其中,变化趋势相似度用于衡量目标时序数据片段与待检测时序数据片段之间的相似程度,变化趋势相似度的值越小,说明目标时序数据片段与待检测时序数据片段之间的相似度越小,差异越大。
在本步骤中,计算目标时序数据片段与待检测时序数据片段的变化趋势相似度的步骤可以包括:
第一步,根据多个历史时序数据片段的取值范围,进行数值分区,每个数值分区对应一个分区索引。比如,可以将[0,1000]设为一个数值分区,对应的分区索引为1,[1000,2000]设为另一个数值分区,对应的分区索引为2,等等。这样,通过数值分区的方式可以降低了由于数值不同带来的判断时序片段相似性的困难,保证该方法不受到用户行为变化带来数值变化的扰动。
第二步,根据时序数据的数值及数值分区,将目标时序数据片段与待检测时序数据片段中的时序数据替换为对应的分区索引。比如,如果目标时序数据片段中的某一时序数据取值为800,那么,根据上述数值分区及对应的分区索引,可以将该时序数据替换为1。
第三步,对替换后的目标时序数据片段与替换后的待检测时序数据片段进行独热编码。其中,独热编码即使用0或1来对任一时序数据的N个可能的取值分别进行编码,每个可能的取值都对应唯一的编码,且每个时序数据同一时间的取值唯一。
在本申请中,经过独热编码后,可以将1维的分区索引映射为M-1维的向量,M即为数值分区的分区数量,也就是说,利用0或1组成的M-1维的向量对分区索引的每个可能的取值进行编码,比如,当数值分区的分区数量为3,即M取值为3时,每个分区索引具有3个可能的取值,可以分别为0、1、2,那么,可以利用0或1组成的2维向量对分区索引的每个可能的取值进行编码,如分区索引取值为0时,对应的编码可以为(0,0),分区索引取值为1时,对应的编码可以为(1,0),分区索引取值为2时,对应的编码可以为(0,1),等等。
如果某一替换后的目标时序数据片段中包括的时序数据取值分别为0、1、2,那么,经过独热编码,该替换后的目标时序数据片段可以表示为(0,0,0,1,1,0),这样,替换后的目标时序数据片段与替换后的待检测时序数据片段得到了扩充,便于进一步计算两者之间的余弦相似度。
第四步,计算编码后的目标时序数据片段与编码后的待检测时序数据片段之间的余弦相似度,作为目标时序数据片段与待检测时序数据片段的变化趋势相似度。
S106:若变化趋势相似度小于预设相似度阈值,则针对待检测时序数据片段发送异常告警。
其中,变化趋势相似度小于预设阈值的情况下,认为目标时序数据片段与待检测时序数据片段的变化趋势不相似,也就是说,不能认定待检测时序数据片段体现的是某一种频繁出现的情况,则待检测时序数据片段会被认为是异常片段,需要发送异常告警。反之,如果变化趋势相似度不小于预设阈值,可以认为目标时序数据片段与待检测时序数据片段的变化趋势相似,也就是说,可以认定待检测时序数据片段体现的是某一种频繁出现的情况,不需要针对待检测时序数据片段发送异常告警。
举例而言,如时序数据为用户对数据库的请求数,那么,该时序数据从10request/second上涨到1000request/second,与15request/second上涨到2000request/second,尽管在数值上存在较大差异,但是时序变化形态上是基本一致的,因此,呈现的是一种合理的用户行为,经过本发明实施例中的方法,可以判定为无需关注的异常模式,无需进行告警。
另外,一种实现方式中,即使变化趋势相似度不小于预设相似度阈值,仍然需要判断目标时序数据片段与待检测时序数据片段的取值是否满足预设条件。
举例而言,某一个服务端每天凌晨0点的请求量都会突然增长至100,但是在某一天突然增长到120,虽然变化趋势是具备时域规律性的,但是120与100之间是否存在明显差异性,需要视具体场景而定。
由以上可见,本发明实施例提供的时序数据异常检测方法,可以对发生数值突变的时序数据片段进行进一步的检测,如果不存在与其欧式距离相近的历史时序数据片段,表示时序数据片段的数值突变在短时间之内不可能发生过,不能认定为是频繁出现的情况,也就是说,时序数据片段的数值突变无法被认定为是由于用户在短期内的固定行为导致的,这种情况下,可以判定待检测时序数据片段为异常时序数据片段,从而减少对时序数据异常的无效告警,降低对时序数据的运维成本。
参照图3,示出了本申请的一种时序数据异常检测装置的结构框图,该装置具体可以包括如下模块:
获取模块301,用于获取待检测时序数据片段及多个历史时序数据片段,历史时序数据片段的时间戳早于待检测时序数据片段,待检测时序数据片段为发生数值突变的时序数据片段;
距离计算模块302,用于计算每个历史时序数据片段与待检测时序数据片段之间的欧式距离;
距离判断模块303,用于判断是否存在与待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段;若不存在,则判定待检测时序数据片段为异常时序数据片段。
一种实现方式中,距离判断模块303,还用于:
将满足距离相近条件的历史时序数据片段作为目标时序数据片段,计算目标时序数据片段与所述待检测时序数据片段的变化趋势相似度,所述目标时序数据片段为满足所述距离相近条件的历史时序数据片段;
若所述变化趋势相似度小于预设相似度阈值,则针对所述待检测时序数据片段发送异常告警。
一种实现方式中,获取模块301,具体用于:
获取待检测时序数据片段及时间戳早于所述待检测时序数据片段的历史时序数据;
从所述历史时序数据中,提取出多个与所述待检测时序数据片段的长度相同的历史时序数据片段,其中,每两个相邻历史时序数据片段之间具有重叠部分,所述重叠部分的长度为所述待检测时序数据片段的长度减1。
一种实现方式中,距离计算模块302,具体用于:
根据邻近算法,计算每个历史时序数据片段与所述待检测时序数据片段之间的欧氏距离。
一种实现方式中,所述距离判断模块303,具体用于:
从所述历史时序数据片段中,确定与所述待检测时序数据片段之间的欧式距离的排序为第一预设值及第二预设值的历史时序数据片段,分别作为第一片段和第二片段,所述第一预设值小于所述第二预设值;
判断所述第一片段与所述待检测时序数据片段之间的欧式距离和所述第二片段数据与所述待检测时序数据片段的欧式距离的比值是否大于预设比值阈值;
若不大于所述预设比值阈值,则判定存在与所述待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段。
一种实现方式中,距离判断模块303,具体用于:
根据所述多个历史时序数据片段的取值范围,进行数值分区,每个数值分区对应一个分区索引;
根据时序数据的数值及所述数值分区,将所述目标时序数据片段与所述待检测时序数据片段中的时序数据替换为对应的分区索引;
对替换后的目标时序数据片段与替换后的待检测时序数据片段进行独热编码;
计算编码后的目标时序数据片段与编码后的待检测时序数据片段之间的余弦相似度,作为所述目标时序数据片段与所述待检测时序数据片段的变化趋势相似度。
由以上可见,本发明实施例提供的时序数据异常检测装置,可以对发生数值突变的时序数据片段进行进一步的检测,如果不存在与其欧式距离相近的历史时序数据片段,表示时序数据片段的数值突变在短时间之内不可能发生过,不能认定为是频繁出现的情况,也就是说,时序数据片段的数值突变无法被认定为是由于用户在短期内的固定行为导致的,这种情况下,可以判定待检测时序数据片段为异常时序数据片段,从而减少对时序数据异常的无效告警,降低对时序数据的运维成本。
本发明实施例还提供了一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现如下步骤:
获取待检测时序数据片段及多个历史时序数据片段,历史时序数据片段的时间戳早于待检测时序数据片段,待检测时序数据片段为发生数值突变的时序数据片段;
计算每个历史时序数据片段与待检测时序数据片段之间的欧式距离;
判断是否存在与待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段;
若不存在,则针对待检测时序数据片段发送异常告警。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(RandomAccess Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable GateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的时序数据异常检测方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的时序数据异常检测方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种时序数据异常检测方法,其特征在于,所述方法包括:
获取待检测时序数据片段及多个历史时序数据片段,所述历史时序数据片段的时间戳早于所述待检测时序数据片段,所述待检测时序数据片段为发生数值突变的时序数据片段;
计算每个历史时序数据片段与所述待检测时序数据片段之间的欧式距离;
判断是否存在与所述待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段;
若不存在,则针对所述待检测时序数据片段发送异常告警。
2.根据权利要求1所述的方法,其特征在于,在存在与所述待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段的情况下,所述方法还包括:
将满足所述距离相近条件的历史时序数据片段作为目标时序数据片段,计算所述目标时序数据片段与所述待检测时序数据片段的变化趋势相似度;
若所述变化趋势相似度小于预设相似度阈值,则针对所述待检测时序数据片段发送异常告警。
3.根据权利要求1或2任一所述的方法,其特征在于,所述获取待检测时序数据片段及多个历史时序数据片段,包括:
获取待检测时序数据片段及时间戳早于所述待检测时序数据片段的历史时序数据;
从所述历史时序数据中,提取出多个与所述待检测时序数据片段的长度相同的历史时序数据片段,其中,每两个相邻历史时序数据片段之间具有重叠部分,所述重叠部分的长度为所述待检测时序数据片段的长度减1。
4.根据权利要求1或2任一所述的方法,其特征在于,所述计算每个历史时序数据片段与所述待检测时序数据片段之间的欧式距离,包括:
根据邻近算法,计算每个历史时序数据片段与所述待检测时序数据片段之间的欧氏距离。
5.根据权利要求1或2任一所述的方法,其特征在于,所述判断是否存在与所述待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段,包括:
从所述历史时序数据片段中,确定与所述待检测时序数据片段之间的欧式距离的排序为第一预设值及第二预设值的历史时序数据片段,分别作为第一片段和第二片段,所述第一预设值小于所述第二预设值;
判断所述第一片段与所述待检测时序数据片段之间的欧式距离和所述第二片段数据与所述待检测时序数据片段的欧式距离的比值是否大于预设比值阈值;
若不大于所述预设比值阈值,则判定存在与所述待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段。
6.根据权利要求2所述的方法,其特征在于,所述计算目标时序数据片段与所述待检测时序数据片段的变化趋势相似度,包括:
根据所述多个历史时序数据片段的取值范围,进行数值分区,每个数值分区对应一个分区索引;
根据时序数据的数值及所述数值分区,将所述目标时序数据片段与所述待检测时序数据片段中的时序数据替换为对应的分区索引;
对替换后的目标时序数据片段与替换后的待检测时序数据片段进行独热编码;
计算编码后的目标时序数据片段与编码后的待检测时序数据片段之间的余弦相似度,作为所述目标时序数据片段与所述待检测时序数据片段的变化趋势相似度。
7.一种时序数据异常检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测时序数据片段及多个历史时序数据片段,所述历史时序数据片段的时间戳早于所述待检测时序数据片段,所述待检测时序数据片段为发生数值突变的时序数据片段;
距离计算模块,用于计算每个历史时序数据片段与所述待检测时序数据片段之间的欧式距离;
距离判断模块,用于判断是否存在与所述待检测时序数据片段之间的欧式距离满足距离相近条件的历史时序数据片段;若不存在,则判定所述待检测时序数据片段为异常时序数据片段。
8.根据权利要求7所述的装置,其特征在于,所述距离判断模块,还用于:
将满足所述距离相近条件的历史时序数据片段作为目标时序数据片段,计算所述目标时序数据片段与所述待检测时序数据片段的变化趋势相似度;
若所述变化趋势相似度小于预设相似度阈值,则针对所述待检测时序数据片段发送异常告警。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN202110269901.0A 2021-03-12 2021-03-12 一种时序数据异常检测方法、装置、设备及存储介质 Pending CN112988512A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110269901.0A CN112988512A (zh) 2021-03-12 2021-03-12 一种时序数据异常检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110269901.0A CN112988512A (zh) 2021-03-12 2021-03-12 一种时序数据异常检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112988512A true CN112988512A (zh) 2021-06-18

Family

ID=76334615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110269901.0A Pending CN112988512A (zh) 2021-03-12 2021-03-12 一种时序数据异常检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112988512A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114218164A (zh) * 2021-12-17 2022-03-22 微梦创科网络科技(中国)有限公司 一种基于时序向量检索的数据异常检测方法及***
CN114235652A (zh) * 2021-11-30 2022-03-25 国网北京市电力公司 烟尘颗粒浓度异常识别方法、装置、存储介质及设备
CN117518939A (zh) * 2023-12-06 2024-02-06 广州市顺风船舶服务有限公司 一种基于大数据的工业控制***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708739A (zh) * 2020-05-21 2020-09-25 北京奇艺世纪科技有限公司 时序数据的异常检测方法、装置、电子设备及存储介质
CN112165471A (zh) * 2020-09-22 2021-01-01 杭州安恒信息技术股份有限公司 一种工控***流量异常检测方法、装置、设备及介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708739A (zh) * 2020-05-21 2020-09-25 北京奇艺世纪科技有限公司 时序数据的异常检测方法、装置、电子设备及存储介质
CN112165471A (zh) * 2020-09-22 2021-01-01 杭州安恒信息技术股份有限公司 一种工控***流量异常检测方法、装置、设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114235652A (zh) * 2021-11-30 2022-03-25 国网北京市电力公司 烟尘颗粒浓度异常识别方法、装置、存储介质及设备
CN114218164A (zh) * 2021-12-17 2022-03-22 微梦创科网络科技(中国)有限公司 一种基于时序向量检索的数据异常检测方法及***
CN117518939A (zh) * 2023-12-06 2024-02-06 广州市顺风船舶服务有限公司 一种基于大数据的工业控制***

Similar Documents

Publication Publication Date Title
CN112988512A (zh) 一种时序数据异常检测方法、装置、设备及存储介质
CN105718715B (zh) 异常检测方法和设备
CN110083475B (zh) 一种异常数据的检测方法及装置
CN111538642B (zh) 一种异常行为的检测方法、装置、电子设备及存储介质
CN110286656B (zh) 一种错误数据容忍的虚警过滤方法和装置
CN112818066A (zh) 一种时序数据异常检测方法、装置及电子设备和存储介质
CN112231174A (zh) 异常告警方法、装置、设备及存储介质
CN108664603B (zh) 一种修复时序数据的异常聚合值的方法及装置
CN112148768A (zh) 一种指标时间序列异常检测方法、***及存储介质
CN110674014A (zh) 一种确定异常查询请求的方法及装置
CN112148733A (zh) 确定故障类型的方法、装置、电子装置和计算机可读介质
CN113590429B (zh) 一种服务器故障诊断方法、装置及电子设备
GB2517147A (en) Performance metrics of a computer system
CN111740865B (zh) 一种流量波动趋势预测方法、装置及电子设备
CN108399115B (zh) 一种运维操作检测方法、装置及电子设备
CN115185761A (zh) 异常检测方法及装置
CN114365094A (zh) 使用倒排索引的时序异常检测
CN112765161A (zh) 报警规则匹配方法、装置、电子设备及存储介质
CN114492576A (zh) 一种异常用户检测方法、***、存储介质及电子设备
CN115932144B (zh) 色谱仪性能检测方法、装置、设备和计算机介质
CN108229585B (zh) 一种日志的归类方法及***
CN113468014A (zh) 一种运维数据的异常检测方法及装置
CN114157486B (zh) 通信流量数据异常检测方法、装置、电子设备及存储介质
JP2018191217A (ja) データ監視装置、データ監視方法及びデータ監視プログラム
CN113568950A (zh) 一种指标检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination