CN114020598B - 一种时间序列数据的异常检测方法、装置及设备 - Google Patents

一种时间序列数据的异常检测方法、装置及设备 Download PDF

Info

Publication number
CN114020598B
CN114020598B CN202210002455.1A CN202210002455A CN114020598B CN 114020598 B CN114020598 B CN 114020598B CN 202210002455 A CN202210002455 A CN 202210002455A CN 114020598 B CN114020598 B CN 114020598B
Authority
CN
China
Prior art keywords
data
data point
time window
time
sliding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210002455.1A
Other languages
English (en)
Other versions
CN114020598A (zh
Inventor
严川
张博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudwise Beijing Technology Co Ltd
Original Assignee
Cloudwise Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudwise Beijing Technology Co Ltd filed Critical Cloudwise Beijing Technology Co Ltd
Priority to CN202210002455.1A priority Critical patent/CN114020598B/zh
Publication of CN114020598A publication Critical patent/CN114020598A/zh
Application granted granted Critical
Publication of CN114020598B publication Critical patent/CN114020598B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明的实施例提供一种时间序列数据的异常检测方法、装置及设备,所述方法包括:获得时间序列数据,所述时间序列数据中的多个数据点按时间顺序等间隔排列;获得所述时间序列数据中,当前时刻的数据点之前一滑动时间窗内的数据点的统计指标;根据所述当前时刻的数据点之前的所述滑动时间窗内的数据点的统计指标,判断所述当前时刻的数据点是否为异常数据点。本发明的方案通过滑动时间窗检测时间序列数据的异常状态,提高了检测结果的准确性,通过滑动时间窗口实现了对数据分布变化的自适应性,提高了异常检测的效率。

Description

一种时间序列数据的异常检测方法、装置及设备
技术领域
本发明涉及运维数据处理技术领域,特别是指一种时间序列数据的异常检测方法、装置及设备。
背景技术
运维领域中存在海量的监控数据,其中大部分KPI(关键绩效指标)数据为时间序列(如交易量、访问量、交易成功数等)。当企业的运维***发生异常时,希望可以尽快准确的定位出根因的属性,这对于传统的运维人员而言是一个巨大的挑战。快速准确找出指标异常是准确判定根因属性的先决因素,现阶段业界也有非常多的机器学习算法被用于解决上述异常检测问题,但是受限于算法的通用性和可靠性,在实际落地效果中并难以有好的表现。这些算法无法实现海量指标下对时间序列数据的异常检测的实时处理的性能需求。
发明内容
本发明提供了一种时间序列数据的异常检测方法、装置及设备,以提高数据检测效率,以及检测结果的准确性。
为解决上述技术问题,本发明的实施例提供一种时间序列数据的异常检测方法,包括:
获得时间序列数据,所述时间序列数据中的多个数据点按时间顺序等间隔排列;
获得所述时间序列数据中,当前时刻的数据点之前一滑动时间窗内的数据点的统计指标;
根据所述当前时刻的数据点之前的所述滑动时间窗内的数据点的统计指标,判断所述当前时刻的数据点是否为异常数据点。
可选的,所述时间序列数据为X=[x1,x2,...xi,...xT],其中,元素xi表示时间序列数据中第i个时刻的数据点,T表示时间序列数据X的总长度;
所述滑动时间窗内的数据点构成的时间序列为:Yh=[xh-L,xh-L+1,...,xh-1];所述滑动时间窗内的数据点的统计指标包括以下至少一项:均值;标准差;数据波动值;其中所述数据波动值为所述滑动时间窗内的数据点的最大值和最小值之差,L为滑动时间窗的长度,h为当前时刻。
可选的,
所述均值为:
Figure 454967DEST_PATH_IMAGE001
所述标准差为:
Figure 189705DEST_PATH_IMAGE002
所述数据波动值为:d=max(xi)-min(xi);
其中,x为所述滑动时间窗内的数据点,下标i为数据点的索引。
可选的,根据所述当前时刻的数据点之前的所述滑动时间窗内的数据点的统计指标,判断所述当前时刻的数据点是否为异常数据点,包括:
根据所述当前时刻的数据点与其之前的所述滑动时间窗内的数据点的统计指标之间满足以下至少一种判断条件时,判断所述当前时刻的数据点为异常数据点,否则,判断所述当前时刻的数据点为正常数据点;
Figure 390353DEST_PATH_IMAGE003
Figure 235950DEST_PATH_IMAGE004
Figure 433582DEST_PATH_IMAGE005
Figure 339221DEST_PATH_IMAGE006
其中,x表示数据点,h为当前时刻,
Figure 356724DEST_PATH_IMAGE007
表示滑动时间窗Yh内的数据点的均值、
Figure 271590DEST_PATH_IMAGE008
表示滑动时间窗Yh内的数据点的标准差,
Figure 326659DEST_PATH_IMAGE009
表示滑动时间窗Yh内的数据点的数据波动值,k,m,t,p为设定的参数。
可选的,所述时间序列数据的异常检测方法,还包括:
所述滑动时间窗在滑动的过程中,若所述滑动时间窗内的数据点中异常数据点占比一半以上时,将异常数据点设置为正常数据点,将正常数据点设置异常数据点,得到中间滑动时间窗。
可选的,所述时间序列数据的异常检测方法,还包括:
对所述中间滑动时间窗内的异常数据点进行插值平滑处理,得到全部为正常数据点的滑动时间窗;插值公式为:
Figure 403199DEST_PATH_IMAGE010
其中,x为数据点,q为需要被光滑的数据点,e和f分别表示由索引为q-e和q+f的数据点对目标点完成的插值。
可选的,所述时间序列数据的异常检测方法,还包括:
根据以下至少一种评价指标序列:A=[A1,A2,...AR],B=[B1,B2,...BR],C=[C1,C2,...CR],D=[D1,D2,...DR]的归一化结果,获得异常数据点的异常得分,
其中,R表示异常数据点个数,
Figure 907999DEST_PATH_IMAGE011
Figure 360977DEST_PATH_IMAGE012
Figure 533201DEST_PATH_IMAGE013
Figure 780643DEST_PATH_IMAGE014
,1≤k≤R;
x表示数据点,h为当前时刻,
Figure 772738DEST_PATH_IMAGE007
表示滑动时间窗Yh内的数据点的均值、
Figure 750446DEST_PATH_IMAGE008
表示滑动时间窗Yh内的数据点的标准差,
Figure 527909DEST_PATH_IMAGE009
表示滑动时间窗Yh内的数据点的数据波动,s为设定的参数。
本发明的实施例还提供一种时间序列数据的异常检测装置,所述装置包括:
第一获取模块,用于获得时间序列数据,所述时间序列数据中的多个数据点按时间顺序等间隔排列;
第二获取模块,用于获得所述时间序列数据中,当前时刻的数据点之前一滑动时间窗内的数据点的统计指标;
处理模块,用于根据所述当前时刻的数据点之前的所述滑动时间窗内的数据点的统计指标,判断所述当前时刻的数据点是否为异常数据点。
本发明的实施例还提供一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上述任一项所述的方法对应的操作。
本发明的实施例还提供一种计算机可读存储介质,存储有指令,所述指令在计算机上运行时,使得计算机执行如上述任一项所述的方法。
本发明的上述方案至少包括以下有益效果:
本发明的上述方案,通过获得时间序列数据中,当前时刻的数据点之前一滑动时间窗内的数据点的指标数据,并根据所述当前时刻的数据点之前的所述滑动时间窗内的数据点的统计指标,判断所述当前时刻的数据点是否为异常数据点,提高了数据状态检测的准确性及效率。
附图说明
图1为本发明实施例的时间序列数据的异常检测方法的流程示意图;
图2为本发明实施例的异常检测方法的一具体实现流程示意图;
图3为本发明实施例的时间序列数据的异常检测装置的模块示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
如图1所示,本发明提供一种时间序列数据的异常检测方法,所述方法包括:
步骤11,获得时间序列数据,所述时间序列数据中的多个数据点按时间顺序等间隔排列;
步骤12,获得所述时间序列数据中,当前时刻的数据点之前一滑动时间窗内的数据点的统计指标,这里,为保证数据点的异常判断的准确性,所述滑动时间窗内的数据点需要均为正常数据点,若滑动时间窗内具有异常数据点,可以对异常数据点进行平滑处理,使得滑动时间窗内的数据点均为正常数据点;
步骤13,根据所述当前时刻的数据点之前的所述滑动时间窗内的数据点的统计指标,判断所述当前时刻的数据点是否为异常数据点。
该实施例中,所述时间序列数据可以是指定一段时间段内的多个数据点形成的时间序列数据,在获取所述时间序列数据之前还可以包括:
步骤01,获取原始时间序列数据;
步骤02,对所述原始时间序列数据进行预处理:数据采集过程由于采集器问题会造成数据时间戳是非等间隔,这里,为保证算法处理效果,对原始时间序列数据进行预处理。预处理主要包括按时间先后顺序对数据排序、重复数值去重、对数据进行等间隔校正、缺失值填充(这里,对缺失的数据可以根据数据的时间先后顺序以及等间隔原则,进行插值处理)等;
步骤03,提取指定指标特定时间范围内的时间序列指标数据,并且考虑上述步骤02中的预处理操作,得到等间隔的连续时间序列数据X,其表达式为:
X=[x1,x2,...xi,...xT],其中X表示时间序列数据,其中元素为xi,表示时间序列数据中第i个时刻的数据点,T表示时间序列数据X的总长度。
以提高后续数据异常检测的准确度;
在所述时间序列数据中,可以基于时间序列的延时思想构建滑动时间窗,所述滑动时间窗为所述时间序列数据中任意一待检测数据点之前的一段连续多个数据点对应的时刻构成的一滑动时间窗,且所述滑动时间窗内的数据点作为检测数据点,均为正常状态的数据点;
根据当前时刻的数据点与其之前的所述滑动时间窗内的数据点的相关统计指标,判断当前时刻的数据点的状态,并获得判断的结果;
所述滑动时间窗检测完当前数据点后,通过滑动一个数据点间隔的方式对后续数据点进行异常检测,同时将当前时刻对应的数据点将作为所述滑动时间窗内新的检测数据点,并获取此刻滑动时间窗内检测数据点数统计指标,检测下一时刻数据点的状态,故所述滑动时间窗内的检测数据点是可以依据检测过程的行进改变;通过所述滑动时间窗的滑动进行检测,以及以滑动时间窗内数据点的统计指标进行判定,保证数据点检测的准确性。
本发明的一可选实施例中,对所述滑动时间窗进行说明,所述滑动时间窗内的数据点构成的时间序列为:Yh=[xh-L,xh-L+1,...,xh-1];所述滑动时间窗内的数据点的统计指标包括以下至少一项:均值;标准差;数据波动值;其中所述数据波值动为所述滑动时间窗内的数据点的最大值和最小值之差,L为滑动时间窗的长度,h为当前时刻。
该实施例中,所述数据波动值表示所述滑动时间窗内数据点的波动情况,Y表示所述滑动时间窗的时间序列,L为所述滑动时间窗的长度,其值应小于所述滑动时间序列数据的总长度,在所述滑动时间窗滑动检测的过程当中,滑动时间窗的长度不变;通过计算所述滑动时间窗内数据点的统计指标,以从所述滑动时间窗内数据点的不同特征作为检测标准,判断当前时刻待检测数据点的状态,保证检测的准确性。
进一步的,可以依据下述公式依次获得所述均值、标准差以及数据波动值:
依据公式:
Figure 195520DEST_PATH_IMAGE001
,获得所述滑动时间窗内数据点的均值;
依据公式:
Figure 691223DEST_PATH_IMAGE002
,获得所述滑动时间窗内数据点的标准差;
依据公式:d=max(xi)-min(xi),获得所述滑动时间窗内数据点的数据波动值;其中,x为所述滑动时间窗内的数据点,下标i为数据点的索引,max(xi)表示滑动时间窗内的最大数据点,min(xi) 表示滑动时间窗内的最小数据点。
本发明的一可选实施例中,上述步骤13,可以包括:
步骤131:根据所述当前时刻的数据点与其之前的所述滑动时间窗内的数据点的统计指标值之间满足以下至少一种判断条件时,判断所述当前时刻的数据点为异常数据点,否则,判断所述当前时刻的数据点为正常数据点;
Figure 204113DEST_PATH_IMAGE003
Figure 367241DEST_PATH_IMAGE004
Figure 940174DEST_PATH_IMAGE005
Figure 657594DEST_PATH_IMAGE006
其中,x表示数据点,h为当前时刻,
Figure 242684DEST_PATH_IMAGE007
表示滑动时间窗Yh内的数据点的均值、
Figure 994739DEST_PATH_IMAGE008
表示滑动时间窗Yh内的数据点的标准差,
Figure 4152DEST_PATH_IMAGE009
表示滑动时间窗Yh内的数据点的数据波动值,k,m,t,p为设定的参数。
该实施例中,可以依据多种判断标准判断数据点xh是否异常数据点,单一使用上述四种条件之一,或者可以根据需求使用上述条件中的两个或者三个,或者同时使用上述全部条件,均可以作为判断的标准,因此共有15种方式,当选用多个判断的统计指标时,需要所选用的统计指标都认为是异常时,该数据点才算是异常数据点;当对于整个时间序列数据而言,自第L+1个数据点开始,均可通过上述判断条件获得各自的异常状态;运用一种或多种评估方式,会使判定结果具有相当的鲁棒性。
本发明的一可选实施例中,时间序列数据的异常检测方法还还可以包括:
所述滑动时间窗在滑动的过程中,若所述滑动时间窗内的数据点中异常数据点占比一半以上时,将异常数据点设置为正常数据点,将正常数据点设置为异常数据点,得到中间滑动时间窗,该中间滑动时间窗用于检测所述时间序列数据中的下一个数据点的状态。
该实施例中,所述滑动时间窗在沿所述时间序列数据滑动的过程中,所述滑动时间窗每滑动一次,所述滑动时间窗内的数据点会更新一次,即所述滑动时间窗每滑动一次,剔除窗内时间戳最旧的数据点,添加最近检测的数据点,以保持滑动时间窗的长度不变;当所述滑动时间窗内的所有数据点中异常数据点数量大于总数据点数量的一半时,将此时滑动时间窗内的异常数据点设置为正常数据点,将正常数据点设置为异常数据点,得到中间滑动时间窗,以及时适应所述时间序列数据中数据的变化。
进一步的,时间序列数据的异常检测方法还可以包括:
对所述中间滑动时间窗内的异常数据点进行插值平滑处理,得到全部为正常数据点的滑动时间窗;
插值公式为:
Figure 208869DEST_PATH_IMAGE010
其中,x为数据点,q为需要被光滑的数据点,e和f分别表示由索引为q-e和q+f的数据点对目标点完成的插值。
该实施例中,通过对所述中间滑动时间窗内的异常数据点进行插值平滑,以确保窗内数据点均为正常数据点,并依据正常的数据点统计指标数据,保证指标数据的精确度,进一步提高后续检测的准确性。
本发明的一可选实施例中,基于步骤11至13的基础上,时间序列数据的异常检测方法还可以包括:
步骤14,根据以下至少一种评价指标序列:A=[A1,A2,...AR],B=[B1,B2,...BR],C=[C1,C2,...CR],D=[D1,D2,...DR]的归一化结果,获得异常数据点的异常得分;
其中,R表示异常数据点个数,
Figure 329140DEST_PATH_IMAGE011
Figure 935702DEST_PATH_IMAGE012
Figure 116017DEST_PATH_IMAGE013
Figure 808029DEST_PATH_IMAGE014
,1≤k≤R;x表示数据点,h为当前时刻,
Figure 457623DEST_PATH_IMAGE007
表示滑动时间窗Yh内的数据点的均值、
Figure 167959DEST_PATH_IMAGE008
表示滑动时间窗Yh内的数据点的标准差,
Figure 738749DEST_PATH_IMAGE009
表示滑动时间窗Yh内的数据点的数据波动,s为设定的参数。
该实施例中A、B、C、D作为所有异常数据点构成的4个评价指标序列,分别将A、B、C、D对应的序列进行归一化处理,由此每个异常点均可获得一个异常得分,所述异常得分取值在0-1范围内,所述异常得分的计算与选用的判断条件相匹配,即也具有15种计算方式,当选用多个评价指标时,异常点得分为多个指标得分的均值,通过异常数据点相关评价指标序列来描述异常点的重要程度,并进行归一化处理,以便用于异常结果的筛选。
以下将以具体实现示例对上述方案进行说明,如图2所示,具体实现流程如下:
步骤21,对给定的原始时间序列数据进行预处理:数据采集过程由于采集器问题会造成数据时间戳是非等间隔,这可能会影响诸多时间序列异常检测算法的使用及算法效果。预处理主要包括按时间对数据排序、重复数值去重、对数据进行等间隔校正、缺失值填充等。
步骤22,提取指定指标特定时间范围内的时间序列指标数据,并且考虑上述步骤21中的预处理操作,得到等间隔的连续时间序列数据X,其表达式为:
X=[x1,x2,...xT],其中X表示时间序列数据,其中元素为xi,表示时间序列数据中第i个时刻的数值,T表示时间序列数据X的总长度。
步骤23,基于延时思想,构建自适应延时滑动时间窗,并计算相关统计量。
延时思路进行异常检测的基本思路是指对于当前时刻h,利用时间序列中该时刻前一段时间窗内数据的统计指标,来判断当前时刻h时数据点的正常状态;具体的,假定上述滑动时间窗长度为L(L<T),则上述滑动时间窗内数据构成的时间序列可以表示为:Yh=[xh-L, xh-L+1, ..., xh-1] ,其中Y表示滑动窗时间序列,下标h表示该窗内数据用于检测h时刻的数据点是否异常。
步骤231,判断滑动时间窗内数据点的状态,若滑动时间窗内异常数据点占比50%以上时,为了及时适应数据变化,将异常数据点视为正常数据点;将正常数据点视为异常数据点。
步骤232,对滑动时间窗内异常数据点进行平滑插值处理。通过插值公式获取插值,以插值替代异常数据点,以确保窗内数据均为正常数据点,以提高后续步骤计算的统计量具有较高精确度。
步骤24,计算滑动时间窗内数据点的均值、标准差、波动值等统计量。依据均值、标准差、波动值计算公式,依次获得滑动时间窗内数据点的指标数据,基于统计方法的异常判定策略,基于四种统计算法判定指标中的单一指标或两个组合或三个组合或四个指标的组合来判断当前h时刻数据点是否正常,判断条件为:
Figure 760800DEST_PATH_IMAGE003
Figure 491384DEST_PATH_IMAGE004
Figure 806958DEST_PATH_IMAGE005
Figure 594655DEST_PATH_IMAGE006
;其中x表示时间序列中的数据点,h为数据点索引,
Figure 730101DEST_PATH_IMAGE007
,
Figure 261445DEST_PATH_IMAGE008
Figure 697106DEST_PATH_IMAGE009
分别对应Yh滑动时间窗内数据的均值、标准差和数据波动,k,m,t,p为人工给定的参数。均可通过上述方式获得各自的异常状态。运用一种或多种评估方式,会使判定结果具有相当的鲁棒性。
步骤25,对时间序列数据中的异常数据点进行异常程度归一化评分处理,判定异常检测结果的异常得分。在由滑动时间窗进行异常检测过程中,记录下相关评价指标值,并据此得到多个评价指标序列,分别对多个评价指标序列进行归一化,由此每个异常数据点均可获得一个异常程度得分。
本发明的上述实施例,基于时间序列数据的滑动时间窗和窗内异常数据点反转策略快速实现对数据分布变化的自适应性;滑动时间窗内的异常数据点进行插值平滑处理,提升了异常检测结果的准确性;对异常结果的显著性评分可以量化描述数据的异常程度,提高了检测的效率。
如图3所示,本发明的实施例还提供一种时间序列数据的异常检测装置30,所述装置30包括:
第一获取模块31,用于获得时间序列数据,所述时间序列数据中的多个数据点按时间顺序等间隔排列;
第二获取模块32,用于获得所述时间序列数据中,当前时刻的数据点之前一滑动时间窗内的数据点的统计指标;
处理模块33,用于根据所述当前时刻的数据点之前的所述时间窗内的数据点的统计指标,判断所述当前时刻的数据点是否为异常数据点。
可选的,所述滑动时间窗内的数据点构成的时间序列为:Yh=[xh-L,xh-L+1,...,xh-1];所述滑动时间窗内的数据点的统计指标包括以下至少一项:均值;标准差;数据波动值;其中所述数据波动值为所述滑动时间窗内的数据点的最大值和最小值之差,L为时间窗的长度,h为当前时刻。
可选的,所述均值为:
Figure 390124DEST_PATH_IMAGE001
所述标准差为:
Figure 278446DEST_PATH_IMAGE002
所述数据波动值为:d=max(xi)-min(xi);
其中,x为所述滑动时间窗内的数据点,下标i为数据点的索引。
可选的,所述处理模块33具体用于:
根据所述当前时刻的数据点与其之前的所述滑动时间窗内的数据点的统计指标之间满足以下至少一种判断条件时,判断所述当前时刻的数据点为异常数据点,否则,判断所述当前时刻的数据点为正常数据点:
Figure 350832DEST_PATH_IMAGE003
Figure 640999DEST_PATH_IMAGE004
Figure 770497DEST_PATH_IMAGE005
Figure 880536DEST_PATH_IMAGE006
其中,x表示数据点,h为当前时刻,
Figure 753683DEST_PATH_IMAGE007
表示滑动时间窗Yh内的数据点的均值、
Figure 898356DEST_PATH_IMAGE008
表示滑动时间窗Yh内的数据点的标准差,
Figure 198757DEST_PATH_IMAGE009
表示滑动时间窗Yh内的数据点的数据波动值,k,m,t,p为设定的参数。
可选的,所述处理模块33还用于在所述滑动时间窗在滑动的过程中,若所述滑动时间窗内的数据点中异常数据点占比一半以上时,将异常数据点设置为正常数据点,将正常数据点设置为异常数据点,得到中间滑动时间窗。
可选的,所述处理模块33还用于对所述中间滑动时间窗内的异常数据点进行插值平滑处理,得到全部为正常数据点的滑动时间窗;插值公式为:
Figure 61670DEST_PATH_IMAGE010
其中,x为数据点,q为需要被光滑的数据点,e和f分别表示由索引为q-e和q+f的数据点对目标点完成的插值。
可选的,所述处理模块33还用于根据以下至少一种评价指标序列:A=[A1,A2,...AR],B=[B1,B2,...BR],C=[C1,C2,...CR],D=[D1,D2,...DR]的归一化结果,获得异常数据点的异常得分;
其中,R表示异常数据点个数,
Figure 475859DEST_PATH_IMAGE011
Figure 740618DEST_PATH_IMAGE012
Figure 680761DEST_PATH_IMAGE013
Figure 30971DEST_PATH_IMAGE014
,1≤k≤R;
x表示数据点,h为当前时刻,
Figure 245920DEST_PATH_IMAGE007
表示滑动时间窗Yh内的数据点的均值、
Figure 365186DEST_PATH_IMAGE008
表示滑动时间窗Yh内的数据点的标准差,
Figure 7389DEST_PATH_IMAGE009
表示滑动时间窗Yh内的数据点的数据波动,s为设定的参数。
需要说明的是,该装置是与上述方法对应的装置,上述方法实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
本发明的实施例还提供一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上所述的方法对应的操作。
本发明的实施例还提供一种计算机可读存储介质,存储有指令,所述指令在计算机上运行时,使得计算机执行如上所述的方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
此外,需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行,某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种时间序列数据的异常检测方法,其特征在于,包括:
获得时间序列数据,所述时间序列数据中的多个数据点按时间顺序等间隔排列;
获得所述时间序列数据中,当前时刻的数据点之前一滑动时间窗内的数据点的统计指标;
根据所述当前时刻的数据点之前的所述滑动时间窗内的数据点的统计指标,判断所述当前时刻的数据点是否为异常数据点;
其中,所述滑动时间窗内的检测数据点依据检测过程的行进改变,具体方式为:所述滑动时间窗检测完当前数据点后,通过滑动一个数据点间隔的方式对后续数据点进行异常检测,同时将当前时刻对应的数据点作为所述滑动时间窗内新的检测数据点,并获取此刻滑动时间窗内检测数据点数统计指标,检测下一时刻数据点的状态;
其中,所述时间序列数据为X=[x1,x2,...xi,...xT],其中,元素xi表示时间序列数据中第i个时刻的数据点,T表示时间序列数据X的总长度;
所述滑动时间窗内的数据点构成的时间序列为:Yh=[xh-L,xh-L+1,...,xh-1];
所述滑动时间窗内的数据点的统计指标包括以下至少一项:均值;标准差;数据波动值;
其中,所述均值为:
Figure DEST_PATH_IMAGE001
所述标准差为:
Figure DEST_PATH_IMAGE002
所述数据波动值d为所述滑动时间窗内的数据点的最大值和最小值之差:d=max(xi)-min(xi);
其中,x为所述滑动时间窗内的数据点,下标i为数据点的索引,L为滑动时间窗的长度,h为当前时刻;
其中,根据所述当前时刻的数据点之前的所述滑动时间窗内的数据点的统计指标判断所述当前时刻的数据点是否为异常数据点,包括:
根据所述当前时刻的数据点与其之前的所述滑动时间窗内的数据点的统计指标之间满足以下至少一种判断条件时,判断所述当前时刻的数据点为异常数据点,否则,判断所述当前时刻的数据点为正常数据点;
Figure DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE006
其中,x表示数据点,h为当前时刻,
Figure DEST_PATH_IMAGE007
表示滑动时间窗Yh内的数据点的均值、
Figure DEST_PATH_IMAGE008
表示滑动时间窗Yh内的数据点的标准差,
Figure DEST_PATH_IMAGE009
表示滑动时间窗Yh内的数据点的数据波动值,k,m,t,p为设定的参数。
2.根据权利要求1所述的时间序列数据的异常检测方法,其特征在于,
所述时间序列数据是指定一段时间段内的多个数据点形成的时间序列数据,在获取所述时间序列数据之前还包括:
步骤01,获取原始时间序列数据;
步骤02,对所述原始时间序列数据进行预处理,预处理包括按时间先后顺序对数据排序、重复数值去重、对数据进行等间隔校正、缺失值填充;
步骤03,提取指定指标特定时间范围内的时间序列指标数据,并且考虑上述步骤02中的预处理操作,得到等间隔的连续时间序列数据X。
3.根据权利要求1所述的时间序列数据的异常检测方法,其特征在于,还包括:
所述滑动时间窗在滑动的过程中,若所述滑动时间窗内的数据点中异常数据点占比一半以上时,将异常数据点设置为正常数据点,将正常数据点设置为异常数据点,得到中间滑动时间窗。
4.根据权利要求1所述的时间序列数据的异常检测方法,其特征在于,还包括:
对所述滑动时间窗内的异常数据点进行插值平滑处理,得到全部为正常数据点的滑动时间窗;插值公式为:
Figure DEST_PATH_IMAGE010
其中,x为数据点,q为需要被光滑的数据点,e和f分别表示由索引为q-e和q+f的数据点对目标点完成的插值。
5.根据权利要求1所述的时间序列数据的异常检测方法,其特征在于,还包括:
根据以下至少一种评价指标序列:A=[A1,A2,...AR],B=[B1,B2,...BR],C=[C1,C2,...CR],D=[D1,D2,...DR]的归一化结果,获得异常数据点的异常得分;
其中,R表示异常数据点个数,
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE014
,1≤k≤R;
x表示数据点,h为当前时刻,
Figure 623852DEST_PATH_IMAGE007
表示滑动时间窗Yh内的数据点的均值、
Figure 603309DEST_PATH_IMAGE008
表示滑动时间窗Yh内的数据点的标准差,
Figure 445363DEST_PATH_IMAGE009
表示滑动时间窗Yh内的数据点的数据波动,s为设定的参数。
6.一种时间序列数据的异常检测装置,其特征在于,所述装置包括:
第一获取模块,用于获得时间序列数据,所述时间序列数据中的多个数据点按时间顺序等间隔排列;
第二获取模块,用于获得所述时间序列数据中,当前时刻的数据点之前一滑动时间窗内的数据点的统计指标;
处理模块,用于根据所述当前时刻的数据点之前的所述滑动时间窗内的数据点的统计指标,判断所述当前时刻的数据点是否为异常数据点;其中,所述滑动时间窗内的检测数据点依据检测过程的行进改变,具体方式为:所述滑动时间窗检测完当前数据点后,通过滑动一个数据点间隔的方式对后续数据点进行异常检测,同时将当前时刻对应的数据点作为所述滑动时间窗内新的检测数据点,并获取此刻滑动时间窗内检测数据点数统计指标,检测下一时刻数据点的状态;
其中,所述时间序列数据为X=[x1,x2,...xi,...xT],其中,元素xi表示时间序列数据中第i个时刻的数据点,T表示时间序列数据X的总长度;
所述滑动时间窗内的数据点构成的时间序列为:Yh=[xh-L,xh-L+1,...,xh-1];
所述滑动时间窗内的数据点的统计指标包括以下至少一项:均值;标准差;数据波动值;
其中,所述均值为:
Figure 902889DEST_PATH_IMAGE001
所述标准差为:
Figure 513999DEST_PATH_IMAGE002
所述数据波动值d为所述滑动时间窗内的数据点的最大值和最小值之差:d=max(xi)-min(xi);
其中,x为所述滑动时间窗内的数据点,下标i为数据点的索引,L为滑动时间窗的长度,h为当前时刻;
其中,根据所述当前时刻的数据点之前的所述滑动时间窗内的数据点的统计指标判断所述当前时刻的数据点是否为异常数据点,包括:
根据所述当前时刻的数据点与其之前的所述滑动时间窗内的数据点的统计指标之间满足以下至少一种判断条件时,判断所述当前时刻的数据点为异常数据点,否则,判断所述当前时刻的数据点为正常数据点;
Figure 401708DEST_PATH_IMAGE003
Figure 731059DEST_PATH_IMAGE004
Figure 992276DEST_PATH_IMAGE005
Figure 723471DEST_PATH_IMAGE006
其中,x表示数据点,h为当前时刻,
Figure 779152DEST_PATH_IMAGE007
表示滑动时间窗Yh内的数据点的均值、
Figure 595798DEST_PATH_IMAGE008
表示滑动时间窗Yh内的数据点的标准差,
Figure 395127DEST_PATH_IMAGE009
表示滑动时间窗Yh内的数据点的数据波动值,k,m,t,p为设定的参数。
7.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-5中任一项所述的方法对应的操作。
8.一种计算机可读存储介质,其特征在于,存储有指令,所述指令在计算机上运行时,使得计算机执行如权利要求1至5任一项所述的方法。
CN202210002455.1A 2022-01-05 2022-01-05 一种时间序列数据的异常检测方法、装置及设备 Active CN114020598B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210002455.1A CN114020598B (zh) 2022-01-05 2022-01-05 一种时间序列数据的异常检测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210002455.1A CN114020598B (zh) 2022-01-05 2022-01-05 一种时间序列数据的异常检测方法、装置及设备

Publications (2)

Publication Number Publication Date
CN114020598A CN114020598A (zh) 2022-02-08
CN114020598B true CN114020598B (zh) 2022-04-19

Family

ID=80069246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210002455.1A Active CN114020598B (zh) 2022-01-05 2022-01-05 一种时间序列数据的异常检测方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114020598B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11831527B2 (en) * 2022-03-09 2023-11-28 Nozomi Networks Sagl Method for detecting anomalies in time series data produced by devices of an infrastructure in a network
CN115438452B (zh) * 2022-09-26 2023-04-18 中国科学院沈阳自动化研究所 一种时序网络信号的可靠性传输检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053171A (zh) * 2021-03-10 2021-06-29 南京航空航天大学 一种民机***风险预警方法及***
CN113420800A (zh) * 2021-06-11 2021-09-21 中国科学院计算机网络信息中心 一种数据异常检测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008052125A1 (en) * 2006-10-25 2008-05-02 Ims Software Services, Ltd. A system and method for detecting anomalies in market data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053171A (zh) * 2021-03-10 2021-06-29 南京航空航天大学 一种民机***风险预警方法及***
CN113420800A (zh) * 2021-06-11 2021-09-21 中国科学院计算机网络信息中心 一种数据异常检测方法及装置

Also Published As

Publication number Publication date
CN114020598A (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN114020598B (zh) 一种时间序列数据的异常检测方法、装置及设备
CN111459778B (zh) 运维***异常指标检测模型优化方法、装置及存储介质
US11403160B2 (en) Fault predicting system and fault prediction method
CA2634328C (en) Method and system for trend detection and analysis
JP4762088B2 (ja) プロセス異常診断装置
CN105259895B (zh) 一种工业过程微小故障的检测和分离方法及其监测***
CN113177537B (zh) 一种旋转机械设备的故障诊断方法及***
CN112414694B (zh) 基于多元状态估计技术的设备多级异常状态识别方法及装置
CN110083803A (zh) 基于时间序列arima模型取水异常检测方法与***
CN114490156A (zh) 一种时间序列数据异常标记方法
US7813893B2 (en) Method of process trend matching for identification of process variable
CN112000081A (zh) 基于多块信息提取和马氏距离的故障监测方法及***
WO2020166236A1 (ja) 作業効率評価方法、作業効率評価装置、及びプログラム
CN117034197A (zh) 基于多维Isolate-Detect多变点检测的企业用电典型模式分析方法
CN111538755A (zh) 一种基于归一化互相关与单位根检验的设备运行状态异常检测方法
JP4772613B2 (ja) 品質解析方法、品質解析装置、コンピュータプログラム、及びコンピュータ読み取り可能な記憶媒体
JP6885321B2 (ja) プロセスの状態診断方法及び状態診断装置
CN116304936A (zh) 基于分数阶差分时序数据单点异常检测方法、装置及设备
CN114155914A (zh) 基于宏基因组拼接错误的检测校正***
CN114597886A (zh) 基于区间二型模糊聚类分析的配电网运行状态评估方法
CN108459948B (zh) ***可靠性评估中失效数据分布类型的确定方法
JP5569324B2 (ja) 操業条件管理装置
CN112228042A (zh) 一种基于云边协同计算的抽油机井工况相似性判别方法
CN118013443B (zh) 基于生成模型算法的在线实时真空干泵异常检测方法
CN117951695B (zh) 一种工业未知威胁检测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant