CN118094478A - 一种应用于AIOps的时序序列异常数据检测方法 - Google Patents

一种应用于AIOps的时序序列异常数据检测方法 Download PDF

Info

Publication number
CN118094478A
CN118094478A CN202311712703.2A CN202311712703A CN118094478A CN 118094478 A CN118094478 A CN 118094478A CN 202311712703 A CN202311712703 A CN 202311712703A CN 118094478 A CN118094478 A CN 118094478A
Authority
CN
China
Prior art keywords
data
time sequence
abnormal data
sequence
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311712703.2A
Other languages
English (en)
Inventor
陈岩
周伟伟
晋丹
简铮
樊庆宇
王军鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Cloud Technology Co Ltd
Original Assignee
Tianyi Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Cloud Technology Co Ltd filed Critical Tianyi Cloud Technology Co Ltd
Priority to CN202311712703.2A priority Critical patent/CN118094478A/zh
Publication of CN118094478A publication Critical patent/CN118094478A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明涉及人工智能中智能运维的技术领域,公开了一种应用于AIOps的时序序列异常数据检测方法,包括以下步骤:S1:收集历史时序序列数据;S2:对历史时序序列数据进行预处理;S3:训练时序序列回归模型;S4:进行时序序列数据预测并计算判定异常数据的动态阈值;S5:根据所述动态阈值进行异常数据预检测;S6:进行异常数据确认和异常报警与数据回流。本发明不需要收集大量的异常数据,即可完成异常数据的检测,且检测准确度高,自动化程度高,大大节省了人力成本。

Description

一种应用于AIOps的时序序列异常数据检测方法
技术领域
本发明属于人工智能中智能运维的技术领域,具体涉及一种应用于AIOps的时序序列异常数据检测方法。
背景技术
随着经济、科技的快速发展,IT基础设施日趋复杂。云计算、微服务、容器等技术的发展,使IT***变得极其复杂,传统的运维方式已经很难有效管理这些庞大的***,这促进了AIOps(Algorithm IT Operations)的出现。运维***产生的日志、指标、事件等运维数据井喷式增长,人工很难有效分析这些数据,借助机器学习和人工智能技术,可以自动化执行许多重复性高的运维工作,大大提高运维效率,降低人工运维成本,实现自动化分析。
目前AIOps异常检测从研究到落地存在一个很棘手的问题,1.样本存在不均衡的情况,异常数据较少。2.不同业务异常数据种类不同。3.异常数据收集成本高等问题。4.使用传统的统计学方案,如同比、环比等误报多等问题。使用深度学习、机器学习监督分类学习方式进行预测,也难以获取一个很好的效果。
从监控体系可以发现,绝大多数监控数据均为时序数据,时序数据的监控在公司故障发现过程中扮演着不可忽视的角色。然而从海量的时序数据指标中可以发现,指标种类繁多、关系复杂。在指标本身的特点上,有周期性、规律突刺、整体抬升和下降、低峰期等特点,在影响因素上,有节假日、临时活动、天气等因素。原有监控***的固定阈值类监控策略想要覆盖上述种种场景,变得越来越困难,并且指标数量众多,在策略配置和优化运营上,人力成本将成倍增长。
如申请公开号为CN115952059A的专利公开了一种运维异常值的识别方法、装置、智能运维***及存储介质。该方法包括:获取运维差异数据,运维差异数据包括至少一个差异值集合;对于差异值集合,分别计算第一差异子集的交叉熵和第二差异子集的交叉熵、以及第一差异子集的类内方差和第二差异子集的类内方差;根据与阈值对应的第一差异子集的交叉熵、第二差异子集的交叉熵、第一差异子集的类内方差和第二差异子集的类内方差,计算得到与阈值对应的类间方差;根据类间方差集合确定最小类间方差值,并确定最小类间方差值对应的最佳阈值,根据最佳阈值确定运维差异数据中的运维异常值。该申请能够省去对待检测数据进行预设规律的统计假设,识别准确率高、复用性好。
如申请公开号为CN115859203A的专利公开了一种企业智能运维KPI数据异常检测及根因定位方法,包括以下步骤:获取KPI训练数据集;采用层次凝聚聚类方法对所述KPI训练数据集中的KPI训练数据进行类别标识;利用标识后的所述KPI训练数据对CE模型进行训练,并将待检测数据输入完成训练的所述CE模型进行聚类;基于多种无监督模型提取的异常值分数和KPI训练数据集训练LightGBM模型,并利用所述LightGBM模型对待检测数据集进行异常检测;根据改进的广义潜在分数对所述待检测数据集中任一异常数据进行异常根因定位;其中,所述CE模型为以CNN模型为基础加入Embedding层的改进模型。该发明能够大幅度提升KPI数据异常检测及根因定位效率与准确度。
以上专利都存在本背景技术提出的问题:需要搜集大量负样本数据,而异常数据的种类较多,真实线上场景的异常数据量也较少,同时收集采集成本较高。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域普通技术人员所公知的现有技术。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供一种AIOps领域的时序序列异常检测方法,使用自动化回归方式结合自动化阈值方案,统计学的方法以及曲线相似度匹配的方法来进行异常点检测,本方案不需要人工收集大量的异常数据,即可完成异常数据的检测。
为解决上述技术问题,本发明提供如下技术方案:一方面,本发明提供一种应用于AIOps的时序序列异常数据检测方法,包括以下步骤:
S1:收集历史时序序列数据;
S2:对所述历史时序序列数据进行预处理;
S3:训练时序序列回归模型;
S4:进行时序序列数据预测并计算判定异常数据的动态阈值;
S5:根据所述动态阈值进行异常数据预检测;
S6:进行异常数据确认和异常报警与数据回流。
作为本发明所述应用于AIOps的时序序列异常数据检测方法的一种优选方案,其中:所述预处理包括离群点剔除、重采样、归一化、计算标准差。
作为本发明所述应用于AIOps的时序序列异常数据检测方法的一种优选方案,其中:所述时序序列回归模型的训练方法如下:将所述历史时序序列数据划分为训练集和测试集,并进行时序序列回归模型的训练和测试评估;所述时序序列模型包括CNN回归模型、LSTM回归模型、ARIMA模型、ETS模型、Prophet模型;训练每种所述时序序列回归模型并进行测试评估,保留评估结果最佳的模型并部署应用。
作为本发明所述应用于AIOps的时序序列异常数据检测方法的一种优选方案,其中:所述判定异常数据的动态阈值的计算方法如下:采用训练好的时序序列回归模型预测未来M个时刻的时序序列数据,并根据预测值计算异常数据的动态阈值,包括第一阈值和第二阈值,计算公式如下
其中,Tt1表示t时刻的第一阈值,Tt2表示t时刻的第二阈值;y′t表示t时刻的模型预测值;t的取值范围为1,2,……,M。γ表示权重超参数,δ表示时序序列数据的标准差。
作为本发明所述应用于AIOps的时序序列异常数据检测方法的一种优选方案,其中:所述异常数据预检测的方法如下:令t时刻的时序序列数据为yt,若Tt1<yt<Tt2,则yt为正常数据;否则,将yt标记为异常数据。
作为本发明所述应用于AIOps的时序序列异常数据检测方法的一种优选方案,其中:判定是否对标记异常数据进行异常数据确认的方法如下:令任一被标记为异常数据的时序序列数据为yt1,若yt1前后不少于N个时序序列数据被标记为异常数据,则对yt1进行异常数据确认;否则,yt1为异常数据,发出异常报警并将yt1的值替换为预测值y′t1
作为本发明所述应用于AIOps的时序序列异常数据检测方法的一种优选方案,其中:所述异常数据确认的方法如下:
S100:获取yt1前的n-1个时序序列数据,与yt1共同组成基础序列x(t1),并对x(t1)进行归一化处理;
S200:获取前1天至前p天每一天中t1时刻、t1时刻之前n-1个以及t1时刻之后n个连续的时序序列数据,并组成p个长度为2n的历史时序序列;
S300:设置固定的滑动窗口大小以及步长大小,将所述p个历史时序序列通过滑动窗口截取为共计q个参考序列;
S400:对所述参考序列进行归一化处理,并将归一化后的q个参考序列组成参考序列集Y;
S500:计算基础序列x与Y中每个序列的DTW距离,并将q个DTW距离组成距离序列;
S600:通过孤立森林算法对所述距离序列中的每个DTW距离进行异常检测,统计异常DTW距离的个数;若所述异常DTW距离的个数大于等于相似阈值,则yt1为正常数据;否则,yt1为异常数据,发出异常报警并将yt1的值替换为预测值y′t1
作为本发明所述应用于AIOps的时序序列异常数据检测方法的一种优选方案,其中:所述相似阈值的计算公式如下:
Tn=ω·q;
其中,Tn表示相似阈值;ω为超参数。
第二方面,本发明提供一种电子设备,包括:存储器,用于存储指令;处理器,用于执行所述指令,使得所述设备执行实现本发明所述的应用于AIOps的时序序列异常数据检测方法的操作。
第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本发明所述的一种应用于AIOps的时序序列异常数据检测方法。
与现有技术相比,本发明所达到的有益效果如下:
1.使用回归的方法并结合自动化动态阈值方案,可实时进行异常数据检测,采用的时序序列回归模型的训练不需要有标签的数据,省去大量人工标注的工作;并且可以进行自动化的异常检测和报警,可以做到无人值守,大大节省了人力成本;
2.结合统计学的方法以及时序序列相似度匹配方法,进行异常数据的确认,增加了异常数据识别检测的准确性,减少了误检误报的情况。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明提供的一种应用于AIOps的时序序列异常数据检测方法的流程图;
图2为本发明提供的用于异常数据确认的方法流程图。
具体实施方式
下面通过附图以及具体实施例对本发明技术方案做详细地说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
实施例1
本实施例介绍一种应用于AIOps的时序序列异常数据检测方法,使用回归方式并结合自动化阈值的方案,统计学的方法以及时序序列相似度匹配方法来进行异常点检测;参照图1,该方法包括以下步骤:
S1:收集历史时序序列数据;
S2:对所述历史时序序列数据进行预处理;
所述预处理包括离群点剔除、重采样、归一化、计算标准差。
S3:训练时序序列回归模型;
将所述历史时序序列数据划分为训练集和测试集,并进行时序序列回归模型的训练和测试评估;所述时序序列模型包括CNN回归模型、LSTM回归模型、ARIMA模型、ETS模型、Prophet模型;训练每种所述时序序列回归模型并进行测试评估,保留评估结果最佳的模型并部署应用。
S4:进行时序序列数据预测并计算判定异常数据的动态阈值;方法如下:
采用训练好的时序序列回归模型预测未来M个时刻的时序序列数据,并根据预测值计算异常数据的动态阈值,包括第一阈值和第二阈值,计算公式如下
其中,Tt1表示t时刻的第一阈值,Tt2表示t时刻的第二阈值;y′t表示t时刻的模型预测值;t的取值范围为1,2,……,M。γ表示权重超参数,本实施例设置为0.1;δ表示时序序列数据的标准差。
S5:根据所述动态阈值进行异常数据预检测;方法如下:
令t时刻的时序序列数据为yt,若Tt1<yt<Tt2,则yt为正常数据;否则,将yt标记为异常数据。
通过上述步骤,可以完成时序序列数据的异常检测,满足大部分场景的使用。但当用户切量或增量时,时序序列数据发生整体抬升或者下降时,上述步骤会出现大量的误报警。因此,本专利针对此问题,使用统计学方法以及时序序列相似度匹配方法,来进行异常值的确认。
S6:进行异常数据确认和异常报警与数据回流。
判定是否对标记异常数据进行异常数据确认的方法如下:令任一被标记为异常数据的时序序列数据为yt1,若yt1前后不少于N个时序序列数据被标记为异常数据,则对yt1进行异常数据确认;否则,yt1为异常数据,发出异常报警并将yt1的值替换为预测值y′t1
参照图2,所述异常数据确认的方法如下:
S100:获取yt1前的n-1个时序序列数据,与yt1共同组成基础序列x(t1),并对x(t1)进行归一化处理;
S200:获取前1天至前p天每一天中t1时刻、t1时刻之前n-1个以及t1时刻之后n个连续的时序序列数据,并组成p个长度为2n的历史时序序列;
S300:设置固定的滑动窗口大小以及步长大小,将所述p个历史时序序列通过滑动窗口截取为共计q个参考序列;
S400:对所述参考序列进行归一化处理,并将归一化后的q个参考序列组成参考序列集Y;
S500:计算基础序列x与Y中每个序列的DTW距离,并将q个DTW距离组成距离序列;
S600:通过孤立森林算法对所述距离序列中的每个DTW距离进行异常检测,统计异常DTW距离的个数;若所述异常DTW距离的个数大于等于相似阈值,则yt1为正常数据;否则,yt1为异常数据,发出异常报警并将yt1的值替换为预测值y′t1
所述相似阈值的计算公式如下:
Tn=ω·q;
其中,Tn表示相似阈值;ω为超参数,本实施例设置为0.2。
通过对预检测中标记为异常的数据进行异常确认,筛除误检误报的情况,大大提高了异常检测的准确度,同时也避免了人力资源浪费。
实施例2
与其它实施例基于相同的发明构思,本实施例介绍一种电子设备,包括存储器和处理器,存储器用于存储指令,处理器用于执行该指令,使得计算机设备执行实现上述各方法所提供的应用于AIOps的时序序列异常数据检测方法。
由于本实施例所介绍的电子设备为实施本申请实施例中应用于AIOps的时序序列异常数据检测方法所采用的电子设备,故而基于本申请实施例中所介绍的应用于AIOps的时序序列异常数据检测方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中应用于AIOps的时序序列异常数据检测方法所采用的电子设备,都属于本申请所欲保护的范围。
实施例3
与其它实施例基于相同的发明构思,本实施例介绍一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述各方法所提供的应用于AIOps的时序序列异常数据检测方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种应用于AIOps的时序序列异常数据检测方法,其特征在于:包括以下步骤:
S1:收集历史时序序列数据;
S2:对所述历史时序序列数据进行预处理;
S3:训练时序序列回归模型;
S4:进行时序序列数据预测并计算判定异常数据的动态阈值;
S5:根据所述动态阈值进行异常数据预检测;
S6:进行异常数据确认和异常报警与数据回流。
2.如权利要求1所述的一种应用于AIOps的时序序列异常数据检测方法,其特征在于:所述预处理包括离群点剔除、重采样、归一化、计算标准差。
3.如权利要求2所述的一种应用于AIOps的时序序列异常数据检测方法,其特征在于:所述时序序列回归模型的训练方法如下:将所述历史时序序列数据划分为训练集和测试集,并进行时序序列回归模型的训练和测试评估;所述时序序列模型包括CNN回归模型、LSTM回归模型、ARIMA模型、ETS模型、Prophet模型;训练每种所述时序序列回归模型并进行测试评估,保留评估结果最佳的模型并部署应用。
4.如权利要求3所述的一种应用于AIOps的时序序列异常数据检测方法,其特征在于:所述判定异常数据的动态阈值的计算方法如下:采用训练好的时序序列回归模型预测未来M个时刻的时序序列数据,并根据预测值计算异常数据的动态阈值,包括第一阈值和第二阈值,计算公式如下
其中,Tt1表示t时刻的第一阈值,Tt2表示t时刻的第二阈值;y't表示t时刻的模型预测值;t的取值范围为1,2,……,M;γ表示权重超参数,δ表示时序序列数据的标准差。
5.如权利要求4所述的一种应用于AIOps的时序序列异常数据检测方法,其特征在于:所述异常数据预检测的方法如下:令t时刻的时序序列数据为yt,若Tt1<yt<Tt2,则yt为正常数据;否则,将yt标记为异常数据。
6.如权利要求5所述的一种应用于AIOps的时序序列异常数据检测方法,其特征在于:判定是否对标记异常数据进行异常数据确认的方法如下:令任一被标记为异常数据的时序序列数据为yt1,若yt1前后不少于N个时序序列数据被标记为异常数据,则对yt1进行异常数据确认;否则,yt1为异常数据,发出异常报警并将yt1的值替换为预测值y't1
7.如权利要求6所述的一种应用于AIOps的时序序列异常数据检测方法,其特征在于:所述异常数据确认的方法如下:
S100:获取yt1前的n-1个时序序列数据,与yt1共同组成基础序列x(t1),并对x(t1)进行归一化处理;
S200:获取前1天至前p天每一天中t1时刻、t1时刻之前n-1个以及t1时刻之后n个连续的时序序列数据,并组成p个长度为2n的历史时序序列;
S300:设置固定的滑动窗口大小以及步长大小,将所述p个历史时序序列通过滑动窗口截取为共计q个参考序列;
S400:对所述参考序列进行归一化处理,并将归一化后的q个参考序列组成参考序列集Y;
S500:计算基础序列x与Y中每个序列的DTW距离,并将q个DTW距离组成距离序列;
S600:通过孤立森林算法对所述距离序列中的每个DTW距离进行异常检测,统计异常DTW距离的个数;若所述异常DTW距离的个数大于等于相似阈值,则yt1为正常数据;否则,yt1为异常数据,发出异常报警并将yt1的值替换为预测值y't1
8.如权利要求7所述的一种应用于AIOps的时序序列异常数据检测方法,其特征在于:所述相似阈值的计算公式如下:
Tn=ω·q;
其中,Tn表示相似阈值;ω为超参数。
9.一种电子设备,其特征在于,包括:存储器,用于存储指令;处理器,用于执行所述指令,使得所述设备执行实现如权利要求1-8中任一项所述的一种应用于AIOps的时序序列异常数据检测方法的操作。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现如权利要求1-8中任一项所述的一种应用于AIOps的时序序列异常数据检测方法。
CN202311712703.2A 2023-12-13 2023-12-13 一种应用于AIOps的时序序列异常数据检测方法 Pending CN118094478A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311712703.2A CN118094478A (zh) 2023-12-13 2023-12-13 一种应用于AIOps的时序序列异常数据检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311712703.2A CN118094478A (zh) 2023-12-13 2023-12-13 一种应用于AIOps的时序序列异常数据检测方法

Publications (1)

Publication Number Publication Date
CN118094478A true CN118094478A (zh) 2024-05-28

Family

ID=91152387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311712703.2A Pending CN118094478A (zh) 2023-12-13 2023-12-13 一种应用于AIOps的时序序列异常数据检测方法

Country Status (1)

Country Link
CN (1) CN118094478A (zh)

Similar Documents

Publication Publication Date Title
CN111475804B (zh) 一种告警预测方法及***
CN111614491B (zh) 一种面向电力监控***安全态势评估指标选取方法及***
CN112508105A (zh) 一种采油机故障检测与检索方法
CN114742477B (zh) 企业订单数据处理方法、装置、设备及存储介质
CN110636066B (zh) 基于无监督生成推理的网络安全威胁态势评估方法
CN113791926A (zh) 智能告警分析方法、装置、设备及存储介质
CN113268370B (zh) 一种根因告警分析方法、***、设备及存储介质
CN116416884B (zh) 一种显示器模组的测试装置及其测试方法
CN112836809A (zh) 一种基于差分特征融合的卷积神经网络的设备特性提取方法以及故障预测的方法
CN117094184B (zh) 基于内网平台的风险预测模型的建模方法、***及介质
CN115641162A (zh) 一种基于建筑工程造价的预测数据分析***和方法
CN114429152A (zh) 基于动态指数对抗性自适应的滚动轴承故障诊断方法
CN114202243A (zh) 一种基于随机森林的工程项目管理风险预警方法及***
CN115358481A (zh) 一种企业外迁预警识别的方法、***及装置
CN115793590A (zh) 适用于***安全运维的数据处理方法及平台
CN115632966A (zh) 基于云计算的物联网设备自动运维方法
CN112732690B (zh) 一种用于慢病检测及风险评估的稳定***及方法
CN117933531A (zh) 一种分布式光伏发电功率预测***及方法
CN109635008B (zh) 一种基于机器学习的设备故障检测方法
CN115683504B (zh) 基于多标签分类的桥梁加速度监测数据异常识别方法及***
CN118094478A (zh) 一种应用于AIOps的时序序列异常数据检测方法
CN114139636B (zh) 异常作业处理方法及装置
CN111882135B (zh) 一种物联网设备入侵检测方法及相关装置
CN113393169B (zh) 基于大数据技术的金融行业交易***性能指标分析方法
CN115378000A (zh) 基于区间二型模糊聚类分析的配电网运行状态评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination