CN115730262A - 一种数据驱动的云平台***的异常诊断方法及装置 - Google Patents

一种数据驱动的云平台***的异常诊断方法及装置 Download PDF

Info

Publication number
CN115730262A
CN115730262A CN202211492446.1A CN202211492446A CN115730262A CN 115730262 A CN115730262 A CN 115730262A CN 202211492446 A CN202211492446 A CN 202211492446A CN 115730262 A CN115730262 A CN 115730262A
Authority
CN
China
Prior art keywords
data
cloud platform
platform system
abnormality
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211492446.1A
Other languages
English (en)
Inventor
陈鹏
宋雨佳
赵志明
辛茹月
单文煜
陈娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quzhou Haiyi Technology Co ltd
Xihua University
Original Assignee
Quzhou Haiyi Technology Co ltd
Xihua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quzhou Haiyi Technology Co ltd, Xihua University filed Critical Quzhou Haiyi Technology Co ltd
Priority to CN202211492446.1A priority Critical patent/CN115730262A/zh
Publication of CN115730262A publication Critical patent/CN115730262A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了尤其涉及一种数据驱动的云平台***的异常诊断方法及装置,涉及计算机技术领域,方法包括S1构建异常诊断模型;S2获取训练数据集,并导入到异常诊断模型进行训练优化;S3获取云平台***的实时检测数据,并导入到优化后的异常诊断模型,得到第一损失和第二损失;S4根据第一损失和第二损失确定云平台***的异常分数;S5根据异常分数判断云平台***的异常;基于卷积神经网络对抗性训练和POT动态阈值选择构造深度网络模型对多元时间序列进行异常检测,并且添加了基于每个数据点进行异常归因矩阵计算的异常解释模块,在云平台中的高维、复杂的数据中,有效检测数据异常,并能给出异常在云平台数据中最有可能发生的维度。

Description

一种数据驱动的云平台***的异常诊断方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据驱动的云平台***的异常诊断方法及装置。
背景技术
经过几十年的发展,从Christopher Strachey在论文中首次提出虚拟化概念到如今,云计算已经从一组有前途的虚拟化和数据中心技术发展为向最终客户提供计算即服务的综合范式[1]。并且具有强大的计算能力,允许用户以多种方式访问 和执行云计算,且根据需要快速提供资源。至此,云计算能使计算能力像商品般流通,便利我们的生活,其具有以下几个主要特点:①规模大,云供应商拥有成百上千万台的服务器来给用户提供超强的计算能力。②虚拟化,只需要一部手机或者一台电脑就能满足我们的需求。③通用性,在“云”的支撑下,云计算可以支持多种不同应用的运行。④可扩展性,云计算或是云服务都具有动态规模,可以满足用户增长的需求。⑤按需服务,云计算相当于一个计算资源池,用户可以根据自己的需求进行购买。然而,随着数据量和网络应用范围的急剧增加,云平台的部署越来越多,需要处理的数据呈指数级增长,这些都需要依赖云计算***的可靠性。
在初始阶段,研究人员通过分析***指标(如I/O请求数,内存使用率,吞吐率等)提出了单变量时间序列异常检测方法。但随着云***复杂性的增加,云的性能监控数据都是以多元时间序列存在的,例如监控cpu异常状态时需要收集用户空间占用cpu百分比,空闲cpu百分比,等待输入输出的cpu时间百分比,cpu使用总的百分比等不同维度数据。因此为了提高云计算***的可靠性,对其所收集的多元时间序列进行异常检测以及检测以后对异常的解释或是对异常的发生进行溯源都是当前研究的热点问题之一[3]。
近年来,国内外相关研究人员在多变量时间序列异常检测和异常解释方面取得的相当大的进展,根据提出的时间,时间序列异常检测算法主要分为以下两类:
1.传统的时间序列异常检测方法。Principal Component Analysis(PCA)[4]方法利用特征值的权重计算样本点的特征值对应的特征向量距离差,从而计算出数据值与该方向的偏差程度。它根据每个方向的偏差程度累计来识别异常。Local Outlier Factor(LOF)[5]是局部离群因子检测方法,给数据集中的每个点都会计算一个离群因子,通过比较离群因子是否接近于1来确定异常,若远大于1则认定为异常,接近于1则为正常。Copula-basedoutlier detection(COPOD)[6]基于copula统计概率函数对多个随机变量间的依赖关系进行建模,通过经验累计分布来得到empirical copula,进而估算各个维度上的尾端概率。OneClass SVM(OCSVM)[7]旨在学***面来划分正常数据和一些异常值,如果是多维数据,就是找一个曲面来划分。通过观察数据点是否在决策边界内来识别异常。
2.基于深度学***面归一化流来生成重建概率。UnSupervised Anomaly Detection(USAD)[10]使用三个基础自编码器结合对抗性训练风格来检测异常。Multivariate Time-Series AnomalyDetection via Graph Attention Network(MTAD-GAT)[11]通过结合预测和重建方法共同构建模型,使用图注意力网络对特征和时间相关性进行建模,并将其传递给GRU网络(LSTM的简化版本)。Deep Transformer Networks for Anomaly Detection(TranAD)[12]是结合Transformer进行异常检测的典型代表。它使用注意机制来学习时间趋势,并结合与模型无关的元学习,即使在有限的数据集下也能保证其性能,仍然通过重构误差来判断异常。
在异常检测之后,如何解释检测到的异常一直是研究人员关注的焦点,在实际生产当中有非常大的应用价值。Multi-Scale Con-volutional Recurrent Encoder-Decode(MSCRED)[13]中计算了异常严重程度,使用不同的通道宽度来捕获短期、中期和长期异常。OmniAnomaly[9]使用HitRate@P\%来衡量模型的诊断性能。TranAD[12]在此基础上增加了归一化累计折扣NDCG@P\%。[14]中提出了贝叶斯网络,用于对多个网络和***的物理特征进行因果关系检测。在[15]中使用无监督方法来减少异常特征空间以连续隔离异常。
由于异常本身的复杂性和未知性,以及静态阈值设置的局限性,因此,现有的异常检测方法仍然存在以下不足:1)对于云平台多元时间序列中与正常数据相似的轻微异常检测性能不足。2)过于依赖研究人员对阈值的经验判断。3)缺少异常解释部分的工作或没有直观的解释异常,不能帮助研究人员做进一步决策。
发明内容
本发明的目的就在于为了解决上述问题设计了一种数据驱动的云平台***的异常诊断方法及装置。
本发明通过以下技术方案来实现上述目的:
一种数据驱动的云平台***的异常诊断方法,包括:
S1、构建异常诊断模型,异常诊断模型包括输入层、卷积自动编码器、第一CNN解码器、第二CNN解码器和输出层,输入层用于输入训练数据集或实时检测数据,输出层用于输出卷积自动编码器与第一CNN解码器和第二CNN解码器的损失,输入层的输出与卷积自动编码器的输入连接,卷积自动编码器的输出分别与第一CNN解码器和第二CNN解码器的输入连接,第一CNN解码器的输出与卷积自动编码器的输入连接,第一CNN解码器和第二CNN解码器的输出均与输出层的输入连接;
S2、获取训练数据集,并导入到异常诊断模型进行训练优化;
S3、获取云平台***的实时检测数据,并导入到优化后的异常诊断模型,得到第一损失和第二损失;
S4、根据第一损失和第二损失确定云平台***的异常分数;
S5、根据异常分数判断云平台***的异常。
一种数据驱动的云平台***的异常诊断装置,包括:
储存器;储存器用于储存程序;
执行器;执行器用于执行程序,执行器执行储存器中的程序时,实现如上述的一种数据驱动的云平台***的异常诊断方法。
本发明的有益效果在于:基于卷积神经网络对抗性训练和POT动态阈值选择构造深度网络模型对多元时间序列进行异常检测,并且添加了基于每个数据点进行异常归因矩阵计算的异常解释模块,在云平台中的高维、复杂的数据中,有效检测数据异常,并能给出异常在云平台数据中最有可能发生的维度。
附图说明
图1是本发明一种数据驱动的云平台***的异常诊断方法的流程结构示意图;
图2是本发明与8种异常检测方法在7个数据集上的检测性能对比图;
图3是本发明与所有基线方法的综合性能排名图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要理解的是,术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,“设置”、“连接”等术语应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合附图,对本发明的具体实施方式进行详细说明。
一种数据驱动的云平台***的异常诊断方法,包括:
S1、构建异常诊断模型,异常诊断模型包括输入层、卷积自动编码器、第一CNN解码器、第二CNN解码器和输出层,输入层用于输入训练数据集或实时检测数据,输出层用于输出卷积自动编码器与第一CNN解码器和第二CNN解码器的损失,输入层的输出与卷积自动编码器的输入连接,卷积自动编码器的输出分别与第一CNN解码器和第二CNN解码器的输入连接,第一CNN解码器的输出与卷积自动编码器的输入连接,第一CNN解码器和第二CNN解码器的输出均与输出层的输入连接;
不同于以往的自编码器,新添加一个解码器,通过两个解码器与编码器组成两组自编码器形成对抗性训练架构,用于放大重构误差来检测轻微异常。
S2、获取训练数据集,并导入到异常诊断模型进行训练优化;具体包括:
S21、获取云平台时间序列数据作为训练数据集T={x1,x2,…xn},其中n代表时间序列的最大长度,xt∈Rm表示xt为m个维度的多变量数据,定义一个时间窗口Wt={xt-k+1,...xt-1,xt},进行归一化处理将T转换为窗口序列W={W1,W2...WT},将归一化处理后的训练数据集输入到异常诊断模型;
S22、卷积自动编码器进行编码获得第一编码信息hk,表示为hk=σ(Wt*wk+bk),其中k为卷积核个数,wk和bk为卷积层的权值参数,σ为特定的激活函数;
S23、第一CNN解码器和第二CNN解码器分别对第一编码信息进行特征重构并获得第一解码信息ED1(Wt)和第二解码信息ED2(Wt),表示为
Figure BDA0003963943560000071
Figure BDA0003963943560000072
其中
Figure BDA0003963943560000073
和c为反卷积层的权值参数;
S24、将第一解码信息输入到卷积自动编码器,再次进行卷积数学运算获得第二编码信息;
S25、第二CNN解码器对第二编码信息进行特征重构并获得第三解码信息,表示为
Figure BDA0003963943560000074
S26、输出层根据第一解码信息、第二解码信息和第三解码信息得到第一损失
Figure BDA0003963943560000075
和第二损失
Figure BDA0003963943560000076
分别表示为
Figure BDA0003963943560000077
Figure BDA0003963943560000078
S22与S23为第一阶段,第一阶段实现直接最小化重建数据,S24与S25为第二阶段,第二阶段为对抗训练,训练第一CNN解码器来迷惑第二CNN解码器,增强第二CNN解码器区分真实数据的能力,此时第一CNN解码器旨在最小化重建,第二CNN解码器在最大化重建。
S3、获取云平台***的实时检测数据,并导入到优化后的异常诊断模型,得到第一损失和第二损失;
S4、根据第一损失和第二损失确定云平台***的异常分数s,表示为s=α||W-ED1(W)||2+β||W-ED2(ED1(W))||2,α+β=1,其中α和β为加权平均的参数;
S5、通过POT技术生成阈值POT(si),通过异常分数与阈值POT(si)进行比较,其中,只要任意维度yi的异常分数大于阈值都将该时间戳视为异常,异常判断定义为:
yi=1(si≥POT(si))
Figure BDA0003963943560000081
采用POT技术自动确定阈值,有效减少了设置静态阈值所产生的对相关研究人员的经验依赖。
S6、输入经过计算得到的每个点的异常分数,将其与阈值进行比较形成标签序列Y={y1,y2...yt},其中yt∈(0,1),0表示该点为正常点,1表示为异常点,将Y存储在矩阵R中,进行归因诊断:
Figure BDA0003963943560000082
其中
Figure BDA0003963943560000083
为向下取整,得到一个标签矩阵R,对R矩阵每列进行求和计算每个数据点是否为异常来判断异常最可能存在的维度。
本方法为基于卷积对抗模型的非监督集成异常检测,具有动态阈值和异常归因矩阵的解释框架。其优点在于:(1)采用对抗性训练放大异常识别的重建误差,增强了检测“轻微”异常的能力。(2)结合POT方法动态选择阈值方法,减少了设置静态阈值的经验依赖,降低了静态阈值的微调复杂度,有效提高异常检测性能。(3)增加了异常解释模块,直接定位异常最可能发生的维度,帮助研究人员做进一步决策。
一种数据驱动的云平台***的异常诊断装置,包括:
储存器;储存器用于储存程序;
执行器;执行器用于执行程序,执行器执行储存器中的程序时,实现如上述的一种数据驱动的云平台***的异常诊断方法。
模型性能指标
模型的性能比较采用分类的几个基于混淆矩阵的主要性能指标:精确率、召回率、F1分数。
Figure BDA0003963943560000091
精确率(Precision),在预测结果为正类的数据中,有多少数据被正确预测(原本就是正类),即:
Figure BDA0003963943560000092
召回率(Recall),在测试集中为正类的数据中,有多少数据被正确预测(预测结果是正类),即:
Figure BDA0003963943560000093
F1分数(F1),它同时兼顾了分类模型的精确率和召回率,F1分数可以看作是模型精确率和召回率的一种调和平均,即:
Figure BDA0003963943560000094
此外我们还使用F1分数平均排名来验证模型的鲁棒性,其表示每个模型在不同数据集上检测性能的综合排名。
模型比较结果
从图2、图3可以看出,与已有模型相比,本模型在真实数据集和异常检测数据集实验结果如下:
(1)从图2可以看出,本模型分别在MSL的数据子集T4、SKAB的Valve1-4、Valve1-14和MSL的数据子集D15上取得了最好的F1值0.747、0.929、0.987和0.993。在SMAP的P1子集上,OmniAnomaly的方法达到了0.924的最佳F1值,CAT-IADEF的F1值为0.923,排名第二。在SWaT的数据子集上,TranAD方法取得了最好的F1值为0.814,CAT-IADEF为0.811,排名第四。在SMAP的数据子集T1上,LOF方法表现最好,F1值为0.971,CAT-IADEF的F1值为0.960,排名第二。
(2)图3展示了本模型与基线方法在7个数据集上的F1分数综合排名。本模型综合排名第一,由此可以看出本模型具有良好的鲁棒性。
从表1、表2可以看出,本模型所提出的异常解释的实验结果如下:
(1)如表1所示,本模型提出的异常解释可以直接给出异常存在最多的维度。
如表2所示,本模型提出的异常解释框架可以集成到其他模型当中,并验证了其有效性。
表1本模型在实验数据集上的异常归因
Figure BDA0003963943560000101
表2本模型中异常解释框架的有效性验证
Figure BDA0003963943560000102
本发明的技术方案不限于上述具体实施例的限制,凡是根据本发明的技术方案做出的技术变形,均落入本发明的保护范围之内。

Claims (5)

1.一种数据驱动的云平台***的异常诊断方法,其特征在于,包括:
S1、构建异常诊断模型,异常诊断模型包括输入层、卷积自动编码器、第一CNN解码器、第二CNN解码器和输出层,输入层用于输入训练数据集或实时检测数据,输出层用于输出卷积自动编码器与第一CNN解码器和第二CNN解码器的损失,输入层的输出与卷积自动编码器的输入连接,卷积自动编码器的输出分别与第一CNN解码器和第二CNN解码器的输入连接,第一CNN解码器的输出与卷积自动编码器的输入连接,第一CNN解码器和第二CNN解码器的输出均与输出层的输入连接;
S2、获取训练数据集,并导入到异常诊断模型进行训练优化;
S3、获取云平台***的实时检测数据,并导入到优化后的异常诊断模型,得到第一损失和第二损失;
S4、根据第一损失和第二损失确定云平台***的异常分数;
S5、根据异常分数判断云平台***的异常。
2.根据权利要求1所述的一种数据驱动的云平台***的异常诊断方法,其特征在于,在S2中包括:
S21、获取训练数据集,并进行归一化处理后输入到异常诊断模型;
S22、卷积自动编码器进行编码获得第一编码信息;
S23、第一CNN解码器和第二CNN解码器分别对第一编码信息进行特征重构并获得第一解码信息和第二解码信息;
S24、将第一解码信息输入到卷积自动编码器,再次进行卷积数学运算获得第二编码信息;
S25、第二CNN解码器对第二编码信息进行特征重构并获得第三解码信息;
S26、输出层根据第一解码信息、第二解码信息和第三解码信息得到第一损失和第二损失。
3.根据权利要求1所述的一种数据驱动的云平台***的异常诊断方法,其特征在于,在S5中,通过POT技术生成阈值POT(si),异常分数与阈值POT(si)进行比较,任意维度的异常分数大于阈值都将该时间戳视为异常。
4.根据权利要求5所述的一种数据驱动的云平台***的异常诊断方法,其特征在于,异常诊断方法还包括S6、输入经过计算得到的每个点的异常分数,将其与阈值进行比较,得到一个标签矩阵R,根据标签矩阵R计算每个数据点是否为异常来判断异常最可能存在的维度。
5.一种数据驱动的云平台***的异常诊断装置,其特征在于,包括:
储存器;储存器用于储存程序;
执行器;执行器用于执行程序,执行器执行储存器中的程序时,实现如权利要求1-4任一项所述的一种数据驱动的云平台***的异常诊断方法。
CN202211492446.1A 2022-11-25 2022-11-25 一种数据驱动的云平台***的异常诊断方法及装置 Pending CN115730262A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211492446.1A CN115730262A (zh) 2022-11-25 2022-11-25 一种数据驱动的云平台***的异常诊断方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211492446.1A CN115730262A (zh) 2022-11-25 2022-11-25 一种数据驱动的云平台***的异常诊断方法及装置

Publications (1)

Publication Number Publication Date
CN115730262A true CN115730262A (zh) 2023-03-03

Family

ID=85298405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211492446.1A Pending CN115730262A (zh) 2022-11-25 2022-11-25 一种数据驱动的云平台***的异常诊断方法及装置

Country Status (1)

Country Link
CN (1) CN115730262A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108371A (zh) * 2023-04-13 2023-05-12 西华大学 基于级联异常生成网络的云服务异常诊断方法与***
CN116450399A (zh) * 2023-06-13 2023-07-18 西华大学 微服务***故障诊断及根因定位方法
CN117076934A (zh) * 2023-10-16 2023-11-17 罗普特科技集团股份有限公司 一种基于物联网的监控数据采集及分析方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108371A (zh) * 2023-04-13 2023-05-12 西华大学 基于级联异常生成网络的云服务异常诊断方法与***
CN116450399A (zh) * 2023-06-13 2023-07-18 西华大学 微服务***故障诊断及根因定位方法
CN116450399B (zh) * 2023-06-13 2023-08-22 西华大学 微服务***故障诊断及根因定位方法
CN117076934A (zh) * 2023-10-16 2023-11-17 罗普特科技集团股份有限公司 一种基于物联网的监控数据采集及分析方法
CN117076934B (zh) * 2023-10-16 2023-12-26 罗普特科技集团股份有限公司 一种基于物联网的监控数据采集及分析方法

Similar Documents

Publication Publication Date Title
CN115730262A (zh) 一种数据驱动的云平台***的异常诊断方法及装置
CN108762228B (zh) 一种基于分布式pca的多工况故障监测方法
US10275690B2 (en) Machine learning predictive labeling system
US10877863B2 (en) Automatic prediction system for server failure and method of automatically predicting server failure
US10914608B2 (en) Data analytic engine towards the self-management of complex physical systems
US20190124045A1 (en) Density estimation network for unsupervised anomaly detection
Darban et al. Deep learning for time series anomaly detection: A survey
JP2022500745A (ja) 異常検出および/または予知保全のためのコンピュータ実装方法、コンピュータプログラム製品およびシステム
US11693917B2 (en) Computational model optimizations
Xiao et al. Feature-selection-based dynamic transfer ensemble model for customer churn prediction
CN109284371B (zh) 反欺诈方法、电子装置及计算机可读存储介质
US11010691B1 (en) Distributable event prediction and machine learning recognition system
US10956825B1 (en) Distributable event prediction and machine learning recognition system
JP2004309998A (ja) 確率分布推定装置および異常行動検出装置,ならびにその確率分布推定方法および異常行動検出方法
WO2017214613A1 (en) Streaming data decision-making using distributions with noise reduction
Maggipinto et al. A deep learning-based approach to anomaly detection with 2-dimensional data in manufacturing
CN115758173A (zh) 基于并联图注意力网络的云平台***异常检测方法及装置
CN114399321A (zh) 一种业务***稳定性分析方法、装置和设备
Coursey et al. Remaining useful life estimation of hard disk drives using bidirectional lstm networks
Moon et al. Anomaly detection using a model-agnostic meta-learning-based variational auto-encoder for facility management
Li et al. An adaptive prognostics method based on a new health index via data fusion and diffusion process
Kolli A novel granularity optimal feature selection based on multi-variant clustering for high dimensional data
US20200356823A1 (en) Systems and techniques to monitor text data quality
CN113052302B (zh) 基于循环神经网络的机器健康监控方法、装置及终端设备
KR20220151650A (ko) 대용량 고속 스트림 데이터로부터 예측 분석들을 동적으로 발생시키기 위한 알고리즘적 학습 엔진

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination