CN109308225B - 一种虚拟机异常检测方法、装置、设备及存储介质 - Google Patents

一种虚拟机异常检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109308225B
CN109308225B CN201710627200.3A CN201710627200A CN109308225B CN 109308225 B CN109308225 B CN 109308225B CN 201710627200 A CN201710627200 A CN 201710627200A CN 109308225 B CN109308225 B CN 109308225B
Authority
CN
China
Prior art keywords
data
gaosi
jiang
time
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710627200.3A
Other languages
English (en)
Other versions
CN109308225A (zh
Inventor
陈力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhongxing Software Co Ltd
Original Assignee
Shanghai Zhongxing Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhongxing Software Co Ltd filed Critical Shanghai Zhongxing Software Co Ltd
Priority to CN201710627200.3A priority Critical patent/CN109308225B/zh
Priority to PCT/CN2017/106655 priority patent/WO2019019429A1/zh
Publication of CN109308225A publication Critical patent/CN109308225A/zh
Application granted granted Critical
Publication of CN109308225B publication Critical patent/CN109308225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种虚拟机异常检测方法、装置、设备及存储介质,涉及信息及通讯技术领域,所述方法包括:获取虚拟机的非高斯性的残差数据;对所述非高斯性的残差数据进行独立元分析,确定所述虚拟机发生异常行为的时间点。本发明实施例采用基于残差数据的独立元异常检测,得到的检测结果更加准确、有效。

Description

一种虚拟机异常检测方法、装置、设备及存储介质
技术领域
本发明涉及信息及通讯技术(Information and Communication Technologies,ICT)的计算机性能指标监控及异常检测领域,特别涉及一种虚拟机异常检测方法、装置、设备及存储介质。
背景技术
云计算通过虚拟化等技术将现有的硬件资源进行整合,形成共享的资源池,使业务***能够按需获取计算、存储以及网络资源,有效地解决了传统IT基础架构存在的问题。虚拟机是云平台的核心部件,负责为业务***提供计算和存储资源,从而保证业务***的正常运行。然而,随着业务***种类和数量的不断增多,云平台的规模不断扩大,云平台变得日益复杂,使得虚拟机在运行过程中很容易出现异常。虚拟机异常的存在不仅会导致业务***无法正常运行,造成各种难以估量的损失;而且会引发企业对云计算的担忧,阻碍云计算的发展和应用。因此,需要引入虚拟机异常检测技术,及时发现虚拟机的异常行为,以提醒管理员采取必要措施,来保证虚拟机的正常运行。
由于虚拟机往往包含多个***资源监控指标,因此可采用近年来业界广泛研究的多变量统计分析来应用于过程监控和故障诊断。传统的多变量统计监控方法多采用主元分析(Principle Component Analysis,PCA),它将数据空间分解为主元子空间和残差子空间,每一组测量数据都可以投影到这两个子空间内,同时在两个空间中分别引入HotellingT2(衡量包含在主元模型中的信息量的大小)和平方预测误差SPE(Squared PredictionError,衡量不能被主元模型所描述的信息量的大小)这两个统计量来监测故障的发生。一般认为T2体现的是***性变化,SPE体现的是非***性变化,也就是说,基于残差空间的SPE更能反映异常特征。PCA的问题在于,它是基于信号二阶统计特性的分析方法,一般需要假设过程变量服从高斯分布。采用PCA算法的异常告警检测***如图1所示,PCA算法服务接收时间序列源数据(即时间序列数据),经过处理后输出检测的异常时间点,同时作为告警服务的输入,从而产生异常告警。
另一种使用较多的方法是独立元分析方法(Independent Component Analysis,ICA),与PCA不同,它是一种基于信号高阶统计特性的分析方法,其目的是将观察得到的数据进行某种线性分解,利用源信号的独立性和非高斯性,使其分解成统计独立的成分。将ICA应用于异常检测时,与PCA一样,对应引入I2(衡量包含在独立元模型中的信息量的大小)和平方预测误差SPE(Squared Prediction Error,衡量不能被独立元模型所描述的信息量的大小)这两个统计量来监测故障的发生。ICA的问题在于,它的假设前提是独立成分需要具有非高斯分布,否则将无法确定混合矩阵。采用ICA算法的异常告警检测***如图2所示,ICA算法服务接收时间序列源数据,经过处理后输出检测的异常时间点,同时作为告警服务的输入,从而产生异常告警。
由于虚拟机上承载的业务类型和应用行为多种多样,实际***观测到的数据分布往往并不理想,兼具有高斯和非高斯分布的特点,因此仅采用传统的PCA或ICA方法,就可能会造成故障的误报和漏报。从已公开的一些专利和文献来看,有学者尝试将ICA算法用于高斯和非高斯信号的划分,但实际并没有克服ICA算法的假设前提,且对于高斯和非高斯信号的划分缺乏比较好的指导原则;还有学者考虑时间序列的相关性,将数据按滑窗划分为一个个局部片段数据,这样虽然窗口内的数据可能不会形成复杂的分布,但由于样本个数会大大减少,实际并不适合实施PCA、ICA等统计学算法。
发明内容
本发明实施例提供的一种虚拟机异常检测方法、装置、设备及存储介质,解决现有技术无法准确检测虚拟机发生异常行为的时间点的问题。
根据本发明实施例提供的一种虚拟机异常检测方法,包括:
获取虚拟机的非高斯性的残差数据;
对所述非高斯性的残差数据进行独立元分析,确定所述虚拟机发生异常行为的时间点。
根据本发明实施例提供的一种虚拟机异常检测装置,包括:
残差获取模块,用于获取虚拟机的非高斯性的残差数据;
异常确定模块,用于对所述非高斯性的残差数据进行独立元分析,确定所述虚拟机发生异常行为的时间点。
根据本发明实施例提供的一种虚拟机异常检测设备,包括:
处理器,用于获取虚拟机的非高斯性的残差数据,并对所述非高斯性的残差数据进行独立元分析,确定所述虚拟机发生异常行为的时间点;
存储器,用于存储供所述处理器执行的程序。
根据本发明实施例提供的一种存储介质,其上存储有处理器可执行的程序,该程序使处理器执行以下步骤:
获取虚拟机的非高斯性的残差数据;
对所述非高斯性的残差数据进行独立元分析,确定所述虚拟机发生异常行为的时间点。
本发明实施例提供的技术方案具有如下有益效果:
1、本发明实施例通过ICA在PCA残差空间中提取非高斯独立元,得到的检测结果更准确、有效;
2、本发明实施例通过PCA处理后的残差空间对非高斯信息进行一定程度的保留,能够更全面地捕获异常信息。
附图说明
图1是采用PCA算法的异常告警检测***框图;
图2是采用ICA算法的异常告警检测***框图;
图3是本发明实施例提供的虚拟机异常检测方法流程图;
图4是本发明实施例提供的虚拟机异常检测***的实际运行图;
图5是图4的PCA算法服务处理流程图;
图6是图5的ICA算法服务处理流程图;
图7是本发明实施例提供的虚拟机异常检测装置框图;
图8是本发明实施例所处理的一组数据图,包含CPU、磁盘读写、网络I/O、内存等6个维度的数据,左边是训练集,右边是测试集;
图9是针对图8数据采用传统PCA方法的处理结果图,左边针对训练集数据,右边针对测试集数据;
图10是针对图8数据采用基于PCA残差的ICA算法的处理结果图,左边针对训练集数据,右边针对测试集数据;
图11是本发明实施例所处理的另一组数据图,同样包括CPU、磁盘读写、网络I/O、内存等6个维度的数据,左边是训练集,右边是测试集;
图12是针对图11数据采用传统PCA方法的处理结果图,左边针对训练集数据,右边针对测试集数据;
图13是针对图11数据采用基于PCA残差的ICA算法的处理结果图,左边针对训练集数据,右边针对测试集数据。
具体实施方式
以下结合附图对本发明的优选实施例进行详细说明,应当理解,以下所说明的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例适用于检测虚拟机异常行为,具体应用时,利用对虚拟机的时间序列数据进行处理得到的虚拟机的非高斯性的残差数据,进行独立元分析,得到虚拟机发生异常行为的时间点。
图3是本发明实施例提供的虚拟机异常检测方法流程图,如图3所示,步骤包括:
步骤S10:获取虚拟机的非高斯性的残差数据。
所述步骤S10包括:
步骤S101:对所述虚拟机的时间序列数据进行主元分析,得到所述时间序列数据的强高斯性的主元。
具体地说,对所述时间序列数据进行主元分解,得到所述时间序列数据的主元;从所述时间序列数据的主元中提取强高斯性的分量,并由所述强高斯性的分量构成所述时间序列数据的强高斯性的主元。
其中,从所述时间序列数据的主元中提取强高斯性的分量包括:计算所述时间序列数据的主元的每个分量的表征高斯性强弱的统计值(即JB值);计算所有分量的统计值的总和;按照统计值由小至大的顺序对每个分量进行排序,并计算序列中每个所述分量与排序在前分量的统计值的累计和;根据每个所述分量与排序在前分量的统计值的累计和、所述所有分量的统计值的总和,计算高斯性成分占比,并根据所述高斯性成分占比,确定强高斯性的分量。
所述步骤S10还包括:
步骤S102:根据所述强高斯性的主元和所述时间序列数据,得到非高斯性的残差数据。
具体地说,利用所述强高斯性的主元,进行数据恢复,得到强高斯性的时间序列恢复数据;根据所述时间序列数据和所述时间序列恢复数据,得到非高斯性的残差数据。
步骤S20:对所述非高斯性的残差数据进行独立元分析,确定所述虚拟机发生异常行为的时间点,即时间序列数据的异常时间点。
所述步骤S20包括:
步骤S201:对所述非高斯性的残差数据进行独立元分析,得到用于衡量包含在独立元模型中的信息量的统计值(即I2)和用于衡量不能被所述独立元模型描述的信息量的统计值(即SPE)。
步骤S202:根据所述I2和所述SPE,确定所述虚拟机发生异常行为的时间点。具体地说,将利用所述I2提取的异常时间点和利用所述SPE提取的异常时间点合并,作为所述虚拟机的异常时间点。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,该程序在执行时,包括步骤S10至步骤S20。进一步说,本发明还可以提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时至少实现以下步骤:获取虚拟机的非高斯性的残差数据;对所述非高斯性的残差数据进行独立元分析,确定所述虚拟机发生异常行为的时间点。其中,所述的存储介质可以包括ROM/RAM、磁碟、光盘、U盘。
图4是虚拟机***实际运行的图示,时间序列数据源作为输入首先流入PCA算法服务模块,完成PCA残差数据的提取,然后将残差数据流入ICA算法服务模块,输出I2与SPE统计量所检测出的异常时间点,流入告警服务模块产生告警。其中,PCA算法服务模块的处理流程如图4,ICA算法服务模块的处理流程如图5。
以下结合图4至图6对本发明进行进一步说明。
图4是本发明实施例提供的虚拟机异常检测***实际运行图,如图4所示。具体方案如下:
步骤1:***中的PCA算法服务接收来自数据源的时间序列数据(即原始数据)作为输入。
步骤2:假设原始数据X∈Rn*m,其中,n为样本个数,m为变量个数或者称维数),对X执行PCA算法,得到主元X_T∈Rn*p,其中,p为主元分量个数。
步骤3:对主元X_T进一步提取高斯性较强的分量。具体做法如下:
步骤3.1:对主元的每个分量计算JB(Jarque-Bera)统计量的值,JB的定义如下:JB=n(S2/6+(K-3)2/24)。
其中,n是样本点数,S是样本偏度(skewness),K是样本峰度(kurtosis),JB值越大,非高斯性越强,高斯性越弱。
步骤3.2:对各个分量的JB值按从小到大的顺序进行排序得到一个序列,如JB=[JB1,JB2,…,JBp],同时记录下各主元分量与该序列值的对应关系,如JB1←→X_T[i],其中X_T[i]表示X_T的第i个主元分量,X_T[i]的JB值为JB1。
步骤3.3:对上述已排序的JB序列值计算:累计和/总和,即计算:[JB1/sum(JB),(JB1+JB2)/sum(JB),……,(JB1+…+JBp)/sum(JB)],得到一个值大小范围(0,1]的分值序列,设定高斯性成分占比阈值,保留分值序列中小于阈值的值,并提取序列值所对应的主元分量,形成新的主元X_Tnew。
步骤4:将主元X_Tnew恢复到原始空间,得到X_Recover,计算残差:X_Res=X-X_Recover,其中,X_Res∈Rn*m,将其作为PCA算法服务的输出。
本发明实施例实现一种PCA残差的改进算法,具体地说,所得到的PCA的残差数据,是继续对PCA主元按高斯性做进一步筛选形成新主元之后再计算得到的残差,因此与传统的PCA算法直接按能量大小提取主元之后所计算的残差不同。
步骤5:***中的ICA算法服务接收来自PCA算法服务的输出X_Res数据,对X_Res执行ICA算法,进行独立元分解,计算I2和SPE统计量。对I2与SPE统计量设定检测阈值,分别提取异常时间点,然后将I2与SPE的异常检测结果进行合并,作为ICA算法服务的输出。
本发明实施例的PCA/ICA算法服务的输入输出接口部分,PCA服务并不直接输出异常时间点,而仅输出PCA的残差数据。ICA算法服务的输入也并非原始数据,而是PCA的残差数据,最终的检测结果来自于对PCA残差数据的ICA数据处理。
步骤6:***中的告警服务接收来自ICA算法服务的输出,即异常时间点,产生相应的告警。
图5是图4的PCA算法服务处理流程图,如图5所示,包括:首先对原始数据X∈Rn*m执行PCA算法,提取主元X_T;然后对主元X_T进一步提取高斯性较强的分量,形成新主元X_Tnew;最后将新主元X_Tnew还原到原始数据空间,计算残差X_Res∈Rn*m并输出。
图6是图5的ICA算法服务处理流程图,如图6所示,包括:首先对残差X_Res∈Rn*m执行ICA算法,分解独立元;然后计算I2和SPE统计量,分别提取异常;最后合并I2与SPE的异常检测结果并输出。
本实施例中原始数据(即时间序列数据)通过PCA分解得到的残差空间相比主元空间,更有利于反映异常特征,因此本发明实施例考虑将PCA的残差空间作为继续分析的基础。进一步,考虑ICA对非高斯源信号的处理优势,在计算PCA残差时,并不是直接获取传统PCA算法的残差,而是先对PCA主元按高斯性做进一步的提取,再返回原始数据空间后计算PCA残差,然后通过ICA在PCA残差空间中提取独立元,计算I2和SPE统计量来检测异常,最后合并检测结果。
图7是本发明实施例提供的虚拟机异常检测装置框图,如图7所示,包括残差获取模块和异常确定模块。
残差获取模块,用于获取虚拟机的非高斯性的残差数据。所述残差获取模块进一步包括主元计算子模块和残差计算子模块,其中,所述主元计算子模块用于对所述虚拟机的时间序列数据进行主元分析,得到得到时间序列数据的强高斯性的主元;残差计算子模块用于根据所述强高斯性的主元和所述时间序列数据,得到非高斯性的残差数据。
异常确定模块,用于对所述非高斯性的残差数据进行独立元分析,确定所述虚拟机发生异常行为的时间点,即所述时间序列数据的异常时间点。
所述装置的工作过程包括:主元计算子模块对所述时间序列数据进行主元分解,得到所述时间序列数据的主元,从所述时间序列数据的主元中提取强高斯性的分量,并由所述强高斯性的分量构成所述时间序列数据的强高斯性的主元。残差计算子模块利用所述强高斯性的主元,进行数据恢复,得到强高斯性的时间序列恢复数据,并根据所述时间序列数据和所述时间序列恢复数据,得到非高斯性的残差数据。异常确定模块对所述非高斯性的残差数据进行独立元分析,得到I2和SPE统计量,并确定所述时间序列数据的异常时间点。
其中,主元计算子模块计算所述时间序列数据的主元的每个分量的JB值和所有分量的JB值的总和,按照JB值由小至大的顺序对每个分量进行排序,并计算序列中每个所述分量与排序在前分量的JB值的累计和,然后根据每个所述分量与顺序在前分量的JB值的累计和、所述所有分量的JB值的总和,计算高斯性成分占比,并根据所述高斯性成分占比,确定强高斯性的分量。
本实施例提供一种虚拟机异常检测设备,包括:
处理器,用于获取虚拟机的非高斯性的残差数据,并对所述非高斯性的残差数据进行独立元分析,确定所述虚拟机发生异常行为的时间点;
存储器,用于存储供所述处理器执行的程序,其可以与所述处理器耦接。
评估本发明实施例算法相比传统算法改进的方法是,设定相同的训练集和测试集,其中测试集为根据数据采集现场反馈的异常比较集中的时间段,对检测统计量设定相同的阈值判断标准,考察本发明实施例算法是否能在已知异常时间段上检测出更多的异常数据点。
应用实例1
图8所采集的数据,包含时间段2016.10.1~2016.11.11,现场反馈11月7日18:00至次日12:00之间,业务有过多次异常。将2016.11.7 18:00~2016.11.8 12:00时间段设为测试集,剔除该部分数据后余下的数据设为训练集。
采用传统PCA算法的异常检测结果如图9所示,其中,设定PCA主成分能量占比为85%,检测统计量T2和SPE按核密度方法估计概率密度,并根据累计概率分布值取99.7%的阈值限提取异常。结果显示,在测试集中,PCA T2未检出异常,PCA SPE检测出一段时间的异常。
采用基于PCA残差的ICA算法的异常检测结果如图10所示,同样设定PCA主成分能量占比阈值为85%,得到4个主元分量X_T[0]、X_T[1]、X_T[2]、X_T[3],计算4个主元分量的JB值,先从小到大排序,然后计算累计和/总和,如表1所示。
表1.应用实例1的累计和/总和表
主元分量 JB 累计和/总和
X_T[3] 4.745843e+02 9.973862e-08
X_T[0] 4.537954e+06 9.537958e-04
X_T[2] 1.088366e+07 3.241106e-03
X_T[1] 4.742859e+09 1.000000e+00
设定主元高斯性成分占比阈值85%,实际提取的主元为X_T[0]、X_T[2]、X_T[3],而X_T[1]因为非高斯性较强而剔除。将X_T[0]、X_T[2]、X_T[3]所构成的新主元空间返回到原始数据空间计算得到PCA残差。
检测统计量取累计概率分布值99.7%的阈值。结果显示,在测试集中,ICA I2与SPE各检出一段时间的异常,其中I2的检测结果与PCA SPE检出的时间段比较一致。
从综合结果来看,本发明实施例方法所检出异常点数多于传统PCA方法,且从原始数据看,PCA所漏检的时间段,***资源确实有较大幅度的变化。
应用实例2
图11所采集的数据,包含时间段2017.1.1~2017.2.28,现场反馈2月25日8:00至12:00之间,业务体验异常。将2017.2.25 8:00~2017.2.25 12:00时间段设为测试集,剔除该部分数据后余下的数据设为训练集。
采用传统PCA算法的异常检测结果如图12所示,其中,设定PCA主成分能量占比阈值为85%,检测统计量T2和SPE按核密度方法估计概率密度,并根据累计概率分布值取99.7%的阈值提取异常。结果显示,在测试集中,PCA T2与PCA SPE均未检出异常,与业务体验完全不符。
采用基于PCA残差的ICA算法的异常检测结果如图13所示,同样设定PCA主成分能量占比为85%,得到4个主元分量X_T[0]、X_T[1]、X_T[2]、X_T[3],计算4个主元分量的JB值,先从小到大排序,然后计算累计和/总和,如表2所示。
表2.应用实例2的累计和/总和表
主元分量 JB 累计和/总和
X_T[2] 1.316693e+04 0.000001
X_T[3] 3.613565e+04 0.000004
X_T[0] 9.596462e+05 0.000088
X_T[1] 1.152558e+10 1.000000
设定主元高斯性成分占比阈值85%,实际提取的主元为X_T[0]、X_T[2]、X_T[3],而X_T[1]因为非高斯性较强而剔除。将X_T[0]、X_T[2]、X_T[3]所构成的新主元空间返回到原始数据空间计算得到PCA残差。
检测统计量取累计概率分布值99.7%的阈值限。结果显示,在测试集中,ICA SPE检出了比较密集的异常时间段。
从综合结果来看,本发明方法所检出异常点数多于传统PCA方法,且从原始数据看,测试集所在的时间段,***资源确实有比较剧烈的异常波动。
综上所述,本发明实施例是基于传统PCA和ICA异常检测方法的改进,与传统方法比较,本发明实施例具有以下技术效果:
1.传统PCA算法在提取主元时仅考虑能量大小因素,没有考虑数据分布情况,采用本发明实施例的算法,对传统PCA所提取的主元分量按高斯性进行进一步的提取,即保留PCA主元中高斯性较强的分量作为实际的PCA主元。
2.传统PCA算法得到的残差空间仅仅反映能量特征,采用本发明实施例的算法,所获取的残差空间非高斯性也会得到增强,这具有两点好处,首先,PCA残差体现非***性变化,相比主元更易检测到异常;其次,异常往往具有突发,量少的非高斯性特点,因此非高斯增强说明残差空间捕获的异常将更为全面,在非高斯性较强的PCA残差空间中检测异常效果会更好。
3.传统的ICA算法适合非高斯源信号的处理,因此,相比直接输入原始信号,采用本发明实施例获取的具有较强非高斯性的PCA残差数据更适合ICA算法的处理,因此得到的检测结果将更加准确、有效。
尽管上文对本发明进行了详细说明,但是本发明不限于此,本技术领域技术人员可以根据本发明的原理进行各种修改。因此,凡按照本发明原理所作的修改,都应当理解为落入本发明的保护范围。

Claims (8)

1.一种虚拟机异常检测方法,包括:
对所述虚拟机的时间序列数据进行主元分解,得到所述时间序列数据的主元;
从所述时间序列数据的主元中提取强高斯性的分量,并由所述强高斯性的分量构成所述时间序列数据的强高斯性的主元;
根据所述强高斯性的主元和所述时间序列数据,得到非高斯性的残差数据;
对所述非高斯性的残差数据进行独立元分析,确定所述虚拟机发生异常行为的时间点。
2.根据权利要求1所述的方法,所述从所述时间序列数据的主元中提取强高斯性的分量包括:
计算所述时间序列数据的主元的每个分量的表征高斯性强弱的统计值;
根据所述每个分量的统计值,确定所述时间序列数据的主元中的强高斯性的分量。
3.根据权利要求2所述的方法,所述根据所述每个分量的统计值,确定所述时间序列数据的主元中的强高斯性的分量包括:
计算所有分量的统计值的总和;
按照统计值由小至大的顺序对每个分量进行排序,并计算序列中每个所述分量与排序在前分量的统计值的累计和;
根据每个所述分量与排序在前分量的统计值的累计和、所述所有分量的统计值的总和,计算高斯性成分占比,并根据所述高斯性成分占比,确定强高斯性的分量。
4.根据权利要求1所述的方法,所述根据所述强高斯性的主元和所述时间序列数据,得到非高斯性的残差数据包括:
利用所述强高斯性的主元,进行数据恢复,得到强高斯性的时间序列恢复数据;
根据所述时间序列数据和所述时间序列恢复数据,得到非高斯性的残差数据。
5.根据权利要求1所述的方法,所述对所述非高斯性的残差数据进行独立元分析,确定所述虚拟机发生异常行为的时间点包括:
对所述非高斯性的残差数据进行独立元分析,得到用于衡量包含在独立元模型中的信息量的统计值和用于衡量不能被所述独立元模型描述的信息量的统计值;
根据所述用于衡量包含在独立元模型中的信息量的统计值和所述用于衡量不能被所述独立元模型描述的信息量的统计值,确定所述虚拟机发生异常行为的时间点。
6.一种虚拟机异常检测装置,包括:
残差获取模块,其中所述残差获取模块包括主元计算子模块和残差计算子模块,
所述主元计算子模块,用于对所述虚拟机的时间序列数据进行主元分解,得到所述时间序列数据的主元;从所述时间序列数据的主元中提取强高斯性的分量,并由所述强高斯性的分量构成所述时间序列数据的强高斯性的主元;
所述残差计算子模块,用于根据所述强高斯性的主元和所述时间序列数据,得到非高斯性的残差数据;
异常确定模块,用于对所述非高斯性的残差数据进行独立元分析,确定所述虚拟机发生异常行为的时间点。
7.一种虚拟机异常检测设备,包括:
处理器,用于对所述虚拟机的时间序列数据进行主元分解,得到所述时间序列数据的主元;从所述时间序列数据的主元中提取强高斯性的分量,并由所述强高斯性的分量构成所述时间序列数据的强高斯性的主元;根据所述强高斯性的主元和所述时间序列数据,得到非高斯性的残差数据,并对所述非高斯性的残差数据进行独立元分析,确定所述虚拟机发生异常行为的时间点;
存储器,用于存储供所述处理器执行的程序。
8.一种存储介质,其上存储有处理器可执行的程序,该程序使处理器执行以下步骤:
对虚拟机的时间序列数据进行主元分解,得到所述时间序列数据的主元;
从所述时间序列数据的主元中提取强高斯性的分量,并由所述强高斯性的分量构成所述时间序列数据的强高斯性的主元;
根据所述强高斯性的主元和所述时间序列数据,得到非高斯性的残差数据;
对所述非高斯性的残差数据进行独立元分析,确定所述虚拟机发生异常行为的时间点。
CN201710627200.3A 2017-07-28 2017-07-28 一种虚拟机异常检测方法、装置、设备及存储介质 Active CN109308225B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710627200.3A CN109308225B (zh) 2017-07-28 2017-07-28 一种虚拟机异常检测方法、装置、设备及存储介质
PCT/CN2017/106655 WO2019019429A1 (zh) 2017-07-28 2017-10-18 一种虚拟机异常检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710627200.3A CN109308225B (zh) 2017-07-28 2017-07-28 一种虚拟机异常检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109308225A CN109308225A (zh) 2019-02-05
CN109308225B true CN109308225B (zh) 2024-04-16

Family

ID=65039486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710627200.3A Active CN109308225B (zh) 2017-07-28 2017-07-28 一种虚拟机异常检测方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN109308225B (zh)
WO (1) WO2019019429A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11060885B2 (en) 2019-09-30 2021-07-13 Oracle International Corporation Univariate anomaly detection in a sensor network
US11216247B2 (en) 2020-03-02 2022-01-04 Oracle International Corporation Automatic asset anomaly detection in a multi-sensor network
US11762956B2 (en) 2021-02-05 2023-09-19 Oracle International Corporation Adaptive pattern recognition for a sensor network
CN115147203B (zh) * 2022-06-08 2024-03-15 阿尔法时刻科技(深圳)有限公司 基于大数据的金融风险分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158693A (zh) * 2007-09-26 2008-04-09 东北大学 基于多核独立元分析的批量生产过程故障检测方法
CN101403923A (zh) * 2008-10-31 2009-04-08 浙江大学 基于非高斯成分提取和支持向量描述的过程监控方法
CN104656635A (zh) * 2014-12-31 2015-05-27 重庆科技学院 非高斯动态高含硫天然气净化过程异常检测与诊断方法
CN106483847A (zh) * 2016-09-20 2017-03-08 北京工业大学 一种基于自适应ica的冷水机组故障检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8036325B2 (en) * 2006-03-09 2011-10-11 Interdigital Technology Corporation Wireless communication method and apparatus for performing knowledge-based and blind interference cancellation
US8255100B2 (en) * 2008-02-27 2012-08-28 The Boeing Company Data-driven anomaly detection to anticipate flight deck effects
CN106778533A (zh) * 2016-11-28 2017-05-31 国网上海市电力公司 基于核函数的pca‑ksica储能***典型工况识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158693A (zh) * 2007-09-26 2008-04-09 东北大学 基于多核独立元分析的批量生产过程故障检测方法
CN101403923A (zh) * 2008-10-31 2009-04-08 浙江大学 基于非高斯成分提取和支持向量描述的过程监控方法
CN104656635A (zh) * 2014-12-31 2015-05-27 重庆科技学院 非高斯动态高含硫天然气净化过程异常检测与诊断方法
CN106483847A (zh) * 2016-09-20 2017-03-08 北京工业大学 一种基于自适应ica的冷水机组故障检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"一种基于KICA-GMM的过程故障检测方法";田学民;《化工学报》;第63卷(第09期);全文 *
"一种基于非高斯性测度的认知无线电频谱感知新方法";景源;《小型微型计算机***》;第37卷(第09期);全文 *
"多模态过程统计建模及在线监测方法研究";谭帅;《中国博士学位论文全文数据库信息科技辑》;第1节,第3.1节-3.3.4节 *
谭帅."多模态过程统计建模及在线监测方法研究".《中国博士学位论文全文数据库信息科技辑》.2015,第1节,第3.1节-3.3.4节. *

Also Published As

Publication number Publication date
WO2019019429A1 (zh) 2019-01-31
CN109308225A (zh) 2019-02-05

Similar Documents

Publication Publication Date Title
CN109308225B (zh) 一种虚拟机异常检测方法、装置、设备及存储介质
CN111459700B (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
US20190228296A1 (en) Significant events identifier for outlier root cause investigation
CN112884092B (zh) Ai模型生成方法、电子设备及存储介质
US20140258187A1 (en) Generating database cluster health alerts using machine learning
CN107992410B (zh) 软件质量监测方法、装置、计算机设备和存储介质
US20120151276A1 (en) Early Detection of Failing Computers
CN113837596B (zh) 一种故障确定方法、装置、电子设备及存储介质
CN111752833B (zh) 一种软件质量体系准出方法、装置、服务器及存储介质
Kitchenham et al. Design metrics in practice
Badri et al. Predicting unit testing effort levels of classes: An exploratory study based on multinomial logistic regression modeling
CN117035563B (zh) 产品质量安全风险监测方法、设备、监测***及介质
Bhattacharyya et al. Online phase detection and characterization of cloud applications
CN115114124A (zh) 主机风险的评估方法及评估装置
Santos et al. An empirical study on the influence of context in computing thresholds for Chidamber and Kemerer metrics.
Bala et al. Use of the multiple imputation strategy to deal with missing data in the ISBSG repository
CN114881112A (zh) 一种***异常检测方法、装置、设备及介质
CN115437961A (zh) 数据处理方法、装置、电子设备及存储介质
CN115344495A (zh) 批量任务测试的数据分析方法、装置、计算机设备及介质
KR20100088399A (ko) 메트릭을 이용한 소프트웨어 결함 예측 계산 장치 및 계산 방법
CN112631900A (zh) 接口的巡检方法、装置、电子设备和存储介质
CN112445632A (zh) 基于故障数据建模的hpc可靠性评估方法
CN115936266B (zh) 轨道交通设备的可靠度预测方法、***、设备和介质
Saxena et al. Functionality Assessment Model to Estimate Quality of the Effective E-Procurement Process in Adoption
CN116448062B (zh) 一种桥梁沉降变形检测方法、装置、计算机及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant