CN111737099B - 一种基于高斯分布的数据中心异常检测方法及装置 - Google Patents

一种基于高斯分布的数据中心异常检测方法及装置 Download PDF

Info

Publication number
CN111737099B
CN111737099B CN202010515936.3A CN202010515936A CN111737099B CN 111737099 B CN111737099 B CN 111737099B CN 202010515936 A CN202010515936 A CN 202010515936A CN 111737099 B CN111737099 B CN 111737099B
Authority
CN
China
Prior art keywords
distribution
feature
matrix
data center
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010515936.3A
Other languages
English (en)
Other versions
CN111737099A (zh
Inventor
许明杰
俞俊
陈琰
卢士达
王琳
梅竹
陈海洋
庞恒茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NARI Group Corp
Nari Technology Co Ltd
State Grid Shanghai Electric Power Co Ltd
State Grid Electric Power Research Institute
Original Assignee
NARI Group Corp
Nari Technology Co Ltd
State Grid Shanghai Electric Power Co Ltd
State Grid Electric Power Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NARI Group Corp, Nari Technology Co Ltd, State Grid Shanghai Electric Power Co Ltd, State Grid Electric Power Research Institute filed Critical NARI Group Corp
Priority to CN202010515936.3A priority Critical patent/CN111737099B/zh
Publication of CN111737099A publication Critical patent/CN111737099A/zh
Application granted granted Critical
Publication of CN111737099B publication Critical patent/CN111737099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提出了一种基于高斯分布的数据中心异常检测方法及装置。所述方法包括以下步骤:获取数据中心服务器硬件层面、软件层面及物理环境的特征,构成多维特征数据集;对获取的多维特征数据集进行降维处理;根据经过降维处理的数据,利用基于高斯分布的异常检测模型进行运算,得到异常检测结果。本发明在基于高斯分布的异常检测算法的基础上,提出了一个适用于高密度数据中心的异常监测方法,能够提高数据中心的异常监测效率,减少了数据中心在高密度设计下的管理成本。

Description

一种基于高斯分布的数据中心异常检测方法及装置
技术领域
本发明涉及一种数据中心的异常检测方法及装置,属于数据中心技术领域。
背景技术
随着大数据的时代的到来,数据中心(Internet Data Center,简称IDC)呈现飞速发展[1]。据《数据中心***(2018年)》[2]显示,全球数据中心呈现出减体量增的趋势。自2017年以来,随着大型化、集约化的观念的发展,数据中心的建设规模正在不断增大,但是数据中心高效运维管理以及人才缺失问题不断凸显出来。多数据中心出现运维人才短缺,运维能力跟不上数据中心建设速度等问题。在大数据时代,网络产生的大量的数据涌入数据中心,这就要求数据中心要具有高密度、绿色化、易于管理的特点[3]。但随着数据中心不断向这些目标靠近时,人们对数据中心的管理也变得越来越困难。其中对于IDC机房的设备的监测和故障设备的排查一直是近些年来学术界研究的热门课题。但是对于此问题,学术界一直没有一个很好的解决方案。大部分数据中心监测机房仍然采取人工排查和物理传感器监测的手段,监测效率不高且花费较大。
近几年来,对数据中心异常检测一直是学术界的热点[4][5]。目前对于此类研究主要采取两种策略:基于机器学习模型异常检测和基于统计学模型的异常检测。基于机器学习模型的异常检测将样本集进行聚类,各个数据会被聚集在某个集群中,然后可以通过计算欧式距离、曼哈顿距离来判断数据的相关性。如果某个样本数据距离任何一个集群的距离都很远,或者这个集群的数据点比较稀疏时,那么这个数据点或者集群就被判定为异常的状态。对于此种算法的研究,ShenYin[6]提出了稳健的单类支持向量机,根据每个正常数据点到数据集中心的欧式距离,设计了自适应惩罚因子,使得部分离群值对支持向量机的影响较小。ShenYin的算法虽然在一定程度上避免了模型的过拟合,但是其算法在收敛时容易过早收敛,从而造成向量机模型不能够很好的分类。F Xiao[7]利用线性判别和逻辑回归对正常的数据样本进行学习,从此来识别网络的可接受行为,进行入侵检测。当观察到数据集外界的异常数据,就会发生警报。虽然此算法的准确率优异,但是其基于的线性回归模型算法在计算时会占用大量的时间和内存,从而降低算法的效率。基于统计学模型的异常检测需要从观测对象的状态或行为抽取特征集并构建相应的统计学模型。通过收集样本中正常样本和异常样本的分布情况,则可以根据新采集样本的分布情况快速的异常判断。此种方法不会占用大量的计算时间,适用于解决数据流量较大的问题。Huorong Ren[8]通过滑动窗口分段序列数据,根据滑动窗口数据的值定义数据的状态,建立一个具有实时适应状态变化的高阶马尔科夫模型进行异常检测。HuorongRen的算法可以实时适应数据集的变化,但是其算法没有办法考虑到不同时期的所有样本集,不太适用于作为数据中心异常检测***的算法。Chen Xianda[9]采用分层结构集成了传感器控件和时间的相关性,结合传感器和空间信息的权重,通过马尔科夫链对网络中的传感器进行异常检测。在确定空间相关性后,提取出有效的时间相关性,能提高检测的准确性和降低通信成本。但Chen Xianda的算法仅仅是在传感器的层面上来设计算法,并不能完全反应服务器的异常,对于一些异常操作的服务器没有很好的监测效果。
通过上述分析可知,现有技术中对数据中心的异常检测方法虽然在某些方便表现优异,但是都有其各自的缺点。如何综合地提高算法的执行效率和异常监测的准确度是需要解决的问题。
引用的参考文献如下:
[1]2019年云计算行业深度报告[N].中国信息化周报,2019-12-09(012).
[2]《数据中心***(2018年)》.
http://www.caict.ac.cn/kxyj/qwfb/bps/201810/t20181016_186900.htm
[3]滕长青.基于云的数据中心平台研究与设计[J/OL].电子技术与软件工程,2019(23):173-174[2019-12-15].http://kns.cnki.net/kcms/detail/10.1108.TP.20191210.1458.194.html.
[4]张罡.网络异常检测研究与应用[D].北京邮电大学,2019.
[5]周真.云平台下运行环境感知的虚拟机异常检测策略及算法研究[D].重庆大学,2015.
[6]Yin S,Zhu X,Jing C.Fault detection based on a robust one classsupport vector machine[J].Neurocomputing,2014,145:263-268
[7]Subba B,Biswas S,Karmakar S.Intrusion Detection Systems usingLinear Discriminant Analysis and Logistic Regression[C].IndiaConference.IEEE,2016:1-6
[8]Ren H,Ye Z,Li Z.Anomaly detection based on a dynamic Markov model[J].Information Sciences,2017,411:52-65.
[9]Chen X,Kim K T.Youn H Y.Integration of Markov random field withMarkov chain for efficient event detection using wireless sensor network[J].Computer Communications,2008,31(17):4018-4025.
[10]Tingting Pan,Junhong Zhao,Wei Wu,Jie Yang.Learning imbalanceddatasets based on SMOTE and Gaussian distribution[J].Information Sciences,2020,512.。
发明内容
发明目的:针对现有技术的不足,本发明提出一种基于高斯分布的数据中心异常检测方法及装置,能够显著提高对数据中心异常服务器的检测准确率,且算法执行效率高。
技术方案:第一方面,一种基于高斯分布的数据中心异常检测方法,包括如下步骤:
获取数据中心服务器硬件层面、软件层面及物理环境的特征,构成多维特征数据集;
对获取的多维特征数据集进行降维处理;
根据经过降维处理的数据,利用基于高斯分布的异常检测模型进行运算,得到异常检测结果。
进一步地,所述多维特征数据集表示为如下矩阵形式:
Figure BDA0002530092490000031
n表示特征维度,每个矩阵元素Xd(1≤d≤n)表示一个由若干物理量构成的向量,分别为X_cpu、X_gpu、X_memory、X_disk、X_net、X_thread、X_phy中的一个,其中X_cpu为表征CPU工作状态的一系列特征,X_gpu为表征GPU工作状态的一系列特征,X_memory为表征内存工作状态的一系列特征,X_disk为表征磁盘工作状态的一系列特征,X_net为表征网络工作状态的一系列特征,X_thread为表征进程资源状态的一系列特征,X_phy为表征物理环境的一系列特征。
进一步地,所述对获取的多维特征数据集进行降维处理包括:
S21,对第d个维度特征Xd的第j个元素Xdj,按公式(1)计算每个特征Xdj的均值:
Figure BDA0002530092490000041
其中上标i表示具体特征序号,m是针对该元素特征所取的样本数量;
S22,用
Figure BDA0002530092490000042
代替每个
Figure BDA0002530092490000043
带入公式(2)对每个特征进行特征缩放:
Figure BDA0002530092490000044
其中max_xdj表示第d维度第j个元素特征的最大值,min_xdj表示第d维度第j个元素特征的最小值;
S23,将步骤S22所的
Figure BDA0002530092490000045
带入公式(3)计算协方差矩阵:
Figure BDA0002530092490000046
S24,将协方差矩阵元素按从大到小排序,取前k列,组成新协方差矩阵ureduce,然后按公式(4)计算新特征值,得到新特征矩阵dataset_z:
z=Ureduce Tx (4)
Figure BDA0002530092490000047
进一步地,所述基于高斯分布的异常检测模型按如下方法来生成:
将降维后的k个特征所在的集合记为集合χ,选取χ中的第一个元素放入空集合κ里,然后循环执行以下操作,直到集合χ为空:
a)按高斯分布计算集合χ中第一列特征值的分布,记为Pfirst(x),分别计算Pfirst(x)与集合κ中的每一个分布的相关系数r;
b)当|r|大于指定阈值时,计算对应两个分布的η矩阵和s矩阵,形成多元高密度数据中心分布,记为Hdd分布,从集合χ移除Pfirst(x),该次循环结束;
c)否则把Pfirst(x)放入κ集合,返回步骤a;
其中,η矩阵和s矩阵的计算方式如下:
Figure BDA0002530092490000051
Figure BDA0002530092490000052
Figure BDA0002530092490000053
其中η∈Rn,s∈Rn×n,f∈Rn,η为Hdd多元分布的均值向量,s表示Hdd多元分布的协方差矩阵,f表示Hdd多元分布的中间参数向量,由η和s对应元素相除构成,p(x)是Hdd多元分布的概率密度函数,x(i)表示第i个特征,m表示该特征的样本数量。
进一步地,所述利用基于高斯分布的异常检测模型进行运算,得到异常检测结果包括:
根据异常检测模型,得到集合κ中的所有分布后,得到每个分布的多元分布概率密度函数,利用经过降维处理的数据计算每个分布的概率值,当所述概率值大于指定阈值时,确定发生异常并识别出异常所在维度。
第二方面,一种基于高斯分布的数据中心异常检测装置,包括:
数据获取模块,用于获取数据中心服务器硬件层面、软件层面及物理环境的特征,构成多维特征数据集;
预处理模块,用于对获取的多维特征数据集进行降维处理;
异常检测模块,用于根据经过降维处理的数据,利用基于高斯分布的异常检测模型进行运算,得到异常检测结果。
第三方面,一种计算机设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如本发明第一方面所述的基于高斯分布的数据中心异常检测方法的步骤。
有益效果:本发明在基于高斯分布的异常检测算法的基础上,提出了一个适用于高密度数据中心的异常监测方法。通过获取服务器物理器件及软件层面的运行特征,实时捕获可能存在异常的数据对象,通过对数据进行降维处理,提取出对异常有重要影响的因素,并且应用改进的高斯概率模型,通过多个要素综合测量,避免了只通过单要素检测带来的检测误差。本发明可有效提高对高密度数据中心异常服务器的检测准确率,且方法具有较高执行效率,有助于减少数据中心在高密度设计下的管理成本。
附图说明
图1为根据本发明实施例的数据中心的异常检测方法流程图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
传统数据中心通过人力和物理传感器来进行巡检和风险分析,耗费了大量的人力物力。本发明在基于高斯分布的异常检测算法的基础上,提出了一个适用于高密度数据中心的异常监测方法,能够提高数据中心的异常监测效率,减少了数据中心在高密度设计下的管理成本。
如图1所示,在一个实施例中,基于高斯分布的数据中心异常检测方法包括以下步骤:
步骤S10,获取数据中心服务器物理器件及软件层面的特征。
对于特征的选取,本实施例从服务器的物理器件和软件层面挑选了300个特征,这些特征主要来自CPU、GPU、硬盘、内存、主板、电源、硬件所处物理环境、计算、存储、进程、网络吞吐和一些其他的复合特征。对于上述特征的提取样例如下:
①从CPU提取出的一系列特征如cpu负载、cpu等待IO操作占用率、cpu空闲态占用率等特征设为:
X_cpu=(cpu_load,cpu_iowait,cpu_free,......,cpu_sys)
②从GPU提取出来的一系列特征例如GPU负载、GPU等待IO操作占用率、GPU空闲态占用率等特征设为:
X_gpu=(gpu_load,gpu_iowait,gpu_free,......,gpu_sys)
③从内存提取出的一系列特征例如空闲内存数量、每秒中从内存读取的速率、每秒中写入内存的速率、内存访问率等特征设为:
X_memory=(memory_free,memory_read,memory_write,......,memory_visit)
④从磁盘提取出的一系列特征例如磁盘IO吞吐量、硬盘访问量、每秒中从磁盘读取的速率、每秒钟写入磁盘的速率等特征设为:
X_disk=(disk_io,num_of_disk_acc/sec,......,disk_read)
⑤从物理环境提取的特征如温度、湿度、温度差、风扇速率等特征设为:
X_phy=(tem,hum,tem_dval,......,cpu_fan_rate)
⑥从服务器网络吞吐提取的一系列特征如服务器每秒接收的数据量、每秒钟发送的数据量、网络负载率、数据包接收量、数据包丢失量等特征设为:
X_net=(net_re,net_send,net_pac_re,......,net_load)
⑦从进程资源提取特征例如进程占用内存、共享内存、cpu的进程占用率等特征设为:
X_thread=(thread_mem_size,thread_share_size,thread_cpu,......,thread_time)
对于上述获取的特征,定义无标签特征样本为:
X≡(X_cpu,X_gpu,X_memory,X_disk,X_net,X_thread,X_phy)。
应当了解,以上描述的七个维度的特征内容仅是示例的作用,而不是限制本发明的方法必须获取与上述一样的特征,由于不同的数据中心的硬件设施、物理环境和维护侧重点不同,可以根据实际情况进行相应的特征项目选取。
步骤S20,对获取的特征数据集进行降维处理。
获取的特征数据集构成矩阵,记为:
Figure BDA0002530092490000071
其中矩阵的每个元素Xd表示一个向量值,即X≡(X_cpu,X_gpu,X_memory,X_disk,X_net,X_thread,X_phy)中的一个X值,是若干物理量的一个集合。n是步骤S10所获取的服务器特征维度,在本实施例中,n=7。
按照以下步骤进行降维:
S21,对第d(1≤d≤n)个维度特征Xd的第j个元素Xdj,按公式(1)计算每个特征Xdj的均值:
Figure BDA0002530092490000081
上标i表示具体特征序号,如按照步骤S10所记载,设CPU维度特征X_cpu为X1,其第一个特征X11为cpu_load,m是针对该元素特征所取的样本数量,Udj表示获取的m个cpu_load的均值;
S22,用
Figure BDA0002530092490000082
代替每个
Figure BDA0002530092490000083
带入公式(2)对每个特征进行特征缩放:
Figure BDA0002530092490000084
其中max_xdj表示第d维度第j个元素特征的最大值,min_xdj表示第d维度第j个元素特征的最小值;
S23,将S22所得
Figure BDA0002530092490000085
带入公式(3)计算协方差矩阵:
Figure BDA0002530092490000086
针对不同特征Xdj根据其样本值形成的矩阵进行计算,可以得到协方差矩阵。
S24,将协方差矩阵元素按从大到小排序,取前k列,组成新协方差矩阵ureduce,然后按公式(4)计算新特征值,得到如公式(5)所示的新特征矩阵dataset_z。
z=Ureduce Tx (4)
Figure BDA0002530092490000091
步骤S30,根据经过降维处理的数据,利用基于高斯分布的异常检测模型进行运算,得到异常检测结果。
由于普通的高斯分布应用于数据中心服务器的异常检测算法误差较大且效果不理想,本发明在高斯分布的基础之上提出了新的概率分布函数。
对于高密度数据中心(High-density data center,Hdd)普通分布定义如下:
X~Hdd(μ,σ2,t) (6)
Figure BDA0002530092490000092
Figure BDA0002530092490000093
Figure BDA0002530092490000094
Figure BDA0002530092490000095
普通分布里,μj表示均值,
Figure BDA0002530092490000096
表示标准差,t是一个中间值,f(x)表示概率密度函数。对于Hdd多元分布定义如下:
X~MultHdd(η,s,f) (11)
Figure BDA0002530092490000097
Figure BDA0002530092490000098
Figure BDA0002530092490000099
其中η∈Rn,s∈Rn×n,f∈Rn,η为Hdd多元分布的均值向量,s表示Hdd多元分布的协方差矩阵,f表示Hdd多元分布的t参数向量,由η和s对应元素相除构成,p(x)是Hdd多元分布的概率密度函数。
设x为k维特征向量,则:
Figure BDA0002530092490000101
PHddad表示多元分布的概率分布函数,用hddad代表高密度数据中心异常检测(HDDAnomaly detection),其中
Figure BDA0002530092490000102
和PMultHdd(x;η,s,f)分别表示上述定义的普通分布和多元分布。
由于考虑了多元的因素,所以对比于单要素来说,在检测上相当于综合了能反映异常数据的多个维度。例如,如果出现了异常,那么有可能发生异常后导致了CPU\GPU\内存发生了故障,但是硬盘无故障发生,所以前面用主成分分析,来排除了硬盘的影响,而此处通过多个要素综合测量,避免了只通过比如CPU带来的检测误差。
本发明对于异常检测模型的生成需要计算各个特征变量之间的相关性,然后生成模型。
执行以下算法:
1)设集合χ为降维后的k个特征所在的集合,集合κ为空集合;
2)选取χ中的第一个元素放入κ集合里;
3)当集合χ中有元素时,循环执行以下操作,直到集合χ为空:
3.1)选取集合χ中的第一个分布Pfirst(x)(第一个分布指的是按照前面普通分布的公式得到的第一列特征值的分布),分别计算与集合κ中的每一个分布的相关系数r,计算式如下:
Figure BDA0002530092490000103
3.2)如果|r|>0.25,计算上述两个分布的η矩阵和s矩阵,形成多元Hdd分布,从集合χ移除Pfirst(x),该次循环结束。
3.3)否则把Pfirst(x)放入κ集合。
循环结束。
其中的κ集合是一个参照对比的集合,存放所有不相关的分布。这个循环的作用是,在χ中当前取到的这个Pfirst(x),和对比集合κ中的每个分布分别进行比较,如果相关性大于0.25,则将这个Pfirst(x)与κ中当前这个分布形成一个多元分布,因为它们的相关性强;如果都不大于0.25,说明Pfirst(x)与κ中所有分布的相关性都不强,则把Pfirst(x)放入κ中。本实施例中相关性阈值取0.25是经过实验统计得到的比较合理、误差较小的一个值,实际情况中可以根据需要调整。
Figure BDA0002530092490000111
dis为distribute(分布)的缩写,hdd_dis表示Hdd分布,hdd_disi表示根据上面循环构成的第i个多元分布。
异常检测模型生成完毕。
得到集合κ中的所有分布之后,就可以得到每个分布的多元分布概率密度函数,那么根据实际应用中的测量值就可以计算每个分布的概率值了,当这个概率值大于一定阈值的时候,就可以进行异常检测。阈值的确定一般由具体问题具体分析,而且跟不同的特征相关,无法事先统一确定,可以在检测中进行配置。
根据上述方法,在一段时间内对某企业部署的数据中心进行验证,实验表明该方法将对异常服务器的检测的准确率提高了接近20%,同时算法具有较高的执行效率。
根据本发明的另一实施例,一种基于高斯分布的数据中心异常检测装置,包括:
数据获取模块,用于获取数据中心服务器物理器件及软件层面的特征,构成多维特征数据集;
预处理模块,用于对获取的多维特征数据集进行降维处理;
异常检测模块,用于根据经过降维处理的数据,利用基于高斯分布的异常检测模型进行运算,得到异常检测结果。
其中,数据获取模块得到的多维特征数据集表示为如下矩阵形式:
Figure BDA0002530092490000121
n表示特征维度,每个矩阵元素Xd(1≤d≤n)表示一个由若干物理量构成的向量,分别为X_cpu、X_gpu、X_memory、X_disk、X_net、X_thread、X_phy中的一个,其中X_cpu为表征CPU工作状态的一系列特征,X_gpu为表征GPU工作状态的一系列特征,X_memory为表征内存工作状态的一系列特征,X_disk为表征磁盘工作状态的一系列特征,X_net为表征网络工作状态的一系列特征,X_thread为表征进程资源状态的一系列特征,X_phy为表征物理环境的一系列特征。
预处理模块包括:
均值计算单元,用于对第d个维度特征Xd的第j个元素Xdj,按下式计算每个特征Xdj的均值:
Figure BDA0002530092490000122
其中上标i表示具体特征序号,m是针对该元素特征所取的样本数量;
特征缩放单元,用于用
Figure BDA0002530092490000123
代替每个
Figure BDA0002530092490000124
带入下式对每个特征进行特征缩放:
Figure BDA0002530092490000125
其中max_xdj表示第d维度第j个元素特征的最大值,min_xdj表示第d维度第j个元素特征的最小值;
协方差矩阵计算单元,用于将特征缩放单元所得的
Figure BDA0002530092490000126
带入下式计算协方差矩阵:
Figure BDA0002530092490000127
新特征矩阵计算单元,用于将协方差矩阵元素按从大到小排序,取前k列,组成新协方差矩阵ureduce,然后按下式计算新特征值,
z=Ureduce Tx (21)
得到新特征矩阵dataset_z:
Figure BDA0002530092490000131
异常检测模块包括:
模型构建单元,用于生成基于高斯分布的数据中心异常检测模型,生成方法如下:将降维后的k个特征所在的集合记为集合χ,选取χ中的第一个元素放入空集合κ里,然后循环执行以下操作,直到集合χ为空:
a)按高斯分布计算集合χ中第一列特征值的分布,记为Pfirst(x),分别计算Pfirst(x)与集合κ中的每一个分布的相关系数r;
b)当|r|大于指定阈值时,计算对应两个分布的η矩阵和s矩阵,形成多元高密度数据中心分布,记为Hdd分布,从集合χ移除Pfirst(x),该次循环结束;
c)否则把Pfirst(x)放入κ集合,返回步骤a;
其中,η矩阵和s矩阵的计算方式如下:
Figure BDA0002530092490000132
Figure BDA0002530092490000133
Figure BDA0002530092490000134
其中η∈Rn,s∈Rn×n,f∈Rn,η为Hdd多元分布的均值向量,s表示Hdd多元分布的协方差矩阵,f表示Hdd多元分布的中间参数向量,由η和s对应元素相除构成,p(x)是Hdd多元分布的概率密度函数,x(i)表示第i个特征,m表示该特征的样本数量;
异常检测单元,用于根据异常检测模型得到集合κ中的所有分布后,得到每个分布的多元分布概率密度函数,利用经过降维处理的数据计算每个分布的概率值,当所述概率值大于指定阈值时,认为发生异常并识别出异常所在维度。
基于与方法实施例相同的技术构思,根据本发明的另一实施例,提供一种计算机设备,所述设备包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现方法实施例中的各步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (7)

1.一种基于高斯分布的数据中心异常检测方法,其特征在于,所述方法包括以下步骤:
获取数据中心服务器硬件层面、软件层面及物理环境的特征,构成多维特征数据集,所述多维特征数据集表示为如下矩阵形式:
Figure FDA0002949650460000011
n表示特征维度,每个矩阵元素Xd(1≤d≤n)表示一个由若干物理量构成的向量,分别为X_cpu、X_gpu、X_memory、X_disk、X_net、X_thread、X_phy中的一个,其中X_cpu为表征CPU工作状态的一系列特征,X_gpu为表征GPU工作状态的一系列特征,X_memory为表征内存工作状态的一系列特征,X_disk为表征磁盘工作状态的一系列特征,X_net为表征网络工作状态的一系列特征,X_thread为表征进程资源状态的一系列特征,X_phy为表征物理环境的一系列特征;
对获取的多维特征数据集进行降维处理,包括:
S21,对第d个维度特征Xd的第j个元素Xdj,按公式(1)计算每个特征Xdj的均值:
Figure FDA0002949650460000012
其中上标i表示具体特征序号,m是针对该元素特征所取的样本数量;
S22,用
Figure FDA0002949650460000013
代替每个
Figure FDA0002949650460000014
带入公式(2)对每个特征进行特征缩放:
Figure FDA0002949650460000015
其中max_xdj表示第d维度第j个元素特征的最大值,min_xdj表示第d维度第j个元素特征的最小值;
S23,将步骤S22所的
Figure FDA0002949650460000021
带入公式(3)计算协方差矩阵:
Figure FDA0002949650460000022
S24,将协方差矩阵元素按从大到小排序,取前k列,组成新协方差矩阵ureduce,然后按公式(4)计算新特征值,得到新特征矩阵dataset_z:
z=Ureduce Tx (4)
Figure FDA0002949650460000023
根据经过降维处理的数据,利用基于高斯分布的异常检测模型进行运算,得到异常检测结果,其中所述基于高斯分布的异常检测模型按如下方法生成:将降维后的k个特征所在的集合记为集合χ,选取χ中的第一个元素放入空集合κ里,然后循环执行以下操作,直到集合χ为空:
a)按高斯分布计算集合χ中第一列特征值的分布,记为Pfirst(x),分别计算Pfirst(x)与集合κ中的每一个分布的相关系数r;
b)当|r|大于指定阈值时,计算对应两个分布的η矩阵和s矩阵,形成多元高密度数据中心分布,记为Hdd分布,从集合χ移除Pfirst(x),该次循环结束;
c)否则把Pfirst(x)放入κ集合,返回步骤a。
2.根据权利要求1所述的基于高斯分布的数据中心异常检测方法,其特征在于,所述η矩阵和s矩阵的计算方式如下:
Figure FDA0002949650460000024
Figure FDA0002949650460000025
Figure FDA0002949650460000031
其中η∈Rn,s∈Rn×n,f∈Rn,η为Hdd多元分布的均值向量,s表示Hdd多元分布的协方差矩阵,f表示Hdd多元分布的中间参数向量,由η和s对应元素相除构成,p(x)是Hdd多元分布的概率密度函数,x(i)表示第i个特征,m表示该特征的样本数量。
3.根据权利要求2所述的基于高斯分布的数据中心异常检测方法,其特征在于,所述利用基于高斯分布的异常检测模型进行运算,得到异常检测结果包括:
根据异常检测模型,得到集合κ中的所有分布后,得到每个分布的多元分布概率密度函数,利用经过降维处理的数据计算每个分布的概率值,当所述概率值大于指定阈值时,确定发生异常并识别出异常所在维度。
4.一种基于高斯分布的数据中心异常检测装置,其特征在于,包括:
数据获取模块,用于获取数据中心服务器硬件层面、软件层面及物理环境的特征,构成多维特征数据集,多维特征数据集表示为如下矩阵形式:
Figure FDA0002949650460000032
n表示特征维度,每个矩阵元素Xd(1≤d≤n)表示一个由若干物理量构成的向量,分别为X_cpu、X_gpu、X_memory、X_disk、X_net、X_thread、X_phy中的一个,其中X_cpu为表征CPU工作状态的一系列特征,X_gpu为表征GPU工作状态的一系列特征,X_memory为表征内存工作状态的一系列特征,X_disk为表征磁盘工作状态的一系列特征,X_net为表征网络工作状态的一系列特征,X_thread为表征进程资源状态的一系列特征,X_phy为表征物理环境的一系列特征;
预处理模块,用于对获取的多维特征数据集进行降维处理,所述预处理模块具体包括:
均值计算单元,用于对第d个维度特征Xd的第j个元素Xdj,按公式(1)计算每个特征Xdj的均值:
Figure FDA0002949650460000041
其中上标i表示具体特征序号,m是针对该元素特征所取的样本数量;
特征缩放单元,用于用
Figure FDA0002949650460000042
代替每个
Figure FDA0002949650460000043
带入公式(2)对每个特征进行特征缩放:
Figure FDA0002949650460000044
其中max_xdj表示第d维度第j个元素特征的最大值,min_xdj表示第d维度第j个元素特征的最小值;
协方差矩阵计算单元,用于将特征缩放单元所得的
Figure FDA0002949650460000045
带入公式(3)计算协方差矩阵:
Figure FDA0002949650460000046
新特征矩阵计算单元,用于将协方差矩阵元素按从大到小排序,取前k列,组成新协方差矩阵ureduce,然后按公式(4)计算新特征值,得到新特征矩阵dataset_z:
z=Ureduce Tx (4)
Figure FDA0002949650460000047
异常检测模块,用于根据经过降维处理的数据,利用基于高斯分布的异常检测模型进行运算,得到异常检测结果,其中所述异常检测模块包括模型构建单元,用于生成基于高斯分布的数据中心异常检测模型,生成方法如下:将降维后的k个特征所在的集合记为集合χ,选取χ中的第一个元素放入空集合κ里,然后循环执行以下操作,直到集合χ为空:
a)按高斯分布计算集合χ中第一列特征值的分布,记为Pfirst(x),分别计算Pfirst(x)与集合κ中的每一个分布的相关系数r;
b)当|r|大于指定阈值时,计算对应两个分布的η矩阵和s矩阵,形成多元高密度数据中心分布,记为Hdd分布,从集合χ移除Pfirst(x),该次循环结束;
c)否则把Pfirst(x)放入κ集合,返回步骤a。
5.根据权利要求4所述的基于高斯分布的数据中心异常检测装置,其特征在于,所述η矩阵和s矩阵的计算方式如下:
Figure FDA0002949650460000051
Figure FDA0002949650460000052
Figure FDA0002949650460000053
其中η∈Rn,s∈Rn×n,f∈Rn,η为Hdd多元分布的均值向量,s表示Hdd多元分布的协方差矩阵,f表示Hdd多元分布的中间参数向量,由η和s对应元素相除构成,p(x)是Hdd多元分布的概率密度函数,x(i)表示第i个特征,m表示该特征的样本数量。
6.根据权利要求4所述的基于高斯分布的数据中心异常检测装置,其特征在于,所述异常检测模块包括还包括异常检测单元,用于根据异常检测模型得到集合κ中的所有分布后,得到每个分布的多元分布概率密度函数,利用经过降维处理的数据计算每个分布的概率值,当所述概率值大于指定阈值时,确定发生异常并识别出异常所在维度。
7.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如权利要求1-3中的任一项所述的步骤。
CN202010515936.3A 2020-06-09 2020-06-09 一种基于高斯分布的数据中心异常检测方法及装置 Active CN111737099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010515936.3A CN111737099B (zh) 2020-06-09 2020-06-09 一种基于高斯分布的数据中心异常检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010515936.3A CN111737099B (zh) 2020-06-09 2020-06-09 一种基于高斯分布的数据中心异常检测方法及装置

Publications (2)

Publication Number Publication Date
CN111737099A CN111737099A (zh) 2020-10-02
CN111737099B true CN111737099B (zh) 2021-04-16

Family

ID=72648545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010515936.3A Active CN111737099B (zh) 2020-06-09 2020-06-09 一种基于高斯分布的数据中心异常检测方法及装置

Country Status (1)

Country Link
CN (1) CN111737099B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115373834A (zh) * 2021-05-27 2022-11-22 北京火山引擎科技有限公司 一种基于进程调用链的入侵检测方法
CN114527249B (zh) * 2022-01-17 2024-03-19 南方海洋科学与工程广东省实验室(广州) 一种水质监测数据质量控制方法及***
CN114816825B (zh) * 2022-06-23 2022-09-09 光谷技术有限公司 一种物联网网关数据纠错方法
CN116955091B (zh) * 2023-09-20 2024-04-30 深圳市互盟科技股份有限公司 基于机器学习的数据中心故障检测***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102361014A (zh) * 2011-10-20 2012-02-22 上海大学 大规模半导体制造过程的状态监控与故障诊断方法
CN106547852A (zh) * 2016-10-19 2017-03-29 腾讯科技(深圳)有限公司 异常数据检测方法及装置、数据预处理方法及***
CN106850687A (zh) * 2017-03-29 2017-06-13 北京百度网讯科技有限公司 用于检测网络攻击的方法和装置
CN107133654A (zh) * 2017-05-25 2017-09-05 大连理工大学 一种监控视频异常事件检测的方法
CN108075906A (zh) * 2016-11-08 2018-05-25 上海有云信息技术有限公司 一种用于云计算数据中心的管理方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102110480B1 (ko) * 2020-02-03 2020-05-13 주식회사 이글루시큐리티 비지도 학습 기반의 이상 탐지 방법 및 그 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102361014A (zh) * 2011-10-20 2012-02-22 上海大学 大规模半导体制造过程的状态监控与故障诊断方法
CN106547852A (zh) * 2016-10-19 2017-03-29 腾讯科技(深圳)有限公司 异常数据检测方法及装置、数据预处理方法及***
CN108075906A (zh) * 2016-11-08 2018-05-25 上海有云信息技术有限公司 一种用于云计算数据中心的管理方法及***
CN106850687A (zh) * 2017-03-29 2017-06-13 北京百度网讯科技有限公司 用于检测网络攻击的方法和装置
CN107133654A (zh) * 2017-05-25 2017-09-05 大连理工大学 一种监控视频异常事件检测的方法

Also Published As

Publication number Publication date
CN111737099A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111737099B (zh) 一种基于高斯分布的数据中心异常检测方法及装置
Lan et al. Toward automated anomaly identification in large-scale systems
Fu Performance metric selection for autonomic anomaly detection on cloud computing systems
US20120136909A1 (en) Cloud anomaly detection using normalization, binning and entropy determination
CN107908536B (zh) Cpu-gpu异构环境中对gpu应用的性能评估方法及***
Yan et al. Big-data-driven based intelligent prognostics scheme in industry 4.0 environment
Chen et al. Predicting job completion times using system logs in supercomputing clusters
CN111950660A (zh) 一种人工智能训练平台的告警预测方法及装置
US8245084B2 (en) Two-level representative workload phase detection
Aksar et al. Proctor: A semi-supervised performance anomaly diagnosis framework for production hpc systems
Maroulis et al. A holistic energy-efficient real-time scheduler for mixed stream and batch processing workloads
CN111198979A (zh) 一种用于对输变电可靠性评估大数据进行清洗的方法及***
Watanakeesuntorn et al. Massively parallel causal inference of whole brain dynamics at single neuron resolution
CN113836806A (zh) 一种phm模型构建方法、***、存储介质及电子设备
CN110287256B (zh) 一种基于云计算的电网数据并行处理***及其处理方法
Liang et al. Prediction method of energy consumption based on multiple energy-related features in data center
CN110874601B (zh) 识别设备运行状态的方法、状态识别模型训练方法及装置
Behera et al. GAN-based multi-task learning approach for prognostics and health management of IIoT
CN111368864A (zh) 识别方法、可用性评估方法及装置、电子设备、存储介质
CN113296990B (zh) 时序数据的异常识别方法及装置
Wang et al. Anomaly monitoring in high-density data centers based on gaussian distribution anomaly detection algorithm
CN113535522A (zh) 一种异常情况的检测方法、装置和设备
US20190138931A1 (en) Apparatus and method of introducing probability and uncertainty via order statistics to unsupervised data classification via clustering
CN116541252B (zh) 一种机房故障日志数据处理方法及装置
CN109474445B (zh) 一种分布式***根源故障定位方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant