CN111737099B

CN111737099B - 一种基于高斯分布的数据中心异常检测方法及装置

Info

Publication number: CN111737099B
Application number: CN202010515936.3A
Authority: CN
Inventors: 许明杰; 俞俊; 陈琰; 卢士达; 王琳; 梅竹; 陈海洋; 庞恒茂
Original assignee: NARI Group Corp; Nari Technology Co Ltd; State Grid Shanghai Electric Power Co Ltd; State Grid Electric Power Research Institute
Current assignee: NARI Group Corp; Nari Technology Co Ltd; State Grid Shanghai Electric Power Co Ltd; State Grid Electric Power Research Institute
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2021-04-16
Anticipated expiration: 2040-06-09
Also published as: CN111737099A

Abstract

本发明提出了一种基于高斯分布的数据中心异常检测方法及装置。所述方法包括以下步骤：获取数据中心服务器硬件层面、软件层面及物理环境的特征，构成多维特征数据集；对获取的多维特征数据集进行降维处理；根据经过降维处理的数据，利用基于高斯分布的异常检测模型进行运算，得到异常检测结果。本发明在基于高斯分布的异常检测算法的基础上，提出了一个适用于高密度数据中心的异常监测方法，能够提高数据中心的异常监测效率，减少了数据中心在高密度设计下的管理成本。

Description

一种基于高斯分布的数据中心异常检测方法及装置

技术领域

本发明涉及一种数据中心的异常检测方法及装置，属于数据中心技术领域。

背景技术

随着大数据的时代的到来，数据中心(Internet Data Center，简称IDC)呈现飞速发展^[1]。据《数据中心***(2018年)》^[2]显示，全球数据中心呈现出减体量增的趋势。自2017年以来，随着大型化、集约化的观念的发展，数据中心的建设规模正在不断增大，但是数据中心高效运维管理以及人才缺失问题不断凸显出来。多数据中心出现运维人才短缺，运维能力跟不上数据中心建设速度等问题。在大数据时代，网络产生的大量的数据涌入数据中心，这就要求数据中心要具有高密度、绿色化、易于管理的特点^[3]。但随着数据中心不断向这些目标靠近时，人们对数据中心的管理也变得越来越困难。其中对于IDC机房的设备的监测和故障设备的排查一直是近些年来学术界研究的热门课题。但是对于此问题，学术界一直没有一个很好的解决方案。大部分数据中心监测机房仍然采取人工排查和物理传感器监测的手段，监测效率不高且花费较大。

近几年来，对数据中心异常检测一直是学术界的热点^[4][5]。目前对于此类研究主要采取两种策略：基于机器学习模型异常检测和基于统计学模型的异常检测。基于机器学习模型的异常检测将样本集进行聚类，各个数据会被聚集在某个集群中，然后可以通过计算欧式距离、曼哈顿距离来判断数据的相关性。如果某个样本数据距离任何一个集群的距离都很远，或者这个集群的数据点比较稀疏时，那么这个数据点或者集群就被判定为异常的状态。对于此种算法的研究，ShenYin^[6]提出了稳健的单类支持向量机，根据每个正常数据点到数据集中心的欧式距离，设计了自适应惩罚因子，使得部分离群值对支持向量机的影响较小。ShenYin的算法虽然在一定程度上避免了模型的过拟合，但是其算法在收敛时容易过早收敛，从而造成向量机模型不能够很好的分类。F Xiao^[7]利用线性判别和逻辑回归对正常的数据样本进行学习，从此来识别网络的可接受行为，进行入侵检测。当观察到数据集外界的异常数据，就会发生警报。虽然此算法的准确率优异，但是其基于的线性回归模型算法在计算时会占用大量的时间和内存，从而降低算法的效率。基于统计学模型的异常检测需要从观测对象的状态或行为抽取特征集并构建相应的统计学模型。通过收集样本中正常样本和异常样本的分布情况，则可以根据新采集样本的分布情况快速的异常判断。此种方法不会占用大量的计算时间，适用于解决数据流量较大的问题。Huorong Ren^[8]通过滑动窗口分段序列数据，根据滑动窗口数据的值定义数据的状态，建立一个具有实时适应状态变化的高阶马尔科夫模型进行异常检测。HuorongRen的算法可以实时适应数据集的变化，但是其算法没有办法考虑到不同时期的所有样本集，不太适用于作为数据中心异常检测***的算法。Chen Xianda^[9]采用分层结构集成了传感器控件和时间的相关性，结合传感器和空间信息的权重，通过马尔科夫链对网络中的传感器进行异常检测。在确定空间相关性后，提取出有效的时间相关性，能提高检测的准确性和降低通信成本。但Chen Xianda的算法仅仅是在传感器的层面上来设计算法，并不能完全反应服务器的异常，对于一些异常操作的服务器没有很好的监测效果。

通过上述分析可知，现有技术中对数据中心的异常检测方法虽然在某些方便表现优异，但是都有其各自的缺点。如何综合地提高算法的执行效率和异常监测的准确度是需要解决的问题。

引用的参考文献如下：

[1]2019年云计算行业深度报告[N].中国信息化周报,2019-12-09(012).

[2]《数据中心***(2018年)》.

http://www.caict.ac.cn/kxyj/qwfb/bps/201810/t20181016_186900.htm

[3]滕长青.基于云的数据中心平台研究与设计[J/OL].电子技术与软件工程,2019(23):173-174[2019-12-15].http://kns.cnki.net/kcms/detail/10.1108.TP.20191210.1458.194.html.

[4]张罡.网络异常检测研究与应用[D].北京邮电大学,2019.

[5]周真.云平台下运行环境感知的虚拟机异常检测策略及算法研究[D].重庆大学,2015.

[6]Yin S,Zhu X,Jing C.Fault detection based on a robust one classsupport vector machine[J].Neurocomputing,2014,145:263-268

[7]Subba B,Biswas S,Karmakar S.Intrusion Detection Systems usingLinear Discriminant Analysis and Logistic Regression[C].IndiaConference.IEEE,2016:1-6

[8]Ren H,Ye Z,Li Z.Anomaly detection based on a dynamic Markov model[J].Information Sciences,2017,411:52-65.

[9]Chen X,Kim K T.Youn H Y.Integration of Markov random field withMarkov chain for efficient event detection using wireless sensor network[J].Computer Communications,2008,31(17):4018-4025.

[10]Tingting Pan,Junhong Zhao,Wei Wu,Jie Yang.Learning imbalanceddatasets based on SMOTE and Gaussian distribution[J].Information Sciences,2020,512.。

发明内容

发明目的：针对现有技术的不足，本发明提出一种基于高斯分布的数据中心异常检测方法及装置，能够显著提高对数据中心异常服务器的检测准确率，且算法执行效率高。

技术方案：第一方面，一种基于高斯分布的数据中心异常检测方法，包括如下步骤：

获取数据中心服务器硬件层面、软件层面及物理环境的特征，构成多维特征数据集；

对获取的多维特征数据集进行降维处理；

根据经过降维处理的数据，利用基于高斯分布的异常检测模型进行运算，得到异常检测结果。

进一步地，所述多维特征数据集表示为如下矩阵形式：

n表示特征维度，每个矩阵元素X_d(1≤d≤n)表示一个由若干物理量构成的向量，分别为X_cpu、X_gpu、X_memory、X_disk、X_net、X_thread、X_phy中的一个，其中X_cpu为表征CPU工作状态的一系列特征，X_gpu为表征GPU工作状态的一系列特征，X_memory为表征内存工作状态的一系列特征，X_disk为表征磁盘工作状态的一系列特征，X_net为表征网络工作状态的一系列特征，X_thread为表征进程资源状态的一系列特征，X_phy为表征物理环境的一系列特征。

进一步地，所述对获取的多维特征数据集进行降维处理包括：

S21，对第d个维度特征X_d的第j个元素X_dj，按公式(1)计算每个特征X_dj的均值：

其中上标i表示具体特征序号，m是针对该元素特征所取的样本数量；

S22，用

代替每个

带入公式(2)对每个特征进行特征缩放：

其中max_x_dj表示第d维度第j个元素特征的最大值，min_x_dj表示第d维度第j个元素特征的最小值；

S23，将步骤S22所的

带入公式(3)计算协方差矩阵：

S24，将协方差矩阵元素按从大到小排序，取前k列，组成新协方差矩阵u_reduce，然后按公式(4)计算新特征值，得到新特征矩阵dataset_z：

z＝U_reduce ^Tx (4)

进一步地，所述基于高斯分布的异常检测模型按如下方法来生成：

将降维后的k个特征所在的集合记为集合χ，选取χ中的第一个元素放入空集合κ里，然后循环执行以下操作，直到集合χ为空：

a)按高斯分布计算集合χ中第一列特征值的分布，记为P_first(x)，分别计算P_first(x)与集合κ中的每一个分布的相关系数r；

b)当|r|大于指定阈值时，计算对应两个分布的η矩阵和s矩阵，形成多元高密度数据中心分布，记为Hdd分布，从集合χ移除P_first(x)，该次循环结束；

c)否则把P_first(x)放入κ集合，返回步骤a；

其中，η矩阵和s矩阵的计算方式如下：

其中η∈Rⁿ，s∈R^n×n，f∈Rⁿ，η为Hdd多元分布的均值向量，s表示Hdd多元分布的协方差矩阵，f表示Hdd多元分布的中间参数向量，由η和s对应元素相除构成，p(x)是Hdd多元分布的概率密度函数，x⁽ⁱ⁾表示第i个特征，m表示该特征的样本数量。

进一步地，所述利用基于高斯分布的异常检测模型进行运算，得到异常检测结果包括：

根据异常检测模型，得到集合κ中的所有分布后，得到每个分布的多元分布概率密度函数，利用经过降维处理的数据计算每个分布的概率值，当所述概率值大于指定阈值时，确定发生异常并识别出异常所在维度。

第二方面，一种基于高斯分布的数据中心异常检测装置，包括：

数据获取模块，用于获取数据中心服务器硬件层面、软件层面及物理环境的特征，构成多维特征数据集；

预处理模块，用于对获取的多维特征数据集进行降维处理；

异常检测模块，用于根据经过降维处理的数据，利用基于高斯分布的异常检测模型进行运算，得到异常检测结果。

第三方面，一种计算机设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如本发明第一方面所述的基于高斯分布的数据中心异常检测方法的步骤。

有益效果：本发明在基于高斯分布的异常检测算法的基础上，提出了一个适用于高密度数据中心的异常监测方法。通过获取服务器物理器件及软件层面的运行特征，实时捕获可能存在异常的数据对象，通过对数据进行降维处理，提取出对异常有重要影响的因素，并且应用改进的高斯概率模型，通过多个要素综合测量，避免了只通过单要素检测带来的检测误差。本发明可有效提高对高密度数据中心异常服务器的检测准确率，且方法具有较高执行效率，有助于减少数据中心在高密度设计下的管理成本。

附图说明

图1为根据本发明实施例的数据中心的异常检测方法流程图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

传统数据中心通过人力和物理传感器来进行巡检和风险分析，耗费了大量的人力物力。本发明在基于高斯分布的异常检测算法的基础上，提出了一个适用于高密度数据中心的异常监测方法，能够提高数据中心的异常监测效率，减少了数据中心在高密度设计下的管理成本。

如图1所示，在一个实施例中，基于高斯分布的数据中心异常检测方法包括以下步骤：

步骤S10，获取数据中心服务器物理器件及软件层面的特征。

对于特征的选取，本实施例从服务器的物理器件和软件层面挑选了300个特征，这些特征主要来自CPU、GPU、硬盘、内存、主板、电源、硬件所处物理环境、计算、存储、进程、网络吞吐和一些其他的复合特征。对于上述特征的提取样例如下：

①从CPU提取出的一系列特征如cpu负载、cpu等待IO操作占用率、cpu空闲态占用率等特征设为：

X_cpu＝(cpu_load,cpu_iowait,cpu_free,......,cpu_sys)

②从GPU提取出来的一系列特征例如GPU负载、GPU等待IO操作占用率、GPU空闲态占用率等特征设为：

X_gpu＝(gpu_load,gpu_iowait,gpu_free,......,gpu_sys)

③从内存提取出的一系列特征例如空闲内存数量、每秒中从内存读取的速率、每秒中写入内存的速率、内存访问率等特征设为：

X_memory＝(memory_free,memory_read,memory_write,......,memory_visit)

④从磁盘提取出的一系列特征例如磁盘IO吞吐量、硬盘访问量、每秒中从磁盘读取的速率、每秒钟写入磁盘的速率等特征设为：

X_disk＝(disk_io,num_of_disk_acc/sec,......,disk_read)

⑤从物理环境提取的特征如温度、湿度、温度差、风扇速率等特征设为：

X_phy＝(tem,hum,tem_dval,......,cpu_fan_rate)

⑥从服务器网络吞吐提取的一系列特征如服务器每秒接收的数据量、每秒钟发送的数据量、网络负载率、数据包接收量、数据包丢失量等特征设为：

X_net＝(net_re,net_send,net_pac_re,......,net_load)

⑦从进程资源提取特征例如进程占用内存、共享内存、cpu的进程占用率等特征设为：

X_thread＝(thread_mem_size,thread_share_size,thread_cpu,......,thread_time)

对于上述获取的特征，定义无标签特征样本为：

X≡(X_cpu,X_gpu,X_memory,X_disk,X_net,X_thread,X_phy)。

应当了解，以上描述的七个维度的特征内容仅是示例的作用，而不是限制本发明的方法必须获取与上述一样的特征，由于不同的数据中心的硬件设施、物理环境和维护侧重点不同，可以根据实际情况进行相应的特征项目选取。

步骤S20，对获取的特征数据集进行降维处理。

获取的特征数据集构成矩阵，记为：

其中矩阵的每个元素X_d表示一个向量值，即X≡(X_cpu,X_gpu,X_memory,X_disk,X_net,X_thread,X_phy)中的一个X值，是若干物理量的一个集合。n是步骤S10所获取的服务器特征维度，在本实施例中，n＝7。

按照以下步骤进行降维：

S21，对第d(1≤d≤n)个维度特征X_d的第j个元素X_dj，按公式(1)计算每个特征X_dj的均值：

上标i表示具体特征序号，如按照步骤S10所记载，设CPU维度特征X_cpu为X₁，其第一个特征X₁₁为cpu_load，m是针对该元素特征所取的样本数量，U_dj表示获取的m个cpu_load的均值；

S22，用

代替每个

带入公式(2)对每个特征进行特征缩放：

S23，将S22所得

带入公式(3)计算协方差矩阵：

针对不同特征X_dj根据其样本值形成的矩阵进行计算，可以得到协方差矩阵。

S24，将协方差矩阵元素按从大到小排序，取前k列，组成新协方差矩阵u_reduce，然后按公式(4)计算新特征值，得到如公式(5)所示的新特征矩阵dataset_z。

z＝U_reduce ^Tx (4)

步骤S30，根据经过降维处理的数据，利用基于高斯分布的异常检测模型进行运算，得到异常检测结果。

由于普通的高斯分布应用于数据中心服务器的异常检测算法误差较大且效果不理想，本发明在高斯分布的基础之上提出了新的概率分布函数。

对于高密度数据中心(High-density data center,Hdd)普通分布定义如下：

X～Hdd(μ,σ²,t) (6)

普通分布里，μ_j表示均值，

表示标准差，t是一个中间值，f(x)表示概率密度函数。对于Hdd多元分布定义如下：

X～MultHdd(η,s,f) (11)

其中η∈Rⁿ，s∈R^n×n，f∈Rⁿ，η为Hdd多元分布的均值向量，s表示Hdd多元分布的协方差矩阵，f表示Hdd多元分布的t参数向量，由η和s对应元素相除构成，p(x)是Hdd多元分布的概率密度函数。

设x为k维特征向量，则：

P_Hddad表示多元分布的概率分布函数，用hddad代表高密度数据中心异常检测(HDDAnomaly detection)，其中

和P_MultHdd(x；η,s,f)分别表示上述定义的普通分布和多元分布。

由于考虑了多元的因素，所以对比于单要素来说，在检测上相当于综合了能反映异常数据的多个维度。例如，如果出现了异常，那么有可能发生异常后导致了CPU\GPU\内存发生了故障，但是硬盘无故障发生，所以前面用主成分分析，来排除了硬盘的影响，而此处通过多个要素综合测量，避免了只通过比如CPU带来的检测误差。

本发明对于异常检测模型的生成需要计算各个特征变量之间的相关性，然后生成模型。

执行以下算法：

1)设集合χ为降维后的k个特征所在的集合，集合κ为空集合；

2)选取χ中的第一个元素放入κ集合里；

3)当集合χ中有元素时，循环执行以下操作，直到集合χ为空：

3.1)选取集合χ中的第一个分布P_first(x)(第一个分布指的是按照前面普通分布的公式得到的第一列特征值的分布)，分别计算与集合κ中的每一个分布的相关系数r，计算式如下：

3.2)如果|r|>0.25，计算上述两个分布的η矩阵和s矩阵，形成多元Hdd分布，从集合χ移除P_first(x)，该次循环结束。

3.3)否则把P_first(x)放入κ集合。

循环结束。

其中的κ集合是一个参照对比的集合，存放所有不相关的分布。这个循环的作用是，在χ中当前取到的这个P_first(x)，和对比集合κ中的每个分布分别进行比较，如果相关性大于0.25，则将这个P_first(x)与κ中当前这个分布形成一个多元分布，因为它们的相关性强；如果都不大于0.25，说明P_first(x)与κ中所有分布的相关性都不强，则把P_first(x)放入κ中。本实施例中相关性阈值取0.25是经过实验统计得到的比较合理、误差较小的一个值，实际情况中可以根据需要调整。

dis为distribute(分布)的缩写，hdd_dis表示Hdd分布，hdd_dis_i表示根据上面循环构成的第i个多元分布。

异常检测模型生成完毕。

得到集合κ中的所有分布之后，就可以得到每个分布的多元分布概率密度函数，那么根据实际应用中的测量值就可以计算每个分布的概率值了，当这个概率值大于一定阈值的时候，就可以进行异常检测。阈值的确定一般由具体问题具体分析，而且跟不同的特征相关，无法事先统一确定，可以在检测中进行配置。

根据上述方法，在一段时间内对某企业部署的数据中心进行验证，实验表明该方法将对异常服务器的检测的准确率提高了接近20％，同时算法具有较高的执行效率。

根据本发明的另一实施例，一种基于高斯分布的数据中心异常检测装置，包括：

数据获取模块，用于获取数据中心服务器物理器件及软件层面的特征，构成多维特征数据集；

预处理模块，用于对获取的多维特征数据集进行降维处理；

其中，数据获取模块得到的多维特征数据集表示为如下矩阵形式：

预处理模块包括：

均值计算单元，用于对第d个维度特征X_d的第j个元素X_dj，按下式计算每个特征X_dj的均值：

特征缩放单元，用于用

代替每个

带入下式对每个特征进行特征缩放：

协方差矩阵计算单元，用于将特征缩放单元所得的

带入下式计算协方差矩阵：

新特征矩阵计算单元，用于将协方差矩阵元素按从大到小排序，取前k列，组成新协方差矩阵u_reduce，然后按下式计算新特征值，

z＝U_reduce ^Tx (21)

得到新特征矩阵dataset_z：

异常检测模块包括：

模型构建单元，用于生成基于高斯分布的数据中心异常检测模型，生成方法如下：将降维后的k个特征所在的集合记为集合χ，选取χ中的第一个元素放入空集合κ里，然后循环执行以下操作，直到集合χ为空：

c)否则把P_first(x)放入κ集合，返回步骤a；

其中，η矩阵和s矩阵的计算方式如下：

其中η∈Rⁿ，s∈R^n×n，f∈Rⁿ，η为Hdd多元分布的均值向量，s表示Hdd多元分布的协方差矩阵，f表示Hdd多元分布的中间参数向量，由η和s对应元素相除构成，p(x)是Hdd多元分布的概率密度函数，x⁽ⁱ⁾表示第i个特征，m表示该特征的样本数量；

异常检测单元，用于根据异常检测模型得到集合κ中的所有分布后，得到每个分布的多元分布概率密度函数，利用经过降维处理的数据计算每个分布的概率值，当所述概率值大于指定阈值时，认为发生异常并识别出异常所在维度。

基于与方法实施例相同的技术构思，根据本发明的另一实施例，提供一种计算机设备，所述设备包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现方法实施例中的各步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于高斯分布的数据中心异常检测方法，其特征在于，所述方法包括以下步骤：

获取数据中心服务器硬件层面、软件层面及物理环境的特征，构成多维特征数据集，所述多维特征数据集表示为如下矩阵形式：

n表示特征维度，每个矩阵元素X_d(1≤d≤n)表示一个由若干物理量构成的向量，分别为X_cpu、X_gpu、X_memory、X_disk、X_net、X_thread、X_phy中的一个，其中X_cpu为表征CPU工作状态的一系列特征，X_gpu为表征GPU工作状态的一系列特征，X_memory为表征内存工作状态的一系列特征，X_disk为表征磁盘工作状态的一系列特征，X_net为表征网络工作状态的一系列特征，X_thread为表征进程资源状态的一系列特征，X_phy为表征物理环境的一系列特征；

对获取的多维特征数据集进行降维处理，包括：

S22，用

代替每个

带入公式(2)对每个特征进行特征缩放：

S23，将步骤S22所的

带入公式(3)计算协方差矩阵：

z＝U_reduce ^Tx (4)

根据经过降维处理的数据，利用基于高斯分布的异常检测模型进行运算，得到异常检测结果，其中所述基于高斯分布的异常检测模型按如下方法生成：将降维后的k个特征所在的集合记为集合χ，选取χ中的第一个元素放入空集合κ里，然后循环执行以下操作，直到集合χ为空：

c)否则把P_first(x)放入κ集合，返回步骤a。

2.根据权利要求1所述的基于高斯分布的数据中心异常检测方法，其特征在于，所述η矩阵和s矩阵的计算方式如下：

3.根据权利要求2所述的基于高斯分布的数据中心异常检测方法，其特征在于，所述利用基于高斯分布的异常检测模型进行运算，得到异常检测结果包括：

4.一种基于高斯分布的数据中心异常检测装置，其特征在于，包括：

数据获取模块，用于获取数据中心服务器硬件层面、软件层面及物理环境的特征，构成多维特征数据集，多维特征数据集表示为如下矩阵形式：

预处理模块，用于对获取的多维特征数据集进行降维处理，所述预处理模块具体包括：

均值计算单元，用于对第d个维度特征X_d的第j个元素X_dj，按公式(1)计算每个特征X_dj的均值：

特征缩放单元，用于用

代替每个

带入公式(2)对每个特征进行特征缩放：

协方差矩阵计算单元，用于将特征缩放单元所得的

带入公式(3)计算协方差矩阵：

新特征矩阵计算单元，用于将协方差矩阵元素按从大到小排序，取前k列，组成新协方差矩阵u_reduce，然后按公式(4)计算新特征值，得到新特征矩阵dataset_z：

z＝U_reduce ^Tx (4)

异常检测模块，用于根据经过降维处理的数据，利用基于高斯分布的异常检测模型进行运算，得到异常检测结果，其中所述异常检测模块包括模型构建单元，用于生成基于高斯分布的数据中心异常检测模型，生成方法如下：将降维后的k个特征所在的集合记为集合χ，选取χ中的第一个元素放入空集合κ里，然后循环执行以下操作，直到集合χ为空：

c)否则把P_first(x)放入κ集合，返回步骤a。

5.根据权利要求4所述的基于高斯分布的数据中心异常检测装置，其特征在于，所述η矩阵和s矩阵的计算方式如下：

6.根据权利要求4所述的基于高斯分布的数据中心异常检测装置，其特征在于，所述异常检测模块包括还包括异常检测单元，用于根据异常检测模型得到集合κ中的所有分布后，得到每个分布的多元分布概率密度函数，利用经过降维处理的数据计算每个分布的概率值，当所述概率值大于指定阈值时，确定发生异常并识别出异常所在维度。

7.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如权利要求1-3中的任一项所述的步骤。