CN110956248A

CN110956248A - 一种基于隔离森林的海量数据异常值检测算法

Info

Publication number: CN110956248A
Application number: CN201811170297.0A
Authority: CN
Inventors: 李科心; 李静; 沈力; 杜红军; 刘树吉; 陈硕; 乔林
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2020-04-03

Abstract

本发明公开了一种新颖的、面向多维数据的改进隔离森林异常值检测算法。利用该算法对于异常值检识别问题，我们只需要通过对原始数据集进行随机采样生成若干个子数据集，然后在每个子数据集上建立隔离树，从而不需要大量的计算和比较。以往的异常值检测需要大量计算每个数据对象之间的距离，此过程非常消耗时间，本发明在检测异常值的时候，并不需要大量的计算和比较，只需要进行隔离树的构建，然后根据建立的适应度函数利用遗传算法将检测准确度高、差异性大的隔离树选择出来，进而生成隔离森林，实现异常值的识别。本发明实现了异常值的精确检测，提高了检测的稳定性，减少了计算消耗和内存占用。

Description

一种基于隔离森林的海量数据异常值检测算法

技术领域

本发明了一种基于遗传算法的隔离森林算法的异常值检测方法。基于spark平台，通过遗传算法将检测精度高、差异性较大的隔离树选择出来，进而构成隔离森立，然后对异常值进行检测。

背景技术

异常是在数据集中与众不同的数据，使人怀疑这些数据并非随机偏差，而是产生于完全不同的机制。聚类算法对异常的定义：异常是聚类嵌于其中的背景噪声。异常检测算法对异常的定义：异常是既不属于聚类也不属于背景噪声的点。它的行为与正常的行为有显著的不同。目前针对异常值的检测可大致分为：基于距离、基于密度、基于统计、基于聚类等。

基于距离的方法：该方法不依赖于统计检验，通常可以在对象之间定义邻近性度量，异常对象是那些远离大部分其他对象的对象。常用的距离是绝对距离(曼哈顿)和欧式距离等，一般情况下，在低维空间用距离来度量效果较好，但在高维空间中效果并不好。如果将低维空间中基于距离问题的解决方法推广到高维空间，将会因为难以预料的纬度灾难问题。

基于密度的方法：从基于密度的观点来看，离群点是在低密度区域中的对象，基于密度的离群点检测与基于邻近度的离群点检测密切相关，因为密度通常用邻近度定义。常用的定义密度的方法是，定义密度为到K个最近邻的平均距离的倒数，如果该距离小，则密度高，反之亦然。

基于统计的方法：以数据的分布为基础来检测异常值，假定已知数据满足一个已有的概率模型或者概率分布，接着按照数据点与假定的分布中的点是否一致来检测异常值。但是由于实际中的数据很难准确地得到其概率分布，因为这种方法在应用上有较大的局限性。

基于聚类的方法：对于一个数据集来说，某个数据点或属于某个簇或是一个异常点，异常检测的目标是检测一些不属于任何簇或者较小簇的数据点。该方法受到聚类结果的影响较大，如果聚类簇的结果较差，相应地异常值的检测质量也不好。

这些方法都是基于大量的计算法或比较从而进行异常值的检测，相比于这些传统的异常值检测方法，隔离森林算法不需要进行大量的计算能够减少计算开销和内存的额外占用。该方法利用原始数据集构建多棵二叉树，并认为离根节点近(路径短)的叶子节点对应的数据为异常数据，而离根节点远(路径长)的叶子结点对应的数据为正常数据。该算法有别于传统的异常值检测算法，它不基于距离和密度，因此能够节省大量的计算时间，只需进行二叉树的构建即可。该方法不仅能够检测低维的数据并且对高维数据也具有较好的检测效果。但是该方法会面临一个问题，对原始数据进行随机采样来构建二叉树会导致检测精度和稳定性降低。对比其他异常值检测算法，隔离森林算法不使用距离和密度的概念进行异常值的检测，从而可以减少大量的计算开销。隔离森林算法不仅能够处理低维数据，对高维数据也具有较好的检测效果。虽然隔离森林对于异常值的检测具有较好的性能，但是该算法也存在如下不足：

(1)对于需要构建隔离树的过程是通过对原始数据集随机采样得到的，随着树的数目的增多，隔离树树的差异性逐渐减小，这会导致内存的浪费和不必要的计算开销。

(2)为了提高异常值检测的精度，需要构建足够数量的隔离树，但是随着隔离树的增多，会出现一些检测精度不高，甚至不能检测异常值的隔离树。

(3)由于隔离树的构建过程是通过对原始数据集进行采样得到，在进行异常值检测的时候，每次的检测结果可能差异较大，算法的稳定性不高。

(4)对于海量数据的异常值检测问题，通过随机采样可能每次采集到的数据都是正常数据，导致隔离树对异常值的检测效果不好。

针对以上问题，本发明了一种基于隔离森林的海量数据异常值检测算法。该算法在原有算法的基础之上，使用遗传算法对所构建的树进行选择，选择出检测精度高和相异程度大的树进行隔离森林的构建，从而减少不必要隔离树的生成，减少不必要的计算和内存消耗，以此来提高异常值检测的精度和稳定性。

发明内容

本发明的目的在于提高异常值的检测精度和稳定性、减少测试过程中大量的计算任务以及不必要的内存占用。通过遗传算法将检测精度高、差异性大的隔离树选择出来，进而构成隔离森林，实现对异常值的检测，主要内容包括：

i.异常值检测的训练过程

1)隔离树的建立。对原始数据集进行随机采样，采集指定大小的子数据集，对于采集得到的子数据集进行隔离树的生成。隔离树采用二叉树的形式，首先随机选择一个维度，在当前节点数据中随机产生一个介于当前节点指定数据中最大值和最小值之间的切割值，按照左孩子节点小于根节点，右孩子节点大于根节点的规则将子数据集生成一棵隔离树。反复对原始数据集进行采样，生成多棵隔离树。

2)建立异常值得分计算标准。在建立完成隔离树的基础上，计算指定数据在每棵隔离树上的路径长度，然后计算平均路径长度，再利用归一化因子，对路径长度进行归一化，进而得到异常值分数。

ii.遗传算法的选择过程。

利用测试数据，对每棵树进行测试，得到每棵树的检测精度和不同树之间的差异性，通过建立的适应度函数，选择出检测精度高、差异性大的隔离树，进行隔离森林的生成。

iii.异常值检测的预测过程。

经过遗传算法的选择之后，所建立的隔离森林是最优的。将待测数据在隔离森林中进行测试，计算异常值得分，根据异常值得分判断待测数据是否为异常值。

附图说明

图1为本发明提出的算法总体框架图；

图2为基于遗传算法的隔离森林算法流程图；

图3为遗传算法对构建的隔离树进行选择的流程图；

图4为异常值检测精度对比图；

图5为在不同数据集上检测精度的对比；

图6为算法稳定性对比图；

具体实施方式

以下结合附图和具体实例对本发明做具体的介绍。

本发明采用公开数据集annthyroid、arrhythmia、breastw、forestcover、pendigits、mammography、mulcross作为测试数据。首先对数据集进行随机采样得到子样本，在不同的子样上建立隔离树，然后利用遗传算法根据检测精度和产异性对隔离树进行选择，从而建立隔离森林。最后对待测数据进行异常值的检测，根据异常值得分判断待测数据是否为异常值。本发明的总体框图如图1所示，实施过程如下：

总体步骤为：

Step 1：设置树的最大高度，对树进行初始化；

Step 2：通过对原始数据集采样建立第一棵树；

Step 3：重复第二步再建立M-1棵树；

Step 4：给出训练集，通过定义的指标对上述建立好的M棵树，分别计算准确度和树的相异度；

Step 5：基于每棵树的准确度和不同树之间的相异度，通过遗传算法从M棵树中选择最优的n棵树；

Step 6：利用最优的n棵隔离建立隔离森林(Isolation Forest)，对于待测试数据x，计算其在每棵隔离的路径长度h(x)和基于所给样本建立的隔离的平均路径长度c(N)，然后就算异常值得分。

其中Step 5包括如下步骤：

Step 5.1：在整个搜索空间M上定义适应度函数，给定种群规模M，交叉概率Pc，变异概率Pm；

Step 5.2：对于每棵隔离的进行编码，生成初始种群S₀；

Step 5.3：根据适应度函数计算每棵隔离的适应度f；

Step 5.4：按照适应度越高，选择概率越大的原则，对初始种群进行选择得到父代；

Step 5.5：对选择得到的个体基于交叉概率Pc进行基因的交叉得到子代；

Step 5.6：对子代基于变异概率Pm进行变异操作；

Step 5.7：重复步骤5.3-5.6直到得到新的种群，即最优的n棵隔离树。

具体步骤如下：

步骤1：隔离树的建立

通过对原始数据集进行随机采样得到若干个子数据集，在每个子数据集上面，建立隔离树，隔离树的建立过程和二叉树的建立过程相同。首先随机选择一个子数据集，将该数据集上的数据都放在根节点，然后随机指定一个维度(attribute)，在当前节点数据中随机产生一个切割点p(切割点产生于当前节点数据中指定维度的最大值和最小值之间)，接下来以此切割点生成了一个超平面，然后将当前节点数据空间划分为2个子空间：把指定维度里小于p的数据放在当前节点的左孩子，把大于等于p的数据放在当前节点的右孩子，最后在孩子节点不断重复上述过程，直到孩子节点中只有一个数据(无法再继续切割)或孩子节点已到达限定高度。

步骤2：异常值得分计算法方式

在给定采样大小为ψ的数据集，所建立的隔离树的平均长度为：

其中，H(i)是谐波函数，可以由ln(i)+0.5772156649(欧拉常数)计算得到。得到了归一化因子之后，我们对路径长度h(x)进行归一化，然后计算数据x的异常值得分，异常值得分如下：

其中E(h(x))表示数据x在不同隔离树中路径长度的平均值。

步骤3：遗传算法选择过程

首先，对于所构建不同隔离树之间的相似程度通过向量空间余弦相似度来衡量，目的是要找到相异度较大的隔离树，利用这些隔离来构建隔离森林。根据给出的原始数据通过随机采样的方式建立M棵隔离(T₁，T₂，…，T_M)作为初始化搜索空间，给出训练数据集D_train＝{d₁，d₂，…，d_n}，对于每个训练样本d_i，1≤i≤n，如果T_i，1≤i≤M能够正确检测出异常值，记r_i＝1，1≤i≤n，否则为0。即：

对于每一棵隔离构建结果向量V_i＝{r₁，r₂，…，r_n}，1≤i≤M。定义每棵树的准确度为：

两棵树T_i和T_j之间的相似度为：

上式中·表示向量的内积，×表示普通乘法，

表示向量

的长度。从而构建M棵隔离的相似性系数矩阵：

Diff表示不同树之间相似性系数矩阵，由线性代数知识可以知道，如果两棵树的相似性越低，则cosθ_ij的值越接近-1；相似性越高则cosθ_ij的值越接近1。并且cosθ_ij的值随着相似性的增大而增大，在极限情况下，两棵树完全相同时cosθ_ij的值为1，两棵树完全不同时cosθ_ij的值为-1。

然后，利用测试集计算每棵隔离的精确度和不同树之间的相异度。首先将原始的训练集划分为P个大小相同的子数据集，采用交叉验证的方式每次将P-1个子数据集作为训练集，剩余的一个作为训练集，进而求解出不同树检测的精确度和它们之间的相异度。

最后，根据隔离的精确度和不同隔离之间的相异度构造适应度函数，再基于遗传算法选择出那些精确度高和相异度大的隔离树。适应度函数如下：

上式中f(T_i)表示T_i的适应度函数，cosθ_ij表示T_i和T_j的相异度，a_j表示T_j的准确度，w₁和w₂表示相异度和精确度相对应的权重。

根据以上定义的检测精度和差异性对构建的M棵树进行选择，具体步骤为：

1、个体编码：对每棵树的检测精度和差异性进行编码，检测精度采用二进制编码方式，长度为

差异性采用浮点数编码方式，随机选择一个[-1，1]之间的数字。

2、初始种群的产生：作为一种模拟生物进化的算法，在解决优化问题时，需要产生一定数量的起始搜索点作为初始种群。本算法中产生大小为n的种群，每个个体的编码格式为(011011...1，0.52)其中第一维是检测精度编码，长度为

第二维是差异性编码，一个介于-1至1之间的浮点数。

3、适应度计算：根据适应度函数计算个体适应度，适应度大小决定每个个体的优劣程度，进而决定遗传机会的大小。

4、选择运算：按照适应度高的个体遗传到下一代的概率大的原则进行选择，具体过程为：(1)先计算出群体中所有个体的适应度总和

(2)然后计算出每个个体的相对适

选择个体1，否则选择个体k，使得q_k-1＜f≤q_k成立；(6)重复(4)和(5)n次；

5、交叉：依照概率Pc交换某两个个体之间的部分编码，本文采用单点交叉方式，如个体T₁＝(011010...1，0.42)和个体T₂＝(101010...1，0.42)在位置1上交叉，交叉之后变为T₁′＝(111010...1，0.42)和T₂＝(001010...1，0.42)或者是将第二维小数交换。

6、变异：依照概率Pm对个体某一位置上的编码进行改变，如对个体T₁＝(111010...1，0.42)的第一维的第四个位置上进行变异，变异之后变为T₁′＝(111110...1，0.42)。

步骤4：异常值预测过程

利用遗传算法选择出的隔离树，建立隔离森林，然后计算每个数据在隔离森林中的路径长度，再通过归一化因子对路径长度进行归一化，最后进行数据对象异常值得分的计算。根据所有的计算结果进行判断，如果所有数据点的异常值得分都接近0.5，则说明整个数据集没有明显的异常值；如果某些说据点的异常值得分接近于1，则说明这些数据点为异常值；如果数据点的异常值得分接近于0，则说明该数据为正常数据。

Claims

1.基于隔离森林的改进异常值检测算法，其特征在于：

1)基于spark平台，采用spark-yarn分布式模式运行；

2)定义了检测准确度和差异性；

3)定义了适应度函数，添加了遗传算法的选择过程；

4)对构建隔离森林的过程利用遗传算法进行了优化。

2.如权利要求1所述的基于spark平台的改进电网大数据异常值检测算法，其特征在于利用spark平台，采用spark-yarn分布式模式进行测试，对于构建完成隔离树生成隔离森立的过程添加了选择过程。通过定义的检测精度、隔离树的差异性和适应度函数，利用遗传算法对隔离树进行选择，然后将选中的隔离树生成隔离森林。相比于其他的异常值检测算法，该算法能够减少不必要的内存占用和大量的计算消耗，提高了检测精度，节约了内存占用和计算开销。

3.如权利要求1所述的基于spark平台的改进电网大数据异常值检测算法，其特征在于定义每棵隔离树的检测精度和差异性。根据给出的原始数据通过随机采样的方式建立M棵隔离(T₁，T₂，…，T_M)作为初始化搜索空间，给出训练数据集D_train＝{d₁，d₂，…，d_n}，对于每个训练样本d_i，1≤i≤n，如果T_i，1≤i≤M能够正确检测出异常值，记r_i＝1，1≤i≤n，否则为0。即：