CN112905583A

CN112905583A - 一种高维大数据离群点检测方法

Info

Publication number: CN112905583A
Application number: CN202110354524.0A
Authority: CN
Inventors: 郭鹏飞; 李鑫
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2021-06-04

Abstract

本发明公开了一种高维大数据离群点检测方法，属于离群点检测技术领域。该方法首先利用主成分分析法对输入的高维大数据进行降维处理，解决了孤立森林算法不适用于高维数据的问题，然后对降维后的数据用iForest算法进行异常值检测，具体地是对降维后的数据用基于k‑means的iForest算法进行异常值检测。与孤立森林原始方法中只考虑的两个分支相比，基于k‑means算法的孤立森林算法可以基于许多分支来构建搜索树，k‑means聚类算法用于预测每个决策树节点上的划分数量，缩短了搜索树的高度。

Description

一种高维大数据离群点检测方法

技术领域

本发明涉及离群点检测方法，具体涉及一种高维大数据离群点检测方法。

背景技术

随着数据挖掘技术的飞速发展，人们越来越关注数据的整体趋势以及与趋势明显偏离的数据点，通常这些离群的数据点包含着比整体趋势更加重要的信息。对离群点的研究是为了能够有效地识别大数据中的异常数据，进而挖掘出数据集中的重要潜在信息。当异常值被识别出时，数据分析人员将对离群点进行分析和异常挖掘。这种思路可以应用到很多场景中，例如对违法行为的监测、工业生产中的不良产品检测以及股票市场异常交易等等。

而当前针对离群点检测的方法主要是传统的低维离散点检测方法和高维大数据离散点检测方法。常规的异常检测方法通常依赖于索引结构或网格划分，并且通常仅适用于维数较小的数据。对于低维数据而言，最简单有效的检测算法便是iForest(IsolationForest，孤立森林)算法。随着数据维数的增加，常规异常检测算法的性能也会迅速下降。目前学术研究中对异常有许多的定义。IForest算法适用于连续数据检测，并且异常点通常被描述为“易于区分的无关值”，可以将其理解为很少分布且远离高密度组的点。iForest是一种基于集成学习的快速异常检测方法。它具有线性时间复杂度和高精度的特点，可满足大数据处理要求。但是在高维空间中，数据稀疏，并且数据点几乎等距。从密度或距离的角度来看，每个点都可以看作是一个离群值，并且几乎不可能对高维数据进行聚类。iForest算法由于每次切数据空间都是随机选取一个维度和该维度的随机一个特征，建完树后仍然有大量的维度没有被使用，导致算法可靠性降低，因此不适用于特别高维的数据。

发明内容

针对现有技术存在的问题，本发明提供一种高维大数据离群点检测方法，首先采用主成分分析法对高维数据进行降维处理，然后采用改进的iForest算法对异常点进行检测，旨在解决传统iForest算法不能应用于高维大数据离群点检测的问题。

本发明的技术方案是：

一种高维大数据离群点检测方法，包括如下步骤：

步骤1：利用主成分分析法对输入的高维大数据进行降维处理；

步骤2：对降维后的数据用iForest算法进行异常值检测。

进一步地，根据所述的高维大数据离群点检测方法，步骤1所述的利用主成分分析法对输入的高维大数据进行降维处理，包括如下内容：首先分别求解大数据样本点各属性的属性值的平均值，使各属性的每一属性值减去对应的平均值。然后将每个属性值作为变量，根据各属性值与对应的平均值的差值，求解属性的协方差矩阵；再然后通过协方差矩阵求解特征值和特征向量；又然后将特征值按照从大到小的顺序排序，选择其中最大的k个，最后将其对应的k个特征向量分别作为列向量组成特征向量矩阵，并将样本点投影到选取的k个特征向量上。

进一步地，根据所述的高维大数据离群点检测方法，所述步骤2为对降维后的数据用基于k-means的iForest算法进行异常值检测。

进一步地，根据所述的高维大数据离群点检测方法，所述步骤2包括如下步骤：

步骤2.1：从降维处理后得到的一组连续性数据组成的训练集中随机选择多个样本数据点作为子采样集，将该子采样集作为iTree的根节点；

步骤2.2：从当前子采样集中随机选择一个维度，维度的值构成一个集合，利用k-means聚类算法将该集合的最大值和最小值之间的数值分为多个簇，每个簇作为一个子节点；

步骤2.3：对步骤2.2得到的子节点随机选择一个其他维度，再利用k-means聚类算法将每个子节点的最大值和最小值之间的数值分为多个簇，每个簇作为一个新的子节点；

步骤2.4：按照步骤2.2和2.3的方法，重复执行步骤2.3，不断构造新的子节点，直至满足停止条件；

步骤2.5：重复执行步骤2.1至2.4，直至iTree的数量达到指定数量，由这些iTree组成一个iForest；

步骤2.6：通过遍历iForest，对任一查询数据x进行评分，并根据查询数据x的得分进行异常值检测；

通过对iForest中iTree的遍历，获得对象x在不同聚类中的得分值：

其中，d(x,c_q)表示对象x到聚类中心c_q的距离；d(c_l,c_q)代表聚类半径；c_l代表距离聚类中心c_q最远的对象；s被视为对象x在聚类中的得分；

对象x的最终得分是其在不同聚类中的得分值的总和除以iTree个数，即：

其中，s_j(x)为对象x在第j聚类中的得分；N为iForest中iTree的数量；M为iForest中聚类的数量。

进一步地，根据所述的高维大数据离群点检测方法，步骤2.4中所述的停止条件为下列条件之一：

①D中只剩下一个数据点或者多个相同的数据点；

②iTree的高度达到限定高度。

与现有技术相比较，本发明具有如下有益效果：

用主成分分析的方法将高维数据进行降维处理解决了孤立森林算法不适用于高维数据的问题，然后对孤立森林算法进行改进，与孤立森林原始方法中只考虑的两个分支相比，基于k-means算法的孤立森林算法可以基于许多分支来构建搜索树，缩短了搜索树的高度，k-means聚类用于预测每个决策树节点上的划分数量。

附图说明

图1为本发明高维大数据离群点检测方法流程图；

图2为本发明方法步骤1的流程图；

图3为本发明方法步骤2的流程图。

具体实施方式

为了便于理解本申请，下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是，本申请可以以许多不同的形式来实现，并不限于本文所描述的实施方式。相反地，提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。

图1是本发明高维大数据离群点检测方法的流程图，所述高维大数据离群点检测方法，包括如下步骤：

步骤1：利用主成分分析(Principal Component Analysis，PCA)法对输入的高维大数据进行降维处理。

大数据表示对象，将一个对象的一个属性所取的不同值称为属性值。在该步骤中，如图2所示，首先分别求解大数据样本点各属性的属性值的平均值，使各属性的每一属性值减去对应的平均值。然后将每个属性值作为变量，根据各属性值与对应的平均值的差值，求解属性的协方差矩阵；再然后通过协方差矩阵求解特征值和特征向量；又然后将特征值按照从大到小的顺序排序，选择其中最大的k个，最后将其对应的k个特征向量分别作为列向量组成特征向量矩阵，并将样本点投影到选取的k个特征向量上，这样，就将原始样例高维大数据的n维特征降低到k维特征，完成了降维处理。

步骤2：对约简后的数据用基于k-means(k-means clustering algorithm，k均值聚类算法)的iForest算法进行异常值检测。如图3所示，步骤2进一步包括如下所述的步骤2.1至步骤2.6。

步骤2.1：从步骤1降维处理后得到的一组连续性数据组成的训练集中随机选择m个样本数据点作为子采样集D＝{d₁,d₂,…,d_m}，数据点的维度为k，并将子采样集D作为iTree的根节点。

步骤2.2：从当前子采样集D中随机选择一个维度A，维度A的值构成集合X，利用k-means聚类算法将集合X的最大值和最小值之间的间隔分为多个簇，每个簇作为一个子节点，并使用肘部法则(Elbow Method)确定最佳簇数数量。

步骤2.3：对步骤2.2得到的子节点随机选择一个维度B，再利用k-means聚类算法将每个子节点的最大值和最小值之间的间隔分为多个簇，每个簇作为一个新的子节点。

步骤2.4：按照步骤2.2和2.3的方法，不断构造新的子节点，直至满足下列条件之一：

①D中只剩下一个数据点或者多个相同的数据点，无法进一步划分；

②iTree的高度达到限定高度，假设限定高度为log₂m。

步骤2.5：重复执行步骤2.1至2.4，直至iTree的数量达到指定数量N,由这些iTree组成一个iForest。

步骤2.6：通过遍历iForest，对任一查询数据x进行评分，得分越大说明其为异常值的可能性就越高，从而实现异常值检测；

对象x的最终得分是其在M个不同聚类中的得分值的总和除以iTree个数，即：

其中，s_j(x)为对象x在第j聚类中的得分。

应当理解的是，本领域技术人员在本发明技术构思的启发下，在不脱离本发明内容的基础上，可以根据上述说明做出各种改进或变换，这仍落在本发明的保护范围之内。

Claims

1.一种高维大数据离群点检测方法，其特征在于，包括：

步骤2：对降维后的数据用iForest算法进行异常值检测。

2.根据权利要求1所述的高维大数据离群点检测方法，其特征在于，步骤1所述的利用主成分分析法对输入的高维大数据进行降维处理，包括如下内容：首先分别求解大数据样本点各属性的属性值的平均值，使各属性的每一属性值减去对应的平均值；然后将每个属性值作为变量，根据各属性值与对应的平均值的差值，求解属性的协方差矩阵；再然后通过协方差矩阵求解特征值和特征向量；又然后将特征值按照从大到小的顺序排序，选择其中最大的k个，最后将其对应的k个特征向量分别作为列向量组成特征向量矩阵，并将样本点投影到选取的k个特征向量上。

3.根据权利要求1或2所述的高维大数据离群点检测方法，其特征在于，所述步骤2为对降维后的数据用基于k-means的iForest算法进行异常值检测。

4.根据权利要求3所述的高维大数据离群点检测方法，其特征在于，所述步骤2包括如下步骤：

其中，s_j(x)为对象x在第j聚类中的得分；N为iForest中iTree的数量；M为iTree中聚类的数量。

5.根据权利要求4所述的高维大数据离群点检测方法，其特征在于，步骤2.4中所述的停止条件为下列条件之一：

①D中只剩下一个数据点或者多个相同的数据点；

②iTree的高度达到限定高度。