CN112905583A - 一种高维大数据离群点检测方法 - Google Patents

一种高维大数据离群点检测方法 Download PDF

Info

Publication number
CN112905583A
CN112905583A CN202110354524.0A CN202110354524A CN112905583A CN 112905583 A CN112905583 A CN 112905583A CN 202110354524 A CN202110354524 A CN 202110354524A CN 112905583 A CN112905583 A CN 112905583A
Authority
CN
China
Prior art keywords
data
value
iforest
big data
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110354524.0A
Other languages
English (en)
Inventor
郭鹏飞
李鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Technical University
Original Assignee
Liaoning Technical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Technical University filed Critical Liaoning Technical University
Priority to CN202110354524.0A priority Critical patent/CN112905583A/zh
Publication of CN112905583A publication Critical patent/CN112905583A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种高维大数据离群点检测方法,属于离群点检测技术领域。该方法首先利用主成分分析法对输入的高维大数据进行降维处理,解决了孤立森林算法不适用于高维数据的问题,然后对降维后的数据用iForest算法进行异常值检测,具体地是对降维后的数据用基于k‑means的iForest算法进行异常值检测。与孤立森林原始方法中只考虑的两个分支相比,基于k‑means算法的孤立森林算法可以基于许多分支来构建搜索树,k‑means聚类算法用于预测每个决策树节点上的划分数量,缩短了搜索树的高度。

Description

一种高维大数据离群点检测方法
技术领域
本发明涉及离群点检测方法,具体涉及一种高维大数据离群点检测方法。
背景技术
随着数据挖掘技术的飞速发展,人们越来越关注数据的整体趋势以及与趋势明显偏离的数据点,通常这些离群的数据点包含着比整体趋势更加重要的信息。对离群点的研究是为了能够有效地识别大数据中的异常数据,进而挖掘出数据集中的重要潜在信息。当异常值被识别出时,数据分析人员将对离群点进行分析和异常挖掘。这种思路可以应用到很多场景中,例如对违法行为的监测、工业生产中的不良产品检测以及股票市场异常交易等等。
而当前针对离群点检测的方法主要是传统的低维离散点检测方法和高维大数据离散点检测方法。常规的异常检测方法通常依赖于索引结构或网格划分,并且通常仅适用于维数较小的数据。对于低维数据而言,最简单有效的检测算法便是iForest(IsolationForest,孤立森林)算法。随着数据维数的增加,常规异常检测算法的性能也会迅速下降。目前学术研究中对异常有许多的定义。IForest算法适用于连续数据检测,并且异常点通常被描述为“易于区分的无关值”,可以将其理解为很少分布且远离高密度组的点。iForest是一种基于集成学习的快速异常检测方法。它具有线性时间复杂度和高精度的特点,可满足大数据处理要求。但是在高维空间中,数据稀疏,并且数据点几乎等距。从密度或距离的角度来看,每个点都可以看作是一个离群值,并且几乎不可能对高维数据进行聚类。iForest算法由于每次切数据空间都是随机选取一个维度和该维度的随机一个特征,建完树后仍然有大量的维度没有被使用,导致算法可靠性降低,因此不适用于特别高维的数据。
发明内容
针对现有技术存在的问题,本发明提供一种高维大数据离群点检测方法,首先采用主成分分析法对高维数据进行降维处理,然后采用改进的iForest算法对异常点进行检测,旨在解决传统iForest算法不能应用于高维大数据离群点检测的问题。
本发明的技术方案是:
一种高维大数据离群点检测方法,包括如下步骤:
步骤1:利用主成分分析法对输入的高维大数据进行降维处理;
步骤2:对降维后的数据用iForest算法进行异常值检测。
进一步地,根据所述的高维大数据离群点检测方法,步骤1所述的利用主成分分析法对输入的高维大数据进行降维处理,包括如下内容:首先分别求解大数据样本点各属性的属性值的平均值,使各属性的每一属性值减去对应的平均值。然后将每个属性值作为变量,根据各属性值与对应的平均值的差值,求解属性的协方差矩阵;再然后通过协方差矩阵求解特征值和特征向量;又然后将特征值按照从大到小的顺序排序,选择其中最大的k个,最后将其对应的k个特征向量分别作为列向量组成特征向量矩阵,并将样本点投影到选取的k个特征向量上。
进一步地,根据所述的高维大数据离群点检测方法,所述步骤2为对降维后的数据用基于k-means的iForest算法进行异常值检测。
进一步地,根据所述的高维大数据离群点检测方法,所述步骤2包括如下步骤:
步骤2.1:从降维处理后得到的一组连续性数据组成的训练集中随机选择多个样本数据点作为子采样集,将该子采样集作为iTree的根节点;
步骤2.2:从当前子采样集中随机选择一个维度,维度的值构成一个集合,利用k-means聚类算法将该集合的最大值和最小值之间的数值分为多个簇,每个簇作为一个子节点;
步骤2.3:对步骤2.2得到的子节点随机选择一个其他维度,再利用k-means聚类算法将每个子节点的最大值和最小值之间的数值分为多个簇,每个簇作为一个新的子节点;
步骤2.4:按照步骤2.2和2.3的方法,重复执行步骤2.3,不断构造新的子节点,直至满足停止条件;
步骤2.5:重复执行步骤2.1至2.4,直至iTree的数量达到指定数量,由这些iTree组成一个iForest;
步骤2.6:通过遍历iForest,对任一查询数据x进行评分,并根据查询数据x的得分进行异常值检测;
通过对iForest中iTree的遍历,获得对象x在不同聚类中的得分值:
Figure BDA0003003204360000021
其中,d(x,cq)表示对象x到聚类中心cq的距离;d(cl,cq)代表聚类半径;cl代表距离聚类中心cq最远的对象;s被视为对象x在聚类中的得分;
对象x的最终得分是其在不同聚类中的得分值的总和除以iTree个数,即:
Figure BDA0003003204360000022
其中,sj(x)为对象x在第j聚类中的得分;N为iForest中iTree的数量;M为iForest中聚类的数量。
进一步地,根据所述的高维大数据离群点检测方法,步骤2.4中所述的停止条件为下列条件之一:
①D中只剩下一个数据点或者多个相同的数据点;
②iTree的高度达到限定高度。
与现有技术相比较,本发明具有如下有益效果:
用主成分分析的方法将高维数据进行降维处理解决了孤立森林算法不适用于高维数据的问题,然后对孤立森林算法进行改进,与孤立森林原始方法中只考虑的两个分支相比,基于k-means算法的孤立森林算法可以基于许多分支来构建搜索树,缩短了搜索树的高度,k-means聚类用于预测每个决策树节点上的划分数量。
附图说明
图1为本发明高维大数据离群点检测方法流程图;
图2为本发明方法步骤1的流程图;
图3为本发明方法步骤2的流程图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。
图1是本发明高维大数据离群点检测方法的流程图,所述高维大数据离群点检测方法,包括如下步骤:
步骤1:利用主成分分析(Principal Component Analysis,PCA)法对输入的高维大数据进行降维处理。
大数据表示对象,将一个对象的一个属性所取的不同值称为属性值。在该步骤中,如图2所示,首先分别求解大数据样本点各属性的属性值的平均值,使各属性的每一属性值减去对应的平均值。然后将每个属性值作为变量,根据各属性值与对应的平均值的差值,求解属性的协方差矩阵;再然后通过协方差矩阵求解特征值和特征向量;又然后将特征值按照从大到小的顺序排序,选择其中最大的k个,最后将其对应的k个特征向量分别作为列向量组成特征向量矩阵,并将样本点投影到选取的k个特征向量上,这样,就将原始样例高维大数据的n维特征降低到k维特征,完成了降维处理。
步骤2:对约简后的数据用基于k-means(k-means clustering algorithm,k均值聚类算法)的iForest算法进行异常值检测。如图3所示,步骤2进一步包括如下所述的步骤2.1至步骤2.6。
步骤2.1:从步骤1降维处理后得到的一组连续性数据组成的训练集中随机选择m个样本数据点作为子采样集D={d1,d2,…,dm},数据点的维度为k,并将子采样集D作为iTree的根节点。
步骤2.2:从当前子采样集D中随机选择一个维度A,维度A的值构成集合X,利用k-means聚类算法将集合X的最大值和最小值之间的间隔分为多个簇,每个簇作为一个子节点,并使用肘部法则(Elbow Method)确定最佳簇数数量。
步骤2.3:对步骤2.2得到的子节点随机选择一个维度B,再利用k-means聚类算法将每个子节点的最大值和最小值之间的间隔分为多个簇,每个簇作为一个新的子节点。
步骤2.4:按照步骤2.2和2.3的方法,不断构造新的子节点,直至满足下列条件之一:
①D中只剩下一个数据点或者多个相同的数据点,无法进一步划分;
②iTree的高度达到限定高度,假设限定高度为log2m。
步骤2.5:重复执行步骤2.1至2.4,直至iTree的数量达到指定数量N,由这些iTree组成一个iForest。
步骤2.6:通过遍历iForest,对任一查询数据x进行评分,得分越大说明其为异常值的可能性就越高,从而实现异常值检测;
通过对iForest中iTree的遍历,获得对象x在不同聚类中的得分值:
Figure BDA0003003204360000041
其中,d(x,cq)表示对象x到聚类中心cq的距离;d(cl,cq)代表聚类半径;cl代表距离聚类中心cq最远的对象;s被视为对象x在聚类中的得分;
对象x的最终得分是其在M个不同聚类中的得分值的总和除以iTree个数,即:
Figure BDA0003003204360000042
其中,sj(x)为对象x在第j聚类中的得分。
应当理解的是,本领域技术人员在本发明技术构思的启发下,在不脱离本发明内容的基础上,可以根据上述说明做出各种改进或变换,这仍落在本发明的保护范围之内。

Claims (5)

1.一种高维大数据离群点检测方法,其特征在于,包括:
步骤1:利用主成分分析法对输入的高维大数据进行降维处理;
步骤2:对降维后的数据用iForest算法进行异常值检测。
2.根据权利要求1所述的高维大数据离群点检测方法,其特征在于,步骤1所述的利用主成分分析法对输入的高维大数据进行降维处理,包括如下内容:首先分别求解大数据样本点各属性的属性值的平均值,使各属性的每一属性值减去对应的平均值;然后将每个属性值作为变量,根据各属性值与对应的平均值的差值,求解属性的协方差矩阵;再然后通过协方差矩阵求解特征值和特征向量;又然后将特征值按照从大到小的顺序排序,选择其中最大的k个,最后将其对应的k个特征向量分别作为列向量组成特征向量矩阵,并将样本点投影到选取的k个特征向量上。
3.根据权利要求1或2所述的高维大数据离群点检测方法,其特征在于,所述步骤2为对降维后的数据用基于k-means的iForest算法进行异常值检测。
4.根据权利要求3所述的高维大数据离群点检测方法,其特征在于,所述步骤2包括如下步骤:
步骤2.1:从降维处理后得到的一组连续性数据组成的训练集中随机选择多个样本数据点作为子采样集,将该子采样集作为iTree的根节点;
步骤2.2:从当前子采样集中随机选择一个维度,维度的值构成一个集合,利用k-means聚类算法将该集合的最大值和最小值之间的数值分为多个簇,每个簇作为一个子节点;
步骤2.3:对步骤2.2得到的子节点随机选择一个其他维度,再利用k-means聚类算法将每个子节点的最大值和最小值之间的数值分为多个簇,每个簇作为一个新的子节点;
步骤2.4:按照步骤2.2和2.3的方法,重复执行步骤2.3,不断构造新的子节点,直至满足停止条件;
步骤2.5:重复执行步骤2.1至2.4,直至iTree的数量达到指定数量,由这些iTree组成一个iForest;
步骤2.6:通过遍历iForest,对任一查询数据x进行评分,并根据查询数据x的得分进行异常值检测;
通过对iForest中iTree的遍历,获得对象x在不同聚类中的得分值:
Figure FDA0003003204350000011
其中,d(x,cq)表示对象x到聚类中心cq的距离;d(cl,cq)代表聚类半径;cl代表距离聚类中心cq最远的对象;s被视为对象x在聚类中的得分;
对象x的最终得分是其在不同聚类中的得分值的总和除以iTree个数,即:
Figure FDA0003003204350000021
其中,sj(x)为对象x在第j聚类中的得分;N为iForest中iTree的数量;M为iTree中聚类的数量。
5.根据权利要求4所述的高维大数据离群点检测方法,其特征在于,步骤2.4中所述的停止条件为下列条件之一:
①D中只剩下一个数据点或者多个相同的数据点;
②iTree的高度达到限定高度。
CN202110354524.0A 2021-04-01 2021-04-01 一种高维大数据离群点检测方法 Pending CN112905583A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110354524.0A CN112905583A (zh) 2021-04-01 2021-04-01 一种高维大数据离群点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110354524.0A CN112905583A (zh) 2021-04-01 2021-04-01 一种高维大数据离群点检测方法

Publications (1)

Publication Number Publication Date
CN112905583A true CN112905583A (zh) 2021-06-04

Family

ID=76110219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110354524.0A Pending CN112905583A (zh) 2021-04-01 2021-04-01 一种高维大数据离群点检测方法

Country Status (1)

Country Link
CN (1) CN112905583A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113323818A (zh) * 2021-06-10 2021-08-31 北京国电思达科技有限公司 多类型风机的偏航误差测量方法及装置
CN113537321A (zh) * 2021-07-01 2021-10-22 汕头大学 一种基于孤立森林和x均值的网络流量异常检测方法
CN113645098A (zh) * 2021-08-11 2021-11-12 安徽大学 一种无监督的基于增量学习的动态物联网异常检测方法
CN113673623A (zh) * 2021-08-31 2021-11-19 重庆大学 基于改进主成分分析算法的桥梁损伤识别方法
CN117113235A (zh) * 2023-10-20 2023-11-24 深圳市互盟科技股份有限公司 一种云计算数据中心能耗优化方法及***
CN117609929A (zh) * 2024-01-24 2024-02-27 湖南易比特大数据有限公司 基于大数据的工业生产线故障在线诊断方法及***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399748A (zh) * 2018-03-08 2018-08-14 重庆邮电大学 一种基于随机森林与聚类算法的道路旅行时间预测方法
CN109145957A (zh) * 2018-07-26 2019-01-04 国网浙江省电力有限公司温州供电公司 基于大数据的配电网异常指标的识别与处理方法及装置
CN109685653A (zh) * 2019-01-21 2019-04-26 北京工业大学 一种融合深度信念网络和孤立森林算法的信贷风险监测的方法
CN109871886A (zh) * 2019-01-28 2019-06-11 平安科技(深圳)有限公司 基于谱聚类的异常点比例优化方法、装置及计算机设备
CN110046665A (zh) * 2019-04-17 2019-07-23 成都信息工程大学 基于孤立森林二分类异常点检测方法、信息数据处理终端
CN110505179A (zh) * 2018-05-17 2019-11-26 中国科学院声学研究所 一种网络异常流量的检测方法及***
CN110807488A (zh) * 2019-11-01 2020-02-18 北京芯盾时代科技有限公司 一种基于用户对等组的异常检测方法及装置
CN111666169A (zh) * 2020-05-13 2020-09-15 云南电网有限责任公司信息中心 一种基于改进的孤立森林算法和高斯分布的联合数据异常检测方法
CN112199670A (zh) * 2020-09-30 2021-01-08 西安理工大学 一种基于深度学习改进iforest对行为异常检测的日志监控方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399748A (zh) * 2018-03-08 2018-08-14 重庆邮电大学 一种基于随机森林与聚类算法的道路旅行时间预测方法
CN110505179A (zh) * 2018-05-17 2019-11-26 中国科学院声学研究所 一种网络异常流量的检测方法及***
CN109145957A (zh) * 2018-07-26 2019-01-04 国网浙江省电力有限公司温州供电公司 基于大数据的配电网异常指标的识别与处理方法及装置
CN109685653A (zh) * 2019-01-21 2019-04-26 北京工业大学 一种融合深度信念网络和孤立森林算法的信贷风险监测的方法
CN109871886A (zh) * 2019-01-28 2019-06-11 平安科技(深圳)有限公司 基于谱聚类的异常点比例优化方法、装置及计算机设备
CN110046665A (zh) * 2019-04-17 2019-07-23 成都信息工程大学 基于孤立森林二分类异常点检测方法、信息数据处理终端
CN110807488A (zh) * 2019-11-01 2020-02-18 北京芯盾时代科技有限公司 一种基于用户对等组的异常检测方法及装置
CN111666169A (zh) * 2020-05-13 2020-09-15 云南电网有限责任公司信息中心 一种基于改进的孤立森林算法和高斯分布的联合数据异常检测方法
CN112199670A (zh) * 2020-09-30 2021-01-08 西安理工大学 一种基于深度学习改进iforest对行为异常检测的日志监控方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113323818A (zh) * 2021-06-10 2021-08-31 北京国电思达科技有限公司 多类型风机的偏航误差测量方法及装置
CN113323818B (zh) * 2021-06-10 2024-01-19 北京国电思达科技有限公司 多类型风机的偏航误差测量方法及装置
CN113537321A (zh) * 2021-07-01 2021-10-22 汕头大学 一种基于孤立森林和x均值的网络流量异常检测方法
CN113537321B (zh) * 2021-07-01 2023-06-30 汕头大学 一种基于孤立森林和x均值的网络流量异常检测方法
CN113645098A (zh) * 2021-08-11 2021-11-12 安徽大学 一种无监督的基于增量学习的动态物联网异常检测方法
CN113645098B (zh) * 2021-08-11 2022-08-09 安徽大学 一种无监督的基于增量学习的动态物联网异常检测方法
CN113673623A (zh) * 2021-08-31 2021-11-19 重庆大学 基于改进主成分分析算法的桥梁损伤识别方法
CN113673623B (zh) * 2021-08-31 2023-10-20 重庆大学 基于改进主成分分析算法的桥梁损伤识别方法
CN117113235A (zh) * 2023-10-20 2023-11-24 深圳市互盟科技股份有限公司 一种云计算数据中心能耗优化方法及***
CN117113235B (zh) * 2023-10-20 2024-01-26 深圳市互盟科技股份有限公司 一种云计算数据中心能耗优化方法及***
CN117609929A (zh) * 2024-01-24 2024-02-27 湖南易比特大数据有限公司 基于大数据的工业生产线故障在线诊断方法及***
CN117609929B (zh) * 2024-01-24 2024-04-09 湖南易比特大数据有限公司 基于大数据的工业生产线故障在线诊断方法及***

Similar Documents

Publication Publication Date Title
CN112905583A (zh) 一种高维大数据离群点检测方法
Chen et al. KNN-BLOCK DBSCAN: Fast clustering for large-scale data
Uğuz A two-stage feature selection method for text categorization by using information gain, principal component analysis and genetic algorithm
Jing et al. Subspace clustering of text documents with feature weighting k-means algorithm
US10073906B2 (en) Scalable tri-point arbitration and clustering
Benites et al. Haram: a hierarchical aram neural network for large-scale text classification
Mangalampalli et al. Fuzzy association rule mining algorithm for fast and efficient performance on very large datasets
Pardeshi et al. Improved k-medoids clustering based on cluster validity index and object density
CN110598061A (zh) 一种多元图融合的异构信息网嵌入方法
Trebuňa et al. The importance of normalization and standardization in the process of clustering
Ali et al. K-means clustering based on gower similarity coefficient: A comparative study
Genender-Feltheimer Visualizing high dimensional and big data
Fahim Homogeneous densities clustering algorithm
Zhang et al. Data anomaly detection based on isolation forest algorithm
US11048730B2 (en) Data clustering apparatus and method based on range query using CF tree
Yang et al. IF-MCA: Importance factor-based multiple correspondence analysis for multimedia data analytics
CN112270338A (zh) 一种电力负荷曲线聚类方法
CN111914930A (zh) 一种基于自适应微簇融合的密度峰值聚类方法
Kadhim et al. Combined chi-square with k-means for document clustering
Chen et al. Research on optimized R-tree high-dimensional indexing method based on video features
Ferreira et al. Combining multiple views from a distance based feature extraction for text classification
Malpe et al. Machine LearningTrends in Medical Sciences
Jiang et al. A hybrid clustering algorithm
CN112215297A (zh) 基于因子分析的生产制造数据分层聚类方法
CN111488903A (zh) 基于特征权重的决策树特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination