CN110377798B - 基于角度熵的离群点检测方法 - Google Patents

基于角度熵的离群点检测方法 Download PDF

Info

Publication number
CN110377798B
CN110377798B CN201910504607.6A CN201910504607A CN110377798B CN 110377798 B CN110377798 B CN 110377798B CN 201910504607 A CN201910504607 A CN 201910504607A CN 110377798 B CN110377798 B CN 110377798B
Authority
CN
China
Prior art keywords
angle
data
entropy
value
outlier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910504607.6A
Other languages
English (en)
Other versions
CN110377798A (zh
Inventor
何建军
文青勇
汪泽睿
裴雨听
齐文琴
郝思宇
何广平
廖敏
王艺蓉
王丽萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Univeristy of Technology
Original Assignee
Chengdu Univeristy of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Univeristy of Technology filed Critical Chengdu Univeristy of Technology
Priority to CN201910504607.6A priority Critical patent/CN110377798B/zh
Publication of CN110377798A publication Critical patent/CN110377798A/zh
Application granted granted Critical
Publication of CN110377798B publication Critical patent/CN110377798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于角度熵的离群点检测方法,本发明首先求取每一个数据点与其他任意两个不同数据点的夹角余弦值,其次根据每一个数据的夹角余弦值求取角度熵作为该数据的离群因子,再次利用角度熵的差值来获得阈值,最后根据离群因子与阈值进行对比,来判断离群因子对应的数据点是否为离群点。该方法利用不同数据构成的角度分布求取角度熵以解决数据集在高维情况下检测离群点的问题,提出了角度熵为基础进行高维数据集中离群点的检测。在处理多维数据集,尤其是高维数据集中离群点的判断准确性明显优于传统算法。

Description

基于角度熵的离群点检测方法
技术领域
本发明涉及一种离群点检测的方法,尤其涉及一种基于角度熵的离群点检测方法。
背景技术
随着互联网的广泛应用,人们生活中产生了大量的信息资源,如何从大量的信息中挖掘出有用的信息或舍弃无用的信息是一个重要的研究方向。离群点检测是数据挖掘技术中的一个分支。离群点检测的目的是将某个对象或者某几个对象从大部分相似对象中分离出来,使新的数据在之后的运用上拥有更好的表现。正常数据一般表现出一定程度上的相似性,正常对象都是聚集在一起,离群对象通常偏离于正常对象,且离群点的数量越小于正常点数量。
现有的离群点检测方法主要是:基于统计的、基于深度的、基于聚类的、基于密度的、基于距离的方法。局部离群因子算法(简称LOF)是一种基于密度的方法,其目的是为每一个数据对象计算局部离群系数,局部离群系数是数据集中所有对象的局部可达密度与单个数据对象的局部可达密度的比值,LOF值越大,越有可能是离群点,LOF值较小有可能是边界点,LOF的值比1小很多就是聚类簇内的点。因此,通过阈值的设定可以判断一个数据对象是否为离群点。但这些传统离群点检测高维数据时存在着检测结果不准确的问题。
本发明是基于角度方差的离群点检测方法,是计算每个数据对象与任意其他两个不同的数据对象的夹角余弦值,若一个数据对象所形成的夹角余弦值的方差较小,则说明该数据对象的夹角余弦值的变化较小,判断为离群点的可能性越大。结合LOF算法局部离群因子和计算每个数据对象的角度方差以及熵的概念,提出角度熵运用于离群点的检测。
发明内容
本发明的目的就在于提供一种解决上述问题,解决数据高维情况下离群点检测的问题,改善传统离群点检测高维数据时不准确的问题,提出了以角度熵为基础来解决高维数据离群点检测不准确的问题的基于角度熵的离群点检测方法。
为了实现上述目的,本发明采用的技术方案是这样的:一种基于角度熵的离群点检测方法,包括以下步骤:
(1)获取一数据集
Figure BDA0002091404960000021
其中R为实数,d为维度,数据点个数为N;
(2)计算一个数据点的角度熵;
(21)在数据集D中任取3个数据点分别为
Figure BDA0002091404960000022
计算
Figure BDA0002091404960000023
Figure BDA0002091404960000024
间的向量差为
Figure BDA0002091404960000025
欧式距离为
Figure BDA0002091404960000026
点积
Figure BDA0002091404960000027
(22)根据下式计算
Figure BDA0002091404960000028
Figure BDA0002091404960000029
构成的夹角余弦值:
Figure BDA00020914049600000210
(23)再根据上式计算
Figure BDA00020914049600000211
与其余任意两个数据点之间的夹角余弦值,夹角余弦值个数为N×(N-1)×(N-2),夹角余弦值的取值范围为[-1,1];
(24)将夹角余弦值的取值范围[-1,1],等份切割为M段,每段的长度为2/M,将所有夹角余弦值按数值对应到M段内,统计每段上对应的夹角余弦值数量nj(0≤nj≤N),得到一组与数据点
Figure BDA0002091404960000031
对应的概率pj=nj/N,式中,j为M段中的第j段,j=1,2,……,M;
(25)根据下式计算数据点
Figure BDA0002091404960000032
的角度熵entA,公式为:
Figure BDA0002091404960000033
(3)根据步骤(2)计算其余所有数据点的角度熵,得到数据集D的角度熵集:enti={ent1,ent2,…,entN};
(4)将角度熵集中的角度熵按升序排序;
(5)比较相邻两个角度熵之间的差值,找到差值最大的两个角度熵,将这两个角度熵的均值作为阈值;
(6)将每个角度熵与阈值比较,小于阈值的角度熵所对应的数据点,即为离群点。
作为优选:所述M的取值为10或20。
与现有技术相比,本发明的优点在于:针对传统离群点检测高维数据时不准确的问题,提出了一种新的基于角度熵概念的离群点检测方法,从而将影响离群系数的主要因素——数据对象之间的距离,变成了次要因素;再结合角度熵的概念来计算阈值,用阈值对数据点进行区分,使得离群点与正常点的界限分明,易于区分。
本发明整体思路是:首先求取每一个数据点与其他任意两个不同数据点的夹角余弦值,其次根据每一个数据的夹角余弦值求取角度熵作为该数据的离群因子,再次、将角度熵排序后根据最大的差值来求阈值,最后将离群因子与阈值进行比较,判断该离群因子对应的数据点是否为离群点。
这里所说的离群因子,实际就是每个数据点对应的角度熵,将角度熵与阈值对比,将所有角度熵分为大于阈值的部分和小于阈值的部分,大于阈值的角度熵所对应的数据点,是正常点,其余为离群点。
本方法相较于传统离群点检测方法的准确率、效率都明显提升,从而可以进行高维数据的离群点检测。
附图说明
图1为离群点与正常点分布示例图;
图2为本发明流程图;
图3为实施例2中N=500,d=25条件下基于角度熵高维检测过程图;
图4为实施例3中N=300,d=25条件下基于角度熵高维检测结果;
图5为实施例3中N=600,d=50条件下基于角度熵高维检测结果。
具体实施方式
下面将结合附图对本发明作进一步说明。
实施例1:参见图1,图1展示了一个离群点与正常点分布示例图,该图中,数据点个数为100,其中离群点个数为10,维度是二维。图中空心圆为离群点,我们将α视为离群点形成的角度,其角度余弦值的大小较集中,而右侧在簇内的为正常点,β视为簇内正常点形成的角度,其角度余弦值的大小较分散。基于这个原理,我们提出了利用夹角余弦值计算角度熵的方法,并基于角度熵来进行离群点检测。
实施例2:参见图2,一种基于角度熵的离群点检测方法,包括以下步骤:
(1)获取一数据集
Figure BDA0002091404960000051
其中R为实数,d为维度,数据点个数为N;
(2)计算一个数据点的角度熵;
(21)在数据集D中任取3个数据点分别为
Figure BDA0002091404960000052
计算
Figure BDA0002091404960000053
Figure BDA0002091404960000054
间的向量差为
Figure BDA0002091404960000055
欧式距离为
Figure BDA0002091404960000056
点积
Figure BDA0002091404960000057
(22)根据下式计算
Figure BDA0002091404960000058
Figure BDA0002091404960000059
构成的夹角余弦值:
Figure BDA00020914049600000510
(23)再根据上式计算
Figure BDA00020914049600000511
与其余任意两个数据点之间的夹角余弦值,夹角余弦值个数为N×(N-1)×(N-2),夹角余弦值的取值范围为[-1,1];
(24)将夹角余弦值的取值范围[-1,1],等份切割为M段,每段的长度为2/M,将所有夹角余弦值按数值对应到M段内,统计每段上对应的夹角余弦值数量nj(0≤nj≤N),得到一组与数据点
Figure BDA00020914049600000512
对应的概率pj=nj/N,式中,j为M段中的第j段,j=1,2,……,M;所述M的取值为10或20;
(25)根据下式计算数据点
Figure BDA00020914049600000513
的角度熵entA,公式为:
Figure BDA00020914049600000514
(3)根据步骤(2)计算其余所有数据点的角度熵,得到数据集D的角度熵集:enti={ent1,ent2,…,entN};
(4)将角度熵集中的角度熵按升序排序;
(5)比较相邻两个角度熵之间的差值,找到差值最大的两个角度熵,将这两个角度熵的均值作为阈值;
(6)将每个角度熵与阈值比较,小于阈值的角度熵所对应的数据点,即为离群点。
本实施例的步骤(24)中,由于夹角余弦值的取值范围[-1,1],所以长度为2,等份切割后的长度为2/M,假设M=10,则切割为10等份。每一段长度0.2,第一段的取值范围为[-1,-0.8],第二段的取值范围为[-0.8,-0.6],依次类推,可以得到10段的取值范围。假设一个夹角余弦值为-0.9774,则落入第一段的范围,夹角余弦值为-0.7623,则落入第二段的范围。最终按此方法将所有夹角余弦值对应到每一段上,再统计每段上夹角余弦值的数量。由于实验时数据精确度高,不会出现等于临界值如0.8、0.6的情况。
图2给出了一种具体步骤(6)的流程,步骤(6)为将每个角度熵与阈值比较,小于阈值的角度熵所对应的数据点,即为离群点,本实施例中,从排序后的第一个角度熵开始与阈值对比,若是,将其录入离群点集中,再判定下一个点直到结束。
本实施例中,步骤(4)将角度熵集中的角度熵按升序排序,排序后的分布见图3。步骤(5)中需要确定阈值,从图3中可知,假设我们角度熵排序后找到差值最大的两个角度熵对应的数据点为点A和点B,计算这两个角度熵的均值,将这两个角度熵的均值作为离群点与正常点划分的阈值,见图3中点横线。步骤(6)是需要将每个角度熵与阈值比较,参见图3,圆圈线中的点均小于阈值的点,为离群点。
本发明中,一般情况下,M的取值为10或者20,以保证不同夹角余值数量的正常分布。
实施例3:参见图3到图5,本实施例对传统LOF算法和本文提出的基于角度熵的离群点检测方法进行了模拟实验对比,采用控制变量法,在保证数据不变、参数不变的情况下进行实验对比。包括实验一和实验二。
实验一为传统LOF离群点检测方法。
实验二为本发明提出的基于角度熵的离群点检测方法。实验数据使用的是pyod库提供的用于离群点检测的高斯分布数据,共测试了两个数据集,第一个数据集一共300个数据,数据维度为25,其中离群点个数为30;第二个数据集一共600个数据,数据维度为50,其中离群点个数为60。
本实施例中,夹角余弦值的取值范围[-1,1],所以其距离固定是2,将其切割为20等份。离群点检测的评价主要观察准确率和召回率。实验结果如表1、图4和图5所示。
表1不同离群点检测效果对比表
Figure BDA0002091404960000071
通过比较分析,本文所提出算法的准确率和召回率在相同条件下有明显的提升,实验一召回率提升60%,准确率提升94.6%,实验二召回率提升46.7%,准确率提升93%。基于角度熵的离群点检测方法准确率和召回率同时达到了100%。图4、图5结果表明离群点与正常点有较明显的差值距离,将求取的角度熵集经过升序排序,对应的离群点熵值明显小于正常点熵值,由实验结果表明本文的方法对于检测高维数据中的离群点有极高的精度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于角度熵的离群点检测方法,其特征在于:包括以下步骤:
(1)获取一数据集
Figure FDA0002091404950000011
其中R为实数,d为维度,数据点个数为N;
(2)计算一个数据点的角度熵;
(21)在数据集D中任取3个数据点分别为
Figure FDA0002091404950000012
计算
Figure FDA0002091404950000013
Figure FDA0002091404950000014
间的向量差为
Figure FDA0002091404950000015
欧式距离为
Figure FDA0002091404950000016
点积
Figure FDA0002091404950000017
(22)根据下式计算
Figure FDA0002091404950000018
Figure FDA0002091404950000019
构成的夹角余弦值:
Figure FDA00020914049500000110
(23)再根据上式计算
Figure FDA00020914049500000111
与其余任意两个数据点之间的夹角余弦值,夹角余弦值个数为N×(N-1)×(N-2),夹角余弦值的取值范围为[-1,1];
(24)将夹角余弦值的取值范围[-1,1],等份切割为M段,每段的长度为2/M,将所有夹角余弦值按数值对应到M段内,统计每段上对应的夹角余弦值数量nj(0≤nj≤N),得到一组与数据点
Figure FDA00020914049500000112
对应的概率pj=nj/N,式中,j为M段中的第j段,j=1,2,……,M;
(25)根据下式计算数据点
Figure FDA00020914049500000113
的角度熵entA,公式为:
Figure FDA00020914049500000114
(3)根据步骤(2)计算其余所有数据点的角度熵,得到数据集D的角度熵集:enti={ent1,ent2,…,entN};
(4)将角度熵集中的角度熵按升序排序;
(5)比较相邻两个角度熵之间的差值,找到差值最大的两个角度熵,将这两个角度熵的均值作为阈值;
(6)将每个角度熵与阈值比较,小于阈值的角度熵所对应的数据点,即为离群点。
2.根据权利要求1所述的一种基于角度熵的离群点检测方法,其特征在于:所述M的取值为10或20。
CN201910504607.6A 2019-06-12 2019-06-12 基于角度熵的离群点检测方法 Active CN110377798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910504607.6A CN110377798B (zh) 2019-06-12 2019-06-12 基于角度熵的离群点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910504607.6A CN110377798B (zh) 2019-06-12 2019-06-12 基于角度熵的离群点检测方法

Publications (2)

Publication Number Publication Date
CN110377798A CN110377798A (zh) 2019-10-25
CN110377798B true CN110377798B (zh) 2022-10-21

Family

ID=68250028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910504607.6A Active CN110377798B (zh) 2019-06-12 2019-06-12 基于角度熵的离群点检测方法

Country Status (1)

Country Link
CN (1) CN110377798B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115392404B (zh) * 2022-10-27 2023-03-24 清华大学 一种离群点检测模型训练、离群点检测方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009134482A2 (en) * 2008-01-31 2009-11-05 The Board Of Trustees Of The University Of Illinois Recognition via high-dimensional data classification
CN102890092A (zh) * 2012-10-12 2013-01-23 浙江大学 用于水蜜桃褐腐病缺陷检测的特征角余弦值方法
CN105160347A (zh) * 2015-07-07 2015-12-16 河海大学 一种大规模高维数据中离群数据的检测方法
US9691395B1 (en) * 2011-12-31 2017-06-27 Reality Analytics, Inc. System and method for taxonomically distinguishing unconstrained signal data segments
CN107247954A (zh) * 2017-06-16 2017-10-13 山东省计算中心(国家超级计算济南中心) 一种基于深度神经网络的图像离群点检测方法
CN107679138A (zh) * 2017-09-22 2018-02-09 陕西师范大学 基于局部尺度参数、熵和余弦相似性的谱特征选择方法
CN107886124A (zh) * 2017-11-08 2018-04-06 昆明理工大学 一种自动识别肘部法则中最优k值的方法
CN108280561A (zh) * 2017-01-06 2018-07-13 重庆邮电大学 一种基于信息熵和加权距离的离散制造机械产品质量溯源方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120140981A1 (en) * 2008-07-17 2012-06-07 Chemlmage Corporation System and Method for Combining Visible and Hyperspectral Imaging with Pattern Recognition Techniques for Improved Detection of Threats
US20120075440A1 (en) * 2010-09-28 2012-03-29 Qualcomm Incorporated Entropy based image separation
US11232466B2 (en) * 2015-01-29 2022-01-25 Affectomatics Ltd. Recommendation for experiences based on measurements of affective response that are backed by assurances

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009134482A2 (en) * 2008-01-31 2009-11-05 The Board Of Trustees Of The University Of Illinois Recognition via high-dimensional data classification
US9691395B1 (en) * 2011-12-31 2017-06-27 Reality Analytics, Inc. System and method for taxonomically distinguishing unconstrained signal data segments
CN102890092A (zh) * 2012-10-12 2013-01-23 浙江大学 用于水蜜桃褐腐病缺陷检测的特征角余弦值方法
CN105160347A (zh) * 2015-07-07 2015-12-16 河海大学 一种大规模高维数据中离群数据的检测方法
CN108280561A (zh) * 2017-01-06 2018-07-13 重庆邮电大学 一种基于信息熵和加权距离的离散制造机械产品质量溯源方法
CN107247954A (zh) * 2017-06-16 2017-10-13 山东省计算中心(国家超级计算济南中心) 一种基于深度神经网络的图像离群点检测方法
CN107679138A (zh) * 2017-09-22 2018-02-09 陕西师范大学 基于局部尺度参数、熵和余弦相似性的谱特征选择方法
CN107886124A (zh) * 2017-11-08 2018-04-06 昆明理工大学 一种自动识别肘部法则中最优k值的方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
Angle-Based Outlier Detection Algorithm with More Stable;Li X , Lv J C , Cheng D;《Proceedings of the 18th Asia Pacific Symposium on Intelligent and》;20170628;全文 *
Angle-based outlier detection in high-dimensional data;Hans-Peter Kriegel,et al.;《Knowledge discovery and data mining》;20080824;全文 *
Hierarchical localization using entropy-based feature map and triangulation techniques;S. Rady, A. Wagner and E. Badreddin;《2010 IEEE International Conference on Systems, Man and Cybernetics》;20101122;全文 *
L1-Depth Revisited: A Robust Angle-Based Outlier Factor in High-Dimensional;Pham N;《Joint European Conference on Machine Learning and Knowledge Discovery in》;20190118;全文 *
Minimizing outlier delay test cost in the presence of systematic variability;D. Drmanac, B. Bolin, L. -C. Wang and M. S. Abadir;《2009 International Test Conference》;20091218;全文 *
基于信息论的高维海量数据离群点挖掘;张净等;《计算机科学》;20110715;全文 *
基于属性熵和加权余弦相似度的离群算法;刘爱琴,荀亚玲;《太原科技大学学报》;20140615;全文 *
基于角度分布的高维数据流异常点检测算法;朴昌浩等;《上海交通大学学报》;20140528;全文 *
教学评价数据的离群点检测算法研究[J].软件;李慧等;《软件》;20170415;全文 *

Also Published As

Publication number Publication date
CN110377798A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
CN107682319B (zh) 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN109325060B (zh) 一种基于数据特征的时间序列流数据快速搜索方法
Deng et al. An improved fuzzy clustering method for text mining
CN111382797B (zh) 一种基于样本密度和自适应调整聚类中心的聚类分析方法
CN113344019A (zh) 一种决策值选取初始聚类中心改进的K-means算法
CN107832456B (zh) 一种基于临界值数据划分的并行knn文本分类方法
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN105808709A (zh) 人脸识别快速检索方法及装置
CN109359135B (zh) 一种基于分段权重的时间序列相似性搜索方法
CN111784093A (zh) 一种基于电力大数据分析的企业复工辅助判断方法
CN102243641A (zh) 大规模数据的高效聚类方法
CN114019505A (zh) 一种基于pri区间信息的雷达信号分选方法及***
CN103020321B (zh) 近邻搜索方法与***
CN111079788A (zh) 一种基于密度Canopy的K-means聚类方法
CN111275127B (zh) 基于条件互信息的动态特征选择方法
CN110377798B (zh) 基于角度熵的离群点检测方法
Zhang et al. Discretizing numerical attributes in decision tree for big data analysis
CN108344975A (zh) 一种利用梯度下降和夹角余弦的联合簇标定方法
CN112633389B (zh) 一种基于mdl和速度方向的飓风运动轨迹趋势计算方法
CN110988856B (zh) 一种基于密度聚类的目标检测点迹凝聚算法
CN110909792A (zh) 一种基于改进K-means算法和新聚类有效性指标的聚类分析方法
CN108874974A (zh) 基于频繁词集的并行化话题跟踪方法
Al-Khamees et al. Survey: Clustering techniques of data stream
Hai-Jun et al. Fuzzy entropy clustering using possibilistic approach
CN110781963B (zh) 基于K-means聚类的空中目标分群方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant