CN104376078A - 一种基于知识熵的异常数据检测方法 - Google Patents

一种基于知识熵的异常数据检测方法 Download PDF

Info

Publication number
CN104376078A
CN104376078A CN201410650726.XA CN201410650726A CN104376078A CN 104376078 A CN104376078 A CN 104376078A CN 201410650726 A CN201410650726 A CN 201410650726A CN 104376078 A CN104376078 A CN 104376078A
Authority
CN
China
Prior art keywords
attribute
data
value
cluster
data sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410650726.XA
Other languages
English (en)
Inventor
刘峰
刘钦
杨瑞
吕传耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201410650726.XA priority Critical patent/CN104376078A/zh
Publication of CN104376078A publication Critical patent/CN104376078A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于知识熵的异常数据检测方法,其特征在于包括如下步骤:1)样本集合的属性分析阶段:收集应用程序生成的数据样本集合U及其对应的属性集合A;对数据样本集U中的属性值进行规范化预处理;基于属性全集A对数据样本集U的作聚类处理,并计算A的知识熵;分别计算各个属性的重要度,据此构造属性集合的序列;结束。2)样本集合的数据样本检测阶段:计算每个数据样本的异常因子;根据异常因子输出异常数据集合;结束。本发明在利用聚类效果的同时避免聚类的不确定性,可以有效地保证异常数据的检测准确率。

Description

一种基于知识熵的异常数据检测方法
技术领域
本发明涉及异常数据检测方法,尤其是在计算机信息***生成的大量数据集的基础之上探索数据中异常信息的方法,更具体的涉及基于聚类和知识熵的异常数据检测方法。
背景技术
异常数据检测也称离群点检测和例外挖掘,常见的异常成因是数据来源于不同的类(如欺诈、入侵等)、数据变量自然变异(如基因突变,顾客新的购买模式等)、以及数据测量或收集误差。由于离群点可以发现与众不同的新信息,所以广泛应用于入侵检测、欺诈检测、公共卫生、电商平台中顾客购买行为分析等众多领域。
异常数据检测的方法主要包括以下几种:(1)基于统计的技术:首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇的集合,则异常是不显著属于任何簇的对象;在使用回归模型时,异常是相对远离预测值的对象。(2)基于邻近度的技术:通常可以在对象之间定义邻近性度量,异常对象是那些远离其他对象的对象。(3)基于密度的技术:仅当一个点的局部密度显著低于它的大部分近邻时将其分类为异常点。(4)基于聚类的技术:以远离其他簇的小簇作为异常点。
异常数据检测的主要难点在于比较难于处理非数值类型的样本、高维数据的数据维度信息评价、非单一维度的数据异常等等。基于统计的技术难以处理高维数据;基于邻近度的技术不能处理具有不同密度区域的数据集;基于密度的技术难以调参;基于聚类的技术难以保证产生的簇的质量,对离群点的质量影响非常大。
为了提高异常数据检测的效果,在利用聚类效果的同时避免聚类的不确定性,本发明提出一种基于知识熵的异常数据检测方法,可以有效地保证异常数据的检测准确率。
发明内容
发明目的:本发明提供了一种检测应用收集的大量数据样本集合中异常数据的方法,该方法首先基于知识熵计算数据样本集合中各个属性的重要程度,然后计算每个数据样本的异常因子,最后输出异常数据集合。
本发明的技术方案是:基于知识熵的异常数据点检测方法包括如下步骤:
1)数据样本集合的属性分析阶段:
a)收集应用程序生成的数据样本集合U及其对应的属性集合A;
b)对数据样本集U中的属性值进行规范化预处理;
c)基于属性全集A对数据样本集U的作聚类处理,并计算A的知识熵;
d)分别计算各个属性的重要度,据此构造属性集合的序列;
e)结束。
2)数据样本集合的数据样本检测阶段:
a)计算每个数据样本的异常因子;
b)根据异常因子输出异常数据集合;
c)结束。
其中步骤1-b的具体过程如下:
1)遍历数据样本集U的属性全集A;
2)对于属性值为数值类型的属性ai,根据所有数据样本该属性的最小值合最大值作规范化处理:规范化属性值V′i,j=(Vi,j-Vi,min)/(Vi,max-Vi,min),使规范化后的属性值在0到1.0之间;其中Vi,j是规范前的属性值,Vi,min是规范前所有数据样本在ai属性上的最小值,Vi,max是规范前所有数据样本在ai属性上的最大值;
3)对于属性值不为数值类型的属性ak,依据非数值属性值出现的频率赋予0到1.0相应的值:V′i,j=属性ak取值为Vk,j的样本数/样本总数。
步骤1-c的具体过程如下:
1)考虑数据样本集的属性全集A对应的数据集合U;
2)计算集合U的直径L,设阈值δ=L/10;
3)对U基于阈值δ作完全链接聚类,得到聚类结果(E1,E2,E3,…,Ek),其中El是一个数据样本集合聚类后的集合,满足 ∀ x i , x j ∈ E l , Σ h = 1 | A | | x i , h - x j , h | ≤ δ ;
4)计算属性全集A的知识熵 E ( A ) = - Σ i = 1 k | E i | | U | log 2 | E i | | U | .
步骤1-d的具体过程如下:
1)对属性全集A中每一个属性ai,计算其属性重要度:sig(ai)=E(A)-E(A-{ai});
2)对属性全集A根据属性重要度排序得到属性序列S=<a’1,a’2,……,a’|A|>,其中满足sig(a’i)≤sig(a’i+1);
3)构造属性集合序列AS=<A1,A2,……,Am>,其中对1≤i≤m,并且满足Ai+1=Ai-{a'i}。
步骤2-a的具体过程如下:
1)对S中每个属性a’i作步骤1-c的聚类得到
2)对AS中每个属性集合Ai也作步骤1-c的聚类得到
3)对U中每个数据样本x,计算其权重w(x),其中表示x在ai聚类结果中所属于的聚类;
4)计算x的异常因子d(x), d ( x ) = 1 - w ( x ) * &Sigma; i = 2 m - 1 | [ x ] A j | - | [ x ] A j - 1 | | [ x ] A j | m - 1 , 其中表示x在Aj聚类结果中所属于的聚类。
步骤2-b的具体过程如下:
1)
2)对U中每个数据样本x,若d(x)>0.85,则D=D∪{x};
3)输出D。
本发明的有益效果:本发明提高了异常数据检测的效果,该方法首先基于知识熵计算数据样本集合中各个属性的重要程度,然后计算每个数据样本的异常因子,最后输出异常数据集合。本发明在利用聚类效果的同时避免聚类的不确定性,可以有效地保证异常数据的检测准确率。
附图说明
图1基于知识熵的异常数据检测方法流程图
图2对数据样本属性值进行预处理的流程图
图3基于属性集A对进行数据样本集合U作完全链接聚类的流程图
图4计算属性重要度并构造属性集合序列的流程图
图5计算每个样本的异常因子并输出异常数据的流程图
具体实施方式
下面结合附图对本发明进行详细说明。
图1是基于知识熵的异常数据检测方法流程图。基于知识熵的异常数据检测方法使用聚类的方法对对象集进行分类,利用知识熵计算属性重要度并得到属性集合序列,经过对属性集的遍历并且计算得到所有对象的异常因子。最后按照要求进行结果输出
图2是对数据样本属性值进行预处理的详细说明。
步骤2-0开始;
步骤2-1从属性集合A中随机选取某个属性ai
步骤2-2判断属性值是否为数值型属性值;
步骤2-3若为数值型,则对样本集中所有ai属性值作规范化处理;
步骤2-4若不是数值型属性值,将样本集中所有ai属性值置为频率值;
步骤2-5将ai从A中移除;
步骤2-6判断A是否为空集,若否则回到步骤2-1;若是则结束。
图3是基于属性集A对进行数据样本集合U作完全链接聚类的流程图。
步骤3-0开始;
步骤3-1找出U中距离最远的两点,计算其距离作为U的直径设阈值δ=L/10;
步骤3-2对U中所有点bi,构造集合Ei={bi},初始化聚类集合为C={E1,E2,。。。,E|U|};
步骤3-3判断聚类集合C中是否有可以聚合的聚类,C中存在Ei、Ej,满足d(Ei,Ej)<2δ,其中, d ( E i , E j ) = max x 1 &Element; E i , x 2 &Element; E j | x 1 - x 2 | , | x 1 - x 2 | = &Sigma; h = 1 | A | | x h , 1 - x h , 2 | ;
步骤3-4将C中可以再聚类Ei、Ej合并,加入C中,再将Ei、Ej从C中去除跳转至步骤3-3;
步骤3-5输出划分的聚类集合C;
步骤3-6结束。
图4是计算属性重要度并构造属性集合序列的详细说明。
步骤4-0开始;
步骤4-1基于属性全集A对数据样本集U进行聚类,得到聚类集合C={E1,E2,。。。,Ek};
步骤4-2计算A的知识熵 E ( A ) = - &Sigma; i = 1 k | E i | | U | log 2 | E i | | U | ;
步骤4-3从属性集A选择一个属性ai
步骤4-4计算ai的属性重要度sig(ai)=E(A)-E(A-{ai});
步骤4-5判断是否还有属性重要度需要计算,若是则跳转到步骤4-3,若否则跳转到步骤4-6;
步骤4-6基于sig(ai)排序得到S=<a’1,a’2,……,a’|A|>,满足sig(a’i)≤sig(a’i+1);
步骤4-7构造属性集合序列AS=<A1,A2,……,Am>,满足Ai+1=Ai-{a'i}, A i &SubsetEqual; A , A 1 = A , A m = { a &prime; n } ;
步骤4-8结束。
图5是计算每个样本的异常因子并输出异常数据的详细步骤。
步骤5-0开始;
步骤5-1对S中每个属性a’i作聚类得到
步骤5-2对AS中每个属性集合Ai作聚类得到
步骤5-3对U中每个数据样本x,先计算其权重再计算其异常因子
d ( x ) = 1 - w ( x ) * &Sigma; i = 2 m - 1 | [ x ] A j | - | [ x ] A j - 1 | | [ x ] A j | m - 1 ;
步骤5-4输出U中所有d(x)>0.85的x;
步骤5-5结束。

Claims (3)

1.一种基于知识熵的异常数据检测方法,其特征在于包括如下步骤:
1)数据样本集合的属性分析阶段:
a)收集应用程序生成的数据样本集合U及其对应的属性集合A;
b)对数据样本集U中的属性值进行规范化预处理;
c)基于属性全集A对数据样本集U的作聚类处理,并计算A的知识熵;
d)分别计算各个属性的重要度,据此构造属性集合的序列;
e)结束。
2)数据样本集合的数据样本检测阶段:
a)计算每个数据样本的异常因子;
b)根据异常因子输出异常数据集合;
c)结束。
其中步骤1-b的所述的规范化预处理具体过程如下:
1)遍历数据样本集U的属性全集A;
2)对于属性值为数值类型的属性ai,根据所有数据样本在该属性上的最小值和最大值作规范化处理:规范化属性值V′i,j=(Vi,j-Vi,min)/(Vi,max-Vi,min),使规范化后的属性值在0到1.0之间;其中Vi,j是规范前的属性值,Vi,min是规范前所有数据样本在ai属性上的最小值,Vi,max是规范前所有数据样本在ai属性上的最大值;
3)对于属性值不为数值类型的属性ak,依据非数值属性值出现的频率赋予0到1.0相应的值:V′k,j=属性ak取值为Vk,j的样本数/样本总数;
4)结束。
2.根据权利要求1所述的基于知识熵的异常数据检测方法,其特征在于基于1-c所述的基于聚类的知识熵计算方法;
1)考虑数据样本集的属性全集A对应的数据集合U;
2)计算集合U的直径L,设阈值δ=L/10;
3)对U基于参数δ作完全链接聚类,得到聚类结果(E1,E2,E3,…,Ek),其中El是一个数据样本集合聚类后的集合,满足 &ForAll; x i , x j &Element; E l , &Sigma; h = 1 | A | | x i , h - x j , h | &le; &delta; ;
4)计算属性全集A的知识熵 E ( A ) = - &Sigma; i = 1 k | E i | | U | log 2 | E i | | U | ;
5)结束。
步骤1-d的具体过程如下:
1)对属性全集A中每一个属性ai,计算其属性重要度:sig(ai)=E(A)-E(A-{ai});
2)对属性全集A根据属性重要度排序得到属性序列S=<a’1,a’2,……,a’|A|>,其中满足sig(a’i)≤sig(a’i+1);
3)构造属性集合序列AS=<A1,A2,……,Am>,其中对1≤i≤m,A1=A,Am={a'n},并且满足Ai+1=Ai-{a'i}。
3.根据权利要求1所述的基于知识熵的异常数据检测方法,其特征在于基于2-a所述的数据样本异常因子计算算法:
1)对S中每个属性a’i作步骤1-c的聚类得到
2)对AS中每个属性集合Ai也作步骤1-c的聚类得到
3)对U中每个数据样本x,计算其权重w(x),其中i表示x在ai聚类结果中所属于的聚类;
4)计算x的异常因子d(x), d ( x ) = 1 - w ( x ) * &Sigma; i = 2 m - 1 | [ x ] A j | - | [ x ] A j - 1 | | [ x ] A j | m - 1 , 其中表示x在Aj聚类结果中所属于的聚类;
5)结束;
步骤2-b的具体过程如下:
1)
2)对U中每个数据样本x,若d(x)>0.85,则D=D∪{x};
3)输出D;
4)结束。
CN201410650726.XA 2014-11-14 2014-11-14 一种基于知识熵的异常数据检测方法 Pending CN104376078A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410650726.XA CN104376078A (zh) 2014-11-14 2014-11-14 一种基于知识熵的异常数据检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410650726.XA CN104376078A (zh) 2014-11-14 2014-11-14 一种基于知识熵的异常数据检测方法

Publications (1)

Publication Number Publication Date
CN104376078A true CN104376078A (zh) 2015-02-25

Family

ID=52554985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410650726.XA Pending CN104376078A (zh) 2014-11-14 2014-11-14 一种基于知识熵的异常数据检测方法

Country Status (1)

Country Link
CN (1) CN104376078A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160181A (zh) * 2015-09-02 2015-12-16 华中科技大学 一种数控***指令域序列异常数据检测方法
CN108205570A (zh) * 2016-12-19 2018-06-26 华为技术有限公司 一种数据检测方法和装置
CN108268467A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于属性的异常数据检测方法和装置
CN109190598A (zh) * 2018-09-29 2019-01-11 西安交通大学 一种基于ses-lof的旋转机械监测数据噪点检测方法
CN109992578A (zh) * 2019-01-07 2019-07-09 平安科技(深圳)有限公司 基于无监督学习的反欺诈方法、装置、计算机设备及存储介质
CN112219212A (zh) * 2017-12-22 2021-01-12 阿韦瓦软件有限责任公司 异常工业处理操作的自动化检测

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246645A (zh) * 2008-04-01 2008-08-20 东南大学 一种识别离***通数据的方法
US20080255772A1 (en) * 2007-02-06 2008-10-16 Abb Research Ltd. Method and a control system for monitoring the condition of an industrial robot
CN101509839A (zh) * 2009-03-12 2009-08-19 上海交通大学 基于离群点挖掘的集群工业机器人故障诊断方法
CN103902798A (zh) * 2012-12-27 2014-07-02 纽海信息技术(上海)有限公司 数据预处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080255772A1 (en) * 2007-02-06 2008-10-16 Abb Research Ltd. Method and a control system for monitoring the condition of an industrial robot
CN101246645A (zh) * 2008-04-01 2008-08-20 东南大学 一种识别离***通数据的方法
CN101509839A (zh) * 2009-03-12 2009-08-19 上海交通大学 基于离群点挖掘的集群工业机器人故障诊断方法
CN103902798A (zh) * 2012-12-27 2014-07-02 纽海信息技术(上海)有限公司 数据预处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张净等: "基于信息论的高维海量数据离群点挖掘", 《计算机科学》 *
江峰等: "基于粗糙集理论的序列离群点检测", 《电子学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160181A (zh) * 2015-09-02 2015-12-16 华中科技大学 一种数控***指令域序列异常数据检测方法
CN105160181B (zh) * 2015-09-02 2018-02-23 华中科技大学 一种数控***指令域序列异常数据检测方法
CN108205570A (zh) * 2016-12-19 2018-06-26 华为技术有限公司 一种数据检测方法和装置
CN108205570B (zh) * 2016-12-19 2021-06-29 华为技术有限公司 一种数据检测方法和装置
CN108268467A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于属性的异常数据检测方法和装置
CN108268467B (zh) * 2016-12-30 2021-08-06 广东精点数据科技股份有限公司 一种基于属性的异常数据检测方法和装置
CN112219212A (zh) * 2017-12-22 2021-01-12 阿韦瓦软件有限责任公司 异常工业处理操作的自动化检测
CN109190598A (zh) * 2018-09-29 2019-01-11 西安交通大学 一种基于ses-lof的旋转机械监测数据噪点检测方法
CN109190598B (zh) * 2018-09-29 2020-05-15 西安交通大学 一种基于ses-lof的旋转机械监测数据噪点检测方法
CN109992578A (zh) * 2019-01-07 2019-07-09 平安科技(深圳)有限公司 基于无监督学习的反欺诈方法、装置、计算机设备及存储介质
CN109992578B (zh) * 2019-01-07 2023-08-08 平安科技(深圳)有限公司 基于无监督学习的反欺诈方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN107122790B (zh) 基于混合神经网络和集成学习的非侵入式负荷识别算法
CN104376078A (zh) 一种基于知识熵的异常数据检测方法
CN109543943B (zh) 一种基于大数据深度学习的电价稽查执行方法
CN107992968B (zh) 基于集成时间序列分析技术的电能表计量误差预测方法
Yin et al. Wasserstein Generative Adversarial Network and Convolutional Neural Network (WG‐CNN) for Bearing Fault Diagnosis
CN108777873A (zh) 基于加权混合孤立森林的无线传感网络异常数据检测方法
WO2016101628A1 (zh) 一种数据建模中的数据处理方法及装置
Arbin et al. Comparative analysis between k-means and k-medoids for statistical clustering
Li et al. Research and application of random forest model in mining automobile insurance fraud
CN112001788B (zh) 一种基于rf-dbscan算法的***违约欺诈识别方法
CN112990330B (zh) 用户用能异常数据检测方法及设备
CN108038211A (zh) 一种基于上下文的无监督关系数据异常检测方法
CN112949714A (zh) 一种基于随机森林的故障可能性预估方法
CN116842459A (zh) 一种基于小样本学习的电能计量故障诊断方法及诊断终端
Shi et al. An improved agglomerative hierarchical clustering anomaly detection method for scientific data
CN115051929A (zh) 基于自监督目标感知神经网络的网络故障预测方法及装置
CN117408394B (zh) 电力***的碳排放因子预测方法、装置及电子设备
CN117972314A (zh) 一种基于数字孪生的云平台监控方法及***
CN104111887A (zh) 基于Logistic模型的软件故障预测***及方法
CN107274025B (zh) 一种实现用电模式智能识别与管理的***和方法
CN113726558A (zh) 基于随机森林算法的网络设备流量预测***
Dong Application of Big Data Mining Technology in Blockchain Computing
CN113538063A (zh) 基于决策树的电费异常数据分析方法、装置、设备及介质
CN113420506A (zh) 掘进速度的预测模型建立方法、预测方法及装置
CN106778252B (zh) 基于粗糙集理论与waode算法的入侵检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150225

RJ01 Rejection of invention patent application after publication