CN104376078A

CN104376078A - 一种基于知识熵的异常数据检测方法

Info

Publication number: CN104376078A
Application number: CN201410650726.XA
Authority: CN
Inventors: 刘峰; 刘钦; 杨瑞; 吕传耀
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2014-11-14
Filing date: 2014-11-14
Publication date: 2015-02-25

Abstract

一种基于知识熵的异常数据检测方法，其特征在于包括如下步骤：1)样本集合的属性分析阶段：收集应用程序生成的数据样本集合U及其对应的属性集合A；对数据样本集U中的属性值进行规范化预处理；基于属性全集A对数据样本集U的作聚类处理，并计算A的知识熵；分别计算各个属性的重要度，据此构造属性集合的序列；结束。2)样本集合的数据样本检测阶段：计算每个数据样本的异常因子；根据异常因子输出异常数据集合；结束。本发明在利用聚类效果的同时避免聚类的不确定性，可以有效地保证异常数据的检测准确率。

Description

一种基于知识熵的异常数据检测方法

技术领域

本发明涉及异常数据检测方法，尤其是在计算机信息***生成的大量数据集的基础之上探索数据中异常信息的方法，更具体的涉及基于聚类和知识熵的异常数据检测方法。

背景技术

异常数据检测也称离群点检测和例外挖掘，常见的异常成因是数据来源于不同的类(如欺诈、入侵等)、数据变量自然变异(如基因突变，顾客新的购买模式等)、以及数据测量或收集误差。由于离群点可以发现与众不同的新信息，所以广泛应用于入侵检测、欺诈检测、公共卫生、电商平台中顾客购买行为分析等众多领域。

异常数据检测的方法主要包括以下几种：(1)基于统计的技术：首先建立一个数据模型，异常是那些同模型不能完美拟合的对象；如果模型是簇的集合，则异常是不显著属于任何簇的对象；在使用回归模型时，异常是相对远离预测值的对象。(2)基于邻近度的技术：通常可以在对象之间定义邻近性度量，异常对象是那些远离其他对象的对象。(3)基于密度的技术：仅当一个点的局部密度显著低于它的大部分近邻时将其分类为异常点。(4)基于聚类的技术：以远离其他簇的小簇作为异常点。

异常数据检测的主要难点在于比较难于处理非数值类型的样本、高维数据的数据维度信息评价、非单一维度的数据异常等等。基于统计的技术难以处理高维数据；基于邻近度的技术不能处理具有不同密度区域的数据集；基于密度的技术难以调参；基于聚类的技术难以保证产生的簇的质量，对离群点的质量影响非常大。

为了提高异常数据检测的效果，在利用聚类效果的同时避免聚类的不确定性，本发明提出一种基于知识熵的异常数据检测方法，可以有效地保证异常数据的检测准确率。

发明内容

发明目的：本发明提供了一种检测应用收集的大量数据样本集合中异常数据的方法，该方法首先基于知识熵计算数据样本集合中各个属性的重要程度，然后计算每个数据样本的异常因子，最后输出异常数据集合。

本发明的技术方案是：基于知识熵的异常数据点检测方法包括如下步骤：

1)数据样本集合的属性分析阶段：

a)收集应用程序生成的数据样本集合U及其对应的属性集合A；

b)对数据样本集U中的属性值进行规范化预处理；

c)基于属性全集A对数据样本集U的作聚类处理，并计算A的知识熵；

d)分别计算各个属性的重要度，据此构造属性集合的序列；

e)结束。

2)数据样本集合的数据样本检测阶段：

a)计算每个数据样本的异常因子；

b)根据异常因子输出异常数据集合；

c)结束。

其中步骤1-b的具体过程如下：

1)遍历数据样本集U的属性全集A；

2)对于属性值为数值类型的属性a_i，根据所有数据样本该属性的最小值合最大值作规范化处理：规范化属性值V′_i,j＝(V_i,j-V_i,min)/(V_i,max-V_i,min)，使规范化后的属性值在0到1.0之间；其中V_i,j是规范前的属性值，V_i,min是规范前所有数据样本在a_i属性上的最小值，V_i,max是规范前所有数据样本在a_i属性上的最大值；

3)对于属性值不为数值类型的属性a_k，依据非数值属性值出现的频率赋予0到1.0相应的值：V′_i,j＝属性a_k取值为V_k,j的样本数/样本总数。

步骤1-c的具体过程如下：

1)考虑数据样本集的属性全集A对应的数据集合U；

2)计算集合U的直径L，设阈值δ＝L/10；

3)对U基于阈值δ作完全链接聚类，得到聚类结果(E₁,E₂,E₃,…,E_k)，其中E_l是一个数据样本集合聚类后的集合，满足

&ForAll; x_{i}, x_{j} &Element; E_{l}, Σ_{h = 1}^{| A |} | x_{i, h} - x_{j, h} | \leq δ;

4)计算属性全集A的知识熵

E (A) = - Σ_{i = 1}^{k} \frac{| E_{i} |}{| U |} \log_{2} \frac{| E_{i} |}{| U |} .

步骤1-d的具体过程如下：

1)对属性全集A中每一个属性a_i，计算其属性重要度：sig(a_i)＝E(A)-E(A-{a_i})；

2)对属性全集A根据属性重要度排序得到属性序列S＝<a’₁,a’₂,……,a’_|A|>,其中满足sig(a’_i)≤sig(a’_i+1)；

3)构造属性集合序列AS＝<A₁,A₂,……,A_m＞，其中对1≤i≤m，并且满足A_i+1＝A_i-{a'_i}。

步骤2-a的具体过程如下：

1)对S中每个属性a’_i作步骤1-c的聚类得到

2)对AS中每个属性集合A_i也作步骤1-c的聚类得到

3)对U中每个数据样本x，计算其权重w(x)，其中表示x在a_i聚类结果中所属于的聚类；

4)计算x的异常因子d(x)，

d (x) = 1 - w (x) * \sqrt{\frac{Σ_{i = 2}^{m - 1} \frac{| [x]_{A_{j}} | - | [x]_{A_{j - 1}} |}{| [x]_{A_{j}} |}}{m - 1}},

其中表示x在A_j聚类结果中所属于的聚类。

步骤2-b的具体过程如下：

1)

2)对U中每个数据样本x，若d(x)>0.85，则D＝D∪{x}；

3)输出D。

本发明的有益效果：本发明提高了异常数据检测的效果，该方法首先基于知识熵计算数据样本集合中各个属性的重要程度，然后计算每个数据样本的异常因子，最后输出异常数据集合。本发明在利用聚类效果的同时避免聚类的不确定性，可以有效地保证异常数据的检测准确率。

附图说明

图1基于知识熵的异常数据检测方法流程图

图2对数据样本属性值进行预处理的流程图

图3基于属性集A对进行数据样本集合U作完全链接聚类的流程图

图4计算属性重要度并构造属性集合序列的流程图

图5计算每个样本的异常因子并输出异常数据的流程图

具体实施方式

下面结合附图对本发明进行详细说明。

图1是基于知识熵的异常数据检测方法流程图。基于知识熵的异常数据检测方法使用聚类的方法对对象集进行分类，利用知识熵计算属性重要度并得到属性集合序列，经过对属性集的遍历并且计算得到所有对象的异常因子。最后按照要求进行结果输出

图2是对数据样本属性值进行预处理的详细说明。

步骤2-0开始；

步骤2-1从属性集合A中随机选取某个属性a_i；

步骤2-2判断属性值是否为数值型属性值；

步骤2-3若为数值型，则对样本集中所有a_i属性值作规范化处理；

步骤2-4若不是数值型属性值，将样本集中所有a_i属性值置为频率值；

步骤2-5将a_i从A中移除；

步骤2-6判断A是否为空集，若否则回到步骤2-1；若是则结束。

图3是基于属性集A对进行数据样本集合U作完全链接聚类的流程图。

步骤3-0开始；

步骤3-1找出U中距离最远的两点，计算其距离作为U的直径设阈值δ＝L/10；

步骤3-2对U中所有点b_i，构造集合E_i＝{b_i}，初始化聚类集合为C＝{E₁，E₂，。。。，E_|U|}；

步骤3-3判断聚类集合C中是否有可以聚合的聚类，C中存在E_i、E_j，满足d(E_i，E_j)<2δ,其中，

d (E_{i}, E_{j}) = \max_{x_{1} &Element; E_{i}, x_{2} &Element; E_{j}} | x_{1} - x_{2} |, | x_{1} - x_{2} | = Σ_{h = 1}^{| A |} | x_{h, 1} - x_{h, 2} |;

步骤3-4将C中可以再聚类E_i、E_j合并，加入C中，再将E_i、E_j从C中去除跳转至步骤3-3；

步骤3-5输出划分的聚类集合C；

步骤3-6结束。

图4是计算属性重要度并构造属性集合序列的详细说明。

步骤4-0开始；

步骤4-1基于属性全集A对数据样本集U进行聚类，得到聚类集合C＝{E₁，E₂，。。。，E_k}；

步骤4-2计算A的知识熵

E (A) = - Σ_{i = 1}^{k} \frac{| E_{i} |}{| U |} \log_{2} \frac{| E_{i} |}{| U |};

步骤4-3从属性集A选择一个属性a_i；

步骤4-4计算a_i的属性重要度sig(a_i)＝E(A)-E(A-{a_i})；

步骤4-5判断是否还有属性重要度需要计算，若是则跳转到步骤4-3，若否则跳转到步骤4-6；

步骤4-6基于sig(a_i)排序得到S＝<a’₁,a’₂,……,a’_|A|>,满足sig(a’_i)≤sig(a’_i+1)；

步骤4-7构造属性集合序列AS＝<A1,A2,……,Am>,满足A_i+1＝A_i-{a'_i},

A_{i} &SubsetEqual; A, A_{1} = A, A_{m} = {{a^{'}}_{n}};

步骤4-8结束。

图5是计算每个样本的异常因子并输出异常数据的详细步骤。

步骤5-0开始；

步骤5-1对S中每个属性a’_i作聚类得到

步骤5-2对AS中每个属性集合A_i作聚类得到

步骤5-3对U中每个数据样本x，先计算其权重再计算其异常因子

d (x) = 1 - w (x) * \sqrt{\frac{Σ_{i = 2}^{m - 1} \frac{| [x]_{A_{j}} | - | [x]_{A_{j - 1}} |}{| [x]_{A_{j}} |}}{m - 1}};

步骤5-4输出U中所有d(x)>0.85的x；

步骤5-5结束。

Claims

1.一种基于知识熵的异常数据检测方法，其特征在于包括如下步骤：

1)数据样本集合的属性分析阶段：

a)收集应用程序生成的数据样本集合U及其对应的属性集合A；

b)对数据样本集U中的属性值进行规范化预处理；

d)分别计算各个属性的重要度，据此构造属性集合的序列；

e)结束。

2)数据样本集合的数据样本检测阶段：

a)计算每个数据样本的异常因子；

b)根据异常因子输出异常数据集合；

c)结束。

其中步骤1-b的所述的规范化预处理具体过程如下：

1)遍历数据样本集U的属性全集A；

2)对于属性值为数值类型的属性a_i，根据所有数据样本在该属性上的最小值和最大值作规范化处理：规范化属性值V′_i,j＝(V_i,j-V_i,min)/(V_i,max-V_i,min)，使规范化后的属性值在0到1.0之间；其中V_i,j是规范前的属性值，V_i,min是规范前所有数据样本在a_i属性上的最小值，V_i,max是规范前所有数据样本在a_i属性上的最大值；

3)对于属性值不为数值类型的属性a_k，依据非数值属性值出现的频率赋予0到1.0相应的值：V′_k,j＝属性a_k取值为V_k,j的样本数/样本总数；

4)结束。

2.根据权利要求1所述的基于知识熵的异常数据检测方法，其特征在于基于1-c所述的基于聚类的知识熵计算方法；

1)考虑数据样本集的属性全集A对应的数据集合U；

2)计算集合U的直径L，设阈值δ＝L/10；

3)对U基于参数δ作完全链接聚类，得到聚类结果(E₁,E₂,E₃,…,E_k)，其中E_l是一个数据样本集合聚类后的集合，满足

{&ForAll; x}_{i}, x_{j} &Element; E_{l}, Σ_{h = 1}^{| A |} | x_{i, h} - x_{j, h} | \leq δ;

4)计算属性全集A的知识熵

E (A) = - Σ_{i = 1}^{k} \frac{| E_{i} |}{| U |} \log_{2} \frac{| E_{i} |}{| U |};

5)结束。

步骤1-d的具体过程如下：

3)构造属性集合序列AS＝<A₁,A₂,……,A_m>，其中对1≤i≤m，A₁＝A,A_m＝{a'_n}，并且满足A_i+1＝A_i-{a'_i}。

3.根据权利要求1所述的基于知识熵的异常数据检测方法，其特征在于基于2-a所述的数据样本异常因子计算算法：

1)对S中每个属性a’_i作步骤1-c的聚类得到

2)对AS中每个属性集合A_i也作步骤1-c的聚类得到

3)对U中每个数据样本x，计算其权重w(x)，其中i表示x在a_i聚类结果中所属于的聚类；

4)计算x的异常因子d(x)，

d (x) = 1 - w (x) * \sqrt{\frac{Σ_{i = 2}^{m - 1} \frac{| {[x]}_{A_{j}} | - | {[x]}_{A_{j - 1}} |}{| {[x]}_{A_{j}} |}}{m - 1}},

其中表示x在A_j聚类结果中所属于的聚类；

5)结束；

步骤2-b的具体过程如下：

1)

2)对U中每个数据样本x，若d(x)>0.85，则D＝D∪{x}；

3)输出D；

4)结束。