CN109359138A - 一种基于核密度估计的异常检测方法及装置 - Google Patents

一种基于核密度估计的异常检测方法及装置 Download PDF

Info

Publication number
CN109359138A
CN109359138A CN201811219917.5A CN201811219917A CN109359138A CN 109359138 A CN109359138 A CN 109359138A CN 201811219917 A CN201811219917 A CN 201811219917A CN 109359138 A CN109359138 A CN 109359138A
Authority
CN
China
Prior art keywords
probability
offset
characterizes
standard value
eigenvector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811219917.5A
Other languages
English (en)
Inventor
段强
李锐
于治楼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Hi Tech Investment and Development Co Ltd
Original Assignee
Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Hi Tech Investment and Development Co Ltd filed Critical Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority to CN201811219917.5A priority Critical patent/CN109359138A/zh
Publication of CN109359138A publication Critical patent/CN109359138A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明提供了一种基于核密度估计的异常检测方法及装置,包括:预先获取经过数据处理的至少三个特征向量;确定每一个所述特征向量对应的密度估计;根据每一个所述密度估计,确定所述至少三个特征向量的概率密度函数;根据所述概率密度函数,获取每一个所述特征向量出现的概率;确定每一个所述概率对应的偏移量;对每一个所述偏移量进行标准化处理,获取对应的标准值;根据每一个所述标准值和预设的阈值,确定每一个所述特征向量是否异常。本方案具有广泛的适应性。

Description

一种基于核密度估计的异常检测方法及装置
技术领域
本发明涉及数据检测技术领域,特别涉及一种基于核密度估计的异常检测方法及装置。
背景技术
随着信息技术的发展,大数据时代已经来临。在金融、网络安全和互联网等领域,通过学习大量历史数据,利用异常检测算法能够区分正常数据与异常数据,从而对于异常问题进行预警。
目前,常用的基于密度异常检测算法有局部异常因子(Local Outlier Factor,LOF)算法及其变体,如simplified-LOF算法、LDF算法以及LOOP算法等。
但是,这些算法适用于特定数据集合场景来寻找分布稀疏的点,即离群值,因此不具有广泛的适应性。
发明内容
本发明实施例提供了一种基于核密度估计的异常检测方法及装置,具有广泛的适应性。
第一方面,本发明实施例提供了一种基于核密度估计的异常检测方法,预先获取经过数据处理的至少三个特征向量,还包括:
确定每一个所述特征向量对应的密度估计;
根据每一个所述密度估计,确定所述至少三个特征向量的概率密度函数;
根据所述概率密度函数,获取每一个所述特征向量出现的概率;
确定每一个所述概率对应的偏移量;
对每一个所述偏移量进行标准化处理,获取对应的标准值;
根据每一个所述标准值和预设的阈值,确定每一个所述特征向量是否异常。
优选地,
所述确定每一个所述特征向量对应的密度估计,包括:
根据下述第一公式,确定每一个所述特征向量对应的密度估计:
其中,Di表征第i个所述特征向量对应的密度估计,k表征k数量个与第i个所述特征向量的近邻点,Hh(d(i,p))表征给定预设带宽的核函数,其中,d(i,p)表征第i个所述特征向量与第p个所述特征向量之间的距离。
优选地,
所述核函数,包括:
根据下述第二公式,确定所述核函数:
或,
根据下述第三公式,确定所述核函数:
其中,π表征圆周率,e表征自然常数。
优选地,
所述根据每一个所述密度估计,确定所述至少三个特征向量的概率密度函数,包括:
对各个所述密度估计进行求和,获得所述至少三个特征向量的概率密度函数;
则,
所述根据所述概率密度函数,获取每一个所述特征向量出现的概率,包括:
针对每一个所述特征向量,将所述特征向量代入所述概率密度函数中,获取所述特征向量出现的概率。
优选地,
所述确定每一个所述概率对应的偏移量,包括:
根据下述第四公式,确定每一个所述概率对应的偏移量:
其中,Zi表征第i个所述概率对应的偏移量,Xi表征第i个所述概率,n表征所述概率的数量。
优选地,
所述对每一个所述偏移量进行标准化处理,获取对应的标准值,包括:
根据下述第五公式,确定每一个所述偏移量对应的标准值:
其中,Bi表征第i个所述偏移量对应的标准值,Zi表征第i个所述偏移量,Zmax表征数值最大的所述偏移量,Zmin表征数值最小的所述偏移量。
优选地,
所述根据每一个所述标准值和预设的阈值,确定每一个所述特征向量是否异常,包括:
针对每一个所述标准值,确定所述标准值是否大于预设的阈值;
如果是,确定所述标准值对应的所述特征向量异常。
第二方面,本发明实施例提供了一种基于核密度估计的异常检测装置,包括:
数据获取单元,用于预先获取经过数据处理的至少三个特征向量;
计算处理单元,用于确定所述数据获取单元的获取每一个所述特征向量对应的密度估计;根据每一个所述密度估计,确定所述至少三个特征向量的概率密度函数;根据所述概率密度函数,获取每一个所述特征向量出现的概率;确定每一个所述概率对应的偏移量;对每一个所述偏移量进行标准化处理,获取对应的标准值;
异常检测单元,用于根据所述计算处理单元获取的每一个所述标准值和预设的阈值,确定每一个所述特征向量是否异常。
优选地,
所述计算处理单元,用于根据下述第一公式,确定每一个所述特征向量对应的密度估计:
其中,Di表征第i个所述特征向量对应的密度估计,k表征k数量个与第i个所述特征向量的近邻点,Hh(d(i,p))表征给定预设带宽的核函数,其中,d(i,p)表征第i个所述特征向量与第p个所述特征向量之间的距离。
优选地,
所述核函数,包括:
根据下述第二公式,确定所述核函数:
或,
根据下述第三公式,确定所述核函数:
其中,π表征圆周率,e表征自然常数。
优选地,
所述计算处理单元,用于对各个所述密度估计进行求和,获得所述至少三个特征向量的概率密度函数;针对每一个所述特征向量,将所述特征向量代入所述概率密度函数中,获取所述特征向量出现的概率。
优选地,
所述计算处理单元,用于根据下述第四公式,确定每一个所述概率对应的偏移量:
其中,Zi表征第i个所述概率对应的偏移量,Xi表征第i个所述概率,n表征所述概率的数量。
优选地,
所述计算处理单元,用于根据下述第五公式,确定每一个所述偏移量对应的标准值:
其中,Bi表征第i个所述偏移量对应的标准值,Zi表征第i个所述偏移量,Zmax表征数值最大的所述偏移量,Zmin表征数值最小的所述偏移量。
优选地,
所述异常检测单元,用于针对每一个所述标准值,确定所述标准值是否大于预设的阈值;
如果是,确定所述标准值对应的所述特征向量异常。
在本发明实施例中,通过确定每一个经过数据处理得到的特征向量所对应的密度估计,可以确定总体特征向量的概率密度函数,根据该概率密度函数可以获取每一个特征向量出现的概率,再通过确定概率对应的偏移量,并对其进行标准化处理,即可获取偏移量对应的标准值,最后将每一个标准值与预设的阈值进行比对,即可确定特征向量是否异常,而无需根据特定数据集场景来寻找分布稀疏的点,因此具有广泛的适应性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种基于核密度估计的异常检测方法的流程图;
图2是本发明一实施例提供的另一种基于核密度估计的异常检测方法的流程图;
图3是本发明一实施例提供的一种基于核密度估计的异常检测装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于核密度估计的异常检测方法,包括:
步骤101:预先获取经过数据处理的至少三个特征向量;
步骤102:确定每一个所述特征向量对应的密度估计;
步骤103:根据每一个所述密度估计,确定所述至少三个特征向量的概率密度函数;
步骤104:根据所述概率密度函数,获取每一个所述特征向量出现的概率;
步骤105:确定每一个所述概率对应的偏移量;
步骤106:对每一个所述偏移量进行标准化处理,获取对应的标准值;
步骤107:根据每一个所述标准值和预设的阈值,确定每一个所述特征向量是否异常。
在本发明实施例中,通过确定每一个经过数据处理得到的特征向量所对应的密度估计,可以确定总体特征向量的概率密度函数,根据该概率密度函数可以获取每一个特征向量出现的概率,再通过确定概率对应的偏移量,并对其进行标准化处理,即可获取偏移量对应的标准值,最后将每一个标准值与预设的阈值进行比对,即可确定特征向量是否异常,而无需根据特定数据集场景来寻找分布稀疏的点,因此具有广泛的适应性。
需要说明的是,本发明提供的一种基于核密度估计的异常检测方法,可以应用于多种场景,如工业生产中设备异常状态检测,金融分析中异常操作的检测,道路交通中的事故多发路段等。还可以满足各类非常规数据的检测的需求,包括离群值检测和聚集中心的检测等。
在本发明一实施例中,所述确定每一个所述特征向量对应的密度估计,包括:
根据下述第一公式,确定每一个所述特征向量对应的密度估计:
其中,Di表征第i个所述特征向量对应的密度估计,k表征k数量个与第i个所述特征向量的近邻点,Hh(d(i,p))表征给定预设带宽的核函数,其中,d(i,p)表征第i个所述特征向量与第p个所述特征向量之间的距离。
在本发明实施例中,通过确定k个与第i个特征向量的近邻点,即可确定第i个特征向量与k个近邻点中的任一特征向量p之间的距离,进而确定给定带宽的核函数,再对核函数进行求和,最后除以近邻点的数量即可获取各个特征向量对应的密度估计。
在本发明一实施例中,所述核函数,包括:
根据下述第二公式,确定所述核函数:
或,
根据下述第三公式,确定所述核函数:
其中,π表征圆周率,e表征自然常数。
在本发明实施例中,给定预设带宽的核函数,可以通过上述第一公式或第二公式确定,而第i个特征向量与k个近邻点中的任一特征向量p之间的距离,可以是马氏距离、欧氏距离、曼哈顿距离、可达距离。
在本发明一实施例中,所述根据每一个所述密度估计,确定所述至少三个特征向量的概率密度函数,包括:
对各个所述密度估计进行求和,获得所述至少三个特征向量的概率密度函数;
则,
所述根据所述概率密度函数,获取每一个所述特征向量出现的概率,包括:
针对每一个所述特征向量,将所述特征向量代入所述概率密度函数中,获取所述特征向量出现的概率。
在本发明实施例中,对各个特征向量的密度估计进行求和,即可获取总特征向量的概率密度函数,再分别将每一个特征向量代入该概率密度函数中,即可获取特征向量在该概率密度函数表征的曲线中对应的值,即每一个特征向量出现的概率。
在本发明一实施例中,所述确定每一个所述概率对应的偏移量,包括:
根据下述第四公式,确定每一个所述概率对应的偏移量:
其中,Zi表征第i个所述概率对应的偏移量,Xi表征第i个所述概率,n表征所述概率的数量。
在本发明实施例中,在确定每一个特征向量出现的概率后,还需要对每一个概率进行标准化,标准化后获得的值可视为概率对应的偏移量,即根据总体特征向量出现的概率,确定任一特征向量出现的概率,偏离各个特征向量出现的概率的程度,即将任一特征向量出现的概率与总体特征向量出现的概率的平均值的差,再除以总体特征向量出现的概率的标准差,即可获取任一特征向量出现的概率所对应的偏移量。综上可见,相较于LOF等算法使用平均密度进行对比可能存在的极端值现象,通过上述公式可以提供更加鲁棒的对比结果。
在本发明一实施例中,所述对每一个所述偏移量进行标准化处理,获取对应的标准值,包括:
根据下述第五公式,确定每一个所述偏移量对应的标准值:
其中,Bi表征第i个所述偏移量对应的标准值,Zi表征第i个所述偏移量,Zmax表征数值最大的所述偏移量,Zmin表征数值最小的所述偏移量。
在本发明实施例中,在确定每一个特征向量出现的概率所对应的偏移量后,还需要对每一个偏移量进行归一化处理,即将任一偏移量与数值最小的偏移量之差,除以数值最大的偏移量与数值最小的偏移量的差的过程,以使获得缩放到[0,1]区间的归一化后的标准值(即将每一个偏移量归一化后的标准值),以提升运算的准确率。
在本发明一实施例中,所述根据每一个所述标准值和预设的阈值,确定每一个所述特征向量是否异常,包括:
针对每一个所述标准值,确定所述标准值是否大于预设的阈值;
如果是,确定所述标准值对应的所述特征向量异常。
在本发明实施例中,将每一个标准值分别与预设的阈值进行比对,即可确定每一个标准值对应的特征向量是否异常,即当标准值大于阈值时,说明该标准值与异常,因此可以确定该标准值对应的特征向量异常,用户根据异常的特征向量,即可确定该特征向量所对应的至少一个原始数据异常,以实现异常检测的目的。
为了更加清楚的说明本发明的技术方案及优点,下面对本发明实施例提供的一种基于核密度估计的异常检测方法进行详细说明,具体可以包括以下步骤:
步骤201:获取经过数据处理的至少三个特征向量。
具体地,通过对采集到的至少三条数据进行去重、去空值、填空缺值以及编码等数据处理操作,可以从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些有价值、有意义的至少三个特征向量。
步骤202:根据每一个特征向量对应的各个近邻点之间的距离和近邻点的数量,确定每一个特征向量对应的密度估计。
具体地,根据下述第一公式确定每一个特征向量对应的密度估计,
其中,Di表征第i个特征向量对应的密度估计,k表征k数量个与第i个特征向量的近邻点,Hh(d(i,p))表征给定预设带宽的核函数,其中,d(i,p)表征第i个特征向量与第p个特征向量之间的距离。
而给定预设带宽的核函数,可以根据下述第二公式或第三公式获得:
第二公式:
第三公示:
其中,π表征圆周率,e表征自然常数2.71828。
步骤203:对各个密度估计进行求和,获得至少三个特征向量的概率密度函数。
具体地,在获取总体特征向量的概率密度函数时,需要通过对各个密度估计求和获得。
步骤204:针对每一个特征向量,将特征向量代入概率密度函数中,获取特征向量出现的概率。
具体地,通过将每一个特征向量分别代入获取的概率密度函数中,即可获取每一个特征向量对应的值,即特征向量出现的概率。
步骤205:根据概率的数量,确定每一个概率对应的偏移量。
具体地,根据下述第四公式,确定每一个概率对应的偏移量:
其中,Zi表征第i个概率对应的偏移量,Xi表征第i个概率,n表征概率的数量。
具体地,在确定每一个概率对应的偏移量时,需要对每一个概率进行标准化,标准化后的值可视为概率对应的偏移量,即通过任一概率与概率的平均值的差,除以概率的标准差获得。
步骤206:针对每一个偏移量,将偏移量除以数值最大的偏移量与数值最小的偏移量的差值,获取偏移量对应的标准值。
具体地,根据下述第五公式,确定每一个偏移量对应的标准值:
其中,Bi表征第i个偏移量对应的标准值,Zi表征第i个偏移量,Zmax表征数值最大的偏移量,Zmin表征数值最小的偏移量。
即对每一个偏移量进行归一化处理,获得缩放到[0,1]区间的归一化后的标准值(即将每一个偏移量归一化后的标准值),以提升运算的准确率。
步骤207:针对每一个标准值,确定标准值是否大于预设的阈值,如果是,确定标准值对应的特征向量异常。
具体地,通过将每一个标准值分别与预设的阈值进行比对,即可确定每一个标准值对应的特征向量是否异常,即在标准值大于阈值时,说明标准值异常,因此可以确定标准值对应的特征向量异常。
如图3所示,本发明提供了一种基于核密度估计的异常检测装置,包括:
数据获取单元301,用于预先获取经过数据处理的至少三个特征向量;
计算处理单元302,用于确定所述数据获取单元301的获取每一个所述特征向量对应的密度估计;根据每一个所述密度估计,确定所述至少三个特征向量的概率密度函数;根据所述概率密度函数,获取每一个所述特征向量出现的概率;确定每一个所述概率对应的偏移量;对每一个所述偏移量进行标准化处理,获取对应的标准值;
异常检测单元303,用于根据所述计算处理单元302获取的每一个所述标准值和预设的阈值,确定每一个所述特征向量是否异常。
在本发明实施例中,通过计算处理单元确定数据获取单元获取的每一个经过数据处理得到的特征向量所对应的密度估计,可以确定总体特征向量的概率密度函数,根据该概率密度函数可以获取每一个特征向量出现的概率,再通过确定概率对应的偏移量,并对其进行标准化处理,即可获取偏移量对应的标准值,最后通过异常检测单元将计算处理单元获取的每一个标准值与预设的阈值进行比对,即可确定特征向量是否异常,而无需根据特定数据集场景来寻找分布稀疏的点,因此具有广泛的适应性。
在本发明一实施例中,所述计算处理单元,用于根据下述第一公式,确定每一个所述特征向量对应的密度估计:
其中,Di表征第i个所述特征向量对应的密度估计,k表征k数量个与第i个所述特征向量的近邻点,Hh(d(i,p))表征给定预设带宽的核函数,其中,d(i,p)表征第i个所述特征向量与第p个所述特征向量之间的距离。
在本发明一实施例中,所述核函数,包括:
根据下述第二公式,确定所述核函数:
或,
根据下述第三公式,确定所述核函数:
其中,π表征圆周率,e表征自然常数。
在本发明一实施例中,所述计算处理单元,用于对各个所述密度估计进行求和,获得所述至少三个特征向量的概率密度函数;针对每一个所述特征向量,将所述特征向量代入所述概率密度函数中,获取所述特征向量出现的概率。
在本发明一实施例中,所述计算处理单元,用于根据下述第四公式,确定每一个所述概率对应的偏移量:
其中,Zi表征第i个所述概率对应的偏移量,Xi表征第i个所述概率,n表征所述概率的数量。
在本发明一实施例中,所述计算处理单元,用于根据下述第五公式,确定每一个所述偏移量对应的标准值:
其中,Bi表征第i个所述偏移量对应的标准值,Zi表征第i个所述偏移量,Zmax表征数值最大的所述偏移量,Zmin表征数值最小的所述偏移量。
在本发明一实施例中,所述异常检测单元,用于针对每一个所述标准值,确定所述标准值是否大于预设的阈值;
如果是,确定所述标准值对应的所述特征向量异常。
本发明各个实施例至少具有如下有益效果:
1、在本发明一实施例中,通过确定每一个经过数据处理得到的特征向量所对应的密度估计,可以确定总体特征向量的概率密度函数,根据该概率密度函数可以获取每一个特征向量出现的概率,再通过确定概率对应的偏移量,并对其进行标准化处理,即可获取偏移量对应的标准值,最后将每一个标准值与预设的阈值进行比对,即可确定特征向量是否异常,而无需根据特定数据集场景来寻找分布稀疏的点,因此具有广泛的适应性。
2、在本发明一实施例中,通过确定k个与第i个特征向量的近邻点,即可确定第i个特征向量与k个近邻点中的任一特征向量p之间的距离,进而确定给定带宽的核函数,再对核函数进行求和,最后除以近邻点的数量即可获取各个特征向量对应的密度估计。
3、在本发明一实施例中,给定预设带宽的核函数,可以通过上述第一公式或第二公式确定,而第i个特征向量与k个近邻点中的任一特征向量p之间的距离,可以是马氏距离、欧氏距离、曼哈顿距离、可达距离。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种基于核密度估计的异常检测方法,其特征在于,预先获取经过数据处理的至少三个特征向量,还包括:
确定每一个所述特征向量对应的密度估计;
根据每一个所述密度估计,确定所述至少三个特征向量的概率密度函数;
根据所述概率密度函数,获取每一个所述特征向量出现的概率;
确定每一个所述概率对应的偏移量;
对每一个所述偏移量进行标准化处理,获取对应的标准值;
根据每一个所述标准值和预设的阈值,确定每一个所述特征向量是否异常。
2.根据权利要求1所述的方法,其特征在于,
所述确定每一个所述特征向量对应的密度估计,包括:
根据下述第一公式,确定每一个所述特征向量对应的密度估计:
其中,Di表征第i个所述特征向量对应的密度估计,k表征k数量个与第i个所述特征向量的近邻点,Hh(d(i,p))表征给定预设带宽的核函数,其中,d(i,p)表征第i个所述特征向量与第p个所述特征向量之间的距离。
3.根据权利要求2所述的方法,其特征在于,
所述核函数,包括:
根据下述第二公式,确定所述核函数:
或,
根据下述第三公式,确定所述核函数:
其中,π表征圆周率,e表征自然常数。
4.根据权利要求1所述的方法,其特征在于,
所述根据每一个所述密度估计,确定所述至少三个特征向量的概率密度函数,包括:
对各个所述密度估计进行求和,获得所述至少三个特征向量的概率密度函数;
则,
所述根据所述概率密度函数,获取每一个所述特征向量出现的概率,包括:
针对每一个所述特征向量,将所述特征向量代入所述概率密度函数中,获取所述特征向量出现的概率。
5.根据权利要求1至4中任一所述的方法,其特征在于,
所述确定每一个所述概率对应的偏移量,包括:
根据下述第四公式,确定每一个所述概率对应的偏移量:
其中,Zi表征第i个所述概率对应的偏移量,Xi表征第i个所述概率,n表征所述概率的数量;
和/或,
所述对每一个所述偏移量进行标准化处理,获取对应的标准值,包括:
根据下述第五公式,确定每一个所述偏移量对应的标准值:
其中,Bi表征第i个所述偏移量对应的标准值,Zi表征第i个所述偏移量,Zmax表征数值最大的所述偏移量,Zmin表征数值最小的所述偏移量;
和/或,
所述根据每一个所述标准值和预设的阈值,确定每一个所述特征向量是否异常,包括:
针对每一个所述标准值,确定所述标准值是否大于预设的阈值;
如果是,确定所述标准值对应的所述特征向量异常。
6.一种基于核密度估计的异常检测装置,其特征在于,包括:
数据获取单元,用于预先获取经过数据处理的至少三个特征向量;
计算处理单元,用于确定所述数据获取单元的获取每一个所述特征向量对应的密度估计;根据每一个所述密度估计,确定所述至少三个特征向量的概率密度函数;根据所述概率密度函数,获取每一个所述特征向量出现的概率;确定每一个所述概率对应的偏移量;对每一个所述偏移量进行标准化处理,获取对应的标准值;
异常检测单元,用于根据所述计算处理单元获取的每一个所述标准值和预设的阈值,确定每一个所述特征向量是否异常。
7.根据权利要求6所述的装置,其特征在于,
所述计算处理单元,用于根据下述第一公式,确定每一个所述特征向量对应的密度估计:
其中,Di表征第i个所述特征向量对应的密度估计,k表征k数量个与第i个所述特征向量的近邻点,Hh(d(i,p))表征给定预设带宽的核函数,其中,d(i,p)表征第i个所述特征向量与第p个所述特征向量之间的距离。
8.根据权利要求7所述的装置,其特征在于,
所述核函数,包括:
根据下述第二公式,确定所述核函数:
或,
根据下述第三公式,确定所述核函数:
其中,π表征圆周率,e表征自然常数。
9.根据权利要求6所述的装置,其特征在于,
所述计算处理单元,用于对各个所述密度估计进行求和,获得所述至少三个特征向量的概率密度函数;针对每一个所述特征向量,将所述特征向量代入所述概率密度函数中,获取所述特征向量出现的概率。
10.根据权利要求6至9中任一所述的装置,其特征在于,
所述计算处理单元,用于根据下述第四公式,确定每一个所述概率对应的偏移量:
其中,Zi表征第i个所述概率对应的偏移量,Xi表征第i个所述概率,n表征所述概率的数量;
和/或,
所述计算处理单元,用于根据下述第五公式,确定每一个所述偏移量对应的标准值:
其中,Bi表征第i个所述偏移量对应的标准值,Zi表征第i个所述偏移量,Zmax表征数值最大的所述偏移量,Zmin表征数值最小的所述偏移量;
和/或,
所述异常检测单元,用于针对每一个所述标准值,确定所述标准值是否大于预设的阈值;
如果是,确定所述标准值对应的所述特征向量异常。
CN201811219917.5A 2018-10-19 2018-10-19 一种基于核密度估计的异常检测方法及装置 Pending CN109359138A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811219917.5A CN109359138A (zh) 2018-10-19 2018-10-19 一种基于核密度估计的异常检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811219917.5A CN109359138A (zh) 2018-10-19 2018-10-19 一种基于核密度估计的异常检测方法及装置

Publications (1)

Publication Number Publication Date
CN109359138A true CN109359138A (zh) 2019-02-19

Family

ID=65345921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811219917.5A Pending CN109359138A (zh) 2018-10-19 2018-10-19 一种基于核密度估计的异常检测方法及装置

Country Status (1)

Country Link
CN (1) CN109359138A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110098983A (zh) * 2019-05-28 2019-08-06 上海优扬新媒信息技术有限公司 一种异常流量的检测方法及装置
CN110806733A (zh) * 2019-10-30 2020-02-18 中国神华能源股份有限公司国华电力分公司 火电厂设备监测方法、装置及电子设备
CN111683102A (zh) * 2020-06-17 2020-09-18 绿盟科技集团股份有限公司 Ftp行为数据处理方法、识别异常ftp行为的方法及装置
CN112232719A (zh) * 2020-12-11 2021-01-15 北京基调网络股份有限公司 一种指标定量评分方法、计算机设备及存储介质
CN114896024A (zh) * 2022-03-28 2022-08-12 同方威视技术股份有限公司 基于核密度估计的虚拟机运行状态检测方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6115708A (en) * 1998-03-04 2000-09-05 Microsoft Corporation Method for refining the initial conditions for clustering with applications to small and large database clustering
CN103916896A (zh) * 2014-03-26 2014-07-09 浙江农林大学 基于多维Epanechnikov核密度估计的异常检测方法
CN105721199A (zh) * 2016-01-18 2016-06-29 中国石油大学(华东) 一种基于核密度估计与模糊推理***的实时云服务瓶颈检测方法
CN106789885A (zh) * 2016-11-17 2017-05-31 国家电网公司 一种大数据环境下用户异常行为检测分析方法
CN107092582A (zh) * 2017-03-31 2017-08-25 江苏方天电力技术有限公司 一种基于残差后验的异常值在线检测及置信度评估方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6115708A (en) * 1998-03-04 2000-09-05 Microsoft Corporation Method for refining the initial conditions for clustering with applications to small and large database clustering
CN103916896A (zh) * 2014-03-26 2014-07-09 浙江农林大学 基于多维Epanechnikov核密度估计的异常检测方法
CN105721199A (zh) * 2016-01-18 2016-06-29 中国石油大学(华东) 一种基于核密度估计与模糊推理***的实时云服务瓶颈检测方法
CN106789885A (zh) * 2016-11-17 2017-05-31 国家电网公司 一种大数据环境下用户异常行为检测分析方法
CN107092582A (zh) * 2017-03-31 2017-08-25 江苏方天电力技术有限公司 一种基于残差后验的异常值在线检测及置信度评估方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110098983A (zh) * 2019-05-28 2019-08-06 上海优扬新媒信息技术有限公司 一种异常流量的检测方法及装置
CN110098983B (zh) * 2019-05-28 2021-06-04 上海优扬新媒信息技术有限公司 一种异常流量的检测方法及装置
CN110806733A (zh) * 2019-10-30 2020-02-18 中国神华能源股份有限公司国华电力分公司 火电厂设备监测方法、装置及电子设备
CN110806733B (zh) * 2019-10-30 2021-09-21 中国神华能源股份有限公司国华电力分公司 火电厂设备监测方法、装置及电子设备
CN111683102A (zh) * 2020-06-17 2020-09-18 绿盟科技集团股份有限公司 Ftp行为数据处理方法、识别异常ftp行为的方法及装置
CN111683102B (zh) * 2020-06-17 2022-12-06 绿盟科技集团股份有限公司 Ftp行为数据处理方法、识别异常ftp行为的方法及装置
CN112232719A (zh) * 2020-12-11 2021-01-15 北京基调网络股份有限公司 一种指标定量评分方法、计算机设备及存储介质
CN114896024A (zh) * 2022-03-28 2022-08-12 同方威视技术股份有限公司 基于核密度估计的虚拟机运行状态检测方法和装置
CN114896024B (zh) * 2022-03-28 2022-11-22 同方威视技术股份有限公司 基于核密度估计的虚拟机运行状态检测方法和装置

Similar Documents

Publication Publication Date Title
CN109359138A (zh) 一种基于核密度估计的异常检测方法及装置
CN110995508B (zh) 基于kpi突变的自适应无监督在线网络异常检测方法
CN110113226B (zh) 一种检测设备异常的方法及装置
CN109816031B (zh) 一种基于数据不均衡度量的变压器状态评估聚类分析方法
US7613668B2 (en) Anomaly detection system and a method of teaching it
CN112788066B (zh) 物联网设备的异常流量检测方法、***及存储介质
CN107679734A (zh) 一种用于无标签数据分类预测的方法和***
CN111811567B (zh) 一种基于曲线拐点比对的设备检测方法及相关装置
US7716152B2 (en) Use of sequential nearest neighbor clustering for instance selection in machine condition monitoring
CN113344133B (zh) 一种时序行为异常波动检测方法及***
CN112258689B (zh) 船舶数据处理方法、装置和船舶数据质量管理平台
CN108647737A (zh) 一种基于聚类的自适应时间序列异常检测方法及装置
CN111277459A (zh) 一种设备异常检测方法、装置和机器可读存储介质
CN116066343A (zh) 一种输油泵机组故障模型的智能预警方法及***
Weiß Continuously monitoring categorical processes
Tang et al. Traffic outlier detection by density-based bounded local outlier factors
CN109584232A (zh) 基于图像识别的设备使用状态在线监测方法、***及终端
CN113723861A (zh) 异常用电行为检测方法、装置、计算机设备和存储介质
CN112949714A (zh) 一种基于随机森林的故障可能性预估方法
CN110046651B (zh) 一种基于监测数据多属性特征融合的管道状态识别方法
CN113987243A (zh) 一种图像聚档方法、图像聚档装置和计算机可读存储介质
CN110662220B (zh) 基于时空相关性和信息熵的无线传感器网络异常检测方法
CN108268467B (zh) 一种基于属性的异常数据检测方法和装置
CN106960183A (zh) 一种基于梯度提升决策树的图像行人检测算法
Yu et al. Design for an SPRT control scheme based on linguistic data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190219