CN109144988B - 一种异常数据的检测方法及装置 - Google Patents

一种异常数据的检测方法及装置 Download PDF

Info

Publication number
CN109144988B
CN109144988B CN201810892319.8A CN201810892319A CN109144988B CN 109144988 B CN109144988 B CN 109144988B CN 201810892319 A CN201810892319 A CN 201810892319A CN 109144988 B CN109144988 B CN 109144988B
Authority
CN
China
Prior art keywords
data
value
characteristic
feature
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810892319.8A
Other languages
English (en)
Other versions
CN109144988A (zh
Inventor
高睿
张雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201810892319.8A priority Critical patent/CN109144988B/zh
Publication of CN109144988A publication Critical patent/CN109144988A/zh
Application granted granted Critical
Publication of CN109144988B publication Critical patent/CN109144988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Testing And Monitoring For Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种异常数据检测的方法和装置,本申请实施例首先获取数据集合,对数据集合中的每条实例数据的每个特征的原始特征值进行标准化,获得每个特征的特征值,然后根据每条实例数据对应特征的特征平均值、特征标准差,在大量实例数据中先筛选出少量的可疑数据,再针对可疑数据通过LOF算法检测异常数据,不再针对每条实例数据进行LOF算法的检测,由于可疑数据的数量要远小于实例数据的数量,从而大幅减少了LOF算法的计算量,提高了检测效率。

Description

一种异常数据的检测方法及装置
技术领域
本申请涉及数据处理技术领域,具体涉及一种异常数据的检测方法及装置。
背景技术
在数据挖掘中,通常首先需要进行数据清洗,剔除数据中的无效数据以及异常数据,之后再对数据进行相应处理。
在现有技术中,存在多种异常数据的检测方法,其中LOF(Local Outlier Factor,局部异常因子)算法,是基于密度的异常数据检测方法中一个比较有代表性的算法。该算法会针对数据集中的每个数据计算一个局部异常因子LOF,来反映一个数据的异常程度。LOF值的含义是一个数据点周围数据点所处位置的数据点平均密度与该数据点所处位置的数据点平均密度之比。通过判断LOF是否接近于1来判定该数据是否是异常数据,若LOF远大于1,则认为该数据是异常数据,若LOF接近于1,则认为该数据为正常数据。
但是,LOF算法中需要计算所有数据的LOF值后,才能确定出异常数据,该过程计算量巨大。
发明内容
有鉴于此,本申请实施例提供一种异常数据的检测方法及装置,以解决现有技术中通过LOF算法进行异常数据检测计算量巨大的技术问题。
为解决上述问题,本申请实施例提供的技术方案如下:
一种异常数据的检测方法,所述方法包括:
获取数据集合,所述数据集合中包括至少一条实例数据,每条所述实例数据对应有相同的至少一个特征,每条所述实例数据包括每个特征的原始特征值;
对每个特征的原始特征值进行标准化,获得每个特征的特征值;
计算每个特征的特征值的平均值以及每个特征的特征值的标准差;
根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,所述目标实例数据为任一条所述实例数据,f的取值为1至n中的每一个整数,n为特征的总数量;
当确定所述目标实例数据为可疑数据,计算所述可疑数据的局部异常因子,根据所述可疑数据的局部异常因子,在所述可疑数据中确定异常数据。
在一种可能的实现方式中,所述根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,包括:
计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;
计算所述目标实例数据的第f个特征的偏差值的绝对值与所述第f个特征的特征值的标准差之比,得到所述目标实例数据的第f个特征的评价值;
取所述目标实例数据的各个特征的评价值的最大值,如果所述最大值大于第一阈值,确定所述目标实例数据为可疑数据,如果所述最大值小于或等于所述第一阈值,确定所述目标实例数据不是可疑数据。
在一种可能的实现方式中,所述根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,包括:
计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;
将所述目标实例数据的各个特征的偏差值的绝对值进行求和,得到所述目标实例数据的第一求和结果;
将所述目标实例数据对应的第f个特征的特征值的标准差乘以第二阈值,得到所述目标实例数据的第f个特征的多倍标准差;
将所述目标实例数据的各个特征的多倍标准差进行求和,得到所述目标实例数据的第二求和结果;
如果所述目标实例数据的第一求和结果大于所述目标实例数据的第二求和结果,确定所述目标实例数据为可疑数据,如果所述目标实例数据的第一求和结果小于或等于所述目标实例数据的第二求和结果,确定所述目标实例数据不是可疑数据。
在一种可能的实现方式中,所述根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,包括:
计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;
将所述目标实例数据的第f个特征的偏差值与所述第f个特征的权重值相乘,得到所述目标实例数据的第f个特征的加权偏差值;
将所述目标实例数据的各个特征的加权偏差值的绝对值进行求和,得到所述目标实例数据的第三求和结果;
将所述目标实例数据对应的第f个特征的特征值的标准差乘以第二阈值,得到所述目标实例数据的第f个特征的多倍标准差;
将所述目标实例数据的第f个特征的多倍标准差与所述第f个特征的权重值相乘,得到所述目标实例数据的第f个特征的加权多倍标准差;
将所述目标实例数据的各个特征的加权多倍标准差进行求和,得到所述目标实例数据的第四求和结果;
如果所述目标实例数据的第三求和结果大于所述目标实例数据的第四求和结果,确定所述目标实例数据为可疑数据,如果所述目标实例数据的第三求和结果小于或等于所述目标实例数据的第四求和结果,确定所述目标实例数据不是可疑数据。
在一种可能的实现方式中,所述第f个特征的权重值为所述第f个特征的原始特征值的平均值。
在一种可能的实现方式中,在对每个特征的原始特征值进行标准化之前,所述方法还包括:
删除所述数据集合中非数值型特征以及所述非数值型特征的原始特征值,所述非数值型特征的原始特征值为非数值型数据。
一种异常数据的检测装置,所述装置包括:
获取单元,用于获取数据集合,所述数据集合中包括至少一条实例数据,每条所述实例数据对应有相同的至少一个特征,每条所述实例数据包括每个特征的原始特征值;
处理单元,用于对每个特征的原始特征值进行标准化,获得每个特征的特征值;
计算单元,用于计算每个特征的特征值的平均值以及每个特征的特征值的标准差;
第一确定单元,用于根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,所述目标实例数据为任一条所述实例数据,f的取值为1至n中的每一个整数,n为特征的总数量;
第二确定单元,用于当确定所述目标实例数据为可疑数据,计算所述可疑数据的局部异常因子,根据所述可疑数据的局部异常因子,在所述可疑数据中确定异常数据。
在一种可能的实现方式中,所述第一确定单元具体包括:
第一计算子单元,计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;
第二计算子单元,用于计算所述目标实例数据的第f个特征的偏差值的绝对值与所述第f个特征的特征值的标准差之比,得到所述目标实例数据的第f个特征的评价值;
第一确定子单元,用于取所述目标实例数据的各个特征的评价值的最大值,如果所述最大值大于第一阈值,确定所述目标实例数据为可疑数据,如果所述最大值小于或等于所述第一阈值,确定所述目标实例数据不是可疑数据。
在一种可能的实现方式中,所述第一确定单元具体包括:
第三计算子单元,用于计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;
第一求和子单元,用于将所述目标实例数据的各个特征的偏差值的绝对值进行求和,得到所述目标实例数据的第一求和结果;
第四计算子单元,用于将所述目标实例数据对应的第f个特征的特征值的标准差乘以第二阈值,得到所述目标实例数据的第f个特征的多倍标准差;
第二求和子单元,用于将所述目标实例数据的各个特征的多倍标准差进行求和,得到所述目标实例数据的第二求和结果;
第二确定子单元,用于如果所述目标实例数据的第一求和结果大于所述目标实例数据的第二求和结果,确定所述目标实例数据为可疑数据,如果所述目标实例数据的第一求和结果小于或等于所述目标实例数据的第二求和结果,确定所述目标实例数据不是可疑数据。
在一种可能的实现方式中,所述第一确定单元具体包括:
第五计算子单元,用于计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;
第一相乘子单元,用于将所述目标实例数据的第f个特征的偏差值与所述第f个特征的权重值相乘,得到所述目标实例数据的第f个特征的加权偏差值;
第三求和子单元,用于将所述目标实例数据的各个特征的加权偏差值的绝对值进行求和,得到所述目标实例数据的第三求和结果;
第二相乘子单元,用于将所述目标实例数据对应的第f个特征的特征值的标准差乘以第二阈值,得到所述目标实例数据的第f个特征的多倍标准差;
第三相乘子单元,用于将所述目标实例数据的第f个特征的多倍标准差与所述第f个特征的权重值相乘,得到所述目标实例数据的第f个特征的加权多倍标准差;
第四求和子单元,用于将所述目标实例数据的各个特征的加权多倍标准差进行求和,得到所述目标实例数据的第四求和结果;
第三确定子单元,用于如果所述目标实例数据的第三求和结果大于所述目标实例数据的第四求和结果,确定所述目标实例数据为可疑数据,如果所述目标实例数据的第三求和结果小于或等于所述目标实例数据的第四求和结果,确定所述目标实例数据不是可疑数据。
在一种可能的实现方式中,所述第f个特征的权重值为所述第f个特征的原始特征值的平均值。
在一种可能的实现方式中,所述装置还包括:
删除单元,用于在执行所述处理单元之前,删除所述数据集合中非数值型特征以及所述非数值型特征的原始特征值,所述非数值型特征的原始特征值为非数值型数据。一种计算机可读存储介质,所述机算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述的异常数据的检测方法。
一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述的异常数据的检测方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例首先根据每条实例数据对应特征的特征平均值、特征标准差,在大量实例数据中先筛选出少量的可疑数据,再针对可疑数据通过LOF算法检测异常数据,不再针对每条实例数据进行LOF算法的检测,由于可疑数据的数量要远小于实例数据的数量,从而大幅减少了LOF算法的计算量。
附图说明
图1为本申请实施例提供的一种异常数据的检测方法流程图;
图2为本申请实施例提供的一种确定可疑数据的方法流程图;
图3为本申请实施例提供的另一种确定可疑数据的方法流程图;
图4为本申请实施例提供的另一种确定可疑数据的方法流程图;
图5为本申请实施例提供的一种异常数据的检测装置结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
为便于理解本申请的技术方案,下面先对本申请技术方案的研究背景进行简单说明。
发明人在对传统的数据异常检测中发现,传统的LOF算法需要对数据集合中的每个数据计算一个局部异常因子,然后根据所有数据的局部异常因子确定数据集合中存在的异常数据。由于数据挖掘通常涉及大量的数据,因此,在利用LOF算法检测异常数据时,会带来巨大的计算量,影响检测效率。
基于此,本申请实施例提供了一种异常数据的检测方法以及装置,本申请实施例可以先根据每条实施例数据对应特征的特征值的平均值以及标准差,从大量实施例数据中筛选出少量的可疑数据,然后再针对可疑数据进行LOF算法检测出异常数据,无需针对每个实例数据进行LOF算法检测,由于可疑数据的数量要远小于实例数据的数量,从而大幅减少了LOF算法的计算量,提高了检测效率。
为便于本领域技术人员理解本申请技术方案,下面将结合附图对本申请实施例提供的一种异常数据的检测方法进行说明。
参见图1,该图为本申请实施例提供的一种异常数据的检测方法流程图,如图1所示,该方法可以包括:
S101:获取数据集合。
本实施例中,为检测可疑数据,首先需要获取数据集合,其中,数据集合中包括至少一条实例数据,每条实例数据对应有相同的至少一个特征,每条所述实例数据包括每个特征的原始特征值。
为便于理解实例数据、特征以及特征的原始特征值,以获取的数据集合为大量患者的体检数据为例进行说明,如表1所示,在该数据集合中每一行代表一个实例数据,共包括4个实例数据,每个实例数据中包括4个特征,分别为体检项目平均血红蛋白量、平均血红蛋白浓度、血小板分布宽度以及红细胞分布宽度,每个实例数据所对应的特征是相同的,每个项目对应的体检值即为特征的原始特征值。
表1体检数据集合
Figure BDA0001757263170000091
需要说明的是,在实际应用中,针对不同应用领域,在进行数据挖掘时所获取的数据集合可能是不同的,例如,在医学领域,获取的数据集合可以为患者进行不同医学检查时产生的体征数据;在汽车领域,获取的数据集合可以为车辆在行驶过程中产生的行驶数据,如行驶速度、输出扭矩等等,本实施例对数据集合的具体表现形式不进行限定。
S102:对每个特征的原始特征值进行标准化,获得每个特征的特征值。
在本实施例中,获取的数据集合中,当每条实例数据包括多个特征时,每个特征的原始特征值对应的量纲可能不同,例如表1中,平均血红蛋白量为(pg)、平均血红蛋白浓度为(g/L),两个指标值分布在不同的数量级,为避免因量纲不同而影响后续的处理,在实际应用中,可以对每个特征的原始特征值进行标准化处理,从而将不同量纲数据转换为[-1,1]或[0,1]之间的数据,消除量纲带来的不便,从而获得每个特征的特征值。
在实际应用中,可以根据每个特征的原始特征值的不同属性采用不同的标准化处理方法,如果特征的原始特征值均为正数,则可以采用0-1标准化进行标准化处理;如果特征的原始特征值存在负数,则可以采用通用的标准化方法进行处理,下面将分别介绍两种不同的标准化处理方法。
第一种标准化处理方法
当获取的数据集合中,特征对应的所有原始特征值均为正数,则可以采用0-1标准化方法对每个原始特征值进行标准化处理。其中,0-1标准化又称离差标准化,对原始特征值进行线性变换,使结果落在[0,1]区间,转换函数如公式(1)所示:
Figure BDA0001757263170000101
其中,x为某一特征对应的原始特征值,max为某一特征对应的所有原始特征值的最大值,min为某一特征对应所有原始特征值中最小值,x*为x的特征值。
以平均血红蛋白浓度为例进行说明,max为345,min为320,通过上述转换函数转换后,Data1中平均血红蛋白浓度标准化为0.76、Data2对应的标准化为0、Data3对应的标准化为0.6、Data4对应的标准化为1。
第二种标准化处理方法
当获取的数据集合中,特征对应的原始特征值存在负数时,则可以采用公式(2)进行标准化处理:
Figure BDA0001757263170000102
其中,x为某一特征对应的原始特征值,max为某一特征对应的所有原始特征值的绝对值的最大值,x*为x的特征值。
通过上述两种标准化方法处理之后,可以得到每个特征的特征值,利用该特征值执行S103。
S103:计算每个特征的特征值的平均值以及每个特征的特征值的标准差。
针对获取的数据集合中每个特征的特征值进行求平均值,获得每个特征的特征值的平均值,然后,再根据特征的特征值的平均值求每个特征的特征值的标准差,在具体计算标准差时,可以利用标准差公式计算获得。
为便于理解,假设表1中,4条实例数据中每条实例数据对应的平均血红蛋白量的特征值为x1、x2、x3、x4;血小板分布宽度的特征值为y1、y2、y3、y4,则平均血红蛋白量的特征值的平均值μ1=(x1+x2+x3+x4)/4;标准差
Figure BDA0001757263170000111
其中,N为某特征对应的特征值的个数,xi为该特征对应的第i个特征值。则血小板分布宽度的特征值μ2=(y1+y2+y3+y4)/4;标准差
Figure BDA0001757263170000112
yi为该特征对应的第i个特征值。
S104:根据目标实例数据对应的第f个特征的特征值,第f个特征的特征值的平均值以及第f个特征的特征值的标准差,确定目标实例数据是否为可疑数据。
本实施例中,获取的实例数据中可以包括多个特征,而且每条实例数据包括的特征均相同,根据任一实例数据的每个特征的特征值,该特征值的平均值以及该特征值的标准差,可以确定出该条实例数据是否为可疑数据,从而可以确定出各条实例数据是否为可疑数据。
其中,目标实例数据为任一条实例数据,f的取值为1至n中每一个整数,n为特征的总数量。例如,表1中,每条实例数据包括4个特征,则n为4,以Data1为目标实例数据为例说明,f为1至4,则根据第1个特征的特征值、第1个特征的平均值、标准差,第2个特征的特征值、第2个特征的平均值、标准差,第3个特征的特征值、第3个特征的平均值、标准差以及第4个特征的特征值、第4个特征的平均值、标准差,共同确定Data1是否为可疑数据。根据相同的方式,可以将Data2-4分别作为目标实例数据,从而确定出Data2-4是否为可疑数据。
其中关于根据每个特征的特征值、特征值的平均值以及特征值的标准差确定目标实例数据是否为可疑数据的具体实现将在后续实施例中介绍。
S105:当确定目标实例数据为可疑数据,计算可疑数据的局部异常因子,根据可疑数据的局部异常因子,在可疑数据中确定异常数据。
当确定某实例数据为可疑数据时,则可以利用LOF算法仅计算可疑数据的局部异常因子,无需计算所有实例数据的局部异常因子。当计算所有可疑数据的局部异常因子后,可以根据每个可疑数据的局部异常因子,确定异常数据。
本实例中,关于计算可疑数据的局部异常因子的具体实现方式将在后续实施例中介绍。
在本申请实施例中一种可能实现方式中,在对每个特征的原始特征值进行标准化之前,本实施例的方法还可以包括:删除数据集合中非数值型特征以及非数值型特征的原始特征值,其中,非数值型特征的原始特征值为非数值型数据。
在实际应用中,当获取的数据集合中,实例数据包括的某特征对应的原始特征值为非数值型数据,则将该特征定义为非数值型特征。例如,采集的医学检查数据中,某体验项目的结果分为“阳性”或“阴性”,为非数值型数据,则将该项目看作为非数值型特征,由于其对于确定可疑数据不产生作用,为避免处理过程繁琐,可以删除非数值型特征以及非数值型的原始特征值。
本申请实施例可以先根据每条实施例数据对应特征的特征值的平均值以及标准差,从大量实施例数据中筛选出少量的可疑数据,然后再针对可疑数据进行LOF算法检测出异常数据,无需针对每个实例数据进行LOF算法检测,由于可疑数据的数量要远小于实例数据的数量,从而大幅减少了LOF算法的计算量,提高了检测效率。
为便于理解计算可疑数据的局部异常因子,下面将详细介绍根据LOF算法计算可疑数据的局部因子实现过程。
在本申请实施例中,在根据LOF算法计算局部异常因子时,可以将每条实例数据看作一个数据点,将可疑数据看作可疑点,只计算可疑点的局部异常因子,即计算该可疑点周围其他数据点所处位置的数据点平均密度与该可疑点所处位置的数据点平均密度之比,具体计算过程如下:
(1)计算点p到点o的距离d(p,o);其中点p为可疑点,点o为其他数据点;
(2)定义点p的第k距离:dk(p)=d(p,o),p的第k距离,是指距离点p第k远的点的距离,并满足以下两个条件:
a.在数据点集合中至少有不包括p在内的k个o’∈C{x≠p},且d(p,o’)≤d(p,o);
b.在数据点集合中最多有不包括p在内的k-1个点o’∈C{x≠p},且d(p,o’)<d(p,o)。
(3)点p的第k距离邻域:点p的第k距离邻域Nk(p),是指p的第k距离以内的所有点,包括第k距离的点。
(4)点o到点p的第k可达距离:r-dk(p,o)=max{k-d(o),d(p,o)},也就是说,点o到点p的第k可达距离,至少是点o的第k距离,或者为点o、点p间的真实距离。
(5)点p的局部可达密度表示为点p的第k邻域内点到p的平均可达距离的倒数,如公式(3)所示:
Figure BDA0001757263170000131
(6)点p的局部离群因子表示为点p的邻域点Nk(p)的局部可达密度与点p的局部可达密度之比的平均数,如公式(4)所示:
Figure BDA0001757263170000141
其中,Lk(o)为点o的局部可达密度,LOFk(p)为点p的局部异常因子。
通过上述过程,便可计算可疑点p的局部异常因子LOFk(p),如果LOFk(p)越接近1,说明点p的密度与其邻域点密度差不多,点p可能和邻域同属一簇;如果LOFk(p)越小于1,说明点p的密度高于其邻域点密度,点p为密集点;如果LOFk(p)越大于1,说明点p的密度小于其邻域点密度,点p可能为异常点。
通过本实施例提供的异常局部因子计算方法,可以计算可疑数据的局部异常因子,从而可以根据所有异常数据的局部异常因子,在可疑数据中确定异常数据,无需计算全部数据的异常因子,减少计算次数,提高效率。
在本申请实施例一种可能的实现方式中,提供了三种根据目标实例数据中第f个特征的特征值、第f个特征的特征值的平均值以及第f个特征的特征值的标准差,确定目标实例数据是否为可疑数据的具体实现方法,下面将分别介绍三种确定方法。
需要说明的是,后续实施例中的目标数据为数据集合中任意一条实例数据,也就是说,数据集合中的每一条实例数据均可以利用下述方法确定该实例数据是否为可疑数据。
为便于理解,下面将结合附图2介绍本申请实施例提供的第一种确定实例数据是否为可疑数据的方法。
参见图2,该图为本申请实施例提供的一种确定可疑数据的方法流程图,如图2所示,该方法可以包括:
S201:计算目标实例数据对应的第f个特征的特征值与第f个特征的特征值的平均值之差,得到目标实例数据的第f个特征的偏差值。
本实施例中,当计算获得每个特征的特征值的平均值后,计算某一特征的特征值与该特征的特征值平均值的差值,获得该特征的偏差值。例如,表1中,实例数据Data1中第1个特征平均血红蛋白量的特征值为x1,该特征值的平均值为μ1,则第1个特征的偏差值p1=x1-μ1。由于表1中,实例数据Data1共包括四个特征,则计算每个特征的特征值与该特征的特征值的平均值之间的偏差值。
S202:计算目标实例数据的第f个特征的偏差值的绝对值与第f个特征的特征值的标准差之比,得到目标实例数据的第f个特征的评价值。
本实例中,第f个特征的偏差值等于特征值与平均值的差值,可以理解的是,特征值可能小于平均值,此时,偏差值小于零,而本实施例中需要计算偏差值与标准差的比值,即评价值,该评价值用于表征特征值的偏移度,通常情况为正数,所以,在计算第f个特征的偏差值与第f个特征的特征值的标准差之比之前,需要将偏差值取绝对值,然后再计算比值。
例如,实例数据Data1中第1个特征平均血红蛋白量的偏差值p1=x1-μ1,标准差为σ1,则评价值I1=|x1-μ1|/σ1。
在实际应用中,可以利用公式(5)计算各个特征的评价值:
Ii=|(Fi ff)|/σf 0≤f≤n (5)
其中,σf为第f个特征的标准差,μf为第f个特征的平均值,Fi f为第i个实例数据的第f个特征的特征值,第i个实例数据可以视为目标实例数据,Ii为第i个实例数据的各个特征的评价值,i的取值可以为1至实例数据总数量中的每一个整数值。
S203:取目标实例数据的各个特征的评价值的最大值,判断最大值是否大于第一阈值,如果是,执行S204;如果否,执行S205。在实际应用中,针对第i个实例数据中每个特征计算其对应的评价值,选择各个特征的评价值的最大值max|(Fi ff)|/σf,并判断该最大值与第一阈值之间的关系,当最大值大于第一阈值时,执行S204;当最大值小于或等于第一阈值时,执行S205。
其中,第一阈值为经验值,通常情况下,第一阈值为3,其具体可以根据实际情况对第一阈值进行设定,本实施例对第一阈值的具体取值不进行限定。
S204:确定目标实例数据为可疑数据。
当某实例数据的各个特征的评价值的最大值大于第一阈值,则将该实例数据确定为可疑数据,然后可以利用LOF算法计算该实例数据的局部异常因子。
S205:确定所述目标实例数据不是可疑数据。
当某实例数据的各个特征的评价值的最大值小于或等于第一阈值,则将该实例数据确定不是可疑数据,则无需计算该实例数据的局部异常因子,减少计算次数。
根据大数定理,当一个连续性属性在大数量随机取样的情况下,概率分布趋近于正态分布,则正态分布两端的数据可能存在异常,这样在本实施例中,如果当某一目标实例数据中的某一个特征的偏差较大,例如某个特征的偏差值与标准差的比值超过了三倍,则可以将该目标实例数据确定为可疑数据。
参见图3,该图为本申请实施例提供的另一种确定可疑数据的方法流程图,如图3所示,该方法可以包括:
S301:计算目标实例数据对应的第f个特征的特征值与第f个特征的特征值的平均值之差,得到目标实例数据的第f个特征的偏差值。
本实例中,S301与S201具有相同的技术实现,具体可以参见S201,本实施例在此不再赘述。
S302:将目标实例数据的各个特征的偏差值的绝度值进行求和,得到目标实例数据的第一求和结果。
本实施例中,将目标实例数据中各个特征的偏差值取绝对值,然后相加,获得目标第一求和结果,在具体实现时,针对每条实例数据都进行上述计算操作,具体可以公式(6)计算获得:
Figure BDA0001757263170000171
其中,μf为第f个特征的平均值,Fi f为第i个实例数据的第f个特征的特征值,sumi为第i个实例数据的第一求和结果。
S303:将目标实例数据对应的第f个特征的特征值的标准差乘以第二阈值,得到目标实例数据的第f个特征的多倍标准差。
本实例中,首先计算获得目标实例数据对应的每个特征的特征值的标准差,然后将每个特征的特征值的标准差乘以第二阈值,获得目标实例数据每个特征的多倍标准差。其中,第二阈值为经验值,通常情况下,可以取3,在实际应用中,可以根据实际情况进行设定,本实施例对第二阈值的具体取值不进行限定。
S304:将所述目标实例数据的各个特征的多倍标准差进行求和,得到目标实例数据的第二求和结果。
针对目标实例数据的多个特征,计算多个特征的多倍标准差的和值,将该和值确定为目标实例数据的第二求和结果,具体实现时,可以利用公式(7)计算获得:
Figure BDA0001757263170000172
其中,α为第二阈值,σf为第i个实例数据的第f个特征的标准差,sum为第i个实例数据的第二求和结果。
S305:判断目标实例数据的第一求和结果是否大于目标实例数据的第二求和结果,如果是,执行S306;如果否,执行S307。
在实际应用中,针对目标实例数据计算的第一求和结果和第二求和结果,判断二者之间的关系,当第一求和结果大于第二求和结果时,执行S306;当第一求和结果小于或等于第二求和结果时,执行S307。
S306:确定目标实例数据为可疑数据。
当目标实例数据的第一求和结果大于第二求和结果时,将目标数据确定为可疑数据,然后可以利用LOF算法计算目标实例数据的局部异常因子。
S307:确定目标实例数据不是可疑数据。
当目标实例数据的第一求和结果小于或等于目标实例数据的第二求和结果,则确定该目标实例数据不是可疑数据,则无需计算该目标实例数据的局部异常因子,减少计算次数,提高效率。
在本实施例中,综合考虑了目标实例数据中各个特征的偏差度,当各个特征的偏差度之和超过了各个特征的多倍标准差,则认为目标实例数据为可疑数据,综合考虑目标实例数据中各个特征,可以使可疑数据的确定过程更为准确。
参见图4,该图为本申请实施例提供的另一种确定可疑数据的方法流程图,如图4所示,该方法可以包括:
S401:计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到目标实例数据的第f个特征的偏差值。
本实施例中,S401与S201具有相应的技术实现,具体可以参见S201,本实施例在此不再赘述。
S402:将目标实例数据的第f个特征的偏差值与所述第f个特征的权重值相乘,得到所述目标实例数据的第f个特征的加权偏差值。
本实例中,可以预先为实例数据中的每个特征设置权重值,当获取目标实例数据中第f个特征的偏差值时,与该特征对应的权重值相乘,得到目标实例数据的第f个特征的加权偏差值。
其中,权重值为经验值,用于反映该特征的重要程度,在实际应用中,可以根据实际情况进行设定,本实施例在此不进行限定。
在一种可能的实现方式中,第f个特征的权重值可以为第f个特征的原始特征值的平均值,也就是说,计算所有实例数据中的第f个特征的原始特征值的平均值,该平均值即为第f个特征的权重值。在实际应用时,针对每个特征均进行原始特征值的平均值计算,获得每个特征的权重值,然后将每个特征偏差值的绝对值与该特征对应的权重值相乘,得到该特征的加权偏差值。
S403:将目标实例数据的各个特征的加权偏差值的绝对值进行求和,得到目标实例数据的第三求和结果。
本实施例中,将针对目标实例数据中各个特征计算获得的加权偏差值相加,将和值作为目标实例数据的第三求和结果,具体实现时,可以利用公式(8)计算获得:
Figure BDA0001757263170000191
其中,avgf为第f个特征的原始特征值的平均值,或者预先设定的经验值,即权重值,μf为第f个特征的平均值,Fi f为第i个实例数据的第f个特征的特征值,sumi为第i个实例数据的第三求和结果。
S404:将目标实例数据对应的第f个特征的特征值的标准差乘以第二阈值,得到目标实例数据的第f个特征的多倍标准差。
本实施例中,S404与S303具有相同的技术实现,具体可以参见S303,本实施例在此不再赘述。
S405:将目标实例数据的第f个特征的多倍标准差与第f个特征的权重值相乘,得到目标实例数据的第f个特征的加权多倍标准差。
本实施例中,由于S402中将第f个特征的偏差值的绝对值与第f特征的权重值相乘,为保证后续在进行比较时,两个比较参数具有相同的数量级,需要将获得第f个特征的多倍标准差与第f个特征的权重值相乘,将乘积作为目标实例数据的第f个特征的加权多倍标准差。
S406:将目标实例数据的各个特征的加权多倍标准差进行求和,得到目标实例数据的第四求和结果。
针对目标实例数据的多个特征,计算多个特征各自对应的加权多倍标准差的和值,得到目标实例数据的第四求和结果,具体可以利用公式(9)计算获得:
Figure BDA0001757263170000201
其中,α为第二阈值,σf为目标实例数据第f个特征的标准差,α*σf为目标实例数据第f个特征的多倍标准差,avgf*α*σf为第i个实例数据的第f个特征的加权多倍标准差,sum为第i个实例数据的第四求和结果。
S407:判断目标实例数据的第三求和结果是否大于第四求和结果,如果是,则执行S408;否则,执行S409。
S408:确定目标实例数据为可疑数据。
在实际应用中,当目标实例数据的第三求和结果大于所述目标实例数据的第四求和结果,将目标实例数据确定为可疑数据,然后可以利用LOF算法计算目标实例数据的局部异常因子。
S409:确定目标实例数据不是可疑数据。
当目标实例数据的第三求和结果小于或等于所述目标实例数据的第四求和结果,确定所述目标实例数据不是可疑数据,则无需计算该目标实例数据的局部异常因子,减少计算次数,提高效率。
在本实施例中,不仅综合考虑了目标实例数据中各个特征的偏差度,还设定了各个特征的权重值,使在可疑数据确定中,使更为重要的特征所占的评价比例更高,使可疑数据的确定过程更为准确。
通过上述确定可疑数据的方法实施例可知,通过上述方法,可以先对获取的数据集合中的每条实例数据进行可疑数据判断,从大量实施例数据中筛选出少量的可疑数据,当确定某实例数据为可疑数据时,再对该可疑数据进行局部异常因子计算,从而大幅减少了LOF算法的计算量,提高了检测效率。
基于上述方法实施例,本申请还提供了一种异常数据的检测装置,下面将结合附图对该装置进行说明。
参见图5,其示出了本申请实施例提供的一种网络请求的处理装置结构图,如图5所示,该装置可以包括:
获取单元501,用于获取数据集合,所述数据集合中包括至少一条实例数据,每条所述实例数据对应有相同的至少一个特征,每条所述实例数据包括每个特征的原始特征值;
处理单元502,用于对每个特征的原始特征值进行标准化,获得每个特征的特征值;
计算单元503,用于计算每个特征的特征值的平均值以及每个特征的特征值的标准差;
第一确定单元504,用于根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,所述目标实例数据为任一条所述实例数据,f的取值为1至n中的每一个整数,n为特征的总数量;
第二确定单元505,用于当确定所述目标实例数据为可疑数据,计算所述可疑数据的局部异常因子,根据所述可疑数据的局部异常因子,在所述可疑数据中确定异常数据。
在一些可能的实现方式中,所述第一确定单元具体包括:
第一计算子单元,计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;
第二计算子单元,用于计算所述目标实例数据的第f个特征的偏差值的绝对值与所述第f个特征的特征值的标准差之比,得到所述目标实例数据的第f个特征的评价值;
第一确定子单元,用于取所述目标实例数据的各个特征的评价值的最大值,如果所述最大值大于第一阈值,确定所述目标实例数据为可疑数据,如果所述最大值小于或等于所述第一阈值,确定所述目标实例数据不是可疑数据。
在一些可能的实现方式中,所述第一确定单元具体包括:
第三计算子单元,用于计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;
第一求和子单元,用于将所述目标实例数据的各个特征的偏差值的绝对值进行求和,得到所述目标实例数据的第一求和结果;
第四计算子单元,用于将所述目标实例数据对应的第f个特征的特征值的标准差乘以第二阈值,得到所述目标实例数据的第f个特征的多倍标准差;
第二求和子单元,用于将所述目标实例数据的各个特征的多倍标准差进行求和,得到所述目标实例数据的第二求和结果;
第二确定子单元,用于如果所述目标实例数据的第一求和结果大于所述目标实例数据的第二求和结果,确定所述目标实例数据为可疑数据,如果所述目标实例数据的第一求和结果小于或等于所述目标实例数据的第二求和结果,确定所述目标实例数据不是可疑数据。
在一些可能的实现方式中,所述第一确定单元具体包括:
第五计算子单元,用于计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;
第一相乘子单元,用于将所述目标实例数据的第f个特征的偏差值与所述第f个特征的权重值相乘,得到所述目标实例数据的第f个特征的加权偏差值;
第三求和子单元,用于将所述目标实例数据的各个特征的加权偏差值的绝对值进行求和,得到所述目标实例数据的第三求和结果;
第二相乘子单元,用于将所述目标实例数据对应的第f个特征的特征值的标准差乘以第二阈值,得到所述目标实例数据的第f个特征的多倍标准差;
第三相乘子单元,用于将所述目标实例数据的第f个特征的多倍标准差与所述第f个特征的权重值相乘,得到所述目标实例数据的第f个特征的加权多倍标准差;
第四求和子单元,用于将所述目标实例数据的各个特征的加权多倍标准差进行求和,得到所述目标实例数据的第四求和结果;
第三确定子单元,用于如果所述目标实例数据的第三求和结果大于所述目标实例数据的第四求和结果,确定所述目标实例数据为可疑数据,如果所述目标实例数据的第三求和结果小于或等于所述目标实例数据的第四求和结果,确定所述目标实例数据不是可疑数据。
在一些可能的实现方式中,所述第f个特征的权重值为所述第f个特征的原始特征值的平均值。
在一些可能的实现方式中,所述装置还包括:
删除单元,用于在执行所述处理单元之前,删除所述数据集合中非数值型特征以及所述非数值型特征的原始特征值,所述非数值型特征的原始特征值为非数值型数据。
另外,本申请实施例还提供一种计算机可读存储介质,所述机算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述的异常数据检测的方法。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述的异常数据检测方法。
由上述实施例可以看出,本申请实施例首先根据每条实例数据对应特征的特征平均值、特征标准差,在大量实例数据中先筛选出少量的可疑数据,再针对可疑数据通过LOF算法检测异常数据,不再针对每条实例数据进行LOF算法的检测,由于可疑数据的数量要远小于实例数据的数量,从而大幅减少了LOF算法的计算量。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (5)

1.一种异常数据的检测方法,其特征在于,所述方法包括:
获取数据集合,所述数据集合中包括至少一条实例数据,每条所述实例数据对应有相同的至少一个特征,每条所述实例数据包括每个特征的原始特征值;
对每个特征的原始特征值进行标准化,获得每个特征的特征值;
计算每个特征的特征值的平均值以及每个特征的特征值的标准差;
根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,所述目标实例数据为任一条所述实例数据,f的取值为1至n中的每一个整数,n为特征的总数量;
当确定所述目标实例数据为可疑数据,计算所述可疑数据的局部异常因子,根据所述可疑数据的局部异常因子,在所述可疑数据中确定异常数据;
所述根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,包括:
计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;
计算所述目标实例数据的第f个特征的偏差值的绝对值与所述第f个特征的特征值的标准差之比,得到所述目标实例数据的第f个特征的评价值;
取所述目标实例数据的各个特征的评价值的最大值,如果所述最大值大于第一阈值,确定所述目标实例数据为可疑数据,如果所述最大值小于或等于所述第一阈值,确定所述目标实例数据不是可疑数据;
或者,所述根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,包括:
计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;
将所述目标实例数据的各个特征的偏差值的绝对值进行求和,得到所述目标实例数据的第一求和结果;
将所述目标实例数据对应的第f个特征的特征值的标准差乘以第二阈值,得到所述目标实例数据的第f个特征的多倍标准差;
将所述目标实例数据的各个特征的多倍标准差进行求和,得到所述目标实例数据的第二求和结果;
如果所述目标实例数据的第一求和结果大于所述目标实例数据的第二求和结果,确定所述目标实例数据为可疑数据,如果所述目标实例数据的第一求和结果小于或等于所述目标实例数据的第二求和结果,确定所述目标实例数据不是可疑数据;
或者,所述根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,包括:
计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;
将所述目标实例数据的第f个特征的偏差值与所述第f个特征的权重值相乘,得到所述目标实例数据的第f个特征的加权偏差值;
将所述目标实例数据的各个特征的加权偏差值的绝对值进行求和,得到所述目标实例数据的第三求和结果;
将所述目标实例数据对应的第f个特征的特征值的标准差乘以第二阈值,得到所述目标实例数据的第f个特征的多倍标准差;
将所述目标实例数据的第f个特征的多倍标准差与所述第f个特征的权重值相乘,得到所述目标实例数据的第f个特征的加权多倍标准差;
将所述目标实例数据的各个特征的加权多倍标准差进行求和,得到所述目标实例数据的第四求和结果;
如果所述目标实例数据的第三求和结果大于所述目标实例数据的第四求和结果,确定所述目标实例数据为可疑数据,如果所述目标实例数据的第三求和结果小于或等于所述目标实例数据的第四求和结果,确定所述目标实例数据不是可疑数据。
2.根据权利要求1所述的方法,其特征在于,所述第f个特征的权重值为所述第f个特征的原始特征值的平均值。
3.根据权利要求1或2所述的方法,其特征在于,在对每个特征的原始特征值进行标准化之前,所述方法还包括:
删除所述数据集合中非数值型特征以及所述非数值型特征的原始特征值,所述非数值型特征的原始特征值为非数值型数据。
4.一种异常数据的检测装置,其特征在于,所述装置包括:
获取单元,用于获取数据集合,所述数据集合中包括至少一条实例数据,每条所述实例数据对应有相同的至少一个特征,每条所述实例数据包括每个特征的原始特征值;
处理单元,用于对每个特征的原始特征值进行标准化,获得每个特征的特征值;
计算单元,用于计算每个特征的特征值的平均值以及每个特征的特征值的标准差;
第一确定单元,用于根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,所述目标实例数据为任一条所述实例数据,f的取值为1至n中的每一个整数,n为特征的总数量;
第二确定单元,用于当确定所述目标实例数据为可疑数据,计算所述可疑数据的局部异常因子,根据所述可疑数据的局部异常因子,在所述可疑数据中确定异常数据;
所述第一确定单元具体包括:
第一计算子单元,计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;
第二计算子单元,用于计算所述目标实例数据的第f个特征的偏差值的绝对值与所述第f个特征的特征值的标准差之比,得到所述目标实例数据的第f个特征的评价值;
第一确定子单元,用于取所述目标实例数据的各个特征的评价值的最大值,如果所述最大值大于第一阈值,确定所述目标实例数据为可疑数据,如果所述最大值小于或等于所述第一阈值,确定所述目标实例数据不是可疑数据;
或者,所述第一确定单元具体包括:
第三计算子单元,用于计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;
第一求和子单元,用于将所述目标实例数据的各个特征的偏差值的绝对值进行求和,得到所述目标实例数据的第一求和结果;
第四计算子单元,用于将所述目标实例数据对应的第f个特征的特征值的标准差乘以第二阈值,得到所述目标实例数据的第f个特征的多倍标准差;
第二求和子单元,用于将所述目标实例数据的各个特征的多倍标准差进行求和,得到所述目标实例数据的第二求和结果;
第二确定子单元,用于如果所述目标实例数据的第一求和结果大于所述目标实例数据的第二求和结果,确定所述目标实例数据为可疑数据,如果所述目标实例数据的第一求和结果小于或等于所述目标实例数据的第二求和结果,确定所述目标实例数据不是可疑数据;
或者,所述第一确定单元具体包括:
第五计算子单元,用于计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;
第一相乘子单元,用于将所述目标实例数据的第f个特征的偏差值与所述第f个特征的权重值相乘,得到所述目标实例数据的第f个特征的加权偏差值;
第三求和子单元,用于将所述目标实例数据的各个特征的加权偏差值的绝对值进行求和,得到所述目标实例数据的第三求和结果;
第二相乘子单元,用于将所述目标实例数据对应的第f个特征的特征值的标准差乘以第二阈值,得到所述目标实例数据的第f个特征的多倍标准差;
第三相乘子单元,用于将所述目标实例数据的第f个特征的多倍标准差与所述第f个特征的权重值相乘,得到所述目标实例数据的第f个特征的加权多倍标准差;
第四求和子单元,用于将所述目标实例数据的各个特征的加权多倍标准差进行求和,得到所述目标实例数据的第四求和结果;
第三确定子单元,用于如果所述目标实例数据的第三求和结果大于所述目标实例数据的第四求和结果,确定所述目标实例数据为可疑数据,如果所述目标实例数据的第三求和结果小于或等于所述目标实例数据的第四求和结果,确定所述目标实例数据不是可疑数据。
5.一种计算机可读存储介质,其特征在于,所述计 算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-3任一项所述的异常数据的检测方法。
CN201810892319.8A 2018-08-07 2018-08-07 一种异常数据的检测方法及装置 Active CN109144988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810892319.8A CN109144988B (zh) 2018-08-07 2018-08-07 一种异常数据的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810892319.8A CN109144988B (zh) 2018-08-07 2018-08-07 一种异常数据的检测方法及装置

Publications (2)

Publication Number Publication Date
CN109144988A CN109144988A (zh) 2019-01-04
CN109144988B true CN109144988B (zh) 2021-02-23

Family

ID=64791883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810892319.8A Active CN109144988B (zh) 2018-08-07 2018-08-07 一种异常数据的检测方法及装置

Country Status (1)

Country Link
CN (1) CN109144988B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948684B (zh) * 2019-03-12 2022-01-18 阿波罗智能技术(北京)有限公司 激光雷达点云数据标注质量的质检方法、装置及设备
CN110009469B (zh) * 2019-03-19 2023-09-12 创新先进技术有限公司 资金流数据的异常检测方法、装置及设备
CN110188094A (zh) * 2019-05-29 2019-08-30 国网山东省电力公司电力科学研究院 一种基于lof算法的主变油色谱数据清洗方法
CN110557402A (zh) * 2019-09-25 2019-12-10 北京天融信网络安全技术有限公司 异常流量的检测方法及装置
CN111783028B (zh) * 2020-06-29 2023-04-28 重庆电子工程职业学院 数据筛选补偿算法
CN112800068B (zh) * 2021-02-22 2023-05-12 首钢京唐钢铁联合有限责任公司 一种能源计量数据自动处理的方法及装置
CN112860524A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 异常行为检测方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463137A (zh) * 2014-12-18 2015-03-25 上海交通大学 基于特征空间***的异常人脸图像检测方法及***
JP2016217992A (ja) * 2015-05-25 2016-12-22 日本無線株式会社 測位装置、速度検知装置および状態事象識別装置
CN106951353A (zh) * 2017-03-20 2017-07-14 北京搜狐新媒体信息技术有限公司 作业数据异常检测方法及装置
CN108319981A (zh) * 2018-02-05 2018-07-24 清华大学 一种基于密度的时序数据异常检测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463137A (zh) * 2014-12-18 2015-03-25 上海交通大学 基于特征空间***的异常人脸图像检测方法及***
JP2016217992A (ja) * 2015-05-25 2016-12-22 日本無線株式会社 測位装置、速度検知装置および状態事象識別装置
CN106951353A (zh) * 2017-03-20 2017-07-14 北京搜狐新媒体信息技术有限公司 作业数据异常检测方法及装置
CN108319981A (zh) * 2018-02-05 2018-07-24 清华大学 一种基于密度的时序数据异常检测方法及装置

Also Published As

Publication number Publication date
CN109144988A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109144988B (zh) 一种异常数据的检测方法及装置
Thomas Retrospective power analysis
US7958559B2 (en) Method, device and computer program product for determining a malicious workload pattern
CN110532119B (zh) 动力***运行异常点检测方法
CN111191601B (zh) 同行用户识别方法、装置、服务器及存储介质
CN111314173A (zh) 监控信息异常的定位方法、装置、计算机设备及存储介质
CN111626360B (zh) 用于检测锅炉故障类型的方法、装置、设备和存储介质
CN107071788B (zh) 一种认知无线网络中的频谱感知方法及装置
US8060577B1 (en) Method and system for employing user input for file classification and malware identification
CN107276779B (zh) 一种监控方法、***及设备
CN111191671A (zh) 一种用电器波形检测方法、***、电子设备及存储介质
CN115359846A (zh) 一种组学数据的批次矫正方法、装置、存储介质及电子设备
US9547768B2 (en) Privacy measurement and quantification
KR20220073732A (ko) 분석물질 레벨의 적응적 정규화를 위한 방법, 장치 및 컴퓨터 판독가능 매체
CN112347474A (zh) 一种安全威胁情报的构建方法、装置、设备和存储介质
CN114157480A (zh) 网络攻击方案的确定方法、装置、设备和存储介质
CN113901441A (zh) 一种用户异常请求检测方法、装置、设备及存储介质
CN113434823B (zh) 数据采集任务异常预警方法、装置、计算机设备和介质
McKeague et al. Significance testing for canonical correlation analysis in high dimensions
Wagner The XL-mHG test for gene set enrichment
CN104050070B (zh) 一种分布式***中高维流量数据变化点检测方法
CN110008589B (zh) 设备感染预测方法及***
CN116582345A (zh) 文件下载行为异常检测方法、装置、电子设备及存储介质
CN109842586B (zh) 异常网络流量检测方法、装置和存储介质
CN117473513B (zh) 一种设备检测方法、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant