CN110348508A - 检验异常值的数据核验方法及其***、电子设备 - Google Patents
检验异常值的数据核验方法及其***、电子设备 Download PDFInfo
- Publication number
- CN110348508A CN110348508A CN201910601163.8A CN201910601163A CN110348508A CN 110348508 A CN110348508 A CN 110348508A CN 201910601163 A CN201910601163 A CN 201910601163A CN 110348508 A CN110348508 A CN 110348508A
- Authority
- CN
- China
- Prior art keywords
- sample
- exceptional
- detected
- outlier detection
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Complex Calculations (AREA)
Abstract
本发明所提供的一种检验异常值的数据核验方法,其包括提供至少两种异常检测算法并赋予其初始权重,并给不同的异常检测算法进行赋权,对数据调用不同种异常检测算法并结合不同算法的权重值给得到的待选异常样本赋予异常权重,当待检测样本的异常权重超过预设阈值,则对应待检测样本被判定为实际异常样本。基于上述的方法,可方便调用多种异常检测算法,并且可以基于权重值的分配,将不同异常检测算法的优势进行结合,从而可增加被检测异常值的置信度。本发明还提供一种检验异常值的数据核验***及一种电子设备,具有与上述基于检验异常值的数据核验方法相同的有益效果。
Description
【技术领域】
本发明涉及数据核验领域,其特别涉及一种检验异常值的数据核验方法及其***、电子设备。
【背景技术】
在机器学习中数据预处理阶段,由于数据处理准确度的需要,将数据集中的异常值进行检测。异常检测(Anomaly Detection)是为了发现运维中偏离正常值的异常数据,其基本检测思路可包括用正常的数据去训练模型,得到对应的值,然后再基于获得的值去判断新的数据是否存在异常。现有多种异常检测算法,但是每种异常检测算法中均有不同的检测方式及其运算标准,各个异常检测算法中具有不同的准确度。基于现有技术难以调用多种算法来检测异常值。
因此,亟待提供一种可有效解决上述数据核验异常值处理的新型技术方案。
【发明内容】
为解决现有异常检测存在的技术问题,本发明提供一种检验异常值的数据核验方法及其***、电子设备。
本发明为解决上述技术问题,提供如下的技术方案:一种检验异常值的数据核验方法,其包括以下步骤:步骤S1,提供至少两种异常检测算法并赋予其初始权重;步骤S2,采用所述异常检测算法对多个待检测样本进行检测,并获得与待检测样本对应的待选异常样本;步骤S3,将所述异常检测算法的初始权重作为与待检测样本对应的待选异常样本的异常权重;及步骤S4,设定一预设阈值,当所述异常权重超过预设阈值,则对应待检测样本被判定为实际异常样本。
优选地,在上述步骤S3中,当同一待检测样本被两个及以上异常检测算法选出为待选异常样本时,则该待检测样本的异常权重为多个待选异常样本的异常权重的累积值。
优选地,在上述步骤S3中进一步包括:步骤S31,基于初始权重给基于对应异常检测算法获得每个待选异常样本赋予对应的权重值;步骤S32,依次获取不同待检测样本在不同种异常检测算法对应待选异常样本的权重值;及步骤S33,将同一待检测样本对应的多个待选异常样本的权重值进行累积,获得与待检测样本对应的异常权重。
优选地,所述异常检测算法包括基于原则的异常检测算法、基于箱线图的异常检测算法、基于模型检测的异常检测算法、基于近邻度的离群点检测的异常检测算法或基于密度的离群点检测的异常检测算法中一种或几种的组合。
优选地,在上述步骤S2中,还包括:将与同一待检测样本对应的待选异常样本存储以形成待选异常样本集合。
优选地,在上述步骤S1中,具体可基于待检测样本的数据类型选取至少两种异常检测算法,且对每种异常检测算法赋予初始权重。
本发明为解决上述技术问题,提供又一技术方案如下:一种检验异常值的数据核验***,其包括:算法权重获取模块,被配置为用于提供至少两种异常检测算法并对应赋予初始权重;检测待选异常样本模块,被配置为用于采用所述异常检测算法对多个待检测样本进行检测,并获得与待检测样本对应的待选异常样本;待选异常样本赋权模块,被配置为用于将所述异常检测算法的初始权重作为与待检测样本对应的待选异常样本的异常权重;及权重比较模块,被配置为用于设定一预设阈值,当所述异常权重超过预设阈值,则对应待检测样本被判定为实际异常样本。
优选地,所述检测待选异常样本模块进一步包括:算法检测模块,被配置为用于采用选取的异常检测算法对所述待检测样本进行检测;及待选异常样本判定模块,被配置为用于利用异常检测算法对待检测样本进行检测,得出对应的待检测样本为待选异常样本,并将对应的待检测样本存储以形成待选异常样本集合。
优选地,所述待选异常样本赋权模块进一步包括:权重值赋值模块,被配置为用于基于初始权重给对应不同种异常检测算法获得的每个待选异常样本赋予对应的权重值;权重值获取模块,被配置为用于依次获取不同待检测样本在不同种异常检测算法对应待选异常样本的权重值;及权重值累积模块,被配置为用于将同一待检测样本对应的多个待选异常样本的权重值进行累积,获得与待检测样本对应的异常权重。
本发明为解决上述技术问题,提供又一技术方案如下:一种电子设备,其包括存储单元和处理单元,所述存储单元用于存储计算机程序,所述处理单元用于通过所述存储单元存储的计算机程序执行如上所述基于检验异常值的数据核验方法的步骤。
与现有技术相比,本发明所提供一种检验异常值的数据核验方法及其***、电子设备具有如下的有益效果:
本发明所提供的一种检验异常值的数据核验方法,可基于所需要检测异常值的数据选择合适的异常检测算法的特点,并可进一步基于数据的特点赋予不同异常检测算法对应的初始权重,对数据调用某几种异常检测算法并结合不同算法的权重值给得到的待选异常样本赋予异常权重,当待检测样本的异常权重超过预设阈值,则对应待检测样本被判定为实际异常样本。基于上述的方法,可方便调用多种异常检测算法,并且可以基于权重值的分配,将不同异常检测算法的优势进行结合,从而可增加被检测异常值的置信度。
进一步地,当某一待检测样本被多种异常检测算法选出时,则其对应的待选异常样本的权重会累积,因此,可基于同一待检测样本在不同异常检测算法检出的结果进行累加,则可综合多个待检测样本在不同异常检测算法中的判断结果,从而可进一步提高所述待选异常样本检测的置信度。
在本发明中,对所述异常检测算法的具体类型的限定,可提高检验异常值的数据核验方法的适用性,具体可基于待检测样本的特点选择适合的异常检测算法,从而也可提高异常检测算法的准确度。
在本发明中,采用至少两种异常检测算法对多个待检测样本进行检测,并获得与待检测样本对应的待选异常样本后,可进一步将与同一待检测样本对应的待选异常样本存储以形成待选异常样本集合,形成的异常数据集合可便于后续对待检测样本的异常值的进一步检测和评估。
本发明还提供一种检验异常值的数据核验***及一种电子设备,具有与上述基于检验异常值的数据核验方法相同的有益效果,可以可方便调用多种异常检测算法,并且可以基于权重值的分配,将不同异常检测算法的优势进行结合,从而可增加被检测异常值的置信度。
【附图说明】
图1是本发明第一实施例中所提供的检验异常值的数据核验方法的步骤流程示意图。
图2是图1中所示步骤S2中的细分步骤流程示意图。
图3是图1中所示步骤S3中的细分步骤流程示意图。
图4是本发明第二实施例中所提供的检验异常值的数据核验***的功能模块示意图。
图5是图4中所示检测待选异常样本模块的具体功能模块示意图。
图6是图4中所示待选异常样本赋权模块的具体功能模块示意图。
图7是本发明第三实施例中所提供的电子设备的功能模块示意图。
附图标识说明:
20、检验异常值的数据核验***;21、算法权重获取模块;22、检测待选异常样本模块;23、待选异常样本赋权模块;24、权重比较模块;221、算法检测模块;222、待选异常样本判定模块;231、权重值赋值模块;232、权重值获取模块;233、权重值累积模块;30、电子设备;31、存储单元;32、处理单元。
【具体实施方式】
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明的第一实施例提供一种检验异常值的数据核验方法S10,其包括以下步骤:
步骤S1,提供至少两种异常检测算法并赋予其初始权重;
步骤S2,采用所述异常检测算法对多个待检测样本进行检测,并获得与待检测样本对应的待选异常样本;
步骤S3,将所述异常检测算法的初始权重作为与待检测样本对应的待选异常样本的异常权重;及
步骤S4,设定一预设阈值,当所述异常权重超过预设阈值,则对应待检测样本被判定为实际异常样本。
上述步骤S1中,基于待检测样品数据的类型和数量,选取与之匹配的异常检测算法,并对选取的每种异常检测算法进行赋予初始权重。具体地,选取异常检测算法可考虑不同种类异常检测算法的特点选取。而对于不同异常检测算法赋予的初始权重则可基于对应异常检测算法的对待检测样本的优势和精准度而决定。在本发明中,具体每种异常检测算法的初始权重可根据经验值获得。
在本发明中,所述异常检测算法为非监督学习算法,在本发明中,所述异常检测算法可包括但不受限于:基于原则的异常检测算法、基于箱线图的异常检测算法、基于模型检测的异常检测算法、基于近邻度的离群点检测的异常检测算法或基于密度的离群点检测的异常检测算法等中一种或几种的组合。上述多种异常检测算法具体可解释如下:
一、在基于原则的异常检测算法中,如果数据服从正态分布,在原则下,异常值为一组测定值中与平均值的偏差超过3倍标准差的值。正负的概率是99.7%,那么距离平均值之外的值出现的概率为0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。
二、在基于箱线图的异常检测算法中,其是利用箱型图的四分位距(Interquartile Range,IQR)对异常值进行检测。其中,四分位距(IQR)就是上四分位与下四分位的差值。而我们通过四分位距(IQR)的1.5倍为标准,进一步规定超过上四分位数+1.5倍四分位距(IQR)距离,或者下四分位数-1.5倍四分位距(IQR)距离的点为异常值,其中,四分位距(IQR)表示为Q3-Q1。
三、在基于模型检测的异常检测算法中,先构建一个概率分布模型,并计算对象符合该模型的概率,把具有低概率的对象视为异常点。异常是那些同模型不能完美拟合的对象,如通过估计概率分布的参数来创建模型,如果一个对象不能很好的同该模型拟合,则它是一个异常。例如,如果模型是簇的集合,则异常值是不显著属于任何簇的对象;如果模型是回归时,异常值是相对远离预测值的对象。离群点的概率定义:离群点是一个对象,关于数据的概率分布模型,它具有低概率。这种情况的前提是必须知道数据集服从什么分布,如果估计错误就造成了重尾分布(Heavy-tailed Distribution)。
四、在基于近邻度的离群点检测的异常检测算法中,通常可以在对象之间定义邻近性度量,异常对象是那些远离其他对象的对象。利用数据的分布来观察异常值,一些方法甚至需要一些分布条件,而在实际中数据的分布很难达到一些假设条件,在使用上有一定的局限性。确定数据集的有意义的邻近性度量比确定它的统计分布更容易。这种方法比统计学方法更一般、更容易使用,因为一个对象的离群点得分由到它的k-最近邻(KNN,k-nearest neighbors)的距离给定。需要注意的是:离群点得分对k的取值高度敏感。如果k太小,则少量的邻近离群点可能导致较低的离群点得分;如果K太大,则点数少于k的簇中所有的对象可能都成了离群点。为了使该方案对于k的选取更具有鲁棒性,可以使用k个最近邻的平均距离。
五、在基于密度的离群点检测的异常检测算法中,当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。基于密度的离群点检测与基于邻近度的离群点检测密切相关,因为密度通常用邻近度定义。一种常用的定义密度的方法是,定义密度为到k个最近邻的平均距离的倒数。如果该距离小,则密度高,反之亦然。另一种密度定义是使用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法使用的密度定义,即一个对象周围的密度等于该对象指定距离d内对象的个数。
六、在基于聚类的离群点检测的异常检测算法中,首先聚类所有的待测样本点,对某个待测样本点评估其属于某一簇的程度,方法是设定一目标函数,如果删去此点能显著地改善此项目标函数,则可以将该点定位为孤立点。进一步地,属于某一簇的程度还可理解为离群点得分,在这种方法中,可以用对象到它的簇中心的距离来度量属于簇的程度。评估对象属于簇的程度(离群点得分)主要有两种方法:一是度量对象到簇原型的距离,并用它作为该对象的离群点得分;二是考虑到簇具有不同的密度,可以度量簇到原型的相对距离,相对距离是点到质心的距离与簇中所有点到质心距离的中位数之比。
例如,在本实施例中,基于待检测样本的特点,调用上述基于原则的异常检测算法、基于模型检测的异常检测算法及基于密度的离群点检测的异常检测算法这3种异常检测算法,其中,这些异常检测算法对应的权重为0.5、0.1及0.4。
请参阅图2,在上述步骤S2中,采用至少两种异常检测算法对多个待检测样本进行检测,并获得与待检测样本对应的待选异常样本,具体包括以下步骤:
步骤S21,采用选取的异常检测算法对所有待检测样本进行检测;及
步骤S22,不同种异常检测算法对检测出异常值的待检测样本对应输出待选异常样本。
进一步地,为了更好地对待检测样本的异常检测的置信度进行评估,因此,在上述步骤S22之后,还包括:
将与同一待检测样本对应的待选异常样本存储以形成待选异常样本集合。
例如,假设待检测样本的数量为10个,分别编号为1-10,采用上述3种异常检测算法进行检测,其中,基于原则的异常检测算法检出编号1、3、6及7的待检测样本为待选异常样本,则对应将编号1、3、6及7的待检测样本存储以形成第一待选异常样本集合;而基于模型检测的异常检测算法检出编号为2、3及6的待检测样本为待选异常样本,则对应将编号2、3及6的待检测样本存储以形成第二待选异常样本集合;基于密度的离群点检测的异常检测算法检出编号3、5及8的待检测样本为待选异常样本,则对应将编号3、5及8的待检测样本存储以形成第三待选异常样本集合。
请参阅图3,在上述步骤S3中,将所述异常检测算法的初始权重作为对应待选异常样本的异常权重,
在上述步骤S3中,当同一待检测样本被两个及以上异常检测算法选出为待选异常样本时,则所述待检测样本的异常权重为多个待选异常样本的异常权重的累积值。
具体地,在此前提下,所述步骤S3进一步包括如下步骤:
步骤S31,基于初始权重给对应不同种异常检测算法获得的每个待选异常样本赋予对应的权重值;
步骤S32,依次获取不同待检测样本在不同种异常检测算法对应待选异常样本的权重值;及
步骤S33,将同一待检测样本对应的多个待选异常样本的权重值进行累积,获得与待检测样本对应的异常权重。
具体地在上述步骤S31,可对应在异常检测算法计算获得的待选异常样本集合,对其中的每个待选异常样本赋予对应的权重值。
例如,结合上述例子,在采用上述3种异常检测算法获得的第一待选异常样本集合、第二待选异常样本集合及第三待选异常样本集合中分别包括对应的待选异常样本。上述3种异常检测算法的初始权重为0.5、0.1及0.4,则对应地,给所述第一待选异常样本集合、第二待选异常样本集合及第三待选异常样本集合所有的待选异常样本赋予对应的权重值。可以理解,也即,基于原则的异常检测算法对应编号1、3、6及7的待选异常样本均赋予权重值0.5,基于模型检测的异常检测算法对应编号2、3及6的待选异常样本均赋予权重值0.1,而基于密度的离群点检测的异常检测算法对应的编号3、5及8的待选异常样本均赋予权重值0.4。
具体地,当一个待检测样本被多种异常检测算法判定为待选异常样本时,则为了更准确地判断对应待检测样本是否为实际异常样本,还可进一步将该待检测样本对应不同种的异常检测算法的权重进行累积,从而可综合不同种异常检测算法的检测结果,从而可提高待选异常样本检测的置信度。
由上述可知,其中,编号为3的待检测样本被上述3种异常检测算法均判定为待选异常样本,进一步地,对应编号3的待选异常样本的异常权重=权重值0.5+权重值0.1+权重值0.4=1;编号为6的待检测样本被其中2种异常检测算法判定为待选异常样本,因此,对应编号6的待选异常样本的异常权重=权重值0.5+权重值0.1=0.6。
在上述步骤S4中,设定一预设阈值,当待选异常样本的异常权重超过阈值,则对应待选异常样本作为实际异常样本。其中,所述预设阈值可基于经验值决定,也可基于待检测样本的数据类型而决定。
例如,结合上述例子中,预设阈值为权重值0.6,在步骤S3获知对应待选异常样本的异常权重之后,可将对应的异常权重与预设阈值相比较,基于上述的分析,只有编号3与编号6对应的待选异常样本的权重大于预设阈值,则对应将编号3与编号6认定为实际异常样本。而被其中一种或者两种异常检测算法判定为待选异常样本的编号1、2、5、7及8的待检测样本,则为非实际异常样本。
基于上述的步骤,可实现对现存的多种异常检测算法的封装,并且可以自由的结合不同的异常检测算法对待选异常样本点加权投票,从而可综合不同异常检测算法的优势,增加被检测异常值的置信度。
请参阅图4,本发明的第二实施例提供一检验异常值的数据核验***20,其具体包括如下内容:
算法权重获取模块21,被配置为用于提供至少两种异常检测算法并对应赋予初始权重;
检测待选异常样本模块22,被配置为用于采用所述异常检测算法对多个待检测样本进行检测,并获得与待检测样本对应的待选异常样本;
待选异常样本赋权模块23,被配置为将所述异常检测算法的初始权重作为与待检测样本对应的待选异常样本的异常权重;及
权重比较模块24,设定一预设阈值,当所述异常权重超过预设阈值,则对应待检测样本被判定为实际异常样本。
如图5中所示,所述检测待选异常样本模块22可进一步包括:
算法检测模块221,被配置为用于采用选取的异常检测算法对所述待检测样本进行检测;及
待选异常样本判定模块222,被配置为用于不同种异常检测算法对检测出异常值的待检测样本对应输出待选异常样本,则将对应的待检测样本存储以形成待选异常样本集合。
进一步地,在上述待选异常样本赋权模块23中,可具体基于初始权重,给基于对应异常检测算法计算获得的待选异常样本集合中,每个待选异常样本赋予对应的权重值。而为了更准确地判断对应待检测样本是否为实际异常样本,还可进一步将所述待检测样本对应多种异常检测算法的权重进行累积。
如图6中所示,所述待选异常样本赋权模块23进一步包括如下内容:
权重值赋值模块231,被配置为用于基于初始权重给对应不同种异常检测算法获得的每个待选异常样本赋予对应的权重值;
权重值获取模块232,被配置为用于依次获取不同待检测样本在不同种异常检测算法对应待选异常样本的权重值;及
权重值累积模块233,被配置为用于将同一待检测样本对应的多个待选异常样本的权重值进行累积,获得与待检测样本对应的异常权重。
具体地,在本实施例中,有关所述异常检测算法的相关限定以及权重累积的相关内容,与上述第一实施例中所述检验异常值的数据核验方法中的一致,在此不再赘述。
请参阅图7,本发明的第三实施例提供一电子设备30,所述电子设备30包括存储单元31和处理单元32,所述存储单元31用于存储计算机程序,所述处理单元32用于通过所述存储单元31存储的计算机程序执行上述第一实施例中所述检验异常值的数据核验方法的具体步骤。
在本发明一些具体的实施例中,所述电子设备30可以是硬件,也可以是软件。当电子设备30为硬件时,可以是具有显示屏并且支持视频播放的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当电子设备30为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
所述存储单元31包括只读存储器(ROM)、随机访问存储器(RAM)及硬盘等的存储部分等,所述处理单元32可以根据存储在所述只读存储器(ROM)中的程序或者加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器(RAM)中,还存储有所述电子设备30操作所需的各种程序和数据。
所述电子设备30还可包括键盘、鼠标等的输入部分(图未示);所述电子设备30还可进一步包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分(图未示);以及所述电子设备30可进一步包括诸如LAN卡、调制解调器等的网络接口卡的通信部分(图未示)。所述通信部分35经由诸如因特网的网络执行通信处理。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明所公开的实施例可包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装。
在该计算机程序被所述处理单元32执行时,执行本申请的所述具备防伪功能的神经网络模型的训练方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本申请中,计算机可读存储介质还可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可采用一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言--诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明的附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方案中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,在此基于涉及的功能而确定。需要特别注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本发明的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中。
作为另一方面,本发明的第四实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,所述程序具体包括:基于待检测样本的数据类型选取至少两种异常检测算法,且针对每种异常检测算法进行赋予初始权重;采用至少两种异常检测算法对多个待检测样本进行检测,且每种异常检测算法返回待选异常样本集合;结合所述异常检测算法的初始权重给得到的待选异常样本集合中每个待选异常样本赋予异常权重;及设定一预设阈值,当待选异常样本的异常权重超过预设阈值,则对应待选异常样本被判定为实际异常样本。
与现有技术相比,本发明所提供给的一种检验异常值的数据核验方法及其***、电子设备具有如下的有益效果:
本发明所提供的一种检验异常值的数据核验方法,可基于所需要检测异常值的数据选择合适的异常检测算法的特点,并可进一步基于数据的特点赋予不同异常检测算法对应的初始权重,对数据调用某几种异常检测算法并结合不同算法的权重值给得到的待选异常样本赋予异常权重,当待检测样本的异常权重超过预设阈值,则对应待检测样本被判定为实际异常样本。基于上述的方法,可方便调用多种异常检测算法,并且可以基于权重值的分配,将不同异常检测算法的优势进行结合,从而可增加被检测异常值的置信度。
本发明还提供一种检验异常值的数据核验***及一种电子设备,具有与上述基于检验异常值的数据核验方法相同的有益效果,可以可方便调用多种异常检测算法,并且可以基于权重值的分配,将不同异常检测算法的优势进行结合,从而可增加被检测异常值的置信度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内所作的任何修改,等同替换和改进等均应包含本发明的保护范围之内。
Claims (10)
1.一种检验异常值的数据核验方法,其特征在于:其包括以下步骤:
步骤S1,提供至少两种异常检测算法并对应赋予初始权重;
步骤S2,采用所述异常检测算法对多个待检测样本进行检测,并获得与待检测样本对应的待选异常样本;
步骤S3,将所述异常检测算法的初始权重作为与待检测样本对应的待选异常样本的异常权重;及
步骤S4,设定一预设阈值,当所述异常权重超过预设阈值,则对应待检测样本被判定为实际异常样本。
2.如权利要求1中所述检验异常值的数据核验方法,其特征在于:在上述步骤S3中,当同一待检测样本被两个及以上异常检测算法选出为待选异常样本时,则所述待检测样本的异常权重为多个待选异常样本的异常权重的累积值。
3.如权利要求2中所述检验异常值的数据核验方法,其特征在于:在上述步骤S3中进一步包括:
步骤S31,基于初始权重给基于对应异常检测算法获得每个待选异常样本赋予对应的权重值;
步骤S32,依次获取不同待检测样本在不同种异常检测算法对应待选异常样本的权重值;及
步骤S33,将同一待检测样本对应的多个待选异常样本的权重值进行累积,获得与待检测样本对应的异常权重。
4.如权利要求1中所述检验异常值的数据核验方法,其特征在于:所述异常检测算法包括基于原则的异常检测算法、基于箱线图的异常检测算法、基于模型检测的异常检测算法、基于近邻度的离群点检测的异常检测算法或基于密度的离群点检测的异常检测算法中一种或几种的组合。
5.如权利要求1中所述检验异常值的数据核验方法,其特征在于:在上述步骤S2中,还包括:将与同一待检测样本对应的待选异常样本存储以形成待选异常样本集合。
6.如权利要求1中所述检验异常值的数据核验方法,其特征在于:在上述步骤S1中,具体可基于待检测样本的数据类型选取至少两种异常检测算法,且对每种异常检测算法赋予初始权重。
7.一种检验异常值的数据核验***,其特征在于:所述检验异常值的数据核验***包括:
算法权重获取模块,被配置为用于提供至少两种异常检测算法并对应赋予初始权重;
检测待选异常样本模块,被配置为用于采用所述异常检测算法对多个待检测样本进行检测,并获得与待检测样本对应的待选异常样本;
待选异常样本赋权模块,被配置为用于将所述异常检测算法的初始权重作为与待检测样本对应的待选异常样本的异常权重;及
权重比较模块,被配置为用于设定一预设阈值,当所述异常权重超过预设阈值,则对应待检测样本被判定为实际异常样本。
8.如权利要求7中所述检验异常值的数据核验***,其特征在于:所述检测待选异常样本模块进一步包括:
算法检测模块,被配置为用于采用选取的异常检测算法对所述待检测样本进行检测;及
待选异常样本判定模块,被配置为用于利用异常检测算法对待检测样本进行检测,得出对应的待检测样本为待选异常样本,并将对应的待检测样本存储以形成待选异常样本集合。
9.如权利要求7中所述检验异常值的数据核验***,其特征在于:所述待选异常样本赋权模块进一步包括:
权重值赋值模块,被配置为用于基于初始权重给对应不同种异常检测算法获得的每个待选异常样本赋予对应的权重值;
权重值获取模块,被配置为用于依次获取不同待检测样本在不同种异常检测算法对应待选异常样本的权重值;及
权重值累积模块,被配置为用于将同一待检测样本对应的多个待选异常样本的权重值进行累积,获得与待检测样本对应的异常权重。
10.一种电子设备,其特征在于:所述电子设备包括存储单元和处理单元,所述存储单元用于存储计算机程序,所述处理单元用于通过所述存储单元存储的计算机程序执行如权利要求1-6中任一项所述基于检验异常值的数据核验方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910601163.8A CN110348508A (zh) | 2019-07-04 | 2019-07-04 | 检验异常值的数据核验方法及其***、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910601163.8A CN110348508A (zh) | 2019-07-04 | 2019-07-04 | 检验异常值的数据核验方法及其***、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110348508A true CN110348508A (zh) | 2019-10-18 |
Family
ID=68178016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910601163.8A Pending CN110348508A (zh) | 2019-07-04 | 2019-07-04 | 检验异常值的数据核验方法及其***、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110348508A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112579584A (zh) * | 2020-12-21 | 2021-03-30 | 北京华能新锐控制技术有限公司 | 一种光电异常数据检测方法及装置 |
CN112862961A (zh) * | 2019-11-12 | 2021-05-28 | 中国石油集团东方地球物理勘探有限责任公司 | 层位坏点过滤方法、装置、设备及存储介质 |
CN113361324A (zh) * | 2021-04-25 | 2021-09-07 | 杭州玖欣物联科技有限公司 | 一种基于lstm的电机电流异常检测方法 |
CN115374851A (zh) * | 2022-08-19 | 2022-11-22 | 北京市燃气集团有限责任公司 | 一种燃气数据异常检测方法及装置 |
CN116046618A (zh) * | 2023-02-27 | 2023-05-02 | 一夫科技股份有限公司 | 一种超细硫酸钙的粉磨细度监测方法及*** |
-
2019
- 2019-07-04 CN CN201910601163.8A patent/CN110348508A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112862961A (zh) * | 2019-11-12 | 2021-05-28 | 中国石油集团东方地球物理勘探有限责任公司 | 层位坏点过滤方法、装置、设备及存储介质 |
CN112862961B (zh) * | 2019-11-12 | 2023-02-28 | 中国石油集团东方地球物理勘探有限责任公司 | 层位坏点过滤方法、装置、设备及存储介质 |
CN112579584A (zh) * | 2020-12-21 | 2021-03-30 | 北京华能新锐控制技术有限公司 | 一种光电异常数据检测方法及装置 |
CN113361324A (zh) * | 2021-04-25 | 2021-09-07 | 杭州玖欣物联科技有限公司 | 一种基于lstm的电机电流异常检测方法 |
CN115374851A (zh) * | 2022-08-19 | 2022-11-22 | 北京市燃气集团有限责任公司 | 一种燃气数据异常检测方法及装置 |
CN116046618A (zh) * | 2023-02-27 | 2023-05-02 | 一夫科技股份有限公司 | 一种超细硫酸钙的粉磨细度监测方法及*** |
CN116046618B (zh) * | 2023-02-27 | 2024-02-27 | 一夫科技股份有限公司 | 一种超细硫酸钙的粉磨细度监测方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348508A (zh) | 检验异常值的数据核验方法及其***、电子设备 | |
CN110070117B (zh) | 一种数据处理方法及装置 | |
CN104683984B (zh) | 无线通信信号实时监测处理方法和*** | |
CN108563548A (zh) | 异常检测方法及装置 | |
CN110245650B (zh) | 振动智能检测方法及相关产品 | |
CN108171191B (zh) | 用于检测人脸的方法和装置 | |
US20210274496A1 (en) | Positioning system and positioning method based on wi-fi fingerprints | |
CN105094494A (zh) | 指纹识别方法、装置及电子设备 | |
CN111738348B (zh) | 一种电力数据异常检测方法和装置 | |
CN109039503A (zh) | 一种频谱感知方法、装置、设备及计算机可读存储介质 | |
CN110335313A (zh) | 音频采集设备定位方法及装置、说话人识别方法及*** | |
CN113268641B (zh) | 基于大数据的用户数据处理方法及大数据服务器 | |
KR20130030585A (ko) | 부분방전 결함유형 판정 방법 및 그 장치 | |
WO2018080523A1 (en) | Data cost effective fast similarity search with priority access | |
CN109729069A (zh) | 异常ip地址的检测方法、装置与电子设备 | |
CN117434372B (zh) | 电子产品的电磁兼容抗扰度测试方法及*** | |
Ma et al. | Measurement error assessment for smart electricity meters under extreme natural environmental stresses | |
CN114676749A (zh) | 一种基于数据挖掘的配电网运行数据异常判定方法 | |
CN110069997A (zh) | 场景分类方法、装置及电子设备 | |
CN114219003A (zh) | 样本生成模型的训练方法、装置及电子设备 | |
US20150206056A1 (en) | Inference of anomalous behavior of members of cohorts and associate actors related to the anomalous behavior based on divergent movement from the cohort context centroid | |
CN104821854A (zh) | 一种基于随机集的多主用户多维频谱感知方法 | |
Jiao et al. | An on-line anomaly identifying method for calibration devices in an automatic verification system for electricity smart meters | |
CN108540926A (zh) | 一种无线信号指纹的构建方法及装置 | |
CN110334125A (zh) | 一种配电网量测异常数据辨识方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191018 |