CN114298147A - 异常样本的检测方法、装置、电子设备及存储介质 - Google Patents
异常样本的检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114298147A CN114298147A CN202111396617.6A CN202111396617A CN114298147A CN 114298147 A CN114298147 A CN 114298147A CN 202111396617 A CN202111396617 A CN 202111396617A CN 114298147 A CN114298147 A CN 114298147A
- Authority
- CN
- China
- Prior art keywords
- data sample
- target
- detected
- sample
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 49
- 238000001514 detection method Methods 0.000 title claims description 9
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 38
- 238000004891 communication Methods 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种异常样本的检测方法、装置、电子设备及存储介质,所述方法包括:获取待检测的数据样本,利用预设的聚类算法预测待检测的数据样本对应的目标聚类类别;确定所述待检测的数据样本与所述目标聚类类别中心点之间的目标距离,查找所述目标距离对应的目标分位数;将所述目标分位数与预设阈值进行比较,根据比较结果确定所述待检测的数据样本是否为异常样本。通过预设的聚类算法预测待检测的数据样本对应的目标聚类类别,并确定待检测的数据样本与目标聚类类别中心点之间的目标距离,查找目标距离对应的目标分位数,将目标分位数与预设阈值进行比较,根据比较结果确定待检测的数据样本是否为异常样本,如此可以分离出异常样本。
Description
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种异常样本的检测方法、装置、电子设备及存储介质。
背景技术
在样本数据集中,有部分样本数据与其他大部分样本数据之间存在显著差异,通常我们将这部分样本数据称为异常样本或奇异样本。为了保证样本数据集中的数据质量,通常需要对样本数据集中的各样本进行异常检测,以便于剔除异常样本。
现有的异常样本的检测方法,由于数据样本集中存在多个类别,无法用统一表征方式来概括数据特征,无法分离出异常样本。故基于数据样本集的复杂性,预先对数据样本集中有初步的认知是有必要的,有鉴于此,如今迫切需要一种异常样本的检测方法,以便于分离出异常样本。
发明内容
为了解决上述由于数据样本集中存在多个类别,无法用统一表征方式来概括数据特征,无法分离出异常样本的技术问题,本发明实施例提供了一种异常样本的检测方法、装置、电子设备及存储介质。
在本发明实施例的第一方面,首先提供了一种异常样本的检测方法,所述方法包括:
获取待检测的数据样本,利用预设的聚类算法预测所述待检测的数据样本对应的目标聚类类别;
确定所述待检测的数据样本与所述目标聚类类别中心点之间的目标距离,查找所述目标距离对应的目标分位数;
将所述目标分位数与预设阈值进行比较,根据比较结果确定所述待检测的数据样本是否为异常样本。
在一个可选的实施方式中,在执行所述方法之前,还包括:
获取数据样本集,其中,所述数据样本集中至少包括一个数据样本;
利用预设的聚类算法对所述数据样本集中的所有所述数据样本进行聚类,生成N个聚类类别;
针对所述数据样本集中任一所述数据样本,确定所述数据样本对应的所述聚类类别,确定所述数据样本与所述聚类类别中心点之间的距离;
针对任一所述聚类类别,确定所述聚类类别内部的所述距离的分布,以及确定所述聚类类别内部的所述距离对应的不同分位数。
在一个可选的实施方式中,所述利用预设的聚类算法对所述数据样本集中的所有所述数据样本进行聚类,生成N个聚类类别,包括:
获取用户指定的N个聚类类别,或者,按照肘部图的拐点确定N个聚类类别;
利用预设的聚类算法对所述数据样本集中的所有所述数据样本进行聚类,生成N个聚类类别。
在一个可选的实施方式中,所述确定所述数据样本与所述聚类类别中心点之间的距离,包括:
确定所述数据样本与所述聚类类别中心点之间的欧氏距离;
所述针对任一所述聚类类别,确定所述聚类类别内部的所述距离的分布,以及确定所述聚类类别内部的所述距离对应的不同分位数,包括:
针对任一所述聚类类别,确定所述聚类类别内部的所述欧氏距离的分布,以及确定所述聚类类别内部的所述欧氏距离对应的不同分位数;
所述确定所述待检测的数据样本与所述目标聚类类别中心点之间的目标距离,查找所述目标距离对应的目标分位数,包括:
确定所述待检测的数据样本与所述目标聚类类别中心点之间的目标欧氏距离,查找所述目标欧氏距离对应的目标分位数。
在一个可选的实施方式中,所述利用预设的聚类算法对所述数据样本集中的所有所述数据样本进行聚类,生成N个聚类类别,包括:
对所述数据样本集中的所有所述数据样本均进行预处理,其中,所述预处理至少包括缺失值填充;
对经过预处理的所述数据样本集中的所有所述数据样本均进行归一化处理,得到所有所述数据样本各自对应的标准化的数据样本;
利用预设的聚类算法对所有所述标准化的数据样本进行聚类,生成N个聚类类别;
所述针对所述数据样本集中任一所述数据样本,确定所述数据样本对应的所述聚类类别,确定所述数据样本与所述聚类类别中心点之间的距离,包括:
针对任一所述标准化的数据样本,确定所述标准化的数据样本对应的所述聚类类别,以及与所述聚类类别中心点之间的距离。
在一个可选的实施方式中,所述利用预设的聚类算法预测所述待检测的数据样本对应的目标聚类类别,包括:
对所述待检测的数据样本进行预处理,其中,所述预处理至少包括缺失值填充;
对经过预处理的所述待检测的数据样本进行归一化处理,得到标准化的待检测数据样本;
利用预设的聚类算法预测所述标准化的待检测数据样本对应的目标聚类类别;
所述确定所述待检测的数据样本与所述目标聚类类别中心点之间的目标距离,包括:
确定所述标准化的待检测数据样本与所述目标聚类类别中心点之间的目标距离。
在一个可选的实施方式中,所述根据比较结果确定所述待检测的数据样本是否为异常样本,包括:
若所述目标分位数大于所述预设阈值,则确定所述待检测的数据样本为异常样本;
若所述目标分位数小于或等于所述预设阈值,则确定所述待检测的数据样本非异常样本。
在本发明实施例的第二方面,提供了一种异常样本的检测装置,所述装置包括:
样本获取模块,用于获取待检测的数据样本;
类别预测模块,用于利用预设的聚类算法预测所述待检测的数据样本对应的目标聚类类别;
距离确定模块,用于确定所述待检测的数据样本与所述目标聚类类别中心点之间的目标距离;
分位数查找模块,用于查找所述目标距离对应的目标分位数;
分位数比较模块,用于将所述目标分位数与预设阈值进行比较;
样本检测模块,用于根据比较结果确定所述待检测的数据样本是否为异常样本。
在本发明实施例的第三方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面中所述的异常样本的检测方法。
在本发明实施例的第四方面,还提供了一种存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面中所述的异常样本的检测方法。
在本发明实施例的第五方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面中所述的异常样本的检测方法。
本发明实施例提供的技术方案,获取待检测的数据样本,利用预设的聚类算法预测待检测的数据样本对应的目标聚类类别,确定待检测的数据样本与目标聚类类别中心点之间的目标距离,查找目标距离对应的目标分位数,将目标分位数与预设阈值进行比较,根据比较结果确定待检测的数据样本是否为异常样本。通过预设的聚类算法预测待检测的数据样本对应的目标聚类类别,并确定待检测的数据样本与目标聚类类别中心点之间的目标距离,查找目标距离对应的目标分位数,将目标分位数与预设阈值进行比较,根据比较结果确定待检测的数据样本是否为异常样本,如此可以分离出异常样本。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中示出的一种数据样本的处理方法的实施流程示意图;
图2为本发明实施例中示出的一种异常样本的检测方法的实施流程示意图;
图3为本发明实施例中示出的一种目标欧氏距离的示意图;
图4为本发明实施例中示出的一种异常样本的检测装置的结构示意图;
图5为本发明实施例中示出的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,为本发明实施例提供的一种数据样本的处理方法的实施流程示意图,该方法应用于处理器,具体可以包括以下步骤;
S101,获取数据样本集,其中,所述数据样本集中至少包括一个数据样本。
在本发明实施例中,对于数据样本集,至少包括一个数据样本,这里的数据样本可以是任意类型的数据样本,例如图像类型的数据样本,本发明实施例对此不作限定。
例如,在本发明实施例中,获取数据样本集,其中,这里数据样本集包括1000个数据样本,这1000个数据样本可以是图像类型的数据样本,当然也可以是文字类型的数据样本。
S102,利用预设的聚类算法对所述数据样本集中的所有所述数据样本进行聚类,生成N个聚类类别。
在本发明实施例中,对于样本数据集中的所有数据样本,利用预设的聚类算法对样本数据集中的所有数据样本进行聚类,如此可以生成N个聚类类别,例如5个聚类类别。
其中,由于数据样本中可能存在缺陷,例如样本数据中某个样本特征缺失特征值,此时就需要对数据样本进行缺失值填充处理,意味着需要对数据样本进行预处理。
基于此,在本发明实施例中,对于样本数据集中的所有数据样本,对样本数据集中的所有数据样本均进行预处理,其中,这里的预处理至少包括缺失值填充。
需要说明的是,对于缺失值填充,可以是***默认的填充方式,当然也可以是用户设定的填充方式,由此从给定的数据集、特征空间当中,根据上述任一填充方式对样本数据集中的所有数据样本均进行预处理。
此外,本发明实施例中涉及距离计算,为了使得之后的距离计算都在统一的尺度范围内,需要对经过预处理的数据样本进行标准化处理,这里标准化处理可以理解为归一化处理。
基于此,在本发明实施例中,对经过预处理的数据样本集中的所有数据样本均进行归一化处理,如此得到所有数据样本各自对应的标准化的数据样本,可以方便之后的距离计算都在统一的尺度范围内。
需要说明的是,对于归一化处理,可以是***默认的归一化处理(例如最大-最小数据标准化)方式,当然也可以是用户设定的归一化处理方式,由此对经过预处理的数据样本集中的所有数据样本均进行归一化处理。
如此经过上述的预处理、标准化处理,可以得到所有数据样本各自对应的标准化的数据样本,从而利用预设的聚类算法对所有标准化的数据样本进行聚类,生成N个聚类类别。
需要说明的是,对于预设的聚类算法,在本发明实施例中具体可以是K均值聚类算法,当然还可以是市面上其它比较成熟的聚类算法,本发明实施例对此不作限定。
此外,对于聚类数目K,例如聚类类别5,可以由用户自行设定,或者可以自动选定最佳的聚类数目,由此来实现对数据样本的聚类,本发明实施例对此不作限定。
基于此,获取用户指定的N个聚类类别,或者,按照肘部图的拐点确定N个聚类类别,从而利用预设的聚类算法对所有标准化的数据样本进行聚类,生成N个聚类类别。
S103,针对所述数据样本集中任一所述数据样本,确定所述数据样本对应的所述聚类类别,确定所述数据样本与所述聚类类别中心点之间的距离。
在本发明实施例中,对于数据样本集中所有数据样本,针对数据样本集中任一数据样本,确定该数据样本对应的聚类类别,确定该数据样本与该聚类类别中心点之间的距离。
其中,对于数据样本集中所有数据样本,经过上述预处理、标准化处理可以得到各自对应的标准化的数据样本,从而针对任一标准化的数据样本,确定标准化的数据样本对应的聚类类别,以及确定标准化的数据样本与聚类类别中心点之间的距离。
例如,针对标准化的数据样本1,确定该标准化的数据样本对应的聚类类别A,以及确定该标准化的数据样本1与聚类类别A中心点之间的距离,对于其余标准化的数据样本处理与标准化的数据样本1的处理类似,如此可以得到每个标准化的数据样本与它的聚类类别中心点之间的距离,如下表1所示。
表1
需要说明的是,在本发明实施例中,上述距离具体可以指代的是欧氏距离,从而针对任一标准化的数据样本,确定标准化的数据样本对应的聚类类别,以及确定标准化的数据样本与聚类类别中心点之间的欧氏距离。
S104,针对任一所述聚类类别,确定所述聚类类别内部的所述距离的分布,以及确定所述聚类类别内部的所述距离对应的不同分位数。
在本发明实施例中,对于N个聚类类别,针对N个聚类类别中任一聚类类别,确定该聚类类别内部的距离的分布,这里的距离指的是该聚类类别内部的每个标准化的样本数据与该聚类类别中心点之间的距离。
此外,对于N个聚类类别,针对N个聚类类别中任一聚类类别,将该聚类类别内部的距离与不同的分位数进行映射,从而可以确定该聚类类别内部的距离对应的不同分位数。
例如,对于5个聚类类别,针对5个聚类类别中任一聚类类别,将该聚类类别内部的距离与100个分位数进行映射,从而可以确定该聚类类别内部的距离对应的不同分位数。
在本发明实施例中,上述距离指的是欧氏距离,则对于N个聚类类别,针对N个聚类类别中任一聚类类别,确定聚类类别内部的欧氏距离的分布,以及确定聚类类别内部的欧氏距离对应的不同分位数,由此完成对数据样本集的处理。
例如,对于5个聚类类别,针对5个聚类类别中任一聚类类别,确定该聚类类别内部的欧氏距离的分布,这里欧氏距离指的是该聚类类别内部的每个标准化的数据样本与该聚类类别中心点之间的欧氏距离。
此外,对于5个聚类类别,针对5个聚类类别中任一聚类类别,将该聚类类别内部的欧氏距离与100个分位数进行映射,从而可以确定该聚类类别内部的欧氏距离对应的不同分位数,由此完成对数据样本集的处理。
经过上述处理之后,如图2所示,为本发明实施例提供的一种异常样本的检测方法的实施流程示意图,该方法应用于处理器,具体可以包括以下步骤:
S201,获取待检测的数据样本,利用预设的聚类算法预测所述待检测的数据样本对应的目标聚类类别。
在本发明实施例中,获取待检测的数据样本,这里待检测的数据样本就是新的数据样本,利用预设的聚类算法预测待检测的数据样本对应的目标聚类类别,这里目标聚类类别可以是上述N个聚类类别中任一者。
其中,在本发明实施例中,对待检测的数据样本进行预处理,其中,这里的预处理至少包括缺失值填充,具体地预处理流程与上述类似,本发明实施例在此不再一一赘述。
此外,对经过预处理的待检测的数据样本进行归一化处理,得到标准化的待检测数据样本,具体地归一化处理与上述类似,本发明实施例在此不再一一赘述。从而可以利用预设的聚类算法预测标准化的待检测数据样本对应的目标聚类类别。
例如,在本发明实施例中,对待检测的数据样本进行预处理,其中,这里的预处理至少包括缺失值填充,具体地从给定的数据集、特征空间当中,根据用户设定的缺失值填充方式来对待检测的数据样本进行预处理。
利用最大-最小数据标准化对经过预处理的待检测的数据样本进行归一化处理,得到标准化的待检测数据样本,从而可以利用K均值聚类算法预测标准化的待检测数据样本对应的目标聚类类别(聚类类别A)。
S202,确定所述待检测的数据样本与所述目标聚类类别中心点之间的目标距离,查找所述目标距离对应的目标分位数。
在本发明实施例中,对于待检测的数据样本,确定该待检测的数据样本与目标聚类类别中心点之间的目标距离,并且查找该目标距离对应的目标分位数。
其中,上述目标距离为欧氏距离,则对于待检测的数据样本,确定该待检测的数据样本与目标聚类类别中心点之间的目标欧氏距离,并且查找该目标欧氏距离对应的目标分位数。
此外,上述待检测的数据样本经预处理、标准化之后得到标准化的待检测数据样本,则可以确定标准化的待检测数据样本与目标聚类类别中心点之间的目标欧氏距离,并且查找该目标欧氏距离对应的目标分位数。
例如,上述待检测的数据样本经预处理、标准化之后得到标准化的待检测数据样本,确定标准化的待检测数据样本与目标聚类类别(聚类类别A)中心点之间的目标欧氏距离,如图3所示,并且查找该目标欧氏距离对应的目标分位数。
S203,将所述目标分位数与预设阈值进行比较,根据比较结果确定所述待检测的数据样本是否为异常样本。
在本发明实施例中,用户可以预先设定一个阈值,对于目标欧氏距离对应的目标分位数,将其与用户设定的阈值进行比较,根据比较结果确定待检测的数据样本是否为异常样本。
其中,对于目标欧氏距离对应的目标分位数,若目标分位数大于预设阈值,则确定待检测的数据样本为异常样本,若目标分位数小于或等于预设阈值,则确定待检测的数据样本非异常样本,即正常样本。
例如,对于目标欧氏距离对应的目标分位数,若目标分位数大于5,则确定待检测的数据样本为异常样本,若目标分位数小于或等于5,则确定待检测的数据样本非异常样本,即正常样本。
通过上述对本发明实施例提供的技术方案的描述,获取待检测的数据样本,利用预设的聚类算法预测待检测的数据样本对应的目标聚类类别,确定待检测的数据样本与目标聚类类别中心点之间的目标距离,查找目标距离对应的目标分位数,将目标分位数与预设阈值进行比较,根据比较结果确定待检测的数据样本是否为异常样本。
通过预设的聚类算法预测待检测的数据样本对应的目标聚类类别,并确定待检测的数据样本与目标聚类类别中心点之间的目标距离,查找目标距离对应的目标分位数,将目标分位数与预设阈值进行比较,根据比较结果确定待检测的数据样本是否为异常样本,如此可以分离出异常样本。
与上述方法实施例相对应,本发明实施例还提供了一种异常样本的检测装置,如图4所示,该装置可以包括:样本获取模块410、类别预测模块420、距离确定模块430、分位数查找模块440、分位数比较模块450、样本检测模块460。
样本获取模块410,用于获取待检测的数据样本;
类别预测模块420,用于利用预设的聚类算法预测所述待检测的数据样本对应的目标聚类类别;
距离确定模块430,用于确定所述待检测的数据样本与所述目标聚类类别中心点之间的目标距离;
分位数查找模块440,用于查找所述目标距离对应的目标分位数;
分位数比较模块450,用于将所述目标分位数与预设阈值进行比较;
样本检测模块460,用于根据比较结果确定所述待检测的数据样本是否为异常样本。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器51、通信接口52、存储器53和通信总线54,其中,处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信,
存储器53,用于存放计算机程序;
处理器51,用于执行存储器53上所存放的程序时,实现如下步骤:
获取待检测的数据样本,利用预设的聚类算法预测所述待检测的数据样本对应的目标聚类类别;确定所述待检测的数据样本与所述目标聚类类别中心点之间的目标距离,查找所述目标距离对应的目标分位数;将所述目标分位数与预设阈值进行比较,根据比较结果确定所述待检测的数据样本是否为异常样本。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种存储介质,该存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的异常样本的检测方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的异常样本的检测方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在存储介质中,或者从一个存储介质向另一个存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种异常样本的检测方法,其特征在于,所述方法包括:
获取待检测的数据样本,利用预设的聚类算法预测所述待检测的数据样本对应的目标聚类类别;
确定所述待检测的数据样本与所述目标聚类类别中心点之间的目标距离,查找所述目标距离对应的目标分位数;
将所述目标分位数与预设阈值进行比较,根据比较结果确定所述待检测的数据样本是否为异常样本。
2.根据权利要求1所述的方法,其特征在于,在执行所述方法之前,还包括:
获取数据样本集,其中,所述数据样本集中至少包括一个数据样本;
利用预设的聚类算法对所述数据样本集中的所有所述数据样本进行聚类,生成N个聚类类别;
针对所述数据样本集中任一所述数据样本,确定所述数据样本对应的所述聚类类别,确定所述数据样本与所述聚类类别中心点之间的距离;
针对任一所述聚类类别,确定所述聚类类别内部的所述距离的分布,以及确定所述聚类类别内部的所述距离对应的不同分位数。
3.根据权利要求2所述的方法,其特征在于,所述利用预设的聚类算法对所述数据样本集中的所有所述数据样本进行聚类,生成N个聚类类别,包括:
获取用户指定的N个聚类类别,或者,按照肘部图的拐点确定N个聚类类别;
利用预设的聚类算法对所述数据样本集中的所有所述数据样本进行聚类,生成N个聚类类别。
4.根据权利要求2所述的方法,其特征在于,所述确定所述数据样本与所述聚类类别中心点之间的距离,包括:
确定所述数据样本与所述聚类类别中心点之间的欧氏距离;
所述针对任一所述聚类类别,确定所述聚类类别内部的所述距离的分布,以及确定所述聚类类别内部的所述距离对应的不同分位数,包括:
针对任一所述聚类类别,确定所述聚类类别内部的所述欧氏距离的分布,以及确定所述聚类类别内部的所述欧氏距离对应的不同分位数;
所述确定所述待检测的数据样本与所述目标聚类类别中心点之间的目标距离,查找所述目标距离对应的目标分位数,包括:
确定所述待检测的数据样本与所述目标聚类类别中心点之间的目标欧氏距离,查找所述目标欧氏距离对应的目标分位数。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述利用预设的聚类算法对所述数据样本集中的所有所述数据样本进行聚类,生成N个聚类类别,包括:
对所述数据样本集中的所有所述数据样本均进行预处理,其中,所述预处理至少包括缺失值填充;
对经过预处理的所述数据样本集中的所有所述数据样本均进行归一化处理,得到所有所述数据样本各自对应的标准化的数据样本;
利用预设的聚类算法对所有所述标准化的数据样本进行聚类,生成N个聚类类别;
所述针对所述数据样本集中任一所述数据样本,确定所述数据样本对应的所述聚类类别,确定所述数据样本与所述聚类类别中心点之间的距离,包括:
针对任一所述标准化的数据样本,确定所述标准化的数据样本对应的所述聚类类别,以及与所述聚类类别中心点之间的距离。
6.根据权利要求5所述的方法,其特征在于,所述利用预设的聚类算法预测所述待检测的数据样本对应的目标聚类类别,包括:
对所述待检测的数据样本进行预处理,其中,所述预处理至少包括缺失值填充;
对经过预处理的所述待检测的数据样本进行归一化处理,得到标准化的待检测数据样本;
利用预设的聚类算法预测所述标准化的待检测数据样本对应的目标聚类类别;
所述确定所述待检测的数据样本与所述目标聚类类别中心点之间的目标距离,包括:
确定所述标准化的待检测数据样本与所述目标聚类类别中心点之间的目标距离。
7.根据权利要求1所述的方法,其特征在于,所述根据比较结果确定所述待检测的数据样本是否为异常样本,包括:
若所述目标分位数大于所述预设阈值,则确定所述待检测的数据样本为异常样本;
若所述目标分位数小于或等于所述预设阈值,则确定所述待检测的数据样本非异常样本。
8.一种异常样本的检测装置,其特征在于,所述装置包括:
样本获取模块,用于获取待检测的数据样本;
类别预测模块,用于利用预设的聚类算法预测所述待检测的数据样本对应的目标聚类类别;
距离确定模块,用于确定所述待检测的数据样本与所述目标聚类类别中心点之间的目标距离;
分位数查找模块,用于查找所述目标距离对应的目标分位数;
分位数比较模块,用于将所述目标分位数与预设阈值进行比较;
样本检测模块,用于根据比较结果确定所述待检测的数据样本是否为异常样本。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1至7中任一项所述的方法步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111396617.6A CN114298147A (zh) | 2021-11-23 | 2021-11-23 | 异常样本的检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111396617.6A CN114298147A (zh) | 2021-11-23 | 2021-11-23 | 异常样本的检测方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114298147A true CN114298147A (zh) | 2022-04-08 |
Family
ID=80966229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111396617.6A Pending CN114298147A (zh) | 2021-11-23 | 2021-11-23 | 异常样本的检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114298147A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3156941A1 (en) * | 2015-10-12 | 2017-04-19 | Siemens Aktiengesellschaft | System, method and a computer program product for analyzing data |
CN109978070A (zh) * | 2019-04-03 | 2019-07-05 | 北京市天元网络技术股份有限公司 | 一种改进的K-means异常值检测方法以及装置 |
CN111797887A (zh) * | 2020-04-16 | 2020-10-20 | 中国电力科学研究院有限公司 | 一种基于密度筛选与k-均值聚类的反窃电预警方法及*** |
CN111814523A (zh) * | 2019-04-12 | 2020-10-23 | 北京京东尚科信息技术有限公司 | 人体活动识别方法及装置 |
CN111814910A (zh) * | 2020-08-12 | 2020-10-23 | 中国工商银行股份有限公司 | 异常检测方法、装置、电子设备及存储介质 |
CN112001409A (zh) * | 2020-07-01 | 2020-11-27 | 中国电力科学研究院有限公司 | 一种基于K-means聚类算法的配电网线损异常诊断方法和*** |
CN112905412A (zh) * | 2021-01-29 | 2021-06-04 | 清华大学 | 关键性能指标数据的异常检测方法及装置 |
-
2021
- 2021-11-23 CN CN202111396617.6A patent/CN114298147A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3156941A1 (en) * | 2015-10-12 | 2017-04-19 | Siemens Aktiengesellschaft | System, method and a computer program product for analyzing data |
CN109978070A (zh) * | 2019-04-03 | 2019-07-05 | 北京市天元网络技术股份有限公司 | 一种改进的K-means异常值检测方法以及装置 |
CN111814523A (zh) * | 2019-04-12 | 2020-10-23 | 北京京东尚科信息技术有限公司 | 人体活动识别方法及装置 |
CN111797887A (zh) * | 2020-04-16 | 2020-10-20 | 中国电力科学研究院有限公司 | 一种基于密度筛选与k-均值聚类的反窃电预警方法及*** |
CN112001409A (zh) * | 2020-07-01 | 2020-11-27 | 中国电力科学研究院有限公司 | 一种基于K-means聚类算法的配电网线损异常诊断方法和*** |
CN111814910A (zh) * | 2020-08-12 | 2020-10-23 | 中国工商银行股份有限公司 | 异常检测方法、装置、电子设备及存储介质 |
CN112905412A (zh) * | 2021-01-29 | 2021-06-04 | 清华大学 | 关键性能指标数据的异常检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
程明畅 等: "基于分位数半径的动态K-means算法", 《南京大学学报(自然科学)》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008080B (zh) | 基于时间序列的业务指标异常检测方法、装置和电子设备 | |
CN110083475B (zh) | 一种异常数据的检测方法及装置 | |
CN111538642B (zh) | 一种异常行为的检测方法、装置、电子设备及存储介质 | |
CN107798047B (zh) | 重复工单检测方法、装置、服务器和介质 | |
CN108829715B (zh) | 用于检测异常数据的方法、设备和计算机可读存储介质 | |
CN112818066A (zh) | 一种时序数据异常检测方法、装置及电子设备和存储介质 | |
CN111062013B (zh) | 一种账号过滤方法、装置、电子设备及机器可读存储介质 | |
CN107911397B (zh) | 一种威胁评估方法及装置 | |
CN108399115B (zh) | 一种运维操作检测方法、装置及电子设备 | |
CN111767713A (zh) | 关键词的提取方法、装置、电子设备及存储介质 | |
CN111339137A (zh) | 一种数据校验方法及装置 | |
CN116304909A (zh) | 一种异常检测模型训练方法、故障场景定位方法及装置 | |
CN114662602A (zh) | 一种离群点检测方法、装置、电子设备及存储介质 | |
CN112988512A (zh) | 一种时序数据异常检测方法、装置、设备及存储介质 | |
CN113918438A (zh) | 服务器异常的检测方法、装置、服务器及存储介质 | |
CN111814557A (zh) | 动作流检测方法、装置、设备及存储介质 | |
CN109740621B (zh) | 一种视频分类方法、装置及设备 | |
CN115932144B (zh) | 色谱仪性能检测方法、装置、设备和计算机介质 | |
CN114298147A (zh) | 异常样本的检测方法、装置、电子设备及存储介质 | |
CN116661954A (zh) | 虚拟机异常预测方法、装置、通信设备及存储介质 | |
CN114721909B (zh) | 一种服务器信息的处理方法、装置、电子设备及存储介质 | |
CN110795308A (zh) | 一种服务器检验方法、装置、设备及存储介质 | |
CN112307086B (zh) | 一种消防业务中自动化数据校验方法及装置 | |
CN114463345A (zh) | 基于动态自适应网络的多参数乳腺磁共振图像分割方法 | |
CN115458100A (zh) | 基于知识图谱的随访方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220408 |
|
RJ01 | Rejection of invention patent application after publication |