CN110647913B - 基于聚类算法的异常数据检测方法及装置 - Google Patents
基于聚类算法的异常数据检测方法及装置 Download PDFInfo
- Publication number
- CN110647913B CN110647913B CN201910752335.1A CN201910752335A CN110647913B CN 110647913 B CN110647913 B CN 110647913B CN 201910752335 A CN201910752335 A CN 201910752335A CN 110647913 B CN110647913 B CN 110647913B
- Authority
- CN
- China
- Prior art keywords
- data
- attribute
- detected
- piece
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 83
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 36
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000003860 storage Methods 0.000 claims description 15
- 238000004140 cleaning Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000013450 outlier detection Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于聚类算法的异常数据检测方法及装置,方法包括:获取多条待测数据,每条所述待测数据中包括多个属性信息,每个属性信息包括属性标识和属性内容;根据多个属性标识生成多个属性组合;针对每条所述待测数据,统计对应各个属性组合的值;根据统计结果计算每条所述待测数据的特征值;根据每条所述待测数据的特征值,确定各条所述待测数据是否异常。本发明,通过针对多个属性组合来统计每条待测数据的特征值,使得异常数据的检测结果更加准确。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于聚类算法的异常数据检测方法及装置。
背景技术
随着大数据的兴起,数据处理的需求变得越来越大,范围也逐渐变广。然而,随着数据量的增多,数据中会存在异常数据。现有技术中一般是针对单一特征进行异常检测,准确度较低。
发明内容
本发明的目的是提供一种基于聚类算法的异常数据检测方法及装置,用于解决现有技术存在的问题。
为实现上述目的,本发明提供一种基于聚类算法的异常数据检测方法,所述方法包括以下步骤:
获取多条待测数据,每条所述待测数据中包括多个属性信息,每个属性信息包括属性标识和属性内容;
根据多个属性标识生成多个属性组合;
针对每条所述待测数据,统计对应各个属性组合的值;
根据统计结果计算每条所述待测数据的特征值;
根据每条所述待测数据的特征值,确定各条所述待测数据是否异常。
可选地,所述根据多个属性标识生成多个属性组合,包括:
在每条所述待测数据包括n个属性标识时,生成的多个属性组合包括:将每一个属性标识分别作为一个属性组合,将每两个属性标识分别作为一个属性组合,将每三个属性标识分别作为一个属性组合,…,将每(n-1)个属性标识分别作为一个属性组合,将n个属性标识作为一个属性组合;
其中,n为不小于1的整数;生成的属性组合个数为:
其中,N用于表征生成的属性组合的个数。
可选地,所述针对每条所述待测数据,统计对应各个属性组合的值,包括:针对当前所述待测数据,统计在所述多条待测数据中,与当前所述待测数据中当前属性组合的属性内容相同的待测数据的条数,将统计的条数作为该当前所述待测数据中当前属性组合的值。
可选地,所述根据统计结果计算每条所述待测数据的特征值,包括:针对当前所述待测数据,将统计的当前所述待测数据对应的各个属性组合的值相加,作为当前所述待测数据的特征值。
可选地,所述根据每条所述待测数据的特征值,确定各条所述待测数据是否异常,包括:将多条所述待测数据的特征值进行聚类,形成多个类簇,针对每个类簇:确定类簇的中心点,从该类簇中依次删除一个数据,并计算删除该数据后该类簇的目标参数,在计算的目标参数与初始目标参数的差值大于预设的目标偏离阈值时,将该删除的数据确定的离群点,将离群点对应的所述待测数据确定为异常数据。
可选地,进一步包括:对确定异常数据的所述待测数据进行标记,并在数据清洗过程中,将标记的所述待测数据清洗掉。
可选地,在所述获取多条待测数据之后,还包括:确定所述待测数据中每个属性内容对应的格式,将属性内容与对应格式不同的待测数据确定为异常数据。
为实现上述目的,本发明还提供了一种基于聚类算法的异常数据检测装置,所述方法包括以下内容:
获取模块,用于获取多条待测数据,每条所述待测数据中包括多个属性信息,每个属性信息包括属性标识和属性内容;
生成模块,用于根据多个属性标识生成多个属性组合;
统计模块,用于针对每条所述待测数据,统计对应各个属性组合的值;
计算模块,用于根据统计结果计算每条所述待测数据的特征值;
确定模块,用于根据每条所述待测数据的特征值,确定各条所述待测数据是否异常。
为实现上述目的,本发明还提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
为实现上述目的,本发明还一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。
本发明提供的一种基于聚类算法的异常数据检测方法及装置,通过获取多条待测数据,每条所述待测数据中包括多个属性信息,每个属性信息包括属性标识和属性内容,根据多个属性标识生成多个属性组合,并针对每条所述待测数据,统计对应各个属性组合的值,根据统计结果计算每条所述待测数据的特征值,根据每条所述待测数据的特征值,确定各条所述待测数据是否异常。本发明,通过针对多个属性组合来统计每条待测数据的特征值,使得异常数据的检测结果更加准确。
附图说明
图1为本发明基于聚类算法的异常数据检测方法实施例一的流程图;
图2为本发明基于聚类算法的异常数据检测装置实施例一的程序模块示意图;
图3为本发明基于聚类算法的异常数据检测装置实施例一的另一程序模块示意图;
图4为本发明基于聚类算法的异常数据检测装置实施例一的又一程序模块示意图;
图5为本发明基于聚类算法的异常数据检测装置实施例一的硬件结构示意图;
图6为本发明基于聚类算法的异常数据检测方法实施例二的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的一种基于聚类算法的异常数据检测方法及装置,适用于信息大数据技术领域,为一种针对多条数据进行异常数据检测的方法。本发明通过获取多条待测数据,每条所述待测数据中包括多个属性信息,每个属性信息包括属性标识和属性内容,根据多个属性标识生成多个属性组合,并针对每条所述待测数据,统计对应各个属性组合的值,根据统计结果计算每条所述待测数据的特征值,根据每条所述待测数据的特征值,确定各条所述待测数据是否异常。本发明,通过针对多个属性组合来统计每条待测数据的特征值,使得异常数据的检测结果更加准确。
实施例一
请参阅图1,本实施例的一种基于聚类算法的异常数据检测方法中,可以包括以下步骤:
步骤01,获取多条待测数据,每条所述待测数据中包括多个属性信息,每个属性信息包括属性标识和属性内容。
在海量数据的情况下,人工检测数据是否异常的方式效率较低,在本发明实施例中,可以采用自动方式来实现异常数据的检测。
其中,待测数据可以是交易数据、订单数据、客户数据等,本实施例对此不作限定。
例如,存在多条待测数据,每一条待测数据中包括多个属性信息,每个属性信息包括属性标识和属性内容,如下表所示:
表1:
姓名 | 年龄 | 性别 | 地址位置 | 购买险种类型 |
张三 | 28 | 男 | 北京 | A险种 |
李四 | 42 | 女 | 上海 | B险种 |
…… | …… | …… | …… | …… |
王五 | 39 | 男 | 上海 | C险种 |
其中,姓名+张三为一个属性信息,姓名为属性标识,张三为属性内容。相同的,年龄、性别、地理位置、购买险种类型均为属性标识,表格中除去属性标识以外其他均为属性内容。
在本发明一个实施例中,在获取到该多条待测数据之后,可以对获取到的该多条待测数据进行预处理,该预处理可以是对该多条待测数据进行格式整理,以使格式整理后的各条待测数据格式统一,以便于后续过程的处理。
在本发明一个实施例中,在所述获取多条待测数据之后,在根据多个属性标识生成多个属性组合之前,可以对简单的异常数据进行处理,还包括:确定所述待测数据中每个属性内容对应的格式,将属性内容与对应格式不同的待测数据确定为异常数据。
步骤02,根据多个属性标识生成多个属性组合。
在本实施例中,在针对多个属性标识生成多个属性组合时,可以按照设定规则进行组合,例如,两两组合、三三组合、或者其他组合形式。
为了实现待测数据是否异常的检测,在本发明一个实施例中,可以利用如下一种方式来实现根据多个属性标识生成多个属性组合:
在每条所述待测数据包括n个属性标识时,生成的多个属性组合包括:将每一个属性标识分别作为一个属性组合,将每两个属性标识分别作为一个属性组合,将每三个属性标识分别作为一个属性组合,…,将每(n-1)个属性标识分别作为一个属性组合,将n个属性标识作为一个属性组合;
其中,n为不小于1的整数;生成的属性组合个数为:
其中,N用于表征生成的属性组合的个数。
上述生成属性组合的方式,以n=3时为例,属性标识分别为姓名、年龄和性别,那么可以生成的属性组合包括以下7种:1、姓名;2、年龄;3、性别;4、姓名、年龄;5、姓名、性别;6、年龄、性别;7、姓名、年龄、性别。
步骤03,针对每条所述待测数据,统计对应各个属性组合的值。
在本发明一个实施例中,至少可以使用如下一种方式来统计对应各个属性组合的值:针对当前所述待测数据,统计在所述多条待测数据中,与当前所述待测数据中每个当前属性组合的属性内容相同的待测数据的条数,将统计的条数作为该当前所述待测数据中当前属性组合的值。
以存在100条待测数据为例,第一种组合为姓名,针对第一条待测数据-组合1为例,第一条待测数据中属性标识为姓名所对应属性内容为姓名,统计其余99条待测数据中属性标识为姓名所对应属性内容均是姓名的条数,其中,在识别属性内容是否为姓名时,可以采用属性内容开头为姓氏的方式进行识别;在识别属性内容是否为年龄时,可以采用属性内容是否为数值,且数值范围在1-100之间的整数的方式进行识别;在识别属性内容是否为性别时,可以采用属性内容是否为性别时,可以采用属性内容是否为“男”或“女”的方式进行识别。例如,有98条,那么针对第一条待测数据-组合1的值等于98。需要说明的是,在识别属性内容是否与属性标识对应时,可以根据实际情况以及现有可能的识别方式进行识别,在此本发明不作具体限定。
再如,第二种组合为年龄,针对第一条待测数据-组合2为例,第一条待测数据中属性标识为年龄所对应属性内容为年龄,统计其余99条待测数据中属性标识为年龄所对应属性内容均是年龄的条数,若有95条,那么针对第一条待测数据-组合2的值等于95。相应的,第一条待测数据-组合3的值等于96;第一条待测数据-组合4的值等于93;第一条待测数据-组合5的值等于91;第一条待测数据-组合6的值等于92;第一条待测数据-组合7的值等于90。
步骤04,根据统计结果计算每条所述待测数据的特征值。
在本发明一个实施例中,根据统计结果至少可以利用如下一种方式计算每条待测数据的特征值:针对当前所述待测数据,将统计的当前所述待测数据对应的各个属性组合的值相加,作为当前所述待测数据的特征值。
例如,以步骤03中计算的第一条待测数据针对各个属性组合的值,可以计算得到第一条待测数据的特征值=98+95+96+93+91+92+90=655。
其中,特征值的计算方法,还可以采用各个属性组合的值的平均值方法、最大期望法等方式进行计算。
步骤05,根据每条所述待测数据的特征值,确定各条所述待测数据是否异常。
其中,可以根据每条所述待测数据的特征值,确定各条所述待测数据是否异常,例如,可以采用正太分布的方式来确定各条待测数据是否异常。在本发明一个实施例中,还可以利用如下一种方式确定各条待测数据是否异常:将多条所述待测数据的特征值进行聚类,形成多个类簇,确定各个类簇中的离群点,将离群点对应的所述待测数据确定为异常数据。
在将多个待测数据的特征值进行聚类,形成多个类簇时,可以采用K均值聚类、均值漂移聚类算法、基于密度的聚类算法、高斯混合模型的最大期望聚类、凝聚层次聚类和图团体检测方式聚类中的任意一种实现聚类。
其中,离群点检测方法通常可以采用基于统计方法的离群点检测、基于邻近度的离群点检测、基于密度的离群点检测和基于聚类的离群点检测等,利用上述方法可以检测到每个类簇中的离群点。具体地,在确定类簇中的离群点时,可以使用如下一种方式具体来实现:确定类簇中的中心点,从类簇中依次删除一个数据,并计算删除该数据后该类簇的目标参数,在所述目标参数与初始目标参数的差值大于预设的目标偏离阈值时,确定删除的该数据为离群点;其中,初始目标参数是根据未删除数据前该类簇对应的目标参数。
在本实施例中,为了确定该类簇中的删除的数据是否为离群点,可以通过类簇中目标参数与初始目标参数的差值来确定的,在本发明一个实施例中,至少可以通过如下一种方式计算删除该数据后该类簇的目标参数:
其中,F用于表征计算的目标参数;K用于表征类簇的个数,x用于表征被删除的该数据对应的特征值,Ci用于表征第i个类簇的中心点,dist用于表征距离。
在本发明一个实施例中,在确定了异常数据之后,为了减少异常数据对后续挖掘分析过程造成的影响,可以进一步包括:对确定异常数据的所述待测数据进行标记,并在数据清洗过程中,将标记的所述待测数据清洗掉。
本发明实施例,通过获取多条待测数据,每条所述待测数据中包括多个属性信息,每个属性信息包括属性标识和属性内容,根据多个属性标识生成多个属性组合,并针对每条所述待测数据,统计对应各个属性组合的值,根据统计结果计算每条所述待测数据的特征值,根据每条所述待测数据的特征值,确定各条所述待测数据是否异常。本发明,通过针对多个属性组合来统计每条待测数据的特征值,使得异常数据的检测结果更加准确。
请继续参阅图2,示出了一种基于聚类算法的异常数据检测装置,在本实施例中,基于聚类算法的异常数据检测装置10可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述基于聚类算法的异常数据检测方法。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述基于聚类算法的异常数据检测装置10在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
获取模块101,用于获取多条待测数据,每条所述待测数据中包括多个属性信息,每个属性信息包括属性标识和属性内容;
生成模块102,用于根据多个属性标识生成多个属性组合;
统计模块103,用于针对每条所述待测数据,统计对应各个属性组合的值;
计算模块104,用于根据统计结果计算每条所述待测数据的特征值;
确定模块105,用于根据每条所述待测数据的特征值,确定各条所述待测数据是否异常。
在本发明一个实施例中,所述生成模块,具体用于在每条所述待测数据包括n个属性标识时,生成的多个属性组合包括:将每一个属性标识分别作为一个属性组合,将每两个属性标识分别作为一个属性组合,将每三个属性标识分别作为一个属性组合,…,将每(n-1)个属性标识分别作为一个属性组合,将n个属性标识作为一个属性组合;
其中,n为不小于1的整数;生成的属性组合个数为:
其中,N用于表征生成的属性组合的个数。
在本发明一个实施例中,所述统计模块,具体用于:针对当前所述待测数据,统计在所述多条待测数据中,与当前所述待测数据中每个当前属性组合的属性内容相同的待测数据的条数,将统计的条数作为该当前所述待测数据中当前属性组合的值。
在本发明一个实施例中,所述计算模块,具体用于:针对当前所述待测数据,将统计的当前所述待测数据对应的各个属性组合的值相加,作为当前所述待测数据的特征值。
在本发明一个实施例中,所述确定模块,具体用于:将多条所述待测数据的特征值作为一个类簇,确定该类簇中的离群点,将离群点对应的所述待测数据确定为异常数据。
在检测出异常数据之后,为了保证数据的准确性,在本发明一个实施例中,请参考图3,基于聚类算法的异常数据检测装置可以进一步包括:清洗模块301,用于对确定异常数据的所述待测数据进行标记,并在数据清洗过程中,将标记的所述待测数据清洗掉。
在本发明一个实施例中,请参考图4,在利用生成模块根据多个属性标识生成多个属性组合之前,还可以包括:异常处理模401,用于确定所述待测数据中每个属性内容对应的格式,将属性内容与对应格式不同的待测数据确定为异常数据。
本实施例中,通过获取多条待测数据,每条所述待测数据中包括多个属性信息,每个属性信息包括属性标识和属性内容,根据多个属性标识生成多个属性组合,并针对每条所述待测数据,统计对应各个属性组合的值,根据统计结果计算每条所述待测数据的特征值,根据每条所述待测数据的特征值,确定各条所述待测数据是否异常。本发明,通过针对多个属性组合来统计每条待测数据的特征值,使得异常数据的检测结果更加准确。
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于:可通过***总线相互通信连接的存储器21、处理器22,如图5所示。需要指出的是,图5仅示出了具有组件21-22的计算机设备20,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备20的内部存储单元,例如该计算机设备20的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备20的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备20的操作***和各类应用软件,例如实施例一的基于聚类算法的异常数据检测装置10的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行基于聚类算法的异常数据检测装置10,以实现实施例一的基于聚类算法的异常数据检测方法。
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储基于聚类算法的异常数据检测装置10,被处理器执行时实现实施例一的基于聚类算法的异常数据检测方法。
实施例二
请参阅图6,本实施例的基于聚类算法的异常数据检测方法以实施例一为基础,包括以下步骤:
步骤601,获取多条待测数据,每条所述待测数据中包括多个属性信息,每个属性信息包括属性标识和属性内容。
例如,存在多条待测数据,每一条待测数据中包括多个属性信息,每个属性信息包括属性标识和属性内容,如下表所示:
表2:
姓名 | 年龄 | 性别 | 地址位置 | 购买险种类型 |
张三 | 28 | 男 | 北京 | A险种 |
男 | 42 | 女 | 上海 | B险种 |
…… | …… | …… | …… | …… |
王五 | 39 | 男 | 上海 | C险种 |
其中,姓名+张三为一个属性信息,姓名为属性标识,张三为属性内容。相同的,年龄、性别、地理位置、购买险种类型均为属性标识,表格中除去属性标识以外其他均为属性内容。
步骤602,确定所述待测数据中每个属性内容对应的格式,将属性内容与对应格式不同的待测数据确定为异常数据,并针对异常数据执行步骤607,以及针对异常数据之外的其他待测数据执行步骤603。
在表2中第2条待测数据中属性标识为姓名时对应的属性内容为“男”,那么可以确定出属性内容与属性标识不相同,则可以直接将该条待测数据确定为异常数据,将该条待测数据剔除之后剩余的待测数据继续执行下一个步骤。
步骤603,在每条所述待测数据包括n个属性标识时,生成的多个属性组合包括:将每一个属性标识分别作为一个属性组合,将每两个属性标识分别作为一个属性组合,将每三个属性标识分别作为一个属性组合,…,将每(n-1)个属性标识分别作为一个属性组合,将n个属性标识作为一个属性组合。
其中,在根据本步骤的方式进行组合时,可以得到的组合个数为:
其中,N用于表征生成的属性组合的个数。
上述生成属性组合的方式,以n=3时为例,属性标识分别为姓名、年龄和性别,那么可以生成的属性组合包括以下7种:1、姓名;2、年龄;3、性别;4、姓名、年龄;5、姓名、性别;6、年龄、性别;7、姓名、年龄、性别。
步骤604,针对当前所述待测数据,统计在所述多条待测数据中,与当前所述待测数据中当前属性组合的属性内容相同的待测数据的条数,将统计的条数作为该当前所述待测数据中当前属性组合的值。
例如,存在100条待测数据,第一种组合为姓名,统计100条待测数据中属性标识为姓名所对应属性内容均是姓名的条数,其中,在识别属性内容是否为姓名时,可以采用属性内容开头为姓氏的方式进行识别。例如,有98条,那么可以确定当前待测数据中当前属性组合为姓名的值等于98。
步骤605,针对当前所述待测数据,将统计的当前所述待测数据对应的各个属性组合的值相加,作为当前所述待测数据的特征值。
例如,针对第一条待测数据,其第一种属性组合的值为98,第二种属性组合的值为99,第一种属性组合的值为99,第四种属性组合的值为97,第五种属性组合的值为97,第六种属性组合的值为97,第一种属性组合的值为95,那么该第一条待测数据的特征值为:98+99+99+97+97+97+95=582。
步骤606,将多条所述待测数据的特征值作为一个类簇,确定该类簇中的离群点,将离群点对应的所述待测数据确定为异常数据。
步骤607,对确定异常数据的所述待测数据进行标记,并在数据清洗过程中,将标记的所述待测数据清洗掉。
数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性,通过对确定的异常数据进行数据清洗,从而可以保证数据的准确性。
本发明实施例,通过获取多条待测数据,每条所述待测数据中包括多个属性信息,每个属性信息包括属性标识和属性内容,根据多个属性标识生成多个属性组合,并针对每条所述待测数据,统计对应各个属性组合的值,根据统计结果计算每条所述待测数据的特征值,根据每条所述待测数据的特征值,确定各条所述待测数据是否异常。本发明,通过针对多个属性组合来统计每条待测数据的特征值,使得异常数据的检测结果更加准确。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种基于聚类算法的异常数据检测方法,其特征在于,所述方法包括以下步骤:
获取多条待测数据,每条所述待测数据中包括多个属性信息,每个属性信息包括属性标识和属性内容;
根据多个属性标识生成多个属性组合;
针对每条所述待测数据,统计对应各个属性组合的值;
根据统计结果计算每条所述待测数据的特征值;
根据每条所述待测数据的特征值,确定各条所述待测数据是否异常;
所述根据每条所述待测数据的特征值,确定各条所述待测数据是否异常,包括:将多条所述待测数据的特征值进行聚类,形成多个类簇,针对每个类簇:确定类簇的中心点,从该类簇中依次删除一个数据,并计算删除该数据后该类簇的目标参数,在计算的目标参数与初始目标参数的差值大于预设的目标偏离阈值时,将该删除的数据确定的离群点,将离群点对应的所述待测数据确定为异常数据;
其中,计算删除该数据后该类簇的目标参数:
其中,F用于表征计算的目标参数;K用于表征类簇的个数,x用于表征被删除的该数据对应的特征值,Ci用于表征第i个类簇的中心点,dist用于表征距离。
2.根据权利要求1所述基于聚类算法的异常数据检测方法,其特征在于,所述根据多个属性标识生成多个属性组合,包括:
在每条所述待测数据包括n个属性标识时,生成的多个属性组合包括:将每一个属性标识分别作为一个属性组合,将每两个属性标识分别作为一个属性组合,将每三个属性标识分别作为一个属性组合,…,将每(n-1)个属性标识分别作为一个属性组合,将n个属性标识作为一个属性组合;
其中,n为不小于1的整数;生成的属性组合个数为:
其中,N用于表征生成的属性组合的个数。
3.根据权利要求1所述基于聚类算法的异常数据检测方法,其特征在于,所述针对每条所述待测数据,统计对应各个属性组合的值,包括:针对当前所述待测数据,统计在所述多条待测数据中,与当前所述待测数据中当前属性组合的属性内容相同的待测数据的条数,将统计的条数作为该当前所述待测数据中当前属性组合的值。
4.根据权利要求3所述基于聚类算法的异常数据检测方法,其特征在于,所述根据统计结果计算每条所述待测数据的特征值,包括:针对当前所述待测数据,将统计的当前所述待测数据对应的各个属性组合的值相加,作为当前所述待测数据的特征值。
5.根据权利要求1所述基于聚类算法的异常数据检测方法,其特征在于,进一步包括:对确定异常数据的所述待测数据进行标记,并在数据清洗过程中,将标记的所述待测数据清洗掉。
6.根据权利要求1-5中任一所述基于聚类算法的异常数据检测方法,其特征在于,在所述获取多条待测数据之后,还包括:确定所述待测数据中每个属性内容对应的格式,将属性内容与对应格式不同的待测数据确定为异常数据。
7.一种用于实现权利要求1-6任一项所述方法的基于聚类算法的异常数据检测装置,其特征在于,所述装置包括以下内容:
获取模块,用于获取多条待测数据,每条所述待测数据中包括多个属性信息,每个属性信息包括属性标识和属性内容;
生成模块,用于根据多个属性标识生成多个属性组合;
统计模块,用于针对每条所述待测数据,统计对应各个属性组合的值;
计算模块,用于根据统计结果计算每条所述待测数据的特征值;
确定模块,用于根据每条所述待测数据的特征值,确定各条所述待测数据是否异常。
8.一种计算机设备,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910752335.1A CN110647913B (zh) | 2019-08-15 | 2019-08-15 | 基于聚类算法的异常数据检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910752335.1A CN110647913B (zh) | 2019-08-15 | 2019-08-15 | 基于聚类算法的异常数据检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110647913A CN110647913A (zh) | 2020-01-03 |
CN110647913B true CN110647913B (zh) | 2024-04-05 |
Family
ID=69009715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910752335.1A Active CN110647913B (zh) | 2019-08-15 | 2019-08-15 | 基于聚类算法的异常数据检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110647913B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325260B (zh) * | 2020-02-14 | 2023-10-27 | 北京百度网讯科技有限公司 | 数据处理方法及装置、电子设备、计算机可读介质 |
CN111489262A (zh) * | 2020-06-15 | 2020-08-04 | 太平金融科技服务(上海)有限公司 | 保单信息检测方法、装置、计算机设备和存储介质 |
CN112131277B (zh) * | 2020-09-28 | 2023-04-18 | 深圳平安医疗健康科技服务有限公司 | 基于大数据的医疗数据异常分析方法、装置和计算机设备 |
CN112650741B (zh) * | 2020-12-29 | 2023-07-14 | 平安消费金融有限公司 | 异常数据的识别与修正方法、***、设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101470426A (zh) * | 2007-12-27 | 2009-07-01 | 北京北方微电子基地设备工艺研究中心有限责任公司 | 一种故障检测的方法和*** |
CN101561878A (zh) * | 2009-05-31 | 2009-10-21 | 河海大学 | 基于改进cure聚类算法的无监督异常检测方法和*** |
CN106301979A (zh) * | 2015-05-27 | 2017-01-04 | 腾讯科技(北京)有限公司 | 检测异常渠道的方法和*** |
CN108647997A (zh) * | 2018-04-13 | 2018-10-12 | 北京三快在线科技有限公司 | 一种检测异常数据的方法及装置 |
CN109412839A (zh) * | 2018-09-30 | 2019-03-01 | 北京奇虎科技有限公司 | 一种异常账户的识别方法、装置、设备及存储介质 |
CN109766393A (zh) * | 2018-12-06 | 2019-05-17 | 中科恒运股份有限公司 | 异常数据检测方法及装置 |
-
2019
- 2019-08-15 CN CN201910752335.1A patent/CN110647913B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101470426A (zh) * | 2007-12-27 | 2009-07-01 | 北京北方微电子基地设备工艺研究中心有限责任公司 | 一种故障检测的方法和*** |
CN101561878A (zh) * | 2009-05-31 | 2009-10-21 | 河海大学 | 基于改进cure聚类算法的无监督异常检测方法和*** |
CN106301979A (zh) * | 2015-05-27 | 2017-01-04 | 腾讯科技(北京)有限公司 | 检测异常渠道的方法和*** |
CN108647997A (zh) * | 2018-04-13 | 2018-10-12 | 北京三快在线科技有限公司 | 一种检测异常数据的方法及装置 |
CN109412839A (zh) * | 2018-09-30 | 2019-03-01 | 北京奇虎科技有限公司 | 一种异常账户的识别方法、装置、设备及存储介质 |
CN109766393A (zh) * | 2018-12-06 | 2019-05-17 | 中科恒运股份有限公司 | 异常数据检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110647913A (zh) | 2020-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110647913B (zh) | 基于聚类算法的异常数据检测方法及装置 | |
CN109934268B (zh) | 异常交易检测方法及*** | |
CN112383891B (zh) | 一种基于物模型自动匹配的设备注册方法和装置 | |
CN109740760B (zh) | 文本质检自动化训练方法、电子装置及计算机设备 | |
CN110659268A (zh) | 基于聚类算法的数据填充方法、装置及计算机设备 | |
CN111275821A (zh) | 一种电力线拟合方法、***及终端 | |
WO2019041764A1 (zh) | 团体保费评估的方法、装置、计算机设备及存储介质 | |
CN111291567B (zh) | 人工标注质量的评估方法、装置、电子设备及存储介质 | |
CN113723467A (zh) | 用于缺陷检测的样本收集方法、装置和设备 | |
CN111400435B (zh) | 邮件告警收敛方法、装置、计算机设备及存储介质 | |
CN108664605B (zh) | 一种模型评估方法及*** | |
CN110795308A (zh) | 一种服务器检验方法、装置、设备及存储介质 | |
CN108446739B (zh) | 一种数据录入监测方法及装置 | |
CN111061999A (zh) | 数据样本获取方法、装置及存储介质 | |
CN112650741B (zh) | 异常数据的识别与修正方法、***、设备及可读存储介质 | |
CN109324963B (zh) | 自动测试收益结果的方法及终端设备 | |
CN110852893A (zh) | 基于海量数据的风险识别方法、***、设备及存储介质 | |
CN108415958B (zh) | 指数权重vlad特征的权重处理方法及装置 | |
CN115344495A (zh) | 批量任务测试的数据分析方法、装置、计算机设备及介质 | |
CN114860608A (zh) | 基于场景构建的***自动化测试方法、装置、设备及介质 | |
CN114741291A (zh) | 一种漏洞信息自动提交的方法、装置、设备及介质 | |
CN113537806A (zh) | 异常用户识别方法、装置、电子设备及可读存储介质 | |
CN109783877B (zh) | 时间序列模型建立方法、装置、计算机设备和存储介质 | |
CN112232962A (zh) | 交易指标处理方法、装置和设备 | |
CN117150233B (zh) | 一种电网异常数据治理方法、***、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |