CN114595210A - 一种多维数据的异常检测方法、装置及电子设备 - Google Patents

一种多维数据的异常检测方法、装置及电子设备 Download PDF

Info

Publication number
CN114595210A
CN114595210A CN202011310982.6A CN202011310982A CN114595210A CN 114595210 A CN114595210 A CN 114595210A CN 202011310982 A CN202011310982 A CN 202011310982A CN 114595210 A CN114595210 A CN 114595210A
Authority
CN
China
Prior art keywords
sequence
detected
multidimensional
dimensional
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011310982.6A
Other languages
English (en)
Inventor
王锐
郑浩彬
段新
孙剑骏
林纲
温粉莲
庞健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Guangdong Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202011310982.6A priority Critical patent/CN114595210A/zh
Publication of CN114595210A publication Critical patent/CN114595210A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供了一种多维数据的异常检测方法、装置及电子设备,该方法包括:获取待测的多维序列,所述多维序列包括预设维度的参数;将所述待测的多维序列输入到预置的异常检测模型,输出得到所述待测的多维序列是否满足模型标准,并根据与各参数对应的阈值区间,判断所述待测的多维序列中是否存在不满足对应阈值区间的参数;其中,所述异常检测模型为,以所述多维序列的历史数据为训练数据通过孤立森林算法训练得到的;在所述待测的多维序列不满足所述模型标准,且存在不满足对应阈值区间的参数时,判定所述待测的多维序列异常。通过本发明实施例,实现了准确识别多维序列中的异常序列。

Description

一种多维数据的异常检测方法、装置及电子设备
技术领域
本发明涉及移动通信技术领域,尤其涉及一种多维数据的异常检测方法、装置及电子设备。
背景技术
异常检测也称为离群检测,用于发现数据流中的异常类型并确定其发生的详细信息。但是随着移动通信的发展,整个互联网业务急剧膨胀,为了适配多种终端、不同接入方式,运行场景日趋复杂,各类监控指标繁多且数据量巨大,海量多维序列数据给运维人员带来更高的挑战。
现有的异常检测方法多为单指标异常检测,即单维序列异常检测,通常假设数据变化满足一种分布,如高斯分布或者正态分布来计算动态阈值,对数据按照一定的规律波动来判断异常是否有效,判别速度快。但是一旦数据在某一段时间变化幅度加大,数据不够平滑,这种动态阈值的方式就会导致很多的错判和漏判。对于多指标(多维序列)数据来说,时间复杂度和空间复杂度会更高,无效和干扰信息更加严重。若每个指标进行单指标的异常检测,太多的维度以及数据量就会导致速度变慢,累积更多的错判和漏判,很难发现相关联的异常指标数据,不利于整体分析问题。
现有的孤立森林方法,通常会受到一些噪音维度或者无关维度的影响。在建立树的同时,可能会有部分维度的信息没有被完全利用,这些因素都影响了树的构建,导致了在实际异常检测中,一些检测点会被误判,使检测结果的准确率低下。
发明内容
本发明实施例的目的是提供一种多维数据的异常检测方法、装置及电子设备,以解决现有的孤立森林方法,通常会受到一些噪音维度或者无关维度的影响。在建立树的同时,可能会有部分维度的信息没有被完全利用,这些因素都影响了树的构建,导致了在实际异常检测中,一些检测点会被误判,使检测结果的准确率低下的问题。
为了解决上述技术问题,本发明实施例是这样实现的:
第一方面,本发明实施例提供了一种多维数据的异常检测方法,包括:
获取待测的多维序列,所述多维序列包括预设维度的参数;
将所述待测的多维序列输入到预置的异常检测模型,输出得到所述待测的多维序列是否满足模型标准,并根据与各参数对应的阈值区间,判断所述待测的多维序列中是否存在不满足对应阈值区间的参数;其中,所述异常检测模型为,以所述多维序列的历史数据为训练数据通过孤立森林算法训练得到的;
在所述待测的多维序列不满足所述模型标准,且存在不满足对应阈值区间的参数时,判定所述待测的多维序列为异常序列。
第二方面,本发明实施例提供了一种多维数据的异常检测装置,包括:
数据采样模块,用于获取待测的多维序列,所述多维序列包括预设维度的参数;
异常检测模块,用于将所述待测的多维序列输入到预置的异常检测模型,输出得到所述待测的多维序列是否满足模型标准,并根据与各参数对应的阈值区间,判断所述待测的多维序列中是否存在不满足对应阈值区间的参数;其中,所述异常检测模型为,以所述多维序列的历史数据为训练数据通过孤立森林算法训练得到的;
异常判断模块,用于在所述待测的多维序列不满足所述模型标准,且存在不满足对应阈值区间的参数时,判定所述待测的多维序列为异常序列。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线;其中,所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序,实现如第一方面所述的多维数据的异常检测方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如第一方面所述的多维数据的异常检测方法步骤。
由以上本发明实施例提供的技术方案可见,本发明实施例通过获取待测的多维序列,所述多维序列包括预设维度的参数;将所述待测的多维序列输入到预置的异常检测模型,输出得到所述待测的多维序列是否满足模型标准,并根据与各参数对应的阈值区间,判断所述待测的多维序列中是否存在不满足对应阈值区间的参数;其中,所述异常检测模型为,以所述多维序列的历史数据为训练数据通过孤立森林算法训练得到的;在所述待测的多维序列不满足所述模型标准,且存在不满足对应阈值区间的参数时,判定所述待测的多维序列异常。通过本发明实施例,实现了准确识别多维序列中的异常序列。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的多维数据的异常检测方法的第一种流程示意图;
图2为本发明实施例提供的多维数据的异常检测方法的第二种流程示意图;
图3为本发明实施例提供的多维数据的异常检测方法的第三种流程示意图;
图4为本发明实施例提供的多维数据的异常检测装置的模块组成示意图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
本发明实施例提供了一种多维数据的异常检测方法、装置及电子设备。
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
如图1所示,本发明实施例提供一种多维数据的异常检测方法,该方法的执行主体可以为服务器,其中,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群,而且,该服务器可以是能够进行网络操作处理的服务器,如某网络资源配置的服务器等。该方法具体可以包括以下步骤:
步骤S01、获取待测的多维序列,所述多维序列包括预设维度的参数。
本发明实施例用于对同一***中多个设备所对应的参数同时进行检测,实时采集***中各个设备所对应的参数,例如,对于一个IT***,可采集CPU使用率、内存使用率、数据库等待事件、数据库连接数等多个参数,每个参数即对应一个维度,对参数的采样时间粒度可根据实际的需要进行设定,可以为5分钟。
将同一采样时间采集到各参数组成待测的多维序列。
进一步的,如图2所示,所述在步骤S01前,方法还包括:
步骤S001、根据所述多维序列在第一时间区间内的历史数据,通过预设的阈值计算方法,获取与各参数对应的阈值区间。
在本发明实施例中,预先获取多维序列的历史数据,并根据在第一时间区间内的历史数据,例如,一年或数月,计算出每个维度的参数的阈值区间。
进一步的,由于任一***中各设备的运行状态在不同的时间片段内存在规律性的变化,例如,对于一个IT***其各设备的使用率,在每天白天和晚上会存在均大的差别,或者,在一周中,工作日与假日也会存在均大的差别。因此,在获取各参数的阈值区间时,需要根据各时间片段内的规律进行划分。所述步骤S001包括:
步骤S0011、按照预设的时间划片规则,建立与各时间片段对应的多维序列组。
所述时间划片规则,可根据实际各***的运行规则进行设置,可以将一周的时间按照一天进行划片,得到的时间片段为周一、周二、……;也可以将一周的时间按一小时进行划分;也可以将一天的时间按一小时进行划分,得到的时间片段为00:00-00:59,01:00-01:59,……,23:00-23:59;还可以将一天的时间按照5分钟的时间进行划分,等等。所述时间划片规则,在此不作具体地限定。
根据所述时间划算规则得到的各时间片段,建立与各时间片段对应的多维序列组。
步骤S0012、将所述多维序列在第一时间区间内的历史数据,根据各历史数据的采样时间,将各历史数据划分到对应的多维序列组。
根据采样时间,将在第一时间区间内的所有历史数据进行分组,得到与各时间片段对应的多维序列组。以将一天时间按一小时进行划分为例,得到了一天中每一个小时对应的多维序列组。
步骤S0013、在所述多维序列组内,通过预设的阈值计算方法,获取参数在对应的时间片段内的阈值区间。从而得到了各参数在不同的时间片段内的规律。
进一步的,计算各个参数的阈值区间的阈值计算方法有很多,本发明实施例,仅以格拉布斯Grubbs离群数据检测方法为例进行举例说明。所述步骤S0013包括:
步骤S00131、在所述多维序列组内,通过预设的格拉布斯离群数据检测算法,对各参数进行数据清洗。
步骤S00132、根据清洗后保留的参数,得到各参数在对应的时间片段内的阈值区间。
先通过预设的Grubbs离群数据检测算法,在任一参数i的采样值组成的数据集Xi={xij}中,寻找其中最大的z-core,也就是计算每个采样值xij对平均值
Figure BDA0002789749720000051
的偏离与标准差Si的比值,所述z-core的计算公式如下所示:
Figure BDA0002789749720000052
其中,zij即为z-core,Si为数据的标准差,
Figure BDA0002789749720000053
为数据的均值。
将每个采样值的z-core与预设的概率阈值参数a离群检测的临界值gc进行比较,如果所述z-core大于所述临界值gc,则认定该采样值为离群值,将所述采样值从所述数据集中剔除。其中,所述临界值gc由如下公式计算得到:
Figure BDA0002789749720000054
在通过上述Grubbs离群数据检测算法对数据库进行清洗后,所述数据集中将不存在z-core大于所述临界值gc的采样值,从而得到该参数i对应的正常阈值集Oseti
所述Grubbs算法具体的执行过程的伪代码如下表1所示:
Figure BDA0002789749720000055
Figure BDA0002789749720000061
表1
将所述正常阈值集Oseti中的最大值和最小值作为该参数i对应的阈值区间。
步骤S002、根据所述多维序列在第二时间区间内的历史数据,通过所述预设的孤立森林算法,构建所述异常检测模型;其中,所述第二时间区间比所述第一时间区间更接近于当前时刻。
提取第二时间区间内的历史数据作为训练集,所述第二时间区间为近期的时间区间,例如,最近1个月内。从所述训练集中进行采样,通过孤立森林算法,构建异常检测模型,并保存为ForestModel,具体的伪代码可以如下表2所示:
Figure BDA0002789749720000062
表2
由于所述异常检测模型是通过近期的历史数据训练得到的,因此,所述异常检测模型可以定期进行更新或重新进行训练。
步骤S02、将所述待测的多维序列输入到预置的异常检测模型,输出得到所述待测的多维序列是否满足模型标准,并根据与各参数对应的阈值区间,判断所述待测的多维序列中是否存在不满足对应阈值区间的参数;其中,所述异常检测模型为,以所述多维序列的历史数据为训练数据通过孤立森林算法训练得到的。
将待测的多维序列输入到训练完成的异常检测模型ForestModel中,根据所述异常检测模型的输出,得到待测的多维序列是否满足模型标准。
进一步的,所述步骤S02,包括:
步骤S021、将所述待测的多维序列输入到预置的异常检测模型,输出得到所述待测的多维序列是否满足模型标准,并根根据与所述待测的多维序列的采样时间对应的时间片段,得到各参数在所述时间片段内的阈值区间,并判断所述待测的多维序列中是否存在不满足对应阈值区间的参数。
同时,将所述待测的多维序列中各参数i的数值与通过Grubbs算法得到正常阈值集Oseti进行比对,确定所述待测的多维序列中是否存在不满足阈值区间的参数。
步骤S03、在所述待测的多维序列不满足所述模型标准,且存在不满足对应阈值区间的参数时,判定所述待测的多维序列为异常序列。
在实施中,对所述待测的多维序列根据异常检测模型和阈值区间进行异常判断的两个种方式,可以同时进行,也可按照预设的顺序进行,以所述异常检测模型的异常判断在先,阈值区间的异常判断在后为例进行举例说明。
将预设时间段内采集到的多条的待测的多维序列,批量输入到所述异常检测模型中。所述异常检测模型将根据各待测的多维序列的采样时间,输出不满足模型标准的采样时间所对应的异常序列集合Anomaly。根据Grubbs算法得到的阈值区间,对异常序列集合Amomaly中的各待测的多维序列进行异常判断,得到存在不满足阈值区间的参数的异常序列集合Anomaly*。具体的伪代码如下表3所示。
Figure BDA0002789749720000071
Figure BDA0002789749720000081
由以上本发明实施例提供的技术方案可见,本发明实施例通过获取待测的多维序列,所述多维序列包括预设维度的参数;将所述待测的多维序列输入到预置的异常检测模型,输出得到所述待测的多维序列是否满足模型标准,并根据与各参数对应的阈值区间,判断所述待测的多维序列中是否存在不满足对应阈值区间的参数;其中,所述异常检测模型为,以所述多维序列的历史数据为训练数据通过孤立森林算法训练得到的;在所述待测的多维序列不满足所述模型标准,且存在不满足对应阈值区间的参数时,判定所述待测的多维序列异常。通过本发明实施例,实现了准确识别多维序列中的异常序列。
进一步的,如图3所示,上述步骤S03后,所述方法还包括:
步骤S04、根据所述待测的多维序列的采样时间和不满足对应阈值区间的参数,确定造成所述异常序列的异常因素。
通过所述异常检测模型,得到不符合模型标准的待测的多维序列,从而确定了出现异常的采样时间。再根据各参数的阈值区间,找出不满足阈值区间的参数,从而确定了出现异常的采样时间和出现异常的参数。
由以上本发明实施例提供的技术方案可见,本发明实施例通过根据所述待测的多维序列的采样时间和不满足对应阈值区间的参数,确定造成所述异常序列的异常因素。通过本发明实施例,实现了对出现异常序列的异常因素的准确定位。
对应上述实施例提供的多维数据的异常检测方法,基于相同的技术构思,本发明实施例还提供了一种多维数据的异常检测装置,图4为本发明实施例提供的多维数据的异常检测装置的模块组成示意图,该多维数据的异常检测装置用于执行图1至图3描述的多维数据的异常检测方法,如图4所示,该多维数据的异常检测装置包括:数据采样模块401、异常检测模块402和异常判断模块403。
所述数据采样模块401用于获取待测的多维序列,所述多维序列包括预设维度的参数;所述异常检测模块402用于将所述待测的多维序列输入到预置的异常检测模型,输出得到所述待测的多维序列是否满足模型标准,并根据与各参数对应的阈值区间,判断所述待测的多维序列中是否存在不满足对应阈值区间的参数;其中,所述异常检测模型为,以所述多维序列的历史数据为训练数据通过孤立森林算法训练得到的;所述异常判断模块403用于在所述待测的多维序列不满足所述模型标准,且存在不满足对应阈值区间的参数时,判定所述待测的多维序列为异常序列。
进一步的,所述装置还包括:第一模型模块和第二模型模块,
所述第一模型模块,用于根据所述多维序列在第一时间区间内的历史数据,通过预设的阈值计算方法,获取与各参数对应的阈值区间;
所述第二模型模块,用于根据所述多维序列在第二时间区间内的历史数据,通过所述预设的孤立森林算法,构建所述异常检测模型;其中,所述第二时间区间比所述第一时间区间更接近于当前时刻。
进一步的,所述第一模型模块,包括:时间划片单元、数据分组单元和阈值计算单元。
所述时间划片单元,用于按照预设的时间划片规则,建立与各时间片段对应的多维序列组;
所述数据分组单元,用于将所述多维序列在第一时间区间内的历史数据,根据各历史数据的采样时间,将各历史数据划分到对应的多维序列组;
所述阈值计算单元,用于在所述多维序列组内,通过预设的阈值计算方法,获取参数在对应的时间片段内的阈值区间。
所述异常检测模块,用于将所述待测的多维序列输入到预置的异常检测模型,输出得到所述待测的多维序列是否满足模型标准,并根据与所述待测的多维序列的采样时间对应的时间片段,得到各参数在所述时间片段内的阈值区间,并判断所述待测的多维序列中是否存在不满足对应阈值区间的参数。
进一步的,所述阈值计算单元,包括:
第一计算单元,用于在所述多维序列组内,通过预设的格拉布斯离群数据检测算法,对各参数进行数据清洗;
第二计算单元,用于根据清洗后保留的参数,得到各参数在对应的时间片段内的阈值区间。
由以上本发明实施例提供的技术方案可见,本发明实施例通过获取待测的多维序列,所述多维序列包括预设维度的参数;将所述待测的多维序列输入到预置的异常检测模型,输出得到所述待测的多维序列是否满足模型标准,并根据与各参数对应的阈值区间,判断所述待测的多维序列中是否存在不满足对应阈值区间的参数;其中,所述异常检测模型为,以所述多维序列的历史数据为训练数据通过孤立森林算法训练得到的;在所述待测的多维序列不满足所述模型标准,且存在不满足对应阈值区间的参数时,判定所述待测的多维序列异常。通过本发明实施例,实现了准确识别多维序列中的异常序列。
进一步的,所述装置还包括:
原因判断模块,用于根据所述待测的多维序列的采样时间和不满足对应阈值区间的参数,确定造成所述异常序列的异常因素。
由以上本发明实施例提供的技术方案可见,本发明实施例通过根据所述待测的多维序列的采样时间和不满足对应阈值区间的参数,确定造成所述异常序列的异常因素。通过本发明实施例,实现了对出现异常序列的异常因素的准确定位。
本发明实施例提供的多维数据的异常检测装置能够实现上述多维数据的异常检测方法对应的实施例中的各个过程,为避免重复,这里不再赘述。
需要说明的是,本发明实施例提供的多维数据的异常检测装置与本发明实施例提供的多维数据的异常检测方法基于同一发明构思,因此该实施例的具体实施可以参见前述多维数据的异常检测方法的实施,重复之处不再赘述。
对应上述实施例提供的多维数据的异常检测方法,基于相同的技术构思,本发明实施例还提供了一种电子设备,该电子设备用于执行上述的多维数据的异常检测方法,图5为实现本发明各个实施例的一种电子设备的结构示意图,如图5所示。电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器501和存储器502,存储器502中可以存储有一个或一个以上存储应用程序或数据。其中,存储器502可以是短暂存储或持久存储。存储在存储器502的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对电子设备中的一系列计算机可执行指令。更进一步地,处理器501可以设置为与存储器502通信,在电子设备上执行存储器502中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源503,一个或一个以上有线或无线网络接口504,一个或一个以上输入输出接口505,一个或一个以上键盘506。
具体在本实施例中,电子设备包括有处理器、通信接口、存储器和通信总线;其中,所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序,实现以下方法步骤:
获取待测的多维序列,所述多维序列包括预设维度的参数;
将所述待测的多维序列输入到预置的异常检测模型,输出得到所述待测的多维序列是否满足模型标准,并根据与各参数对应的阈值区间,判断所述待测的多维序列中是否存在不满足对应阈值区间的参数;其中,所述异常检测模型为,以所述多维序列的历史数据为训练数据通过孤立森林算法训练得到的;
在所述待测的多维序列不满足所述模型标准,且存在不满足对应阈值区间的参数时,判定所述待测的多维序列为异常序列。
本申请实施例还提供一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现以下方法步骤:
获取待测的多维序列,所述多维序列包括预设维度的参数;
将所述待测的多维序列输入到预置的异常检测模型,输出得到所述待测的多维序列是否满足模型标准,并根据与各参数对应的阈值区间,判断所述待测的多维序列中是否存在不满足对应阈值区间的参数;其中,所述异常检测模型为,以所述多维序列的历史数据为训练数据通过孤立森林算法训练得到的;
在所述待测的多维序列不满足所述模型标准,且存在不满足对应阈值区间的参数时,判定所述待测的多维序列为异常序列。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,电子设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、装置或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种多维数据的异常检测方法,其特征在于,所述方法包括:
获取待测的多维序列,所述多维序列包括预设维度的参数;
将所述待测的多维序列输入到预置的异常检测模型,输出得到所述待测的多维序列是否满足模型标准,并根据与各参数对应的阈值区间,判断所述待测的多维序列中是否存在不满足对应阈值区间的参数;其中,所述异常检测模型为,以所述多维序列的历史数据为训练数据通过孤立森林算法训练得到的;
在所述待测的多维序列不满足所述模型标准,且存在不满足对应阈值区间的参数时,判定所述待测的多维序列为异常序列。
2.根据权利要求1所述的多维数据的异常检测方法,其特征在于,在所述获取待测的多维序列的步骤之前,所述方法还包括:
根据所述多维序列在第一时间区间内的历史数据,通过预设的阈值计算方法,获取与各参数对应的阈值区间;
根据所述多维序列在第二时间区间内的历史数据,通过所述预设的孤立森林算法,构建所述异常检测模型;其中,所述第二时间区间比所述第一时间区间更接近于当前时刻。
3.根据权利要求2所述的多维数据的异常检测方法,其特征在于,所述根据所述多维序列在第一时间区间内的历史数据,通过预设的阈值计算方法,获取与各参数对应的阈值区间,包括:
按照预设的时间划片规则,建立与各时间片段对应的多维序列组;
将所述多维序列在第一时间区间内的历史数据,根据各历史数据的采样时间,将各历史数据划分到对应的多维序列组;
在所述多维序列组内,通过预设的阈值计算方法,获取参数在对应的时间片段内的阈值区间;
所述根据与各参数对应的阈值区间,判断所述待测的多维序列中是否存在不满足对应阈值区间的参数,包括:
根据与所述待测的多维序列的采样时间对应的时间片段,得到各参数在所述时间片段内的阈值区间,并判断所述待测的多维序列中是否存在不满足对应阈值区间的参数。
4.根据权利要求3所述的多维数据的异常检测方法,其特征在于,所述在所述多维序列组内,通过预设的阈值计算方法,获取参数在对应的时间片段内的阈值区间,包括:
在所述多维序列组内,通过预设的格拉布斯离群数据检测算法,对各参数进行数据清洗;
根据清洗后保留的参数,得到各参数在对应的时间片段内的阈值区间。
5.根据权利要求4所述的多维数据的异常检测方法,其特征在于,在判定所述待测的多维序列异常的步骤后,所述方法还包括:
根据所述待测的多维序列的采样时间和不满足对应阈值区间的参数,确定造成所述异常序列的异常因素。
6.一种多维数据的异常检测装置,其特征在于,所述装置包括:
数据采样模块,用于获取待测的多维序列,所述多维序列包括预设维度的参数;
异常检测模块,用于将所述待测的多维序列输入到预置的异常检测模型,输出得到所述待测的多维序列是否满足模型标准,并根据与各参数对应的阈值区间,判断所述待测的多维序列中是否存在不满足对应阈值区间的参数;其中,所述异常检测模型为,以所述多维序列的历史数据为训练数据通过孤立森林算法训练得到的;
异常判断模块,用于在所述待测的多维序列不满足所述模型标准,且存在不满足对应阈值区间的参数时,判定所述待测的多维序列为异常序列。
7.根据权利要求6所述的多维数据的异常检测装置,其特征在于,所述装置还包括:第一模型模块和第二模型模块,
所述第一模型模块,用于根据所述多维序列在第一时间区间内的历史数据,通过预设的阈值计算方法,获取与各参数对应的阈值区间;
所述第二模型模块,用于根据所述多维序列在第二时间区间内的历史数据,通过所述预设的孤立森林算法,构建所述异常检测模型;其中,所述第二时间区间比所述第一时间区间更接近于当前时刻。
8.根据权利要求7所述的多维数据的异常检测装置,其特征在于,所述第一模型模块,包括:
时间划片单元,用于按照预设的时间划片规则,建立与各时间片段对应的多维序列组;
数据分组单元,用于将所述多维序列在第一时间区间内的历史数据,根据各历史数据的采样时间,将各历史数据划分到对应的多维序列组;
阈值计算单元,用于在所述多维序列组内,通过预设的阈值计算方法,获取参数在对应的时间片段内的阈值区间。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线;其中,所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序,实现如权利要求1-5任一项所述的多维数据的异常检测方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的多维数据的异常检测方法步骤。
CN202011310982.6A 2020-11-20 2020-11-20 一种多维数据的异常检测方法、装置及电子设备 Pending CN114595210A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011310982.6A CN114595210A (zh) 2020-11-20 2020-11-20 一种多维数据的异常检测方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011310982.6A CN114595210A (zh) 2020-11-20 2020-11-20 一种多维数据的异常检测方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN114595210A true CN114595210A (zh) 2022-06-07

Family

ID=81812742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011310982.6A Pending CN114595210A (zh) 2020-11-20 2020-11-20 一种多维数据的异常检测方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114595210A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115829300A (zh) * 2023-02-15 2023-03-21 南京桓泰电气有限公司 适用于电线电缆接头状态监测的数据处理方法及装置
CN116500240A (zh) * 2023-06-21 2023-07-28 江西索立德环保服务有限公司 一种土壤环境质量监测方法、***及可读存储介质
CN117407826A (zh) * 2023-12-14 2024-01-16 中国电子科技集团公司第十研究所 一种机载无线电导航***异常检测方法、设备及存储介质
WO2024036709A1 (zh) * 2022-08-18 2024-02-22 深圳前海微众银行股份有限公司 一种异常数据检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825548A (zh) * 2019-10-24 2020-02-21 新华三信息安全技术有限公司 异常检测方法、模型训练方法及相关装置
CN111061620A (zh) * 2019-12-27 2020-04-24 福州林科斯拉信息技术有限公司 一种混合策略的服务器异常智能检测方法及检测***
CN111092757A (zh) * 2019-12-06 2020-05-01 网宿科技股份有限公司 一种异常数据的检测方法、***及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825548A (zh) * 2019-10-24 2020-02-21 新华三信息安全技术有限公司 异常检测方法、模型训练方法及相关装置
CN111092757A (zh) * 2019-12-06 2020-05-01 网宿科技股份有限公司 一种异常数据的检测方法、***及设备
CN111061620A (zh) * 2019-12-27 2020-04-24 福州林科斯拉信息技术有限公司 一种混合策略的服务器异常智能检测方法及检测***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024036709A1 (zh) * 2022-08-18 2024-02-22 深圳前海微众银行股份有限公司 一种异常数据检测方法及装置
CN115829300A (zh) * 2023-02-15 2023-03-21 南京桓泰电气有限公司 适用于电线电缆接头状态监测的数据处理方法及装置
CN115829300B (zh) * 2023-02-15 2023-06-23 南京桓泰电气有限公司 适用于电线电缆接头状态监测的数据处理方法及装置
CN116500240A (zh) * 2023-06-21 2023-07-28 江西索立德环保服务有限公司 一种土壤环境质量监测方法、***及可读存储介质
CN116500240B (zh) * 2023-06-21 2023-12-29 江西索立德环保服务有限公司 一种土壤环境质量监测方法、***及可读存储介质
CN117407826A (zh) * 2023-12-14 2024-01-16 中国电子科技集团公司第十研究所 一种机载无线电导航***异常检测方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN114595210A (zh) 一种多维数据的异常检测方法、装置及电子设备
CN110058977B (zh) 基于流式处理的监控指标异常检测方法、装置及设备
CN113098723B (zh) 一种故障根因定位方法、装置、存储介质及设备
CN105718715B (zh) 异常检测方法和设备
CN109857618B (zh) 一种监控方法、装置及***
Folmer et al. Detection of temporal dependencies in alarm time series of industrial plants
CN114444827B (zh) 一种集群性能的评估方法和装置
CN113986595A (zh) 一种异常定位方法及装置
CN113708987B (zh) 网络异常检测方法及装置
CN113220534A (zh) 集群多维度异常监控方法、装置、设备及存储介质
CN111753875A (zh) 一种电力信息***运行趋势分析方法、装置及存储介质
WO2017082782A1 (en) Managing network alarms
CN115033463A (zh) 一种***异常类型确定方法、装置、设备和存储介质
CN116149926A (zh) 业务指标的异常监测方法、装置、设备及存储介质
CN116804957A (zh) 一种***监控方法及装置
CN112526905B (zh) 一种针对指标异常的处理方法及***
CN115238779B (zh) 一种云盘的异常检测方法、装置、设备及介质
CN116668264A (zh) 一种告警聚类的根因分析方法、装置、设备及存储介质
CN115658441B (zh) 一种基于日志的家政业务***异常监控方法、设备及介质
CN115690681A (zh) 异常判断依据的处理方法、异常判断方法及装置
CN109947713B (zh) 一种日志的监控方法及装置
CN112732517B (zh) 一种磁盘故障告警方法、装置、设备及可读存储介质
CN112882854B (zh) 一种请求异常的处理方法及装置
CN111695829B (zh) 一种指标波动周期计算方法、装置、存储介质及电子设备
CN115168154A (zh) 一种基于动态基线的异常日志检测方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination