WO2021185182A1

WO2021185182A1 - 一种异常检测的方法及装置

Info

Publication number: WO2021185182A1
Application number: PCT/CN2021/080564
Authority: WO
Inventors: 卢冠男; 朱红燕; 莫林林; 孙芮; 李冕正
Original assignee: 深圳前海微众银行股份有限公司
Priority date: 2020-03-19
Filing date: 2021-03-12
Publication date: 2021-09-23
Also published as: CN111400141B; CN111400141A

Abstract

本发明实施例提供一种异常检测的方法及装置，该方法包括：针对第一大周期内的采集数据，确定待检测指标在第一大周期内的各小周期的至少一个指标值；针对每个小周期的至少一个指标值，根据预设的边界规则，确定待检测指标在每个小周期的边界指标值；根据各小周期的边界指标值，按照边界规则，确定待检测指标在第一大周期的边界指标值；根据第一大周期的边界指标值，确定第一大周期的可信边界指标值；第一大周期的可信边界指标值作为对第二大周期内的采集数据进行异常检测的检测阈值；第二大周期为第一大周期之后的周期。采用上述方法，实现了检测阈值的自适应调整，提高了检测阈值的准确性，进一步提高了异常检测的准确率。

Description

一种异常检测的方法及装置

相关申请的交叉引用

本申请要求在2020年03月19日提交中国专利局、申请号为202010196303.0、申请名称为“一种异常检测的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及金融科技(Fintech)的运维技术领域，尤其涉及一种异常检测的方法及装置。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，但由于金融行业的安全性、实时性要求，也对技术提出更高的要求。在网络迅速发展的今天，已经实现可以通过计算机直接处理大部分金融业务，这种方式极大地节省了人力资源，又可以快速且准确的处理金融业务，提高了金融业务处理的精确性和实时性。

当前，计算机可以直接处理大部分业务，比如对理财产品是否处于正常交易状态进行检测，交易状态的检测可以通过交易量、交易时延等指标进行监控；当监控到交易量或交易时延等指标异常时产生告警，运维人员可以获知交易发生异常，通过维修异常交易设备、异常交易程序或设定恶意购买账户权限等方式恢复交易正常状态。也可以通过监控到的交易量或交易时延等指标的异常判断产品的发布、推广效果等。

现有两种监控方法，一种为人工设定阈值，当交易量或时延超过对应阈值后，产生告警；但这种方式由于过于死板，需要人工不断调整，浪费人工成本。另一种方式为利用历史数据通过模型(如LSTM,ARIMA等)进行无监督学习其变化规律，并设置阈值；但这种方式应用的模型需要较大的内存存储模型参数，且对于波动很大且随机的数据，误告率非常高。

因此，现在亟需一种异常检测的方法及装置，能够自动调整异常阈值，且在占用较小内存的基础上，提高异常检测的准确率。

发明内容

本发明实施例提供一种异常检测的方法及装置，能够自动调整异常阈值，且在占用较小内存的基础上，提高异常检测的准确率。

第一方面，本发明实施例提供一种异常检测的方法，该方法包括：

针对第一大周期内的采集数据，确定待检测指标在所述第一大周期内的各小周期的至少一个指标值；针对每个小周期的至少一个指标值，根据预设的边界规则，确定所述待检测指标在每个小周期的边界指标值；根据各小周期的边界指标值，按照所述边界规则，确定所述待检测指标在所述第一大周期的边界指标值；根据所述第一大周期的边界指标值，确定所述第一大周期的可信边界指标值；所述第一大周期的可信边界指标值作为对第二大周期内的采集数据进行异常检测的检测阈值；所述第二大周期为所述第一大周期之后的周期。

采用上述方法，第一大周期内包含多个小周期，采集第一大周期内的数据，确定第一大周期及中各个小周期内的至少一个指标值；对于每个小周期对应的指标值，根据预设边界规则，获取每个小周期对应的边界指标值。如此，可以通过边界规则对每个小周期的指标值进行选择，得到每个小周期对应的边界指标值，使得每个小周期对应的边界指标值更准确。进一步，通过第一大周期的各个小周期对应的边界指标值，再次按照边界规则得到第一大周期的边界指标值，使得第一大周期的边界指标值更准确。更进一步的，根据第一大周期的边界指标值得到第一大周期的可信边界指标值，以可信边界指标值作为之后产生的数据的检测阈值；如此，在第一大周期的边界指标值的准确性基础上做相关调整得到可信边界指标值，使得之后的第一大周期采集的数据可以在正常合理的范围波动而不会触发异常，造成异常误报。实现了检测阈值的自适应调整，提高了检测阈值的准确性，进一步提高了数据异常检测的准确率。

在一种可能的设计中，所述边界规则为对于一组数据的边界值是从数据中的最大值开始确定密度区域；若密度区域内的数据的个数大于密度阈值，则将所述最大值确定为该组数据的边界值；否则从该组数据中将所述最大值删除，返回从数据中的最大值开始确定密度区域的步骤；所述密度阈值依据该组数据的数据量进行设定。

采用上述方法，通过边界规则选择边界值；具体来说，判断最大值密度区域内的数据个数是否大于密度阈值，若是最大值密度区域内的数据个数大于密度阈值；则可以认为在最大值附近的数据密度符合数据变化规律，最大值为合理数据，可以作为边界值。若是最大值密度区域内的数据个数小于密度阈值，就可以判定该最大值附近的数据量异常小，不符合数据变化规律，该最大值很可能是异常数据，则将该最大值删除并重新在该组数据中重新确定最大值，继续判断重新确定的最大值的密度区域的数据个数是否大于密度阈值，直到确定的最大值的密度区域中的数据个数大于密度阈值，则以该最大值为边界值。因此，可以提高确定边界值的准确性，防止因为边界值为异常数据，而影响后续计算检测阈值的准确性。

在一种可能的设计中，所述密度区域通过如下方式确定，包括：

根据该组数据的最大值、最小值，确定该组数据的分区数；

根据该组数据的最大值、最小值和所述分区数，确定区域半径；

以所述最大值为中心，所述区域半径为半径，确定所述密度区域。

采用上述方法，密度区域是以最大值为中心，区域半径为半径确定的区域。其中，根据一组数据的最大值、最小值，确定该组数据的分区数，通过最大值、最小值和分区数确定区域半径，可以使得到的区域半径更能准确划分密度区域，使得该密度区域可以准确表征最大值附近的数据分布特征，进而判断该最大值附近的数据是否处于异常，确定该最大值是否符合数据变化规律，再确定该最大值是否应用到后续检测阈值的计算中，如此，增加检测阈值计算的准确性。

在一种可能的设计中，根据所述第一大周期的边界指标值，确定所述第一大周期的可信边界指标值，包括：

通过如下公式计算：

up_boundary＝up_p+K*eps+base

其中，up_boundary为所述第一大周期的可信边界指标值，up_p为所述第一大周期的边界指标值；K为波动系数；eps为区域半径，根据所述第一大周期内小周期的边界指标值的最大值、最小值和分区数确定；所述分区数为根据所述第一大周期内小周期的边界指标值的数据的个数确定的；base为根据所述最大值和所述最小值确定的。

采用上述方法，使可信边界指标值等于边界指标值、两倍的区域半径和base的和。边界指标值加两倍的区域半径，可以使得在边界指标值的基础上设定后续数据的合理波动区间，base的设置则可以使得在合理波动区间的基础上增加小部分偶然数据，在保证异常检测的准确率的情况下，减少误报率。

在一种可能的设计中，还包括：

若根据所述边界规则未确定出边界值，则将该组数据中的最大值作为该组数据的边界值。

采用上述方法，若根据边界规则无法确定出边界值，则可以将该组数据中的最大值作为边界值，防止因为边界值为空，出现无法计算检测阈值的情况。

在一种可能的设计中，所述密度阈值依据该组数据的数据量进行设定，包括：

该组数据的数据量越大，该组数据的密度阈值越大。

采用上述方法，通过数据量决定密度阈值，可以增加密度阈值的合理性与准确性。

在一种可能的设计中，所述第一大周期内的各小周期为同一时段。

第二方面，本发明实施例提供一种异常检测的装置，所述装置包括：

采集单元，用于针对第一大周期内的采集数据，确定待检测指标在所述第一大周期内的各小周期的至少一个指标值；

处理单元，用于针对每个小周期的至少一个指标值，根据预设的边界规则，确定所述待检测指标在每个小周期的边界指标值；根据各小周期的边界指标值，按照所述边界规则，确定所述待检测指标在所述第一大周期的边界指标值；

所述处理单元还用于，根据所述第一大周期的边界指标值，确定所述第一大周期的可信边界指标值；所述第一大周期的可信边界指标值作为对第二大周期内的采集数据进行异常检测的检测阈值；所述第二大周期为所述第一大周期之后的周期。

第三方面，本申请实施例还提供一种计算设备，包括：存储器，用于存储程序指令；处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行如第一方面的各种可能的设计中所述的方法。

第四方面，本申请实施例还提供一种计算机可读非易失性存储介质，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行如第一方面的各种可能的设计中所述的方法。

本申请的这些实现方式或其他实现方式在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种异常检测的架构示意图；

图2为本发明实施例提供的一种异常检测方法的流程示意图；

图3为本发明实施例提供的一种小周期内采集的平均时延数据的表格示意图；

图4为本发明实施例提供的一种小周期内采集的平均时延数据的曲线示意图；

图5为本发明实施例提供的又一种异常检测方法的流程示意图；

图6为本发明实施例提供的一种异常检测的装置示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种异常检测的***架构，采集数据模块101将采集的每小周期的数据或采集的第一大周期的数据发送至计算模块102；由计算模块102根据采集数据模块101发送的每小周期的数据计算每个小周期的边界指标值，再根据第一大周期中每个小周期的边界指标值计算第一大周期的边界指标值，进一步计算第一大周期的可信边界指标值，计算模块102将得到的可信边界指标值发送至检测模块103，由检测模块103以可信边界指标值为检测阈值，检测第二大周期内的数据是否异常。

基于此，本申请实施例提供了一种异常检测的方法流程，如图2所示，包括：

步骤201、针对第一大周期内的采集数据，确定待检测指标在所述第一大周期内的各小周期的至少一个指标值；

此处，第一大周期可以为十天、一周、四天、三天等，小周期可以为六小时、三小时、一小时等，第一大周期和小周期可以根据以往数据的规律和具体需要等进行设定，具体不做限制。待检测指标为对应需要检测的指标，例如，芯片的光刻设备运行指标：分辨率、对准精度等。银行新推出理财产品的交易指标：交易数量、交易时延等。采集数据为采集对应待检测指标产生的数据，如，芯片的光刻设备的分辨率、对准精度等相关指标需要采集，以判断光刻设备的精确度是否合格。又如理财产品的交易数量、交易时延等相关指标需要采集，以判断处理交易的服务器状态是否良好，或者，是否有恶意购买等情况。指标值则为反映运行水平的量值，如小周期内的指标数据中的最大值、最小值等。

步骤202、针对每个小周期的至少一个指标值，根据预设的边界规则，确定所述待检测指标在每个小周期的边界指标值；

此处，边界指标值为在对应小周期中采集的待检测指标数据组中的上边界指标值、下边界指标值、离散边界、汇聚边界、转换边界等，具体边界指标值类型根据待检测指标的数据特征以及变化规律等确定，具体不做限定。

其中，预设的边界规则可以为对于一组数据的边界值是从数据中的最大值开始确定密度区域；若密度区域内的数据的个数大于密度阈值，则将所述最大值确定为该组数据的边界值；否则从该组数据中将所述最大值删除，返回从数据中的最大值开始确定密度区域的步骤；所述密度阈值依据该组数据的数据量进行设定。或，预设的边界规则可以为，对于一组数据的边界值是从数据中的最小值开始确定密度区域；若密度区域内的数据的个数大于密度阈值，则将所述最小值确定为该组数据的边界值；否则从该组数据中将所述最小值删除，返回从数据中的最小值开始确定密度区域的步骤；所述密度阈值依据该组数据的数据量进行设定。

此处，预设的边界规则为如何获取边界值的规则，从需要获取边界值的一组数据中确定最大值以及最大值的密度区域；若最大值的密度区域中数据的个数大于密度阈值，则该最大值为该组数据的边界值；否则，最大值的密度区域中数据的个数小于密度阈值，则将该最大值从该组数据中删除；在删除了该最大值的该组数据中确定最大值，继续判断第二次确定的最大值的密度区域中数据的个数是否大于密度阈值；若大于，则该第二次确定的最大值为该组数据的边界值；否则，删除第二次确定的最大值；在删除了第一次确定的最大值和第二次确定的最大值的该组数据中确定最大值；继续判断第三次确定的最大值的密度区域中数据的个数是否大于密度阈值；直到所确定的最大值的密度区域中数据的个数大于密度阈值，则将最后确定的最大值作为边界值，即边界指标值。相应的，从需要获取边界值的一组数据中确定最小值以及最小值的密度区域；若最小值的密度区域中数据的个数大于密度阈值，则该最小值为该组数据的边界值；否则，最小值的密度区域中数据的个数小于密度阈值，则将该最小值从该组数据中删除；在删除了该最小值的该组数据中确定最小值，继续判断第二次确定的最小值的密度区域中数据的个数是否大于密度阈值；若大于，则该第二次确定的最小值为该组数据的边界值；否则，删除第二次确定的最小值；在删除了第一次确定的最小值和第二次确定的最小值的该组数据中确定最小值，继续判断第三次确定的最小值的密度区域中数据的个数是否大于密度阈值；直到所确定的最小值的密度区域中数据的个数大于密度阈值，则将最后确定的最小值作为边界值，即边界指标值。

其中，所述密度阈值依据该组数据的数据量进行设定，包括：

该组数据的数据量越大，该组数据的密度阈值越大。

此处，可以根据采集数据的密度变化速率、数据间平方差等数据特征设置对应函数，如，通过一次函数确定密度阈值：密度阈值＝相关系数*数据个数。或者，通过幂函数确定密度阈值，或者，通过对数函数确定密度阈值。相关系数的系数值根据实际需要设置，密度阈值的计算方法具体不做限定。

其中，所述密度区域通过如下方式确定，包括：根据该组数据的最大值、最小值，确定该组数据的分区数；根据该组数据的最大值、最小值和所述分区数，确定区域半径；以所述最大值为中心，所述区域半径为半径，确定所述密度区域。

此处，可以根据历史同类或不同类，但具有相同变化规律的指标数据分析指标数据的特征，确定通过最大值、最小值进行相应的运算可以得到对应的分区数，使得通过该分区数和该组数据的最大值、最小值确定的区域半径，能更准确的划分密度区域，使得指标值的密度区域中的数据个数能够准确表征该指标值是否异常，能准确判断指标值的合理性。

举个例子，对于新推出的理财产品A，对其交易时延进行检测，若交易时延过长则有可能是交易设备产生故障，若交易时延过短(交易时延大于0时)，则可能是有人恶意占用交易***。这里以监测交易时延过长为例，小周期为一小时，第一大周期为一周，图3为本发明实施例提供的一种小周期内采集的平均时延数据的表格示意图，如图3所示，实时采集每分钟内发生的交易，计算每分钟内的交易产生的平均时延，其中，阴影部分有平均时延的最大值60ms，平均时延的最小值10ms，平均时延的最大值和最小值的平均值为35ms，可以通过如下公式确定分区数：

block_edge：分区数

block_edge＝[(-1,4),(50,4),(200,6),(500,8),(1000,10),(2000,14),(mean+1,14)]

其中，mean+1为平均值，因此，该公式中(-1,4),(50,4)，即为均值+1大于-1小于50对应的分区数为4。(50,4),(200,6)，即为均值+1大于50小于200对应的分区数为4。(200,6),(500,8)，即为均值+1大于200小于500对应的分区数为6，...(2000,14),(mean+1,14)]，即为均值+1大于2000的分区数为14。则均值35+1对应的分区数为4。

再根据该组数据的最大值、最小值和所述分区数，确定区域半径。

如下公式确定区域半径：

Eps：半径

eps＝(df_detect[′value′].max()-df_detect[′value′].min())/block_num

即将最大值减最小值的差，除以分区数，便可以得到区域半径。

密度区域是平均时延为[47.5(60-12.5),72.5(60+12.5)]的区间，图4为本发明实施例提供的一种小周期内采集的平均时延数据的曲线示意图；最大平均时延60ms在基准线(□)72.5和基准线(△)47.5之间只有最大平均时延60ms，也就是说，密度区域内的数据个数为0。

如下公式确定密度阈值：

minsample＝log(数据个数)+1

minsample＝log(60)+1＝2.7781512503836

因此，可以断定最大平均时延60ms的密度区域内的数据个数小于密度阈值，因此，将最大平均时延60ms，从该小周期的数据组中删除，再次确定最大平均时延为40ms，平均时延的最小值10ms，平均时延的最大值和最小值的平均值为25ms，由block_edge公式确定分区数为4，

密度区域为平均时延为[32.5，47.5]的区间，图4中最大平均时延40ms在基准线(△)47.5和基准线(×)32.5之间有三个数据，平均时延36ms、平均时延36ms、平均时延35ms，也就是说，密度区域内的数据个数为3。

将最大平均时延60ms删除后该小周期内的数据个数相应减1，则密度阈值为：

minsample＝log(60-1)+1＝2.7708520116421。

密度区域内的数据个数3大于密度阈值2.7708520116421，则平均时延40ms为边界指标值。也可以叫做上边界指标值。

这里需要说明的是，当小周期内的数据个数很多，而删除的最大值的个数不足以影响密度阈值的计算时，可以按照未删除最大值的数据个数计算密度阈值。在特殊情况下，如数据比较平稳，数据间的差值相差不大时，eps可以应用删除的最大值和该组数据中的最小值计算。此处，密度阈值和区域半径的计算方式，具体不做限定。另外，当开始推出的理财产品A的交易量少，或交易情况不稳定时，运维人员可以通过设置预设比例快速识别第一大周期内的产生的交易时延数据是否可以应用；例如，一个星期内未产生交易的时间与一个星期内产生交易的时间比例小于15％，则可以基于这一星期的交易时延数据计算交易时延的边界指标值；或者，对于一星期内每天对应的时间段会出现数据量极少，如夜间或凌晨交易数量少时，可以根据用户作息与习惯对每天对应时间段分别设置未产生交易的时间与产生交易的时间的预设比例，以判断交易时延数据是否可以用于计算边界指标值。

其中，若根据所述边界规则未确定出边界值，则将该组数据中的最大值作为该组数据的边界值。也就是说，当小周期内的数据个数很少或数据特征特殊，无法根据预设的边界规则计算边界值时，则将该组数据中的最大值作为该组数据的边界值。

步骤203、根据各小周期的边界指标值，按照所述边界规则，确定所述待检测指标在所述第一大周期的边界指标值；

此处，在步骤202中已经计算出针对每个小周期的边界指标值，取第一大周期内的各个小周期的边界指标值，按照边界规则计算该待检测指标在第一大周期的边界指标值。

其中，所述边界规则可以为对于一组数据的边界值是从数据中的最大值开始确定密度区域；若密度区域内的数据的个数大于密度阈值，则将所述最大值确定为该组数据的边界值；否则从该组数据中将所述最大值删除，返回从数据中的最大值开始确定密度区域的步骤；所述密度阈值依据该组数据的数据量进行设定。或，预设的边界规则可以为对于一组数据的边界值是从数据中的最小值开始确定密度区域；若密度区域内的数据的个数大于密度阈值，则将所述最小值确定为该组数据的边界值；否则从该组数据中将所述最小值删除，返回从数据中的最小值开始确定密度区域的步骤；所述密度阈值依据该组数据的数据量进行设定。

此处，一组数据则为第一大周期内对应的各个小周期的边界指标值；其中，各个小周期可以是第一大周期内的所有小周期。例如，第一大周期为一周七天，小周期为一个小时，则第一大周期内包含的小周期数为7×24，对应包含168个边界指标值，则这168个边界指标值为一组数据，通过这168个边界指标值计算第一大周期的边界指标值。或者，所述第一大周期内的各小周期可以为同一时段。例如，第一大周期为一周七天，小周期为一个小时，因为第一大周期内的各个小周期为同一时段，则第一大周期内包含0点-1点的7个小周期、1点-2点的7个小周期、2点-3点的7个小周期…23时-24时的7个小周期。因此，0时-1时的7个小周期的边界指标值为一组数据、1时-2时的7个小周期的边界指标值为一组数据、2时-3时的7个小周期的边界指标值为一组数据…23时-24时的7个小周期的边界指标值为一组数据。因此，则可以确定第一大周期内对应0时-1时的边界指标值、第一大周期内对应0时-1时的边界指标值、第一大周期内对应1时-2时的边界指标值…第一大周期内对应23时-24时的边界指标值。可以如此，针对一天内的每个时段第一大周期都会得到相应的第一大周期的边界指标值。若分析确定一天中有时段的小周期中几乎不产生交易，或交易量极少，则可以不计算该时段的小周期的边界指标值。

以上，基于一组数据确定边界值的方式，步骤202中已经对此处做了详细描述，将步骤202中小周期的一组数据更换成上述第一大周期内的一组数据进行计算以确定第一大周期的边界指标值，这里不做赘述。

其中，所述密度区域通过如下方式确定，包括：

根据该组数据的数据个数，确定该组数据的分区数；

此处，因为在确定第一大周期的边界指标值计算方式后，可以确定第一大周期内的各个小周期的个数。如上述例子，或有168个小周期及其对应的边界指标值，或有24组相同时段的7个小周期对应的边界指标值；则通过该一组数据或该24组中每组数据的数量、数据的平方差等数据特征确定计算密度阈值的函数。如，通过一次函数确定密度阈值：密度阈值＝相关系数*数据个数。或者，通过幂函数确定密度阈值，或者，通过对数函数确定密度阈值。第一大周期中计算的密度阈值的函数可以与小周期中计算密度阈值的函数相同或不同。密度阈值的计算方法具体不做限定。

其中，所述密度区域通过如下方式确定，包括：根据该组数据的最大值、最小值，确定该组数据的分区数；根据该组数据的最大值、最小值和所述分区数，确定区域半径；以所述最大值为中心，所述区域半径为半径，确定所述密度区域。以上，基于一组数据确定密度区域的方式，步骤202中已经对此处做了详细描述，将步骤202中小周期的一组数据更换成上述第一大周期内的各个小周期对应的边界指标值形成的一组数据进行计算，以确定第一大周期的密度区域，这里不做赘述。

在上一个示例中，对于新推出的理财产品A，该小周期(假设该小周期为一周中星期一的0时-1时的小周期)的边界指标值为40ms，若第一大周期内的各个小周期为同一时段，则以同样的方式获取一周中星期二的0时-1时的小周期边界指标值为40ms、一周中星期三的0时-1时的小周期边界指标值为45ms、一周中星期四的0时-1时的小周期边界指标值为47.5ms、一周中星期五的0时-1时的小周期边界指标值为48ms、一周中星期六的0时-1时的小周期边界指标值为48.5ms、一周中星期日的0时-1时的小周期边界指标值为55ms。该组数据中最大值为55ms，最小值为40ms，平均值为47.5ms，则根据上述block_edge和Eps的公式确定block_edge＝4，

密度区域为平均时延为[51.25,58.75]的区间，密度区域内的数据个数为0，minsample＝log(7)+1＝1.84509804001426，密度区域内的数据个数小于密度阈值。

删除该组数据55ms后，该组数据中最大值为48ms，最小值为40ms，平均值为44ms，则根据上述block_edge和Eps的公式确定block_edge＝4，

密度区域为平均时延为[47,49]的区间，密度区域内的数据个数为2。minsample＝log(7-1)+1＝1.77815125038364，密度区域内的数据个数大于密度阈值，则48ms为第一大周期内0时-1时的边界指标值。也可以叫做上边界指标值。

这里需要说明的是，当第一大周期内的数据个数很多，而删除的最大值的个数不足以影响密度阈值的计算时，可以按照未删除最大值的数据个数计算密度阈值。在特殊情况下，如数据比较平稳，数据间的差值相差不大时，eps可以应用删除的最大值和该组数据中的最小值计算。此处，密度阈值和区域半径的计算方式，具体不做限定。

其中，若根据所述边界规则未确定出边界值，则将该组数据中的最大值作为该组数据的边界值。也就是说，当第一大周期内的数据个数很少或数据特征特殊，无法根据预设的边界规则计算边界值时，则将该组数据中的最大值作为该组数据的边界值。

步骤204、根据所述第一大周期的边界指标值，确定所述第一大周期的可信边界指标值；

此处，可以将第一大周期的边界指标值作为第一大周期的可信边界指标值，也可以在第一大周期的边界指标值的基础上做一些简单运算获得可信边界指标值，增加可信边界指标值的可靠性。

其中，根据所述第一大周期的边界指标值，确定所述第一大周期的可信边界指标值，包括：

通过如下公式计算：

up_boundary＝up_p+K*eps+base

此处，再上一个示例中，up_p＝48，eps＝1，则可信边界指标值up _boundary＝up _p+K*eps＝50,其中，波动系数K的具体数值可以由技术人员通过分析数据的波动幅度确定；也可以设为数据对应产品的，以往行业经验的波动系数数值，或行业专家建议的波动系数数值；波动系数数值可以根据需要灵活设置，具体不做限定。若数据的变化比较大，且数据大小的增加率又处于正常水平，为了减少误报率，可以在up _boundary＝up _p+K*eps增加一个Base值，用来表征在数据正常的情况下，减少误报率所要增加的数据波动值，例如，base＝0.1*mean，其中，mean可以是该组数据中所有数据的非零平均值，或该组数据中最大值和最小值的平均值，系数0.1可以根据工程技术人员的分析做相应的调整，这里只是作为一种实现可能。

步骤205、所述第一大周期的可信边界指标值作为对第二大周期内的采集数据进行异常检测的检测阈值；所述第二大周期为所述第一大周期之后的周期。

此处，第二大周期可以是第一大周期之后紧邻的大周期，如一月份的第一周为第一大周期，一月份的第二周为第二大周期。或者，第二大周期可以是第一大周期之后非紧邻的大周期，如一月份的第一周为第一大周期，一月份的第四周为第二大周期。又或者，第二大周期可以是与第一大周期有重合时间段的大周期，如一月份的第一周的周一至周日为第一大周期，一月份的第一周的周二至周日加上一月份第二周的周一为第二大周期。在上一个示例中，第一大周期利用168个数据确定的可信边界指标值可以用来检测第二大周期中的每个时刻(ms\s\min等)内产生的数据，当第二大周期内的数据大于可信边界指标值时，可以判定数据异常触发告警。或者，第一大周期利用对应时段的7个数据确定的可信边界指标值可以用来检测第二大周期中对应时段的每个时刻(ms\s\min等)内产生的数据，当第二大周期内对应时段的数据大于可信边界指标值时，可以判定数据异常触发告警。又或者，第一大周期中某一天的某一时段的可信边界指标可以用来检测第二大周期的对应这一天的对应时段产生的数据；例如，第一大周期第一天的0-1时的可信边界指标为a，可以用来检测第二大周期第一天的0-1时产生的数据、第一大周期第二天的0-1时的可信边界指标为b，可以用来检测第二大周期第二天的0-1时产生的数据。需要说明的是，以上第一大周期的周期长度与第二大周期的周期长度可以相同也可以不同，例如，第一大周期为两天，第二大周期为一天，或者第一大周期为一天，第二大周期为两天。可以通过缩短第一大周期的周期长度和第二大周期的周期长度实现数据的及时更新；例如，第一大周期为一天，第二大周期为一天，通过第一大周期某一时段的可信边界指标值检测第二大周期内对应时段产生的数据。确定可信边界指标值所取的第一大周期的时段具体不做限定，以及用该可信边界指标值检测第二大周期的时段具体不做限定，可以根据数据波动特征或需要做灵活调整。

采用上述方法，第一大周期内包含多个小周期，采集第一大周期内的数据，确定第一大周期及中各个小周期内的至少一个指标值；对于每个小周期对应的指标值，根据预设边界规则，获取每个小周期对应的边界指标值。如此，可以通过边界规则对每个小周期的指标值进行选择，得到每个小周期对应的边界指标值，使得每个小周期对应的边界指标值更准确。进一步，通过第一大周期的各个小周期对应的边界指标值，再次按照边界规则得到第一大周期的边界指标值，使得第一大周期的边界指标值更准确。更进一步的，根据第一大周期的边界指标值得到第一大周期的可信边界指标值，以可信边界指标值作为之后产生的数据的检测阈值；如此，在第一大周期的边界指标值的准确性基础上做相关调整得到可信边界指标值，使得之后的第一大周期采集的数据可以在正常合理的范围波动而不会触发异常，造成异常误报。实现了检测阈值的自适应调整，提高了检测阈值的准确性，进一步提高了异常检测的准确率。

基于此，本申请实施例提供了又一种异常检测的方法流程，如图5所示，包括：

步骤501、设定第一大周期和各个小周期。

此处，设定第一大周期包括设定周期大小，周期开始时间和周期结束时间等相关参数。设定各个小周期包括设定周期大小，周期开始时间和周期结束时间等相关参数。以及，各个小周期是第一大周期内的所有小周期，或者，第一大周期内的各小周期为同一时段等。各个小周期与第一大周期的关系可以灵活设置。

步骤502、采集各个小周期内的数据。

此处，确定需要被检测数据的产品或设备等，确定该产品或设备的待检测指标并对该待检测指标进行数据采集。

步骤503、根据各个小周期中的数据个数，分别计算出各个小周期对应的密度阈值。

步骤504、分别确定出各个小周期的数据中的最大值和最小值。

步骤505、分别根据各个小周期的数据中的最大值和最小值确定各个小周期中的数据对应的分区数，分别根据各个小周期的最大值、最小值和分区数确定各个小周期的区域半径，根据各个小周期的最大值和区域半径确定各个小周期的密度区域。

步骤506、确定各个小周期的最大值对应的密度区域内数据个数。

步骤507、分别判断各个小周期的密度区域内数据个数是否大于密度阈值。若否，则执行步骤508，将密度区域内数据个数小于密度阈值对应的小周期内的最大值从该小周期内删除，重新确定最大值，并执行步骤505、506、507，直到该小周期的密度区域内数据个数大于密度阈值。若是，则执行步骤509。

步骤509、将小周期的密度区域内数据个数大于密度阈值时的密度区域对应的最大值，作为该小周期的边界指标值，同样的，得到各个小周期的边界指标值。

步骤510、确定第一大周期内的小周期边界指标值的个数，并确定密度阈值。

步骤511、确定第一大周期中小周期边界指标值的最大值和最小值。

步骤512、根据该最大值和最小值确定第一大周期内小周期边界指标值数据对应的分区数，根据该最大值、最小值和分区数确定区域半径，进而根据区域半径确定第一大周期的密度区域。

步骤513、确定第一大周期的密度区域的数据个数。

步骤514、判断第一大周期的密度区域的数据个数是否大于第一大周期的密度阈值。若否，则执行步骤515，将密度区域内数据个数小于密度阈值对应的第一大周期内的最大值，从该第一大周期内的数据组中删除，重新确定最大值，并执行步骤511、512、513，直到该第一大周期的密度区域内的数据个数大于密度阈值。若是，则执行步骤516。

步骤516、该第一大周期的密度区域内数据个数大于密度阈值时，将对应该第一大周期的密度区域的最大值作为第一大周期的边界指标值。

步骤517、根据第一大周期的边界指标值获取第一大周期的可信边界指标值。

步骤518、根据第一大周期的可信边界指标值监检测第二大周期的数据，检测第二大周期的数据是否异常。

这里需要说明的是，上述流程的顺序并不唯一，如步骤501和步骤502，可以先执行步骤502，再执行步骤501。

基于同样的构思，本发明实施例提供一种异常检测装置，图6为本申请实施例提供的一种异常检测装置示意图，如图6所示，包括：

采集单元601，用于针对第一大周期内的采集数据，确定待检测指标在所述第一大周期内的各小周期的至少一个指标值；

处理单元602，用于针对每个小周期的至少一个指标值，根据预设的边界规则，确定所述待检测指标在每个小周期的边界指标值；根据各小周期的边界指标值，按照所述边界规则，确定所述待检测指标在所述第一大周期的边界指标值；

所述处理单元602还用于，根据所述第一大周期的边界指标值，确定所述第一大周期的可信边界指标值；所述第一大周期的可信边界指标值作为对第二大周期内的采集数据进行异常检测的检测阈值；所述第二大周期为所述第一大周期之后的周期。

根据该组数据的最大值、最小值，确定该组数据的分区数；

在一种可能的设计中，所述处理单元602具体用于，通过如下公式计算：

up_boundary＝up_p+K*eps+base

其中，up_boundary为所述第一大周期的可信边界指标值，up_p为所述第一大周期的边界指标值；K为波动系数；eps为区域半径，根据所述第一大周期内小周期的边界指标值中的最大值、最小值和分区数确定；所述分区数为根据所述第一大周期内小周期的边界指标值的数据的个数确定的；base为根据所述最大值和所述最小值确定的。

在一种可能的设计中，所述处理单元602还用于：

该组数据的数据量越大，该组数据的密度阈值越大。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

一种异常检测的方法，其特征在于，包括：

针对第一大周期内的采集数据，确定待检测指标在所述第一大周期内的各小周期的至少一个指标值；

针对每个小周期的至少一个指标值，根据预设的边界规则，确定所述待检测指标在每个小周期的边界指标值；

根据各小周期的边界指标值，按照所述边界规则，确定所述待检测指标在所述第一大周期的边界指标值；

根据所述第一大周期的边界指标值，确定所述第一大周期的可信边界指标值；所述第一大周期的可信边界指标值作为对第二大周期内的采集数据进行异常检测的检测阈值；所述第二大周期为所述第一大周期之后的周期。
如权利要求1所述的方法，其特征在于，所述边界规则为对于一组数据的边界值是从数据中的最大值开始确定密度区域；若密度区域内的数据的个数大于密度阈值，则将所述最大值确定为该组数据的边界值；否则从该组数据中将所述最大值删除，返回从数据中的最大值开始确定密度区域的步骤；所述密度阈值依据该组数据的数据量进行设定。
如权利要求2所述的方法，其特征在于，所述密度区域通过如下方式确定，包括：

根据该组数据的最大值、最小值，确定该组数据的分区数；

根据该组数据的最大值、最小值和所述分区数，确定区域半径；

以所述最大值为中心，所述区域半径为半径，确定所述密度区域。
如权利要求2所述的方法，其特征在于，根据所述第一大周期的边界指标值，确定所述第一大周期的可信边界指标值，包括：

通过如下公式计算：

up_boundary＝up_p+K*eps+base

其中，up_boundary为所述第一大周期的可信边界指标值；up_p为所述第一大周期的边界指标值；K为波动系数；eps为区域半径，根据所述第一大周期内小周期的边界指标值的最大值、最小值和分区数确定；所述分区数为根据所述第一大周期内小周期的边界指标值的数据的个数确定的；base为根据所述最大值和所述最小值确定的。
如权利要求2所述的方法，其特征在于，还包括：

若根据所述边界规则未确定出边界值，则将该组数据中的最大值作为该组数据的边界值。
如权利要求2所述的方法，其特征在于，所述密度阈值依据该组数据的数据量进行设定，包括：

该组数据的数据量越大，该组数据的密度阈值越大。
如权利要求1-6任一项所述的方法，其特征在于，所述第一大周期内的各小周期为同一时段。
一种异常检测的装置，其特征在于，所述装置包括：

采集单元，用于针对第一大周期内的采集数据，确定待检测指标在所述第一大周期内的各小周期的至少一个指标值；

处理单元，用于针对每个小周期的至少一个指标值，根据预设的边界规则，确定所述待检测指标在每个小周期的边界指标值；根据各小周期的边界指标值，按照所述边界规则，确定所述待检测指标在所述第一大周期的边界指标值；

所述处理单元还用于，根据所述第一大周期的边界指标值，确定所述第一大周期的可信边界指标值；所述第一大周期的可信边界指标值作为对第二大周期内的采集数据进行异常检测的检测阈值；所述第二大周期为所述第一大周期之后的周期。
一种计算设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1至7任一项所述的方法。
一种计算机可读非易失性存储介质，其特征在于，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行如权利要求1至7任一项所述的方法。