CN110399400A

CN110399400A - 检测异常数据的方法、装置、设备以及介质

Info

Publication number: CN110399400A
Application number: CN201811288656.2A
Authority: CN
Inventors: 胡天行; 杨凡; 戴兴虎; 黄斐
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-11-01
Anticipated expiration: 2038-10-31
Also published as: CN110399400B

Abstract

公开了一种在数据序列中检测异常数据的方法、装置、设备和介质。所述检测异常数据的方法包括：在数据序列中提取待分析数据的分析样本集；确定所述分析样本集的趋势参数；根据所述趋势参数，确定所述待分析数据的置信范围；以及根据所述置信范围，对所述待分析数据进行异常检测。通过考虑数据序列的数据变化趋势，根据数据变化趋势调整待分析数据的置信范围，使得异常检测具有更强的适应性，能够避免连续的过高异常报警以及连续的过低异常报警。

Description

检测异常数据的方法、装置、设备以及介质

技术领域

本公开涉及异常数据的检测，更具体地涉及一种检测异常数据的方法、装置、设备以及介质。

背景技术

通过对业务***的关键指标进行异常监控，能够在业务***出现异常波动时给出警示，使得业务运营者能够及时地对业务***进行排查，发现并定位问题。

通常，基于数据统计量进行数据判别和异常检测，即统计判别算法。按照统计判别算法，针对给定的置信概率确定一个置信区间，在待判别数据超出该置信区间的情况下，即，在数据波动剧烈超出了置信区间所限定的置信范围的情况下，将待判别数据识别为异常。常见的统计判别算法有格拉布斯(Grubbs)检验法和狄克逊(Dixon)检验法。

然而，现有的统计判别算法没有考虑数据变化趋势，因此在对按照一定趋势变化的数据进行异常检测时，容易出现连续异常警示的情况。而且，现有的统计判别算法对于周期性变化的数据的异常检测效果也较差。

因此，需要一种能够对趋势变化的时序数据进行良好异常检测的方法。

发明内容

针对以上问题，本公开提供了一种在数据序列中检测异常数据的方法，其通过考虑数据序列的数据变化趋势，根据数据变化趋势调整待分析数据的置信范围，使得异常检测具有更强的适应性，能够避免连续的过高异常报警以及连续的过低异常报警。

根据本公开的一方面，提供了一种在数据序列中检测异常数据的方法，包括：在数据序列中提取待分析数据的分析样本集；确定所述分析样本集的趋势参数；根据所述趋势参数，确定所述待分析数据的置信范围；以及根据所述置信范围，对所述待分析数据进行异常检测。

在一个实施例中，根据所述趋势参数确定所述待分析数据的置信范围包括：根据所述趋势参数，确定所述待分析数据的置信范围调整系数；以及根据所述分析样本集的统计学参数、以及所述置信范围调整系数，确定所述待分析数据的置信范围。

在一个实施例中，确定所述分析样本集的趋势参数包括：确定所述分析样本集中样本数据序列的线性回归斜率。

在一个实施例中，在数据序列中提取待分析数据的分析样本集包括：对所述数据序列进行预处理，得到环比数据序列；以及在所述环比数据序列中提取所述分析样本集。

在一个实施例中，所述数据序列为周期性的数据序列，并且在数据序列中提取待分析数据的分析样本集包括：根据所述数据序列的数据周期，对所述数据序列进行分割；从所述待分析数据依序确定预定数量的数据周期作为待抽取周期；确定所述待分析数据在所述数据周期中的位置；以及从每个待抽取周期中，提取所述位置处的数据，得到所述分析样本集。

根据本公开的另一方面，提供了一种在数据序列中检测异常数据的装置，包括：样本集生成模块，被配置为在数据序列中提取待分析数据的分析样本集；趋势确定模块，被配置为确定所述分析样本集的趋势参数；阈值确定模块，被配置为根据所述趋势参数，确定所述待分析数据的置信范围；以及异常检测模块，被配置为根据所述置信范围，对所述待分析数据进行异常检测。

在一个实施例中，所述样本集生成模块还包括：数据预处理子模块，被配置为对所述数据序列进行预处理得到环比数据序列；以及样本集构造子模块，被配置为在所述环比数据序列中提取所述分析样本集。

在一个实施例中，所述数据序列为周期性的数据序列，并且所述样本集生成模块包括：序列分割子模块，被配置为根据所述数据序列的数据周期，对所述数据序列进行分割；周期截取子模块，被配置为从所述待分析数据依序确定预定数量的数据周期作为待抽取周期；位置确定子模块，被配置为确定所述待分析数据在其数据周期中的位置。所述样本集生成模块从每个待抽取周期中提取所述位置处的数据，得到所述分析样本集。

根据本公开的再一方面，提供了一种在数据序列中检测异常数据的设备，包括：处理器，以及存储器，其包含一组处理器可执行指令，所述指令在由所述处理器执行时使所述设备执行以下操作：在数据序列中提取待分析数据的分析样本集；确定所述分析样本集的趋势参数；根据所述趋势参数，确定所述待分析数据的置信范围；以及根据所述置信范围，对所述待分析数据进行异常检测。

根据本公开的又一方面，提供了一种计算机可读存储介质，其特征在于，其上存储有计算机可读的指令，当利用计算机执行所述指令时执行上述方法。

利用本公开提供的在数据序列中检测异常数据的方法和装置，通过考虑数据序列的数据变化趋势，根据数据变化趋势调整待分析数据的置信范围，使得异常检测具有更强的适应性，能够避免连续的过高异常报警以及连续的过低异常报警。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员而言，在没有做出创造性劳动的前提下，还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制，重点在于示出本公开的主旨。

图1示出了时间数据序列的示意图；

图2示出了根据本公开实施例的在数据序列中检测异常数据的方法的示例性流程图；

图3示出了根据本公开实施例的提取分析样本集的示例性流程图；

图4A示出了根据本公开实施例的非周期性的时序数据序列和周期性的时序数据序列的分析样本集的示例性图示；

图4B示出了根据本公开实施例的从具有周期变化规律的时序数据序列中提取分析样本集的方法的示例性流程图；

图5示出了根据本公开实施例的根据趋势参数确定待分析数据的置信范围的示例性流程图；

图6示出了根据本公开实施例的基于格拉布斯(Grubbs)检验算法的根据趋势参数确定待分析数据的置信范围的更具体的示例性流程图；

图7示出了根据本公开实施例的基于格拉布斯(Grubbs)检验算法的确定待分析数据的置信范围的方法的示例性流程图；

图8示出了根据本公开实施例的检测异常数据的方法的一个应用示例；

图9示出了根据本公开实施例的在数据序列中检测异常数据的装置的示例性框图；

图10示出了根据本公开实施例的检测异常数据的装置中的样本集生成模块的示例性框图；

图11示出了根据本公开实施例的检测异常数据的装置中的阈值确定模块的示意性框图；

图12示出了根据本公开实施例的在数据序列中检测异常数据的设备的示例性框图。

具体实施方式

下面将结合附图对本公开实施例中的技术方案进行清楚、完整地描述，显而易见地，所描述的实施例仅仅是本公开的部分实施例，而不是全部的实施例。基于本公开实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，也属于本公开保护的范围。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

本申请中使用了流程图用来说明根据本申请的实施例的***所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

在一些业务***中，随着时间的推进，需要不断对其关键指标进行更新并据此对业务***的操作做出评判和进一步指导。通过对关键指标的不断监控，产生了随着时间的推进而不断增加新数据的数据序列，即，时间数据序列。例如，在金融领域，金融业务***的关键指标可以包括用户开户数量、申购量、赎回量等等；在游戏领域，游戏***的关键指标可以包括新用户注册数量、用户登录量、用户在线时间、游戏装备销售量等等；在物联网领域，电商业务***的关键指标可以包括新用户注册数量、销售量等等。

在一些业务***中，其关键指标的时间数据序列会呈现出一定的变化趋势。例如，图1中的(A)给出了呈现上升变化趋势的时间数据序列，图1中的(B)给出了呈现下降变化趋势的时间数据序列。常见的格拉布斯(Grubbs)检验算法和狄克逊(Dixon)检验算法均没有考虑数据序列的变化趋势。在数据序列呈现出一定的变化趋势时，例如上升趋势或下降趋势，格拉布斯(Grubbs)检验算法容易出现连续的异常数据警示，使得异常警示的误报率高、准确率低。狄克逊(Dixon)检验算法对数据序列中的数据按照大小排序，打乱了原数据序列中数据的顺序，完全没有考虑数据序列中数据本身的时序关系，其异常警示的准确率低。

根据本公开实施例，提出了一种在数据序列中检测异常数据的方法，其通过在数据异常检测过程中考虑数据序列的变化趋势，使得异常检测更为高效和准确。

下面，将参考图2来描述根据本公开实施例的在数据序列中检测异常数据的方法200。

首先，在步骤S210，在数据序列中提取待分析数据的分析样本集。所述待分析数据可以是当前监控到的数据，例如，总的用户开户量、当天的用户开户量，当天的游戏装备销售量等等。

根据本公开实施例，所述数据序列可以是增量数据类型的数据序列，或者可以是累计全量数据类型的数据序列。所述累计全量数据是累计的且持续增长的，例如总开户数；所述增量数据是非累计的，例如新开户数。此外，根据本公开实施例，所述数据序列可以是没有周期变化规律的时序数据序列，或者可以是呈现周期变化规律的时序数据序列。

根据本公开实施例，可以根据***设计需求来选择分析样本集中的样本数量，所述***设计需求例如可以包括***复杂度、准确度、误报率等。

在步骤S220，确定所述分析样本集的趋势参数。所述分析样本集的趋势参数可以包括线性斜率、曲线的切线斜率等等。

根据本公开实施例，基于分析样本集中各数据样本的数据值及其时间参数确定分析样本集的趋势参数。具体地，针对待分析数据，根据数据样本的数据值及其时间参数，确定分析样本集在待分析数据所在的时间点的变化趋势。

接下来，在步骤S230，根据所确定的所述分析样本集的趋势参数，确定所述待分析数据的置信范围。根据本公开实施例，在确定了待分析数据所在位置的变化趋势之后，基于所述分析样本集中各数据样本的数据值、以及待分析数据所在时间点的变化趋势，来确定所述待分析数据的置信范围。

例如，所述待分析数据的置信范围可以通过单侧阈值或双侧阈值来提供。如果在异常检测中仅需要检测过高的数据或仅需要检测过低的数据，则可以采用单侧阈值来定义置信范围。如果在异常检测中既要检测过高的数据又要检测过低的数据，则可以采用双侧阈值来定义置信范围，所述双侧阈值可以包括上侧阈值和下侧阈值。

然后，在步骤S240，根据所述置信范围，对所述待分析数据进行异常检测。

可选地，根据本公开实施例，还可以输出对所述待分析数据的异常检测结果。例如，可以仅在检测到异常数据时才输出异常警示；可以根据所述待分析数据为过高异常还是过低异常，产生不同的异常警示。

根据本公开实施例，在异常检测时，通过考虑数据序列的数据变化趋势，根据数据变化趋势调整待分析数据的置信范围，使得异常检测具有更强的适应性，能够避免连续的过高异常报警以及连续的过低异常报警。

下面，将参照图3描述根据本公开实施例在步骤S210中提取分析样本集的示例性实现方式。

如图3所示，在步骤S2110，对所述数据序列进行预处理，得到环比数据序列。

在一个实施例中，累计全量数据类型的数据序列为y₀、y₁、y₂、……、y_N-1、y_N，则可以通过公式(1)对累计全量数据类型的数据序列进行预处理，得到环比数据序列a₁、a₂、……、a_M-1、a_M。例如，累计全量数据类型的数据序列可以包括保有量、累计用户量等等。

在一个实施例中，增量数据类型的数据序列为△y₁、△y₂、……、△y_N-1、△y_N，则可以通过公式(2)对累计全量数据类型的数据序列进行预处理，得到环比数据序列a₁、a₂、……、a_M-1、a_M。

在步骤S2120，在所述环比数据序列中提取分析样本集。在下面的描述中将a_M称为待分析数据。

在所述数据序列是没有周期变化规律的时序数据序列的情况下，可以从所述待分析数据依序提取预定数量的数据来构成分析样本集。根据本公开实施例，例如，根据***设计需求选择分析样本集中的样本数量为N，在数据序列中从所述待分析数据依序提取预定数量N的数据作为所述分析样本集。如图4A中的(1)所示，原始的时序数据序列为a₀、a₁、…、a_M-N、a_M-N+1、…、a_M-1、a_M，其中需要分析数据a_M是否存在异常。通过从所述待分析数据a_M依序提取预定数量N的数据来构成分析样本集x₁、x₂、……、x_N-1、x_N，其中x_N为待分析数据(即x_N＝a_M)，x₁、x₂、……、x_N-1为待分析数据之前的时序数据样本。在本公开实施例中，为描述方便，在此情况下，将x_N和a_M均称为待分析数据，而不再进行区分。此外，对于时序数据序列，每个数据样本还有其对应的时间参数，该分析样本集中的各个数据样本的时间参数可以依序被标记为t₁、t₂、……、t_N-1、t_N。例如，在数据样本为每日的数据样本的情况下，时间参数可以依序被标记为t₁＝1、t₂＝2、……、t_N-1＝N-1、t_N＝N。

在所述数据序列是具有周期变化规律的时序数据序列的情况下，需要从各个周期中提取同一位置处的数据样本来构成分析样本集。数据序列的数据周期可以为一周、一月、一年等等。如图4A中的(2)所示，原始的时序数据序列为a₀、a₁、…、a_M-Np、…、a_M-(N-1)p、…、a_M-p、…、a_M-1、a_M，其中需要分析数据a_M是否存在异常。假设该原始的时序数据序列的周期为p，通过提取数据a_M、a_M-p、…、a_M-(N-2)p、a_M-(N-1)p来构成分析样本集x₁、x₂、…、x_N-1、x_N，具体地，如图4A中的(2)所示，x_N为待分析数据(即x_N＝a_M)，x_N-1＝a_M-p、x_N-2＝a_M-2p、…、x₂＝a_M-(N-2)p、x₁＝a_M-(N-1)p。在本公开实施例中，为描述方便，在此情况下，将x_N和a_M均称为待分析数据，而不再进行区分。类似地，每个数据样本具有其对应的时间参数，该分析样本集中的各个数据样本的时间参数可以依序被标记为t₁、t₂、…、t_N-1、t_N。

在一个实施例中，可以在确定出原始的时序数据序列的数据周期p之后，提取待分析数据a_M、在该待分析数据之前p个位置的数据a_M-p、在该待分析数据之前2p个位置的数据a_M-p、…、在该待分析数据之前(N-2)p个位置的数据a_M-(N-2)p、在该待分析数据之前(N-1)p个位置的数据a_M-(N-1)p来构成包含N个数据样本的分析样本集。

在另一实施例中，如图4B所示，在确定出原始的时序数据序列的数据周期p之后，可以在步骤S410按照该数据周期p对原始的时序数据序列进行分割，在步骤S420依序确定出待分析数据所在的数据周期及其之前的N-1个周期作为N个待抽取周期，在步骤S430确定待分析数据在其数据周期中的位置，然后在步骤S440从每个待抽取周期中提取所述位置处的数据以得到所述分析样本集，从而利用所述待分析数据及其之前的N-1个待抽取周期中相同位置处的数据一起构成包含N个数据样本的分析样本集。应了解，步骤S420和步骤S430的操作可以并行地进行，可以先执行步骤S420后执行步骤S430，或者可以先执行步骤S430后执行步骤S420。例如，所述数据序列的数据周期可以为一周，将所述数据序列按一周的数据周期进行分割，每个数据周期包括一周的数据样本。根据业务***的不同特点，所述一周的数据样本可以仅包括周一到周五的数据样本，或者可以包括周一到周日的数据样本，本公开实施例不对此进行限制。类似地，在数据周期为一月的情况下，所述一月的数据样本可以仅包括工作日的数据样本，或者可以包括一月内每一天的数据样本。

下面，参照图5来描述根据本公开实施例的在步骤S230中根据趋势参数确定待分析数据的置信范围的示例性实现方式。

如图5所示，在步骤S2310，确定所述分析样本集的统计学参数。根据本公开实施例，所述统计学参数可以包括所述分析样本集的平均值和标准差。

在一个实施例中，所述平均值可以为所述分析样本集的简单平均值。在此情况下，在步骤S2310中，如公式(3)所示地确定所述分析样本集的平均值，并且如公式(4)所示地确定分析样本集的标准差。

在另一实施例中，所述分析样本集的平均值可以为所述分析样本集的加权平均值。在一些场景下，历史数据对预测未来的数据的作用不同，远离目标时间的数据对预测的影响力相对较低，而靠近目标时间的数据对预测的影响力相对较高。因此，对于远离目标时间的数据，可以对其赋予较低的权重，而对于靠近目标时间的数据，可以对其赋予较高的权重。在此情况下，在步骤S2310中，首先需要确定所述分析样本集中各个数据样本的权重值。例如，可以根据所述指标的特性、所述指标的变化规律、所述分析样本集中数据样本的总数量等等来确定各个数据样本的权重值ω_i，然后根据各个数据样本的权重值ω_i来计算所述分析样本集中各个数据样本的加权平均值。公式(5)给出了各个数据样本的权重值ω_i的约束条件以及加权平均值的计算方式。

然后，在步骤S2320，根据所述趋势参数，确定所述待分析数据的置信范围调整系数。

最后，在步骤S2330，根据在步骤S2310所确定的所述分析样本集的统计学参数、以及在步骤S2320所确定的所述待分析数据的置信范围调整系数来确定所述待分析数据的置信范围。

下面，将参考图6描述根据本公开实施例的置信范围的确定方式。

如果在异常检测中仅需要检测过高的数据或仅需要检测过低的数据，则可以采用单侧阈值来定义置信范围。具体地，可以通过上侧阈值来定义所述置信范围，在此情况下，所述待分析数据仅在低于所述上侧阈值的情况下才被认为是正常数据，而过高的数据则被检测为异常数据。替代地，可以通过下侧阈值来定义所述置信范围，在此情况下，所述待分析数据仅在高于所述下侧阈值的情况下才被认为是正常数据，而过低的数据则被检测为异常数据。

如果在异常检测中既要检测过高的数据又要检测过低的数据，则可以采用双侧阈值来定义置信范围，所述双侧阈值可以包括上侧阈值和下侧阈值。在此情况下，仅在所述待分析数据介于所述上侧阈值和所述下侧阈值之间的情况下，所述待分析数据才被认为是正常数据；而在待分析数据高于所述上侧阈值或者低于所述下侧阈值的情况下，所述待分析数据则被检测为异常数据；由此过高的数据和过低的数据均被检测为异常数据。

根据本公开实施例，在所述置信范围为单侧阈值的情况下，所述置信范围调整系数可以为单个调整系数；而在所述置信范围为双侧阈值的情况下，可以分别为上侧阈值和下侧阈值确定上侧阈值调整系数和下侧阈值调整系数。

在一个实施例中，可以基于格拉布斯(Grubbs)检验算法来确定包括双侧阈值的置信范围。在该实施例中，如图6所示，在步骤S610，首先确定分析样本集的平均值和标准差。该步骤S610的操作与步骤S2310的操作类似，在此不再赘述。接着，在步骤S620，根据所述趋势参数，分别确定上侧阈值调整系数F_up和下侧阈值调整系数F_down，该步骤S610的操作为步骤S2320的一种示例实现方式。在步骤S630，基于所确定的上侧阈值调整系数F_up和下侧阈值调整系数F_down，对基于格拉布斯(Grubbs)检验算法确定的基准上侧临界值G_up和基准下侧临界值G_down进行调整。然后，在步骤S640，利用调整后的上侧临界值G’_up和下侧临界值G’_do_wn，确定所述待分析数据的上侧阈值X_up和下侧阈值X_down。步骤S630和S640的操作为步骤S2330的一种示例实现方式。

例如，可以如公式(6)所示地对根据格拉布斯(Grubbs)检验临界值表确定的基准上侧阈值G_up和基准下侧阈值G_down进行调整，并如公式(7)所示地确定所述待分析数据的上侧阈值X_up和下侧阈值X_down。

G′_up＝F_up*G_up

G′_down＝F_down*C_down (6)

X_up＝μ+G′_up*s

X_down＝μ-G′_down*s (7)

根据本公开实施例，在通过单侧阈值定义置信范围的情况下，还可以设置多个单侧阈值，从而可以进一步地检测出异常程度。例如，可以设置两个上侧阈值：第一阈值和第二阈值，第二阈值大于第一阈值，在待分析数据超出第一阈值时，待分析数据可以被检测为一般异常；而在待分析数据超出第二阈值时，待分析数据可以被检测为严重异常。

根据本公开实施例，在通过双侧阈值定义置信范围的情况下，也可以类似地设置多个上侧阈值和多个下侧阈值，从而可以进一步地检测出异常程度。

可选地，根据本公开实施例，可以根据所述待分析数据偏离所述上侧阈值的程度以及偏离所述下侧阈值的程度，产生不同的异常警示。例如，可以通过颜色、警示音的高低、警示音的曲调、警示标记的数量等等来区分不同的异常警示。

下面，将参考图7描述根据本公开实施例的在步骤S220中分析样本集的趋势参数的示例确定方式。分析样本集的趋势参数可以为分析样本集数据序列在时间序列上的趋势。作为示例，以线性回归斜率为例来进行描述。

对于包括N个数据样本的分析样本集，其N个数据样本可以依序被标记为x₁、x₂、……、x_N-1、x_N，其中x_N为待分析数据，该N个数据样本的时间参数可以依序被标记为t₁、t₂、……、t_N-1、t_N。例如，在数据样本为每日的数据样本的情况下，时间参数可以依序被标记为t₁＝1、t₂＝2、……、t_N-1＝N-1、t_N＝N。

按照公式(8)计算所述N个数据样本的线性回归斜率：

其中，为根据所述N个数据样本的简单平均值，为所述分析样本集的时间平均值，如公式(9)所示。

参考图7，仍以格拉布斯(Grubbs)检验算法为例来说明置信范围调整系数确定以及置信范围调整的示例性实现。

如图7所示，在步骤S710，确定分析样本集中N个数据样本的简单平均值和标准差。在步骤S720，基于分析样本集中N个数据样本的简单平均值和标准差，按照上述公式(8)计算所述分析样本集的线性回归斜率k。在步骤S730，利用所计算的所述分析样本集的线性回归斜率计算上侧阈值调整系数F_up和下侧阈值调整系数F_down。该步骤S730的操作为步骤S610的一种示例实现方式。

例如，在步骤S730中，通过sigmoid函数变换，利用公式(10)将所确定的所述分析样本集的线性回归斜率k映射到(-1,1)区间，并且利用公式(11)来计算上侧阈值调整系数F_up和下侧阈值调整系数F_down。

接下来，在步骤S740，例如根据上述公式(6)，基于所确定的上侧阈值调整系数F_up和下侧阈值调整系数F_down，对基于格拉布斯(Grubbs)检验算法确定的基准上侧临界值G_up和基准下侧临界值G_down进行调整。

然后，在步骤S750，例如根据上述公式(7)，利用调整后的上侧临界值G’_up和下侧临界值G’_down，确定所述待分析数据的上侧阈值X_up和下侧阈值X_down。

根据本发明实施例，通过考虑数据序列的变化趋势，对格拉布斯(Grubbs)检验算法进行调整，使得能够根据所述变化趋势相应地对上侧或下侧临界值进行适应性调整，可以避免连续的异常报警，提高异常检测的准确度。

下面，将以具有周期变化规律的累计全量数据的时间序列数据为例来描述根据本公开实施例的检测异常数据的方法。

参考图8，首先，对累计全量数据的原数据序列进行数据预处理，例如执行上述步骤S2110，将累计全量数据的数据序列预处理为环比数据序列。

接下来，由于该数据序列具有周期变化规律，对预处理后得到的环比数据序列进行分割，以重构子序列。例如，执行上述步骤S2120、或者执行上述步骤S410-S440，以自然周周期(p＝7)且待分析的数据点的日期为周三(t＝3)为例，将预处理后得到的环比数据序列按照一周的数据周期进行分割，每个数据周期包括一周的数据样本，然后从各个数据周期中提取周三的数据，以重构待分析的子序列作为分析样本集。

接下来，计算所重构的子序列的相关数据。例如，执行上述步骤S2310，确定所述分析样本集的统计学参数，所述统计学参数可以包括所述分析样本集的平均值和标准差。例如，所述平均值可以为所述分析样本集的加权平均值。

然后，修正格拉布斯(Grubbs)检验算法的检验临界值。例如，首先执行上述步骤S220和步骤S730确定分析样本集的趋势参数，所述分析样本集的趋势参数可以包括线性斜率、曲线的切线斜率等等。然后执行上述步骤S2320和2330，以及执行上述步骤S620-S630或步骤S740-750，可以如公式(10)和(11)所示地计算上侧阈值(上临界值)调整系数F_up和下侧阈值(下临界值)调整系数F_down如公式(6)所示地对根据格拉布斯(Grubbs)检验临界值表确定的基准上侧阈值G_up和基准下侧阈值G_down进行调整。

最后，利用修正后的Grubbs检验临界值进行异常检测。例如，可以如公式(7)所示地确定所述待分析数据的上侧阈值X_up和下侧阈值X_down，并且根据所确定的上侧阈值X_up和下侧阈值X_down进行异常检测。

根据本公开，仍沿用机器学习中常用的可视化效果方法-混淆矩阵，来将根据本公开实施例的检测异常数据的结果与传统Grubbs方法的检测结果进行比较。以总样本数为400为例，给出比较结果。

在异常报警的场景下，表格中的真正TP表示被分类正确的正样本(即被正确检测为异常的异常值)，假负FN表示被分类错误的正样本(即被误检测为正常的异常值)，假正FP表示被分类错误的负样本(即被误检测为异常的正常值)，假负TN表示被分类正确的负样本(即被正确识别为正常的正常值)。

其中，准确率表示被分类正确的样本数占总样本数的比例；召回率表示被分类正确的正样本数占正样本数的比例；F1表示准确率和召回率的调和平均值：

在异常报警的场景下，最受关注的指标为准确率，应当尽力提升准确率、降低误报率，从以上表格示出的结果可以看出，根据本公开实施例的检测异常数据的方法与传统Grubbs方法相比，明显提高了准确率(准确率提升48.81％，且F1提升16.15％)，并且召回率仍保持在可接受范围之内。

下面，将参考图9来描述根据本公开实施例的在数据序列中检测异常数据的装置900。

如图9所示，根据本公开实施例的在数据序列中检测异常数据的装置900包括样本集生成模块910、趋势确定模块920、阈值确定模块930以及异常检测模块940。

样本集生成模块910被配置为在数据序列中提取待分析数据的分析样本集。所述待分析数据可以是当前监控到的数据，例如，总的用户开户量、当天的用户开户量，当天的游戏装备销售量等等。

根据本公开实施例，所述数据序列可以是增量数据类型的数据序列，或者可以是累计全量数据类型的数据序列；所述数据序列可以是没有周期变化规律的时序数据序列，或者可以是呈现周期变化规律的时序数据序列。可以根据***设计需求来选择分析样本集中的样本数量，所述***设计需求例如可以包括***复杂度、准确度、误报率等。所述样本集生成模块910可以被配置为利用上面参照图3、图4A和图4B描述的示例性方法来确定分析样本集。

如图10所示，所述样本集生成模块910可以包括数据预处理子模块9100和样本集构造子模块9140。

所述数据预处理子模块9100被配置为对所述数据序列进行预处理，得到环比数据序列。例如，在所述数据序列为累计全量数据类型的数据序列的情况下，通过上述公式(1)将其预处理为环比数据序列；在所述数据序列为增量数据类型的数据序列的情况下，通过上述公式(2)将其预处理为环比数据序列。

在所述数据序列是没有周期变化规律的时序数据序列的情况下，所述样本集构造子模块9140从所述待分析数据依序提取预定数量的数据来构成分析样本集。

在所述数据序列是具有周期变化规律的时序数据序列的情况下，所述样本集生成模块910还可以包括序列分割子模块9110、周期截取子模块9120、位置确定子模块9130。

所述序列分割子模块9110被配置为按照原始的时序数据序列的数据周期p对原始的时序数据序列进行分割。所述周期截取子模块9120被配置为依序确定出待分析数据所在的数据周期及其之前的N-1个周期作为N个待抽取周期。所述位置确定子模块9130被配置为确定所述待分析数据在其数据周期中的位置。所述样本集构造子模块9140被配置为：利用所述待分析数据及其之前的N-1个待抽取周期中相同位置处的数据一起构成包含N个数据样本的分析样本集。

趋势确定模块920被配置为确定所述分析样本集的趋势参数。所述分析样本集的趋势参数可以包括线性斜率、曲线的切线斜率等等。根据本公开实施例，基于分析样本集中各数据样本的数据值及其时间参数确定分析样本集的趋势参数。

阈值确定模块930被配置为根据所确定的所述分析样本集的趋势参数，确定所述待分析数据的置信范围。根据本公开实施例，在确定了待分析数据所在位置的变化趋势之后，基于所述分析样本集中各数据样本的数据值、以及待分析数据所在时间点的变化趋势，来确定所述待分析数据的置信范围。例如，所述待分析数据的置信范围可以通过单侧阈值或双侧阈值来提供。如果在异常检测中仅需要检测过高的数据或仅需要检测过低的数据，则可以采用单侧阈值来定义置信范围。如果在异常检测中既要检测过高的数据又要检测过低的数据，则可以采用双侧阈值来定义置信范围，所述双侧阈值可以包括上侧阈值和下侧阈值。

异常检测模块940被配置为根据所述置信范围，对所述待分析数据进行异常检测。

可选地，根据本公开实施例的在数据序列中检测异常数据的装置900还可以包括结果输出模块950。该结果输出模块被配置为输出对所述待分析数据的异常检测结果。例如，可以仅在检测到异常数据时才输出异常警示；可以根据所述待分析数据为过高异常还是过低异常，产生不同的异常警示。

如图11所示，根据本公开实施例，所述阈值确定模块930还可以包括：统计学参数确定子模块9310、调整系数确定子模块9320、以及置信范围确定子模块9330。

根据本公开实施例，所述统计学参数可以包括所述分析样本集的平均值和标准差，所述平均值可以为所述分析样本集的简单平均值或加权平均值。所述统计学参数确定子模块9310可以进一步包括平均值确定子模块93110和标准差确定子模块93120。

所述平均值确定子模块93110可以采用上述公式(3)确定所述分析样本集的简单平均值，或者可以采用上述公式(5)根据各个数据样本的权重值ωi来计算所述分析样本集中各个数据样本的加权平均值。所述标准差确定子模块93120可以采用上述公式(4)确定分析样本集的标准差。

所述调整系数确定子模块9320被配置为根据所述趋势参数确定所述待分析数据的置信范围调整系数。

所述置信范围确定子模块9330被配置为根据统计学参数确定子模块9310所确定的所述分析样本集的统计学参数、以及所述调整系数确定子模块9320所确定的所述待分析数据的置信范围调整系数来确定所述待分析数据的置信范围。

以格拉布斯(Grubbs)检验算法为例，来描述根据本公开实施例的趋势确定模块920和阈值确定模块930的操作。

统计学参数确定子模块9310中的平均值确定子模块93110和标准差确定子模块93120确定分析样本集的N个数据样本的简单平均值和标准差。

趋势确定模块920按照上述公式(8)，基于所述分析样本集的N个数据样本的简单平均值和标准差，计算所述N个数据样本的线性回归斜率。

所述调整系数确定子模块9320根据所述线性回归斜率，确定上侧阈值调整系数F_up和下侧阈值调整系数F_down。作为示例，所述调整系数确定子模块9320通过sigmoid函数变换，利用上述公式(10)将所确定的所述分析样本集的线性回归斜率k映射到(-1,1)区间，并且利用上述公式(11)来计算上侧阈值调整系数F_up和下侧阈值调整系数F_down。

所述置信范围确定子模块9330基于格拉布斯(Grubbs)检验算法确定基准上侧临界值G_up和基准下侧临界值G_down，可以如上述公式(6)所示地，基于所述上侧阈值调整系数F_up和下侧阈值调整系数F_down对基准上侧临界值G_up和基准下侧临界值G_down进行调整，得到调整后的上侧临界值G’_up和下侧临界值G’_down。

所述置信范围确定子模块9330可以如上述公式(7)所示地，利用所述分析样本集的N个数据样本的平均值和标准差、以及利用所述上侧临界值G’_up和下侧临界值G’_down，来确定所述待分析数据的上侧阈值X_up和下侧阈值X_down。所述平均值可以为简单平均值或加权平均值。在所述平均值为加权平均值的情况下，统计学参数确定子模块9310中的平均值确定子模块93110还根据上述公式(5)计算所述分析样本集的N个数据样本的加权平均值。

图12示出了根据本公开的实施例的检测异常数据的设备1110的示例性框图。

如图12所示的检测异常数据的设备1110可以实现为一个或多个专用或通用的计算机***模块或部件，例如个人电脑、笔记本电脑、平板电脑、手机、个人数码助理(personal digital assistance，PDA)、智能眼镜、智能手表、智能指环、智能头盔及任何智能便携设备。其中，检测异常数据的设备1110可以包括至少一个处理器1110及存储器1120。

其中，所述至少一个处理器1110用于执行程序指令。所述存储器1120在检测异常数据的设备1110中可以以不同形式的程序储存单元以及数据储存单元存在，例如硬盘、只读存储器(ROM)、随机存取存储器(RAM)，其能够用于存储处理器处理和/或执行车牌识别过程中使用的各种数据文件，以及处理器所执行的可能的程序指令。虽然未在图中示出，但检测异常数据的设备1110还可以包括一个输入/输出组件，支持检测异常数据的设备1110与其他组件之间的输入/输出数据流。检测异常数据的设备1110也可以通过通信端口从网络发送和接收信息及数据。

在一些实施例中，所述存储器1120所存储的一组指令在由所述处理器1110执行时，使所述检测异常数据的设备1110执行如前所述的检测异常数据的方法、或实现如前所述的检测异常数据的装置。

尽管在图12中，处理器1110、存储器1120呈现为单独的模块，本领域技术人员可以理解，上述设备模块可以被实现为单独的硬件设备，也可以被集成为一个或多个硬件设备。只要能够实现本公开描述的原理，不同的硬件设备的具体实现方式不应作为限制本公开保护范围的因素。

根据本公开的另一方面，还提供了一种非易失性的计算机可读存储介质，其上存储有计算机可读的指令，当利用计算机执行所述指令时可以执行如前所述的方法、或实现如前所述的检测异常数据的装置。

根据本公开实施例，通过考虑数据序列的数据变化趋势，根据数据变化趋势调整待分析数据的置信范围，使得异常检测具有更强的适应性，能够避免连续的过高异常报警以及连续的过低异常报警。与传统的格拉布斯(Grubbs)检验法相比，根据本公开实施例的检测异常数据的方法可以显著地提高异常警示的准确率，降低误报率。

技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”，通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如，各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。

所有软件或其中的一部分有时可能会通过网络进行通信，如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如：从车牌识别设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台，或其他实现***的计算机环境，或与提供车牌识别所需要的信息相关的类似功能的***。因此，另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接，例如光波、电波、电磁波等，通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备，也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质，其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。

本申请使用了特定词语来描述本申请的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“***”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

上面是对本发明的说明，而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解，上面是对本发明的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims

1.一种在数据序列中检测异常数据的方法，包括：

在数据序列中提取待分析数据的分析样本集；

确定所述分析样本集的趋势参数；

根据所述趋势参数，确定所述待分析数据的置信范围；以及

根据所述置信范围，对所述待分析数据进行异常检测。

2.如权利要求1所述的检测异常数据的方法，其中，根据所述趋势参数确定所述待分析数据的置信范围包括：

根据所述趋势参数，确定所述待分析数据的置信范围调整系数；以及

根据所述分析样本集的统计学参数、以及所述置信范围调整系数，确定所述待分析数据的置信范围。

3.如权利要求1所述的检测异常数据的方法，其中，确定所述分析样本集的趋势参数包括：

确定所述分析样本集中样本数据序列的线性回归斜率。

4.如权利要求2所述的检测异常数据的方法，其中，所述分析样本集的统计学参数包括所述分析样本集的平均值和标准差，并且所述检测异常数据的方法还包括：

确定所述分析样本集中数据样本的平均值；以及

确定所述分析样本集中数据样本的标准差。

5.如权利要求4所述的检测异常数据的方法，其中，所述分析样本集的平均值为所述分析样本集的加权平均值，

其中，所述确定所述分析样本集中数据样本的平均值包括：

确定所述分析样本集中每个数据样本的权重值；以及

确定所述分析样本集中数据样本的加权平均值。

6.如权利要求5所述的检测异常数据的方法，其中，在所述分析样本集中，靠近所述待分析数据的数据样本的权重值大于远离所述待分析数据的数据样本的权重值。

7.如权利要求1所述的检测异常数据的方法，其中，在数据序列中提取待分析数据的分析样本集包括：

在数据序列中从所述待分析数据依序提取预定数量的数据作为所述分析样本集。

8.如权利要求1所述的检测异常数据的方法，其中，在数据序列中提取待分析数据的分析样本集包括：

对所述数据序列进行预处理，得到环比数据序列；以及

在所述环比数据序列中提取所述分析样本集。

9.如权利要求1所述的检测异常数据的方法，其中，所述数据序列为周期性的数据序列，

其中，在数据序列中提取待分析数据的分析样本集包括：

根据所述数据序列的数据周期，对所述数据序列进行分割；

从所述待分析数据依序确定预定数量的数据周期作为待抽取周期；

确定所述待分析数据在所述数据周期中的位置；以及

从每个待抽取周期中，提取所述位置处的数据，得到所述分析样本集。

10.如权利要求1所述的检测异常数据的方法，其中，根据所述置信范围对所述待分析数据进行异常检测包括：

在所述待分析数据超出所述置信范围的情况下，将所述待分析数据检测为异常数据。

11.一种在数据序列中检测异常数据的装置，包括：

样本集生成模块，被配置为在数据序列中提取待分析数据的分析样本集；

趋势确定模块，被配置为确定所述分析样本集的趋势参数；

阈值确定模块，被配置为根据所述趋势参数，确定所述待分析数据的置信范围；

异常检测模块，被配置为根据所述置信范围，对所述待分析数据进行异常检测。

12.如权利要求11所述的检测异常数据的装置，其中，所述样本集生成模块包括：

数据预处理子模块，被配置为：对所述数据序列进行预处理，得到环比数据序列；以及

样本集构造子模块，被配置为：在所述环比数据序列中提取所述分析样本集。

13.如权利要求11所述的检测异常数据的装置，其中，所述数据序列为周期性的数据序列，

其中，所述样本集生成模块还包括：

序列分割子模块，被配置为根据所述数据序列的数据周期，对所述数据序列进行分割；

周期截取子模块，被配置为从所述待分析数据依序确定预定数量的数据周期作为待抽取周期；以及

位置确定子模块，被配置为确定所述待分析数据在其数据周期中的位置；

其中，所述样本集生成模块从每个待抽取周期中提取所述位置处的数据，得到所述分析样本集。

14.一种在数据序列中检测异常数据的设备，包括：

处理器，以及

存储器，其包含一组处理器可执行指令，所述指令在由所述处理器执行时使所述设备执行以下操作：

在数据序列中提取待分析数据的分析样本集；

确定所述分析样本集的趋势参数；

根据所述趋势参数，确定所述待分析数据的置信范围；以及

根据所述置信范围，对所述待分析数据进行异常检测。

15.一种计算机可读存储介质，其特征在于，其上存储有计算机可读的指令，当利用计算机执行所述指令时执行上述权利要求1-10中任意一项所述的方法。