CN112640380A

CN112640380A - 用于对事件的输入流进行异常检测的设备和方法

Info

Publication number: CN112640380A
Application number: CN201880097072.9A
Authority: CN
Inventors: 克里斯蒂安·阿克塞尼; 拉杜·都铎兰; 斯蒂法诺·波托利; ***·啊·哈吉·哈桑; 戈茨·布拉舍
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2018-08-27
Filing date: 2018-08-27
Publication date: 2021-04-09
Anticipated expiration: 2038-08-27
Also published as: EP3777067A1; WO2020043267A1; US20210124983A1; CN112640380B

Abstract

本发明涉及人工智能、机器学习和大数据领域，并且提供了一种用于在事件的流中进行异常检测的设备(100)和方法(300)。为此，提供了一种用于对事件(102)的输入流(101)进行异常检测的设备(100)，其中每个事件(102)包括值(103)。所述设备(100)包括建模单元(104)，用于将事件(102)的输入流(101)中的每个事件(102)通过预定义的树形数据结构(106)表示为至少一个直方图(105)，以获得所述输入流(101)的模型(107)；变化检测和适配模块(108)，用于根据所述输入流(101)的所述模型(107)检测所述事件(102)在所述输入流(101)中分布的长期变化(109)；以及评分单元(110)，用于根据所述输入流(101)的所述模型(107)和所述检测到的长期变化(109)计算异常评分(111)，所述异常评分(111)表示所述事件(102)的所述输入流(101)中的异常概率。

Description

用于对事件的输入流进行异常检测的设备和方法

技术领域

本发明涉及人工智能(artificial intelligence，AI)、机器学习(machinelearning，ML)和大数据领域，并且提供了一种用于进行异常检测的设备和方法。针对事件序列进行异常检测。事件序列也可以称为流数据。也就是说，本发明还涉及流处理领域。

背景技术

当前，针对大数据分布式流处理的机器学习是重要的研究领域。流是由各种来源(例如，传感器、机器或人类)按时间顺序排列的方式生成的事件序列(例如，包含各种类型数据的元组)。流处理范式涉及将分析或更复杂的学习函数应用于流中的事件。典型的流处理方法是假设在给定时间在一定范围内累积此类事件，并且将分析函数应用于所得集合。此类瞬态事件集合称为窗口。更具体地说，存在如预防欺诈或预测性维护等多种情况，其中必须不断且实时地执行异常检测(即，相对于最近更新-上次传入事件的时间参考，具有非常低的时延)。此外，在此类情况下，检测***必须检测和适应流数据分布中的变化，并且即使单次通过窗口数据也要提供高精度(即，随着流的无限进展，在关注的处理***窗口中，计算能力具有有限的时间跨度)，同时保持固定的资源消耗和处理时间。

在常见的现有技术中，流处理引擎提供工具实时处理事件(即，当事件到达***中时)。在数据摄取技术方面，流处理引擎既可以支持从流来源实时到达的数据，又可以加载预先存储在存储介质中的数据。数据通常称为事件并且代表可能具有不同逻辑含义(即，n元组)的不同数据的配对。在***中按一定顺序生成和接收此数据。考虑了不同的时间概念：在没有可用时序源的情况下的到达时间、事件生成时间或至少事件顺序的概念。通常，流处理可以以规则的时间间隔(例如，基于挂钟时间水印的概念)或在每个事件到达时触发。处理的逻辑通常由特定的触发函数处理，在这种情况下，即异常事件的检测。

应用于数据流的大多数函数，例如异常检测，在任何给定的时刻都需要来自该流的全部已处理事件的子集。即，将这些函数应用于窗口上，其中窗口为关于时间或事件逻辑顺序的定界，包含给定边界内的事件(例如，当前时间前2小时)。这些窗口的内容会随着新事件的到来以及旧事件落在窗口边界之外并且被移除而随时间变化。这些更新需要立即反映在函数结果中，以保证正确性。通常，窗口和要应用的处理函数(即，在本发明的场景中的异常检测函数)被分配为在用于运行流处理引擎的机器之一上执行。然而，由于数据大小可以迅速增长，特别是在无边界或大窗口边界的情况下(例如，当前时间前1年)，因此需要为这种计算***设计高效且专用的解决方案。然而，窗口流运算符需要大量资源来计算传入事件的复杂函数(即，DAG拓扑创建、运算符-节点分配和数据聚合)，例如异常检测(即，连续估计、检测和评分)中发现的那些功能。典型的窗口运算符将所有事件保存在内存中，并且在每个触发时刻对所有元素进行(重新)处理以计算窗口函数，例如如图12所示。需要注意的是，对于大窗口，如在异常检测中发现的复杂计算等可能既需要将大状态保存在内存中，也需要对具有数百万个事件的窗口进行重新计算，使得很难满足(接近)实时需求。这对于现有技术的解决方案是一个主要问题，使得无法获得足够的解决方案以在流处理的情况下通过机器学习进行异常检测。

主要问题是现有流技术未提供用于在事件窗口上以非常低的时延实现异常检测的通用解决方案。这将意味着能够(有时同时)在大窗口上计算一系列函数(例如，估计、检测和评分)，同时仍保留时序和资源限制。这是一个挑战，因为它会需要对可能具有数百万个事件的大窗口进行重新处理，并且随着流的进展保持全局特征的一致值。此外，它要求聚合在整个流或其分布式分区上计算出的部分结果，即使这些结果的生成速度很高。图13示出了现有技术的另一个问题。必须在滑动事件(即，随着流进展，并且可能在连续实例之间共享事件)的窗口上重新计算异常检测程序(即，估计、检测和评分)。然而，数据密集型应用可能导致具有数百万个元素的窗口，从而增加了计算成本。与该问题相关的是数据表示。

已知的流处理方法是将计算作为窗口函数来处理，但方法受到两个主要限制的困扰。第一个限制是：默认每个窗口函数均将所有事件保留在窗口缓存区中，所述窗口缓存区随着缓存区中元素数量和要计算的函数数量而增长。当前方法的第二个局限性是：每次函数更新都需要传递整个数据，尤其是对于非关联函数。因此，计算时间可能会很长，并且无法满足实时性能要求(例如，在几毫秒内计算函数)。

当前解决方案均未提供或组成针对上述特定问题的聚合的自适应解决方案。现有的流引擎和相关机制专注于使用需要自己的窗口运算符进行专用窗口计算并将所有事件保留在窗口缓存区中的函数。这种方法可以对某些类型的函数起作用，但是需要重新计算窗口状态以维护每个传入事件的正常数据快照与异常的比率。当扩展到高频流和长/大窗口时，这显然会影响实时约束和资源使用。特别是，没有机制、流运算符或解决方案可以通过以下实现自适应异常检测：

–通过有效表示的固定资源使用；

–使用简单的数据模型来解决一整类问题的不同学习模式(例如，受监督-当标记的异常数据可用时；半监督-当部分标记的数据可用时；无监督-当无标记的数据可用于训练***时)；以及

–在非常低的时延下运行的能力。

当前，试图解决上述问题的现有技术方法是用于异常检测的流处理和机器学习。

在流处理中，流引擎(例如Flink、Spark Streaming、Storm、Samza和Dataflow)是相关的现有技术。流引擎的作用是实时(动态)处理数据。它们基于流的时间顺序提供计算能力。根据特定的引擎，时间可以进一步设置为引用事件时间、处理时间、计算机时间或事件的到达时间。大多数流引擎都可以对窗口中的事件进行某种形式的分组。根据流引擎的API，存在定义和驱动窗口上的计算的不同灵活性级别。主要限制在于窗口运算符与用户定义的函数一起使用，因此它们不会基于函数属性进行优化。此外，即使仅部评分据会使用窗口函数，所有窗口将保留所有属于窗口范围的数据(通常在内存中)。这些引擎均未提供专用的流运算符来提取用于机器学习的特征。

在异常检测的机器学习中，异常检测是指识别不符合预期模式的项目或事件，或者识别数据集中存在的其他项目。通常，这些异常项目有可能被转化为如结构缺陷、错误或欺诈等问题。使用机器学习进行异常检测有助于提高检测速度。实现机器学习算法为异常检测和分类提供了简单而有效的方法。机器学习算法能够从数据中学习并基于数据做出预测。有两种机器学习技术可以有效检测异常，即监督机器学习和无监督机器学习。监督方法需要包含正常和异常样本的标记训练集来构建预测模型。理论上，尽管标记的成本高，但监督方法比无监督方法能提供更好的检测率。另一方面，无监督技术不需要训练数据。它们基于两个基本假设。首先，假设大部评分据是正常的，而只有一小部评分据是异常的。其次，预计异常数据在统计上与正常数据不同。基于这两种假设，认为频繁出现的相似实例的数据组是正常的，而那些不频繁出现的数据组是异常的。

已经有许多用于异常检测的监督方法(例如，监督神经网络、支持向量机器学习、k最近邻、贝叶斯网络和决策树)和无监督方法(例如，自组织映射、K均值、C均值、期望-最大化元算法、自适应共振理论和一类支持向量机器)，但是针对流数据的方法较少。在这种背景下，Tan等人针对分摊的线性时间中的流提出了基于二元决策树的单次异常检测算法。Tan等人提出的模型是在数据到达之前建立的，需要恒定的时间和内存，并且在同一框架中处理异常检测和数据分布变化。算法在批处理和流式处理上下文中均提供了良好的结果，但存在一些局限性。由于其固定的结构，其解析受到限制，并且潜在的扩展将破坏资源和时间性能。

鉴于现有技术的上述问题，为了能够应对各种大数据场景，需要构造流运算符以确保即使在大数据集上以较高频率运行时，也能正确且以较低的时延发出异常检测评分。需要创建在计算上和资源上都有效的专用机制。

发明内容

鉴于上述问题和缺点，本发明旨在改进传统的流处理。

本发明的目的是提供一种用于随着流的进展以窗口式和在线学习的方式检测传入流中异常的设备和方法。

本发明通过提出一种新的专用流计算单元，其使用递增更新的有效数据表示(即，直方图)和有效的变化检测机制，来克服依赖资源和计算成本高的现有技术方法(例如，降维、统计方法或聚类)。本发明由灵活的仪器支持，以低时延、高事件率和固定的资源预算来确保状态更新。

本发明使用有效的数据表示(即，使用二叉树)避免了由于资源和计算成本随着要聚合的元素数量线性增长而导致性能下降，如图13中的T4所示。

通过使用仅维护信息性和相关信息(即，直方图)并且仅对传入事件执行简单操作的递归数据结构，可以保持最短的计算时间。

为了解决现有技术的局限性，本发明提出了一种用于异常检测流运算符的通用实现，其使用：合理的本地(即，用于热数据的高速缓存内存)和远程(即，用于冷数据的磁盘)资源分配；用于估计、检测和评分的灵活和优化的函数实现；以及恒定的响应时间。现有技术中的模型，例如Tan等人在通用框架中没有明确支持监督学习和无监督学习，使得该方法局限于仅标记数据可用的情况。本发明解决了这个方面，并且提出了在不同学习模式之间的灵活切换，其与快速和增量的算法执行一起使得本发明提供高检测精度和运行时间性能。

本发明与应用于当前流处理器领域的机器学***稳性)，其固有地描述了变化的数据流。第二方面以单次通过数据(即，事件的当前窗口)给定的估计的准确性为目标。第三方面指的是数据表示。在本发明中，可通过其项目的时间频率来对可处理的流数据进行建模，因此需要快速更新模型以满足低时延的处理上下文(例如，增量直方图)。最后，第四方面涉及资源消耗和处理时间，尽管流会随着时间变化，但是资源消耗和处理时间应保持恒定。

在此上下文中，基础计算被优化为以增量方式构造，从而更新预先计算的状态(即，状态处理)。有效的资源使用和(涉及树形数据结构的直方图的)增量更新使解决方案能够同时实现变化检测和模型更新。另外，本发明将缓存的数据限制为增量更新中可能涉及的事件，从而使内存使用保持恒定。因此，流式随机森林异常检测器将能够以非常低的时延(毫秒级)检测整个流或流的子域上的异常。关键优势在于即使传入事件率很高，也可以在输入数据流上进行低时延变化检测和有效的数据流建模(即，使用增量直方图)。此外，由于本发明占用非常少的资源来进行操作，因此它使得有效的学习机制能够受益于全部或部分先验知识(如果可用的话即异常标记)或通过自主学习数据的特性来进行操作。从这个角度来看，***提供了一种自适应机器学习方案，能够分别在监督、半监督或无监督学习中进行操作。这是所提出的计算***的特征，并且得到基础计算的支持。选择学习模式的这种灵活性为***提供了学习概括(即，从历史数据)、学习检测新颖性(即，从部分标记的数据)或学习数据的基础结构的能力。因此，本发明为复杂大数据流中的基本挑战提供了解决方案，即提供具有低时延并且资源和计算有效的异常检测。

本发明的第一方面提供了一种用于对事件的输入流进行异常检测的设备，其中每个事件包括值，其中设备包括建模单元，用于将事件的输入流中的每个事件通过预定义的树形数据结构表示为至少一个直方图，以获得输入流的模型；变化检测和适配模块，用于根据输入流的模型检测事件在输入流中分布的长期变化；以及评分单元，用于根据输入流的模型和检测到的长期变化计算异常评分，所述异常评分表示事件的输入流中的异常概率。

有益的是可以使用增量更新的有效数据表示(即，直方图)和有效的变化检测机制。进一步有益的是，本发明使用有效的数据表示(即，使用二叉树)，由于仅更新通过二叉树存储在直方图中的信息，资源和计算成本不会随着要聚合的元素数量线性增长，从而避免了性能下降。也就是说，只有与直方图的每一列关联的值才会变化，使得避免了直方图随着处理的事件的数量无限增长。这确保了通过使用仅维护信息性和相关信息(即，直方图)并且仅对传入事件执行简单操作的递归数据结构，可以保持最短的计算时间。因此，第一方面提供了具有低时延并且资源和计算有效的异常检测。

在第一方面的一种实现方式中，树形数据结构包括切分点和叶节点，其中直方图表示输入流中事件值在一段时间内相对于树形数据结构中的切分点的分布。

这确保了可以通过相应树形数据结构的切分点和叶节点将输入流中的事件值分配给直方图。

在第一方面的另一种实现方式中，树形数据结构中的叶节点由相应直方图的列表示。

这确保了将输入流中的事件值正确地分配到列，每个列均对应叶节点。

在第一方面的另一种实现方式中，建模单元用于根据在连续时间段期间接收的事件的值在连续时间段内更新至少一个直方图。

由于直方图中存储的信息(例如，直方图的每一列中存储的信息)得到了更新(即，基于先前存储在直方图中的信息和接收到的事件的值进行更改)，从而使得更新直方图能够可以直方图所需的内存保持恒定。

在第一方面的另一种实现方式中，变化检测和适配模块用于通过对从至少一个直方图中提取的模型属性采用度量计算，来检测事件在输入流中分布的长期变化。

由于设备可以对长期变化做出反应，但这并不表示输入流中的异常，因此检测事件在输入流中分布的长期变化可以确保异常检测在设备的整个操作时间期间保持较高准确性。

在第一方面的另一种实现方式中，变化检测和适配模块还用于将至少一个事件中的值与设备中先前处理的事件的值的范数进行比较，以检测长期变化。

这提供了一种有效和高效的检测长期变化的方式。

在第一方面的另一种实现方式中，变化检测和适配模块还用于：如果预定义的事件数量包括偏离范数的值，则检测长期变化。

由于预定义的事件数量必须偏离范数，这确保了设备不会产生假阳性结果。

在第一方面的另一种实现方式中，建模单元用于通过切分点的不同组合构建多个树形数据结构，并且将输入流中的每个事件通过多个树形数据结构表示为多个直方图，以获得输入流的模型。

这确保了可以考虑输入事件中的值的各种属性，其中例如，通过不同的树形数据结构和相应的直方图考虑输入事件的每个属性。各种直方图及其相应的树形数据结构尤其实现了随机森林的概念。

在第一方面的另一种实现方式中，评分单元用于根据至少一个直方图的轮廓的变化计算异常评分。

这提供了一种有效且精确的计算异常评分的方法。

在第一方面的另一种实现方式中，评分单元还用于通过组合输入流模型的所有直方图并且应用投票方案来计算异常评分。

由于可以考虑存储在各种直方图中的信息，这提供了一种有效且精确的计算异常评分的方法。

在第一方面的另一种实现方式中，评分单元还用于为事件分配异常评分，并且设备还用于在评分的输出流中输出评分，其中评分的输出流与事件的输入流相关，其中优选地，输入流中的每个事件在输出流中具有关联的评分。

这确保了可以为每个事件提供相应的异常评分。特别地，由于可以采用与处理输入事件的速度相对应的快速方式来提供异常评分，输出与事件的输入流对应的异常评分的流使得能够有效操作设备。

本发明的第二方面提供了一种用于对事件的输入流进行异常检测的方法，其中方法包括以下步骤：建模单元将事件的输入流中的每个事件通过预定义的树形数据结构表示为至少一个直方图，以获得输入流的模型；变化检测和适配模块基于模型检测事件在输入流中分布的长期变化；以及评分单元基于输入流的模型和检测到的长期变化计算异常评分，所述异常评分表示事件的输入流中的异常概率。

在第二方面的一种实现方式中，树形数据结构包括切分点和叶节点，并且直方图表示输入流中事件值在一段时间内相对于树形数据结构中的切分点的分布。

在第二方面的另一种实现方式中，树形数据结构中的叶节点由相应直方图的列表示。

在第二方面的另一种实现方式中，方法包括：建模单元基于在连续时间段期间接收到的事件的值在连续时间段内更新至少一个直方图。

在第二方面的另一种实现方式中，方法包括：变化检测和适配模块通过对从至少一个直方图中提取的模型属性采用度量计算，来检测事件在输入流中分布的长期变化。

在第二方面的另一种实现方式中，方法包括：变化检测和适配模块将至少一个事件中的值与方法先前处理的事件的值的范数进行比较，以检测长期变化。

在第二方面的另一种实现方式中，方法还包括：如果预定义的事件数量包括偏离范数的值，则变化检测和适配模块检测长期变化。

在第二方面的另一种实现方式中，方法还包括：建模单元通过切分点的不同组合构建多个树形数据结构，并且建模单元将输入流中的每个事件通过多个树形数据结构表示为多个直方图，以获得输入流的模型。

在第二方面的另一种实现方式中，方法还包括：评分单元基于至少一个直方图的轮廓的变化计算异常评分。

在第二方面的另一种实现方式中，方法还包括：评分单元通过组合输入流模型的所有直方图并且应用投票方案来计算异常评分。

在第二方面的另一种实现方式中，方法还包括：评分单元为事件分配异常评分，并且在评分的输出流中输出评分，其中评分的输出流与事件的输入流相关，其中优选地，输入流中的每个事件在输出流中具有关联的评分。

第二方面的方法包括与根据第一方面及其实现方式的设备相同的优点。

本发明的第三方面提供了一种计算机程序产品，包括用于控制根据第一方面或其任何一种实现方式的设备或者用于在计算机上运行时执行根据第二方面或其任何一种实现方式的方法的程序代码。

第三方面的计算机程序产品包括与根据第一方面及其实现方式的设备相同的优点。

需要注意的是，本申请所描述的所有设备、元件、单元和方式均可在软件或硬件元件或它们的任意组合中实现。本申请中描述的各种实体所执行的步骤以及所描述的各种实体要执行的功能均意在指各个实体用于执行各个步骤和功能。即使在下面特定实施例的描述中，由外部实体执行的特定功能或步骤没有在执行特定步骤或功能的实体的特定细节元件的描述中体现，技术人员也应该了解这些方法和功能可以在各自软件元件、硬件元件或者两者的任意组合中实现。

附图说明

结合所附附图，下面具体实施例的描述将阐述上述本发明的各方面及其实现方式，其中：

图1示出了本发明实施例提供的设备的示意图；

图2更详细地示出了本发明实施例提供的设备的示意图；

图3示出了本发明实施例提供的方法的示意图；

图4示出了本发明提供的操作方式(***的模块的全局操作)的示意图；

图5示出了本发明提供的操作方式(***的各个模块的示例功能)的示意图；

图6示出了本发明提供的操作方式(***的状态机)的示意图；

图7示出了本发明提供的操作方式(各个模块的功能)的示意图；

图8示出了本发明提供的操作方式(***的模块的详细操作流程)的示意图；

图9以标准基准示出了本发明的性能分析结果；

图10以标准基准示出了本发明的另一性能分析结果；

图11以标准基准示出了本发明的另一性能分析结果；

图12示出了现有技术中流处理的示意图；

图13示出了现有技术中流处理的示意图。

具体实施方式

图1示出了本发明实施例提供的用于对事件102的输入流101进行异常检测的设备100。每个事件102包括值103。设备100包括建模单元104、变化检测和适配模块108和评分单元110。

建模单元104用于将事件102的输入流101中的每个事件102通过预定义的树形数据结构106表示为至少一个直方图105。由此获得输入流101的模型107。

换言之，模型107包括至少一个直方图105，所述直方图是基于直方图对应的至少一个树形数据结构106获得的。

变化检测和适配模块108用于根据输入流101的模型107检测事件102在输入流101中分布的长期变化109。尤其可以基于模型107中直方图105的形状的变化确定长期变化109。

评分单元110用于根据输入流101的模型107和检测到的长期变化109计算异常评分111，所述异常评分111表示事件102的输入流101中的异常概率。也就是说，如果评分单元110观察到直方图105的长期变化109，则由评分单元110反映该变化，并且相应地适应模型107(尤其是直方图105)的评估。

图2更详细地示出了本发明实施例提供的设备100。图2的设备100包括如图1的设备100的所有特征和功能。为此，相同的特征标有相同的附图标记。结合图2描述的所有特征是设备100的可选特征。

如在图2的右上部中详细示出的，树形数据结构106可选地可以包括切分点201和叶节点202。切分点201可以从流101的值103中提取，并且表示树形数据结构106的(内部)节点。对于每个接收到的事件102，将其值103与树形数据结构106中的切分点201进行比较，并且基于比较结果将事件102添加(例如，计数)到对应叶节点202中事件102的数量。

直方图105表示输入流101中事件值103在一段时间内相对于树形数据结构106中的切分点201的分布。

变化检测和适配模块108排除事件分布中非异常的变化，即在无峰值的直方图105中记录为阶梯函数的变化。

树形数据结构106中的叶节点202可以可选地由相应直方图105的列203表示。也就是说，直方图105的每个列203根据添加到对应于列203的叶节点202的事件102的数量在一段时间内增长。

可选地，建模单元104可以基于在连续时间段期间接收到的事件102的值103在连续时间段内更新至少一个直方图105。也就是说，在该连续时间段期间，基于事件102的值103，确定要将事件102添加到直方图105的哪一列203，并且相应地更新直方图105。该处理应用于在该连续时间段期间到达设备100的输入流101中的每个事件102。

换言之，基于所考虑的时间段期间事件值103的分布，在连续时间段内不断更新每个直方图105。

可以理解的是，新事件102不会促使计算新的直方图105，而是会更新现有的直方图。可以有多个直方图105，因为存在基于切分点201的不同排列的若干个预定的树形数据结构106。这些不同的树106会产生不同的直方图105，这些直方图全都会根据新事件102的值103在接收到新事件102时更新。

进一步可选地，变化检测和适配模块108可以通过对从至少一个直方图105提取的模型属性进行度量计算，来检测事件102在输入流101中分布的长期变化109。示例模型属性可以是无峰值的直方图中的重大变化。例如，y值发生重大变化，而x值保持不变。

进一步可选地，变化检测和适配模块108可以将至少一个事件102中的值103与设备100中先前处理的事件102的值的范数进行比较，以检测长期变化109。也就是说，变化检测和适配模块108基于预定义的先前处理的事件102数量计算范数。将当前处理的事件102的值103与计算出的范数进行比较，并根据范数与值103之间的绝对差值，确定值103是代表长期变化109还是异常峰值。通常，值103与范数之间的较小绝对差值表示长期变化109，而值100与范数之间的巨大差值表示异常峰值。

如果预定义的事件102数量包括偏离范数的值103，则变化检测和适配模块108可以可选地检测长期变化109。也就是说，不仅基于值103与范数之间的绝对差值而且还基于必须包含偏差值103的事件102的数量确定事件102是对应长期变化109还是异常峰值。通常，异常(例如，峰值)只少量间隔性地出现。

建模单元104可以可选地用于通过切分点201的不同组合构建多个树形数据结构106。这实现了随机森林的概念，根据该概念，多个树形数据结构106用于从不同角度分析传入的输入流101，即通过考虑输入流101中事件102的不同属性。

特别地，将输入流101中的每个事件102通过多个树形数据结构106表示为多个直方图105的每个直方图105，以获得输入流101的模型107。

评分单元110用于不仅基于输入流101的模型107和检测到的长期变化109，而且还基于至少一个直方图105的轮廓的变化来计算异常评分111。由于长期变化109导致直方图105的形状变化，因此至少一个直方图105的轮廓的变化尤其可以视为描述长期变化109的更精确的方式。

可选地，评分单元110可以通过组合输入流模型107的所有直方图105并且应用投票方案来计算异常评分111。

检查直方图105轮廓(例如，其形状)的变化可以描述在数据分布中已经发生的变化。在这种检查中考虑了直方图105轮廓在事件数量上的变化百分比相对于事件102的参考数量的变化百分比。通过使用投票方案计算出评分111，所述投票方案将所有直方图105的内容合计并跟踪直方图105轮廓是否将较大的点值更改为累积直方图105的区域。

可选地，评分单元110可以为事件102分配异常评分111。也就是说，建立事件102与异常评分111之间的对应关系。

图3示出了用于操作设备100的方法300。也就是说，方法300还用于在事件102的输入流101上进行异常检测，并且包括以下步骤：

方法300包括第一步骤：建模单元104将事件102的输入流101中的每个事件102通过预定义的树形数据结构106表示301为至少一个直方图105，以获得输入流101的模型107。方法300包括第二步骤：变化检测和适配模块108基于模型107检测302事件102在输入流101中分布的长期变化109。方法还包括步骤：评分单元110基于输入流101的模型107和检测到的长期变化109计算303异常评分111，所述异常评分111表示事件102的输入流101中的异常概率。

本发明还提供一种计算机程序产品，包括用于控制设备100或当在计算机上运行时用于执行方法300的程序代码。计算机程序产品包括任何类型的计算机可读数据，包括例如任何类型的存储或经由通信网络传输的信息。

现在将参考图4至图11进行描述，本发明提出一种处理设备100和方法300，其提供了从数据的流101中检测异常的解决方案，并且超出了将检测和评分视为简单窗口函数的传统方法。本发明引入了用于异常检测的新流运算符，其能够用固定资源来增量更新特别机器学习模型107(即，流式随机森林-SRF)，但是支持自适应优化以进一步节省资源-用于更新中使用的热数据(即，事件添加/删除缓存操作)和冷数据存储后端(即，中长期内用于事件和模型更新的磁盘或第三方存储)。在应用方法的处理步骤时，此行为是通过处理机制(即，数据表示、具有用于异常评分的学习模型的变化检测)和旨在确保具有高传入事件102率的流101的恒定响应时间的优化函数执行来实现的。图4介绍了本发明的总体结构。

图4所示的方案包括对传入数据流101协同操作的若干部分：缓存操作(即，按时间先后顺序将尾部元素保存在滑动窗口的末端并且保存头部传入事件)、评分模型107(即，负责表示事件、学习数据结构及其变化以及估计异常评分)和存储后端(即，用于对存储在磁盘或第三方存储I/O上的冷数据进行分区的缓存区)。本发明提出了一种充当自适应和高效的处理***的模块化机制，以对流数据101实施异常检测。

流101上的异常检测通常假定在可用传入数据的滑动窗口上进行了多次处理。然而，数据密集型应用导致具有数百万个元素的窗口，从而增加了计算成本。由于资源和计算成本随着要处理的元素数量以及通过窗口进行决策的次数增长，这导致性能下降。

本发明以模块化方式构建，以允许每个模块单独地并且还协同地操作，以便高效地表示传入流事件102，以估计数据分布变化，并且使用这些变化来触发模型更新，从而精确和准确地检测异常事件，如图5所示。上述模块是：a)事件(密度)表示模块(即，建模单元104)-负责在有效模型107、直方图105中编码数据；b)变化检测和适配模块108-负责检测流数据概率分布(密度)的变化，其确定；c)用于评分和计算评分的学***方对数函数、树的大小和级别、用于评分的学习模型方格快)计算评分111。评分111是表征异常(例如，接近1的高归一化值)或正常数据(例如，接近0的低值)的数值。

本发明的模块化架构可以实现例如在图6中描述的状态机操作，以便在每个树叶级别通过直方图更新(即计数/求和)对传入数据进行编码(参见图5，用于评分的学***衡分布的估计(参见图5，变化检测和适配方格快)。最后，在状态机的最后阶段，在评分计算方格快中根据如图5所示的树106和模型107的大小和水平(即，树106的每个叶子202中的直方图105的值)计算评分111。前两个模块通过递增地计算直方图105(即，数据表示模块)并且计算分布变化度量(即，树叶202中的直方图105的分布的导数)来更新其内部状态。这些模块可以实现各种其他功能，并且不限于所提出的功能。例如，对于数据表示，还可以通过使用例如Kolmogorov-Smirnov或Kullback-Leibler散度而不是衰减的指数移动平均来实现基于密度的表示(例如，高斯核)或用于变化估计的不同模型。

本发明采用透明数据流模型来处理来自流101的热数据和冷数据并且更新异常检测模型107。如图4所示，对于每个传入事件102，更新机器学习模型107(即，流式随机森林)。随机森林是用于分类的整体学习方法，其通过在训练时构造多个决策树106并输出作为各个树106的类别模式的类别来进行操作。更新包括重新计算直方图105在树叶202中的分布。

为了描述本发明的功能性的重要方面，在图7中提供了流程图，其结合了处理流程中的两个功能步骤以及用于端到端的单个模块操作，即事件评分操作。

从图7中的流程图开始，在图8中更详细描述了本发明的操作原理。模型更新包括依次执行的若干个步骤。首先，在图8的步骤1中，随着在森林中表示的事件102的数量递增地维持直方图105(例如，通过对分配给直方图的列的事件进行计数)。在步骤3和4中，每个树106的更新与检查数据分布变化同时进行。***计算异常评分111，所述异常评分111是基于森林模型中所有树106上流101的值空间中直方图105的分布进行计算的，请参见图8中的步骤2和3。

为了学***均值和计数)的方法，其利用具有占用较小内存以及基于离散时间管理和时间单调性的有效计算的有效解决方案。使用这种方法，本发明通过针对流101中的热数据和冷数据的数据流抽象提供低延时(～1ms级别)和高吞吐量(K事件/运算符)能力，同时针对流数据产生及时的决策(例如，异常检测)。最后，本发明通过仅基于数据范围使用数据的简单学***均估计，可以使用标准分布差异度量的增量版本(例如，Kolmogorov-Smirnov)。

下面对本发明的性能进行分析，并讨论其优点。

本发明适用于需要判断大数据流是否存在异常的大量应用。直接适用的领域是物联网(internet of things，IoT)、金融、欺诈检测以及预测性维护。无论哪个领域，本发明都提供诸如以下列举的优点。用于异常检测的流式随机森林运算符提供异常的实时检测和评分。此外，其被设计为基于流的处理组件，以便设备100递增地计算数学函数和统计量，从而通过优化用于分布式执行的计算来启用学习能力。(与现有技术相比)将计算重新定义为全局运算符可以实现：即使在全局/大数据(子)域中，每秒处理事件的速率也很高，而时延计算却很低。通过关注在每个时刻处理正确的数据，并且仅使用简单的操作即可高精度地对传入数据进行估计、检测和评分，从而支持对大于使用的计算节点的内存容量的数据集进行异常检测。

为了举例说明其中的一些优点，给出了具体场景以及本发明针对该范数获得的相应改进。这在图9至图11中示出。

作为示例，可以考虑采用网络入侵检测的情况，假设通过提取和维护最新规则以检测异常行为(例如攻击“签名”)来检测网络上流量的异常模式。使用来自SMTP和HTTP涉及网络入侵的数据流。HTTP数据的特征是某些流段中突然出现异常。SMTP数据没有大量的异常，但是在流序列中显示出一些分布变化。在示例中，流具有662653个样本，以及3个包含正常流量和攻击的特征：src_bytes(连续-从来源到目标的数据字节数)、dst_bytes(连续-从目标到来源的数据字节数)和有状态流量(离散-如果连接来自/到同一主机/端口或其他来源)。

对于实验，将流分成多个分析段，每个分析段具有不同数量和类型的异常，并使用AUROC(曲线接收器操作特性下的区域)作为一类分类器的分类精度的度量(是否异常)。样本数据以及性能评估如图9所示。

为了评估本发明的运行时性能，在由具有23个CPU的3台机器组成的群集上进行了一系列实验，并且评估了本发明对监督学习任务的吞吐量和时延。监督学习模式假设训练数据集的可用性，该训练数据集已标记了正常事件和异常的实例。将任何看不见的数据事件与模型107进行比较，以确定其所属的类别。在无监督学习模式下，***不需要任何训练数据，因为它隐含地假设正常实例比流101中的异常要频繁得多。最后，作为本发明支持的第三种学习模式，在半监督学习模式下，设备100假设训练数据仅具有针对正常数据的标记实例，并且将针对与正常行为相对应的类别建立模型，以及使用该模型检测测试数据中的异常。在图10和图11中介绍了此模式的初步性能评估，其中描述了时延和吞吐量度量。

本发明的技术含义和益处是有三方面的。首先，它提供了从静态批处理操作到在线流处理的切换，以进行异常检测。与传统的基于批处理模型的算法不同，本发明可以在没有任何数据的情况下构建，因此可以在数据流到达之前创建。此外，没有一个静态模型可以准确地分析整个数据流，所述数据流随着时间会发生变化并经历数据分布的变化，因此，所提出的***适用于数据流的不同部分。

其次，本发明标志着从在线流处理向低时延和高吞吐量启用处理的切换。本发明得益于通过运算符在具有可编程资源使用的大窗口上，以非常低的时延从传入流不断且实时地计算全局特征(例如，域分区上的求和、平均、计数或复杂的数学函数)。

最后，本发明支持从本地监督学习到无监督或半监督学习的过渡。本发明可以在有或没有关于数据流的先验信息的情况下进行操作。可以快速建立对底层数据分布的理解，并且可以轻松检测到变化-在异常检测任务中至关重要。

已经结合作为实例的不同实施例以及实现方式描述了本发明。然而，本领域技术人员通过实践要求保护的发明，研究附图、本公开以及独立权利要求书，能够理解并获得其他变体。在权利要求以及描述中，术语“包括”不排除其他元件或步骤，且“一个”并不排除复数可能。单个元件或其他单元可满足权利要求书中所叙述的若干实体或项目的功能。在仅凭某些措施被记载在相互不同的从属权利要求书中这个单纯的事实并不意味着这些措施的结合不能在有利的实现方式中使用。

Claims

1.一种用于对事件(102)的输入流(101)进行异常检测的设备(100)，其特征在于，每个事件(102)包括值(103)，其中所述设备(100)包括：

–建模单元(104)，用于将所述事件(102)的输入流(101)中的每个事件(102)通过预定义的树形数据结构(106)表示为至少一个直方图(105)，以获得所述输入流(101)的模型(107)；

–变化检测和适配模块(108)，用于根据所述输入流(101)的所述模型(107)检测所述事件(102)在所述输入流(101)中分布的长期变化(109)；以及

–评分单元(110)，用于根据所述输入流(101)的模型(107)和所述检测到的长期变化(109)计算异常评分(111)，所述异常评分(111)表示所述事件(102)的输入流(101)中的异常概率。

2.根据权利要求1所述的设备(100)，其特征在于，所述树形数据结构(106)包括切分点(201)和叶节点(202)，并且所述直方图(105)表示所述输入流(101)中事件值(103)在一段时间内相对于所述树形数据结构(106)中的切分点(201)的分布。

3.根据前述权利要求中任一项所述的设备(100)，其特征在于，所述树形数据结构(106)中的叶节点(202)由所述相应直方图(105)的列(203)表示。

4.根据前述权利要求中任一项所述的设备(100)，其特征在于，所述建模单元(104)用于根据在连续时间段期间接收的所述事件(102)的值(103)在所述连续时间段内更新所述至少一个直方图(105)。

5.根据前述权利要求中任一项所述的设备(100)，其特征在于，所述变化检测和适配模块(108)用于通过对从所述至少一个直方图(105)中提取的模型属性采用度量计算，来检测所述事件(102)在所述输入流(101)中分布的长期变化(109)。

6.根据前述权利要求中任一项所述的设备(100)，其特征在于，所述变化检测和适配模块(108)还用于将所述至少一个事件(102)中的所述值(103)与所述设备(100)中先前处理的事件的值的范数进行比较，以检测长期变化(109)。

7.根据权利要求6所述的设备(100)，其特征在于，所述变化检测和适配模块(108)还用于：如果预定义的事件(102)数量包括偏离所述范数的值(103)，则检测长期变化(109)。

8.根据前述权利要求中任一项所述的设备(100)，其特征在于，所述建模单元(104)用于通过切分点(201)的不同组合构建多个树形数据结构(106)，并且将所述输入流(101)中的每个事件(102)通过所述多个树形数据结构(106)表示为多个直方图(105)，以获得所述输入流(101)的模型(107)。

9.根据前述权利要求中任一项所述的设备(100)，其特征在于，所述评分单元(110)用于根据至少一个所述直方图(105)的轮廓的变化计算异常评分(111)。

10.根据权利要求9所述的设备(100)，其特征在于，所述评分单元(110)还用于通过组合所述输入流模型(107)的所有直方图(105)并且应用投票方案来计算所述异常评分(111)。

11.根据前述权利要求中任一项所述的设备(100)，其特征在于，所述评分单元(110)还用于为所述事件(102)分配所述异常评分(111)，并且所述设备(100)还用于在评分(111)的输出流(204)中输出所述评分(111)，其中所述评分(111)的输出流(204)与所述事件(102)的输入流(101)相关，优选地，所述输入流(101)中的每个事件(102)在所述输出流(204)中具有关联的评分(111)。

12.一种用于对事件(102)的输入流(101)进行异常检测的方法(300)，其特征在于，所述方法(300)包括以下步骤：

–建模单元(104)将所述事件(102)的输入流(101)中的每个事件(102)通过预定义的树形数据结构(106)表示(301)为至少一个直方图(105)，以获得所述输入流(101)的模型(107)；

–变化检测和适配模块(108)根据所述模型(107)检测(302)所述事件(102)在所述输入流(101)中分布的长期变化(109)；以及

–评分单元(110)根据所述输入流(101)的模型(107)和所述检测到的长期变化(109)计算(303)异常评分(111)，所述异常评分(111)表示所述事件(102)的输入流(101)中的异常概率。

13.一种计算机程序产品，其特征在于，包括使权利要求1至11中任一项所述的设备执行权利要求12的方法的步骤的指令。