CN100533399C

CN100533399C - 用于检测异常的自学习方法和***

Info

Publication number: CN100533399C
Application number: CNB2004100456294A
Authority: CN
Inventors: A·J·杉格维
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2003-05-22
Filing date: 2004-05-21
Publication date: 2009-08-26
Anticipated expiration: 2024-05-21
Also published as: JP4965064B2; EP1480126B1; KR101021411B1; US20050125710A1; EP1480126A2; JP2004348740A; CN1573709A; US7624174B2; EP1480126A3; KR20040101058A

Abstract

本发明提出了一种用于在一个计算环境中监测参数和检测异常的方法和***。一种用于监视一个处理过程的监视***可以包括一个用于创建一个表示处理过程的特征创建模块，一个用于不断更新所创建特征的特征更新模块，以及一个用于根据与所更新信号的偏差来检测异常的异常检测模块。该***可以执行根据表示处理过程的不断更新特征来检测在该处理过程中所发生异常的方法。该方法可以包括不断监视一个***参数以及根据不断更新的特征来计算用于***参数的值的正常范围。该方法另外可以包括确定所监视的***参数是否在正常范围之内以及如果所监视的***参数是在正常范围之外就指示一个异常的存在。

Description

用于检测异常的自学习方法和***

技术领域

本发明的实施例涉及一种适用于检测在一个循环或另一种处理过程中的异常以便于简化***管理的自动化技术，尤其是，本发明的实施例提出了检测在一个计算***或处理中行为的异常并适用于跟踪商务关键性能的指示器。

背景技术

随着网络化计算设备和***应用的增多，检测这些***中的难点就变得非常必要了，因为这些难点会带来一个大范围的影响。应用传统的方法来手工监测***已是不切实际的，且在很多例子中是不可能的。

熟练的专家可以通过在工厂中听一个引擎或上百个机器的嗡嗡声来决定机器是否正常运行。但这种技术并不能有效地运用在服务器或数据中心上。一台服务器或数据中心的分析需要一位相关的专家，他非常熟悉商务周期的正常涨落的变化以及服务器在帮助专家在得出结论之前进行数百次测量问题中的特殊效果。在一个数据中的上百台服务器或者在整个企业中采用手工方式来进行这种分析往往是难以承担的、也许是不可能的。

因而，已经发展了一些适用于检测计算机***异常的技术。一种技术是识别取样中的参数并将取样的结果与一个固定阈值相比较。如果超过固定的阈值，这种技术就识别出一个异常。然而，这种技术时常会产生一些错误的结果。因为两个***不可能具有完全相同的结构、条件和模式，并且阈值也很难设置。如果阈值设置得过高，则相当多比例的异常都不能被检测出，反之，如果极值设置得过低，则这样技术会导致在正常状况下都会有过多的警报。因而，不论花费和复杂性，这种技术都会导致一些区域的过度报警、另一些区域的过低报警，即使这些区域是随着一天中的时间变化的。

目前，从代理处所收集到的大部分数据都是数值数据。这部分数据会随着变量跟踪的数量和所需精度的增加而增加10至100和几倍。该数据最终可以集合、趋势和容积图的方式来使用和报告。在大多数的情况下，并不会使用所收集到的原始数据。因此，这些数据收集的负担严重限制了可量测性。

这些难点导致了客户为了获得精细的阈值而寻求咨询服务。客户还需要额外增加对所创建环境的了解，以便于***管理者可以改变原先对客户所制定的规则，这些规则包括在组和服务器层次上对冲突解决的政策。例外，客户还必须对各种实际情况就其个性加深对属性的了解。

不幸地，这些需求往往都很难实现。大部分***管理者并不理解在这些***中变化，也并不理解这些***本身的内部安装，尽管已经设置在十分理想的阈值上。此外，即使对专家来说，要了解大量服务器的个体特性也是件十分繁重的任务。基于单一***的咨询往往难以解决循环事件的节奏而只适合检测多数的异常。最终，即使咨询最初能适合一个特殊***的需要，但随着商务循环和设置的变化，该阈值也很快就会失效。

当前，使用咨询代理的现有技术必须涉及到大量的数据收集和贮存。而根据跟踪变量随着时间的变化，这些数据的数量会迅速增加。大量的数据并不会被采用，并且保持过多的数据会限制***的规模可变性。

所以，我们需要一项既能提供自动异常检测又能避免上述的难点的技术。这一技术应该避免保持过多的数据并且应该适用于在各种环境和处理中发挥作用。

发明内容

一方面，本发明提出了一种适用于检测过程的方法。这种方法包括了建立一个表示过程的特征，使用一组当前采样数据和先前特征的值之间的加权平均来不断地更新所建立的特征，以及在一个不断更新的特征的基础上检测异常，其中所述处理过程与一数据中心中的联网计算设备的使用率相关；其中所述特征包括与时间敏感平均有关的信息，所述时间敏感平均考虑了在商务周期中的变量。

另一方面，本发明包含了一种适用于根据一个表示过程的且不断更新的信号来检测异常发生的方法。该方法包括了持续监测***的参数，根据不断更新信号来计算***参数的正常范围，确定所检测到的***参数是否在正常的范围内，以及当所检测的***参数超出了正常范围时指示所存在的异常，其中所述不断更新的特征是通过使用一组当前采样数据和先前特征的值之间的加权平均来创建的；其中所述处理过程与一数据中心中的联网计算设备的使用率相关。

另一方面，本发明包含了一种用于创建在计算***环境中检测异常的特征的方法的在处理***环境中检测异常的建立信号的方法。该方法包含了设定一个学***均值和每个时间间隔的标准偏移常数，以及学***均来不断地更新所创建的特征；其中所述计算***环境中的异常与一数据中心中的联网计算设备的使用率相关；其中所述特征包括与时间敏感平均有关的信息，所述时间敏感平均考虑了在商务周期中的变量。

还有一个方面，本发明包含了一个适用于检测在计算环境中的异常活动的***。该***包括了持续监测***参数，和不断更新表示***参数正常值的特征的检测工具，所述不断更新的特征通过使用一组当前采样数据和先前特征的值之间的加权平均被创建，以及基于不断更新的特征进行计算的异常指示器，其中，该异常指示器还包含着表示***参数的正常值的区域，其中所述异常活动与一数据中心中的联网计算设备的异常使用率相关；其中所述特征包括与时间敏感平均有关的信息，所述时间敏感平均考虑了在商务周期中的变量。

另一方面，本发明包含了一个适用于检测过程的监测***。该监测***包含了一个适用于创建表示过程的特征的特征创建模块，一个适用于使用一组当前采样数据和先前特征的值之间的加权平均来不断更新特征的特征更新模块，和一个适用于基于更新的特征偏移常数来检测异常的异常检测模块，其中所述处理过程与一数据中心中的联网计算设备的使用率相关；其中所述特征包括与时间敏感平均有关的信息，所述时间敏感平均考虑了在商务周期中的变量。

附图说明

以下将结合附图详细讨论本发明，附图包括：

图1是一个可以实现本发明的示例性计算环境；

图2是说明本发明一个实施例的***结构的示意图；

图3是说明根据本发明实施例方法的流程图。

图4A是说明适用于根据本发明实施例创建特征的方法的部分流程图；

图4B是说明适用于根据本发明实施例创建特征的方法的另一过程的流程图；

图5是说明适用于根据本发明实施例更新特征的方法的流程图；

图6是说明适用于根据本发明实施例获得特征组件的方法的流程图；

图7是说明适用于根据本发明实施例获得另一特征组件的方法的流程图；

图8是说明适用于根据本发明实施例检测异常的方法的流程图；

图9A包含了特征更新过程的示意图；

图9B说明采用一个简单信号进行比较的预先计算的信号。用

具体实施方式

本发明的实施例显示了适用于检测在一个计算机化的***或事务过程中的异常的一种***和方法。本发明的实施例具有持续检测计算***或事务处理过程，创建和不断更新描述***或过程的特征，和基于更新的信号来诊断计算***或事件过程中所出现异常的能力。

本发明中的***和方法构建并持续更新一个包含跟随一定的商务周期的时变信号的特征。该特征至少包含了两个用途：(1)当异常发生时，能够识别出该异常；和(2)从最后的商务周期的取样中计算一个更新的特征。该***不再需要存贮原始的历史数据。

已经简要地介绍了本发明，以下将参考图1—9来讨论本发明的实施例。以下将讨论一个适用于本发明的示例性操作环境。

操作环境的实例

图1说明了一个能够实现本发明的适用的计算***环境100的实例。计算***环境100只是一个适用的计算环境的实例，并不试图对本发明的使用范围或功能形成任何限制。无需将计算环境100解释为具有依赖性，或者要求如典型的操作***100中所描述的一种元件或元件的组合。

本发明可以采用诸如计算机可执行程序模块的计算机可执行指令的一般背景来讨论。一般来说，程序模块可以包括例程、程序、对象、元件、数据结构等等，它们可以执行特殊的任务或实现特殊的抽象数据结构。此外，本领域熟练技术认识应该意识到，本发明也可以采用其它计算机***结构来实现，包括，手持设备、多处理器***、基于微处理器或者可编程消费电子设备、小型计算机、大型计算机，以及其它等等。本发明也可以分布计式算环境来实现，在分布式计算环境中，任务是由通过通讯网络相连接的远程处理设备来执行。在分布计算环境中，程序模块都可以被放置在包括存储器存储设备的本机或远程计算机存储介质。

参考图1，实现本发明的示例性***100包括一台采用计算机110结构的通用计算设备，它包括一个处理单元120、一个***存储器130、以及一个将包括***存储器的各种***组件与处理单元120相耦合的***总线121。

计算机110一般包括多种计算机可读介质。作为一个实例，但并不限制于，计算机可读介质可以包括计算机存储介质和通讯介质。***存储器130包括采用易失性和/或非易失性存储器形式的计算机存储介质，例如，只读存储器(ROM)131和随机存储器(RAM)132。基本输入/输出***133(BIOS)包含着有助于在启动期间在计算机110中的各个元件之间传递信息的基本例程，它一般存储于ROM 131。RAM 132一般包含着由处理单元120即时存取和/或当前已***作的数据和/或程序模块。作为一个实例，但并不限制于，图1图示了操作***134、应用程序135、其它程序模块136，以及程序数据137。

计算机110也可以包括其它可移动/不可移动性、易失性/非易失性计算机存储介质。作为一个实例，图1图示了一个可读写、不可移动、非易失性的磁性介质的硬盘驱动器141，一个可读写、可移动、非易失性的磁盘152的磁盘驱动器151，以及一个可读写、可移动、非易失性的光盘156(例如，CD ROM或其它光介质)的光盘驱动器155。在示例性操作环境中还可以使用其它可移动/不可移动性、易失性/非易失性的计算机存储介质，这些计算机存储介质可以包括，但并不限制于，磁带盒、闪存存储卡、数字通用盘、数字视频带、固态RAM、固态ROM、以及其它等等。硬盘驱动器141一般通过一个不可移动性存储器接口(例如，接口140)与***总线121相耦合；磁盘驱动器151和光盘驱动器155一般可采用一个可移动性存储器接口(例如，接口150)与***总线121相耦合。

以上所讨论的且如图1所示的驱动器以及它们相关的计算机存储介质提供了适用于计算机110的计算机可读指令、数据结构、程序模块和其它数据的存储。例如，在图1中，所说明的硬盘驱动器141用于存储操作***144、应用程序145、其它程序模块146，以及程序数据147。值得注意的是，这些元件既可以是相同于也可以不同于操作***134、应用程序135、其它程序模块136、以及程序数据137。操作***144、应用程序145、其它程序模块146，以及程序数据147在本文中采用不同的数值只是为了说明，起码它们是不同的拷贝。用户可以提供输入设备向计算机110输入命令和信息，这些输入设备可包括：键盘162和指点设备161，通常也称之为鼠标器、跟踪球或触摸垫。其它输入设备(未显示)可以包括麦克风、操纵杆、游戏垫、卫星式圆盘、扫描仪、以及其它等等。这些和其它输入设备通常都通过一个与***总线相耦合的用户输入接口160连接着处理单元120，但是也可以采用其它接口和***总线来连接处理单元，例如，并行端口、游戏端口或者通用串行总线(USB)。监视器191或其它类型显示设备也可以通过一个接口，例如，视频接口，与***总线121相连接。除了监视器以外，计算机也可以包括其它***输出设备，例如，扬声器197和打印机196，这些***输出设备可以通过一个输出***接口195相连接。

在本发明中，计算机110可以一个网络环境来操作，它可使用逻辑连接的方式来连接一个或多个远程计算机，例如，远程计算机180。远程计算机180可以是个人计算机，并且一般包括上述许多或所有的与计算机110有关的组件，尽管在图1中只是讨论了存储器存储设备181。图1所说明的逻辑连接可包括一种局域网(LAN)171和一种广域网(WAN)173，但也可以包括其它网络。

在LAN网络环境中使用时，计算机110可通过一个网络接口或适配器170来连接LAN171。在WAN网络环境中使用时，计算机110一般包括一个调制解调器172或者其它用于建立与WAN 173(例如，因特网)通讯的装置。调制解调器172可以是内置的或外置的，它可以通过用户输入接口160或者其它合适的机制来连接***总线121。在一个网络环境中，与计算机110有关的所述程序模块，或者其部分程序模块，都可以存储于远程存储器存储设备。作为一个实例，但并不限制于，图1所说明的远程应用程序185可驻留于存储器设备181。应该意识到的是，所示的网络连接只是示例性的，也可以使用其它建立在计算机之间通讯链路的部件。

尽管没有显示很多计算机110的其它内部组件，但本领域的熟练技术人士应该意识到，这类组件和互连方式都是众所周知的。因此，并不需要在与本发明的相关披露中给出与计算机110的内部连接有关的其它细节。

***实施例

图2是说明本发明一个实施例的***组件的方框图。监视***10连接着***40，用于监视所选择参数。监视***10可以包括：一个处理器12、一个网络接口14、一个操作接口16、和一个存储器20。处理器12、网络接口14和存储器20可以基本类似于以上参考图1所讨论的。存储器20可以包括一个特征创建模块22、一个特征更新模块24，以及一个异常检测模块26。

上述所标识的组件可进行测量多个***相关变量的操作。这些变量中的一些变量可以是时变的数值变量。也许要测量的一个变量是一个用于测量同时对话或事务处理数量的使用变量。使用变量提供了一种从它的消费者施加到***的强度的指示。使用变量的实例包括：(1)用户同时注册的数量；(2)每秒事务请求的数量；(3)请求到达的速率；(4)每秒接受到的数据包；和(5)每秒的Web网页点击数量。在最产品化的环境中，使用可遵循在营业时间中上升而在非营业时间中和周末下降等等的商务周期模式。一周为周期的模式通常都具有非常一致的模式。一般来说，大大超过或低于正常数值的使用测量是故障或一个异常的标志器。

另一组***标量与利用率有关。这些变量表示了在施加任务时***的应变能力。这些变量的实例包括：(1)CPU的利用率；(2)队列的长度；(3)每秒所切换的任务；(4)存储器的利用率，等等。利用率通常是使用的函数，因此，它也遵循着以上所讨论的商务周期。然而，这些变量并不能以同样方式来管理所有方面的使用。例如，在一簇内的所有结点上的队列长度或CPU利用的总和是没有意义的。通常，大大超过或者低于正常的利用率都是一种故障和异常的反映。

另一组***变量包含着出错和警告。在大多数情况下，这些出错或警告都是故障或错误配置的结果。出错或警告的实例可包括：(1)不正常形成的请求；(2)一致校验错误；(3)404错误；(4)临界的时间；(5)登录上网的错误，等等。某些出错是“正常”的。“正常”储出错的实例包括：(1)在过载时，由设计作出的路由器丢失数据包；(2)一个可接受的WAN的比特差错率；(3)由于持续变换完Web内容所引起的给出404出错的页面；以及(4)某些用户在登录时输入错误的用户名/口令。因此，即有规则的出错具有一个“正常”的模式。

上述提及的变量可以是对服务请求的翻转时间的测量。这类服务和请求的实例可以包括：(1)发出响应的时间；(2)处理事务的响应时间；(3)硬盘的写入响应时间，等等。客户可以输入与服务器提供者达成的操作层的协议(OLA)，以将翻转的时间保持在一个可接受的水平上。整个响应时间是与使用有关的，这一关系是非线性的。响应时间也随着差错率而迅速增加。

图3是说明根据本发明一个实施例的方法的流程图。在过程A中，监测***10创建了一个特征。在过程B中，监测***10更新该特征。在过程C中，监测***10检测和报告异常。

在以上所提及的特征中涉及到一种比所公知的阈值技术能够一些组件成为更加精确地检测异常机制的组件。特征的一个组成分量是“平均”数值。使用平均数值的技术可以包含着简单地取样所有相关变量并且保持着它们以平均值进行运算。如果新的取样不在该平均值的“合理范围”内，则该新的取样将显露为一个相关的异常。然而，由于在峰值使用期间相对于非工作时间，平均值中会存在着大的差异，所以***使用了更精细的平均值概念，以便于获得所需的精度。

特征将因此而使用随时间平均的概念。随时间平均的概念包含着周期性取样变量和以不同的时间间隔来计算平均值。例如，监测***可以每间隔三分钟取样变量，并且以十五分钟的时间间隔来计算一周的平均值。该***可以信号的方式来存储和使用该特征。

当***要求新的取样时，它就计算十五分钟的平均值，且将该数值与“特征”相比较。该比较可以使***产生一个标志异常。时间敏感的变量考虑了在商务周期中的变量。然而，***还应该确定围绕平均值的合理范围，在该合理范围中，相信是不会发生任何异常的。

尽管也许可以使用一个恒定的数值作为一个“合理的”范围，但是一个恒定数值的使用可能会引起一些困难。例如，银行可以在每天的下午7点钟打烊。但是银行职员在离开之前必须进行夜间处理。某些天可能会涉及到比其它天更多的存单。因此，在7:30—8:00之间的处理速率是非常难以预测的。这时，使用一个恒定数值作为一个合理范围会在这一不稳定的时间周期中产生大量变化，并且增加该数量具有失去在其它位置上的合理区别。对这种情况来说，在平均值附近的恒定包络将是不准确的。

因此，特征使用标准偏差来测量一个合理的范围。该特征使用适用于每一时间间隔的标准偏差，并以一个倍数来表示包络或合理的范围。因此，该包络或合理范围可以是在每周的商务周期中在偏移时间附近的更大的范围内，并且更紧密围绕正常的时间。标准偏差可以采用以下表达式来表示：

(1)σ²＝1/N((Xi—X_avg)²的和)

式中：N是取样的数量，Xi是当前的平均值，X_avg是计算的平均值。

在这种情况下，信号可表示成一个平均和标准偏差的各个事件的时间间隔的矩阵。该包络可以表示为：

(2)包络＝X_avg+/-F*σ²，

式中，F是容差。

方法实施例

图4A和图4B还说明了在图3流程A中所执行的特征的创建。信号的创建是使用两种同时应用的方法来完成的。这两种方法包括一种加速学习的组件和一种假装重复的组件。图4A说明了一种促进学习的元件，而图4B说明了一种假装重复的元件。

图4A是说明根据本发明一个实施例创建一个特征的方法的流程图。在步骤A10，监测***10设置学习响应的比率。在步骤A12，以一个预先设置的时间间隔来增加学习响应比率。如果在步骤A14达到了所希望的学习响应比率的所希望数值，则该处理就结束。如果还没有达到所希望的数值，则在步骤A12以所设置的时间间隔来重复增加学习响应比率。当学习响应比率达到一个所需的数值时，就结束该处理过程。例如，在一个第一学习周的期间，监测***可将“1/学习响应常数”设置成0。在下一周，监测响应***可将该比率设置成1，随后2以及其它等等，直至达到一个所需的设置比率。该处理过程将在没有充分的历史的情况下加速了学习。但当建立的足够的历史时，该比率可自动调整到所需要的目标。

图4B是说明根据本发明一个实施例创建一个特征的方法的另一流程图。在步骤A20，监测***10的征创建模块22选择数据并计算适用于设置时间间隔的平均数据数值。在步骤A22，特征创建模块22计算适用于设置时间间隔的标准偏差。在步骤A24，特征创建模块22使用所计算的平均值和标准偏差来创建特征。在步骤A26，特征创建模块22使用适用于一个学习周期的已创建的特征。

初始时运行的平均值和偏差值可以在第一天之后的每一天的所有特征中重复，使得这一天的信号在一周中重复，从这时开始就继续正常的特征的更新。在第一周，该特征的出现接近于一天的直接带宽，重复每一天来包络第二天，并且在一周的周末来产生一个典型的特征。早期的特征可能会产生一些假的正面结论，但是这将以它包含的方式提供更加正确的信息。

图5是说明根据本发明一个实施例更新特征的流程图。在步骤B02，特征更新模块24以一个设置的时间间隔来取样所选择的变量。在步骤B04，征更新模块24计算适用于所设置时间间隔的平均值。在步骤B06，特征更新模块24计算用于设置时间间隔的标准偏差。在步骤B08，特征更新模块24基于老的特征、所计算的平均值和标准偏差来创建一个新的特征。

上述所讨论的随时间而变化的学习处理过程将考虑随时间而增加的商务量的变化。但是，这必须确保某些时间在某些情况下可以具有比其它时间更强的加权。例如，每间隔三个月的一个周五所发生的，被称之为“三倍魅力的时间”的大量安全佣金的经历。在另一实例中，以较低的商务容量开始最新打开的存储。然而，随着该词的扩展到它的第一年，就可以存储更多的商务。该特征应该确保最后所产生的数据比早期所产生的数据更具有影响。因此，***应该可以在一个长的时间周期中自动学习和自身调整。

***可以使用在当前数据和特征数值之间的加权平均来实现这一目标。如果周三在4:00和4:15之间的平均和标准偏差分别为XC_avg和σC，而周三在4:00和4:15之间的信号分别是XS_avg和σS，则新的信号数值可以由下列表达式来表示：

(3)新的XS_avg＝W1*(XS_avg)+W2*(XC_avg)

(4)新的σS²＝W1*(σS²+XS_avg ²)+W2(σC²+XC_avg ²)—(新的XS_avg ²)

该模式设置W1+W2＝1，式中W1是特征的加权，而W2是当前数据的加权。W2/W1是以上所讨论的学习响应常数比率。该数值越大，则所产生的学习越快，且过去所使用的存储器就变得越模糊。例如，如果W1＝2/3和W2＝1/3，则当天数据的影响将是当天的三分之一，下一周的九分之二，以及再下一周的二十七分之四，等等。

以上所讨论的技术计算上是非常有效的，因为它只允许使用一个当前的数据来更新该特征。***并不需要保留大量的老的数据。

图6是说明根据本发明一个实施例适用于获得特征分量的上述方法的流程图。在步骤B10，监测***10将一个特征平均值与一个第一加权因子相乘。在步骤B12，监测***将新计算的平均值与一个第二加权因子相乘。在步骤B14，监测***10将步骤B12和步骤B10所得到的结果相加。

图7是说明根据本发明一个实施例适用于获得另一特征分量的方法的流程图。在步骤B20，监测***将平方根特征平均值和平方根标准偏差值相加。在步骤B22，监测***10将步骤B20的和与第一加权因子相乘。在步骤B22，测***10将当前的平方根平均值和当前的平方根标准偏差相加。在步骤B26，监测***将B24的和与一个第二加权因子相乘。在步骤B28，监测***将B24的因子与特征因子相加。在步骤B20，监测***减去新的特征平均的平方根。

以上所讨论的因子有助于精细调整特征，以考虑在幅值上的变化。另一性能可以提供确保该特征可以精确反映在发生时间上的变化。事件的发生往往是比所希望的时间早些或晚些，例如，如果暴风雪延迟了半小时到来，就会注册登记大量的警报。该***可通过计算在一个间隔时间上的运动平均值和偏差值，并且根据在一个跨越当前时间的较宽时间间隔上所计算的信号进行比较。

例如，如果***在4:15是每隔3分钟取样一个数据，则可以从过去10个样本中(从3:45至4:15)计算运动平均值，并且与在4:30计算20个样本中(从3:30计算到4:30)的信号数值进行比较。这样，可以标志在当前和既往之间的唯一差别，同时在时间间隔中的向后或向前的任何偏移都不会得到假的确定。两个常数，抖动扩展和抖动偏差都可以作为控制来介绍。在这种情况下，扩展是30分钟，而偏移是15分钟。在这种情况下的时间容差可以选择为1小时(抖动扩展+两个时间偏移)。因此，比由特征所期望的时间早或晚半小时所产生的一大的尖峰并不会引起假的确定异常。在严格的管辖事务中，时间上的容差可能是很紧的。

图8是说明根据本发明一个实施例适用于检测异常的方法的流程图。在步骤C10，异常监测模块26计算正常数值的范围。在步骤C12，异常监测模块26将所计算的范围与一个运动平均值相比较。在步骤C14，异常监测模块确定运动平均值是否在正常范围之外。如果平均值是在步骤C14的正常范围之外，则异常监测模块就中止。如果平均值是在步骤C14的正常范围之外，则异常监测模块26就标志异常，并且重复该处理过程。如果平均值不在步骤C14的正常范围之外，则重复该处理过程。

正常和异常都是主观的判断。客户希望有一个衰减控制能标志异常数值只能直到客户可以管理的程度上。正如主动和学习监测成功之后，客户可以从校正后现有异常中获取更多的***管理资源，以便于主动监测。

本发明的***和方法可以在从统计上确保客户能及时获得他们所要的警报。例如，一个具有1,000台计算机的安装，每间隔15分钟的100个计时器的取样在一天中的警报接近于10,000,000(1千万)个机会。如果客户要将警报限制于每天100个，客户就需要适当地设置容差F。

某些客户也许喜欢使用F1、F2和F3来乘以包络，以适用于诸如信息、警告和临界的不同包络。某些其它客户也许会选择具有不同过冲和下冲的包络。

由大多数设备所产生的原始变量都具有它们各自的特性。这种特性可分为以下几类：(1)运行滚动翻转的计数器；(2)突发脉冲串式取样数据；以及(3)单调性增加/减小绝对数据。

在运行滚动翻转的计数的第一种情况下，计数器只能提供运行的计数。需要数据的客户希望能随着时间产生两个瞬态图，并且计算其差异和速率。由于计数器会从一个最大数值翻转至零，所以这样的计算就会变得有点复杂。

在突发脉冲式取样数据的第二种情况下，所采集到的数据可能都是一些尖峰信号。使用这种数据的唯一方法是计算在固定时间周期之间的曲线下的面积。

在单调性增加/减小绝对数据的情况下，某些变量趋向于恒定的增加和减小，使得每周的事务周期失去了意义。在这种情况下，预处理应该报告随着时间变化的速率，例如，便于检测失控的程序是否会突然填满磁盘空间。

基于以上所讨论的变量和方法，一种特征模式可以采用等式5和6来讨论：

(5)NewXS(t)＝(L/1+L)*XS(t)+(1/1+L)*(XC_movingavg(t，时间容差))

(6)(NewσS(t))²＝(L/1+L)*(σS(t)²+XS(t)²)+(1/1+L)*((σC(t，时间容差))²+(XC_movingavg(t，时间容差))²)—NewXS(t)²

在以上提供的特征中，XC(t)是时间变量数值的变量。XS(t)和σS(t)是变量XC(t)的预先计算特征的分量。XC_movingavg(t，ΔT)是XC(t)在t-ΔT和t之间的时间周期中的移动平均值。SigmaC(t，ΔT)是XC(t)在t-ΔT和t之间的时间周期中的标准偏差。1/L是以下所讨论的学习响应速率。

可基于以下与特征有关的表达式来计算异常。XC(t)是异常的条件：

(7)XC_movingavg(t，抖动展开)<[XS(t+抖动偏置)—F*σS(t+抖动偏置)]

或

(8)XC_movingavg(t，抖动展开)<[XS(t+抖动偏置)+F*σS(t+抖动偏置)]

由上述表达式(7)所描述的第一背离情况可称之为下冲，而由上述表达式(8)所描述的第二背离情况可称之为过冲。抖动扩展是以上所讨论的抖动的扩展，而抖动偏置是以上所讨论的抖动的偏差。时间容差等于(2*抖动偏置+抖动展开)，而F是其容差。

图9A图示了特征更新处理过程。图9A包括取样读取2。该经取样的读取2包括了表示经取样的数值XC(t)。图9A也包括一个特征4。中间曲线204表示XS(t)，平均特征数值。上曲线206表示了最上面的正常数值，下曲线208表示了最下面的正常数值。图9A也包括一个更新特征6。该更新特征6包括了表示在考虑取样数值XS(t)后的XS(t)的曲线210，以及有曲线212表示的上正常限制和由曲线214表示的下正常限制。

图9B说明了原先计算的信号216和取样信号218的比较。取样信号218在两点上超过了上正常限制以及在一点上超过了下正常限制。由此可见，该比较有助于辨别过冲和下冲。

确定异常的源

正如以上所讨论的，本发明的方法和***的实施例监测***的异常参数。***和方法将数值数据码流转换成表示适用于任何处理过程的正常或异常行为的状态。此外，正如以下表1所示，根据跟踪的处理变量的类型，可以发现四个子状态。

监测方法也便于根原因的分析，从而在检测的过程中，可以通过确定和校正根原因来消除异常。根原因分析取决于以下从一个***或子***到其它子***或***的故障/异常检测链。根原因分析所具有的规则类型：(1)在类型1***中的类型F1的异常可以是由相同***中的类型F2的异常引起；以及(2)在类型1***中的类型F1的异常可以是由类型2***中的类型F2的异常引起，只要***1和***2具有类型R1的关系。

根原因分析取决于识别那一个***的那一个方面是异常的。特别是，在一个***中，如果适用于检测异常的***检测包括在一个特殊状态中的使用、利用率、差错以及响应的参数，则单纯知识规则就可以解释根原因。这些单纯的知识规则可以以下表1所阐述。

使用	利用率	差错	响应	解释
使用	利用率	差错	响应	解释	N	N	N	N	各种情况都是正常的或者容差设置得过于宽松。
N	N	N	A	如果只有响应时间是异常高的话，同时其它各种情况都是正常的，则响应延迟可能是由外部***所引起的，例如，因为外部数据库的响应过慢而使得应用程序的运行也慢。	N	N	N	N	各种情况都是正常的或者容差设置得过于宽松。
N	N	N	A		N	N	A	N	异常差错是由下游的异常差错、不合适的配置或者误触发/非法的请求所引起的。

N	N	A	A	引起重试的差错也引起响应的延迟。
N	N	A	A	引起重试的差错也引起响应的延迟。	N	A	N	N	异常低的利用率同时其它各种情况正常可以表征为“干运行”，在这种情况下，事务处理可以在不需要作任何重负载的条件下完成异常高的利用率同时其它各种情况正常则表示在资源管理配置中存在着错误，例如设置了一个10Meg的以太网而不是100。
N	A	N	A	超过“拐点”的利用率会引起非线性响应下降。在这种情况下，根原因是错误配置的资源管理而不是使用所引起的。	N	A	N	N
N	A	N	A	超过“拐点”的利用率会引起非线性响应下降。在这种情况下，根原因是错误配置的资源管理而不是使用所引起的。	N	A	A	N	异常差错率会增加利用率，即使该使用是正常的，特别是，如果嵌入机制的重试。异常内部差错率可能是由异常高的利用率所引起的，特别是在处理应力的内部机制引起差错从而停止请求时。
N	A	A	A	因为重试逻辑，异常差错率会增加利用率和响应时间	N	A	A	N
N	A	A	A	因为重试逻辑，异常差错率会增加利用率和响应时间	A	N	N	N	***中的异常使用可以由异常外部条件所引起的最终上游异常使用所引起的。异常低使用也是有问题的症状；可能上游节点已死去。
A	N	N	A	可能没有连接好。	A	N	N	N	***中的异常使用可以由异常外部条件所引起的最终上游异常使用所引起的。异常低使用也是有问题的症状；可能上游节点已死去。
A	N	N	A	可能没有连接好。	A	N	A	N	一个异常高的使用和差错率可能是一个滥用/擅自存取的指示符
A	N	A	A	如果利用率是异常或者如果差错是异常的话，响应可能是一个异常。	A	N	A	N	一个异常高的使用和差错率可能是一个滥用/擅自存取的指示符
A	N	A	A	如果利用率是异常或者如果差错是异常的话，响应可能是一个异常。	A	A	N	N	异常使用会引起异常利用率。这仍是在拐点之前，并因此不在影响响应时间或差错。
A	A	N	A	如果利用率是异常的话，则响应时间可能是异常的。超过“拐点”的利用率会引起非线性响应下降。	A	A	N	N	异常使用会引起异常利用率。这仍是在拐点之前，并因此不在影响响应时间或差错。

A	A	A	N	异常使用引起异常利用率和差错。这仍是在雷达的检测之下，并且还不会影响响应，但是会引起对以后响应的影响。
A	A	A	N	异常使用引起异常利用率和差错。这仍是在雷达的检测之下，并且还不会影响响应，但是会引起对以后响应的影响。	A	A	A	A	各种情况都是异常的。这可能是特征并不是初始的或者容差设置过小。

表1

在本文详细说明和讨论本发明的特殊实施例的同时，应该理解的是，可以在不背离本发明的范围和目的的条件下，对本发明进行各种变化和改进。本文所讨论的实施例旨在以各个方面进行说明，并不是限制。很显然，对本领域的熟练技术人士来说，其它实施例也都属于本发明且不背离本发明的范围。

从以上的讨论中，可以看到，本发明可以较好地获得以上所讨论的各种结果和目的，以及其它优点，这些对***和方法来说都是显而易见的和固有的。应该理解的是，某些性能和子组合都是有用的，并且可以无需参考其它性能和子组合来采用。这是所预期的且在附加权利要求的范围之内。

Claims

1.一种适用于监视处理过程的方法，该方法包括：

创建一个表示处理过程的特征；

使用一组当前采样数据和先前特征的值之间的加权平均来不断地更新所创建的特征；以及

根据所不断更新的特征来检测异常；

其中所述处理过程与一数据中心中的联网计算设备的使用率相关；

其中所述特征包括与一组当前采样数据和先前特征的值之间的时间敏感平均有关的信息。

2.如权利要求1所述方法，其特征在于，创建一个特征包括计算设定时间间隔内所采样的数据的一个平均值和一个标准偏差。

3.如权利要求2所述方法，其特征在于，更新特征包括通过增量增加一个学习响应比率来加速学习。

4.如权利要求2所述方法，其特征在于，更新特征包括通过多个时间间隔来初始重复所述平均值和标准偏差的计算。

5.如权利要求1所述方法，其特征在于，更新所创建的特征包括使用一个加权因子来确保最近所记录的数据比老数据具有更大的影响。

6.如权利要求1所述方法，其特征在于，更新所创建的特征包括利用一个随时间而变化的移动平均值来考虑在不希望时间上所产生的事件。

7.如权利要求1所述方法，其特征在于，检测异常包括确定所测量的数值是否在上阈值以上还是在下阈值之下。

8.如权利要求1所述方法，其特征在于，还包括：根据抖动偏置来计算特征的上和下阈值限制。

9.一种适用于根据一个表示处理过程的不断更新的特征来检测在处理过程中所发生异常的方法，该方法包括：

连续监视一个***参数；

根据该不断更新的特征来计算一个适用于该***参数的数值的正常范围；

确定所监视的***参数是否在该正常的范围之内；以及

如果所监视到的***参数是在该正常范围之外，就指示一个异常存在；

其中所述不断更新的特征是通过使用一组当前采样数据和先前特征的值之间的加权平均来创建的；

其中所述处理过程与一数据中心中的联网计算设备的使用率相关。

10.如权利要求9所述方法，其特征在于，还包括：通过计算设定时间间隔内所采样的数据的一个平均值和一个标准偏差来创建一个特征。

11.如权利要求10所述方法，其特征在于，更新特征包括通过增量增加一个学习响应比率的值来加速学习。

12.如权利要求10所述方法，其特征在于，更新特征包括通过多个时间间隔来初始重复所述平均值和标准偏差的计算。

13.如权利要求9所述方法，其特征在于，计算值的正常范围包括使用一个加权因子来确保最近所记录的数据具有比老数据更大的影响。

14.如权利要求9所述方法，其特征在于，计算值的正常范围包括利用一个随时间而变化的移动平均值来考虑在不希望时间上所产生的事件。

15.如权利要求移9所述方法，其特征在于，确定所监视***参数是否在一个值的正常范围之内包括确定所监视***的参数是在一个上阈值以上还是在一个下阈值之下。

16.如权利要求15所述方法，其特征在于，还包括：根据抖动偏置来计算特征的上和下阈值限制。

17.如权利要求9所述的方法，其特征在于，进一步包括：将一个表示被监测的***参数的数值数据流转换成用于处理过程的状态；以及根据该状态在正常和异常行为之间进行区别。

18.如权利要求17所述方法，其特征在于，还包括：将数值数据流转换成多个子状态。

19.如权利要求17所述方法，其特征在于，还包括：根据所述状态来确定一个异常的根原因。

20.一种适用于创建一个对检测在一个计算***环境中的异常有用的特征的方法，该方法包括：

设置一个学习响应速率；

监视一个***参数；

以一个固定的时间间隔来调整学习响应速率，直至达到一个所需的数值；

计算各个时间间隔内所采样的数据的平均值和标准偏差；

使用平均值、标准偏差和学习响应速率来创建特征；

使用一组当前采样数据和先前特征的值之间的加权平均来不断地更新所创建的特征；

其中所述计算***环境中的异常与一数据中心中的联网计算设备的使用率相关；

21.如权利要求20所述方法，其特征在于，还包括：根据在连续间隔中所述平均值和标准偏差的计算，不断更新所创建的特征。

22.如权利要求21所述方法，其特征在于，还包括：根据所更新的特征来检测异常。

23.如权利要求20所述方法，其特征在于，创建特征包括初始重复与多个时间间隔关联的所述平均值和标准偏差的计算。

24.如权利要求21所述方法，其特征在于，更新所创建的特征包括使用一个加权因子来确保最近所记录的数据具有比老数据更大的影响。

25.如权利要求21所述方法，其特征在于，更新所创建的特征包括利用一个随时间而变化的移动平均值来考虑在不希望时间上所产生的事件。

26.如权利要求22所述方法，其特征在于，确定异常包括确定所测量的值是在一个上阈值以上还是在一个下阈值之下。

27.如权利要求22所述方法，其特征在于，还包括：根据抖动偏置来计算特征的上和下阈值限制。

28.一种用于检测在计算化环境中的异常活动的***，该***包括：

用于连续监视一个***参数的监视工具；

一个表示该***参数的正常数值的不断更新的特征，所述不断更新的特征通过使用一组当前采样数据和先前特征的值之间的加权平均被创建；以及

一个根据所述不断更新的特征进行计算的异常指示符；该异常指示符包括一个用于该***参数的正常值范围，

其中所述异常活动与一数据中心中的联网计算设备的异常使用率相关；

29.如权利要求28所述***，其特征在于，所述不断更新的特征包括设定时间间隔内所采样的数据的一个平均值和标准偏差。

30.如权利要求28所述***，其特征在于，所述不断更新的特征包括使用一个加权因子来确保最近所记录的数据具有比老数据更大的影响。

31.如权利要求28所述***，其特征在于，所述不断更新的特征包括利用一个随时间而变化的移动平均值来考虑在不希望时间上所产生的事件。

32.如权利要求28所述***，其特征在于，所述异常指示符确定一个监视***参数是否在一个值的正常范围之内以及所监视的***参数是在一个上阈值以上还是在一个下阈值之下。

33.如权利要求28所述***，其特征在于，所述异常指示符根据抖动偏置来计算特征的上和下阈值限制。

34.一种适用于监视一个处理过程的监视***，该监视***包括：

一个用于创建一个表示该处理过程的特征的特征创建模块；

一个用于使用一组当前采样数据和先前特征的值之间的加权平均来不断更新所创建特征的特征更新模块；以及

一个用于根据更新特征的偏差来检测异常的异常检测模块，

35.如权利要求34所述***，其特征在于，所述特征创建模块包括用于计算设定时间间隔内所采样的数据的一个平均值和一个标准偏差的工具。

36.如权利要求35所述***，其特征在于，所述特征创建模块包括用于通过增量增加一个学习响应比率而执行加速学习的工具。

37.如权利要求35所述***，其特征在于，更新特征包括初始重复与多个时间间隔关联的所述平均值和标准偏差的计算。

38.如权利要求35所述***，其特征在于，所述特征更新模块包括使用一个加权因子来确保最近所记录的数据具有比老数据更大的影响。

39.如权利要求34所述***，其特征在于，所述特征更新模块包括用于计算随时间变化的移动平均值来考虑在不希望时间上所产生的事件的工具。

40.如权利要求34所述***，其特征在于，所述异常检测模块确定所监视的***参数是在一个上阈值以上还是在一个下阈值之下。

41.如权利要求34所述***，其特征在于，所述异常检测模块包括一种适用于根据抖动偏置来计算特征的上和下阈值限制的机制。