CN1763778A - 使用关联图和运行时行为模型确定问题的***和方法 - Google Patents

使用关联图和运行时行为模型确定问题的***和方法 Download PDF

Info

Publication number
CN1763778A
CN1763778A CN200510099980.6A CN200510099980A CN1763778A CN 1763778 A CN1763778 A CN 1763778A CN 200510099980 A CN200510099980 A CN 200510099980A CN 1763778 A CN1763778 A CN 1763778A
Authority
CN
China
Prior art keywords
resource
group
root parts
distributed transaction
priority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200510099980.6A
Other languages
English (en)
Inventor
玛诺吉·K.·阿加瓦尔
克伦·阿普尔拜
玛尼施·古普塔
高塔姆·卡尔
阿尼达雅·尼奥吉
安卡·赛勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1763778A publication Critical patent/CN1763778A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/87Monitoring of transactions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种问题确定***和方法通过监控***部件性能和根据***的关联图计算运行性能阈值限度,减少了在大型分布式IT环境中***管理员对交易处理困难进行故障预测所需的时间和工作量。使用这种数据,产生IT***中可疑部件的优先顺序列表。

Description

使用关联图和运行时行为模型确定问题的***和方法
技术领域
一般说来,本发明涉及在分布式信息技术(IT)大环境中进行问题确定的***和方法,更确切地说,涉及具有一组算法和过程的***,它们分析***关联图、设置可接受的操作限度,以及产生可能故障资源的优先序列,由***管理员调查问题时使用。
背景技术
分布式信息技术(IT)大环境的实例是多层电子商务***,支持它的基础设施包括由局域网和广域网连接的以下子***:基于网络的演示服务、存取服务、应用商务逻辑、消息服务、数据库服务以及存储子***。对此类***管理员的主要挑战之一是当在用户端发现问题时精确地确定问题根源。例如,如果用户交易的响应慢得无法忍受,所述管理员就需要查明原因,它们可能位于所述***内部的任何位置。
发明内容
对本文阐述问题的先前解决方案具有无数缺点。确定所述问题根源的现有解决方案的缓慢和劳动密集有目共睹。对问题的公知解决方案主要基于事件的相关性。***内部的每个部件都按所述部件的每种测量的性能度量配置了阈值限度。(为了本发明的目的,可交替地使用资源、***资源、计算资源等术语与部件或***部件等术语。)如果度量超过其对应的阈值,则向中心相关性引擎(CE)发送事件。所述CE对到来的事件应用一组预先配置的专家相关性规则,以确定问题根源。由于管理人员难以配置每个部件和每种度量阈值,在这样的***中典型情况下会产生几种不必要的事件,对所述CE产生压力。这种技术已经用于小型***中,其中资源数目为数百。在资源数目可达数千和数万的大型客户环境中,产生的事件数目经常多得使所述***无法进行分析,而将由所述***管理员调查的部件数目可能相当高。这就导致了识别问题根源时的耽搁代价,进而导致昂贵的问题确定和补救过程。
本发明的一个示范方面是通过对内部部件自动和动态地设置适当的阈值而处理可扩缩性问题,从而减少事件数目以及由管理人员或任何问题确定(PD)程序调查的部件数目。
本发明的另一个示范方面是使用关联图根据用户级服务水平协议(SLA)对组成典型分布式IT***的各个部件自动计算运行限度。
本发明的再一个示范方面是使用运行限度和关联图,对引起问题根源的可疑***部件进行排序,使得***管理员或问题确定程序能够以优先顺序进一步调查每个部件,并且在所述排序的列表中尽早地发现问题根源。
所以,介绍了问题确定***和方法,它使各个部件上的阈值分配自动且紧密,所以不产生虚假事件,不调查极不可能是问题根源的部件。本发明的一个示范方面减少了受调查的部件数目,因此减少了确定问题所需的时间。
例如,考虑实施电子铺面的交易处理***。每笔用户交易都能够由关联图表示,它描绘了各种IT资源如何执行所述交易。此类关联图能够使用各种***和非***方式提取。本发明的示范实施例提供了一种计算机化的***,它具有若干算法和计算机实施的过程,它们能够根据某些受监控的度量比如响应时间,计算关联图中每项资源可接受的运行阈值。因此,如果交易出现了问题,比如响应时间缓慢得无法忍受,本发明将首先扫描所述交易的关联图,以便确定一组资源,它们可能是所述问题的根源。下一步,本发明将把这些资源中每一项的当前行为与由本发明计算的阈值对比。已经运行在超出这些阈值的资源将被标记为疑点。如果所述交易***仅含有一项资源,那么它就是问题根源。如果本发明识别了含有不止一项资源的一组疑点,那么根据分选算法对该组中的资源进行排序以产生有序组,所以***管理员或PD程序能够依次分别调查所述部件,以识别问题根源。
使用这种解决方案的重要优点是比当前的***减少了进行根源分析所需的时间。这是因为使用与行为阈值(或限度)耦合的关联信息显著减少了管理员为了可能的故障而需要检查的资源数目。诊断时间的这种减少带来了运行成本的节省。进一步的优点是本发明的问题确定***和方法比现有的解决方案可伸缩性更大。
附图简要说明
参考附图根据本发明优选实施例的以下详细说明将会更好地理解以上的和其他的目的、方面和优点,其中:
图1是是问题确定***的框图;
图2是问题确定***的行为模拟器部件的图示;
图3是关联图的实例;
图4显示了使用限度算法(算法1(201))和关联图的实例分选过程。
具体实施方式
现在参考附图,更具体地说是图1,其中显示了问题确定(PD)***的示意图。分布式交易***100包括分布式交易网络101和若干***资源111。***资源111显示在图1中包括但是不限于调制解调器、处理器和工作站,但是也可以包括许多其他类型的典型IT资源(如HTTP服务器、负载平衡器、应用程序服务器、数据库服务器、高速缓存、存储器、传输***等等)。通过分布式交易网络101从分布式交易***100向服务水平协议(SLA)监视器108和本发明的监控***102提供监控数据。监控***102定期轮询分布式交易***100中的每项资源,以获得对所述资源已经定义的度量值。对给定资源测量的若干特定度量是设计参数,典型情况下由***管理员根据试运行、经验等来选择。通过标准的协议向监控***102传递从分布式交易***100轮询的测量信息。静态关联图103包含静态关联信息,它把所述***中的资源类型联系到每种其他类型,并用作动态关联发生器104的起始点。动态关联发生器104使用来自监控***102和/或静态关联图103的轮询测量数据,计算若干资源之间的动态关联关系。
图3显示了交易T1和T2为用户交易的实例。交易T1需要的服务来自由父节点310所示的小服务程序S1以及分别由子节点311和子节点312所示的SQL语句Q1和Q2。而交易T2需要的服务来自由父节点320所示的小服务程序S2以及分别由子节点312和子节点321所示的SQL语句Q2和Q3。
返回图1,由动态关联发生器104产生的动态关联图存储在动态关联数据库105中。行为模拟器106根据来自监控***102和动态关联数据库105的监控信息,为每项资源计算阈值限度。资源行为限度数据库107存储着由行为模拟器106算出的资源限度,以及动态关联数据库105中识别的每项资源的当前严重程度值。
SLA监视器108对分布式交易***100中每笔用户交易测量性能。SLA监视器108对每笔交易实例测量响应时间,如果交易类型持续地违反SLA阈值,则向问题确定模块发送警报事件。如果SLA监视器108检测出某交易类型违反SLA,那么该交易类型就被视为“差”状态,并向问题确定模块109发送指示符。否则,该交易的状态被视为“好”。在行为模拟器106中每笔用户交易的状态都持续地更新。
问题确定模块109实施问题确定算法。当问题确定模块109从SLA监视器108收到警报时(如某交易的“差”状态),问题确定模块109就从动态关联数据库105中检索关联图,并使用资源行为限度数据库107为每项资源计算严重程度值。
现在看图2,行为模拟器106从动态关联数据库105接收监控数据203、好或差状态204和关联图(如静态的和动态的)。使用几种可用的算法之一,计算与资源有关的每种受监控之度量的限度。以资源标识符为索引存储阈值限度205。这种限度强调了检测潜在问题的阈值。换言之,如果在运行期间受监控度量的数值高于限度,那么所述资源就可以被视为用户交易经历之终端对终端问题的疑点。监控数据的质量(即总计或每笔交易)影响在每项资源处阈值的调整潜力(如分别为每项资源处一个阈值或每种交易类型一个阈值)。行为模拟器106显示为具有两种可用的算法。不过,本领域的技术人员应当理解,可以增加众多的算法,本发明不限于仅仅是本文呈现的这两种。
使用算法1,在图2中标识为201,资源的平均响应时间用于计算运行限度。这种响应时间是累积的,并且包括所述资源调用的其他资源的响应时间。某个部件对其正常运行限度的违反程度称为严重程度值,计算后对部件进行分选。以算法1计算资源限度的步骤为:
1.对资源i读取响应时间RT;
2.查图产生S,依赖资源i之交易的组;
3.如果S的任何元素处于“差”状态
bad_avg(i)=bad_avg(i)+(1-)RT;
bad_N(i)=bad_N(i)+1;
否则
good_avg(i)=good_avg(i)+(1-)RT;
4.如果 ( bad _ N ( i ) > ∃ ) 计算severity(i)=bad_avg(i)/good_avg(i);
5.诊断了问题后复位
bad_N(i)=bad_avg(i)=severity(i)=0.
使用算法2,估计在某项资源处若干交易局部花费的时间,并且用于计算所述资源的上方运行阈值。为了分选资源,指定为疑点,算法2计算严重程度值。使用算法2建立资源限度(其中T表示全部交易或个别交易类型)的步骤为:
1.在关联图中对资源i及其子资源k=l,…,M,读取总计(或每笔交易)的当前平均响应时间RT;
2.计算由T在资源i处花费的当前平均局部时间:
T Local _ i ( N ) = RT i ( N ) - Σ k = 1 M # Occurrences k # Occurrences i × RT k ( N )
其中N为***中HTTP请求的数目,#Occurrencesi为在视为平均响应时间的时间段期间资源i出现的次数,#Oeeurreneesk为资源i调用的资源k出现的次数;
3.如果尚未计算ThresholdT_i而且没有与依赖资源i的交易有关的SLA违反:
a.计算终端对终端交易平均响应时间的TLocal分数:
Pi=TLocal_i(N)/RTT_end-to-end(N)
b.对交易T穿越之资源i计算TLocal阈值:
ThresholdT_i=SLA*avg(Pi)
4.否则,如果已经有了与依赖资源i的交易有关的SLA违反:
if(TLocal_i(t)>ThresholdT_i)
         #violations=#violations+1
         if violations>n
         compute severity(i)=TLocal_i/ThresholdT_i
else severity(i)=0.
算法1中考虑的度量(即某资源的响应时间)是累积型度量,因为它包括子资源的响应时间。累积时间是在关联图中快速识别故障路径的直接有效方式,但是在许多情况下却不适于在问题确定中无须附加步骤时查明问题根源资源。算法2捕捉在某资源处局部花费的时间,它不是累积型度量,因为它排除了子部件的响应时间。考虑到复杂性和效率,根据***需求而选择将要使用的算法。
图1中的问题确定模块109使用由行为模拟器106算出的严重程度值,对受影响子图中的全部节点进行分选。带有严重程度值0(即没有在关联图中处于“差”状态下的任何用户交易中)的节点不再进一步考虑。
图4表示根源节点的父辈可能具有比子根源节点更高的严重程度值时如果使用算法1的分选。为了解决这个问题,问题确定模块109将应用2分聚类,把节点划分为高严重程度和低严重程度组。如果A和B为两项资源且A和B都在高严重程度组中,而且A的级别高于B,那么交换A和B的级别。列表的顶部是最可能的根源。因此,在图4中,父节点430和子节点没有在关联图中处于“差”状态下的任何用户交易中,不再进一步考虑。然后根据可疑节点的严重程度值产生优先顺序列表,并按以下次序显示:
严重程度值120.3的父节点410
严重程度值105.2的子节点412
严重程度值104.2的父节点420
严重程度值1.1的子节点411
严重程度值1.0的子节点421
然后应用父子节点关系的规则,它使最终优先顺序列表中子节点412的级别高于父节点411。
根源组110的这个优先顺序列表提供为图1所示的向***管理员的报告。
虽然已经按照其优选实施例介绍了本发明,但是本领域的技术人员将会理解,本发明能够在附带的权利要求书的实质和范围之内以修改的方式实施。

Claims (20)

1.一种在分布式交易***内进行问题确定的计算机实施的方法,包括以下步骤:
对分布式交易***中的一组资源计算运行限度;
相对所述运行限度确定所述资源的差性能状态;
产生可能导致所述差性能状态的根源部件的列表;
对所述根源部件的列表排列优先顺序;以及
向***管理员提供所述排列了优先顺序的根源部件的列表。
2.根据权利要求1的在分布式交易***内进行问题确定的计算机实施的方法,其特征在于,对分布式交易***中的一组资源计算运行限度的所述步骤进一步包括以下步骤:
从所述分布式交易***捕捉监控信息;
根据用户级SLA计算各个部件级别的阈值;以及
产生动态关联数据和所述监控信息。
3.根据权利要求1的在分布式交易***内进行问题确定的计算机实施的方法,其特征在于,相对所述运行限度确定所述资源的差性能状态的所述步骤进一步包括以下步骤:
获取相对于交易性能的监控信息;
从所述分布式交易***中的所述一组资源中识别用于进行所述交易的资源的子组;
对所述资源的子组中的每项资源获取性能信息;以及
对比所述监控信息和所述性能信息,对性能状态作出判断。
4.根据权利要求1的在分布式交易***内进行问题确定的计算机实施的方法,其特征在于,产生可能导致所述差性能状态的根源部件的列表的所述步骤进一步包括以下步骤:
选择几种算法之一以为每个所述部件计算严重程度值;以及
根据严重程度值创建所述组根源部件的优先顺序列表。
5.根据权利要求1的在分布式交易***内进行问题确定的计算机实施的方法,其特征在于,对所述根源部件的列表排列优先顺序的所述步骤进一步包括以下步骤:
把排序内的所述资源识别为父资源或子资源;以及
修改相对于父排序或子排序的所述优先顺序。
6.根据权利要求1的在分布式交易***内进行问题确定的计算机实施的方法,其特征在于,向***管理员提供所述排列了优先顺序的根源部件的列表的所述步骤进一步包括以下步骤:
从***管理员接收格式偏爱;
按所述***管理员的请求格式化所述排列了优先顺序的根源部件的列表;以及
向所述***管理员传送所述格式化后的排列了优先顺序的根源部件的列表。
7.一种在计算机可读介质中实施的问题确定***,包括:
用于对分布式交易***中的一组资源计算运行限度所用的装置;
用于相对所述运行限度确定所述资源的差性能状态所用的装置;
用于产生可能导致所述差性能状态的根源部件组所用的装置;
用于对所述根源部件组排列优先顺序所用的装置;以及
用于向***管理员提供所述排列了优先顺序的根源部件组所用的装置。
8.根据权利要求7的问题确定***,其特征在于,所述用于计算运行限度所用的装置包括:
用于从所述分布式交易***捕捉监控信息所用的装置;
用于根据用户级SLA自动计算各个部件级别阈值所用的装置;以及
用于使用静态关联数据以及所述监控信息对所述分布式交易***产生动态关联信息所用的装置。
9.根据权利要求7的问题确定***,其特征在于,相对所述运行限度确定所述资源的差性能状态所用的装置包括:
用于获取相对于交易性能的监控信息所用的装置;
用于从所述分布式交易***中的所述一组资源中识别用于进行所述交易的资源的子组的装置;
用于对所述资源的子组中的每项资源获取性能信息所用的装置;以及
用于对比所述监控信息和所述性能信息,对性能状态作出判断所用的装置。
10.根据权利要求7的问题确定***,其特征在于,用于产生可能导致所述差性能状态的根源部件组所用的装置包括:
用于选择几种算法之一以为每个所述部件计算严重程度值的装置;以及
用于根据严重程度值创建所述组根源部件的优先顺序列表的装置。
11.根据权利要求7的问题确定***,其特征在于,用于产生可能导致所述差性能状态的根源部件组所用的装置包括:
用于选择几种算法之一以为每个所述部件计算严重程度值的装置;以及
用于根据严重程度值创建所述组根源部件的优先顺序列表的装置。
12.根据权利要求7的问题确定***,其特征在于,用于对所述根源部件组排列优先顺序的装置包括:
用于把排序内的所述资源识别为父资源或子资源的装置;以及
用于修改相对于父排序或子排序的所述优先顺序的装置。
13.根据权利要求7的问题确定***,其特征在于,向***管理员提供所述排列了优先顺序的根源部件组的装置包括:
用于从***管理员接收格式偏爱的装置;
用于按所述***管理员的请求格式化所述排列了优先顺序的根源部件的列表的装置;以及
用于向所述***管理员传送所述格式化后的排列了优先顺序的根源部件的列表的装置。
14.一种自动进行问题确定的分布式交易***,包括:
一组资源,被配置为分布式交易***;
用于对分布式交易***中的一组资源计算运行限度的装置;
用于相对所述运行限度确定所述资源的差性能状态的装置;
用于产生可能导致所述差性能状态的根源部件组的装置;
用于对所述根源部件组排列优先顺序的装置;以及
用于向***管理员提供所述排列了优先顺序的根源部件组的装置。
15.根据权利要求14的分布式交易***,其特征在于,所述计算运行限度的装置包括:
用于从所述分布式交易***捕捉监控信息的装置;
用于根据用户级SLA自动计算各个部件级别阈值的装置;以及
用于使用静态关联数据以及所述监控信息对所述分布式交易***产生动态关联信息的装置。
16.根据权利要求14的分布式交易***,其特征在于,相对所述运行限度确定所述资源的差性能状态所用的装置包括:
用于获取相对于交易性能的监控信息的装置;
用于从所述分布式交易***中的所述一组资源中识别用于进行所述交易的资源的子组的装置;
用于对所述资源的子组中的每项资源获取性能信息的装置;以及
用于对比所述监控信息和所述性能信息,以对性能状态作出判断的装置。
17.根据权利要求14的分布式交易***,其特征在于,用于产生可能导致所述差性能状态的根源部件组的装置包括:
用于选择几种算法之一以为每个所述资源计算严重程度值的装置;以及
用于根据严重程度值创建所述组根源部件的优先顺序列表的装置。
18.根据权利要求14的分布式交易***,其特征在于,用于产生可能导致所述差性能状态的根源部件组的装置包括:
用于选择几种算法之一以为每个所述资源计算严重程度值的装置;以及
用于根据严重程度值创建所述组根源部件的优先顺序列表的装置。
19.根据权利要求14的分布式交易***,其特征在于,对所述根源部件组排列优先顺序的装置包括:
把排序内的所述资源识别为父资源或子资源所用的装置;以及
修改相对于父排序或子排序的所述优先顺序所用的装置。
20.根据权利要求14的分布式交易***,其特征在于,向***管理员提供所述排列了优先顺序的根源部件组所用的装置包括:
用于从***管理员接收格式偏爱的装置;
用于按所述***管理员的请求格式化所述排列了优先顺序的根源部件的列表的装置;以及
用于向所述***管理员传送所述格式化后的排列了优先顺序的根源部件的列表的装置。
CN200510099980.6A 2004-10-21 2005-09-12 使用关联图和运行时行为模型确定问题的***和方法 Pending CN1763778A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/968,917 2004-10-21
US10/968,917 US7437611B2 (en) 2004-10-21 2004-10-21 System and method for problem determination using dependency graphs and run-time behavior models

Publications (1)

Publication Number Publication Date
CN1763778A true CN1763778A (zh) 2006-04-26

Family

ID=36317751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200510099980.6A Pending CN1763778A (zh) 2004-10-21 2005-09-12 使用关联图和运行时行为模型确定问题的***和方法

Country Status (2)

Country Link
US (2) US7437611B2 (zh)
CN (1) CN1763778A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101505243B (zh) * 2009-03-10 2011-01-05 中国科学院软件研究所 一种Web应用性能异常侦测方法

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4260723B2 (ja) * 2004-11-04 2009-04-30 株式会社日立製作所 情報処理装置、情報処理装置の制御方法、及びプログラム
US7877634B2 (en) * 2005-04-20 2011-01-25 Mitsubishi Electric Corp. Data collecting apparatus and gateway apparatus
US7779101B1 (en) * 2006-06-27 2010-08-17 Emc Corporation Method and apparatus for mapping and identifying the root causes of performance problems in network-based services
US8230051B1 (en) 2006-06-27 2012-07-24 Emc Corporation Method and apparatus for mapping and identifying resources for network-based services
US8521501B2 (en) * 2007-06-27 2013-08-27 International Business Machines Corporation Real-time performance modeling of application in distributed environment and method of use
GB2465100B (en) * 2007-07-19 2012-01-04 Fujitsu Ltd System monitoring program system monitoring method and system monitoring device
US20090063387A1 (en) * 2007-08-31 2009-03-05 International Business Machines Corporation Apparatus And Method For Problem Determination And Resolution
US7966363B2 (en) * 2007-09-28 2011-06-21 Hewlett-Packard Development Company, L.P. Method and system for visualizing distributed systems
US8447859B2 (en) 2007-12-28 2013-05-21 International Business Machines Corporation Adaptive business resiliency computer system for information technology environments
US20090172149A1 (en) 2007-12-28 2009-07-02 International Business Machines Corporation Real-time information technology environments
US8868441B2 (en) 2007-12-28 2014-10-21 International Business Machines Corporation Non-disruptively changing a computing environment
US8341014B2 (en) 2007-12-28 2012-12-25 International Business Machines Corporation Recovery segments for computer business applications
US8751283B2 (en) 2007-12-28 2014-06-10 International Business Machines Corporation Defining and using templates in configuring information technology environments
US8682705B2 (en) 2007-12-28 2014-03-25 International Business Machines Corporation Information technology management based on computer dynamically adjusted discrete phases of event correlation
US8826077B2 (en) * 2007-12-28 2014-09-02 International Business Machines Corporation Defining a computer recovery process that matches the scope of outage including determining a root cause and performing escalated recovery operations
US8782662B2 (en) 2007-12-28 2014-07-15 International Business Machines Corporation Adaptive computer sequencing of actions
US8346931B2 (en) 2007-12-28 2013-01-01 International Business Machines Corporation Conditional computer runtime control of an information technology environment based on pairing constructs
US8365185B2 (en) 2007-12-28 2013-01-29 International Business Machines Corporation Preventing execution of processes responsive to changes in the environment
US8990810B2 (en) 2007-12-28 2015-03-24 International Business Machines Corporation Projecting an effect, using a pairing construct, of execution of a proposed action on a computing environment
US8326910B2 (en) 2007-12-28 2012-12-04 International Business Machines Corporation Programmatic validation in an information technology environment
US8763006B2 (en) 2007-12-28 2014-06-24 International Business Machines Corporation Dynamic generation of processes in computing environments
US9558459B2 (en) 2007-12-28 2017-01-31 International Business Machines Corporation Dynamic selection of actions in an information technology environment
US8375244B2 (en) 2007-12-28 2013-02-12 International Business Machines Corporation Managing processing of a computing environment during failures of the environment
US8428983B2 (en) 2007-12-28 2013-04-23 International Business Machines Corporation Facilitating availability of information technology resources based on pattern system environments
US8677174B2 (en) 2007-12-28 2014-03-18 International Business Machines Corporation Management of runtime events in a computer environment using a containment region
US7958393B2 (en) * 2007-12-28 2011-06-07 International Business Machines Corporation Conditional actions based on runtime conditions of a computer system environment
US7992047B2 (en) * 2008-01-08 2011-08-02 International Business Machines Corporation Context sensitive detection of failing I/O devices
EP2354948A4 (en) * 2008-10-30 2012-04-04 Ibm DEVICE FOR SUPPORTING THE DETECTION OF A DEFECT EVENT, METHOD FOR SUPPORTING THE DETECTION OF A DEFECT EVENT, AND COMPUTER PROGRAM
US9098555B2 (en) * 2008-11-25 2015-08-04 Dell Products L.P. Method and system for health scoring information systems, users, and updates
GB2465860B (en) * 2008-12-04 2011-01-12 Ibm Method and system for detecting and predicting anomalous situations in a computer system
US7992040B2 (en) * 2009-02-20 2011-08-02 International Business Machines Corporation Root cause analysis by correlating symptoms with asynchronous changes
US8793694B2 (en) * 2009-02-26 2014-07-29 International Business Machines Corporation Policy driven autonomic performance data collection
US8392760B2 (en) * 2009-10-14 2013-03-05 Microsoft Corporation Diagnosing abnormalities without application-specific knowledge
US8156377B2 (en) * 2010-07-02 2012-04-10 Oracle International Corporation Method and apparatus for determining ranked causal paths for faults in a complex multi-host system with probabilistic inference in a time series
US8069370B1 (en) 2010-07-02 2011-11-29 Oracle International Corporation Fault identification of multi-host complex systems with timesliding window analysis in a time series
US8291263B2 (en) 2010-07-02 2012-10-16 Oracle International Corporation Methods and apparatus for cross-host diagnosis of complex multi-host systems in a time series with probabilistic inference
US8230262B2 (en) 2010-07-02 2012-07-24 Oracle International Corporation Method and apparatus for dealing with accumulative behavior of some system observations in a time series for Bayesian inference with a static Bayesian network model
US8402311B2 (en) * 2010-07-19 2013-03-19 Microsoft Corporation Monitoring activity with respect to a distributed application
US8527811B2 (en) 2010-09-13 2013-09-03 International Business Machines Corporation Problem record signature generation, classification and search in problem determination
US20120102367A1 (en) * 2010-10-26 2012-04-26 International Business Machines Corporation Scalable Prediction Failure Analysis For Memory Used In Modern Computers
US9015536B1 (en) 2011-08-31 2015-04-21 Amazon Technologies, Inc. Integration based anomaly detection service
US8732525B2 (en) * 2011-10-11 2014-05-20 International Business Machines Corporation User-coordinated resource recovery
US8806277B1 (en) * 2012-02-01 2014-08-12 Symantec Corporation Systems and methods for fetching troubleshooting data
US8418000B1 (en) 2012-03-13 2013-04-09 True Metrics LLC System and methods for automated testing of functionally complex systems
US9223683B1 (en) * 2012-05-03 2015-12-29 Google Inc. Tool to analyze dependency injection object graphs for common error patterns
EP2698680B1 (en) * 2012-08-13 2015-06-10 Uptime Engineering GmbH Method for testing the reliability of complex systems
US8996932B2 (en) * 2013-01-09 2015-03-31 Microsoft Technology Licensing, Llc Cloud management using a component health model
US10162696B2 (en) 2013-01-31 2018-12-25 Entit Software Llc Dependency monitoring
US9582395B2 (en) * 2013-03-14 2017-02-28 Netflix, Inc. Critical systems inspector
US9195535B2 (en) 2013-04-30 2015-11-24 Hewlett-Packard Development Company, L.P. Hotspot identification
JP6212947B2 (ja) * 2013-05-16 2017-10-18 富士通株式会社 情報処理装置、制御装置及び制御プログラム
US9893968B1 (en) * 2013-09-25 2018-02-13 Amazon Technologies, Inc. Troubleshooting network paths in a distributed computing environment
CN104796270B (zh) 2014-01-16 2018-03-27 国际商业机器公司 在云应用的问题诊断中推荐可疑组件的方法及装置
US9996446B2 (en) * 2014-04-28 2018-06-12 Microsoft Technology Licensing, Llc User experience diagnostics with actionable insights
EP3745272B1 (en) * 2015-02-02 2022-04-06 New Relic, Inc. An application performance analyzer and corresponding method
US10180869B2 (en) * 2016-02-16 2019-01-15 Microsoft Technology Licensing, Llc Automated ordering of computer system repair
WO2017141176A1 (en) * 2016-02-18 2017-08-24 New Relic, Inc. Identifying the root cause of an issue observed during application execution
US10176081B1 (en) * 2016-04-29 2019-01-08 Intuit Inc. Monitoring of application program interface integrations
US9705978B1 (en) 2016-07-01 2017-07-11 Red Hat Israel, Ltd. Dependency graph management
US20190213067A1 (en) * 2018-01-08 2019-07-11 Hewlett Packard Enterprise Development Lp Graph-based issue detection and remediation
US11178245B2 (en) * 2019-07-01 2021-11-16 New Relic, Inc. Distributed cluster visualization
US11126492B1 (en) * 2019-11-05 2021-09-21 Express Scripts Stategic Development, Inc. Systems and methods for anomaly analysis and outage avoidance in enterprise computing systems
US11627034B1 (en) * 2022-01-01 2023-04-11 Vmware, Inc. Automated processes and systems for troubleshooting a network of an application
US20240163156A1 (en) * 2022-11-10 2024-05-16 Comcast Cable Communications, Llc Smart device ranking for performance monitoring

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5944782A (en) * 1996-10-16 1999-08-31 Veritas Software Corporation Event management system for distributed computing environment
US6556659B1 (en) * 1999-06-02 2003-04-29 Accenture Llp Service level management in a hybrid network architecture
US6532552B1 (en) * 1999-09-09 2003-03-11 International Business Machines Corporation Method and system for performing problem determination procedures in hierarchically organized computer systems
US6816461B1 (en) * 2000-06-16 2004-11-09 Ciena Corporation Method of controlling a network element to aggregate alarms and faults of a communications network
US7113988B2 (en) * 2000-06-29 2006-09-26 International Business Machines Corporation Proactive on-line diagnostics in a manageable network
US7043661B2 (en) * 2000-10-19 2006-05-09 Tti-Team Telecom International Ltd. Topology-based reasoning apparatus for root-cause analysis of network faults
US6658367B2 (en) * 2001-03-28 2003-12-02 Hewlett-Packard Development Company, L.P. System for time-bucketing of baselined data collector data
GB2379752A (en) * 2001-06-05 2003-03-19 Abb Ab Root cause analysis under conditions of uncertainty
US7076695B2 (en) * 2001-07-20 2006-07-11 Opnet Technologies, Inc. System and methods for adaptive threshold determination for performance metrics
GB0127552D0 (en) * 2001-11-16 2002-01-09 Abb Ab Analysing events
US6907549B2 (en) * 2002-03-29 2005-06-14 Nortel Networks Limited Error detection in communication systems
GB2391132B (en) * 2002-07-19 2005-09-21 Hewlett Packard Co Fault diagnosis in a network

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101505243B (zh) * 2009-03-10 2011-01-05 中国科学院软件研究所 一种Web应用性能异常侦测方法

Also Published As

Publication number Publication date
US20080294946A1 (en) 2008-11-27
US7437611B2 (en) 2008-10-14
US7711987B2 (en) 2010-05-04
US20060101308A1 (en) 2006-05-11

Similar Documents

Publication Publication Date Title
CN1763778A (zh) 使用关联图和运行时行为模型确定问题的***和方法
US11500757B2 (en) Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data
US6006016A (en) Network fault correlation
US6792456B1 (en) Systems and methods for authoring and executing operational policies that use event rates
US8443074B2 (en) Constructing an inference graph for a network
US6457143B1 (en) System and method for automatic identification of bottlenecks in a network
US6941367B2 (en) System for monitoring relevant events by comparing message relation key
US20150095338A1 (en) Systems and methods for categorizing exceptions and logs
EP1361761A1 (en) Telecommunications network management system and method for service monitoring
CN110032463B (zh) 一种基于贝叶斯网络的***故障定位方法和***
CN103081403A (zh) 用于使用事件分析通信***的操作的方法和装置
CN1905497A (zh) 一种端到端服务等级协议的评估方法和评估装置
Tang et al. Optimizing system monitoring configurations for non-actionable alerts
CN101808351A (zh) 业务影响分析方法和***
CN113452607A (zh) 分布式链路采集的方法、装置、计算设备和存储介质
CN112416902A (zh) 一种主机与数据库一键巡检方法
US8661113B2 (en) Cross-cutting detection of event patterns
CN115357418A (zh) 微服务故障检测方法、装置、存储介质及计算机设备
CN111258971A (zh) 一种基于访问日志的应用状态监控报警***及方法
US9645877B2 (en) Monitoring apparatus, monitoring method, and recording medium
CN110633191A (zh) 实时监控软件***业务健康度的方法和***
CN117130851A (zh) 一种高性能计算集群运行效率评价方法及***
CN116662127A (zh) 一种设备告警信息分类并预警的方法、***、设备和介质
WO2014196982A1 (en) Identifying log messages
Li et al. An integrated data-driven framework for computing system management

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20060426