JP2023502910A - 運用管理におけるイベント・ストームの構成要素イベントの識別 - Google Patents

運用管理におけるイベント・ストームの構成要素イベントの識別 Download PDF

Info

Publication number
JP2023502910A
JP2023502910A JP2022527663A JP2022527663A JP2023502910A JP 2023502910 A JP2023502910 A JP 2023502910A JP 2022527663 A JP2022527663 A JP 2022527663A JP 2022527663 A JP2022527663 A JP 2022527663A JP 2023502910 A JP2023502910 A JP 2023502910A
Authority
JP
Japan
Prior art keywords
event
storm
events
sample period
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022527663A
Other languages
English (en)
Inventor
セットル、ジョナサン、イアン
スチュワート、クリスチャン、ジョン
デイヴィス、ハイドン、リチャード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2023502910A publication Critical patent/JP2023502910A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)
  • Alarm Systems (AREA)

Abstract

運用管理におけるイベント・ストームの構成要素イベントを識別するための方法およびシステムを提供する。この方法は、サンプル期間内の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、イベント・ストームを検出することと、イベント・ストームが検出された場合、イベント・ストームのサンプル期間に発生した、イベント・カテゴリ別にグループ化されたイベントのグループのそれぞれについて、サンプル期間内のグループのイベント発生のレートがそのグループの平均から閾値偏差外である場合に、イベントのグループを、イベント・ストームの一部を構成するものとして識別することと、を含む。

Description

本発明はログ・イベント運用管理(operations management)に関し、より詳細には、運用管理におけるイベント・ストーム(event storm)の構成要素イベント(constituent event)の識別に関する。
情報技術の運用管理は、イベントをログに記録し、イベント・ログにアナリティクス(analytics)を適用することにより、ビジネス環境における情報技術の問題を特定し、隔離し、解決することを目的としている。例として、運用は、通信、コンピューティング・リソース、ストレージ・リソース、ネットワークなどに関連して地理的に分散され得る広範囲のインフラストラクチャに関連し得る。
情報技術環境において、イベント・ログは、システムのアクティビティの把握および問題の診断に使用できる監査証跡を提供するために、システムの実行中に発生したイベントを記録したものである。特にサーバ・アプリケーションなどのユーザとのやり取りがほとんどないアプリケーションの場合、複雑なシステムのアクティビティを把握するにはイベント・ログが必要となる。運用アナリティクスを用いた統計的分析を使用して、イベントを分析し、一見無関係なイベント間の相関関係を特定し得る。
イベント・ログ管理において、運用担当者は通常のイベント・レート(rate)を予想し、イベントは保守または問題に起因して発生する。しかしながら、到来イベントの量が運用担当者の対処能力を圧倒した場合に、イベント・ストームが時折発生し得る。これはしばしば「赤の海(Sea of Red)」と呼ばれる。これは、運用担当者が重要なイベントならびに他に発生し得ることを区別できないことを意味する。
ストームは大きな出来事によって引き起こされることが多い。たとえば、ネットワークでコア・スイッチがダウンする、監視システムの一部が故障する、といったことである。そのような状況では、多数のデバイス、サブシステム、およびアプリケーションが監視システムにアラートまたはイベントを送信し、これらは全て、そのシステムの観点から実質的に同じ問題を報告する。
そのようなイベント・ストームを検出するための最も一般的なアプローチは、システム・エンジニアが過去の経験に基づいてイベント・タイプの静的な閾値を設定することである。たとえば、イベント・タイプは「LINK DOWN」であり得、「LINK DOWN」ログ・イベントの数が規定期間内に閾値数を超えた場合に、ストームが宣言され、そのイベント・タイプの全てのイベントが一緒にグループ化される。
本発明の一態様によれば、運用管理におけるイベント・ストームの構成要素イベントを識別するためのコンピュータ実装方法であって、サンプル期間内の予想イベント・レートの動的ベースライン範囲(dynamic baseline range)からの異常を検出することによって、イベント・ストームを検出することと、イベント・ストームが検出された場合、イベント・ストームのサンプル期間に発生した、イベント・カテゴリ別にグループ化されたイベントのグループのそれぞれについて、サンプル期間内のグループのイベント発生のレートがそのグループの平均から閾値偏差外である場合に、イベントのグループを、イベント・ストームの一部を構成するものとして識別することと、を含む、コンピュータ実装方法が提供される。
これには、イベント・ストームの検出と、検出されたストーム内のサンプル期間におけるイベント・インスタンスの統計的評価を使用した、イベント・ストームの原因になっているイベントの識別との間にリンクが存在するという利点がある。これにより、ストームの原因としてラベル付けされるイベントの誤検知の数が減少する。
この方法は、出力のためにイベント・ストームの一部を構成するものとして識別された複数のイベントのグループを相互に関連付けることを含み得る。
この方法は、1つまたは複数の規定された長さのサンプル期間における予想イベント・レートを学習することを含み得る。イベント・ストームを検出することは、1つまたは複数の規定された長さのサンプル期間における予想イベント・レートの動的ベースライン範囲を決定するために、動的閾値アルゴリズムを使用することと、イベント・ストームを示す動的ベースライン範囲からの異常を検出するために、異常検出アルゴリズムを使用することと、を含み得る。運用アナリティクスを使用することにより、イベント・ストームの発生が正確に識別され得る。
この方法はまた、1つまたは複数の規定された長さのサンプル期間におけるイベント属性情報を学習することを含み得る。イベント・カテゴリは、個別イベント属性または距離メトリックに基づくイベント属性のクラスタを含み得る。イベントのグループは、最小数のイベント・インスタンスを含み得る。クラスタ化のためのイベント属性の距離メトリックは、テキスト文字列メトリック、場所メトリック、またはイベント・ログ・エントリ情報から得られる他のメトリックのグループのうちの1つであり得る。環境におけるイベントのイベント属性の学習を使用して、個別属性により、またはイベント属性の距離メトリックに基づくクラスタ化により、あるいはその両方により、イベントをグループ化する。イベント属性は、イベント・ログ・エントリで利用可能な情報から得られ得る。
この方法は、イベント属性の距離メトリックによってサンプル期間内のイベントをクラスタ化することを含み得る。一実施形態では、個別イベント属性に基づくグループが、サンプル期間において個別イベント属性に関する閾値偏差を超えていない場合、この方法は、複数の個別イベント属性をクラスタ化してイベントのグループを形成し得る。
この方法は、サンプル期間におけるクラスタに属するイベント・インスタンスの閾値パーセンテージを満たすためにクラスタ化をテストすることを含み得る。この方法は、サンプル期間において様々な距離メトリックでクラスタを比較することによって、クラスタ化を選択することを含み得る。クラスタをテストすること、および最大のクラスタを選択することによって、システムが強化され、リスク回避的になる。また、これにより、断片化されたイベント・インスタンスをクラスタ化し、イベント・ストームに関連するものとして識別することが可能になる。
サンプル期間は、イベント・ストーム検出の粒度に合わせて設定され得、異なるイベント・ストーム挙動をキャプチャするための短い時間ウィンドウおよびより長い時間ウィンドウを含み得る。イベント・ストームは様々な時間フレームを有し得、様々なサンプル期間またはウィンドウを設定することは、ゆっくりと生じるストームであろうと突然のイベントのスコールであろうと、様々な形態のイベント・ストームを検出するのに役立つ。
イベントのグループの閾値Zスコア検定などの統計的偏差の方法を使用して、イベントのグループ用の閾値偏差がそのグループの平均から測定され得る。多くの統計的閾値検定が利用可能であり、イベントの全体的な統計パターンに基づいて選択され得る。イベントが正規分布に従う場合、標準偏差検定が適切であり得る。
本発明の他の態様によれば、運用管理におけるイベント・ストームの構成要素イベントを識別するためのコンピュータ実装方法であって、サンプル期間におけるイベント母集団全体の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、イベント・ストームを検出することと、イベント属性をクラスタ化し、サンプル期間におけるクラスタ内のイベント・インスタンスの発生のレートが、クラスタ化されたイベント属性での基準(norm)から閾値偏差外であるか否かを判定することによって、検出されたイベント・ストームにおけるサンプル期間について、イベント・インスタンスをストームの構成要素イベントとして識別することと、を含む、コンピュータ実装方法が提供される。
これには、ログ・エントリで使用可能なイベント属性に基づく距離メトリックによってイベント・インスタンスがクラスタ化されるという利点がある。偏位している個別属性をグループ化することにより、関連性はあるが属性が異なる一部のログ・エントリが除外され得る。
本発明のさらなる態様によれば、運用管理におけるイベント・ストームの構成要素イベントを識別するためのシステムであって、プロセッサと、コンポーネントの機能を実行するためのコンピュータ・プログラム命令をプロセッサに提供するように構成されるメモリと、サンプル期間内の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、イベント・ストームを検出するためのイベント・ストーム検出コンポーネントと、イベント・ストームのサンプル期間に発生した、イベント・カテゴリ別にグループ化されたイベントのグループのそれぞれについて、サンプル期間内のグループのイベント発生のレートがそのグループの平均から閾値偏差外である場合に、イベントのグループを、イベント・ストームの一部を構成するものとして識別するイベント構成要素識別コンポーネントと、を備える、システムが提供される。
このシステムは、イベント・ストームの一部を構成するものとして識別された複数のイベントのグループを相互に関連付けるためのイベント構成要素関連付けコンポーネントを含み得る。
イベント・ストーム検出コンポーネントは、1つまたは複数の規定された長さのサンプル期間における予想イベント・レートの動的ベースライン範囲を決定するために、動的閾値アルゴリズムを使用するための動的閾値コンポーネントと、イベント・ストームを示す動的ベースライン範囲からの異常を検出するために、異常検出アルゴリズムを使用するための異常検出コンポーネントと、を含み得る。
このシステムは、1つまたは複数の規定された長さのサンプル期間における予想イベント・レートを学習し、1つまたは複数の規定された長さのサンプル期間におけるイベント属性情報を学習するための学習コンポーネントを含み得る。
このシステムは、イベント属性の距離メトリックによってサンプル期間内のイベントをクラスタ化するための属性クラスタ化コンポーネントを含み得る。属性クラスタ化コンポーネントは、サンプル期間におけるクラスタに属するイベント・インスタンスの閾値パーセンテージを満たすためにクラスタ化をテストすることを含み得る。属性クラスタ化コンポーネントは、サンプル期間において様々な距離メトリックでクラスタを比較することによって、クラスタを選択することを含み得る。
このシステムは、異なるイベント・ストーム挙動をキャプチャするための短い時間ウィンドウおよびより長い時間ウィンドウを含めて、イベント・ストーム検出の粒度に合わせてサンプル期間を設定するための設定コンポーネントを含み得る。
本発明のさらなる態様によれば、運用管理におけるイベント・ストームの構成要素イベントを識別するためのシステムであって、プロセッサと、コンポーネントの機能を実行するためのコンピュータ・プログラム命令をプロセッサに提供するように構成されるメモリと、サンプル期間におけるイベント母集団全体の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、イベント・ストームを検出するためのイベント・ストーム検出コンポーネントと、イベント属性をクラスタ化し、サンプル期間におけるクラスタ内のイベント・インスタンスの発生のレートが、クラスタ化されたイベント属性での基準から閾値偏差外であるか否かを判定することによって、検出されたイベント・ストームにおけるサンプル期間について、イベント・インスタンスをストームの構成要素イベントとして識別するためのイベント構成要素識別コンポーネントと、を備える、システムが提供される。
本発明のさらなる態様によれば、運用管理におけるイベント・ストームの構成要素イベントを識別するためのコンピュータ・プログラム製品であって、コンピュータ・プログラム製品はプログラム命令を具現化したコンピュータ可読記憶媒体を備え、プログラム命令は、プロセッサによって実行可能であり、プロセッサに、サンプル期間内の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、イベント・ストームを検出することと、イベント・ストームが検出された場合、サンプル期間に発生した、イベント・カテゴリ別にグループ化されたイベントのグループのそれぞれについて、サンプル期間内のグループのイベント発生のレートがそのグループの平均から閾値偏差外である場合に、イベントのグループを、イベント・ストームの一部を構成するものとして識別することと、を行わせるためのものである、コンピュータ・プログラム製品が提供される。
このコンピュータ可読記憶媒体は非一過性コンピュータ可読記憶媒体であり得、このコンピュータ可読プログラム・コードは処理回路によって実行可能であり得る。
本発明とみなされる主題は、明細書の末尾において具体的に示しており、明確に特許請求している。本発明は、以下の詳細な説明を参照することによって、添付の図面と共に読まれた場合に、構成および動作方法の両方に関して、その目的、特徴、および利点と共に最もよく理解され得る。
ここで、本発明の好ましい実施形態を、単なる例として、以下の図面を参照して説明する。
本発明による方法の例示的な実施形態の流れ図である。 本発明による方法の一態様の例示的な実施形態の流れ図である。 本発明によるシステムの例示的な実施形態のブロック図である。 本発明が実装され得るコンピュータ・システムまたはクラウド・サーバの一実施形態のブロック図である。 本発明が実装され得るクラウド・コンピューティング環境の概略図である。 本発明が実装され得るクラウド・コンピューティング環境の抽象化モデル・レイヤの図である。
例示を単純かつ明確にするために、図示した要素は必ずしも一定の縮尺で描いていないことは理解されよう。たとえば、わかりやすくするために、要素の一部の寸法を他の要素に比べて誇張し得る。さらに、適切であると考えられる場合、対応するまたは類似の特徴を示すために、参照番号を図の間で繰り返し得る。
記載した方法およびシステムは、イベント・ログ運用管理におけるイベント・ストーム検出において構成要素イベントを識別する。この方法およびシステムは、コンピューティング・システム、通信システムなどを含む情報技術環境における任意の形態のイベント・ロギングに適用することができる。
イベント・ログは、情報技術環境でイベントが発生したときの、時間経過に伴うイベント・ログ・エントリを提供する。イベント・ログは、エラー・イベント、運用イベント、トランザクション・イベント、メッセージ、または時間経過と共に記録され得る他のアクティビティに関し得る。ログ・エントリは、何が、いつ、どのコンポーネントによって発生したかに関する、ログ・エントリの情報を提供する複数の属性を含み得る。
記載した方法は2つのフェーズで機能し、第1に、ストーム・ウィンドウを検出し、そして第2に、ストームを構成するイベントをカテゴリ化してストームの構成要素イベントを識別する。
ストームが検出されると、この方法は、どのイベントが通常のアクティビティであるか、または他の問題に関連するかではなく、どのイベントがストームを構成するかを特定することができる。多くのシステムは、一度に複数の問題が進行し得るほど十分に大きいので、ストームの一部ではないイベントが到着し得る。これは、全体的なストームの検出と、イベントのカテゴリ化とを組み合わせて使用することで実現される。
2つのフェーズを組み合わせることによって、システムの複雑さが軽減され、イベント・ストーム以外に発生する多種態様なイベント・タイプに起因して生じ得る誤った関連付けが回避される。
ストームには大まかに2つのイベントのグループがあり、多くの同じイベント・タイプが発生する(たとえば、コア・ネットワークのpingダウン)か、または多くの異なるアラートおよび異なるタイプのイベントが発生する。
記載したこの方法およびシステムは、ストームの有無を確認するために、複数のタイプのイベントを一緒に結合することができるという利点を有する。記載した方法は、イベント・ストームが存在しない場合のシステムの普段の動作状態を構成するイベントではなく、ストームを構成するイベントを識別する。
図1Aを参照すると、流れ図100は、イベント・ログでストームを検出し、ストームの一部であるイベントを特定する、記載した方法の例示的な実施形態を示している。
この方法は、1つまたは複数の規定されたサンプル期間における予想イベント・レートを学習し得る101。これはログに記録されている全てのイベントのレートであり、母集団全体のイベント・レートを提供する。
この方法は、1つまたは複数の規定された長さのサンプル期間における予想イベント・レートの動的ベースライン範囲を決定し得る102。予想範囲を決定するために、動的閾値アルゴリズムが使用され得る。動的閾値アルゴリズムは、時間帯またはシステムへの負荷などの要因に依存し、それらを考慮に入れた可変のベースラインを提供する。動的閾値アルゴリズムは、監視されたシステム・プロファイルおよびパラメータに基づいて時間と共に変化する適合閾値を動的に規定し得る。
サンプル期間は、システムに合わせて規定され得、不連続な時間バケットまたはウィンドウであり得る。2つ以上の長さのサンプル期間、たとえば、短い長さおよびより長い長さのものなどが規定され得る。これにより、短いスパイクのイベントのみでなく、より長く生じる問題およびエッジ・イベント(edge event)もキャプチャされるようになる。例示的な実施形態では、5分間および20分間の期間が使用され、これらの期間にイベント・レートが継続的に監視される。
この方法はまた、イベント母集団内のイベントのイベント属性情報の内訳を学習および分類(collate)し得103、これはイベントのグループ化に使用され、また、ある期間におけるイベント属性の予想発生レートのベースラインとして使用される。イベント属性は、イベントのタイプであり得、あるいは電気通信環境における単一のセル・サイトからの、またはシステム環境における特定の設備もしくは場所からのイベントなどに関するイベント・ログ・エントリ内の地理的表示などのイベント・インスタンスの他の適切な属性であり得る。
この方法は、サンプル期間内の到来イベントを監視し、イベント・ストームを示すであろう、サンプル期間内の予想イベント・レートの動的ベースライン範囲からの異常または偏位が存在するか否かを判定し得る104。これは、異常検出アルゴリズムを使用して、母集団イベント・レートの異常を検出し得る。
異常検出は、知られている様々な異なる統計的尺度によって実行され得る。一実装形態では、異常検出は既存の運用アナリティクス・ソフトウェアによって実施され得る。たとえば、以下で概説するIBM(R)Operations Analytics Predictive Insightsがある(IBM(R)はInternational Business Machines Corporationの商標である)。
母集団イベント・レートの異常挙動を識別するための代替アプローチは、プロファイリング技術を使用して突然のシステム・プロセスの変化を検出することである。過去のデータを使用して、時間フレームの周期的挙動にわたる通常の動作パラメータを確立する。時間フレームは連続したサンプル期間へとスライスされ、これらをプロファイル・パラメータに従って個別に扱うことができる。そして、統計的プロセス制御技術を使用して、短期的および長期的なプロセスの変化を検出することができる。イベント・ストームが発生した場合、短期的に増加するプロセスの変化が検出される。
ストームとして定義されたイベント・レート異常を判定することによって、イベント・ストームが検出されたか否かが判定され得る105。ストームが現在検出されていない場合、この方法は、継続して到来イベント・レートを監視し、異常があるか否かを判定し得る104。イベント・ストームは、一連のサンプル期間にわたって検出され得る。
イベント・ストームが105で検出された場合、以下に説明するように、ストームのサンプル期間に発生したイベントに基づいて、イベント・ストームの構成要素イベントが識別および分類される。
イベント・ストームが検出されたサンプル期間内にログに記録されたイベントは、イベント・カテゴリに従ってグループ化される106。カテゴリは、イベント・タイプなどのイベント属性、またはイベントの場所などのイベントの他の属性であり得る。グループ化は、学習段階中に103で分類されたイベント属性情報を使用し得る。この段階では、グループは同じ個別属性を有するイベントのグループであり得、サンプル期間内に同じイベント属性の多数のイベントが存在するか否かを判定する。
イベント・インスタンス数が最小数を超えるイベントのグループのみが含められる。グループのイベント属性のインスタンス数が少ない場合、このグループは以降の分析に含められない。この理由は、これらのイベントのレートがそのグループに関して予想範囲外であっても、数が少ないことは、これらのイベントがストームの構成要素イベントではないことを示しているためである。
イベントのグループごとに107、この方法は、サンプル期間内のイベント発生レートがそのグループに関して予想範囲外であるか否かを判定し得る108。これは様々な形態の統計的検定によって実行され得る。
イベント発生レートが予想範囲外であるか否かの判定108を実行する能力は、102で母集団全体のイベント・レートが決定されたのと同時に103で分類されたイベント属性情報の内訳に基づく。
一実施形態では、予想範囲外であることのテストは、グループのイベント・レートの平均から閾値偏差を超えることであり得る。一実施形態では、これは、正規分布での統計的偏差を測定する、以下に説明するZスコア検定によって実行され得る。あるいは、平均からの統計的偏差の他の形態が使用され得る。
グループの発生レートが個別イベント属性に関して予想範囲外であると108で判定されなかった場合、そのイベント属性を、個々にグループ化された場合には同じく予想範囲外ではない他のイベント属性とクラスタ化すること109が可能であるか否かが判定され得る。
あるいは、この方法は、グループ化される個別イベント属性について偏差をテストせずにイベント属性のクラスタ化を試行し得る。
属性をクラスタ化することが可能である場合、この方法は、以下で図1Bに関連してさらに説明するように、距離メトリックに基づいてイベント属性を一緒にクラスタ化し得る110。
クラスタはイベントのグループ107として扱われ得、これに関して、発生レートが予想範囲外であるか否かが108で判定される。
一方、イベント属性を他のイベント属性とクラスタ化すること109が可能でない場合、またはグループが既にクラスタである場合、イベントのグループはストームの構成要素ではないと示され得る111。ストームの構成要素は、問題または問題のグループによってイベント・ストームが引き起こされた結果のイベントである。
あるグループに関して、そのグループの発生レートが予想範囲外であると108で判定された場合、イベントのグループはストームの構成要素であると示され得る112。
ストームの構成要素として示された全てのグループのイベント・メンバーは、ストームに関連するものとして113で相互に関連付けられ、または組み合わせられ、それに応じて表示および処理される。
ストーム検出のための異常検出アルゴリズム
IBM(R)Operations Analytics Predictive Insightsは、組織の監視およびパフォーマンス管理システムの複数のデータ・ソースからのデータを消費および分析するためのアナリティクス・コンポーネントを提供する。アナリティクス・コンポーネントは、システムの通常の挙動のモデルを構築し、次いで、抽出された後続のデータをモデル内のデータと比較して、システムの挙動の変化を識別し、挙動の異常を識別する。異常に関する詳細情報を表示するためのユーザ・インターフェースが提供される。
メトリックの値がメトリックのベースラインから偏位した場合に異常を検出するロバストな境界を含む様々な異常検出アルゴリズムが使用される。ベースラインは、アルゴリズムがメトリックに関して動的に維持する通常の動作範囲である。
他の異常検出アルゴリズムには、例として、メトリックの高い値と低い値との間の分散が大幅に減少した場合に異常を検出するための変化/不変(variant/invariant)アルゴリズム、メトリック間の因果関係を見出し、関係が変化した場合に異常を検出することによって異常を検出するためのGrangerアルゴリズム、メトリック値が以前に到達したことのないレベルまで上昇した場合に異常を検出するための有限ドメイン・アルゴリズム(finite domain algorithm)、メトリック値の変動がメトリックの通常の変動範囲を超えた場合に異常を検出するための主要範囲アルゴリズム(predominant range algorithm)が含まれ得る。
各アルゴリズムは、データの通常の動作挙動のモデルを構築するためのトレーニング処理を含み得る。その後、後続の区間にデータが受信された場合に、異常を検出することができる。
イベントのグループの統計的偏差検定
Z検定は、帰無仮説の下での検定統計量の分布を正規分布で近似することができる統計的検定である。中心極限定理により、イベント・レートのサンプルが正規分布に近似すると仮定することは公正な仮定である。そのため、任意の瞬間に、イベント・レートのサンプルをサンプル分布と比較して、通常の動作マージン内にあるか否かを判定することができる。Z検定では、Zスコアまたは改良Zスコア(Modified Z-Score)を使用し得る。
Zスコアは、算術平均(mean)からの標準偏差の観点で測定された、値と値のグループの算術平均(mean average)との関係の数値的尺度である。Zスコアが0の場合、値が算術平均値と同一であることを示す。Zスコアが1.0の場合、値は算術平均値から1標準偏差である。ほとんどの大規模なデータ・セットでは、99%の値が-3から3の間のZスコアを有し、これは算術平均から上下3標準偏差以内にあることを意味する。
改良Zスコアは、外れ値の強度、または特定のスコアが典型的なスコアと異なる度合いを測定する標準化されたスコアである。標準偏差の単位を使用して、スコアと中央値との差を近似する。
改良Zスコアは、Zスコアの計算に関して中央値に依存するので、標準的なZスコアよりもロバストであり得る。標準的なZスコアと比較した場合に、外れ値の影響を受けにくい。
標準的なZスコアは、算術平均との差を標準偏差で割ることによって計算される。改良Zスコアは、平均値絶対偏差(MeanAD:mean absolute deviation)または中央値絶対偏差(MAD:median absolute deviation)から計算される。これらの値に定数を掛けて、標準偏差を近似する。
属性または属性のクラスタ別にグループ化されたイベントのグループごとに、この方法は、そのイベント・タイプが発生した期間の各要素の中央値絶対偏差(MAD)および改良Zスコア値を計算し得る。たとえば、「linkdown」=中央値=10、「machine on fire」=中央値=20である。
グループの現在の値が、規定閾値である3.5のZスコアを超えている場合、イベントのグループは、ストーム・イベントを構成し、イベント・ストームの原因になっていると識別される。
ある属性のカウントが少ない場合には、追加の対策が必要になることに留意されたい。たとえば、現在のプロトタイプでは、MADスコアが2未満の場合は含められない。この理由は、これらのイベントのレートがそのグループに関して予想範囲外であっても、数が少ないことは、これらのイベントがストームの構成要素イベントではないことを示しているためである。
図1Bを参照すると、流れ図150は、イベント属性をクラスタ化し、クラスタ化されたイベント属性が、ストームが検出されたサンプル期間においてそのクラスタでの基準から閾値偏差外であるか否かをテストするための、図1Aの流れ図の態様の例示的な実施形態を示している。
サンプル・ウィンドウ内のイベント属性は、1つまたは複数の距離メトリックに従ってクラスタ化され得る151。距離メトリックは、イベント・ログ・シナリオに合わせて、イベント・ログ・エントリで利用可能な情報に基づいて構成され得る。
距離メトリックの一例は、イベント・ログ・エントリのテキスト文字列の類似性であり得る。距離メトリックの他の例は、電気通信ログでのサイト・セル、または分散コンピューティング・システム・ログにおける管理設備またはサーバの場所などによる、イベント・ログ・エントリの発信元の場所に関する場所類似性であり得る。距離メトリックの他の形態は、ログ・エントリで利用可能な情報に基づき得る。
テキスト文字列としての距離メトリックの例では、Jaro-Winkler距離などの編集距離メトリックなどの文字列比較技術を使用してクラスタ化が実行され得る。編集距離とは、一方の文字列を他方の文字列に変換するために必要な最小の操作回数を数えることにより、2つの文字列がどれほど類似していないかを定量化したものである。
たとえば、3つの異なるイベント・タイプがあり、どれも統計的偏差を超えていない場合、文字列類似性を使用してクラスタを検出し得る151。たとえば、Cisco(R)(CiscoはCisco Systems, Inc.の商標である)の実装のボーダー・ゲートウェイ・プロトコル(BGP)などのドメイン間ルーティング・プロトコルに関連する以下のイベント・インスタンスは、それらの文字列が類似しているためにクラスタ化され、イベントのグループとして扱われ得る。
BGP_CISCO_STATE_1
BGP_CISCO_STATE_2
BGP_CISCO_STATE_3
異なる距離メトリックを使用して、または同じ距離メトリックの異なる限度を使用して、あるいはその両方によって、サンプル時間に対して複数のクラスタが生成され得る151。
生成されたクラスタは、サンプル時間においてクラスタに属するイベント・ログ・インスタンスの数によってテストされ得る152。これは、サンプル時間内のイベントの総数のパーセンテージ数としてテストされ得る。クラスタが有用であるとみなされるために、テストは、サンプル時間内のパーセンテージ閾値数のイベントがクラスタのメンバーであるか否かであり得る。
生成されたクラスタはさらに、または代わりに、他のクラスタと比較されて153、サンプル時間においてイベント数が最も多い1つまたは複数のクラスタが特定され得る。
イベントの個別尺度または比較尺度(comparison measure)が最も高い1つまたは複数のクラスタが、クラスタ化の有力候補として選択され得る154。選択後に、または選択処理の一部として、クラスタをテストして、クラスタ内のイベント数がサンプル・ウィンドウ内のイベント総数の閾値パーセンテージを超えているか否かを判定し得る155。
たとえば、クラスタが予想範囲の60%超を占める場合にのみクラスタが使用され得る。予想最大カウントが、検出されたストームのサンプル時間内で100個のイベントであるとすると、クラスタが使用されるには、クラスタのメンバーである60個のイベントが存在する必要がある。
1つまたは複数のクラスタが選択されると、クラスタは新しいグループとして使用され得156、クラスタのイベント・レートがサンプル・ウィンドウのクラスタのイベント・メトリックの平均から閾値偏差外であるか否かが判定され得る。さらなるテストに合格しなかった場合、異なる距離メトリックを用いてさらなるクラスタ化151が試行され得る。
この方法は、ストームが発生していることを検出し、関連するイベントの大きなクラスタをキャプチャすることが可能であるが、網羅的である必要はない。記載した方法は、ストームを構成する全てのイベントを発見することを保証するものではない。しかしながら、イベントがストームを構成する完全な包括性の要件は、ストームが発生していることを正確に検出するための要件と比較して最優先事項ではない。
ベースライン・アルゴリズムをサンプル期間に制限せずに単に生のイベント・タイプに適用すること、すなわち、観測された各イベント・タイプのメトリックに適用することは正確ではないことに留意されたい。この理由は、個別イベント・タイプに当てはまる、メトリックがゼロに近くなる場合に、ほとんどのベースライン・アルゴリズムが極度に不正確になったり、分析からメトリックを除外したりするためである。そのため、検出されたストームにそれらが出現する利用可能なサンプル・ウィンドウに対してのみスコアまたは偏差が計算される。
記載した方法は、標準的なベースライン・アルゴリズムの制限のために、ストーム検出と、ストームが検出されたイベント・サンプル内のグループ化またはカテゴリ化されたイベントの数の偏位とを本質的に結合する。
図2は、情報技術環境で発生したイベントのイベント・ログ230を動的に評価して、イベントのストームが起こっているか否かを判定し、ストームの原因になっているイベントを識別するシステム200の例示的な実施形態を示している。
システム200は、ストーム・イベント識別システム240を提供するコンピュータ・システム210を含み、コンピュータ・システム210は、少なくとも1つのプロセッサ201、ハードウェア・モジュール、または記載したコンポーネントの機能を実行するための回路を含み、これらは少なくとも1つのプロセッサで実行されるソフトウェア・ユニットであり得る。並列処理スレッドを実行する複数のプロセッサが設けられ得、コンポーネントの機能の一部または全部の並列処理が可能になる。メモリ202は、コンポーネントの機能を実行するためのコンピュータ命令203を少なくとも1つのプロセッサ201に提供するように構成され得る。
ストーム・イベント識別システム240は、情報技術環境のイベント・ログ230のログ・イベント・エントリを分析し得る運用アナリティクス・システム220を使用し得る。運用アナリティクス・システム220はストーム・イベント識別システム240に対して遠隔的に提供され得、またはストーム・イベント識別システム240は運用アナリティクス・システム220に統合され得る。
ストーム・イベント識別システム240は、ストーム・イベント識別システム240のパラメータを設定するための設定コンポーネント250と、イベント・ログ230内のイベントの挙動を学習するための学習コンポーネント260と、イベント・ストーム検出コンポーネント270と、イベント構成要素識別コンポーネント280と、イベント構成要素関連付けコンポーネント242とを含み得る。
設定コンポーネント250は、イベント・ストーム検出の粒度を設定するためにサンプル・ウィンドウ持続時間を設定するためのサンプル・ウィンドウ・コンポーネント251を含み得る。サンプル期間は、不連続または連続的な1つまたは複数の持続時間となるように設定され得る。一実施形態では、それらは、異なるイベント・ストーム挙動をキャプチャするために、短いサンプル時間ウィンドウおよびより長いサンプル時間ウィンドウとして設定される。
設定コンポーネント250はまた、イベント構成要素の識別の感度を設定するために閾値偏差を設定するための閾値偏差コンポーネント252を含み得る。
学習コンポーネント260は、イベント・ログ全体における1つまたは複数の規定された長さのサンプル期間内の予想イベント・レートを学習するための全体的イベント範囲学習コンポーネント261を含み得る。学習コンポーネント260はまた、イベント属性をカテゴリ化およびクラスタ化する際に使用するための1つまたは複数の規定された長さのサンプル期間におけるイベント属性情報を学習するためのイベント属性学習コンポーネント262を含み得る。
イベント・ストーム検出コンポーネント270は、動的閾値アルゴリズムを使用して、1つまたは複数の規定された長さのサンプル期間における予想イベント・レートの動的ベースライン範囲を決定するための動的閾値コンポーネント272と、異常検出アルゴリズムを使用してイベント・ストームを示す動的ベースライン範囲からの異常を検出するための異常検出コンポーネント273とを含み得る。
イベント構成要素識別コンポーネント280は、イベント・ストームのサンプル期間に発生した、イベント・カテゴリ別にグループ化されたイベントのグループのそれぞれについて、サンプル期間内のグループのイベント発生レートがそのグループの平均から閾値偏差外である場合に、イベントのグループを、イベント・ストームの一部を構成するものとして識別し得る。
イベント構成要素識別コンポーネント280は、イベントをイベント・カテゴリ別にグループ化するためのグループ化コンポーネント282であって、イベント・カテゴリが個別イベント属性またはイベント属性のクラスタを含む、グループ化コンポーネント282と、イベントのグループが最小数のイベント・インスタンスを含むようにするための最小イベント・コンポーネント281と、を含み得る。
イベント構成要素識別コンポーネント280は、サンプル期間内のグループのイベント発生レートがそのグループの平均から閾値偏差外であるか否かを判定するためのグループ偏差コンポーネント283を含み得る。
イベント構成要素識別コンポーネント280は、イベント属性の距離メトリックによってサンプル期間内のイベントをクラスタ化するための属性クラスタ化コンポーネント284を含み得る。たとえば、イベント属性の距離メトリックは、テキスト文字列メトリックまたは場所メトリックであり得る。
属性クラスタ化コンポーネント284は、サンプル期間においてクラスタに属するイベント・インスタンスの閾値パーセンテージを満たすためにクラスタ化をテストすることを含み得、サンプル期間において様々な距離メトリックでクラスタを比較することによって、クラスタを選択することを含み得る。
イベント構成要素関連付けコンポーネント242は、ストームの構成要素として識別された全てのイベントのグループを相互に関連付け得、それらのイベントをシステムの出力として表示し得る。
図3は、本発明の一実施形態による、図2のシステム200のコンピュータ・システム210のコンポーネントのブロック図を示している。図3は1つの実装形態の例示を提供しているにすぎず、異なる実施形態が実装され得る環境に関するいかなる制限も意味するものではないことを理解されたい。図示した環境への多くの変更が加えられ得る。
コンピュータ・システム210は、1つまたは複数のプロセッサ302、1つまたは複数のコンピュータ可読RAM304、1つまたは複数のコンピュータ可読ROM306、1つまたは複数のコンピュータ可読記憶媒体308、デバイス・ドライバ312、読み取り/書き込みドライブまたはインターフェース314、およびネットワーク・アダプタまたはインターフェース316を含むことができ、これらは全て通信ファブリック318を介して相互接続される。通信ファブリック318は、プロセッサ(たとえば、マイクロプロセッサ、通信およびネットワーク・プロセッサなど)、システム・メモリ、周辺デバイス、およびシステム内の他の任意のハードウェア・コンポーネントの間でデータまたは制御情報あるいはその両方を受け渡しするために設計された任意のアーキテクチャで実装することができる。
1つまたは複数のオペレーティング・システム310およびアプリケーション・プログラム311、たとえば、イベント・ストーム検出システム240などは、プロセッサ302のうちの1つまたは複数によって、それぞれのRAM304(典型的にはキャッシュ・メモリを含む)のうちの1つまたは複数を介して実行するために、コンピュータ可読記憶媒体308のうちの1つまたは複数に記憶される。図示の実施形態では、コンピュータ可読記憶媒体308のそれぞれは、内蔵ハード・ドライブの磁気ディスク・ストレージ・デバイス、CD-ROM、DVD、メモリー・スティック(R)、磁気テープ、磁気ディスク、光ディスク、半導体ストレージ・デバイス、たとえば、RAM、ROM、EPROM、フラッシュ・メモリ、または本発明の実施形態によるコンピュータ・プログラムおよびデジタル情報を記憶できる他の任意のコンピュータ可読記憶媒体とすることができる。
コンピュータ・システム210はまた、1つまたは複数のポータブル・コンピュータ可読記憶媒体326に対して読み書きを行うためのR/Wドライブまたはインターフェース314を含むことができる。コンピュータ・システム210上のアプリケーション・プログラム311は、ポータブル・コンピュータ可読記憶媒体326のうちの1つまたは複数に記憶し、それぞれのR/Wドライブまたはインターフェース314を介して読み取り、それぞれのコンピュータ可読記憶媒体308にロードすることができる。
コンピュータ・システム210はまた、ネットワーク・アダプタまたはインターフェース316、たとえば、TCP/IPアダプタ・カードまたは無線通信アダプタなどを含むことができる。コンピュータ・システム210上のアプリケーション・プログラム311は、ネットワーク(たとえば、インターネット、ローカル・エリア・ネットワーク、または他のワイド・エリア・ネットワークもしくは無線ネットワーク)およびネットワーク・アダプタまたはインターフェース316を介して、外部コンピュータまたは外部ストレージ・デバイスからコンピューティング・デバイスにダウンロードすることができる。プログラムは、ネットワーク・アダプタまたはインターフェース316からコンピュータ可読記憶媒体308にロードされ得る。ネットワークは、銅線、光ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、およびエッジ・サーバを含み得る。
コンピュータ・システム210はまた、ディスプレイ画面320、キーボードまたはキーパッド322、およびコンピュータ・マウスまたはタッチパッド324を含むことができる。デバイス・ドライバ312は、画像化のためにディスプレイ画面320に、キーボードもしくはキーパッド322に、コンピュータ・マウスもしくはタッチパッド324に、または英数字入力およびユーザ選択の圧力感知のためにディスプレイ画面320に、あるいはそれらの組合せにインターフェースする。デバイス・ドライバ312、R/Wドライブまたはインターフェース314、およびネットワーク・アダプタまたはインターフェース316は、コンピュータ可読記憶媒体308またはROM306あるいはその両方に記憶されたハードウェアおよびソフトウェアを含むことができる。
本発明は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組合せであり得る。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体(または複数の媒体)を含み得る。
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のために命令を保持および記憶可能な有形のデバイスとすることができる。コンピュータ可読記憶媒体は、たとえば、限定はしないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、またはこれらの任意の適切な組合せであり得る。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可能読み取り専用メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリー・スティック(R)、フロッピー(R)・ディスク、命令が記録されたパンチ・カードまたは溝の***構造などの機械的にコード化されたデバイス、およびこれらの任意の適切な組合せが含まれる。コンピュータ可読記憶媒体は、本明細書で使用する場合、たとえば、電波または他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を伝搬する電磁波(たとえば、光ファイバ・ケーブルを通過する光パルス)、または有線で伝送される電気信号などの一過性の信号自体であると解釈されるべきではない。
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、あるいは、たとえば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくは無線ネットワーク、またはそれらの組合せなどのネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組合せを含み得る。各コンピューティング/処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、あるいは、Smalltalk(R)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語または類似のプログラミング言語などの手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードまたはオブジェクト・コードであり得る。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロン・ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上かつ部分的にリモート・コンピュータ上で、あるいは完全にリモート・コンピュータまたはサーバ上で実行され得る。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され得、または(たとえば、インターネット・サービス・プロバイダを使用してインターネットを介して)外部コンピュータへの接続がなされ得る。いくつかの実施形態では、たとえば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用してコンピュータ可読プログラム命令を実行することによって、電子回路を個人向けにし得る。
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して本明細書で説明している。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せが、コンピュータ可読プログラム命令によって実装できることは理解されよう。
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定された機能/動作を実施するための手段を生成するように、コンピュータまたは他のプログラム可能データ処理装置のプロセッサに提供されて、マシンを生成するものであってよい。これらのコンピュータ可読プログラム命令は、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定された機能/動作の態様を実施する命令を含む製造品を構成するように、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラム可能データ処理装置、または他のデバイスあるいはそれらの組合せに特定の方法で機能するように指示することができるものであってもよい。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラム可能装置、または他のデバイス上で実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定された機能/動作を実施するように、コンピュータ実装プロセスを生成するべく、コンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラム可能装置または他のデバイス上で一連の動作ステップを実行させるものであってもよい。
図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理的機能を実装するための1つまたは複数の実行可能命令を含むモジュール、セグメント、または命令の一部を表し得る。いくつかの代替的実装形態では、ブロックに記載した機能は、図示した順序以外で行われ得る。たとえば、関与する機能に応じて、連続して示した2つのブロックは、実際には、1つのステップとして実現され得、同時に、実質的に同時に、部分的にまたは完全に時間的に重なるように実行され得、またはそれらのブロックは、場合により逆の順序で実行され得る。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組合せは、指定された機能もしくは動作を実行するか、または専用ハードウェアおよびコンピュータ命令の組合せを実行する専用のハードウェア・ベースのシステムによって実装できることにも気付くであろう。
クラウド・コンピューティング
本開示はクラウド・コンピューティングに関する詳細な説明を含むが、本明細書に列挙した教示の実装形態はクラウド・コンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在知られているまたは今後開発される他の任意のタイプのコンピューティング環境と共に実装することが可能である。
クラウド・コンピューティングは、最小限の管理労力またはサービスのプロバイダとのやり取りによって迅速にプロビジョニングおよび解放することができる、設定可能なコンピューティング・リソース(たとえば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス)の共有プールへの便利なオンデマンドのネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも5つの特徴と、少なくとも3つのサービス・モデルと、少なくとも4つのデプロイメント・モデルとを含み得る。
特徴は以下の通りである。
オンデマンド・セルフ・サービス:クラウド・コンシューマは、サービスのプロバイダとの人的な対話を必要とせずに、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング能力を一方的にプロビジョニングすることができる。
ブロード・ネットワーク・アクセス:能力はネットワークを介して利用することができ、異種のシンまたはシック・クライアント・プラットフォーム(たとえば、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的なメカニズムを介してアクセスされる。
リソース・プーリング:プロバイダのコンピューティング・リソースをプールして、様々な物理リソースおよび仮想リソースが需要に応じて動的に割り当ておよび再割り当てされるマルチ・テナント・モデルを使用して複数のコンシューマにサービス提供する。一般にコンシューマは、提供されるリソースの正確な位置に対して何もできず、知っているわけでもないが、より高い抽象化レベル(たとえば、国、州、またはデータセンターなど)では位置を特定可能であり得るという点で位置非依存の感覚がある。
迅速な弾力性:能力を迅速かつ弾力的に、場合によっては自動的にプロビジョニングして素早くスケール・アウトし、迅速に解放して素早くスケール・インすることができる。コンシューマにとって、プロビジョニング可能な能力は無制限であるように見えることが多く、任意の時間に任意の数量で購入することができる。
測定されるサービス:クラウド・システムは、サービスのタイプ(たとえば、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント)に適したある抽象化レベルでの計量機能を活用して、リソースの使用を自動的に制御し、最適化する。リソース使用量を監視、管理、および報告して、利用されるサービスのプロバイダおよびコンシューマの両方に透明性を提供することができる。
サービス・モデルは以下の通りである。
ソフトウェア・アズ・ア・サービス(SaaS):コンシューマに提供される能力は、クラウド・インフラストラクチャ上で動作するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザ(たとえば、ウェブ・ベースの電子メール)などのシン・クライアント・インターフェースを介して様々なクライアント・デバイスからアクセス可能である。コンシューマは、限定されたユーザ固有のアプリケーション構成設定を可能性のある例外として、ネットワーク、サーバ、オペレーティング・システム、ストレージ、さらには個々のアプリケーション機能を含む、基盤となるクラウド・インフラストラクチャを管理も制御もしない。
プラットフォーム・アズ・ア・サービス(PaaS):コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、コンシューマが作成または取得したアプリケーションをクラウド・インフラストラクチャ上にデプロイすることである。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む、基盤となるクラウド・インフラストラクチャを管理も制御もしないが、デプロイされたアプリケーションおよび場合によってはアプリケーション・ホスティング環境構成を制御する。
インフラストラクチャ・アズ・ア・サービス(IaaS):コンシューマに提供される能力は、オペレーティング・システムおよびアプリケーションを含むことができる任意のソフトウェアをコンシューマがデプロイして動作させることが可能な、処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースをプロビジョニングすることである。コンシューマは、基盤となるクラウド・インフラストラクチャを管理も制御もしないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションを制御し、場合によっては選択したネットワーキング・コンポーネント(たとえば、ホスト・ファイアウォール)を限定的に制御する。
デプロイメント・モデルは以下の通りである。
プライベート・クラウド:クラウド・インフラストラクチャは組織専用に運用される。これは組織または第三者によって管理され得、構内または構外に存在し得る。
コミュニティ・クラウド:クラウド・インフラストラクチャはいくつかの組織によって共有され、共通の懸念(たとえば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項など)を有する特定のコミュニティをサポートする。これは組織または第三者によって管理され得、構内または構外に存在し得る。
パブリック・クラウド:クラウド・インフラストラクチャは、一般大衆または大規模な業界団体に対して利用可能にされ、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、固有のエンティティのままであるが、データおよびアプリケーションの移植性を可能にする標準化技術または独自技術(たとえば、クラウド間の負荷分散のためのクラウド・バースティング)によって結合された2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)を合成したものである。
クラウド・コンピューティング環境は、ステートレス性、低結合性、モジュール性、および意味論的相互運用性に重点を置いたサービス指向型である。クラウド・コンピューティングの中核にあるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。
ここで図4を参照すると、例示的なクラウド・コンピューティング環境50が示されている。図示のように、クラウド・コンピューティング環境50は1つまたは複数のクラウド・コンピューティング・ノード10を含み、これらを使用して、たとえば、パーソナル・デジタル・アシスタント(PDA)もしくは携帯電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、または自動車コンピュータ・システム54N、あるいはそれらの組合せなどの、クラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信し得る。ノード10は相互に通信し得る。これらは、たとえば、上述のプライベート、コミュニティ、パブリック、もしくはハイブリッド・クラウド、またはそれらの組合せなどの1つまたは複数のネットワークにおいて、物理的または仮想的にグループ化され得る(図示せず)。これにより、クラウド・コンピューティング環境50は、クラウド・コンシューマがローカル・コンピューティング・デバイス上にリソースを維持する必要がない、インフラストラクチャ・アズ・ア・サービス、プラットフォーム・アズ・ア・サービス、またはソフトウェア・アズ・ア・サービス、あるいはそれらの組合せを提供することが可能になる。図4に示したコンピューティング・デバイス54A~Nのタイプは例示的なものにすぎないことが意図されており、コンピューティング・ノード10およびクラウド・コンピューティング環境50は、任意のタイプのネットワークまたはネットワーク・アドレス指定可能接続(たとえば、Webブラウザを使用)あるいはその両方を介して任意のタイプのコンピュータ化デバイスと通信できることを理解されたい。
ここで図5を参照すると、クラウド・コンピューティング環境50(図4)によって提供される機能的抽象化レイヤのセットが示されている。図5に示したコンポーネント、レイヤ、および機能は例示的なものにすぎないことが意図されており、本発明の実施形態はこれらに限定されないことを事前に理解されたい。図示のように、以下のレイヤおよび対応する機能が提供される。
ハードウェアおよびソフトウェア・レイヤ60は、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム61、RISC(縮小命令セット・コンピュータ)アーキテクチャ・ベースのサーバ62、サーバ63、ブレード・サーバ64、ストレージ・デバイス65、ならびにネットワークおよびネットワーキング・コンポーネント66が含まれる。いくつかの実施形態では、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア67およびデータベース・ソフトウェア68を含む。
仮想化レイヤ70は抽象化レイヤを提供し、抽象化レイヤから、仮想エンティティの以下の例、すなわち、仮想サーバ71、仮想ストレージ72、仮想プライベート・ネットワークを含む仮想ネットワーク73、仮想アプリケーションおよびオペレーティング・システム74、ならびに仮想クライアント75が提供され得る。
一例では、管理レイヤ80は、下記の機能を提供し得る。リソース・プロビジョニング81は、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよび他のリソースの動的調達を提供する。計量および価格決定82は、クラウド・コンピューティング環境内でリソースが利用されたときの費用追跡と、これらのリソースの消費に対する会計または請求とを提供する。一例では、これらのリソースはアプリケーション・ソフトウェア・ライセンスを含み得る。セキュリティは、クラウド・コンシューマおよびタスクの同一性検証だけでなく、データおよび他のリソースに対する保護も提供する。ユーザ・ポータル83は、コンシューマおよびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理84は、要求されたサービス・レベルが満たされるような、クラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス・レベル合意(SLA)の計画および履行85は、SLAに従って将来要求されると予想されるクラウド・コンピューティング・リソースの事前手配および調達を提供する。
ワークロード・レイヤ90は、クラウド・コンピューティング環境が利用され得る機能性の例を提供する。このレイヤから提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション91、ソフトウェア開発およびライフサイクル管理92、仮想教室教育配信93、データ解析処理94、取引処理95、およびイベント・ログ処理96、を含む。
本発明のコンピュータ・プログラム製品は、コンピュータ可読プログラム・コードが記憶された1つまたは複数のコンピュータ可読ハードウェア・ストレージ・デバイスを含み、上記プログラム・コードは、本発明の方法を実装するために1つまたは複数のプロセッサによって実行可能である。
本発明のコンピュータ・システムは、1つまたは複数のプロセッサ、1つまたは複数のメモリ、および1つまたは複数のコンピュータ可読ハードウェア・ストレージ・デバイスを含み、上記1つまたは複数のハードウェア・ストレージ・デバイスは、本発明の方法を実装するために1つまたは複数のメモリを介して1つまたは複数のプロセッサによって実行可能なプログラム・コードを含む。
本発明の様々な実施形態の説明は例示の目的で提示しているが、網羅的であることも、開示した実施形態に限定されることも意図したものではない。記載した実施形態の範囲および思想から逸脱することなく、多くの変更および変形が当業者には明らかであろう。本明細書で使用する用語は、実施形態の原理、実際の適用、もしくは市場で見られる技術に対する技術的改善を最もよく説明するために、または当業者が本明細書に開示した実施形態を理解できるようにするために選択している。
本発明の範囲から逸脱することなく、上記に対して改善および変更を行うことができる。

Claims (25)

  1. 運用管理におけるイベント・ストームの構成要素イベントを識別するためのコンピュータ実装方法であって、
    サンプル期間内の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、イベント・ストームを検出することと、
    前記イベント・ストームが検出された場合、イベント・ストームの前記サンプル期間に発生した、イベント・カテゴリ別にグループ化されたイベントのグループのそれぞれについて、前記サンプル期間内の前記グループの前記イベント発生のレートが前記グループの平均から閾値偏差外である場合に、前記イベントのグループを、前記イベント・ストームの一部を構成するものとして識別することと、
    を含む、コンピュータ実装方法。
  2. 前記イベント・ストームの一部を構成するものとして識別された複数のイベントのグループを相互に関連付けることを含む、請求項1に記載の方法。
  3. 1つまたは複数の規定された長さのサンプル期間における予想イベント・レートを学習することを含む、請求項1に記載の方法。
  4. 前記イベント・ストームを検出することは、
    1つまたは複数の規定された長さのサンプル期間における予想イベント・レートの動的ベースライン範囲を決定するために、動的閾値アルゴリズムを使用することと、
    前記イベント・ストームを示す前記動的ベースライン範囲からの異常を検出するために、異常検出アルゴリズムを使用することと、
    を含む、請求項1に記載の方法。
  5. 1つまたは複数の規定された長さのサンプル期間におけるイベント属性情報を学習することを含む、請求項1に記載の方法。
  6. 前記イベント・カテゴリは、個別イベント属性または距離メトリックに基づくイベント属性のクラスタを含む、請求項1に記載の方法。
  7. イベント属性の距離メトリックによって前記サンプル期間内のイベントをクラスタ化することを含む、請求項1に記載の方法。
  8. 個別イベント属性に基づくグループが、前記サンプル期間において前記個別イベント属性に関する閾値偏差を超えていない場合、複数の個別イベント属性をクラスタ化して前記イベントのグループを形成する、請求項1に記載の方法。
  9. 前記イベント属性の前記距離メトリックは、テキスト文字列メトリック、場所メトリック、またはイベント・ログ・エントリ情報から得られる他のメトリックのグループのうちの1つである、請求項7に記載の方法。
  10. 前記サンプル期間における前記クラスタに属するイベント・インスタンスの閾値パーセンテージを満たすために前記クラスタ化をテストすることを含む、請求項7に記載の方法。
  11. 前記サンプル期間において様々な距離メトリックでクラスタを比較することによって、クラスタ化を選択することを含む、請求項7に記載の方法。
  12. イベントのグループは最小数のイベント・インスタンスを含む、請求項1に記載の方法。
  13. 前記サンプル期間は、異なるイベント・ストーム挙動をキャプチャするための短い時間ウィンドウおよびより長い時間ウィンドウを含めて、前記イベント・ストーム検出の粒度に合わせて設定される、請求項1に記載の方法。
  14. 前記グループの平均からの閾値偏差は、前記イベントのグループの閾値Zスコア検定である、請求項1に記載の方法。
  15. 運用管理におけるイベント・ストームの構成要素イベントを識別するためのコンピュータ実装方法であって、
    サンプル期間におけるイベント母集団全体の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、イベント・ストームを検出することと、
    イベント属性をクラスタ化し、前記サンプル期間における前記クラスタ内のイベント・インスタンスの発生のレートが、前記クラスタ化されたイベント属性での基準から閾値偏差外であるか否かを判定することによって、検出されたイベント・ストームにおける前記サンプル期間について、イベント・インスタンスを前記イベント・ストームの構成要素イベントとして識別することと、
    を含む、コンピュータ実装方法。
  16. 運用管理におけるイベント・ストームの構成要素イベントを識別するためのシステムであって、
    プロセッサと、コンポーネントの機能を実行するためのコンピュータ・プログラム命令を前記プロセッサに提供するように構成されるメモリと、
    サンプル期間内の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、前記イベント・ストームを検出するためのイベント・ストーム検出コンポーネントと、
    前記イベント・ストームの前記サンプル期間に発生した、イベント・カテゴリ別にグループ化されたイベントのグループのそれぞれについて、前記サンプル期間内の前記グループのイベント発生のレートが前記グループの平均から閾値偏差外である場合に、イベントのグループを、前記イベント・ストームの一部を構成するものとして識別するイベント構成要素識別コンポーネントと、
    を備える、システム。
  17. 前記イベント・ストームの一部を構成するものとして識別された複数のイベントのグループを相互に関連付けるためのイベント構成要素関連付けコンポーネントを含む、請求項16に記載のシステム。
  18. 前記イベント・ストーム検出コンポーネントは、
    1つまたは複数の規定された長さのサンプル期間における予想イベント・レートの動的ベースライン範囲を決定するために、動的閾値アルゴリズムを使用するための動的閾値コンポーネントと、
    前記イベント・ストームを示す前記動的ベースライン範囲からの異常を検出するために、異常検出アルゴリズムを使用するための異常検出コンポーネントと、
    を含む、請求項16に記載のシステム。
  19. 1つまたは複数の規定された長さのサンプル期間における予想イベント・レートを学習し、前記1つまたは複数の規定された長さのサンプル期間におけるイベント属性情報を学習するための学習コンポーネントを含む、請求項16に記載のシステム。
  20. イベント属性の距離メトリックによって前記サンプル期間内のイベントをクラスタ化するための属性クラスタ化コンポーネントを含む、請求項16に記載のシステム。
  21. 前記属性クラスタ化コンポーネントは、前記サンプル期間における前記クラスタに属するイベント・インスタンスの閾値パーセンテージを満たすために前記クラスタ化をテストすることを含む、請求項20に記載のシステム。
  22. 前記属性クラスタ化コンポーネントは、前記サンプル期間において様々な距離メトリックでクラスタを比較することによって、クラスタを選択することを含む、請求項20に記載のシステム。
  23. 異なるイベント・ストーム挙動をキャプチャするための短い時間ウィンドウおよびより長い時間ウィンドウを含めて、前記イベント・ストーム検出の粒度に合わせてサンプル期間を設定するための設定コンポーネントを含む、請求項16に記載のシステム。
  24. 運用管理におけるイベント・ストームの構成要素イベントを識別するためのシステムであって、
    プロセッサと、コンポーネントの機能を実行するためのコンピュータ・プログラム命令を前記プロセッサに提供するように構成されるメモリと、
    サンプル期間におけるイベント母集団全体の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、イベント・ストームを検出するためのイベント・ストーム検出コンポーネントと、
    イベント属性をクラスタ化し、前記サンプル期間における前記クラスタ内のイベント・インスタンスの発生のレートが、前記クラスタ化されたイベント属性での基準から閾値偏差外であるか否かを判定することによって、検出されたイベント・ストームにおける前記サンプル期間について、イベント・インスタンスを前記ストームの構成要素イベントとして識別するためのイベント構成要素識別コンポーネントと、
    を備える、システム。
  25. 運用管理におけるイベント・ストームの構成要素イベントを識別するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品はプログラム命令を具現化したコンピュータ可読記憶媒体を備え、前記プログラム命令は、プロセッサによって実行可能であり、前記プロセッサに、
    サンプル期間内の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、前記イベント・ストームを検出することと、
    前記イベント・ストームが検出された場合、前記サンプル期間に発生した、イベント・カテゴリ別にグループ化されたイベントのグループのそれぞれについて、前記サンプル期間内の前記グループの前記イベント発生のレートが前記グループの平均から閾値偏差外である場合に、前記イベントのグループを、前記イベント・ストームの一部を構成するものとして識別することと、
    を行わせるためのものである、コンピュータ・プログラム製品。
JP2022527663A 2019-11-18 2020-11-11 運用管理におけるイベント・ストームの構成要素イベントの識別 Pending JP2023502910A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/686,249 2019-11-18
US16/686,249 US11294748B2 (en) 2019-11-18 2019-11-18 Identification of constituent events in an event storm in operations management
PCT/IB2020/060609 WO2021099890A1 (en) 2019-11-18 2020-11-11 Identification of constituent events in an event storm in operations management

Publications (1)

Publication Number Publication Date
JP2023502910A true JP2023502910A (ja) 2023-01-26

Family

ID=75909997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022527663A Pending JP2023502910A (ja) 2019-11-18 2020-11-11 運用管理におけるイベント・ストームの構成要素イベントの識別

Country Status (6)

Country Link
US (1) US11294748B2 (ja)
JP (1) JP2023502910A (ja)
CN (1) CN114746844A (ja)
DE (1) DE112020004572T5 (ja)
GB (1) GB2604081B (ja)
WO (1) WO2021099890A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230007485A1 (en) * 2021-06-30 2023-01-05 At&T Mobility Ii Llc Systems and methods for network anomalies management
CN113938414B (zh) * 2021-11-11 2023-09-12 杭州和利时自动化有限公司 一种网络风暴处理方法、***、设备及计算机存储介质
US20230308461A1 (en) * 2022-03-25 2023-09-28 Anodot Ltd. Event-Based Machine Learning for a Time-Series Metric

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9069666B2 (en) * 2003-05-21 2015-06-30 Hewlett-Packard Development Company, L.P. Systems and methods for controlling error reporting and resolution
US7120717B2 (en) * 2004-02-13 2006-10-10 Hewlett-Packard Development Company, L.P. Method and apparatus for controlling interrupt storms
US8700761B2 (en) * 2008-09-04 2014-04-15 At&T Intellectual Property I, L.P. Method and system for detecting and managing a fault alarm storm
EP2347341A1 (en) * 2008-10-14 2011-07-27 Hewlett-Packard Development Company, L.P. Managing event traffic in a network system
CN102034148A (zh) 2010-12-08 2011-04-27 山东浪潮齐鲁软件产业股份有限公司 一种监控***的事件预警及防风暴策略的实现方法
US8949676B2 (en) * 2012-05-11 2015-02-03 International Business Machines Corporation Real-time event storm detection in a cloud environment
US9166896B2 (en) * 2013-03-15 2015-10-20 International Business Machines Corporation Session-based server transaction storm controls
GB2513885B (en) * 2013-05-08 2021-04-07 Xyratex Tech Limited Methods of clustering computational event logs
US9734005B2 (en) * 2014-10-31 2017-08-15 International Business Machines Corporation Log analytics for problem diagnosis
US10275301B2 (en) * 2015-09-29 2019-04-30 International Business Machines Corporation Detecting and analyzing performance anomalies of client-server based applications
US10103964B2 (en) * 2016-06-17 2018-10-16 At&T Intellectual Property I, L.P. Managing large volumes of event data records
US10067815B2 (en) * 2016-06-21 2018-09-04 International Business Machines Corporation Probabilistic prediction of software failure
CN106131022B (zh) 2016-07-15 2019-04-30 四川无声信息技术有限公司 一种网络协同攻击风暴源检测方法及装置
CN110324168A (zh) 2018-03-30 2019-10-11 阿里巴巴集团控股有限公司 异常事件监控方法和装置及电子设备
US10977162B2 (en) * 2018-12-20 2021-04-13 Paypal, Inc. Real time application error identification and mitigation

Also Published As

Publication number Publication date
GB2604081A (en) 2022-08-24
US11294748B2 (en) 2022-04-05
GB202207686D0 (en) 2022-07-06
GB2604081B (en) 2022-11-30
CN114746844A (zh) 2022-07-12
DE112020004572T5 (de) 2022-09-15
US20210149754A1 (en) 2021-05-20
WO2021099890A1 (en) 2021-05-27

Similar Documents

Publication Publication Date Title
US11062231B2 (en) Supervised learning system training using chatbot interaction
US10346249B2 (en) Resolving and preventing computer system failures caused by changes to the installed software
US11575697B2 (en) Anomaly detection using an ensemble of models
JP2023502910A (ja) 運用管理におけるイベント・ストームの構成要素イベントの識別
US10025671B2 (en) Smart virtual machine snapshotting
US11269714B2 (en) Performance anomaly detection
US10691516B2 (en) Measurement and visualization of resiliency in a hybrid IT infrastructure environment
US20230164035A1 (en) Identifying persistent anomalies for failure prediction
US20220214948A1 (en) Unsupervised log data anomaly detection
US10552282B2 (en) On demand monitoring mechanism to identify root cause of operation problems
US11410049B2 (en) Cognitive methods and systems for responding to computing system incidents
US11599404B2 (en) Correlation-based multi-source problem diagnosis
WO2022042126A1 (en) Fault localization for cloud-native applications
US11651031B2 (en) Abnormal data detection
US20220179764A1 (en) Multi-source data correlation extraction for anomaly detection
US11256598B2 (en) Automated selection of performance monitors
US11212162B2 (en) Bayesian-based event grouping
US11665180B2 (en) Artificially intelligent security incident and event management
US10949764B2 (en) Automatic model refreshment based on degree of model degradation
US20230274160A1 (en) Automatically training and implementing artificial intelligence-based anomaly detection models
US9952773B2 (en) Determining a cause for low disk space with respect to a logical disk
US10901979B2 (en) Generating responses to queries based on selected value assignments
US12001310B2 (en) Approximating activity loads in databases using smoothed time series
US20230056637A1 (en) Hardware and software configuration management and deployment

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221209

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230424

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240716