JP2023502910A

JP2023502910A - 運用管理におけるイベント・ストームの構成要素イベントの識別

Info

Publication number: JP2023502910A
Application number: JP2022527663A
Authority: JP
Inventors: セットル、ジョナサン、イアン; スチュワート、クリスチャン、ジョン; デイヴィス、ハイドン、リチャード
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-11-18
Filing date: 2020-11-11
Publication date: 2023-01-26
Also published as: GB2604081A; US11294748B2; GB202207686D0; GB2604081B; CN114746844A; DE112020004572T5; US20210149754A1; WO2021099890A1

Abstract

運用管理におけるイベント・ストームの構成要素イベントを識別するための方法およびシステムを提供する。この方法は、サンプル期間内の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、イベント・ストームを検出することと、イベント・ストームが検出された場合、イベント・ストームのサンプル期間に発生した、イベント・カテゴリ別にグループ化されたイベントのグループのそれぞれについて、サンプル期間内のグループのイベント発生のレートがそのグループの平均から閾値偏差外である場合に、イベントのグループを、イベント・ストームの一部を構成するものとして識別することと、を含む。

Description

本発明はログ・イベント運用管理（operations management）に関し、より詳細には、運用管理におけるイベント・ストーム（event storm）の構成要素イベント（constituent event）の識別に関する。

情報技術の運用管理は、イベントをログに記録し、イベント・ログにアナリティクス（analytics）を適用することにより、ビジネス環境における情報技術の問題を特定し、隔離し、解決することを目的としている。例として、運用は、通信、コンピューティング・リソース、ストレージ・リソース、ネットワークなどに関連して地理的に分散され得る広範囲のインフラストラクチャに関連し得る。

情報技術環境において、イベント・ログは、システムのアクティビティの把握および問題の診断に使用できる監査証跡を提供するために、システムの実行中に発生したイベントを記録したものである。特にサーバ・アプリケーションなどのユーザとのやり取りがほとんどないアプリケーションの場合、複雑なシステムのアクティビティを把握するにはイベント・ログが必要となる。運用アナリティクスを用いた統計的分析を使用して、イベントを分析し、一見無関係なイベント間の相関関係を特定し得る。

イベント・ログ管理において、運用担当者は通常のイベント・レート（rate）を予想し、イベントは保守または問題に起因して発生する。しかしながら、到来イベントの量が運用担当者の対処能力を圧倒した場合に、イベント・ストームが時折発生し得る。これはしばしば「赤の海（Sea of Red）」と呼ばれる。これは、運用担当者が重要なイベントならびに他に発生し得ることを区別できないことを意味する。

ストームは大きな出来事によって引き起こされることが多い。たとえば、ネットワークでコア・スイッチがダウンする、監視システムの一部が故障する、といったことである。そのような状況では、多数のデバイス、サブシステム、およびアプリケーションが監視システムにアラートまたはイベントを送信し、これらは全て、そのシステムの観点から実質的に同じ問題を報告する。

そのようなイベント・ストームを検出するための最も一般的なアプローチは、システム・エンジニアが過去の経験に基づいてイベント・タイプの静的な閾値を設定することである。たとえば、イベント・タイプは「LINK DOWN」であり得、「LINK DOWN」ログ・イベントの数が規定期間内に閾値数を超えた場合に、ストームが宣言され、そのイベント・タイプの全てのイベントが一緒にグループ化される。

本発明の一態様によれば、運用管理におけるイベント・ストームの構成要素イベントを識別するためのコンピュータ実装方法であって、サンプル期間内の予想イベント・レートの動的ベースライン範囲（dynamic baseline range）からの異常を検出することによって、イベント・ストームを検出することと、イベント・ストームが検出された場合、イベント・ストームのサンプル期間に発生した、イベント・カテゴリ別にグループ化されたイベントのグループのそれぞれについて、サンプル期間内のグループのイベント発生のレートがそのグループの平均から閾値偏差外である場合に、イベントのグループを、イベント・ストームの一部を構成するものとして識別することと、を含む、コンピュータ実装方法が提供される。

これには、イベント・ストームの検出と、検出されたストーム内のサンプル期間におけるイベント・インスタンスの統計的評価を使用した、イベント・ストームの原因になっているイベントの識別との間にリンクが存在するという利点がある。これにより、ストームの原因としてラベル付けされるイベントの誤検知の数が減少する。

この方法は、出力のためにイベント・ストームの一部を構成するものとして識別された複数のイベントのグループを相互に関連付けることを含み得る。

この方法は、１つまたは複数の規定された長さのサンプル期間における予想イベント・レートを学習することを含み得る。イベント・ストームを検出することは、１つまたは複数の規定された長さのサンプル期間における予想イベント・レートの動的ベースライン範囲を決定するために、動的閾値アルゴリズムを使用することと、イベント・ストームを示す動的ベースライン範囲からの異常を検出するために、異常検出アルゴリズムを使用することと、を含み得る。運用アナリティクスを使用することにより、イベント・ストームの発生が正確に識別され得る。

この方法はまた、１つまたは複数の規定された長さのサンプル期間におけるイベント属性情報を学習することを含み得る。イベント・カテゴリは、個別イベント属性または距離メトリックに基づくイベント属性のクラスタを含み得る。イベントのグループは、最小数のイベント・インスタンスを含み得る。クラスタ化のためのイベント属性の距離メトリックは、テキスト文字列メトリック、場所メトリック、またはイベント・ログ・エントリ情報から得られる他のメトリックのグループのうちの１つであり得る。環境におけるイベントのイベント属性の学習を使用して、個別属性により、またはイベント属性の距離メトリックに基づくクラスタ化により、あるいはその両方により、イベントをグループ化する。イベント属性は、イベント・ログ・エントリで利用可能な情報から得られ得る。

この方法は、イベント属性の距離メトリックによってサンプル期間内のイベントをクラスタ化することを含み得る。一実施形態では、個別イベント属性に基づくグループが、サンプル期間において個別イベント属性に関する閾値偏差を超えていない場合、この方法は、複数の個別イベント属性をクラスタ化してイベントのグループを形成し得る。

この方法は、サンプル期間におけるクラスタに属するイベント・インスタンスの閾値パーセンテージを満たすためにクラスタ化をテストすることを含み得る。この方法は、サンプル期間において様々な距離メトリックでクラスタを比較することによって、クラスタ化を選択することを含み得る。クラスタをテストすること、および最大のクラスタを選択することによって、システムが強化され、リスク回避的になる。また、これにより、断片化されたイベント・インスタンスをクラスタ化し、イベント・ストームに関連するものとして識別することが可能になる。

サンプル期間は、イベント・ストーム検出の粒度に合わせて設定され得、異なるイベント・ストーム挙動をキャプチャするための短い時間ウィンドウおよびより長い時間ウィンドウを含み得る。イベント・ストームは様々な時間フレームを有し得、様々なサンプル期間またはウィンドウを設定することは、ゆっくりと生じるストームであろうと突然のイベントのスコールであろうと、様々な形態のイベント・ストームを検出するのに役立つ。

イベントのグループの閾値Ｚスコア検定などの統計的偏差の方法を使用して、イベントのグループ用の閾値偏差がそのグループの平均から測定され得る。多くの統計的閾値検定が利用可能であり、イベントの全体的な統計パターンに基づいて選択され得る。イベントが正規分布に従う場合、標準偏差検定が適切であり得る。

本発明の他の態様によれば、運用管理におけるイベント・ストームの構成要素イベントを識別するためのコンピュータ実装方法であって、サンプル期間におけるイベント母集団全体の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、イベント・ストームを検出することと、イベント属性をクラスタ化し、サンプル期間におけるクラスタ内のイベント・インスタンスの発生のレートが、クラスタ化されたイベント属性での基準（norm）から閾値偏差外であるか否かを判定することによって、検出されたイベント・ストームにおけるサンプル期間について、イベント・インスタンスをストームの構成要素イベントとして識別することと、を含む、コンピュータ実装方法が提供される。

これには、ログ・エントリで使用可能なイベント属性に基づく距離メトリックによってイベント・インスタンスがクラスタ化されるという利点がある。偏位している個別属性をグループ化することにより、関連性はあるが属性が異なる一部のログ・エントリが除外され得る。

本発明のさらなる態様によれば、運用管理におけるイベント・ストームの構成要素イベントを識別するためのシステムであって、プロセッサと、コンポーネントの機能を実行するためのコンピュータ・プログラム命令をプロセッサに提供するように構成されるメモリと、サンプル期間内の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、イベント・ストームを検出するためのイベント・ストーム検出コンポーネントと、イベント・ストームのサンプル期間に発生した、イベント・カテゴリ別にグループ化されたイベントのグループのそれぞれについて、サンプル期間内のグループのイベント発生のレートがそのグループの平均から閾値偏差外である場合に、イベントのグループを、イベント・ストームの一部を構成するものとして識別するイベント構成要素識別コンポーネントと、を備える、システムが提供される。

このシステムは、イベント・ストームの一部を構成するものとして識別された複数のイベントのグループを相互に関連付けるためのイベント構成要素関連付けコンポーネントを含み得る。

イベント・ストーム検出コンポーネントは、１つまたは複数の規定された長さのサンプル期間における予想イベント・レートの動的ベースライン範囲を決定するために、動的閾値アルゴリズムを使用するための動的閾値コンポーネントと、イベント・ストームを示す動的ベースライン範囲からの異常を検出するために、異常検出アルゴリズムを使用するための異常検出コンポーネントと、を含み得る。

このシステムは、１つまたは複数の規定された長さのサンプル期間における予想イベント・レートを学習し、１つまたは複数の規定された長さのサンプル期間におけるイベント属性情報を学習するための学習コンポーネントを含み得る。

このシステムは、イベント属性の距離メトリックによってサンプル期間内のイベントをクラスタ化するための属性クラスタ化コンポーネントを含み得る。属性クラスタ化コンポーネントは、サンプル期間におけるクラスタに属するイベント・インスタンスの閾値パーセンテージを満たすためにクラスタ化をテストすることを含み得る。属性クラスタ化コンポーネントは、サンプル期間において様々な距離メトリックでクラスタを比較することによって、クラスタを選択することを含み得る。

このシステムは、異なるイベント・ストーム挙動をキャプチャするための短い時間ウィンドウおよびより長い時間ウィンドウを含めて、イベント・ストーム検出の粒度に合わせてサンプル期間を設定するための設定コンポーネントを含み得る。

本発明のさらなる態様によれば、運用管理におけるイベント・ストームの構成要素イベントを識別するためのシステムであって、プロセッサと、コンポーネントの機能を実行するためのコンピュータ・プログラム命令をプロセッサに提供するように構成されるメモリと、サンプル期間におけるイベント母集団全体の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、イベント・ストームを検出するためのイベント・ストーム検出コンポーネントと、イベント属性をクラスタ化し、サンプル期間におけるクラスタ内のイベント・インスタンスの発生のレートが、クラスタ化されたイベント属性での基準から閾値偏差外であるか否かを判定することによって、検出されたイベント・ストームにおけるサンプル期間について、イベント・インスタンスをストームの構成要素イベントとして識別するためのイベント構成要素識別コンポーネントと、を備える、システムが提供される。

本発明のさらなる態様によれば、運用管理におけるイベント・ストームの構成要素イベントを識別するためのコンピュータ・プログラム製品であって、コンピュータ・プログラム製品はプログラム命令を具現化したコンピュータ可読記憶媒体を備え、プログラム命令は、プロセッサによって実行可能であり、プロセッサに、サンプル期間内の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、イベント・ストームを検出することと、イベント・ストームが検出された場合、サンプル期間に発生した、イベント・カテゴリ別にグループ化されたイベントのグループのそれぞれについて、サンプル期間内のグループのイベント発生のレートがそのグループの平均から閾値偏差外である場合に、イベントのグループを、イベント・ストームの一部を構成するものとして識別することと、を行わせるためのものである、コンピュータ・プログラム製品が提供される。

このコンピュータ可読記憶媒体は非一過性コンピュータ可読記憶媒体であり得、このコンピュータ可読プログラム・コードは処理回路によって実行可能であり得る。

本発明とみなされる主題は、明細書の末尾において具体的に示しており、明確に特許請求している。本発明は、以下の詳細な説明を参照することによって、添付の図面と共に読まれた場合に、構成および動作方法の両方に関して、その目的、特徴、および利点と共に最もよく理解され得る。

ここで、本発明の好ましい実施形態を、単なる例として、以下の図面を参照して説明する。

本発明による方法の例示的な実施形態の流れ図である。本発明による方法の一態様の例示的な実施形態の流れ図である。本発明によるシステムの例示的な実施形態のブロック図である。本発明が実装され得るコンピュータ・システムまたはクラウド・サーバの一実施形態のブロック図である。本発明が実装され得るクラウド・コンピューティング環境の概略図である。本発明が実装され得るクラウド・コンピューティング環境の抽象化モデル・レイヤの図である。

例示を単純かつ明確にするために、図示した要素は必ずしも一定の縮尺で描いていないことは理解されよう。たとえば、わかりやすくするために、要素の一部の寸法を他の要素に比べて誇張し得る。さらに、適切であると考えられる場合、対応するまたは類似の特徴を示すために、参照番号を図の間で繰り返し得る。

記載した方法およびシステムは、イベント・ログ運用管理におけるイベント・ストーム検出において構成要素イベントを識別する。この方法およびシステムは、コンピューティング・システム、通信システムなどを含む情報技術環境における任意の形態のイベント・ロギングに適用することができる。

イベント・ログは、情報技術環境でイベントが発生したときの、時間経過に伴うイベント・ログ・エントリを提供する。イベント・ログは、エラー・イベント、運用イベント、トランザクション・イベント、メッセージ、または時間経過と共に記録され得る他のアクティビティに関し得る。ログ・エントリは、何が、いつ、どのコンポーネントによって発生したかに関する、ログ・エントリの情報を提供する複数の属性を含み得る。

記載した方法は２つのフェーズで機能し、第１に、ストーム・ウィンドウを検出し、そして第２に、ストームを構成するイベントをカテゴリ化してストームの構成要素イベントを識別する。

ストームが検出されると、この方法は、どのイベントが通常のアクティビティであるか、または他の問題に関連するかではなく、どのイベントがストームを構成するかを特定することができる。多くのシステムは、一度に複数の問題が進行し得るほど十分に大きいので、ストームの一部ではないイベントが到着し得る。これは、全体的なストームの検出と、イベントのカテゴリ化とを組み合わせて使用することで実現される。

２つのフェーズを組み合わせることによって、システムの複雑さが軽減され、イベント・ストーム以外に発生する多種態様なイベント・タイプに起因して生じ得る誤った関連付けが回避される。

ストームには大まかに２つのイベントのグループがあり、多くの同じイベント・タイプが発生する（たとえば、コア・ネットワークのｐｉｎｇダウン）か、または多くの異なるアラートおよび異なるタイプのイベントが発生する。

記載したこの方法およびシステムは、ストームの有無を確認するために、複数のタイプのイベントを一緒に結合することができるという利点を有する。記載した方法は、イベント・ストームが存在しない場合のシステムの普段の動作状態を構成するイベントではなく、ストームを構成するイベントを識別する。

図１Ａを参照すると、流れ図１００は、イベント・ログでストームを検出し、ストームの一部であるイベントを特定する、記載した方法の例示的な実施形態を示している。

この方法は、１つまたは複数の規定されたサンプル期間における予想イベント・レートを学習し得る１０１。これはログに記録されている全てのイベントのレートであり、母集団全体のイベント・レートを提供する。

この方法は、１つまたは複数の規定された長さのサンプル期間における予想イベント・レートの動的ベースライン範囲を決定し得る１０２。予想範囲を決定するために、動的閾値アルゴリズムが使用され得る。動的閾値アルゴリズムは、時間帯またはシステムへの負荷などの要因に依存し、それらを考慮に入れた可変のベースラインを提供する。動的閾値アルゴリズムは、監視されたシステム・プロファイルおよびパラメータに基づいて時間と共に変化する適合閾値を動的に規定し得る。

サンプル期間は、システムに合わせて規定され得、不連続な時間バケットまたはウィンドウであり得る。２つ以上の長さのサンプル期間、たとえば、短い長さおよびより長い長さのものなどが規定され得る。これにより、短いスパイクのイベントのみでなく、より長く生じる問題およびエッジ・イベント（edge event）もキャプチャされるようになる。例示的な実施形態では、５分間および２０分間の期間が使用され、これらの期間にイベント・レートが継続的に監視される。

この方法はまた、イベント母集団内のイベントのイベント属性情報の内訳を学習および分類（collate）し得１０３、これはイベントのグループ化に使用され、また、ある期間におけるイベント属性の予想発生レートのベースラインとして使用される。イベント属性は、イベントのタイプであり得、あるいは電気通信環境における単一のセル・サイトからの、またはシステム環境における特定の設備もしくは場所からのイベントなどに関するイベント・ログ・エントリ内の地理的表示などのイベント・インスタンスの他の適切な属性であり得る。

この方法は、サンプル期間内の到来イベントを監視し、イベント・ストームを示すであろう、サンプル期間内の予想イベント・レートの動的ベースライン範囲からの異常または偏位が存在するか否かを判定し得る１０４。これは、異常検出アルゴリズムを使用して、母集団イベント・レートの異常を検出し得る。

異常検出は、知られている様々な異なる統計的尺度によって実行され得る。一実装形態では、異常検出は既存の運用アナリティクス・ソフトウェアによって実施され得る。たとえば、以下で概説するＩＢＭ（Ｒ）Operations Analytics Predictive Insightsがある（ＩＢＭ（Ｒ）はInternational Business Machines Corporationの商標である）。

母集団イベント・レートの異常挙動を識別するための代替アプローチは、プロファイリング技術を使用して突然のシステム・プロセスの変化を検出することである。過去のデータを使用して、時間フレームの周期的挙動にわたる通常の動作パラメータを確立する。時間フレームは連続したサンプル期間へとスライスされ、これらをプロファイル・パラメータに従って個別に扱うことができる。そして、統計的プロセス制御技術を使用して、短期的および長期的なプロセスの変化を検出することができる。イベント・ストームが発生した場合、短期的に増加するプロセスの変化が検出される。

ストームとして定義されたイベント・レート異常を判定することによって、イベント・ストームが検出されたか否かが判定され得る１０５。ストームが現在検出されていない場合、この方法は、継続して到来イベント・レートを監視し、異常があるか否かを判定し得る１０４。イベント・ストームは、一連のサンプル期間にわたって検出され得る。

イベント・ストームが１０５で検出された場合、以下に説明するように、ストームのサンプル期間に発生したイベントに基づいて、イベント・ストームの構成要素イベントが識別および分類される。

イベント・ストームが検出されたサンプル期間内にログに記録されたイベントは、イベント・カテゴリに従ってグループ化される１０６。カテゴリは、イベント・タイプなどのイベント属性、またはイベントの場所などのイベントの他の属性であり得る。グループ化は、学習段階中に１０３で分類されたイベント属性情報を使用し得る。この段階では、グループは同じ個別属性を有するイベントのグループであり得、サンプル期間内に同じイベント属性の多数のイベントが存在するか否かを判定する。

イベント・インスタンス数が最小数を超えるイベントのグループのみが含められる。グループのイベント属性のインスタンス数が少ない場合、このグループは以降の分析に含められない。この理由は、これらのイベントのレートがそのグループに関して予想範囲外であっても、数が少ないことは、これらのイベントがストームの構成要素イベントではないことを示しているためである。

イベントのグループごとに１０７、この方法は、サンプル期間内のイベント発生レートがそのグループに関して予想範囲外であるか否かを判定し得る１０８。これは様々な形態の統計的検定によって実行され得る。

イベント発生レートが予想範囲外であるか否かの判定１０８を実行する能力は、１０２で母集団全体のイベント・レートが決定されたのと同時に１０３で分類されたイベント属性情報の内訳に基づく。

一実施形態では、予想範囲外であることのテストは、グループのイベント・レートの平均から閾値偏差を超えることであり得る。一実施形態では、これは、正規分布での統計的偏差を測定する、以下に説明するＺスコア検定によって実行され得る。あるいは、平均からの統計的偏差の他の形態が使用され得る。

グループの発生レートが個別イベント属性に関して予想範囲外であると１０８で判定されなかった場合、そのイベント属性を、個々にグループ化された場合には同じく予想範囲外ではない他のイベント属性とクラスタ化すること１０９が可能であるか否かが判定され得る。

あるいは、この方法は、グループ化される個別イベント属性について偏差をテストせずにイベント属性のクラスタ化を試行し得る。

属性をクラスタ化することが可能である場合、この方法は、以下で図１Ｂに関連してさらに説明するように、距離メトリックに基づいてイベント属性を一緒にクラスタ化し得る１１０。

クラスタはイベントのグループ１０７として扱われ得、これに関して、発生レートが予想範囲外であるか否かが１０８で判定される。

一方、イベント属性を他のイベント属性とクラスタ化すること１０９が可能でない場合、またはグループが既にクラスタである場合、イベントのグループはストームの構成要素ではないと示され得る１１１。ストームの構成要素は、問題または問題のグループによってイベント・ストームが引き起こされた結果のイベントである。

あるグループに関して、そのグループの発生レートが予想範囲外であると１０８で判定された場合、イベントのグループはストームの構成要素であると示され得る１１２。

ストームの構成要素として示された全てのグループのイベント・メンバーは、ストームに関連するものとして１１３で相互に関連付けられ、または組み合わせられ、それに応じて表示および処理される。

ストーム検出のための異常検出アルゴリズム
ＩＢＭ（Ｒ）Operations Analytics Predictive Insightsは、組織の監視およびパフォーマンス管理システムの複数のデータ・ソースからのデータを消費および分析するためのアナリティクス・コンポーネントを提供する。アナリティクス・コンポーネントは、システムの通常の挙動のモデルを構築し、次いで、抽出された後続のデータをモデル内のデータと比較して、システムの挙動の変化を識別し、挙動の異常を識別する。異常に関する詳細情報を表示するためのユーザ・インターフェースが提供される。

メトリックの値がメトリックのベースラインから偏位した場合に異常を検出するロバストな境界を含む様々な異常検出アルゴリズムが使用される。ベースラインは、アルゴリズムがメトリックに関して動的に維持する通常の動作範囲である。

他の異常検出アルゴリズムには、例として、メトリックの高い値と低い値との間の分散が大幅に減少した場合に異常を検出するための変化／不変（variant/invariant）アルゴリズム、メトリック間の因果関係を見出し、関係が変化した場合に異常を検出することによって異常を検出するためのＧｒａｎｇｅｒアルゴリズム、メトリック値が以前に到達したことのないレベルまで上昇した場合に異常を検出するための有限ドメイン・アルゴリズム（finite domain algorithm）、メトリック値の変動がメトリックの通常の変動範囲を超えた場合に異常を検出するための主要範囲アルゴリズム（predominant range algorithm）が含まれ得る。

各アルゴリズムは、データの通常の動作挙動のモデルを構築するためのトレーニング処理を含み得る。その後、後続の区間にデータが受信された場合に、異常を検出することができる。

イベントのグループの統計的偏差検定
Ｚ検定は、帰無仮説の下での検定統計量の分布を正規分布で近似することができる統計的検定である。中心極限定理により、イベント・レートのサンプルが正規分布に近似すると仮定することは公正な仮定である。そのため、任意の瞬間に、イベント・レートのサンプルをサンプル分布と比較して、通常の動作マージン内にあるか否かを判定することができる。Ｚ検定では、Ｚスコアまたは改良Ｚスコア（Modified Z-Score）を使用し得る。

Ｚスコアは、算術平均（mean）からの標準偏差の観点で測定された、値と値のグループの算術平均（mean average）との関係の数値的尺度である。Ｚスコアが０の場合、値が算術平均値と同一であることを示す。Ｚスコアが１．０の場合、値は算術平均値から１標準偏差である。ほとんどの大規模なデータ・セットでは、９９％の値が－３から３の間のＺスコアを有し、これは算術平均から上下３標準偏差以内にあることを意味する。

改良Ｚスコアは、外れ値の強度、または特定のスコアが典型的なスコアと異なる度合いを測定する標準化されたスコアである。標準偏差の単位を使用して、スコアと中央値との差を近似する。

改良Ｚスコアは、Ｚスコアの計算に関して中央値に依存するので、標準的なＺスコアよりもロバストであり得る。標準的なＺスコアと比較した場合に、外れ値の影響を受けにくい。

標準的なＺスコアは、算術平均との差を標準偏差で割ることによって計算される。改良Ｚスコアは、平均値絶対偏差（ＭｅａｎＡＤ：mean absolute deviation）または中央値絶対偏差（ＭＡＤ：median absolute deviation）から計算される。これらの値に定数を掛けて、標準偏差を近似する。

属性または属性のクラスタ別にグループ化されたイベントのグループごとに、この方法は、そのイベント・タイプが発生した期間の各要素の中央値絶対偏差（ＭＡＤ）および改良Ｚスコア値を計算し得る。たとえば、「linkdown」＝中央値＝１０、「machine on fire」＝中央値＝２０である。

グループの現在の値が、規定閾値である３．５のＺスコアを超えている場合、イベントのグループは、ストーム・イベントを構成し、イベント・ストームの原因になっていると識別される。

ある属性のカウントが少ない場合には、追加の対策が必要になることに留意されたい。たとえば、現在のプロトタイプでは、ＭＡＤスコアが２未満の場合は含められない。この理由は、これらのイベントのレートがそのグループに関して予想範囲外であっても、数が少ないことは、これらのイベントがストームの構成要素イベントではないことを示しているためである。

図１Ｂを参照すると、流れ図１５０は、イベント属性をクラスタ化し、クラスタ化されたイベント属性が、ストームが検出されたサンプル期間においてそのクラスタでの基準から閾値偏差外であるか否かをテストするための、図１Ａの流れ図の態様の例示的な実施形態を示している。

サンプル・ウィンドウ内のイベント属性は、１つまたは複数の距離メトリックに従ってクラスタ化され得る１５１。距離メトリックは、イベント・ログ・シナリオに合わせて、イベント・ログ・エントリで利用可能な情報に基づいて構成され得る。

距離メトリックの一例は、イベント・ログ・エントリのテキスト文字列の類似性であり得る。距離メトリックの他の例は、電気通信ログでのサイト・セル、または分散コンピューティング・システム・ログにおける管理設備またはサーバの場所などによる、イベント・ログ・エントリの発信元の場所に関する場所類似性であり得る。距離メトリックの他の形態は、ログ・エントリで利用可能な情報に基づき得る。

テキスト文字列としての距離メトリックの例では、Ｊａｒｏ－Ｗｉｎｋｌｅｒ距離などの編集距離メトリックなどの文字列比較技術を使用してクラスタ化が実行され得る。編集距離とは、一方の文字列を他方の文字列に変換するために必要な最小の操作回数を数えることにより、２つの文字列がどれほど類似していないかを定量化したものである。

たとえば、３つの異なるイベント・タイプがあり、どれも統計的偏差を超えていない場合、文字列類似性を使用してクラスタを検出し得る１５１。たとえば、Ｃｉｓｃｏ（Ｒ）（ＣｉｓｃｏはCisco Systems, Inc.の商標である）の実装のボーダー・ゲートウェイ・プロトコル（ＢＧＰ）などのドメイン間ルーティング・プロトコルに関連する以下のイベント・インスタンスは、それらの文字列が類似しているためにクラスタ化され、イベントのグループとして扱われ得る。
BGP_CISCO_STATE_1
BGP_CISCO_STATE_2
BGP_CISCO_STATE_3

異なる距離メトリックを使用して、または同じ距離メトリックの異なる限度を使用して、あるいはその両方によって、サンプル時間に対して複数のクラスタが生成され得る１５１。

生成されたクラスタは、サンプル時間においてクラスタに属するイベント・ログ・インスタンスの数によってテストされ得る１５２。これは、サンプル時間内のイベントの総数のパーセンテージ数としてテストされ得る。クラスタが有用であるとみなされるために、テストは、サンプル時間内のパーセンテージ閾値数のイベントがクラスタのメンバーであるか否かであり得る。

生成されたクラスタはさらに、または代わりに、他のクラスタと比較されて１５３、サンプル時間においてイベント数が最も多い１つまたは複数のクラスタが特定され得る。

イベントの個別尺度または比較尺度（comparison measure）が最も高い１つまたは複数のクラスタが、クラスタ化の有力候補として選択され得る１５４。選択後に、または選択処理の一部として、クラスタをテストして、クラスタ内のイベント数がサンプル・ウィンドウ内のイベント総数の閾値パーセンテージを超えているか否かを判定し得る１５５。

たとえば、クラスタが予想範囲の６０％超を占める場合にのみクラスタが使用され得る。予想最大カウントが、検出されたストームのサンプル時間内で１００個のイベントであるとすると、クラスタが使用されるには、クラスタのメンバーである６０個のイベントが存在する必要がある。

１つまたは複数のクラスタが選択されると、クラスタは新しいグループとして使用され得１５６、クラスタのイベント・レートがサンプル・ウィンドウのクラスタのイベント・メトリックの平均から閾値偏差外であるか否かが判定され得る。さらなるテストに合格しなかった場合、異なる距離メトリックを用いてさらなるクラスタ化１５１が試行され得る。

この方法は、ストームが発生していることを検出し、関連するイベントの大きなクラスタをキャプチャすることが可能であるが、網羅的である必要はない。記載した方法は、ストームを構成する全てのイベントを発見することを保証するものではない。しかしながら、イベントがストームを構成する完全な包括性の要件は、ストームが発生していることを正確に検出するための要件と比較して最優先事項ではない。

ベースライン・アルゴリズムをサンプル期間に制限せずに単に生のイベント・タイプに適用すること、すなわち、観測された各イベント・タイプのメトリックに適用することは正確ではないことに留意されたい。この理由は、個別イベント・タイプに当てはまる、メトリックがゼロに近くなる場合に、ほとんどのベースライン・アルゴリズムが極度に不正確になったり、分析からメトリックを除外したりするためである。そのため、検出されたストームにそれらが出現する利用可能なサンプル・ウィンドウに対してのみスコアまたは偏差が計算される。

記載した方法は、標準的なベースライン・アルゴリズムの制限のために、ストーム検出と、ストームが検出されたイベント・サンプル内のグループ化またはカテゴリ化されたイベントの数の偏位とを本質的に結合する。

図２は、情報技術環境で発生したイベントのイベント・ログ２３０を動的に評価して、イベントのストームが起こっているか否かを判定し、ストームの原因になっているイベントを識別するシステム２００の例示的な実施形態を示している。

システム２００は、ストーム・イベント識別システム２４０を提供するコンピュータ・システム２１０を含み、コンピュータ・システム２１０は、少なくとも１つのプロセッサ２０１、ハードウェア・モジュール、または記載したコンポーネントの機能を実行するための回路を含み、これらは少なくとも１つのプロセッサで実行されるソフトウェア・ユニットであり得る。並列処理スレッドを実行する複数のプロセッサが設けられ得、コンポーネントの機能の一部または全部の並列処理が可能になる。メモリ２０２は、コンポーネントの機能を実行するためのコンピュータ命令２０３を少なくとも１つのプロセッサ２０１に提供するように構成され得る。

ストーム・イベント識別システム２４０は、情報技術環境のイベント・ログ２３０のログ・イベント・エントリを分析し得る運用アナリティクス・システム２２０を使用し得る。運用アナリティクス・システム２２０はストーム・イベント識別システム２４０に対して遠隔的に提供され得、またはストーム・イベント識別システム２４０は運用アナリティクス・システム２２０に統合され得る。

ストーム・イベント識別システム２４０は、ストーム・イベント識別システム２４０のパラメータを設定するための設定コンポーネント２５０と、イベント・ログ２３０内のイベントの挙動を学習するための学習コンポーネント２６０と、イベント・ストーム検出コンポーネント２７０と、イベント構成要素識別コンポーネント２８０と、イベント構成要素関連付けコンポーネント２４２とを含み得る。

設定コンポーネント２５０は、イベント・ストーム検出の粒度を設定するためにサンプル・ウィンドウ持続時間を設定するためのサンプル・ウィンドウ・コンポーネント２５１を含み得る。サンプル期間は、不連続または連続的な１つまたは複数の持続時間となるように設定され得る。一実施形態では、それらは、異なるイベント・ストーム挙動をキャプチャするために、短いサンプル時間ウィンドウおよびより長いサンプル時間ウィンドウとして設定される。

設定コンポーネント２５０はまた、イベント構成要素の識別の感度を設定するために閾値偏差を設定するための閾値偏差コンポーネント２５２を含み得る。

学習コンポーネント２６０は、イベント・ログ全体における１つまたは複数の規定された長さのサンプル期間内の予想イベント・レートを学習するための全体的イベント範囲学習コンポーネント２６１を含み得る。学習コンポーネント２６０はまた、イベント属性をカテゴリ化およびクラスタ化する際に使用するための１つまたは複数の規定された長さのサンプル期間におけるイベント属性情報を学習するためのイベント属性学習コンポーネント２６２を含み得る。

イベント・ストーム検出コンポーネント２７０は、動的閾値アルゴリズムを使用して、１つまたは複数の規定された長さのサンプル期間における予想イベント・レートの動的ベースライン範囲を決定するための動的閾値コンポーネント２７２と、異常検出アルゴリズムを使用してイベント・ストームを示す動的ベースライン範囲からの異常を検出するための異常検出コンポーネント２７３とを含み得る。

イベント構成要素識別コンポーネント２８０は、イベント・ストームのサンプル期間に発生した、イベント・カテゴリ別にグループ化されたイベントのグループのそれぞれについて、サンプル期間内のグループのイベント発生レートがそのグループの平均から閾値偏差外である場合に、イベントのグループを、イベント・ストームの一部を構成するものとして識別し得る。

イベント構成要素識別コンポーネント２８０は、イベントをイベント・カテゴリ別にグループ化するためのグループ化コンポーネント２８２であって、イベント・カテゴリが個別イベント属性またはイベント属性のクラスタを含む、グループ化コンポーネント２８２と、イベントのグループが最小数のイベント・インスタンスを含むようにするための最小イベント・コンポーネント２８１と、を含み得る。

イベント構成要素識別コンポーネント２８０は、サンプル期間内のグループのイベント発生レートがそのグループの平均から閾値偏差外であるか否かを判定するためのグループ偏差コンポーネント２８３を含み得る。

イベント構成要素識別コンポーネント２８０は、イベント属性の距離メトリックによってサンプル期間内のイベントをクラスタ化するための属性クラスタ化コンポーネント２８４を含み得る。たとえば、イベント属性の距離メトリックは、テキスト文字列メトリックまたは場所メトリックであり得る。

属性クラスタ化コンポーネント２８４は、サンプル期間においてクラスタに属するイベント・インスタンスの閾値パーセンテージを満たすためにクラスタ化をテストすることを含み得、サンプル期間において様々な距離メトリックでクラスタを比較することによって、クラスタを選択することを含み得る。

イベント構成要素関連付けコンポーネント２４２は、ストームの構成要素として識別された全てのイベントのグループを相互に関連付け得、それらのイベントをシステムの出力として表示し得る。

図３は、本発明の一実施形態による、図２のシステム２００のコンピュータ・システム２１０のコンポーネントのブロック図を示している。図３は１つの実装形態の例示を提供しているにすぎず、異なる実施形態が実装され得る環境に関するいかなる制限も意味するものではないことを理解されたい。図示した環境への多くの変更が加えられ得る。

コンピュータ・システム２１０は、１つまたは複数のプロセッサ３０２、１つまたは複数のコンピュータ可読ＲＡＭ３０４、１つまたは複数のコンピュータ可読ＲＯＭ３０６、１つまたは複数のコンピュータ可読記憶媒体３０８、デバイス・ドライバ３１２、読み取り／書き込みドライブまたはインターフェース３１４、およびネットワーク・アダプタまたはインターフェース３１６を含むことができ、これらは全て通信ファブリック３１８を介して相互接続される。通信ファブリック３１８は、プロセッサ（たとえば、マイクロプロセッサ、通信およびネットワーク・プロセッサなど）、システム・メモリ、周辺デバイス、およびシステム内の他の任意のハードウェア・コンポーネントの間でデータまたは制御情報あるいはその両方を受け渡しするために設計された任意のアーキテクチャで実装することができる。

１つまたは複数のオペレーティング・システム３１０およびアプリケーション・プログラム３１１、たとえば、イベント・ストーム検出システム２４０などは、プロセッサ３０２のうちの１つまたは複数によって、それぞれのＲＡＭ３０４（典型的にはキャッシュ・メモリを含む）のうちの１つまたは複数を介して実行するために、コンピュータ可読記憶媒体３０８のうちの１つまたは複数に記憶される。図示の実施形態では、コンピュータ可読記憶媒体３０８のそれぞれは、内蔵ハード・ドライブの磁気ディスク・ストレージ・デバイス、ＣＤ－ＲＯＭ、ＤＶＤ、メモリー・スティック（Ｒ）、磁気テープ、磁気ディスク、光ディスク、半導体ストレージ・デバイス、たとえば、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ、フラッシュ・メモリ、または本発明の実施形態によるコンピュータ・プログラムおよびデジタル情報を記憶できる他の任意のコンピュータ可読記憶媒体とすることができる。

コンピュータ・システム２１０はまた、１つまたは複数のポータブル・コンピュータ可読記憶媒体３２６に対して読み書きを行うためのＲ／Ｗドライブまたはインターフェース３１４を含むことができる。コンピュータ・システム２１０上のアプリケーション・プログラム３１１は、ポータブル・コンピュータ可読記憶媒体３２６のうちの１つまたは複数に記憶し、それぞれのＲ／Ｗドライブまたはインターフェース３１４を介して読み取り、それぞれのコンピュータ可読記憶媒体３０８にロードすることができる。

コンピュータ・システム２１０はまた、ネットワーク・アダプタまたはインターフェース３１６、たとえば、ＴＣＰ／ＩＰアダプタ・カードまたは無線通信アダプタなどを含むことができる。コンピュータ・システム２１０上のアプリケーション・プログラム３１１は、ネットワーク（たとえば、インターネット、ローカル・エリア・ネットワーク、または他のワイド・エリア・ネットワークもしくは無線ネットワーク）およびネットワーク・アダプタまたはインターフェース３１６を介して、外部コンピュータまたは外部ストレージ・デバイスからコンピューティング・デバイスにダウンロードすることができる。プログラムは、ネットワーク・アダプタまたはインターフェース３１６からコンピュータ可読記憶媒体３０８にロードされ得る。ネットワークは、銅線、光ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、およびエッジ・サーバを含み得る。

コンピュータ・システム２１０はまた、ディスプレイ画面３２０、キーボードまたはキーパッド３２２、およびコンピュータ・マウスまたはタッチパッド３２４を含むことができる。デバイス・ドライバ３１２は、画像化のためにディスプレイ画面３２０に、キーボードもしくはキーパッド３２２に、コンピュータ・マウスもしくはタッチパッド３２４に、または英数字入力およびユーザ選択の圧力感知のためにディスプレイ画面３２０に、あるいはそれらの組合せにインターフェースする。デバイス・ドライバ３１２、Ｒ／Ｗドライブまたはインターフェース３１４、およびネットワーク・アダプタまたはインターフェース３１６は、コンピュータ可読記憶媒体３０８またはＲＯＭ３０６あるいはその両方に記憶されたハードウェアおよびソフトウェアを含むことができる。

本発明は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組合せであり得る。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体（または複数の媒体）を含み得る。

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のために命令を保持および記憶可能な有形のデバイスとすることができる。コンピュータ可読記憶媒体は、たとえば、限定はしないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、またはこれらの任意の適切な組合せであり得る。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリー・スティック（Ｒ）、フロッピー（Ｒ）・ディスク、命令が記録されたパンチ・カードまたは溝の***構造などの機械的にコード化されたデバイス、およびこれらの任意の適切な組合せが含まれる。コンピュータ可読記憶媒体は、本明細書で使用する場合、たとえば、電波または他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を伝搬する電磁波（たとえば、光ファイバ・ケーブルを通過する光パルス）、または有線で伝送される電気信号などの一過性の信号自体であると解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、あるいは、たとえば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくは無線ネットワーク、またはそれらの組合せなどのネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組合せを含み得る。各コンピューティング／処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、あるいは、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または類似のプログラミング言語などの手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードまたはオブジェクト・コードであり得る。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロン・ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上かつ部分的にリモート・コンピュータ上で、あるいは完全にリモート・コンピュータまたはサーバ上で実行され得る。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）またはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され得、または（たとえば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータへの接続がなされ得る。いくつかの実施形態では、たとえば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用してコンピュータ可読プログラム命令を実行することによって、電子回路を個人向けにし得る。

本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して本明細書で説明している。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せが、コンピュータ可読プログラム命令によって実装できることは理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／動作を実施するための手段を生成するように、コンピュータまたは他のプログラム可能データ処理装置のプロセッサに提供されて、マシンを生成するものであってよい。これらのコンピュータ可読プログラム命令は、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／動作の態様を実施する命令を含む製造品を構成するように、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラム可能データ処理装置、または他のデバイスあるいはそれらの組合せに特定の方法で機能するように指示することができるものであってもよい。

コンピュータ可読プログラム命令は、コンピュータ、他のプログラム可能装置、または他のデバイス上で実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／動作を実施するように、コンピュータ実装プロセスを生成するべく、コンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラム可能装置または他のデバイス上で一連の動作ステップを実行させるものであってもよい。

図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理的機能を実装するための１つまたは複数の実行可能命令を含むモジュール、セグメント、または命令の一部を表し得る。いくつかの代替的実装形態では、ブロックに記載した機能は、図示した順序以外で行われ得る。たとえば、関与する機能に応じて、連続して示した２つのブロックは、実際には、１つのステップとして実現され得、同時に、実質的に同時に、部分的にまたは完全に時間的に重なるように実行され得、またはそれらのブロックは、場合により逆の順序で実行され得る。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組合せは、指定された機能もしくは動作を実行するか、または専用ハードウェアおよびコンピュータ命令の組合せを実行する専用のハードウェア・ベースのシステムによって実装できることにも気付くであろう。

クラウド・コンピューティング
本開示はクラウド・コンピューティングに関する詳細な説明を含むが、本明細書に列挙した教示の実装形態はクラウド・コンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在知られているまたは今後開発される他の任意のタイプのコンピューティング環境と共に実装することが可能である。

クラウド・コンピューティングは、最小限の管理労力またはサービスのプロバイダとのやり取りによって迅速にプロビジョニングおよび解放することができる、設定可能なコンピューティング・リソース（たとえば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス）の共有プールへの便利なオンデマンドのネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも５つの特徴と、少なくとも３つのサービス・モデルと、少なくとも４つのデプロイメント・モデルとを含み得る。

特徴は以下の通りである。
オンデマンド・セルフ・サービス：クラウド・コンシューマは、サービスのプロバイダとの人的な対話を必要とせずに、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング能力を一方的にプロビジョニングすることができる。

ブロード・ネットワーク・アクセス：能力はネットワークを介して利用することができ、異種のシンまたはシック・クライアント・プラットフォーム（たとえば、携帯電話、ラップトップ、およびＰＤＡ）による使用を促進する標準的なメカニズムを介してアクセスされる。

リソース・プーリング：プロバイダのコンピューティング・リソースをプールして、様々な物理リソースおよび仮想リソースが需要に応じて動的に割り当ておよび再割り当てされるマルチ・テナント・モデルを使用して複数のコンシューマにサービス提供する。一般にコンシューマは、提供されるリソースの正確な位置に対して何もできず、知っているわけでもないが、より高い抽象化レベル（たとえば、国、州、またはデータセンターなど）では位置を特定可能であり得るという点で位置非依存の感覚がある。

迅速な弾力性：能力を迅速かつ弾力的に、場合によっては自動的にプロビジョニングして素早くスケール・アウトし、迅速に解放して素早くスケール・インすることができる。コンシューマにとって、プロビジョニング可能な能力は無制限であるように見えることが多く、任意の時間に任意の数量で購入することができる。

測定されるサービス：クラウド・システムは、サービスのタイプ（たとえば、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント）に適したある抽象化レベルでの計量機能を活用して、リソースの使用を自動的に制御し、最適化する。リソース使用量を監視、管理、および報告して、利用されるサービスのプロバイダおよびコンシューマの両方に透明性を提供することができる。

サービス・モデルは以下の通りである。
ソフトウェア・アズ・ア・サービス（ＳａａＳ）：コンシューマに提供される能力は、クラウド・インフラストラクチャ上で動作するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザ（たとえば、ウェブ・ベースの電子メール）などのシン・クライアント・インターフェースを介して様々なクライアント・デバイスからアクセス可能である。コンシューマは、限定されたユーザ固有のアプリケーション構成設定を可能性のある例外として、ネットワーク、サーバ、オペレーティング・システム、ストレージ、さらには個々のアプリケーション機能を含む、基盤となるクラウド・インフラストラクチャを管理も制御もしない。

プラットフォーム・アズ・ア・サービス（ＰａａＳ）：コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、コンシューマが作成または取得したアプリケーションをクラウド・インフラストラクチャ上にデプロイすることである。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む、基盤となるクラウド・インフラストラクチャを管理も制御もしないが、デプロイされたアプリケーションおよび場合によってはアプリケーション・ホスティング環境構成を制御する。

インフラストラクチャ・アズ・ア・サービス（ＩａａＳ）：コンシューマに提供される能力は、オペレーティング・システムおよびアプリケーションを含むことができる任意のソフトウェアをコンシューマがデプロイして動作させることが可能な、処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースをプロビジョニングすることである。コンシューマは、基盤となるクラウド・インフラストラクチャを管理も制御もしないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションを制御し、場合によっては選択したネットワーキング・コンポーネント（たとえば、ホスト・ファイアウォール）を限定的に制御する。

デプロイメント・モデルは以下の通りである。
プライベート・クラウド：クラウド・インフラストラクチャは組織専用に運用される。これは組織または第三者によって管理され得、構内または構外に存在し得る。

コミュニティ・クラウド：クラウド・インフラストラクチャはいくつかの組織によって共有され、共通の懸念（たとえば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項など）を有する特定のコミュニティをサポートする。これは組織または第三者によって管理され得、構内または構外に存在し得る。

パブリック・クラウド：クラウド・インフラストラクチャは、一般大衆または大規模な業界団体に対して利用可能にされ、クラウド・サービスを販売する組織によって所有される。

ハイブリッド・クラウド：クラウド・インフラストラクチャは、固有のエンティティのままであるが、データおよびアプリケーションの移植性を可能にする標準化技術または独自技術（たとえば、クラウド間の負荷分散のためのクラウド・バースティング）によって結合された２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）を合成したものである。

クラウド・コンピューティング環境は、ステートレス性、低結合性、モジュール性、および意味論的相互運用性に重点を置いたサービス指向型である。クラウド・コンピューティングの中核にあるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。

ここで図４を参照すると、例示的なクラウド・コンピューティング環境５０が示されている。図示のように、クラウド・コンピューティング環境５０は１つまたは複数のクラウド・コンピューティング・ノード１０を含み、これらを使用して、たとえば、パーソナル・デジタル・アシスタント（ＰＤＡ）もしくは携帯電話５４Ａ、デスクトップ・コンピュータ５４Ｂ、ラップトップ・コンピュータ５４Ｃ、または自動車コンピュータ・システム５４Ｎ、あるいはそれらの組合せなどの、クラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信し得る。ノード１０は相互に通信し得る。これらは、たとえば、上述のプライベート、コミュニティ、パブリック、もしくはハイブリッド・クラウド、またはそれらの組合せなどの１つまたは複数のネットワークにおいて、物理的または仮想的にグループ化され得る（図示せず）。これにより、クラウド・コンピューティング環境５０は、クラウド・コンシューマがローカル・コンピューティング・デバイス上にリソースを維持する必要がない、インフラストラクチャ・アズ・ア・サービス、プラットフォーム・アズ・ア・サービス、またはソフトウェア・アズ・ア・サービス、あるいはそれらの組合せを提供することが可能になる。図４に示したコンピューティング・デバイス５４Ａ～Ｎのタイプは例示的なものにすぎないことが意図されており、コンピューティング・ノード１０およびクラウド・コンピューティング環境５０は、任意のタイプのネットワークまたはネットワーク・アドレス指定可能接続（たとえば、Ｗｅｂブラウザを使用）あるいはその両方を介して任意のタイプのコンピュータ化デバイスと通信できることを理解されたい。

ここで図５を参照すると、クラウド・コンピューティング環境５０（図４）によって提供される機能的抽象化レイヤのセットが示されている。図５に示したコンポーネント、レイヤ、および機能は例示的なものにすぎないことが意図されており、本発明の実施形態はこれらに限定されないことを事前に理解されたい。図示のように、以下のレイヤおよび対応する機能が提供される。

ハードウェアおよびソフトウェア・レイヤ６０は、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム６１、ＲＩＳＣ（縮小命令セット・コンピュータ）アーキテクチャ・ベースのサーバ６２、サーバ６３、ブレード・サーバ６４、ストレージ・デバイス６５、ならびにネットワークおよびネットワーキング・コンポーネント６６が含まれる。いくつかの実施形態では、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア６７およびデータベース・ソフトウェア６８を含む。

仮想化レイヤ７０は抽象化レイヤを提供し、抽象化レイヤから、仮想エンティティの以下の例、すなわち、仮想サーバ７１、仮想ストレージ７２、仮想プライベート・ネットワークを含む仮想ネットワーク７３、仮想アプリケーションおよびオペレーティング・システム７４、ならびに仮想クライアント７５が提供され得る。

一例では、管理レイヤ８０は、下記の機能を提供し得る。リソース・プロビジョニング８１は、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよび他のリソースの動的調達を提供する。計量および価格決定８２は、クラウド・コンピューティング環境内でリソースが利用されたときの費用追跡と、これらのリソースの消費に対する会計または請求とを提供する。一例では、これらのリソースはアプリケーション・ソフトウェア・ライセンスを含み得る。セキュリティは、クラウド・コンシューマおよびタスクの同一性検証だけでなく、データおよび他のリソースに対する保護も提供する。ユーザ・ポータル８３は、コンシューマおよびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理８４は、要求されたサービス・レベルが満たされるような、クラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス・レベル合意（ＳＬＡ）の計画および履行８５は、ＳＬＡに従って将来要求されると予想されるクラウド・コンピューティング・リソースの事前手配および調達を提供する。

ワークロード・レイヤ９０は、クラウド・コンピューティング環境が利用され得る機能性の例を提供する。このレイヤから提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション９１、ソフトウェア開発およびライフサイクル管理９２、仮想教室教育配信９３、データ解析処理９４、取引処理９５、およびイベント・ログ処理９６、を含む。

本発明のコンピュータ・プログラム製品は、コンピュータ可読プログラム・コードが記憶された１つまたは複数のコンピュータ可読ハードウェア・ストレージ・デバイスを含み、上記プログラム・コードは、本発明の方法を実装するために１つまたは複数のプロセッサによって実行可能である。

本発明のコンピュータ・システムは、１つまたは複数のプロセッサ、１つまたは複数のメモリ、および１つまたは複数のコンピュータ可読ハードウェア・ストレージ・デバイスを含み、上記１つまたは複数のハードウェア・ストレージ・デバイスは、本発明の方法を実装するために１つまたは複数のメモリを介して１つまたは複数のプロセッサによって実行可能なプログラム・コードを含む。

本発明の様々な実施形態の説明は例示の目的で提示しているが、網羅的であることも、開示した実施形態に限定されることも意図したものではない。記載した実施形態の範囲および思想から逸脱することなく、多くの変更および変形が当業者には明らかであろう。本明細書で使用する用語は、実施形態の原理、実際の適用、もしくは市場で見られる技術に対する技術的改善を最もよく説明するために、または当業者が本明細書に開示した実施形態を理解できるようにするために選択している。

本発明の範囲から逸脱することなく、上記に対して改善および変更を行うことができる。

Claims

運用管理におけるイベント・ストームの構成要素イベントを識別するためのコンピュータ実装方法であって、
サンプル期間内の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、イベント・ストームを検出することと、
前記イベント・ストームが検出された場合、イベント・ストームの前記サンプル期間に発生した、イベント・カテゴリ別にグループ化されたイベントのグループのそれぞれについて、前記サンプル期間内の前記グループの前記イベント発生のレートが前記グループの平均から閾値偏差外である場合に、前記イベントのグループを、前記イベント・ストームの一部を構成するものとして識別することと、
を含む、コンピュータ実装方法。
前記イベント・ストームの一部を構成するものとして識別された複数のイベントのグループを相互に関連付けることを含む、請求項１に記載の方法。
１つまたは複数の規定された長さのサンプル期間における予想イベント・レートを学習することを含む、請求項１に記載の方法。
前記イベント・ストームを検出することは、
１つまたは複数の規定された長さのサンプル期間における予想イベント・レートの動的ベースライン範囲を決定するために、動的閾値アルゴリズムを使用することと、
前記イベント・ストームを示す前記動的ベースライン範囲からの異常を検出するために、異常検出アルゴリズムを使用することと、
を含む、請求項１に記載の方法。
１つまたは複数の規定された長さのサンプル期間におけるイベント属性情報を学習することを含む、請求項１に記載の方法。
前記イベント・カテゴリは、個別イベント属性または距離メトリックに基づくイベント属性のクラスタを含む、請求項１に記載の方法。
イベント属性の距離メトリックによって前記サンプル期間内のイベントをクラスタ化することを含む、請求項１に記載の方法。
個別イベント属性に基づくグループが、前記サンプル期間において前記個別イベント属性に関する閾値偏差を超えていない場合、複数の個別イベント属性をクラスタ化して前記イベントのグループを形成する、請求項１に記載の方法。
前記イベント属性の前記距離メトリックは、テキスト文字列メトリック、場所メトリック、またはイベント・ログ・エントリ情報から得られる他のメトリックのグループのうちの１つである、請求項７に記載の方法。
前記サンプル期間における前記クラスタに属するイベント・インスタンスの閾値パーセンテージを満たすために前記クラスタ化をテストすることを含む、請求項７に記載の方法。
前記サンプル期間において様々な距離メトリックでクラスタを比較することによって、クラスタ化を選択することを含む、請求項７に記載の方法。
イベントのグループは最小数のイベント・インスタンスを含む、請求項１に記載の方法。
前記サンプル期間は、異なるイベント・ストーム挙動をキャプチャするための短い時間ウィンドウおよびより長い時間ウィンドウを含めて、前記イベント・ストーム検出の粒度に合わせて設定される、請求項１に記載の方法。
前記グループの平均からの閾値偏差は、前記イベントのグループの閾値Ｚスコア検定である、請求項１に記載の方法。
運用管理におけるイベント・ストームの構成要素イベントを識別するためのコンピュータ実装方法であって、
サンプル期間におけるイベント母集団全体の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、イベント・ストームを検出することと、
イベント属性をクラスタ化し、前記サンプル期間における前記クラスタ内のイベント・インスタンスの発生のレートが、前記クラスタ化されたイベント属性での基準から閾値偏差外であるか否かを判定することによって、検出されたイベント・ストームにおける前記サンプル期間について、イベント・インスタンスを前記イベント・ストームの構成要素イベントとして識別することと、
を含む、コンピュータ実装方法。
運用管理におけるイベント・ストームの構成要素イベントを識別するためのシステムであって、
プロセッサと、コンポーネントの機能を実行するためのコンピュータ・プログラム命令を前記プロセッサに提供するように構成されるメモリと、
サンプル期間内の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、前記イベント・ストームを検出するためのイベント・ストーム検出コンポーネントと、
前記イベント・ストームの前記サンプル期間に発生した、イベント・カテゴリ別にグループ化されたイベントのグループのそれぞれについて、前記サンプル期間内の前記グループのイベント発生のレートが前記グループの平均から閾値偏差外である場合に、イベントのグループを、前記イベント・ストームの一部を構成するものとして識別するイベント構成要素識別コンポーネントと、
を備える、システム。
前記イベント・ストームの一部を構成するものとして識別された複数のイベントのグループを相互に関連付けるためのイベント構成要素関連付けコンポーネントを含む、請求項１６に記載のシステム。
前記イベント・ストーム検出コンポーネントは、
１つまたは複数の規定された長さのサンプル期間における予想イベント・レートの動的ベースライン範囲を決定するために、動的閾値アルゴリズムを使用するための動的閾値コンポーネントと、
前記イベント・ストームを示す前記動的ベースライン範囲からの異常を検出するために、異常検出アルゴリズムを使用するための異常検出コンポーネントと、
を含む、請求項１６に記載のシステム。
１つまたは複数の規定された長さのサンプル期間における予想イベント・レートを学習し、前記１つまたは複数の規定された長さのサンプル期間におけるイベント属性情報を学習するための学習コンポーネントを含む、請求項１６に記載のシステム。
イベント属性の距離メトリックによって前記サンプル期間内のイベントをクラスタ化するための属性クラスタ化コンポーネントを含む、請求項１６に記載のシステム。
前記属性クラスタ化コンポーネントは、前記サンプル期間における前記クラスタに属するイベント・インスタンスの閾値パーセンテージを満たすために前記クラスタ化をテストすることを含む、請求項２０に記載のシステム。
前記属性クラスタ化コンポーネントは、前記サンプル期間において様々な距離メトリックでクラスタを比較することによって、クラスタを選択することを含む、請求項２０に記載のシステム。
異なるイベント・ストーム挙動をキャプチャするための短い時間ウィンドウおよびより長い時間ウィンドウを含めて、前記イベント・ストーム検出の粒度に合わせてサンプル期間を設定するための設定コンポーネントを含む、請求項１６に記載のシステム。
運用管理におけるイベント・ストームの構成要素イベントを識別するためのシステムであって、
プロセッサと、コンポーネントの機能を実行するためのコンピュータ・プログラム命令を前記プロセッサに提供するように構成されるメモリと、
サンプル期間におけるイベント母集団全体の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、イベント・ストームを検出するためのイベント・ストーム検出コンポーネントと、
イベント属性をクラスタ化し、前記サンプル期間における前記クラスタ内のイベント・インスタンスの発生のレートが、前記クラスタ化されたイベント属性での基準から閾値偏差外であるか否かを判定することによって、検出されたイベント・ストームにおける前記サンプル期間について、イベント・インスタンスを前記ストームの構成要素イベントとして識別するためのイベント構成要素識別コンポーネントと、
を備える、システム。
運用管理におけるイベント・ストームの構成要素イベントを識別するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品はプログラム命令を具現化したコンピュータ可読記憶媒体を備え、前記プログラム命令は、プロセッサによって実行可能であり、前記プロセッサに、
サンプル期間内の予想イベント・レートの動的ベースライン範囲からの異常を検出することによって、前記イベント・ストームを検出することと、
前記イベント・ストームが検出された場合、前記サンプル期間に発生した、イベント・カテゴリ別にグループ化されたイベントのグループのそれぞれについて、前記サンプル期間内の前記グループの前記イベント発生のレートが前記グループの平均から閾値偏差外である場合に、前記イベントのグループを、前記イベント・ストームの一部を構成するものとして識別することと、
を行わせるためのものである、コンピュータ・プログラム製品。