JP2003536162A

JP2003536162A - ライブエクセプションズ・システム

Info

Publication number: JP2003536162A
Application number: JP2002503690A
Authority: JP
Inventors: マーク・ダブリュ・サイラー; ジョージ・イグレシアス; ジェイ・ビー・ウォルフ; ウィル・シー・ロアー; ローレンス・エー・ステイバイル
Original assignee: コンコード・コミュニケーションズ・インコーポレーテッド
Priority date: 2000-06-21
Filing date: 2001-06-21
Publication date: 2003-12-02
Also published as: EP1352332A1; US20020049838A1; US20090234944A1; US7490145B2; EP1352332A4; AU2001270017B2; AU7001701A; CA2413285A1; WO2001098916A1; US7877472B2

Abstract

(57)【要約】コンピュータネットワーク内の要素を監視する方法であって、前記要素に関連する予め選択された変数（４１）を監視する段階と、監視された予め選択された変数（４１）についての閾値（４０）を定義する段階と、滑動する時間ウィンドウ（４２）を確立する段階と、閾値（４０）の超過時間値を反復的に生成する段階と、閾値（４０）の超過時間値がいつ条件ウィンドウの値を超過するのかを検出する段階と、前記閾値（４０）の超過時間値がいつ条件ウィンドウの値を超過するのかを検出する段階に応答して、警報を生成する段階とを具備し、前記閾値（４０）の超過時間値は、監視された変数が、滑動する時間ウィンドウ（４２）の間に閾値（４０）を超過した時間量の尺度であることを特徴とする方法。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】

本発明は、ネットワーク監視に関し、より詳細には、ネットワーク（例えば、
大規模で広大な分散ネットワーク）上の問題を識別するためのシステムに関する
。

【０００２】

【従来の技術】

一般的に、ネットワーク要素（network elements）は、コンピューティング／
記憶装置、通信装置、および、これらの装置上に存在するソフトウェアなどを含
む。これらの例は、コンピュータ、ディスク記憶装置、ルーター、スイッチ、Ｌ
ＡＮ、ＷＡＮ、サーバー、および、アプリケーションソフトウェアである。各要
素は、通常は、その稼働状態を示す多数の特徴、すなわち、管理変数（manageme
nt variables）を有する。要素の管理変数は、一般的に、該要素内で発生する問
題を検出しかつ解決できるように監視される。要素を監視するための一つの取り
組みは、ポーリング（polling）によるものである。すなわち、ポーラー（polle
r）は、監視されている要素から、現在の状態を周期的に収集する。次に、収集
されたデータは、要素内で問題が発生したか否かを判断する処理装置へ送信され
、問題が発生したのであれば、通知が生成される。

【０００３】全てのネットワーク要素は、ポーラーがその管理変数を読み出しかつ書き込む
ためのプロトコルを提供する。これらの変数は、通常は、要素のベンダーにより
定義され、かつ、通常は、管理情報ベース（Management Information Base：Ｍ
ＩＢ）と称される。ＩＥＴＦ（Internet Engineering Task Force）、ＭＩＢＩ
、および、ＭＩＢ IIのような、幾つかの標準的なＭＩＢが存在する。ＭＩＢ変
数の読み出しおよび書き込みを通して、他のコンピュータ内のソフトウェアは、
要素を管理または監督することができる。他のコンピュータ内のソフトウェアは
、通常は、エージェント（agent）と称される。これにより、ネットワーク問題
を突き止めかつ解決する責任を負うネットワーク管理者は、通常は、要素から情
報を収集するために、ＭＩＢ変数とエージェントとを用いる。

【０００４】残念ながら、様々なベンダーによりサポートされる要素からなるネットワーク
を管理するために利用できる統一されたＭＩＢは存在しない。全てのベンダーか
らの全てのＭＩＢは、ネットワークのイベント（例えば、故障（failure））を
告知するために、様々なメッセージセットを用いる。一般的に、これらのメッセ
ージは、シンプルネットワーク管理プロトコル（Simple Network Managment Pro
tocol：ＳＮＭＰ）トラップとして知られる広く採用されたメッセージフォーマ
ットを用いる。一般的に、ネットワーク管理者は、ＳＮＭＰトラップを適切に生
成するために、全ての要素を手動で構成設定（configure）する必要がある。ト
ラップが適切に生成された後でさえ、各々が表す事柄に、異なる形式の要素の全
域にわたる一貫性があることは稀である。

【０００５】さらに、ポーラーにより回収（reterieve）されるデータの量は圧倒的な量で
あり得る。このデータ量は、全ての情報の真の意味（significance）を判読する
必要があるネットワーク管理者に対して深刻な問題を呈し得る。

【０００６】

【発明が解決しようとする課題】

少なくとも部分的に、本発明は、ネットワーク内、システム内、および、アプ
リケーション内における潜在的な問題に関する通知を提供するように設計された
ネットワーク管理システムであるライブエクセプションズ・システム（LiveExce
ptions system）（本明細書においては、単に“ライブエクセプションズ（LiveE
xceptions）”と称する）において具体化される。長い待ち時間（latency）、異
常な作業負荷、または、故障のような問題は、ネットワーク管理者の注意が即時
に向けられることを必要とする。しかしながら、時には、適時のかつ確実な通知
を提供することが、非常に困難である。問題の原因に関する情報の欠如に起因し
て、問題が検出されない状態となるか、または、他の故障警報の存在があまりに
も多いことに起因して、問題と関連した警報が注目されない状態となり得る。ラ
イブエクセプションズは、監視されているネットワーク内の全ての要素について
の履歴データに関する包括的な記憶装置を利用することにより、警報生成の精度
を高める。履歴データによって、ライブエクセプションズは、時間が進行する際
の要素の動き（behavior）に適応することができ、かつ、該動きがその規範（no
rm）から逸脱した場合にのみ警報を生成することができる。幾つかの状況におい
ては、要素の動きは日時と曜日とに依存しており、ライブエクセプションズは、
この日時／曜日の依存関係を利用し、さらに、その適応性を最適化し、こうして
、警報生成に関する全体的な精度を高める。

【０００７】

【課題を解決するための手段】

概して、本発明の一特徴によれば、コンピュータネットワーク内の要素を監視
するための方法が提供される。前記方法は、前記要素に関連する予め選択された
変数を監視する段階と、監視された予め選択された変数についての閾値を定義す
る段階と、滑動する時間ウィンドウを確立する段階と、閾値超過時間値を反復的
に生成する段階と、閾値超過時間値がいつ条件ウィンドウの値を超過するのかを
検出する段階と、前記閾値超過時間値がいつ条件ウィンドウの値を超過するのか
を検出する段階に応答して、警報を生成する段階とを含む。この場合に、前記閾
値超過時間値は、監視された変数が、滑動する時間ウィンドウの間に閾値を超過
した時間量の尺度である。

【０００８】好ましい実施形態は、以下の特徴の１つ以上を含む。前記方法は、前記警報を
生成する段階の後に、少なくとも、閾値超過時間値が消去ウィンドウ値を超過す
る間は、警報を維持する段階をさらに含む。前記消去ウィンドウ値は、前記条件
ウィンドウの値に等しい。前記方法は、前記要素に関連する複数の変数を監視す
る段階と、監視された複数の変数の各々について、他の変数についての対応する
閾値を定義する段階とをさらに含み、前記閾値超過時間値は、監視された変数の
うちのいずれか１つ以上が、その対応する閾値を、対応している滑動する時間ウ
ィンドウの間に超過した時間量の尺度である。前記予め選択された変数について
の閾値を定義する段階は、以前の対応する期間にわたって、予め選択された変数
について得られた値に基づいて、予め選択された変数についての平均値を計算す
る段階と、偏位量を定義する段階と、平均値と偏位量との合計に等しい閾値を設
定する段階とを含む。前記対応する期間は、一日未満（例えば、一日のうちの特
定の１時間という期間）である。前記平均値を計算する段階は、以前の所定数の
週についての同じ曜日の同じ１時間という期間で、予め選択された変数について
得られた値を用いて、予め選択された変数についての平均値を計算する段階を含
む。前記偏位量を定義する段階は、所定の期間にわたって、予め選択された変数
について得られた値に基づいて、予め選択された変数についての標準偏差を計算
する段階と、計算された標準偏差のＫ倍（Ｋは正の数）に等しい偏位量を設定す
る段階とを含む。前記標準偏差を計算する段階は、以前の所定数の週についての
同じ曜日の同じ１時間という期間で、予め選択された変数について得られた値を
用いて、標準偏差を計算する段階を含む。前記予め選択された変数についての閾
値を定義する段階は、偏位量を定義する段階と、Ｈ（Ｈは正の数）から偏位量を
減じた値に等しい閾値を設定する段階とを含む。前記偏位量を定義する段階は、
所定の期間にわたって、予め選択された変数について得られた値に基づいて、予
め選択された変数についての標準偏差を計算する段階と、計算された標準偏差の
Ｋ倍（Ｋは正の数）に等しい偏位量を設定する段階とを含む。

【０００９】概略的に、他の特徴において、本発明は、コンピュータネットワーク内の要素
を監視する他の方法を特徴づける。前記方法は、複数の異なる警報規則を含むプ
ロファイルを、その要素について定義する段階を含み、該複数の異なる警報規則
の各々は、対応する１つ以上の変数についての警報テストを確立する。前記方法
は、複数の異なる警報規則のいずれか１つ以上についての警報テストがいつ満た
されるのかを検出する段階と、閾値超過時間値を反復的に生成する段階と閾値超
過時間値がいつ条件ウィンドウの値を超過するのかを検出する段階と、前記閾値
超過時間値がいつ条件ウィンドウの値を超過するのかを検出する段階に応答して
、警報を生成する段階とを含み、前記閾値超過時間値は、警報テストのいずれか
１つ以上が、以前の予め選択された時間ウィンドウの間に満たされた時間量の尺
度である。

【００１０】幾つかの好ましい実施形態において、前記方法は、例外を生成した後に、少な
くとも、閾値超過時間値が消去ウィンドウ値を超過する間は、その例外を維持す
る段階をさらに含む。

【００１１】概略的に、さらに他の特徴において、本発明は、ネットワーク上の要素の履歴
パフォーマンスをコンピュータディスプレイスクリーン上に表示する方法を特徴
づける。前記方法は、要素のパフォーマンスを監視する段階と、複数のタイムス
ロットの各々について、要素のパフォーマンスの尺度を、その監視されたパフォ
ーマンスから得る段階と、複数のタイムスロットの各々について、要素のパフォ
ーマンスの尺度についての平均値を計算する段階と、複数のタイムスロットの各
々について、パフォーマンスの尺度についての変動性を計算する段階と、コンピ
ュータディスプレイスクリーン上において、かつ、複数のタイムスロットの各々
について、（１）そのタイムスロットについて計算された平均値の第１指標と、
（２）そのタイムスロットについて計算された変動性の第２指標と、（３）その
タイムスロットについて得られたパフォーマンスの尺度の第３指標とを表示する
段階とを含む。

【００１２】概略的、他の特徴において、本発明は、前述した機能性を実施するプログラム
を特徴づける。

【００１３】

【発明の実施の形態】

本発明に関する一つ以上の実施形態の詳細について、添付図面と下記の説明と
において説明する。本発明に関する他の特徴、目的、および、利点は、前記説明
および前記図面と、請求項とから明らかとなる。

【００１４】種々の図面における同様の参照記号は、同様の要素を示す。

【００１５】［ライブエクセプションズ・システム：その構成要素に関する概略的説明］ライブエクセプションズ問題検出／報告システム１０の全体的な構造は、図１
に示される。システム１０は、データソース１６０（例えば、ネットワーク）内
の要素のＭＩＢ変数からデータを収集するポーラーモジュール１１０を有する。
次に、各々のＭＩＢ変数からのデータは、ポーラーモジュール１１０により中間
データの形に変換され、かつ、動向（trend）報告生成のためにデータベースモ
ジュール１２０に記憶される。データベースモジュール１２０は、中間データを
記憶するデータ記憶ユニット１２１と、中間データの幾つかをユーザーにとって
有意味な変数の形に変換し、変数の統計（statistics）を計算し、かつ、計算さ
れた統計をデータ記憶ユニット１２１へ送り返すベースライン計算ユニット１２
２とを含む。統計が計算されるか否かは、ライブエクセプションズ・エンジン（
ＬＥエンジン）１００に記憶された規則に依存する。

【００１６】ポーラーモジュール１１０において実施される変換機能は、ネットワークから
受信された生データ（raw data）を標準化（normalize）する。被標準化データ
（normalized data）は、ポーリングから受信された元の生データよりも凝縮さ
れた形式のデータを表す。ポーリング毎に、ポーラーモジュール１１０は、被標
準化データをＬＥエンジン１００へ送信し、ＬＥエンジン１００は、計算された
統計を、適切な場合にデータベースモジュール１２０から回収する。

【００１７】前記規則のうちの幾つかにより必要とされる統計上の計算は、一般的に、第１
および第２モーメントのような統計を計算することを含むが、常にそうであると
は限らない。ＬＥエンジン１００内の規則は、このような統計を計算すべきある
特定の当該の変数を指定（specify）する。計算された統計が通常は当該の関連
変数を十分に特徴づけるので、計算された統計を生データや被標準化データの代
わりに用いることは、種々の状況において問題検出の精度を高める傾向がある。
さらに、統計は、該統計の派生元である被標準化データよりも遙かに少ない記憶
装置のスペースを占有するのみである。

【００１８】前述した実施形態において、ポーラーモジュール１１０は、通常は、ＭＩＢを
ポーリングし、該ＭＩＢから、ポーラーモジュール１１０は、５分間に１度の頻
度で回収を行い、かつ、６週間分のポーリングデータ（polled data）を記憶か
つ維持する。もちろん、ポーリングの頻度、および、データが収集される周期は
、ネットワーク管理者の要求に応じて広く変動し得る。いずれの場合にも、通常
的に監視される多数の変数を考慮すると、データ量は、凝縮された形式で記憶さ
れる場合であっても、著しい量の記憶スペースを占有し得る。

【００１９】［ＬＥエンジン］ＬＥエンジン１００は、被標準化データをポーラーモジュール１１０から受信
し、かつ、統計をデータベースモジュール１２０から受信する。ＬＥエンジン１
００は、被標準化データから、監視された変数のための値を計算する。計算され
た変数は、ＬＥエンジン１００に記憶されたラベルテーブル内で定義される。次
に、ＬＥエンジン１００は、適用される特定の規則にしたがって、これらの計算
された値を、これらの値のために計算された統計と比較し、かつ、ポーリングデ
ータが回収された要素内で問題が発生したか否かを判断する。前記比較が問題の
存在を示せば、ＬＥエンジン１００は、１つまたは多数の警報を生成し、該警報
の各々は、監視されたネットワーク要素に関連する問題を示す。問題が検出され
かつ警報が生成された後に、この警報は、例外データ記憶装置１５０へ送信され
、かつ、ＳＮＭＰトラップの形式でネットワーク管理システム（ＮＭＳ）１７０
へも送信される。システム１０は、警報を例外データ記憶装置１５０から受信し
かつ該警報をイベントビューア１３０へ転送するウェブサーバーをさらに含む。
ＧＵＩブラウザであるイベントビューア１３０は、警報をネットワークオペレー
ションセンター（ＮＯＣ）１３５内に、かつ、種々のネットワーク管理者ワーク
ステーション上に表示し、この結果、ネットワーク管理者が、迅速に、問題を識
別しかつ該問題に応答することができる。

【００２０】〔ＬＥエンジンの構成設定〕ＬＥエンジン１００は、システム１０の中核的な処理装置である。選択された
要素のための望ましい規則にしたがってＬＥエンジン１００が稼働するために、
要素や、変数や、警報規則（alarm rules）や、観測時間の長さのような、多数
の項目およびパラメータを定義する必要がある。これらの項目およびパラメータ
は、ＬＥエンジン１００に記憶された構成設定ファイル（configuration files
）内で定義される。システム１０は、種々の状況に適した所定の構成設定ファイ
ルセットを有する。しかし、システム１０は、ユーザーが、特定のユーザー要求
を満たすために構成設定ファイルをカスタマイズすることをも許容する。

【００２１】〔構成設定の変更〕ユーザーは、管理インターフェース１９０または構成設定モジュール１８０を
通して、構成設定の変更を行うか、または、ユーザーは、要求された構成設定の
変更を含むファイルをインポートすることができる。変更を受信すると、ＬＥエ
ンジン１００は、その通常の稼働を継続する間に、その内部データ構造の状態を
更新して、変更を反映する。構成設定ファイル内の変更が実施された後に、ＬＥ
エンジンは、再始動または再コンパイルを行うことを必要とせずに、新たな項目
およびパラメータへ切り替わる。

【００２２】前述した実施形態において、ＬＥエンジン１００、ポーラーモジュール１１０
、データベースモジュール１２０、例外データ記憶装置１５０、ウェブサーバー
１４０、および、構成設定モジュール１８０は、１つのユニットまたは区画内に
収容される。

【００２３】〔変数の評価〕ネットワーク内の要素に問題が存在すれば、該問題は、その要素と関連した変
数を評価することにより検出される。評価は、多数の要因に基づくものであり、
これら多数の要因には、ポーラーモジュール１１０により収集されたポーリング
データと、データベースモジュール１２０からの履歴情報と、予め定義された多
数の規則とが含まれる。これらの要因の各々について、以下に論ずる。

【００２４】《２段階変換--ＭＴＦ》ポーラーモジュール１１０は、自身のオブジェクトＩＤ（ＯＩＤ）を用いるこ
とにより、予め定義された割合（例えば、５分毎）でＭＩＢをポーリングする。
各々のＯＩＤは、独自のＭＩＢ変数を指す。次に、ポーリングされたＭＩＢ変数
は、冗長な情報を除去するために組み合わされる。予め定義された被標準化形式
（normalized forms）および該被標準化形式とＭＩＢ変数との間の変換は、ポー
ラーモジュール１１０に記憶されたＭＩＢ変換ファイル（MIB Transformation F
ile：ＭＴＦ）１１１内で定義される。ＭＴＦは、コンコード・コミュニケーシ
ョンズ社（Concord Communications, Inc.）により販売される市販で入手可能な
ネットワークヘルス（Network Health）製品と関連して用いられ、かつ、ＭＴＦ
について概略的に説明した文書が、その製品のために提供される。

【００２５】〈ＭＴＦのデータ形式〉ＭＴＦ１１１は、ＭＩＢ変数を被標準化形式に変換するために用いられる。多
数の被標準化形式は、各々の要素の形式（例えば、イーサネット（登録商標）、
トークンリング、ＷＡＮ、フレームリレー、非同期転送モード（ＡＴＭ）、遠隔
アクセス装置、ルーター、サーバーなど）のために予め定義される。被標準化形
式は、カウンター（counter）およびゲージ（gauge）という２つのデータ形式を
有する。カウンターは、負でない整数であり、最大値に到達するまで単調増加し
、最大値に到達した後にラップアラウンドし、かつ、再びゼロから増加し始める
。カウンターの例は、一般的に、ビット数、待ち時間の秒数、または、フレーム
数を含む。ゲージは、増加または減少できる負でない整数であり、ゲージの例は
、一般的に、帯域幅利用率のパーセンテージ（percentage）を、衝突（collisio
n）のパーセンテージと、不良ポーリングのパーセンテージとを含む。

【００２６】〈ＭＴＦのフォーマット〉図２を参照すると、ＭＴＦ１１１は、変換する必要があるＭＩＢについての変
換を定義するＡＳＣＩＩテキストファイルである。ＭＴＦ１１１は、サポート情
報セクション２１、データソース情報セクション２２、および、翻訳情報セクシ
ョン２３という３つの主要なセクションを含む。サポート情報セクション２１は
、このＭＴＦにより翻訳されているＭＩＢについてのファイル名と、バージョン
番号と、ファイル名の形で定義された要素がポーリングされるか否かを示し、ど
のようにポーリングされるのかを示し、かつ、どのように報告されるのかを示す
パラメータとを含む。データソース情報セクション２２は、応答要素に関する情
報を提供する。データソース情報セクション２２は、要素により用いられる構成
設定パラメータおよびプロトコルの他に、ポーラーモジュール１１０が収集する
データの形式を示す。翻訳情報セクション２３は、ＭＩＢ変数を被標準化形式へ
マッピングする多数の式または方程式を含む。

【００２７】〔拡張可能な特徴〕ＭＴＦ１１１の魅力的な特徴は、その拡張可能性である。前述したように、ネ
ットワークシステムは、通常は、各々が自身の専有的な（proprietary）ＭＩＢ
変数を専有的な方法で定義かつ組織する様々なベンダーからの要素を含む。ＭＴ
Ｆ内で定義された被標準化形式を用いることにより、ユーザーは、標準的なＭＩ
Ｂ変数と専有的なＭＩＢ変数とを、分析および報告のための同じフォーマット内
に統合することができる。

【００２８】新たなベンダーからの要素を、既存のネットワーク内に統合する必要がある場
合には、ユーザーは、該要素と関連したＭＩＢ変数についての変換を定義するた
めに、単に、デフォルトの被標準化形式を、または、カスタマイズされた被標準
化形式を利用して、ＭＴＦ１１１を書き込む。

【００２９】〔効率的な記憶〕多くのＭＩＢ変数を変換するために、通常は、１つの被標準化形式がＭＴＦ１
１１により用いられる。通常は、被標準化形式の数は、各々の要素の形式に対し
て３０未満である（すなわち、ポーラーモジュール１１０は、異なるＭＩＢ変数
の数よりも遙かに少ない数を扱う）。

【００３０】以下の例は、記憶の必要性の低減を達成するために、被標準化形式を用いるこ
との概念を説明する。５つのＭＩＢ変数ＭＶ１，ＭＶ２，ＭＶ３，ＭＶ４，ＭＶ
５が、３つの被標準化形式ＮＦ１，ＮＦ２，ＮＦ３へマッピングされる。５つの
変数は、３つの被標準化形式の組み合わせとして計算される。３つの被標準化形
式が５つの変数を生成するために十分な情報を含むので、ＮＦ１，ＮＦ２，ＮＦ
３をデータベースに記憶し、かつ、変換（すなわち、式１〜式５）をＭＴＦ１１
に記憶することが必要であるのみである。

【数１】

【００３１】《２段階変換--ラベルテーブル》再び図１を参照すると、履歴情報が必要とされる場合に、ＬＥエンジン１００
は、これをデータベースモジュール１２０から回収する。回収された情報は被標
準化データであり、さらに、ＬＥエンジン１００は、これを、ユーザーにとって
より有意味な変数の形に翻訳する。変数には、独自のラベルと、ラベルテーブル
１０２（１）〜１０２（ｎ）（本明細書において、概略的にラベルテーブル１０
２と称する）セットの１つとが割り当てられる。ラベルテーブル１０２内の変数
は、通常はユーザーにとってＭＩＢ変数よりも有意味な要素の特徴を表す。例え
ば、ラベルテーブル１０２内の変数は、帯域幅と、利用率のパーセンテージと、
エラー、入力ビット（bits_in）、出力ビット（bits_out）などの数とを含む。
ＬＥエンジン１００内のラベルテーブル１０２は、被標準化形式とこれらの変数
との間の変換を記憶する。同じラベルテーブル１０２が、データベースモジュー
ル１２０にも記憶され、かつ、必要な統計をさらに計算すべくベースライン計算
ユニット１２２により用いられる。

【００３２】要するに、ＮＯＣ１３５内に表示されているのをユーザーにより見られる変数
は、通常は、２段階の変換を受けてきている（前記変数は、ＭＩＢ変数から被標
準化データへ変換され、次に、被標準化データから前記変数へ変換された）。こ
のような変換を行う価値について説明する簡単な例は、以下の通りである。エー
ジェントは、“優良受信フレーム（good frames received）”と“不良受信フレ
ーム（bad frames received）”とを、ＭＩＢに記憶する。ＭＴＦ１１１は、２
つのカウントを合算することにより１つのカウントとして、これらを“受信フレ
ーム（frames received）”に標準化する。次に、ラベルテーブル１０２（１）
は、“受信フレーム”を取り上げ、かつ、デルタ時間（delta time）で除算して
、フレーム／秒の形で測定された“フレーム・イン・レート（frames in rate）
”を得る。他のラベルテーブル１０２（２）は、“受信バイト（bytes received
）”を取り上げ、かつ、“受信フレーム”で除算して、“平均フレームサイズ（
average frame size）”を得る。こうして、ＭＴＦ内の被標準化形式を再利用す
る概念と同様に、多数の様々な変数を計算するために、通常は、ラベルテーブル
により、１つの被標準化形式が用いられる。

【００３３】ライブエクセプションズのために定義されている種々のラベルテーブルは、本
明細書に添付される付録Ａ（Appendix A）に提示される。

【００３４】ラベルテーブルを用いる一つの利点は、これらのラベルテーブルが変数の追加
および削除を報告の形で遙かに容易に行うことである。ユーザーが新たな変数を
報告にとって利用可能（available）にする場合に、該ユーザーは、新たなラベ
ルを、その変数についてのラベルテーブルの１つに追加する必要があるのみであ
って、これにより、システム内の他のモジュールを修正する必要がなくなる。同
様に、他のモジュールではなくラベルテーブルのみを修正することにより、変数
を削除することができる。

【００３５】〈例外の生成〉ＬＥエンジン１００がポーラーモジュール１１０からポーリングデータを受信
し、かつ、ラベルテーブルのうちの対応する１つにより定義された変換により該
ポーリングデータを変数の形に変換した後に、ＬＥエンジン１００は、変数に、
この変数と関連した問題が発生したか否かを判断するための規則を適用する。問
題が発生したならば、ＬＥエンジン１００は、ネットワーク管理者に知らせるた
めの通知を送信する。前記通知は、ＳＮＭＰトラップおよび警報の形式である。
警報については、多数の関連要素と関連した問題を示すために統合整理すること
ができる。これらの警報は、例外（exception）と称される警報セットを形成す
る。

【００３６】問題の検出は、警報規則（alarm rule）を介して、ライブエクセプションズ・
システム内で指定される。警報規則は、単純（simple）警報規則および複合（co
mpound）警報規則という２つの形式からなる。単純警報規則は、１つの要素上で
定義された１つの変数により満たされねばならない条件を示す。ユーザーは、・要素の形式と、・変数、到達可能性（reachability）、または、利用可能性（availability
）に基づく警報の選択と、・変数（例えば、帯域幅利用率（BandwidthUtilization）またはエラー総数
（TotalErrors））と、・分析ウィンドウ（analysis window）と、・条件ウィンドウ（condition window）と、・閾値超過時間（time over threshold）を、閾値未満時間（time under th
reshold）を、または、平均（mean）より上の、平均より下の、または、平均の
範囲外（上または下）の異常値を監視すべきか否かと、・警報の重大度（severity）：通常（normal）、警告（warning）、小さな
問題（minor）、大きな問題（major）、致命的な問題（critical）とを指定することができる。

【００３７】これらの各々については、特定の警報規則形式に関する２つの例と関連して、
以下に、より完全に説明する。

【００３８】複合警報規則は、２つ以上の単純警報規則の結合である。ユーザーは、システ
ムに設けられるＧＵＩを介して、この結合を選択することができる。複合警報規
則は、同じ要素上での異なる変数／閾値条件の指定を許容する。

【００３９】結合的な規則は、２組の単純規則条件の“ＡＮＤ演算”を実施する。データ変
数の各ポーリング毎に、２つの規則の両方の変数は、条件ウィンドウの蓄積時間
に追加するために、自身の定義された閾値条件を満たす必要がある。例えば、複
合規則が、６０分の時間条件のうちの５分を指定すれば、次に、ポーリングにお
いて両方の変数が自身の閾値より上であれば、５分が、蓄積警報時間に追加され
る。変数のうち一方のみが自身の閾値より上であれば、いかなる時間も追加され
ない。

【００４０】警報規則を有用にするために、これらの警報規則は、要素により生成されたデ
ータに適用される。ユーザーにとって、各々の望ましい要素に適用すべき各々の
望ましい警報規則を指定することは非常に煩わしいので、システムは、警報規則
プロファイルを提供する。プロファイル３２０は、要素のグループ３３０または
グループリスト３０に適用される。プロファイル３２０は、通常は、特定の技術
および使用について定義される。例えば、プロファイルについては、バックボー
ンＡＴＭＷＡＮリンクを形成する要素のグループについて定義することができ
る。全てのプロファイルは、特定の使用と関連した問題を検出する規則によって
占められる。

【００４１】システム１０は、産業において見られる種々の要素グループに適用可能な多数
の予め定義されたプロファイルを提供する。管理者は、自身が自らのネットワー
クを管理したい基準について説明するプロファイルを定義することもできる。こ
の種のプロファイル、および、各々のプロファイルが検出する問題は、概略的に
は、・遅延プロファイル（過剰利用されること、または、輻輳が検出された場合
のいずれかによって、要素が遅延に寄与する場合に、警報を発令させる。）、・故障プロファイル（関連グループ内の要素がダウン状態になった場合に、
警報を発令させる。これらのプロファイルは、関連要素が余りにも多くのエラー
の影響を受け、これにより事実上故障した場合、または、関連要素が故障する危
険がある（例えば、何らかの枢要なリソースを使い果たしつつある）場合にも警
報を発令させる。）、・異常作業負荷プロファイル（要素に提示された作業負荷、または、要素に
より行われた作業が、履歴上の期間と比較した際に異常である場合に、警報を発
令させる。）、・ホスト待ち時間プロファイル（ホストに対する待ち時間が異常に高いか、
または、妥当な限度を越えている場合に、警報を発令させる。）、・応答プロファイル（応答時間の問題が検出された場合に、警報を発令させ
る。各々のプロファイルは、各々の警報規則（または、密接に関連した規則のセ
ット）についてのテーブル内の入力によって、別個のテーブルに記述される。）
、を含む。

【００４２】システムよって設けられ、かつ、産業において見られる種々の状況に適用可能
な予め定義されたプロファイルのセットに加えて、ユーザーは、独自のプロファ
イルを作成することもできる。説明した実施形態においてサポートされるプロフ
ァイルのリストは、本明細書に添付される付録Ｂ（Appendix B）に提示される。

【００４３】概して、プロファイルは、通常は、バックボーンＡＴＭＷＡＮリンクのよう
な、特定の技術および使用について定義される。各々のプロファイルは、通常は
、この使用に適用可能な条件を検出する規則によって占められる。例外は、これ
らの使用に対しての要素の状態を区別するために、要素とプロファイルとに結び
つけられる。このような例外／プロファイルの組の各々は、ライブエクセプショ
ンズのブラウザ内に、別個の行入力として表示される。例えば、フレームリレー
リンクの端点要素が、アクメ−ＮＹ−ボストン−リンク−５（Acme-NY-Boston-l
ink-5）と定義されると仮定する。さらに、この端点から遠端までの待ち時間を
測定しており、さらに、この端点からドロップフレーム（dropped frames）も測
定していると仮定する。これらの変数に関する条件を定義する規則は、フレーム
リレーリンク待ち時間（FrameRelayLinkLatency）およびフレームリレーリンク
ドロップフレーム（FrameRelayLinkDroppedFrames）という２つのプロファイル
の形で存在する。これらのプロファイルの各々は、ＳＬＡ問題についての異なる
結果を有し、かつ、各々は、例外を別個に示す：

【表１】上記の例において、ドロップフレームの増加は、ユーザーが同意に基づく（agre
ed-upon）帯域幅を利用できなくなることにつながる可能性がより高い。長い待
ち時間は、パフォーマンスに関する重要な指標である一方で、必ずしもＳＬＡを
侵害するスループットの損失につながるとは限らない。（プロファイルに構わず
に）これらの例外が全体的な要素状態として組み合わされれば、この相違点は容
易に明らかとはならない。

【００４４】プロファイルは、ライブエクセプションズのブラウザ内の被験者−監視者対話
（Subjects-Monitor dialogue）を介して、要素のグループまたはグループリス
トに適用される。このことは、プロファイル内の各々の規則を、該規則の要素形
式にマッチングするグループ内の各々の要素に適用するという効果を有する。

【００４５】グループおよびグループリストは、ネットワーク監視の分野において公知の概
念である。概して、グループは、何らかの共通の特徴または技術を有し得る要素
のリストである（例えば、これらの要素は、同様の技術（例えば、ディスク）か
らなる要素のセットであり得る）。グループは、ネットワーク管理者が同様の形
式の情報を知りたいと思う対象である要素からなる何らかの組み合わせでもあり
得る。グループリストは、より一般的な関係（例えば、様々な記憶装置の形式）
を互いに有し得るグループの集合である。

【００４６】いったん、プロファイルとグループとが互いに関連づけられると、ライブエク
セプションズ・システムは、特定の要素からのポーリングデータの流れを監視し
始め、かつ、警報を適宜に生成する。

【００４７】図３を参照すると、警報規則と、プロファイルと、グループと、グループリス
トとの間の関係が示される。ライブエクセプションズは、問題を検出するための
アルゴリズム３００の群を含む。アルゴリズム３００は、ポーラーモジュール１
１０により収集されたデータを監視するバックグラウンド処理として、ＬＥエン
ジン１００内で実施される。アルゴリズム３００は、プロファイル３２０に書き
込まれる警報規則３１０により呼び出される。プロファイルについては、グルー
プまたはグループリストに適用することができる。図３において、プロファイル
３２０は、多数のグループ３３０（１）〜３３０（ｎ）を含むグループリスト３
０に適用される。各々のグループは、通常は、特定の使用を表し、その一方で、
グループリスト３０は、通常は、より一般的な使用を表す。プロファイル３２０
は、グループリスト３０の関連グループ３３０とともに、どの要素を監視すべき
かに関して、かつ、いつ警報を発令させるべきかに関して、ＬＥエンジン１００
に指示する。警報規則３１０は、問題検出アルゴリズム３００上で定義され、こ
の他に、閾値や、分析ウィンドウ（すなわち、ベースライン期間）や、条件ウィ
ンドウなどのような、アルゴリズムを制御するパラメータ３２０のセットをさら
に含む。

【００４８】図３は、複合警報規則をさらに示す。説明的な例において、警報規則３１０Ａ
は、警報規則３１０ＢとＡＮＤ演算されて、複合警報規則３１０Ｆを形成する。
この複合警報規則は、複合警報規則内の全ての単純警報規則が警報の発令を要求
する場合にのみ、警報を発令させる。

【００４９】例外３４０は、プロファイル３２０内で生成された全ての警報を組み合わせ、
かつ、１つの出力を所定の時間に生成する。例外３４０が発生すると、ＬＥエン
ジン１００は、トラップをＮＭＳ１７０へ送信し、さらに、イベントビューア１
３０上に表示させる。警報は、多数の重大度レベルを有し、各々のレベルは、或
る値がその通常値から逸脱する量に関して定義される。例外の重大度は、対応す
るプロファイル内で定義される全ての個々の警報のうちで最大の重大度である。

【００５０】例外は、要素上で定義された１つ以上の警報の状態を組み合わせる。例外の重
大度の状態は、所定のプロファイル内の要素上で現在アクティブ状態である全て
の警報のうちで最大の重大度である。要素上でどの警報もアクティブ状態でない
場合に、発令させるべき最初の警報が例外を生成する。その後に、発令されかつ
消去（clear）された後続の警報が、単に、例外の重要度を変更する。例外を構
成する最後の警報が消去される場合に、例外それ自体が消去されたと称される。

【００５１】図４を参照すると、２つの警報ａ１，ａ２が、要素上で定義される。ａ１は小
さな問題（minor）の警報であり、かつ、ａ２は致命的な問題（critical）の警
報である。以下のイベントが結果として起こる：・ａ１が発令される場合に、例外は、小さな問題という重大度によって生成
される。・ａ２が発令される場合に、例外は、致命的な問題という重大度に更新され
る。・ａ１が消去される場合に、例外の重要度は、致命的な問題のままである。・ａ２が消去される場合に、例外は消去される。

【００５２】《警報規則アルゴリズム》〈閾値超過時間（Time Over Threshold）〉問題を検出するための一つの枢要な取り組みは、監視されたデータの履歴を用
いることを含む。これを行うための特に簡単な方法が、閾値超過時間の規則によ
り説明され、その運用については、図５を参照することによって、より容易に理
解することができる。概略的には、ライブエクセプションズが特定の変数のため
にポーリングデータを蓄積する際に、ＬＥエンジン１００は、このデータを、分
析ウィンドウ４２（説明される実施形態においては、通常は１時間であるが、状
況およびパフォーマンスの要求に応じて、より長くても短くてもよい）と称され
る時間間隔にわたって調べる。ＬＥエンジン１００は、この間隔内のデータ値を
、予め定義された閾値４０と比較し、かつ、値が閾値を超えた総時間を計算する
。説明される例において、蓄積時間は、間隔４４〜４７の合計である。この総時
間が、条件ウィンドウと称される予め定義された量よりも大きければ、ＬＥエン
ジン１００は、警報を発令させ、かつ、トラップをＮＭＳへ送信する。

【００５３】警報が発令されたウォールタイム（wall time）が、警報開始時間ｔ_sである。
データ値がその後に警報につながった閾値と最初に交差したウォールタイムが、
問題開始時間ｔ_p1である。問題開始時間から現在のウォールタイムまでの時間が
、警報の継続時間４３である。ライブエクセプションズは、イベントビューア１
３０に配置されたそのブラウザインターフェースを通して、これらの時間の各々
を、ユーザーに表示する。

【００５４】警報が発令されると、アクティブ状態と称される。分析は、警報の発令を誘発
した同じパラメータを用い続ける。警報は、その条件がもはや満たされなくなる
までアクティブ状態のままであり、警報が消去されると非アクティブ状態となる
。

【００５５】時間が進行するにつれて、分析ウィンドウ４２内の閾値４０を超えた総時間が
依然として条件ウィンドウを超過する限り、警報はアクティブ状態のままである
が、トラップはそれ以上ＮＭＳへ送信されない。分析ウィンドウ４２内の閾値４
０を超えた蓄積時間がもはや条件ウィンドウを超過しなくなると、ＬＥエンジン
１００は、警報を消去する。蓄積時間がもはや条件ウィンドウを超過しなくなる
と、ＬＥエンジン１００は、今や警報条件が消去されたことをＮＭＳに通知する
他のトラップを、該ＮＭＳへ送信する。

【００５６】分析ウィンドウ４２が、警報がアクティブ状態になった後に時間軸に沿って滑
動し続け、時間が進むにつれて、閾値条件を超えた時間を監視し続けることに留
意することは重要である。このことは、警報が気まぐれに消去されることはなく
、“フラッピング（flapping）”警報（オペレータにより面倒な条件が掲示され
かつ既知となっても、引き続いて自己主張する警報）の確率を低減させることを
意味する。

【００５７】単純である一方で、閾値超過時間の規則は非常に強力である。瞬間的な問題（
データ内の短いスパイク）は、警報を発令させない。しかしながら、スパイクが
繰り返し起こると、警報が発令される。このことは、警報を始動（trip）させれ
ば迷惑なものでしかない速いスパイクと、注意を要求するこのようなスパイクの
系列との間の重要な相違点を引き出す。さらに、閾値を超えて経過した連続的な
時間もまた警報を発令させ、訂正すべき持続性条件（persistent condition）を
示す。

【００５８】前述したように、少なくとも以下のパラメータが、インターフェースを通して
、または、他の手段により、ユーザーにより設定可能である：・ ‘閾値’（それより上であれば、時間が蓄積されるデータ値）；・ ‘分析ウィンドウ’（その範囲内で時間が蓄積される時間間隔）；・ ‘条件ウィンドウ’（警報を発令させる閾値より上のデータ値によって経
過することが必要な総時間）。

【００５９】さらに、後述するように、ライブエクセプションズは、ユーザーが、様々な規
則を通して、閾値超過時間の趣旨に関する変形例を選択することを可能にする。

【００６０】実際に監視されたデータが、各々のポーリングデータについてのデータポイン
トを備えた、個々のデータポイントの系列の形式であることに留意されたい。し
かしながら、視覚的な効果のために、ユーザーインターフェースは、これらを、
個々のデータポイントとしてではなく、個々のポイントを相互に連結させる線グ
ラフとして表示する。

【００６１】〈利用可能性および到達可能性のための閾値超過時間〉基本的な閾値超過時間の規則は、要素の到達可能性（reachability）または利
用可能性（availability）を判断するように修正される。

【００６２】利用可能性および到達可能性は、ライブエクセプションズの規則の定義におい
て重要かつ特別な事例である。到達可能性は、要素を含む装置と通信するための
ポーラーの能力として定義される。到達可能であるために、装置は、ＩＣＭＰピ
ング（pings）に応答する必要がある。装置が到達可能であるか否かに関する指
標は、装置の各ポーリング毎にライブエクセプションズ・システムが使用するた
めに、ポーラーにより生成される。

【００６３】利用可能性はより複雑である。その定義は時間依存的（time-dependent）であ
る。ポーラーは、装置により定義される場合の、（‘sysUpTime’を介しての）
再起動（reboots）や、‘ifOperStatus’（すなわち、等価的）のような該装置
の特性を査定する。利用可能性は、一般的には、装置のポーリングが成功するま
では、ポーラーには知られないので、直接の値が、各ポーリング毎に常に得られ
るとは限らない。

【００６４】利用可能性アルゴリズムは、いつ要素が利用不可能となるのかを検出する。い
ったん、少なくとも警報規則内で定義されたウィンドウ長さの間ずっと要素がア
ップ状態となったことがポーリングデータから明らかになると、ライブエクセプ
ションズは、該警報を消去する。この場合に、ウィンドウの目的は、要素が反復
的に上下に“跳ねている”場合に１つの警報を発令させることである。

【００６５】ホスト、ルーター、スイッチ、サーバー、および、遠隔アクセスサーバー（re
mote access server：ＲＡＳ）について、ホストがダウン状態になると、該ホス
トのエージェントをピングすることもポーリングすることも不可能となる。この
ことは、最初に、到達可能性問題として考えられる。その後、ホストが再起動し
かつアップ状態に復帰すると、ホストのエージェントをピングしかつポーリング
することが再び可能となる。この時点で、ライブエクセプションズは、ホストが
再起動し、かつ、ダウン状態になったいたと考え、かつ、その時点で警報を発令
させる。

【００６６】ＬＡＮインターフェースおよびＷＡＮインターフェース内、モデム内、ＩＳＤ
Ｎ内、ＣＰＵ内、ディスク内、パーティション内、処理装置（processes）内、
処理セット（process sets）内、および、応答経路ホスト内の子要素（child el
ements）がダウン状態になると、ホストのエージェントは、アップ状態のままで
いることができ、かつ、ピングかつポーリングされ得る。これらの場合に、ライ
ブエクセプションズは、要素をポーリングしたときに、子要素がダウン状態にな
ったことを検出し、かつ、即時に警報を発令させる。

【００６７】到達可能性は、要素をピングできるか否か（すなわち、問い合わせ（query）
がオブジェクトに到達でき、かつ、その応答が受信され得るか否か）により定義
される。利用可能性は、要素が機能しているか否か（すなわち、要素がアップ状
態にあるか、または、ダウン状態にあるか）により判断される。到達不可能な（
non-reachable）要素は、ポーラーモジュール１１０が該要素に到達できなくな
った瞬間に警報を生成するが、該警報は、分析ウィンドウにより指定された時間
量の間ずっと該要素が再び到達可能となった後にのみ消去される。利用可能性も
同じ方法にて作用する。

【００６８】到達可能性アルゴリズムは、要素のエージェントのＩＰアドレスのピングがい
つ失敗するのかを検出する。

【００６９】ホストについて、ホストがダウン状態になると、エージェントのアドレスは、
ピングへの応答を停止し、かつ、到達可能性警報が即時にホストのために発令さ
れる。ホストがダウン状態になった場合の通常的なイベントの順序は、下記の通
りである：１．ホストがダウン状態になる。２．ホストのエージェントのＩＰアドレスがピングされ、該ピングが時間切れ
（times out）となり、かつ、リタイアする。全ての試行が時間切れとなると、
ピングが失敗し、かつ、‘ホストが到達不可能（Host Unreachable）’という警
報が発令される。３．最終的に、ホストは再起動し、かつ、オンライン状態に復帰する。４．ホストのエージェントのＩＰアドレスがピングされ、かつ、該ピングが成
功する。次に、ホストのエージェントがポーリングされ、かつ、ホストが再起動
したこと、および、ホストが或る期間に利用不可能であることが知られる。‘ホ
ストダウン（Host Down）’警報が、その時点で発令される。５．ホストのエージェントのＩＰアドレスのピングが、規則により定義された
ウィンドウに等しい連続的な時間の間ずっと成功すると、到達可能性の警報が消
去される。

【００７０】ホスト内の大部分の子要素は、自身の親ホストと同じエージェントのＩＰアド
レスを有する。ＩＰアドレスは一度だけピングされ、かつ、そのピングの結果は
、同じアドレスを備えた全ての要素のために用いられる。全ての子要素は、自身
の親と同じ到達可能性を有する。したがって、デフォルトのプロファイルは、子
要素についての到達可能性の警報規則を定義しない。代わりに、これらは、親ホ
ストに制限される。

【００７１】この修正された規則は、閾値を必要としないので、基本的な閾値超過時間の規
則よりも単純である。要素またはアプリケーションがダウン状態になると、即時
に警報を生成する。さらに、実際のシステムにおいて、要素またはアプリケーシ
ョンは、アップ状態およびダウン状態のサイクルを経ることが通常的である。修
正された規則は、基本的な規則のように、問題のある動きを統合整理することが
でき、かつ、それについて、１つのトラップの形でＮＭＳ１７０へ報告する。

【００７２】〈動的閾値超過時間（Time Over Dynamic Threshold）（すなわち、異常値の規
則、または、動的な規則）〉単純な閾値超過時間の規則は、一定の閾値を用いる。時間変動制（time-varyi
ng）閾値（履歴データに依存する閾値）もまた、他の多数の規則において用いら
れる。ライブエクセプションズにより定義されるこのような変形例の１つは、所
定の日時における変数についての“通常（normal）”値を利用する。

【００７３】或る期間にわたって、データ値の系列は、提示された値についての分布（dist
ribution）を保有する。分布は、通常は、その平均（mean）と標準偏差（standa
rd deviation）とにより要約され、正規分布すなわち“釣鐘曲線（bell curve）
”形式の分布から得られる概念は、通常は、多くの種類の統計的測定内に見出さ
れる。統計的な標準偏差は、通常値からの偏差に関する特に有用な指標である。
平均は、単に、集合（set）にわたる平均的な（average）値である。標準偏差は
、平均からの値の偏差の平均的な“幅”を測定する。特定の値の系列がその現在
の軌跡から“逸れる（veer off）”ことが、尤度（likelihood）の尺度である。
時には、ユーザーは、或る値とその標準偏差との和が、いつ或る閾値より上とな
るのか（すなわち、その値がいつ“エッジに近過ぎる（too close to the edge
）”状態になるのか）を知ることを希望する。これが、動的閾値超過時間の規則
、または、異常値の規則の背後にある考えである。

【００７４】ライブエクセプションズは、一日の各１時間についての通常値（すなわち、ベ
ースライン値）を記憶し、この通常値は、以前の６週間にわたるその１時間につ
いての平均値として計算される。動的閾値超過時間の規則の場合に、ライブエク
セプションズは、現在のデータ値を、通常値と比較する。警報は、通常値に基づ
いて定義され、かつ、該警報は、或る一定量の時間が該通常値からの所定偏差を
越えて経過したことを示す。

【００７５】このことは、ライブエクセプションズにおいて、百分率（percentile）として
表現される。所定値に対する値のセットの百分率は、該セット内における所定値
より下である値の数のパーセンテージである。例えば、“５０は第９０番目の百
分率値である”と称する場合に、このことは、セット内の値の９０％が５０より
下であることを意味する。これは、標準偏差の実際の倍数（multiples）に関し
ても正確な記述である。

【００７６】この規則形式に関する他の変形例において、ライブエクセプションズは、ユー
ザーが、普通の（ordinary）パーセンテージと絶対値とにより偏差を指定するこ
とも許容する。

【００７７】変数の“異常な”値を検出することが、図２において説明される。この形式の
規則と、前述した閾値超過時間の規則との主な違いは、閾値が時間とともに変動
することである。しかしながら、この場合における閾値超過時間への寄与は、単
にデータ値が閾値を超過することではなく、データ値が、この閾値を、指定され
た偏差だけ超過する必要があることである旨にも留意されたい。

【００７８】図６は、動的閾値超過時間の規則がどのように作用するのかを図式的に説明す
る。動的閾値超過時間アルゴリズムは、通常値５１（すなわち、動的閾値）と、
分析ウィンドウ５２と、条件ウィンドウ（予め定義された固定値、図示せず）と
を含む。通常値５０は、データ系列が或る一定量よりも多くは逸脱できない値で
あり、分析ウィンドウ５２は、滑動する時間間隔であり、かつ、条件ウィンドウ
は、変数が平均を所定の量（例えば、時間間隔５４、５５，５６，５７の合計）
だけ超過する蓄積時間についての時間閾値である。警報生成工程は、図５に説明
される閾値超過時間の規則のために用いられる工程と同様である。この規則と閾
値超過時間の規則との主な違いは、閾値４０が、時間変動制通常値と“偏差”と
の和に置き換えられることである。

【００７９】動的閾値超過時間の規則は、最初は、潜在的なディスクスペースの枯渇に関す
る優れた指標を提供するために開発された。ディスクスペースを使い果たすこと
は多分壊滅的なことなので、ユーザーは、このスペースがまもなく使い切られる
可能性が高いか否かについて警告されるべきである。この規則は、このことを正
確に達成する。その理由は、標準偏差が、スペース使用量が或る期間にわたって
どれだけ広く揺れる可能性があるのかに関する優れた尺度であるためである。こ
の事例において、ユーザーにより定義された閾値は１００％である。デフォルト
のライブエクセプションズ・プロファイルは、動的閾値超過時間の規則を用いて
、ディスクスペースの規則を符号化する。

【００８０】しかしながら、動的閾値超過時間の規則は、何らかのハードの限界を超過する
ことが壊滅的な結果となるか、または、或る意味では丸一日を台無しにする任意
の状況において有用であり得る。このような変数の例は、メモリ使用量、ＳＬＡ
についての帯域幅利用率、または、ダイヤルイン回線セットの利用率であり得る
。

【００８１】適切な変数上で定義される場合に、異常値の警報は、考えられ得るシステムの
問題に関する優秀な指標を提供する。例えば、深夜のルーターインターフェース
上における高いトラフィックレートは、遠隔サーバーと通信しようとする暴走（
runaway）問題を示すことができる。または、通常は殆ど用いられないワークス
テーション上における高いＣＰＵ利用率は、利用の変化について、または、マシ
ン上で作動している不適切なプログラムについて、オペレータに知らせることが
できる。これらの場合のいずれにおいても、救済的な処置、または、受容能力（
capacity）の増加が要求され得る。

【００８２】この規則を調べるための方法が２つ存在する。一つは、ユーザーにより定義さ
れた閾値を標準偏差の分だけ低減させ、かつ、この結果を、データ値を比較する
ための実際の閾値として用いることである。標準偏差はデータから動的に計算さ
れるので、このことは、規則の名目における“動的閾値（dynamic threshold）
”という語を生じさせる。この考えについては、値がいつ閾値を超えるのかを判
断するための以下の簡単な式により要約することができる：データ値(DataValue) ＞ユーザー閾値(UsetThreshold) − 標準偏差(Standar
dDeviation)

【００８３】この規則を調べるためのもう一つの方法は、“エッジに近過ぎる（too close
to the edge）”ことの類推（analogy）によるものである。前記公式を僅かに再
調整することによって、この見解が提供される：データ値＋標準偏差＞ユーザー閾値

【００８４】この規則は、低減された閾値が自動的に計算され、変数の使用量に関する日々
の揺れ（day-to-day swings）を追跡するという点で、単に低減された閾値を定
義することとは異なることに留意されたい。したがって、ユーザーが間断なく閾
値を望ましい感度レベルに調整する必要がない。

【００８５】〈平均からの絶対的規則（Absolute from Mean Rules）〉 ‘平均からの絶対的規則’を用いることは、予め定義された固定量により、い
つ変数が平均より上または平均より下になるのかを検出する。この規則は、値が
固定のまたは安定した構成設定から変化した場合に、最も有用である。例えば、
この規則については、ファイルシステムがいつ再構成設定（reconfigure）され
たのかと、その受容能力がいつ変更されたのかとを検出するために用いることが
できる。

【００８６】〈平均からのパーセンテージ規則（Percentage from Mean Rules）〉 ‘平均からのパーセンテージ規則’を用いることは、パーセンテージにより、
いつ変数が平均より上になるのかを検出する。例えば、平均よりも１００％上と
いう規則は、いつ変数がその平均値の２倍になるのかを検出する。この規則は、
平均値に比例した、値の変化を検出するために有用である。

【００８７】〈平均からの偏差規則（Deviation from Mean Rules）〉 ‘平均からの偏差規則’を用いることは、動的な百分率により、いつ変数が平
均より上になるのかを検出する。百分率は、標準偏差に基づいて動的に計算され
る。ユーザーは、或る値が、通常範囲に留まるために、その平均からどれだけ遠
くへ逸脱できるのかを示すための百分率パラメータを、規則において指定するこ
とができる。百分率が高いほど、警報を発令するために値が平均からより遠くに
存在する必要がある。‘平均からの偏差’は、データの平均および受認可能な変
数の両方を動的に決定する。‘平均からの偏差’は、平均が変化するが変数が平
均に非常に近接したままである場合（すなわち、小さな標準偏差）に適応し、さ
らに、平均が同じままであるが平均からの変化量が大きい場合にも適応する。

【００８８】アルゴリズムを組み合わせることができる。例えば、通常値からの僅かな発散
（divergence）が警報を生成するのを防ぐために、‘平均からの偏差’アルゴリ
ズムを、’平均からのパーセンテージ’アルゴリズムと組み合わせることができ
る。

【００８９】《日時と曜日とを備えた動的閾値超過時間》動的閾値の規則についての分析ウィンドウ５２は、一定時間である必要はない
。実際に、種々のネットワーク要素について、関連した変数の統計は、日時（th
e time of a day）と曜日（the day of a week）とに応じて変動する傾向がある
。例えば、オフィスビル内のイーサネット（登録商標）要素は、一般的には、日
曜の早朝時間よりも平日の就業時間中の方が使用量が高く、したがって、パケッ
ト衝突のパーセンテージも同様に上下変動する。

【００９０】したがって、或る変数についてのポーリングデータは、該ポーリングデータが
収集される時間（通常は、１時間）および曜日によりグループ化される。その１
時間についての変数の統計は、計算され、かつ、その後に組み合わされて、分析
ウィンドウ全体についての統計を形成する。

【００９１】《動的閾値超過時間：全体的時間範囲》幾つかの状況における問題（例えば、潜在的なディスクスペースの枯渇）を検
出するために、連続的な期間を用いることができる。ディスクスペースを使い果
たすことはシステムにとって壊滅的なことなので、ユーザーは、ディスクスペー
スがまもなく使い切られることについて警告されるべきである。一般的に、基本
的な閾値超過時間の規則は、各々のディスクパーティションが独自の閾値を有し
ているので、この状況においては作用しない。しかしながら、動的な規則は、ス
ペース使用量が或る一定期間にわたってどれだけ広く揺れる可能性があるのかに
関する優れた指標を提供する。

【００９２】〈例：ディスクのパーティショニング〉動的閾値超過時間アルゴリズムは、パーティションがいつほぼ満杯になるのか
を、関連した変数に関する最近の履歴を過去数週間の分析ウィンドウにわたって
検査することにより、判断する。アルゴリズムは、パーティション利用率がその
期間にわたって通常はどの程度増大しかつ縮小するのかを判断する。アルゴリズ
ムは、分析ウィンドウ全体にわたる変数内に見られる変化量を計算する。ディス
クのパーティションの問題について、変化量は、通常は、その標準偏差により測
定される。

【００９３】特定の日時と特定の曜日とを用いる代わりに、前記統計は、分析ウィンドウ内
の期間全体を用いる。その理由は、ディスクのパーティションが、一般的に、他
のネットワーク要素ほど日時や曜日に敏感ではないためである。動的な規則は、
急速に変化するパーティションスペース、間断なく満杯のパーティション、また
は、高いが安定した利用率を備えたパーティション（例えば、システムパーティ
ション）のような、様々な特徴を備えたパーティションに動的に順応することが
できる。

【００９４】〈システムの起動における履歴情報〉システム１０が起動（start up）すると、ＬＥエンジン１００は初期化され、
かつ、基本的な閾値超過時間の規則が用いられる。履歴情報は、規則をサポート
のに十分なデータが収集される後まで用いられない。同様に、ユーザーがプロフ
ァイルを変更する場合に、新たな要素が、履歴を分析ぜずに初期化される。

【００９５】〈データベースモジュールに記憶されるデータ統計〉変数について定義された規則（例えば、動的な規則）が自身の統計に依存すれ
ば、ベースライン計算ユニット１２２は、関連した被標準化データを、適切な変
数の形に変換し、かつ、これらの変数の第１および第２モーメントを計算する。
計算は、更新が要求される毎に統計を完全に再計算（recomputing）することに
よる代わりに、増分的に（incrementally）行われ、かつ、これらの結果は、Ｌ
Ｅエンジン１００が規則のパラメータとして用いるために、データ記憶ユニット
１２１に記憶される。

【００９６】増分的計算（incremental computation）方法を用いることの利点が、少なく
とも２つ存在する。一つの利点は、ディスクスペースを節約することである。こ
れらのモーメントは被標準化データよりも小型であり、さらに、これらのモーメ
ントは、少なくとも規則が何を必要とするのかに関する見込みから、十分にデー
タを特徴づける。もう一つの利点は、計算コストに関連する。ベースライン期間
（すなわち、分析ウィンドウ）全体にわたる第１および第２モーメントの計算は
、多量の時間と処理力とを浪費する。増分的計算は、両方を遙かに少なく用いて
、再利用できる中間的な統計結果を記憶する。

【００９７】〈第１および第２モーメントの増分的計算〉通常のアルゴリズムから逸脱する形で、ライブエクセプションズは、ベースラ
イン期間にわたる変数の平均および標準偏差の増分的計算を用いる。この工程は
、以下のように作用する：

【００９８】時間にわたる変数ｘ（ｔ）の平均ｘ￣（ただし、‘ｘ￣’は、‘ｘ’の上に‘
￣’を付した記号を表す）および標準偏差σ_xについては、下記の公式を用いて
、期間（Ｔ₀，Ｔ₁）について計算することができる：

【数２】

【００９９】収集された変数は、ポーリング期間にわたって一定である。その理由は、多く
の変数が、ポーリング期間の開始および終了におけるカウンター値をポーリング
することにより、かつ、時間の差で除算されたカウンターの差を計算することに
より、計算された割合（rate）であるためである。この割合は、ポーリング期間
全体にわたる変数の値である。ポーリングがおおよそ均等な間隔で行われる間に
、これらの間隔の長さは僅かに変動し、時々は、サンプルが多数のポーリング期
間に及び得る。例えば、１行内の２つのポーリングについてサンプルが取られな
ければ、成功した第３ポーリングにおいて収集された実際のサンプルが、３つの
ポーリング期間に及ぶ。

【０１００】所定の１時間について、サンプルが、その１時間の開始および終了と整列しな
いことがある（および、整列する可能性が少ない）。したがって、間隔（Ｔ₀，
Ｔ₁）が、その１時間の開始および終了の境界を画定するものとする。さらに、
ｘ₁，ｘ₂，…，ｘ_n，を、その１時間の範囲に及ぶ時刻ｔ₀＜ｔ₁＜…＜ｔ_nにおい
て取られた変数ｘ（ｔ）のｎ個のサンプルの値とする。すなわち、

【数３】

【０１０１】次に、前記システムは、その１時間について、以下の変数を計算する：

【数４】

【０１０２】各１時間についてのこの計算は、変数の統計を表すために、Ｘ₁，Ｘ₂，ΔＴ，
Ｔ₁を計算しかつ記憶するバックグラウンド処理により行われる。

【０１０３】これらの記録から、その１時間についてのｘ（ｔ）の平均および標準偏差は、
次に、以下のように計算される：

【数５】

【０１０４】 ‘平均からの偏差’を用いた‘通常からの偏差（Deviation from Normal）’
について、通常範囲は、ｋ週のベースライン期間の各１時間についてのランダム
な変数ｘ（ｔ）の平均および標準偏差に基づいて計算される。ベースライン期間
は、以前のｋ週間についての同じ曜日の同じ１時間からなる。例えば、６月１４
日水曜日の、１５００〜１６００時間についての６週間のベースラインは、全て
が６月７日水曜日、５月３１日水曜日、５月２４日水曜日、５月１７日水曜日、
５月１０日水曜日、および、５月３日水曜日の１５００〜１６００時間からの６
時間からなる。

【０１０５】ｋ週のベースライン期間についての平均および標準偏差は、下記の記憶された
１時間の記録が与えられれば、容易に計算される。

【数６】

【０１０６】ここで、ｊ＝１…ｋは、以前のｋ週間についての記録インデックスである（す
なわち、記録ｊは、ｊ週間前からの同じ曜日の同じ１時間を表す）。これらの記
録は、Ｘ_j1，Ｘ_j2，ΔＴ_j，Ｔ_jという値を含む。

【０１０７】各々の記録がバックグラウンド処理により一回計算される一方で、次に続く週
においてはｋ回用いられる。その１時間についての記録が、サンプル当たりの記
録ではなく、４つの変数のみからなることにも留意されたい（１時間における通
常的なサンプル記録数は１２である）。したがって、処理力および記憶の著しい
低減が達成される。

【０１０８】〈統計の更新および回収〉統計が更新される頻度と、統計が回収される頻度とに関して考慮すべき事柄が
多数存在する。一つには、統計は、関連規則が変数の動きに適応できかつこれら
の変数の変化を迅速に検出できるように十分に頻繁に更新されることを必要とす
る。さらに、データベースモジュール１２０に記憶された統計結果の数は非常に
大きいので、これらをデータ記憶装置から効率的に回収することもまた重要であ
る。

【０１０９】〈毎時間の更新〉一つの取り組みによれば、ベースライン計算ユニット１２２は、変数について
の毎時間の統計を計算する。変数と関連した要素が５分毎にポーリングされれば
、１時間毎に１２個のサンプルが存在する。これら１２個のサンプルは、統計を
計算するためのベースライン計算ユニット１２２へ送信され、かつ、これらの計
算結果は、データ記憶ユニット１２１に記憶される。

【０１１０】或る要素が新たな１時間へ移行すると、ＬＥエンジン１００は、動的閾値超過
時間の規則において用いられる、その要素と関連した変数の統計について、デー
タベースモジュール１２０に問い合わせる。動的な規則の形式に応じて、回収ス
キームは、以下のパラグラフにおいて説明するように、異なるものとなる。

【０１１１】〈全体的な多数週範囲（Entire Multi-week Range）〉回収スキームは、規則が全体的な多数週範囲に基づくのか、または、規則が特
定の日時および特定の曜日（例えば、火曜日の午後９時）に基づくのかに応じて
異なる。全体的な多数週範囲に基づく規則に関して、ＬＥエンジン１００は、最
初に、全体的な多数週範囲にわたって、データベースモジュール１２０に問い合
わせる。すなわち、ＬＥエンジン１００は、変数についてのＮ個の中間的な統計
を保持する（ここで、“Ｎ”は、全体的な多数週範囲内の週の数である）。要素
が次の１時間と交差する場合に、過去の１時間において収集されたデータが統計
に組み込まれ、その一方で、範囲の最初の１時間からのデータは除去される。し
たがって、安定した状態において、データベースモジュール１２０は、交差した
各々の１時間についての２つの問い合わせを実行する。一方の問い合わせは、た
った今経過した１時間についての新たな統計を追加することであり、他方の問い
合わせは、時間範囲の始まりにおける古い統計を除去することである。

【０１１２】〈日時および曜日〉全体的な多数週範囲にわたる特定の日時および特定の曜日に基づく規則に関し
て、必要とされるデータ転送の数は、多数週範囲内の週の数に等しい。要素が新
たな１時間と交差する場合に、ＬＥエンジン１００は、該新たな１時間に対応す
る曜日・時間内で収集されたデータの統計についてのＮ個の問い合わせを、デー
タベースモジュール１２０へ送信する（ここで、“Ｎ”は、多数週範囲内の週の
数を表す）。したがって、定期的な状態においては、Ｎ個の問い合わせは各時間
毎に生成され、該問い合わせの各々は、多数週範囲における特定の日時および特
定の曜日に収集された１２個のデータサンプルから計算された統計に対応する。

【０１１３】〈毎夜の更新〉終日にわたる統計を更新するための代替案は、ベースライン計算ユニット１２
２が、必要とされる全ての計算を、一日の終わりに行うことである。この場合に
、ベースライン計算ユニット１２２は、夜にジョブバッチを受信し、該ジョブに
含まれる全てのデータを処理し、その後に、結果をデータ記憶ユニット１２１へ
返す。ＬＥエンジン１００は、新たな統計が必要とされる場合に、計算結果を回
収する。この代替案は、多数週範囲にわたる特定の日時および特定の曜日に基づ
く規則に、特に適している。その理由は、この日時および曜日が次の週に到達す
るまで、新たな統計が必要とされないためである。この代替案は、更新頻度を毎
時間ではなく毎日に修正すれば、全体的な多数週範囲に基づく規則のためにも作
用する。

【０１１４】〈統計の記憶〉動的閾値超過時間の規則は、規則と関連した全ての変数について、モーメント
が計算されかつ記憶されることを必要とする。ベースライン計算ユニット１２２
が毎時間についてのモーメントを計算した後に、ベースライン計算ユニット１２
２は、監視されている全ての要素の全ての変数についての行を用いて、これらの
統計をデータ記憶ユニット１２１に記憶する。或る要素に関する同じ変数を監視
することについての多数の要求があれば、１つの行のみが毎時間について生成さ
れる。したがって、記憶スキームは、重複が回避されるという点で効率的である
。

【０１１５】〈出力−イベントビューア〉ＬＥエンジン１００の出力は、Ｊａｖａ（登録商標）ベースのＧＵＩブラウザ
である例外イベントビューア（Exception Event Viewer）内に表示される。イベ
ントビューアから、ＮＯＣ１３５内のユーザーは、任意のグループまたはグルー
プリストについての例外チャートおよび例外カウントを閲覧することを選択する
ことができ、これらの例外の重大度を監視することができ、かつ、例外がどのよ
うに発展するのかを適時に検査することができる。

【０１１６】図７を参照すると、イベントビューア１３０は、情報をネットワーク管理者へ
伝達するための例外イベントチャート（exception event chart）６１と、例外
イベントテーブル（exception event table）６２と、組織フレーム（organizat
ion frame）６３とを表示する。例外イベントチャート６１を通して、システム
は、選択されたグループ内の全ての要素についてのアクティブな例外の総数を示
すか、または、デフォルト状態では、全ての要素の例外のカウントを表示する。
例外イベントテーブル６２を通して、システムは、全ての現在の例外を列挙する
。また、組織フレーム６３を通して、システムは、ユーザーに、全てのグループ
リストとグループと要素とを閲覧することを許容し、かつ、全体的な要約データ
の閲覧を与えることを許容する。ユーザーが特定のディスプレイ構成要素に焦点
を当てられるように、ディスプレイ構成要素の各々については、容易にサイズを
変更したり、縮約したり、または、拡大したりすることができる。

【０１１７】〈例外イベントチャート〉例外イベントチャート６１を通して、ユーザーは、履歴的な例外イベントと現
在の例外イベントとを、同時に閲覧することができる。ライブエクセプションズ
は、イベントチャート６１を用いて、各々のポーリング期間〜対〜時間について
の垂直軸上における例外カウント総数を表示し、これは、スクロール可能なパネ
ル内の水平軸上におけるポーリング間隔として表示される。ユーザーが組織フレ
ーム６３からグループまたはグループリストを選択していなければ、イベントチ
ャート６１は、全てのグループの例外カウント総数を、デフォルトとして表示す
る。ユーザーが組織フレーム６３からグループまたはグループリストを選択すれ
ば、イベントチャート６１は、選択されたグループまたはグループリストについ
て現在アクティブな全ての例外を表示する。さらに、イベントチャート６１は、
選択されたグループ名を表示し、そうでない場合には、デフォルト名“全て（Al
l）”が示される。例外チャート閲覧ウィンドウの範囲は、ポーリング期間当た
りのグラニュラリティ（granularity）によって構成設定可能である。

【０１１８】〈例外イベントテーブル〉例外イベントテーブル６２は、行および列の形で情報を提示する。列は、グル
ープリスト名（group list name）、グループ名（group name）、要素名（eleme
nt name）、警報の形式（type of alert）、警報開始時間（start time of aler
t）、警報終了時間（end time of alert）、警報の重大度（severity of alert
）、技術の形式（technology type）、および、リストからの要素について例外
を誘発した枢要な変数（key variables）、というヘッダを有する。イベントテ
ーブルは、スクロール可能なパネル内の要素リストをソートするために列のヘッ
ダを選択することを、ユーザーに許容する。ユーザーは、ヘッダを選択して該ユ
ーザーにとって好ましい位置へドラッグしかつドロップすることを介して、およ
び、右マウスボタンのメニュー選択オプションを用いることにより閲覧または隠
匿すべき列を構成設定することを介して、テーブルの列の順番を取り決めること
の柔軟性を有する。イベントテーブル内で消去（すなわち、非アクティブに）さ
れた例外は、構成設定された値よりも長い期間の間ずっと非アクティブのままで
あれば、イベントテーブルから消滅（age out）させられる。さらに、ユーザー
が或るグループまたはグループリストから他のグループまたはグループリストへ
切り替われば、非アクティブの古い例外は、イベントテーブルから除去される。

【０１１９】〈組織フレーム〉組織フレーム６３は、例外がどこで発生するのかをユーザーが迅速に見ること
ができ、かつ、システムにより収集されるさらなる情報にアクセスすべくユーザ
ーが該例外へドリルダウン（drilldown）することができる手段となる機構を提
供する。組織フレーム６３において、各々のグループは、そのグループ内で発生
する例外の総数を有する。例外イベントグループリストフレームは、全てのグル
ープの組織の閲覧を与え、かつ、スクロール可能なフレーム内で、グループリス
トをグループと要素とに拡大したり、または、グループの要素をグループとグル
ープリストとに縮約したりすることを、ユーザーに許容する。ユーザーが組織フ
レーム６３からグループを選択すれば、イベントチャート６１は、該イベントチ
ャート内の現在の例外カウントを表示し、かつ、イベントテーブル６２は、適切
なデータ属性を表示する。グループまたはグループリストは、該グループまたは
グループリストと関連するユーザーに対してのみアクセス可能である。

【０１２０】〈上位１０位例外ウィンドウ（Top 10 Exception Window）〉Ｊａｖａ（登録商標）ベースのイベントビューア１３０は、別個の対話ウィン
ドウをポップアップ（popup）するために、アイコンからクリックすることをユ
ーザーに許容し、それにより、グループ名またはグループリスト名と、各々のグ
ループまたはグループリストについての例外カウント総数とを備えた上位１０例
外ウィンドウが表示される。上位１０位までの例外の表示は、構成設定された期
間の間ずっと自動的に更新され、かつ、最新の更新時間がさらに表示される。こ
のポップアップ式対話ウィンドウは、グループ名またはグループリスト名をクリ
ックすることにより、他のイベントビューアへドリルダウンすることを許容する
。

【０１２１】〈ポップアップメニューオプション（Popup Menu Option）〉さらに、Ｊａｖａ（登録商標）ベースのイベントビューア１３０は、新たなイ
ベントビューアを立ち上げる（launch）べく、組織フレーム６３から右マウスボ
タンをクリックすることをユーザーに許容し、この結果、ユーザーは、他のセッ
トの要素を同時に表示することができる。

【０１２２】《警報詳細報告（Alarm Detail Report）》ライブエクセプションズは、警報または例外の履歴報告をユーザーのために生
成することができ、かつ、その報告をイベントビューア１３０内に表示すること
ができる。ライブエクセプションズは、ユーザーが、警報詳細報告を生成し、次
に、報告を生成すべき警報または例外を選択することを可能にする。表示される
動向報告は二次元チャートであり、ｘ軸は時間を示し、かつ、ｙ軸は監視される
変数の値を示す。

【０１２３】特定の変数についての警報詳細報告７０の例が、図８に示される。報告７０は
、関連変数の値を、時間の関数としてプロットする（プロット７３を参照）。報
告７０は、一連の垂直方向のバー７２をさらに表示し、該バー７２は、各々が、
１時間という別々の期間を表し、かつ、各々が、以前の期間にわたるその日時に
ついての変数の平均値をマーキングする中心線７１を有する。各々のバーの広が
りは、以前の期間にわたる平均からの、その変数の観測された変化量を特徴づけ
る。この場合には、観測された平均値からの正および負の標準偏差が表される。

【０１２４】説明された例において、適用されている規則は、動的閾値超過時間の規則であ
る。より明確には、この例は、ＷＡＮ要素と関連した待ち時間についての警報詳
細報告であり、かつ、動的閾値超過時間の規則を用いる。この例は、時間に対す
る要素の待ち時間の尺度を示す。バーからバーへの中心線７１の変動レベルは、
規則がその閾値を平均値の計算に基づいて更新することを示し、かつ、変動する
バーの長さは、規則がその通常値をも標準偏差の計算に基づいて更新することを
示す。線７３が、バー要素７２の上端または下端のいずれかと、その期間におい
て交差する場合に、ＬＥエンジン１００は、該線がバーの外側に存在する間の時
間を蓄積し、かつ、ＬＥエンジン１００は、分析ウィンドウ内の総蓄積時間が、
規則において指定された条件ウィンドウを超過すれば、警報を誘発する。報告７
０によって、ユーザーは、変数の履歴的動向を閲覧することができる。

【０１２５】規則が固定閾値超過時間であったならば、バーの中心線は全て同じレベルとな
り、かつ、以前の期間にわたってその変数内で観測された変化量を反映しなかっ
ただろう。

【０１２６】〈再構成設定（Reconfiguration）〉システム１０は、ユーザーがネットワークをどのように管理したいのかに基づ
いて、ＬＥエンジン１００の構成設定をカスタマイズすることを該ユーザーに許
容する。構成設定の変更は、概略的に、警報規則の追加／削除と、要素の追加／
削除／修正と、プロファイルの追加／削除／修正と、グループまたはグループリ
ストの追加／削除／修正とを含み、この場合に、関連性は、プロファイルと、グ
ループまたはグループリストとの間のマッピングを定義する。

【０１２７】〈再構成設定工程の流れ〉概略的に、再構成設定についての基本的な流れは、以下の段階を含む：１．ユーザーが、ユーザーインターフェースにおいて、何らかの変更を行うか
、または、ユーザーが、構成設定の変更を含むファイルをインポートする。２．変更について説明するメッセージが同報通信（broadcast）される。３．ＬＥエンジン１００が、変更が発生したことを示すメッセージを受信する
。４．ＬＥエンジン１００が、変更を反映するために、自身の内部データ構造の
状態を更新する。

【０１２８】この工程によって、変更が、ＬＥエンジン１００内で実施され、かつ、関連し
たモジュールに通知される。エンジンを再始動する必要も、いかなるファイルを
再コンパイルする必要もない。

【０１２９】再構成設定に対する一つの取り組みは、ＬＥエンジン１００が再構成設定メッ
セージを受信した時間に基づいて、全ての必要な更新を行うことであり、この結
果、全ての変更が同時に発生する。しかしながら、時には、この取り組みは、非
効率性に起因して不十分なパフォーマンスを有する。代替案は、変更がポーリン
グ時間に発生することを可能にする償却的な（amortized）取り組みである。

【０１３０】〈例：警報規則の変更についての標準的な取り組み〉ユーザーがプロファイル内の警報規則を更新する場合に、その変更について、
該規則を含むプロファイルを現在用いている全ての要素に認識させる必要がある
。前述した最初の取り組みによれば、ＬＥエンジン１００は、前記規則と関連し
たプロファイルを更新する必要があり、該プロファイルと関連したグループまた
はグループリストを識別する必要があり、かつ、該グループまたはグループリス
ト内の該プロファイルを用いた全ての要素を発見する必要がある。この時点で、
前記規則に関連した全ての要素には、警報規則の変更が発生したことが通知され
る。この取り組みによれば、プロファイルに関連した１つの要素と、システム内
の全ての要素とを識別するために、１つのプロファイルと、１つのグループまた
は１つのグループリストと、全てのグループまたは全てのグループリストとの間
の全ての関連性を検査することが必要である。結果として、この取り組みは、非
常に非効率的である。

【０１３１】〈例：警報規則の変更についての償却的な取り組み〉償却的な（amortized）取り組みによれば、警報規則を含むプロファイルのみ
が再構成設定時間に更新される。各々の要素の更新は、ポーリング時間まで放置
される。このことは、再構成設定をより単純にすることを可能にし、かつ、ポー
リング時間におけるオーバーヘッドの代わりに、事実上一定時間内で更新を行う
ことができる。より明確には、要素がポーリングされる毎に、要素は、いずれか
のプロファイルが警報規則の変更に起因して更新されたか否かを判断するために
、該要素と関連する全てのプロファイルをチェックする必要がある。

【０１３２】〈システムハードウェア〉図９は、ワークステーションディスプレイ装置５０２と、入力装置（例えば、
キーボード）５０４と、１つ以上のプロセッサ５０６と、複数の命令（例えば、
プログラムコード）５１０を記憶したコンピュータ読み取り可能な媒体５０８と
を含むコンピュータシステム５００を示す。プロセッサ５０６により実行される
と、命令５１０は、プロセッサ５０６に、ポーラーモジュールと、構成設定モジ
ュールと、ＬＥエンジンと、ウェブサーバーと、ベースライン計算ユニットとを
含む、前述したライブエクセプションズ・システムの機能性を実施させる。プロ
グラムコードを記憶する他に、通常はディスク記憶装置とＲＡＭとＲＯＭとの組
み合わせにより実施され得るコンピュータ読み取り可能な媒体は、データの記憶
をさらに実施する。

【０１３３】本発明に関する多数の実施形態について説明してきた。それでもなお、本発明
の真意および範囲から逸脱することなく、種々の修正が行われ得ることが理解さ
れる。したがって、他の実施形態も、冒頭の請求項の範囲内にある。

【０１３４】

【表２−１】

【表２−２】

【表２−３】

【表２−４】

【表２−５】

【表２−６】

【表２−７】

【表２−８】

【表２−９】

【表２−１０】

【表２−１１】

【表２−１２】

【表２−１３】

【表２−１４】

【表２−１５】

【表２−１６】

【表２−１７】

【表２−１８】

【表２−１９】

【表２−２０】

【表２−２１】

【表２−２２】

【表２−２３】

【表２−２４】

【表２−２５】

【表２−２６】

【表２−２７】

【表２−２８】

【表２−２９】

【表２−３０】

【表２−３１】

【表２−３２】

【表３−１】

【表３−２】

【表３−３】

【表３−４】

【表３−５】

【表３−６】

【図面の簡単な説明】

【図１】ライブエクセプションズ問題検出／報告システムのブロック図で
ある。

【図２】ポーラーモジュールに記憶されるＭＩＢ変換ファイル（ＭＴＦ）
の例を示す図である。

【図３】警報規則と、プロファイルと、グループと、グループリストと、
例外との間における関係を示す図である。

【図４】警報の重大度に関する判断を示す図である。

【図５】閾値超過時間アルゴリズムを示す図である。

【図６】動的閾値超過時間アルゴリズムを示す図である。

【図７】ネットワークパフォーマンス情報をユーザーに表示するためのブ
ラウザスクリーンの例を示す図である。

【図８】警報詳細報告の例を示す図である。

【図９】ライブエクセプションズを実施することができるコンピュータシ
ステムを示す図である。

【符号の説明】

１０ライブエクセプションズ問題検出／報告システム３０グループリスト１００ライブエクセプションズ・エンジン（ＬＥエンジン）１０２ラベルテーブル１１０ポーラーモジュール１１１ＭＴＦ１２０データベースモジュール１２１データ記憶ユニット１２２ベースライン計算ユニット１３０イベントビューア１３５ＮＯＣ１４０ウェブサーバー１５０例外データ記憶装置１６０データソース１７０ＮＭＳ１８０構成設定モジュール１９０管理インターフェース３００アルゴリズム３１０警報規則３２０プロファイル３３０グループ３４０例外５００コンピュータシステム５０２ディスプレイ装置５０４入力装置５０６プロセッサ５０８コンピュータ読み取り可能な媒体５１０命令（プログラムコード）

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ，ＴＲ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＭＺ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＧ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＢＺ，ＣＡ，ＣＨ，ＣＮ，ＣＯ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＤＺ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＭＺ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者ジェイ・ビー・ウォルフアメリカ合衆国・マサチューセッツ・ 01701・フレイミンハム・ラヴァリング・アヴェニュ・63 (72)発明者ウィル・シー・ロアーアメリカ合衆国・マサチューセッツ・ 01752・マルボロ・ブロードメドー・ロード・118・アパートメント・Ｅ (72)発明者ローレンス・エー・ステイバイルアメリカ合衆国・マサチューセッツ・ 01778・コチテュート・コモンウェルス・ロード・120 Ｆターム(参考） 5B042 GA12 JJ17 JJ29 MC28 5B085 AC11 AC13 AC14 BA06 5B089 GA01 GA21 GB02 HA08 JB16 KA12 LB14 5K030 MB01 MB09 MC08

Claims

【特許請求の範囲】

【請求項１】コンピュータネットワーク内の要素を監視する方法であって
、前記要素に関連する予め選択された変数を監視する段階と、監視された予め選択された変数についての閾値を定義する段階と、滑動する時間ウィンドウを確立する段階と、閾値超過時間値を反復的に生成する段階と、閾値超過時間値がいつ条件ウィンドウの値を超過するのかを検出する段階と、前記閾値超過時間値がいつ条件ウィンドウの値を超過するのかを検出する段階
に応答して、警報を生成する段階とを具備し、前記閾値超過時間値は、監視された変数が、滑動する時間ウィンドウの間に閾
値を超過した時間量の尺度であることを特徴とする方法。
【請求項２】前記警報を生成する段階の後に、少なくとも、閾値超過時間
値が消去ウィンドウ値を超過する間は、警報を維持する段階をさらに具備するこ
とを特徴とする請求項１に記載の方法。
【請求項３】前記消去ウィンドウ値は、前記条件ウィンドウの値に等しい
ことを特徴とする請求項２に記載の方法。
【請求項４】前記要素に関連する複数の変数を監視する段階と、監視された複数の変数の各々について、他の変数についての対応する閾値を定
義する段階とをさらに具備し、前記予め選択された変数は、前記複数の変数の１つであり、前記閾値超過時間値は、監視された変数のうちのいずれか１つ以上が、その対
応する閾値を、対応している滑動する時間ウィンドウの間に超過した時間量の尺
度であることを特徴とする請求項３に記載の方法。
【請求項５】前記予め選択された変数についての閾値を定義する段階は、以前の対応する期間にわたって、予め選択された変数について得られた値に基
づいて、予め選択された変数についての平均値を計算する段階と、偏位量を定義する段階と、平均値と偏位量との合計に等しい閾値を設定する段階とを具備することを特徴とする請求項１に記載の方法。
【請求項６】前記対応する期間は、一日未満であることを特徴とする請求
項５に記載の方法。
【請求項７】前記対応する期間は、一日のうちの特定の１時間という期間
であることを特徴とする請求項６に記載の方法。
【請求項８】前記平均値を計算する段階は、以前の所定数の週についての同じ曜日の同じ１時間という期間で、予め選択さ
れた変数について得られた値を用いて、予め選択された変数についての平均値を
計算する段階を具備することを特徴とする請求項６に記載の方法。
【請求項９】前記偏位量を定義する段階は、所定の期間にわたって、予め選択された変数について得られた値に基づいて、
予め選択された変数についての標準偏差を計算する段階と、計算された標準偏差のＫ倍（Ｋは正の数）に等しい偏位量を設定する段階とを具備することを特徴とする請求項５に記載の方法。
【請求項１０】前記標準偏差を計算する段階は、以前の所定数の週につい
ての同じ曜日の同じ１時間という期間で、予め選択された変数について得られた
値を用いて、標準偏差を計算する段階を具備することを特徴とする請求項９に記
載の方法。
【請求項１１】前記予め選択された変数についての閾値を定義する段階は
、偏位量を定義する段階と、Ｈ（Ｈは正の数）から偏位量を減じた値に等しい閾値を設定する段階とを具備することを特徴とする請求項１に記載の方法。
【請求項１２】前記偏位量を定義する段階は、所定の期間にわたって、予め選択された変数について得られた値に基づいて、
予め選択された変数についての標準偏差を計算する段階と、計算された標準偏差のＫ倍（Ｋは正の数）に等しい偏位量を設定する段階とを具備することを特徴とする請求項１１に記載の方法。
【請求項１３】コンピュータネットワーク内の要素を監視する方法であっ
て、対応する１つ以上の変数についての警報テストを各々の警報規則が確立する複
数の異なる警報規則を含むプロファイルを、その要素について定義する段階と、複数の異なる警報規則のいずれか１つ以上についての警報テストがいつ満たさ
れるのかを検出する段階と、閾値超過時間値を反復的に生成する段階と閾値超過時間値がいつ条件ウィンドウの値を超過するのかを検出する段階と、前記閾値超過時間値がいつ条件ウィンドウの値を超過するのかを検出する段階
に応答して、警報を生成する段階とを具備し、前記閾値超過時間値は、警報テストのいずれか１つ以上が、以前の予め選択さ
れた時間ウィンドウの間に満たされた時間量の尺度であることを特徴とする方法
。
【請求項１４】例外を生成した後に、少なくとも、閾値超過時間値が消去
ウィンドウ値を超過する間は、その例外を維持する段階をさらに具備することを
特徴とする請求項１３に記載の方法。
【請求項１５】ネットワーク上の要素の履歴パフォーマンスをコンピュー
タディスプレイスクリーン上に表示する方法であって、要素のパフォーマンスを監視する段階と、複数のタイムスロットの各々について、要素のパフォーマンスの尺度を、その
監視されたパフォーマンスから得る段階と、複数のタイムスロットの各々について、要素のパフォーマンスの尺度について
の平均値を計算する段階と、複数のタイムスロットの各々について、パフォーマンスの尺度についての変動
性を計算する段階と、コンピュータディスプレイスクリーン上において、かつ、複数のタイムスロッ
トの各々について、（１）そのタイムスロットについて計算された平均値の第１
指標と、（２）そのタイムスロットについて計算された変動性の第２指標と、（
３）そのタイムスロットについて得られたパフォーマンスの尺度の第３指標とを
表示する段階とを具備することを特徴とする方法。
【請求項１６】コンピュータネットワークの要素に関連する予め選択され
た変数を監視する機能と、監視された予め選択された変数についての閾値を定義する機能と、滑動する時間ウィンドウを確立する機能と、閾値超過時間値を反復的に生成する機能と、閾値超過時間値がいつ条件ウィンドウの値を超過するのかを検出する機能と、前記閾値超過時間値がいつ条件ウィンドウの値を超過するのかを検出する機能
に応答して、警報を生成する機能とをコンピュータシステムに行わせるための、コンピュータ読み取り可能な媒体上
に記憶されるコンピュータプログラムであって、前記閾値超過時間値は、監視された変数が、滑動する時間ウィンドウの間に閾
値を超過した時間量の尺度であることを特徴とするコンピュータプログラム。
【請求項１７】コンピュータネットワーク内の要素を監視するためのコン
ピュータプログラムであって、前記プログラムは、対応する１つ以上の変数についての警報テストを各々の警報規則が確立する複
数の異なる警報規則を含むプロファイルを、その要素について定義する機能と、複数の異なる警報規則のいずれか１つ以上についての警報テストがいつ満たさ
れるのかを検出する機能と、閾値超過時間値を反復的に生成する機能と、閾値超過時間値がいつ条件ウィンドウの値を超過するのかを検出する機能と、前記閾値超過時間値がいつ条件ウィンドウの値を超過するのかを検出する機能
に応答して、警報を生成する機能とをコンピュータシステムに行わせるために、コンピュータ読み取り可能な媒体上
に記憶され、前記閾値超過時間値は、警報テストのいずれか１つ以上が、以前の予め選択さ
れた時間ウィンドウの間に満たされた時間量の尺度であることを特徴とするコン
ピュータプログラム。
【請求項１８】ネットワーク上の要素の履歴パフォーマンスをコンピュー
タディスプレイスクリーン上に表示するためのコンピュータプログラムであって
、前記プログラムは、要素のパフォーマンスを監視する機能と、複数のタイムスロットの各々について、要素のパフォーマンスの尺度を、その
監視されたパフォーマンスから得る機能と、複数のタイムスロットの各々について、要素のパフォーマンスの尺度について
の平均値を計算する機能と、複数のタイムスロットの各々について、パフォーマンスの尺度についての変動
性を計算する機能と、コンピュータディスプレイスクリーン上において、かつ、複数のタイムスロッ
トの各々について、（１）そのタイムスロットについて計算された平均値の第１
指標と、（２）そのタイムスロットについて計算された変動性の第２指標と、（
３）そのタイムスロットについて得られたパフォーマンスの尺度の第３指標とを
表示する機能とをコンピュータシステムに行わせるために、コンピュータ読み取り可能な媒体上
に記憶されることを特徴とするコンピュータプログラム。