JP2003536162A - ライブエクセプションズ・システム - Google Patents

ライブエクセプションズ・システム

Info

Publication number
JP2003536162A
JP2003536162A JP2002503690A JP2002503690A JP2003536162A JP 2003536162 A JP2003536162 A JP 2003536162A JP 2002503690 A JP2002503690 A JP 2002503690A JP 2002503690 A JP2002503690 A JP 2002503690A JP 2003536162 A JP2003536162 A JP 2003536162A
Authority
JP
Japan
Prior art keywords
value
time
threshold
variables
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002503690A
Other languages
English (en)
Inventor
マーク・ダブリュ・サイラー
ジョージ・イグレシアス
ジェイ・ビー・ウォルフ
ウィル・シー・ロアー
ローレンス・エー・ステイバイル
Original Assignee
コンコード・コミュニケーションズ・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コンコード・コミュニケーションズ・インコーポレーテッド filed Critical コンコード・コミュニケーションズ・インコーポレーテッド
Publication of JP2003536162A publication Critical patent/JP2003536162A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/22Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0829Packet loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • H04L43/087Jitter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0882Utilisation of link capacity

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 コンピュータネットワーク内の要素を監視する方法であって、前記要素に関連する予め選択された変数(41)を監視する段階と、監視された予め選択された変数(41)についての閾値(40)を定義する段階と、滑動する時間ウィンドウ(42)を確立する段階と、閾値(40)の超過時間値を反復的に生成する段階と、閾値(40)の超過時間値がいつ条件ウィンドウの値を超過するのかを検出する段階と、前記閾値(40)の超過時間値がいつ条件ウィンドウの値を超過するのかを検出する段階に応答して、警報を生成する段階とを具備し、前記閾値(40)の超過時間値は、監視された変数が、滑動する時間ウィンドウ(42)の間に閾値(40)を超過した時間量の尺度であることを特徴とする方法。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】
本発明は、ネットワーク監視に関し、より詳細には、ネットワーク(例えば、
大規模で広大な分散ネットワーク)上の問題を識別するためのシステムに関する
【0002】
【従来の技術】
一般的に、ネットワーク要素(network elements)は、コンピューティング/
記憶装置、通信装置、および、これらの装置上に存在するソフトウェアなどを含
む。これらの例は、コンピュータ、ディスク記憶装置、ルーター、スイッチ、L
AN、WAN、サーバー、および、アプリケーションソフトウェアである。各要
素は、通常は、その稼働状態を示す多数の特徴、すなわち、管理変数(manageme
nt variables)を有する。要素の管理変数は、一般的に、該要素内で発生する問
題を検出しかつ解決できるように監視される。要素を監視するための一つの取り
組みは、ポーリング(polling)によるものである。すなわち、ポーラー(polle
r)は、監視されている要素から、現在の状態を周期的に収集する。次に、収集
されたデータは、要素内で問題が発生したか否かを判断する処理装置へ送信され
、問題が発生したのであれば、通知が生成される。
【0003】 全てのネットワーク要素は、ポーラーがその管理変数を読み出しかつ書き込む
ためのプロトコルを提供する。これらの変数は、通常は、要素のベンダーにより
定義され、かつ、通常は、管理情報ベース(Management Information Base:M
IB)と称される。IETF(Internet Engineering Task Force)、MIB I
、および、MIB IIのような、幾つかの標準的なMIBが存在する。MIB変
数の読み出しおよび書き込みを通して、他のコンピュータ内のソフトウェアは、
要素を管理または監督することができる。他のコンピュータ内のソフトウェアは
、通常は、エージェント(agent)と称される。これにより、ネットワーク問題
を突き止めかつ解決する責任を負うネットワーク管理者は、通常は、要素から情
報を収集するために、MIB変数とエージェントとを用いる。
【0004】 残念ながら、様々なベンダーによりサポートされる要素からなるネットワーク
を管理するために利用できる統一されたMIBは存在しない。全てのベンダーか
らの全てのMIBは、ネットワークのイベント(例えば、故障(failure))を
告知するために、様々なメッセージセットを用いる。一般的に、これらのメッセ
ージは、シンプルネットワーク管理プロトコル(Simple Network Managment Pro
tocol:SNMP)トラップとして知られる広く採用されたメッセージフォーマ
ットを用いる。一般的に、ネットワーク管理者は、SNMPトラップを適切に生
成するために、全ての要素を手動で構成設定(configure)する必要がある。ト
ラップが適切に生成された後でさえ、各々が表す事柄に、異なる形式の要素の全
域にわたる一貫性があることは稀である。
【0005】 さらに、ポーラーにより回収(reterieve)されるデータの量は圧倒的な量で
あり得る。このデータ量は、全ての情報の真の意味(significance)を判読する
必要があるネットワーク管理者に対して深刻な問題を呈し得る。
【0006】
【発明が解決しようとする課題】
少なくとも部分的に、本発明は、ネットワーク内、システム内、および、アプ
リケーション内における潜在的な問題に関する通知を提供するように設計された
ネットワーク管理システムであるライブエクセプションズ・システム(LiveExce
ptions system)(本明細書においては、単に“ライブエクセプションズ(LiveE
xceptions)”と称する)において具体化される。長い待ち時間(latency)、異
常な作業負荷、または、故障のような問題は、ネットワーク管理者の注意が即時
に向けられることを必要とする。しかしながら、時には、適時のかつ確実な通知
を提供することが、非常に困難である。問題の原因に関する情報の欠如に起因し
て、問題が検出されない状態となるか、または、他の故障警報の存在があまりに
も多いことに起因して、問題と関連した警報が注目されない状態となり得る。ラ
イブエクセプションズは、監視されているネットワーク内の全ての要素について
の履歴データに関する包括的な記憶装置を利用することにより、警報生成の精度
を高める。履歴データによって、ライブエクセプションズは、時間が進行する際
の要素の動き(behavior)に適応することができ、かつ、該動きがその規範(no
rm)から逸脱した場合にのみ警報を生成することができる。幾つかの状況におい
ては、要素の動きは日時と曜日とに依存しており、ライブエクセプションズは、
この日時/曜日の依存関係を利用し、さらに、その適応性を最適化し、こうして
、警報生成に関する全体的な精度を高める。
【0007】
【課題を解決するための手段】
概して、本発明の一特徴によれば、コンピュータネットワーク内の要素を監視
するための方法が提供される。前記方法は、前記要素に関連する予め選択された
変数を監視する段階と、監視された予め選択された変数についての閾値を定義す
る段階と、滑動する時間ウィンドウを確立する段階と、閾値超過時間値を反復的
に生成する段階と、閾値超過時間値がいつ条件ウィンドウの値を超過するのかを
検出する段階と、前記閾値超過時間値がいつ条件ウィンドウの値を超過するのか
を検出する段階に応答して、警報を生成する段階とを含む。この場合に、前記閾
値超過時間値は、監視された変数が、滑動する時間ウィンドウの間に閾値を超過
した時間量の尺度である。
【0008】 好ましい実施形態は、以下の特徴の1つ以上を含む。前記方法は、前記警報を
生成する段階の後に、少なくとも、閾値超過時間値が消去ウィンドウ値を超過す
る間は、警報を維持する段階をさらに含む。前記消去ウィンドウ値は、前記条件
ウィンドウの値に等しい。前記方法は、前記要素に関連する複数の変数を監視す
る段階と、監視された複数の変数の各々について、他の変数についての対応する
閾値を定義する段階とをさらに含み、前記閾値超過時間値は、監視された変数の
うちのいずれか1つ以上が、その対応する閾値を、対応している滑動する時間ウ
ィンドウの間に超過した時間量の尺度である。前記予め選択された変数について
の閾値を定義する段階は、以前の対応する期間にわたって、予め選択された変数
について得られた値に基づいて、予め選択された変数についての平均値を計算す
る段階と、偏位量を定義する段階と、平均値と偏位量との合計に等しい閾値を設
定する段階とを含む。前記対応する期間は、一日未満(例えば、一日のうちの特
定の1時間という期間)である。前記平均値を計算する段階は、以前の所定数の
週についての同じ曜日の同じ1時間という期間で、予め選択された変数について
得られた値を用いて、予め選択された変数についての平均値を計算する段階を含
む。前記偏位量を定義する段階は、所定の期間にわたって、予め選択された変数
について得られた値に基づいて、予め選択された変数についての標準偏差を計算
する段階と、計算された標準偏差のK倍(Kは正の数)に等しい偏位量を設定す
る段階とを含む。前記標準偏差を計算する段階は、以前の所定数の週についての
同じ曜日の同じ1時間という期間で、予め選択された変数について得られた値を
用いて、標準偏差を計算する段階を含む。前記予め選択された変数についての閾
値を定義する段階は、偏位量を定義する段階と、H(Hは正の数)から偏位量を
減じた値に等しい閾値を設定する段階とを含む。前記偏位量を定義する段階は、
所定の期間にわたって、予め選択された変数について得られた値に基づいて、予
め選択された変数についての標準偏差を計算する段階と、計算された標準偏差の
K倍(Kは正の数)に等しい偏位量を設定する段階とを含む。
【0009】 概略的に、他の特徴において、本発明は、コンピュータネットワーク内の要素
を監視する他の方法を特徴づける。前記方法は、複数の異なる警報規則を含むプ
ロファイルを、その要素について定義する段階を含み、該複数の異なる警報規則
の各々は、対応する1つ以上の変数についての警報テストを確立する。前記方法
は、複数の異なる警報規則のいずれか1つ以上についての警報テストがいつ満た
されるのかを検出する段階と、閾値超過時間値を反復的に生成する段階と閾値超
過時間値がいつ条件ウィンドウの値を超過するのかを検出する段階と、前記閾値
超過時間値がいつ条件ウィンドウの値を超過するのかを検出する段階に応答して
、警報を生成する段階とを含み、前記閾値超過時間値は、警報テストのいずれか
1つ以上が、以前の予め選択された時間ウィンドウの間に満たされた時間量の尺
度である。
【0010】 幾つかの好ましい実施形態において、前記方法は、例外を生成した後に、少な
くとも、閾値超過時間値が消去ウィンドウ値を超過する間は、その例外を維持す
る段階をさらに含む。
【0011】 概略的に、さらに他の特徴において、本発明は、ネットワーク上の要素の履歴
パフォーマンスをコンピュータディスプレイスクリーン上に表示する方法を特徴
づける。前記方法は、要素のパフォーマンスを監視する段階と、複数のタイムス
ロットの各々について、要素のパフォーマンスの尺度を、その監視されたパフォ
ーマンスから得る段階と、複数のタイムスロットの各々について、要素のパフォ
ーマンスの尺度についての平均値を計算する段階と、複数のタイムスロットの各
々について、パフォーマンスの尺度についての変動性を計算する段階と、コンピ
ュータディスプレイスクリーン上において、かつ、複数のタイムスロットの各々
について、(1)そのタイムスロットについて計算された平均値の第1指標と、
(2)そのタイムスロットについて計算された変動性の第2指標と、(3)その
タイムスロットについて得られたパフォーマンスの尺度の第3指標とを表示する
段階とを含む。
【0012】 概略的、他の特徴において、本発明は、前述した機能性を実施するプログラム
を特徴づける。
【0013】
【発明の実施の形態】
本発明に関する一つ以上の実施形態の詳細について、添付図面と下記の説明と
において説明する。本発明に関する他の特徴、目的、および、利点は、前記説明
および前記図面と、請求項とから明らかとなる。
【0014】 種々の図面における同様の参照記号は、同様の要素を示す。
【0015】 [ライブエクセプションズ・システム:その構成要素に関する概略的説明] ライブエクセプションズ問題検出/報告システム10の全体的な構造は、図1
に示される。システム10は、データソース160(例えば、ネットワーク)内
の要素のMIB変数からデータを収集するポーラーモジュール110を有する。
次に、各々のMIB変数からのデータは、ポーラーモジュール110により中間
データの形に変換され、かつ、動向(trend)報告生成のためにデータベースモ
ジュール120に記憶される。データベースモジュール120は、中間データを
記憶するデータ記憶ユニット121と、中間データの幾つかをユーザーにとって
有意味な変数の形に変換し、変数の統計(statistics)を計算し、かつ、計算さ
れた統計をデータ記憶ユニット121へ送り返すベースライン計算ユニット12
2とを含む。統計が計算されるか否かは、ライブエクセプションズ・エンジン(
LEエンジン)100に記憶された規則に依存する。
【0016】 ポーラーモジュール110において実施される変換機能は、ネットワークから
受信された生データ(raw data)を標準化(normalize)する。被標準化データ
(normalized data)は、ポーリングから受信された元の生データよりも凝縮さ
れた形式のデータを表す。ポーリング毎に、ポーラーモジュール110は、被標
準化データをLEエンジン100へ送信し、LEエンジン100は、計算された
統計を、適切な場合にデータベースモジュール120から回収する。
【0017】 前記規則のうちの幾つかにより必要とされる統計上の計算は、一般的に、第1
および第2モーメントのような統計を計算することを含むが、常にそうであると
は限らない。LEエンジン100内の規則は、このような統計を計算すべきある
特定の当該の変数を指定(specify)する。計算された統計が通常は当該の関連
変数を十分に特徴づけるので、計算された統計を生データや被標準化データの代
わりに用いることは、種々の状況において問題検出の精度を高める傾向がある。
さらに、統計は、該統計の派生元である被標準化データよりも遙かに少ない記憶
装置のスペースを占有するのみである。
【0018】 前述した実施形態において、ポーラーモジュール110は、通常は、MIBを
ポーリングし、該MIBから、ポーラーモジュール110は、5分間に1度の頻
度で回収を行い、かつ、6週間分のポーリングデータ(polled data)を記憶か
つ維持する。もちろん、ポーリングの頻度、および、データが収集される周期は
、ネットワーク管理者の要求に応じて広く変動し得る。いずれの場合にも、通常
的に監視される多数の変数を考慮すると、データ量は、凝縮された形式で記憶さ
れる場合であっても、著しい量の記憶スペースを占有し得る。
【0019】 [LEエンジン] LEエンジン100は、被標準化データをポーラーモジュール110から受信
し、かつ、統計をデータベースモジュール120から受信する。LEエンジン1
00は、被標準化データから、監視された変数のための値を計算する。計算され
た変数は、LEエンジン100に記憶されたラベルテーブル内で定義される。次
に、LEエンジン100は、適用される特定の規則にしたがって、これらの計算
された値を、これらの値のために計算された統計と比較し、かつ、ポーリングデ
ータが回収された要素内で問題が発生したか否かを判断する。前記比較が問題の
存在を示せば、LEエンジン100は、1つまたは多数の警報を生成し、該警報
の各々は、監視されたネットワーク要素に関連する問題を示す。問題が検出され
かつ警報が生成された後に、この警報は、例外データ記憶装置150へ送信され
、かつ、SNMPトラップの形式でネットワーク管理システム(NMS)170
へも送信される。システム10は、警報を例外データ記憶装置150から受信し
かつ該警報をイベントビューア130へ転送するウェブサーバーをさらに含む。
GUIブラウザであるイベントビューア130は、警報をネットワークオペレー
ションセンター(NOC)135内に、かつ、種々のネットワーク管理者ワーク
ステーション上に表示し、この結果、ネットワーク管理者が、迅速に、問題を識
別しかつ該問題に応答することができる。
【0020】 〔LEエンジンの構成設定〕 LEエンジン100は、システム10の中核的な処理装置である。選択された
要素のための望ましい規則にしたがってLEエンジン100が稼働するために、
要素や、変数や、警報規則(alarm rules)や、観測時間の長さのような、多数
の項目およびパラメータを定義する必要がある。これらの項目およびパラメータ
は、LEエンジン100に記憶された構成設定ファイル(configuration files
)内で定義される。システム10は、種々の状況に適した所定の構成設定ファイ
ルセットを有する。しかし、システム10は、ユーザーが、特定のユーザー要求
を満たすために構成設定ファイルをカスタマイズすることをも許容する。
【0021】 〔構成設定の変更〕 ユーザーは、管理インターフェース190または構成設定モジュール180を
通して、構成設定の変更を行うか、または、ユーザーは、要求された構成設定の
変更を含むファイルをインポートすることができる。変更を受信すると、LEエ
ンジン100は、その通常の稼働を継続する間に、その内部データ構造の状態を
更新して、変更を反映する。構成設定ファイル内の変更が実施された後に、LE
エンジンは、再始動または再コンパイルを行うことを必要とせずに、新たな項目
およびパラメータへ切り替わる。
【0022】 前述した実施形態において、LEエンジン100、ポーラーモジュール110
、データベースモジュール120、例外データ記憶装置150、ウェブサーバー
140、および、構成設定モジュール180は、1つのユニットまたは区画内に
収容される。
【0023】 〔変数の評価〕 ネットワーク内の要素に問題が存在すれば、該問題は、その要素と関連した変
数を評価することにより検出される。評価は、多数の要因に基づくものであり、
これら多数の要因には、ポーラーモジュール110により収集されたポーリング
データと、データベースモジュール120からの履歴情報と、予め定義された多
数の規則とが含まれる。これらの要因の各々について、以下に論ずる。
【0024】 《2段階変換--MTF》 ポーラーモジュール110は、自身のオブジェクトID(OID)を用いるこ
とにより、予め定義された割合(例えば、5分毎)でMIBをポーリングする。
各々のOIDは、独自のMIB変数を指す。次に、ポーリングされたMIB変数
は、冗長な情報を除去するために組み合わされる。予め定義された被標準化形式
(normalized forms)および該被標準化形式とMIB変数との間の変換は、ポー
ラーモジュール110に記憶されたMIB変換ファイル(MIB Transformation F
ile:MTF)111内で定義される。MTFは、コンコード・コミュニケーシ
ョンズ社(Concord Communications, Inc.)により販売される市販で入手可能な
ネットワークヘルス(Network Health)製品と関連して用いられ、かつ、MTF
について概略的に説明した文書が、その製品のために提供される。
【0025】 〈MTFのデータ形式〉 MTF111は、MIB変数を被標準化形式に変換するために用いられる。多
数の被標準化形式は、各々の要素の形式(例えば、イーサネット(登録商標)、
トークンリング、WAN、フレームリレー、非同期転送モード(ATM)、遠隔
アクセス装置、ルーター、サーバーなど)のために予め定義される。被標準化形
式は、カウンター(counter)およびゲージ(gauge)という2つのデータ形式を
有する。カウンターは、負でない整数であり、最大値に到達するまで単調増加し
、最大値に到達した後にラップアラウンドし、かつ、再びゼロから増加し始める
。カウンターの例は、一般的に、ビット数、待ち時間の秒数、または、フレーム
数を含む。ゲージは、増加または減少できる負でない整数であり、ゲージの例は
、一般的に、帯域幅利用率のパーセンテージ(percentage)を、衝突(collisio
n)のパーセンテージと、不良ポーリングのパーセンテージとを含む。
【0026】 〈MTFのフォーマット〉 図2を参照すると、MTF111は、変換する必要があるMIBについての変
換を定義するASCIIテキストファイルである。MTF111は、サポート情
報セクション21、データソース情報セクション22、および、翻訳情報セクシ
ョン23という3つの主要なセクションを含む。サポート情報セクション21は
、このMTFにより翻訳されているMIBについてのファイル名と、バージョン
番号と、ファイル名の形で定義された要素がポーリングされるか否かを示し、ど
のようにポーリングされるのかを示し、かつ、どのように報告されるのかを示す
パラメータとを含む。データソース情報セクション22は、応答要素に関する情
報を提供する。データソース情報セクション22は、要素により用いられる構成
設定パラメータおよびプロトコルの他に、ポーラーモジュール110が収集する
データの形式を示す。翻訳情報セクション23は、MIB変数を被標準化形式へ
マッピングする多数の式または方程式を含む。
【0027】 〔拡張可能な特徴〕 MTF111の魅力的な特徴は、その拡張可能性である。前述したように、ネ
ットワークシステムは、通常は、各々が自身の専有的な(proprietary)MIB
変数を専有的な方法で定義かつ組織する様々なベンダーからの要素を含む。MT
F内で定義された被標準化形式を用いることにより、ユーザーは、標準的なMI
B変数と専有的なMIB変数とを、分析および報告のための同じフォーマット内
に統合することができる。
【0028】 新たなベンダーからの要素を、既存のネットワーク内に統合する必要がある場
合には、ユーザーは、該要素と関連したMIB変数についての変換を定義するた
めに、単に、デフォルトの被標準化形式を、または、カスタマイズされた被標準
化形式を利用して、MTF111を書き込む。
【0029】 〔効率的な記憶〕 多くのMIB変数を変換するために、通常は、1つの被標準化形式がMTF1
11により用いられる。通常は、被標準化形式の数は、各々の要素の形式に対し
て30未満である(すなわち、ポーラーモジュール110は、異なるMIB変数
の数よりも遙かに少ない数を扱う)。
【0030】 以下の例は、記憶の必要性の低減を達成するために、被標準化形式を用いるこ
との概念を説明する。5つのMIB変数MV1,MV2,MV3,MV4,MV
5が、3つの被標準化形式NF1,NF2,NF3へマッピングされる。5つの
変数は、3つの被標準化形式の組み合わせとして計算される。3つの被標準化形
式が5つの変数を生成するために十分な情報を含むので、NF1,NF2,NF
3をデータベースに記憶し、かつ、変換(すなわち、式1〜式5)をMTF11
に記憶することが必要であるのみである。
【数1】
【0031】 《2段階変換--ラベルテーブル》 再び図1を参照すると、履歴情報が必要とされる場合に、LEエンジン100
は、これをデータベースモジュール120から回収する。回収された情報は被標
準化データであり、さらに、LEエンジン100は、これを、ユーザーにとって
より有意味な変数の形に翻訳する。変数には、独自のラベルと、ラベルテーブル
102(1)〜102(n)(本明細書において、概略的にラベルテーブル10
2と称する)セットの1つとが割り当てられる。ラベルテーブル102内の変数
は、通常はユーザーにとってMIB変数よりも有意味な要素の特徴を表す。例え
ば、ラベルテーブル102内の変数は、帯域幅と、利用率のパーセンテージと、
エラー、入力ビット(bits_in)、出力ビット(bits_out)などの数とを含む。
LEエンジン100内のラベルテーブル102は、被標準化形式とこれらの変数
との間の変換を記憶する。同じラベルテーブル102が、データベースモジュー
ル120にも記憶され、かつ、必要な統計をさらに計算すべくベースライン計算
ユニット122により用いられる。
【0032】 要するに、NOC135内に表示されているのをユーザーにより見られる変数
は、通常は、2段階の変換を受けてきている(前記変数は、MIB変数から被標
準化データへ変換され、次に、被標準化データから前記変数へ変換された)。こ
のような変換を行う価値について説明する簡単な例は、以下の通りである。エー
ジェントは、“優良受信フレーム(good frames received)”と“不良受信フレ
ーム(bad frames received)”とを、MIBに記憶する。MTF111は、2
つのカウントを合算することにより1つのカウントとして、これらを“受信フレ
ーム(frames received)”に標準化する。次に、ラベルテーブル102(1)
は、“受信フレーム”を取り上げ、かつ、デルタ時間(delta time)で除算して
、フレーム/秒の形で測定された“フレーム・イン・レート(frames in rate)
”を得る。他のラベルテーブル102(2)は、“受信バイト(bytes received
)”を取り上げ、かつ、“受信フレーム”で除算して、“平均フレームサイズ(
average frame size)”を得る。こうして、MTF内の被標準化形式を再利用す
る概念と同様に、多数の様々な変数を計算するために、通常は、ラベルテーブル
により、1つの被標準化形式が用いられる。
【0033】 ライブエクセプションズのために定義されている種々のラベルテーブルは、本
明細書に添付される付録A(Appendix A)に提示される。
【0034】 ラベルテーブルを用いる一つの利点は、これらのラベルテーブルが変数の追加
および削除を報告の形で遙かに容易に行うことである。ユーザーが新たな変数を
報告にとって利用可能(available)にする場合に、該ユーザーは、新たなラベ
ルを、その変数についてのラベルテーブルの1つに追加する必要があるのみであ
って、これにより、システム内の他のモジュールを修正する必要がなくなる。同
様に、他のモジュールではなくラベルテーブルのみを修正することにより、変数
を削除することができる。
【0035】 〈例外の生成〉 LEエンジン100がポーラーモジュール110からポーリングデータを受信
し、かつ、ラベルテーブルのうちの対応する1つにより定義された変換により該
ポーリングデータを変数の形に変換した後に、LEエンジン100は、変数に、
この変数と関連した問題が発生したか否かを判断するための規則を適用する。問
題が発生したならば、LEエンジン100は、ネットワーク管理者に知らせるた
めの通知を送信する。前記通知は、SNMPトラップおよび警報の形式である。
警報については、多数の関連要素と関連した問題を示すために統合整理すること
ができる。これらの警報は、例外(exception)と称される警報セットを形成す
る。
【0036】 問題の検出は、警報規則(alarm rule)を介して、ライブエクセプションズ・
システム内で指定される。警報規則は、単純(simple)警報規則および複合(co
mpound)警報規則という2つの形式からなる。単純警報規則は、1つの要素上で
定義された1つの変数により満たされねばならない条件を示す。ユーザーは、 ・ 要素の形式と、 ・ 変数、到達可能性(reachability)、または、利用可能性(availability
)に基づく警報の選択と 、 ・ 変数(例えば、帯域幅利用率(BandwidthUtilization)またはエラー総数
(TotalErrors))と、 ・ 分析ウィンドウ(analysis window)と、 ・ 条件ウィンドウ(condition window)と、 ・ 閾値超過時間(time over threshold)を、閾値未満時間(time under th
reshold)を、または、平均(mean)より上の、平均より下の、または、平均の
範囲外(上または下)の異常値を監視すべきか否かと、 ・ 警報の重大度(severity):通常(normal)、警告(warning)、小さな
問題(minor)、大きな問題(major)、致命的な問題(critical)と を指定することができる。
【0037】 これらの各々については、特定の警報規則形式に関する2つの例と関連して、
以下に、より完全に説明する。
【0038】 複合警報規則は、2つ以上の単純警報規則の結合である。ユーザーは、システ
ムに設けられるGUIを介して、この結合を選択することができる。複合警報規
則は、同じ要素上での異なる変数/閾値条件の指定を許容する。
【0039】 結合的な規則は、2組の単純規則条件の“AND演算”を実施する。データ変
数の各ポーリング毎に、2つの規則の両方の変数は、条件ウィンドウの蓄積時間
に追加するために、自身の定義された閾値条件を満たす必要がある。例えば、複
合規則が、60分の時間条件のうちの5分を指定すれば、次に、ポーリングにお
いて両方の変数が自身の閾値より上であれば、5分が、蓄積警報時間に追加され
る。変数のうち一方のみが自身の閾値より上であれば、いかなる時間も追加され
ない。
【0040】 警報規則を有用にするために、これらの警報規則は、要素により生成されたデ
ータに適用される。ユーザーにとって、各々の望ましい要素に適用すべき各々の
望ましい警報規則を指定することは非常に煩わしいので、システムは、警報規則
プロファイルを提供する。プロファイル320は、要素のグループ330または
グループリスト30に適用される。プロファイル320は、通常は、特定の技術
および使用について定義される。例えば、プロファイルについては、バックボー
ンATM WANリンクを形成する要素のグループについて定義することができ
る。全てのプロファイルは、特定の使用と関連した問題を検出する規則によって
占められる。
【0041】 システム10は、産業において見られる種々の要素グループに適用可能な多数
の予め定義されたプロファイルを提供する。管理者は、自身が自らのネットワー
クを管理したい基準について説明するプロファイルを定義することもできる。こ
の種のプロファイル、および、各々のプロファイルが検出する問題は、概略的に
は、 ・ 遅延プロファイル(過剰利用されること、または、輻輳が検出された場合
のいずれかによって、要素が遅延に寄与する場合に、警報を発令させる。)、 ・ 故障プロファイル(関連グループ内の要素がダウン状態になった場合に、
警報を発令させる。これらのプロファイルは、関連要素が余りにも多くのエラー
の影響を受け、これにより事実上故障した場合、または、関連要素が故障する危
険がある(例えば、何らかの枢要なリソースを使い果たしつつある)場合にも警
報を発令させる。)、 ・ 異常作業負荷プロファイル(要素に提示された作業負荷、または、要素に
より行われた作業が、履歴上の期間と比較した際に異常である場合に、警報を発
令させる。)、 ・ ホスト待ち時間プロファイル(ホストに対する待ち時間が異常に高いか、
または、妥当な限度を越えている場合に、警報を発令させる。)、 ・ 応答プロファイル(応答時間の問題が検出された場合に、警報を発令させ
る。各々のプロファイルは、各々の警報規則(または、密接に関連した規則のセ
ット)についてのテーブル内の入力によって、別個のテーブルに記述される。)
、 を含む。
【0042】 システムよって設けられ、かつ、産業において見られる種々の状況に適用可能
な予め定義されたプロファイルのセットに加えて、ユーザーは、独自のプロファ
イルを作成することもできる。説明した実施形態においてサポートされるプロフ
ァイルのリストは、本明細書に添付される付録B(Appendix B)に提示される。
【0043】 概して、プロファイルは、通常は、バックボーンATM WANリンクのよう
な、特定の技術および使用について定義される。各々のプロファイルは、通常は
、この使用に適用可能な条件を検出する規則によって占められる。例外は、これ
らの使用に対しての要素の状態を区別するために、要素とプロファイルとに結び
つけられる。このような例外/プロファイルの組の各々は、ライブエクセプショ
ンズのブラウザ内に、別個の行入力として表示される。例えば、フレームリレー
リンクの端点要素が、アクメ−NY−ボストン−リンク−5(Acme-NY-Boston-l
ink-5)と定義されると仮定する。さらに、この端点から遠端までの待ち時間を
測定しており、さらに、この端点からドロップフレーム(dropped frames)も測
定していると仮定する。これらの変数に関する条件を定義する規則は、フレーム
リレーリンク待ち時間(FrameRelayLinkLatency)およびフレームリレーリンク
ドロップフレーム(FrameRelayLinkDroppedFrames)という2つのプロファイル
の形で存在する。これらのプロファイルの各々は、SLA問題についての異なる
結果を有し、かつ、各々は、例外を別個に示す:
【表1】 上記の例において、ドロップフレームの増加は、ユーザーが同意に基づく(agre
ed-upon)帯域幅を利用できなくなることにつながる可能性がより高い。長い待
ち時間は、パフォーマンスに関する重要な指標である一方で、必ずしもSLAを
侵害するスループットの損失につながるとは限らない。(プロファイルに構わず
に)これらの例外が全体的な要素状態として組み合わされれば、この相違点は容
易に明らかとはならない。
【0044】 プロファイルは、ライブエクセプションズのブラウザ内の被験者−監視者対話
(Subjects-Monitor dialogue)を介して、要素のグループまたはグループリス
トに適用される。このことは、プロファイル内の各々の規則を、該規則の要素形
式にマッチングするグループ内の各々の要素に適用するという効果を有する。
【0045】 グループおよびグループリストは、ネットワーク監視の分野において公知の概
念である。概して、グループは、何らかの共通の特徴または技術を有し得る要素
のリストである(例えば、これらの要素は、同様の技術(例えば、ディスク)か
らなる要素のセットであり得る)。グループは、ネットワーク管理者が同様の形
式の情報を知りたいと思う対象である要素からなる何らかの組み合わせでもあり
得る。グループリストは、より一般的な関係(例えば、様々な記憶装置の形式)
を互いに有し得るグループの集合である。
【0046】 いったん、プロファイルとグループとが互いに関連づけられると、ライブエク
セプションズ・システムは、特定の要素からのポーリングデータの流れを監視し
始め、かつ、警報を適宜に生成する。
【0047】 図3を参照すると、警報規則と、プロファイルと、グループと、グループリス
トとの間の関係が示される。ライブエクセプションズは、問題を検出するための
アルゴリズム300の群を含む。アルゴリズム300は、ポーラーモジュール1
10により収集されたデータを監視するバックグラウンド処理として、LEエン
ジン100内で実施される。アルゴリズム300は、プロファイル320に書き
込まれる警報規則310により呼び出される。プロファイルについては、グルー
プまたはグループリストに適用することができる。図3において、プロファイル
320は、多数のグループ330(1)〜330(n)を含むグループリスト3
0に適用される。各々のグループは、通常は、特定の使用を表し、その一方で、
グループリスト30は、通常は、より一般的な使用を表す。プロファイル320
は、グループリスト30の関連グループ330とともに、どの要素を監視すべき
かに関して、かつ、いつ警報を発令させるべきかに関して、LEエンジン100
に指示する。警報規則310は、問題検出アルゴリズム300上で定義され、こ
の他に、閾値や、分析ウィンドウ(すなわち、ベースライン期間)や、条件ウィ
ンドウなどのような、アルゴリズムを制御するパラメータ320のセットをさら
に含む。
【0048】 図3は、複合警報規則をさらに示す。説明的な例において、警報規則310A
は、警報規則310BとAND演算されて、複合警報規則310Fを形成する。
この複合警報規則は、複合警報規則内の全ての単純警報規則が警報の発令を要求
する場合にのみ、警報を発令させる。
【0049】 例外340は、プロファイル320内で生成された全ての警報を組み合わせ、
かつ、1つの出力を所定の時間に生成する。例外340が発生すると、LEエン
ジン100は、トラップをNMS170へ送信し、さらに、イベントビューア1
30上に表示させる。警報は、多数の重大度レベルを有し、各々のレベルは、或
る値がその通常値から逸脱する量に関して定義される。例外の重大度は、対応す
るプロファイル内で定義される全ての個々の警報のうちで最大の重大度である。
【0050】 例外は、要素上で定義された1つ以上の警報の状態を組み合わせる。例外の重
大度の状態は、所定のプロファイル内の要素上で現在アクティブ状態である全て
の警報のうちで最大の重大度である。要素上でどの警報もアクティブ状態でない
場合に、発令させるべき最初の警報が例外を生成する。その後に、発令されかつ
消去(clear)された後続の警報が、単に、例外の重要度を変更する。例外を構
成する最後の警報が消去される場合に、例外それ自体が消去されたと称される。
【0051】 図4を参照すると、2つの警報a1,a2が、要素上で定義される。a1は小
さな問題(minor)の警報であり、かつ、a2は致命的な問題(critical)の警
報である。以下のイベントが結果として起こる: ・ a1が発令される場合に、例外は、小さな問題という重大度によって生成
される。 ・ a2が発令される場合に、例外は、致命的な問題という重大度に更新され
る。 ・ a1が消去される場合に、例外の重要度は、致命的な問題のままである。 ・ a2が消去される場合に、例外は消去される。
【0052】 《警報規則アルゴリズム》 〈閾値超過時間(Time Over Threshold)〉 問題を検出するための一つの枢要な取り組みは、監視されたデータの履歴を用
いることを含む。これを行うための特に簡単な方法が、閾値超過時間の規則によ
り説明され、その運用については、図5を参照することによって、より容易に理
解することができる。概略的には、ライブエクセプションズが特定の変数のため
にポーリングデータを蓄積する際に、LEエンジン100は、このデータを、分
析ウィンドウ42(説明される実施形態においては、通常は1時間であるが、状
況およびパフォーマンスの要求に応じて、より長くても短くてもよい)と称され
る時間間隔にわたって調べる。LEエンジン100は、この間隔内のデータ値を
、予め定義された閾値40と比較し、かつ、値が閾値を超えた総時間を計算する
。説明される例において、蓄積時間は、間隔44〜47の合計である。この総時
間が、条件ウィンドウと称される予め定義された量よりも大きければ、LEエン
ジン100は、警報を発令させ、かつ、トラップをNMSへ送信する。
【0053】 警報が発令されたウォールタイム(wall time)が、警報開始時間tsである。
データ値がその後に警報につながった閾値と最初に交差したウォールタイムが、
問題開始時間tp1である。問題開始時間から現在のウォールタイムまでの時間が
、警報の継続時間43である。ライブエクセプションズは、イベントビューア1
30に配置されたそのブラウザインターフェースを通して、これらの時間の各々
を、ユーザーに表示する。
【0054】 警報が発令されると、アクティブ状態と称される。分析は、警報の発令を誘発
した同じパラメータを用い続ける。警報は、その条件がもはや満たされなくなる
までアクティブ状態のままであり、警報が消去されると非アクティブ状態となる
【0055】 時間が進行するにつれて、分析ウィンドウ42内の閾値40を超えた総時間が
依然として条件ウィンドウを超過する限り、警報はアクティブ状態のままである
が、トラップはそれ以上NMSへ送信されない。分析ウィンドウ42内の閾値4
0を超えた蓄積時間がもはや条件ウィンドウを超過しなくなると、LEエンジン
100は、警報を消去する。蓄積時間がもはや条件ウィンドウを超過しなくなる
と、LEエンジン100は、今や警報条件が消去されたことをNMSに通知する
他のトラップを、該NMSへ送信する。
【0056】 分析ウィンドウ42が、警報がアクティブ状態になった後に時間軸に沿って滑
動し続け、時間が進むにつれて、閾値条件を超えた時間を監視し続けることに留
意することは重要である。このことは、警報が気まぐれに消去されることはなく
、“フラッピング(flapping)”警報(オペレータにより面倒な条件が掲示され
かつ既知となっても、引き続いて自己主張する警報)の確率を低減させることを
意味する。
【0057】 単純である一方で、閾値超過時間の規則は非常に強力である。瞬間的な問題(
データ内の短いスパイク)は、警報を発令させない。しかしながら、スパイクが
繰り返し起こると、警報が発令される。このことは、警報を始動(trip)させれ
ば迷惑なものでしかない速いスパイクと、注意を要求するこのようなスパイクの
系列との間の重要な相違点を引き出す。さらに、閾値を超えて経過した連続的な
時間もまた警報を発令させ、訂正すべき持続性条件(persistent condition)を
示す。
【0058】 前述したように、少なくとも以下のパラメータが、インターフェースを通して
、または、他の手段により、ユーザーにより設定可能である: ・ ‘閾値’(それより上であれば、時間が蓄積されるデータ値); ・ ‘分析ウィンドウ’(その範囲内で時間が蓄積される時間間隔); ・ ‘条件ウィンドウ’(警報を発令させる閾値より上のデータ値によって経
過することが必要な総時間)。
【0059】 さらに、後述するように、ライブエクセプションズは、ユーザーが、様々な規
則を通して、閾値超過時間の趣旨に関する変形例を選択することを可能にする。
【0060】 実際に監視されたデータが、各々のポーリングデータについてのデータポイン
トを備えた、個々のデータポイントの系列の形式であることに留意されたい。し
かしながら、視覚的な効果のために、ユーザーインターフェースは、これらを、
個々のデータポイントとしてではなく、個々のポイントを相互に連結させる線グ
ラフとして表示する。
【0061】 〈利用可能性および到達可能性のための閾値超過時間〉 基本的な閾値超過時間の規則は、要素の到達可能性(reachability)または利
用可能性(availability)を判断するように修正される。
【0062】 利用可能性および到達可能性は、ライブエクセプションズの規則の定義におい
て重要かつ特別な事例である。到達可能性は、要素を含む装置と通信するための
ポーラーの能力として定義される。到達可能であるために、装置は、ICMPピ
ング(pings)に応答する必要がある。装置が到達可能であるか否かに関する指
標は、装置の各ポーリング毎にライブエクセプションズ・システムが使用するた
めに、ポーラーにより生成される。
【0063】 利用可能性はより複雑である。その定義は時間依存的(time-dependent)であ
る。ポーラーは、装置により定義される場合の、(‘sysUpTime’を介しての)
再起動(reboots)や、‘ifOperStatus’(すなわち、等価的)のような該装置
の特性を査定する。利用可能性は、一般的には、装置のポーリングが成功するま
では、ポーラーには知られないので、直接の値が、各ポーリング毎に常に得られ
るとは限らない。
【0064】 利用可能性アルゴリズムは、いつ要素が利用不可能となるのかを検出する。い
ったん、少なくとも警報規則内で定義されたウィンドウ長さの間ずっと要素がア
ップ状態となったことがポーリングデータから明らかになると、ライブエクセプ
ションズは、該警報を消去する。この場合に、ウィンドウの目的は、要素が反復
的に上下に“跳ねている”場合に1つの警報を発令させることである。
【0065】 ホスト、ルーター、スイッチ、サーバー、および、遠隔アクセスサーバー(re
mote access server:RAS)について、ホストがダウン状態になると、該ホス
トのエージェントをピングすることもポーリングすることも不可能となる。この
ことは、最初に、到達可能性問題として考えられる。その後、ホストが再起動し
かつアップ状態に復帰すると、ホストのエージェントをピングしかつポーリング
することが再び可能となる。この時点で、ライブエクセプションズは、ホストが
再起動し、かつ、ダウン状態になったいたと考え、かつ、その時点で警報を発令
させる。
【0066】 LANインターフェースおよびWANインターフェース内、モデム内、ISD
N内、CPU内、ディスク内、パーティション内、処理装置(processes)内、
処理セット(process sets)内、および、応答経路ホスト内の子要素(child el
ements)がダウン状態になると、ホストのエージェントは、アップ状態のままで
いることができ、かつ、ピングかつポーリングされ得る。これらの場合に、ライ
ブエクセプションズは、要素をポーリングしたときに、子要素がダウン状態にな
ったことを検出し、かつ、即時に警報を発令させる。
【0067】 到達可能性は、要素をピングできるか否か(すなわち、問い合わせ(query)
がオブジェクトに到達でき、かつ、その応答が受信され得るか否か)により定義
される。利用可能性は、要素が機能しているか否か(すなわち、要素がアップ状
態にあるか、または、ダウン状態にあるか)により判断される。到達不可能な(
non-reachable)要素は、ポーラーモジュール110が該要素に到達できなくな
った瞬間に警報を生成するが、該警報は、分析ウィンドウにより指定された時間
量の間ずっと該要素が再び到達可能となった後にのみ消去される。利用可能性も
同じ方法にて作用する。
【0068】 到達可能性アルゴリズムは、要素のエージェントのIPアドレスのピングがい
つ失敗するのかを検出する。
【0069】 ホストについて、ホストがダウン状態になると、エージェントのアドレスは、
ピングへの応答を停止し、かつ、到達可能性警報が即時にホストのために発令さ
れる。ホストがダウン状態になった場合の通常的なイベントの順序は、下記の通
りである: 1.ホストがダウン状態になる。 2.ホストのエージェントのIPアドレスがピングされ、該ピングが時間切れ
(times out)となり、かつ、リタイアする。全ての試行が時間切れとなると、
ピングが失敗し、かつ、‘ホストが到達不可能(Host Unreachable)’という警
報が発令される。 3.最終的に、ホストは再起動し、かつ、オンライン状態に復帰する。 4.ホストのエージェントのIPアドレスがピングされ、かつ、該ピングが成
功する。次に、ホストのエージェントがポーリングされ、かつ、ホストが再起動
したこと、および、ホストが或る期間に利用不可能であることが知られる。‘ホ
ストダウン(Host Down)’警報が、その時点で発令される。 5.ホストのエージェントのIPアドレスのピングが、規則により定義された
ウィンドウに等しい連続的な時間の間ずっと成功すると、到達可能性の警報が消
去される。
【0070】 ホスト内の大部分の子要素は、自身の親ホストと同じエージェントのIPアド
レスを有する。IPアドレスは一度だけピングされ、かつ、そのピングの結果は
、同じアドレスを備えた全ての要素のために用いられる。全ての子要素は、自身
の親と同じ到達可能性を有する。したがって、デフォルトのプロファイルは、子
要素についての到達可能性の警報規則を定義しない。代わりに、これらは、親ホ
ストに制限される。
【0071】 この修正された規則は、閾値を必要としないので、基本的な閾値超過時間の規
則よりも単純である。要素またはアプリケーションがダウン状態になると、即時
に警報を生成する。さらに、実際のシステムにおいて、要素またはアプリケーシ
ョンは、アップ状態およびダウン状態のサイクルを経ることが通常的である。修
正された規則は、基本的な規則のように、問題のある動きを統合整理することが
でき、かつ、それについて、1つのトラップの形でNMS170へ報告する。
【0072】 〈動的閾値超過時間(Time Over Dynamic Threshold)(すなわち、異常値の規
則、または、動的な規則)〉 単純な閾値超過時間の規則は、一定の閾値を用いる。時間変動制(time-varyi
ng)閾値(履歴データに依存する閾値)もまた、他の多数の規則において用いら
れる。ライブエクセプションズにより定義されるこのような変形例の1つは、所
定の日時における変数についての“通常(normal)”値を利用する。
【0073】 或る期間にわたって、データ値の系列は、提示された値についての分布(dist
ribution)を保有する。分布は、通常は、その平均(mean)と標準偏差(standa
rd deviation)とにより要約され、正規分布すなわち“釣鐘曲線(bell curve)
”形式の分布から得られる概念は、通常は、多くの種類の統計的測定内に見出さ
れる。統計的な標準偏差は、通常値からの偏差に関する特に有用な指標である。
平均は、単に、集合(set)にわたる平均的な(average)値である。標準偏差は
、平均からの値の偏差の平均的な“幅”を測定する。特定の値の系列がその現在
の軌跡から“逸れる(veer off)”ことが、尤度(likelihood)の尺度である。
時には、ユーザーは、或る値とその標準偏差との和が、いつ或る閾値より上とな
るのか(すなわち、その値がいつ“エッジに近過ぎる(too close to the edge
)”状態になるのか)を知ることを希望する。これが、動的閾値超過時間の規則
、または、異常値の規則の背後にある考えである。
【0074】 ライブエクセプションズは、一日の各1時間についての通常値(すなわち、ベ
ースライン値)を記憶し、この通常値は、以前の6週間にわたるその1時間につ
いての平均値として計算される。動的閾値超過時間の規則の場合に、ライブエク
セプションズは、現在のデータ値を、通常値と比較する。警報は、通常値に基づ
いて定義され、かつ、該警報は、或る一定量の時間が該通常値からの所定偏差を
越えて経過したことを示す。
【0075】 このことは、ライブエクセプションズにおいて、百分率(percentile)として
表現される。所定値に対する値のセットの百分率は、該セット内における所定値
より下である値の数のパーセンテージである。例えば、“50は第90番目の百
分率値である”と称する場合に、このことは、セット内の値の90%が50より
下であることを意味する。これは、標準偏差の実際の倍数(multiples)に関し
ても正確な記述である。
【0076】 この規則形式に関する他の変形例において、ライブエクセプションズは、ユー
ザーが、普通の(ordinary)パーセンテージと絶対値とにより偏差を指定するこ
とも許容する。
【0077】 変数の“異常な”値を検出することが、図2において説明される。この形式の
規則と、前述した閾値超過時間の規則との主な違いは、閾値が時間とともに変動
することである。しかしながら、この場合における閾値超過時間への寄与は、単
にデータ値が閾値を超過することではなく、データ値が、この閾値を、指定され
た偏差だけ超過する必要があることである旨にも留意されたい。
【0078】 図6は、動的閾値超過時間の規則がどのように作用するのかを図式的に説明す
る。動的閾値超過時間アルゴリズムは、通常値51(すなわち、動的閾値)と、
分析ウィンドウ52と、条件ウィンドウ(予め定義された固定値、図示せず)と
を含む。通常値50は、データ系列が或る一定量よりも多くは逸脱できない値で
あり、分析ウィンドウ52は、滑動する時間間隔であり、かつ、条件ウィンドウ
は、変数が平均を所定の量(例えば、時間間隔54、55,56,57の合計)
だけ超過する蓄積時間についての時間閾値である。警報生成工程は、図5に説明
される閾値超過時間の規則のために用いられる工程と同様である。この規則と閾
値超過時間の規則との主な違いは、閾値40が、時間変動制通常値と“偏差”と
の和に置き換えられることである。
【0079】 動的閾値超過時間の規則は、最初は、潜在的なディスクスペースの枯渇に関す
る優れた指標を提供するために開発された。ディスクスペースを使い果たすこと
は多分壊滅的なことなので、ユーザーは、このスペースがまもなく使い切られる
可能性が高いか否かについて警告されるべきである。この規則は、このことを正
確に達成する。その理由は、標準偏差が、スペース使用量が或る期間にわたって
どれだけ広く揺れる可能性があるのかに関する優れた尺度であるためである。こ
の事例において、ユーザーにより定義された閾値は100%である。デフォルト
のライブエクセプションズ・プロファイルは、動的閾値超過時間の規則を用いて
、ディスクスペースの規則を符号化する。
【0080】 しかしながら、動的閾値超過時間の規則は、何らかのハードの限界を超過する
ことが壊滅的な結果となるか、または、或る意味では丸一日を台無しにする任意
の状況において有用であり得る。このような変数の例は、メモリ使用量、SLA
についての帯域幅利用率、または、ダイヤルイン回線セットの利用率であり得る
【0081】 適切な変数上で定義される場合に、異常値の警報は、考えられ得るシステムの
問題に関する優秀な指標を提供する。例えば、深夜のルーターインターフェース
上における高いトラフィックレートは、遠隔サーバーと通信しようとする暴走(
runaway)問題を示すことができる。または、通常は殆ど用いられないワークス
テーション上における高いCPU利用率は、利用の変化について、または、マシ
ン上で作動している不適切なプログラムについて、オペレータに知らせることが
できる。これらの場合のいずれにおいても、救済的な処置、または、受容能力(
capacity)の増加が要求され得る。
【0082】 この規則を調べるための方法が2つ存在する。一つは、ユーザーにより定義さ
れた閾値を標準偏差の分だけ低減させ、かつ、この結果を、データ値を比較する
ための実際の閾値として用いることである。標準偏差はデータから動的に計算さ
れるので、このことは、規則の名目における“動的閾値(dynamic threshold)
”という語を生じさせる。この考えについては、値がいつ閾値を超えるのかを判
断するための以下の簡単な式により要約することができる: データ値(DataValue) > ユーザー閾値(UsetThreshold) − 標準偏差(Standar
dDeviation)
【0083】 この規則を調べるためのもう一つの方法は、“エッジに近過ぎる(too close
to the edge)”ことの類推(analogy)によるものである。前記公式を僅かに再
調整することによって、この見解が提供される: データ値 + 標準偏差 > ユーザー閾値
【0084】 この規則は、低減された閾値が自動的に計算され、変数の使用量に関する日々
の揺れ(day-to-day swings)を追跡するという点で、単に低減された閾値を定
義することとは異なることに留意されたい。したがって、ユーザーが間断なく閾
値を望ましい感度レベルに調整する必要がない。
【0085】 〈平均からの絶対的規則(Absolute from Mean Rules)〉 ‘平均からの絶対的規則’を用いることは、予め定義された固定量により、い
つ変数が平均より上または平均より下になるのかを検出する。この規則は、値が
固定のまたは安定した構成設定から変化した場合に、最も有用である。例えば、
この規則については、ファイルシステムがいつ再構成設定(reconfigure)され
たのかと、その受容能力がいつ変更されたのかとを検出するために用いることが
できる。
【0086】 〈平均からのパーセンテージ規則(Percentage from Mean Rules)〉 ‘平均からのパーセンテージ規則’を用いることは、パーセンテージにより、
いつ変数が平均より上になるのかを検出する。例えば、平均よりも100%上と
いう規則は、いつ変数がその平均値の2倍になるのかを検出する。この規則は、
平均値に比例した、値の変化を検出するために有用である。
【0087】 〈平均からの偏差規則(Deviation from Mean Rules)〉 ‘平均からの偏差規則’を用いることは、動的な百分率により、いつ変数が平
均より上になるのかを検出する。百分率は、標準偏差に基づいて動的に計算され
る。ユーザーは、或る値が、通常範囲に留まるために、その平均からどれだけ遠
くへ逸脱できるのかを示すための百分率パラメータを、規則において指定するこ
とができる。百分率が高いほど、警報を発令するために値が平均からより遠くに
存在する必要がある。‘平均からの偏差’は、データの平均および受認可能な変
数の両方を動的に決定する。‘平均からの偏差’は、平均が変化するが変数が平
均に非常に近接したままである場合(すなわち、小さな標準偏差)に適応し、さ
らに、平均が同じままであるが平均からの変化量が大きい場合にも適応する。
【0088】 アルゴリズムを組み合わせることができる。例えば、通常値からの僅かな発散
(divergence)が警報を生成するのを防ぐために、‘平均からの偏差’アルゴリ
ズムを、’平均からのパーセンテージ’アルゴリズムと組み合わせることができ
る。
【0089】 《日時と曜日とを備えた動的閾値超過時間》 動的閾値の規則についての分析ウィンドウ52は、一定時間である必要はない
。実際に、種々のネットワーク要素について、関連した変数の統計は、日時(th
e time of a day)と曜日(the day of a week)とに応じて変動する傾向がある
。例えば、オフィスビル内のイーサネット(登録商標)要素は、一般的には、日
曜の早朝時間よりも平日の就業時間中の方が使用量が高く、したがって、パケッ
ト衝突のパーセンテージも同様に上下変動する。
【0090】 したがって、或る変数についてのポーリングデータは、該ポーリングデータが
収集される時間(通常は、1時間)および曜日によりグループ化される。その1
時間についての変数の統計は、計算され、かつ、その後に組み合わされて、分析
ウィンドウ全体についての統計を形成する。
【0091】 《動的閾値超過時間:全体的時間範囲》 幾つかの状況における問題(例えば、潜在的なディスクスペースの枯渇)を検
出するために、連続的な期間を用いることができる。ディスクスペースを使い果
たすことはシステムにとって壊滅的なことなので、ユーザーは、ディスクスペー
スがまもなく使い切られることについて警告されるべきである。一般的に、基本
的な閾値超過時間の規則は、各々のディスクパーティションが独自の閾値を有し
ているので、この状況においては作用しない。しかしながら、動的な規則は、ス
ペース使用量が或る一定期間にわたってどれだけ広く揺れる可能性があるのかに
関する優れた指標を提供する。
【0092】 〈例:ディスクのパーティショニング〉 動的閾値超過時間アルゴリズムは、パーティションがいつほぼ満杯になるのか
を、関連した変数に関する最近の履歴を過去数週間の分析ウィンドウにわたって
検査することにより、判断する。アルゴリズムは、パーティション利用率がその
期間にわたって通常はどの程度増大しかつ縮小するのかを判断する。アルゴリズ
ムは、分析ウィンドウ全体にわたる変数内に見られる変化量を計算する。ディス
クのパーティションの問題について、変化量は、通常は、その標準偏差により測
定される。
【0093】 特定の日時と特定の曜日とを用いる代わりに、前記統計は、分析ウィンドウ内
の期間全体を用いる。その理由は、ディスクのパーティションが、一般的に、他
のネットワーク要素ほど日時や曜日に敏感ではないためである。動的な規則は、
急速に変化するパーティションスペース、間断なく満杯のパーティション、また
は、高いが安定した利用率を備えたパーティション(例えば、システムパーティ
ション)のような、様々な特徴を備えたパーティションに動的に順応することが
できる。
【0094】 〈システムの起動における履歴情報〉 システム10が起動(start up)すると、LEエンジン100は初期化され、
かつ、基本的な閾値超過時間の規則が用いられる。履歴情報は、規則をサポート
のに十分なデータが収集される後まで用いられない。同様に、ユーザーがプロフ
ァイルを変更する場合に、新たな要素が、履歴を分析ぜずに初期化される。
【0095】 〈データベースモジュールに記憶されるデータ統計〉 変数について定義された規則(例えば、動的な規則)が自身の統計に依存すれ
ば、ベースライン計算ユニット122は、関連した被標準化データを、適切な変
数の形に変換し、かつ、これらの変数の第1および第2モーメントを計算する。
計算は、更新が要求される毎に統計を完全に再計算(recomputing)することに
よる代わりに、増分的に(incrementally)行われ、かつ、これらの結果は、L
Eエンジン100が規則のパラメータとして用いるために、データ記憶ユニット
121に記憶される。
【0096】 増分的計算(incremental computation)方法を用いることの利点が、少なく
とも2つ存在する。一つの利点は、ディスクスペースを節約することである。こ
れらのモーメントは被標準化データよりも小型であり、さらに、これらのモーメ
ントは、少なくとも規則が何を必要とするのかに関する見込みから、十分にデー
タを特徴づける。もう一つの利点は、計算コストに関連する。ベースライン期間
(すなわち、分析ウィンドウ)全体にわたる第1および第2モーメントの計算は
、多量の時間と処理力とを浪費する。増分的計算は、両方を遙かに少なく用いて
、再利用できる中間的な統計結果を記憶する。
【0097】 〈第1および第2モーメントの増分的計算〉 通常のアルゴリズムから逸脱する形で、ライブエクセプションズは、ベースラ
イン期間にわたる変数の平均および標準偏差の増分的計算を用いる。この工程は
、以下のように作用する:
【0098】 時間にわたる変数x(t)の平均x ̄(ただし、‘x ̄’は、‘x’の上に‘
 ̄’を付した記号を表す)および標準偏差σxについては、下記の公式を用いて
、期間(T0,T1)について計算することができる:
【数2】
【0099】 収集された変数は、ポーリング期間にわたって一定である。その理由は、多く
の変数が、ポーリング期間の開始および終了におけるカウンター値をポーリング
することにより、かつ、時間の差で除算されたカウンターの差を計算することに
より、計算された割合(rate)であるためである。この割合は、ポーリング期間
全体にわたる変数の値である。ポーリングがおおよそ均等な間隔で行われる間に
、これらの間隔の長さは僅かに変動し、時々は、サンプルが多数のポーリング期
間に及び得る。例えば、1行内の2つのポーリングについてサンプルが取られな
ければ、成功した第3ポーリングにおいて収集された実際のサンプルが、3つの
ポーリング期間に及ぶ。
【0100】 所定の1時間について、サンプルが、その1時間の開始および終了と整列しな
いことがある(および、整列する可能性が少ない)。したがって、間隔(T0
1)が、その1時間の開始および終了の境界を画定するものとする。さらに、
1,x2,…,xn,を、その1時間の範囲に及ぶ時刻t0<t1<…<tnにおい
て取られた変数x(t)のn個のサンプルの値とする。すなわち、
【数3】
【0101】 次に、前記システムは、その1時間について、以下の変数を計算する:
【数4】
【0102】 各1時間についてのこの計算は、変数の統計を表すために、X1,X2,ΔT,
1を計算しかつ記憶するバックグラウンド処理により行われる。
【0103】 これらの記録から、その1時間についてのx(t)の平均および標準偏差は、
次に、以下のように計算される:
【数5】
【0104】 ‘平均からの偏差’を用いた‘通常からの偏差(Deviation from Normal)’
について、通常範囲は、k週のベースライン期間の各1時間についてのランダム
な変数x(t)の平均および標準偏差に基づいて計算される。ベースライン期間
は、以前のk週間についての同じ曜日の同じ1時間からなる。例えば、6月14
日水曜日の、1500〜1600時間についての6週間のベースラインは、全て
が6月7日水曜日、5月31日水曜日、5月24日水曜日、5月17日水曜日、
5月10日水曜日、および、5月3日水曜日の1500〜1600時間からの6
時間からなる。
【0105】 k週のベースライン期間についての平均および標準偏差は、下記の記憶された
1時間の記録が与えられれば、容易に計算される。
【数6】
【0106】 ここで、j=1…kは、以前のk週間についての記録インデックスである(す
なわち、記録jは、j週間前からの同じ曜日の同じ1時間を表す)。これらの記
録は、Xj1,Xj2,ΔTj,Tjという値を含む。
【0107】 各々の記録がバックグラウンド処理により一回計算される一方で、次に続く週
においてはk回用いられる。その1時間についての記録が、サンプル当たりの記
録ではなく、4つの変数のみからなることにも留意されたい(1時間における通
常的なサンプル記録数は12である)。したがって、処理力および記憶の著しい
低減が達成される。
【0108】 〈統計の更新および回収〉 統計が更新される頻度と、統計が回収される頻度とに関して考慮すべき事柄が
多数存在する。一つには、統計は、関連規則が変数の動きに適応できかつこれら
の変数の変化を迅速に検出できるように十分に頻繁に更新されることを必要とす
る。さらに、データベースモジュール120に記憶された統計結果の数は非常に
大きいので、これらをデータ記憶装置から効率的に回収することもまた重要であ
る。
【0109】 〈毎時間の更新〉 一つの取り組みによれば、ベースライン計算ユニット122は、変数について
の毎時間の統計を計算する。変数と関連した要素が5分毎にポーリングされれば
、1時間毎に12個のサンプルが存在する。これら12個のサンプルは、統計を
計算するためのベースライン計算ユニット122へ送信され、かつ、これらの計
算結果は、データ記憶ユニット121に記憶される。
【0110】 或る要素が新たな1時間へ移行すると、LEエンジン100は、動的閾値超過
時間の規則において用いられる、その要素と関連した変数の統計について、デー
タベースモジュール120に問い合わせる。動的な規則の形式に応じて、回収ス
キームは、以下のパラグラフにおいて説明するように、異なるものとなる。
【0111】 〈全体的な多数週範囲(Entire Multi-week Range)〉 回収スキームは、規則が全体的な多数週範囲に基づくのか、または、規則が特
定の日時および特定の曜日(例えば、火曜日の午後9時)に基づくのかに応じて
異なる。全体的な多数週範囲に基づく規則に関して、LEエンジン100は、最
初に、全体的な多数週範囲にわたって、データベースモジュール120に問い合
わせる。すなわち、LEエンジン100は、変数についてのN個の中間的な統計
を保持する(ここで、“N”は、全体的な多数週範囲内の週の数である)。要素
が次の1時間と交差する場合に、過去の1時間において収集されたデータが統計
に組み込まれ、その一方で、範囲の最初の1時間からのデータは除去される。し
たがって、安定した状態において、データベースモジュール120は、交差した
各々の1時間についての2つの問い合わせを実行する。一方の問い合わせは、た
った今経過した1時間についての新たな統計を追加することであり、他方の問い
合わせは、時間範囲の始まりにおける古い統計を除去することである。
【0112】 〈日時および曜日〉 全体的な多数週範囲にわたる特定の日時および特定の曜日に基づく規則に関し
て、必要とされるデータ転送の数は、多数週範囲内の週の数に等しい。要素が新
たな1時間と交差する場合に、LEエンジン100は、該新たな1時間に対応す
る曜日・時間内で収集されたデータの統計についてのN個の問い合わせを、デー
タベースモジュール120へ送信する(ここで、“N”は、多数週範囲内の週の
数を表す)。したがって、定期的な状態においては、N個の問い合わせは各時間
毎に生成され、該問い合わせの各々は、多数週範囲における特定の日時および特
定の曜日に収集された12個のデータサンプルから計算された統計に対応する。
【0113】 〈毎夜の更新〉 終日にわたる統計を更新するための代替案は、ベースライン計算ユニット12
2が、必要とされる全ての計算を、一日の終わりに行うことである。この場合に
、ベースライン計算ユニット122は、夜にジョブバッチを受信し、該ジョブに
含まれる全てのデータを処理し、その後に、結果をデータ記憶ユニット121へ
返す。LEエンジン100は、新たな統計が必要とされる場合に、計算結果を回
収する。この代替案は、多数週範囲にわたる特定の日時および特定の曜日に基づ
く規則に、特に適している。その理由は、この日時および曜日が次の週に到達す
るまで、新たな統計が必要とされないためである。この代替案は、更新頻度を毎
時間ではなく毎日に修正すれば、全体的な多数週範囲に基づく規則のためにも作
用する。
【0114】 〈統計の記憶〉 動的閾値超過時間の規則は、規則と関連した全ての変数について、モーメント
が計算されかつ記憶されることを必要とする。ベースライン計算ユニット122
が毎時間についてのモーメントを計算した後に、ベースライン計算ユニット12
2は、監視されている全ての要素の全ての変数についての行を用いて、これらの
統計をデータ記憶ユニット121に記憶する。或る要素に関する同じ変数を監視
することについての多数の要求があれば、1つの行のみが毎時間について生成さ
れる。したがって、記憶スキームは、重複が回避されるという点で効率的である
【0115】 〈出力−イベントビューア〉 LEエンジン100の出力は、Java(登録商標)ベースのGUIブラウザ
である例外イベントビューア(Exception Event Viewer)内に表示される。イベ
ントビューアから、NOC135内のユーザーは、任意のグループまたはグルー
プリストについての例外チャートおよび例外カウントを閲覧することを選択する
ことができ、これらの例外の重大度を監視することができ、かつ、例外がどのよ
うに発展するのかを適時に検査することができる。
【0116】 図7を参照すると、イベントビューア130は、情報をネットワーク管理者へ
伝達するための例外イベントチャート(exception event chart)61と、例外
イベントテーブル(exception event table)62と、組織フレーム(organizat
ion frame)63とを表示する。例外イベントチャート61を通して、システム
は、選択されたグループ内の全ての要素についてのアクティブな例外の総数を示
すか、または、デフォルト状態では、全ての要素の例外のカウントを表示する。
例外イベントテーブル62を通して、システムは、全ての現在の例外を列挙する
。また、組織フレーム63を通して、システムは、ユーザーに、全てのグループ
リストとグループと要素とを閲覧することを許容し、かつ、全体的な要約データ
の閲覧を与えることを許容する。ユーザーが特定のディスプレイ構成要素に焦点
を当てられるように、ディスプレイ構成要素の各々については、容易にサイズを
変更したり、縮約したり、または、拡大したりすることができる。
【0117】 〈例外イベントチャート〉 例外イベントチャート61を通して、ユーザーは、履歴的な例外イベントと現
在の例外イベントとを、同時に閲覧することができる。ライブエクセプションズ
は、イベントチャート61を用いて、各々のポーリング期間〜対〜時間について
の垂直軸上における例外カウント総数を表示し、これは、スクロール可能なパネ
ル内の水平軸上におけるポーリング間隔として表示される。ユーザーが組織フレ
ーム63からグループまたはグループリストを選択していなければ、イベントチ
ャート61は、全てのグループの例外カウント総数を、デフォルトとして表示す
る。ユーザーが組織フレーム63からグループまたはグループリストを選択すれ
ば、イベントチャート61は、選択されたグループまたはグループリストについ
て現在アクティブな全ての例外を表示する。さらに、イベントチャート61は、
選択されたグループ名を表示し、そうでない場合には、デフォルト名“全て(Al
l)”が示される。例外チャート閲覧ウィンドウの範囲は、ポーリング期間当た
りのグラニュラリティ(granularity)によって構成設定可能である。
【0118】 〈例外イベントテーブル〉 例外イベントテーブル62は、行および列の形で情報を提示する。列は、グル
ープリスト名(group list name)、グループ名(group name)、要素名(eleme
nt name)、警報の形式(type of alert)、警報開始時間(start time of aler
t)、警報終了時間(end time of alert)、警報の重大度(severity of alert
)、技術の形式(technology type)、および、リストからの要素について例外
を誘発した枢要な変数(key variables)、というヘッダを有する。イベントテ
ーブルは、スクロール可能なパネル内の要素リストをソートするために列のヘッ
ダを選択することを、ユーザーに許容する。ユーザーは、ヘッダを選択して該ユ
ーザーにとって好ましい位置へドラッグしかつドロップすることを介して、およ
び、右マウスボタンのメニュー選択オプションを用いることにより閲覧または隠
匿すべき列を構成設定することを介して、テーブルの列の順番を取り決めること
の柔軟性を有する。イベントテーブル内で消去(すなわち、非アクティブに)さ
れた例外は、構成設定された値よりも長い期間の間ずっと非アクティブのままで
あれば、イベントテーブルから消滅(age out)させられる。さらに、ユーザー
が或るグループまたはグループリストから他のグループまたはグループリストへ
切り替われば、非アクティブの古い例外は、イベントテーブルから除去される。
【0119】 〈組織フレーム〉 組織フレーム63は、例外がどこで発生するのかをユーザーが迅速に見ること
ができ、かつ、システムにより収集されるさらなる情報にアクセスすべくユーザ
ーが該例外へドリルダウン(drilldown)することができる手段となる機構を提
供する。組織フレーム63において、各々のグループは、そのグループ内で発生
する例外の総数を有する。例外イベントグループリストフレームは、全てのグル
ープの組織の閲覧を与え、かつ、スクロール可能なフレーム内で、グループリス
トをグループと要素とに拡大したり、または、グループの要素をグループとグル
ープリストとに縮約したりすることを、ユーザーに許容する。ユーザーが組織フ
レーム63からグループを選択すれば、イベントチャート61は、該イベントチ
ャート内の現在の例外カウントを表示し、かつ、イベントテーブル62は、適切
なデータ属性を表示する。グループまたはグループリストは、該グループまたは
グループリストと関連するユーザーに対してのみアクセス可能である。
【0120】 〈上位10位例外ウィンドウ(Top 10 Exception Window)〉 Java(登録商標)ベースのイベントビューア130は、別個の対話ウィン
ドウをポップアップ(popup)するために、アイコンからクリックすることをユ
ーザーに許容し、それにより、グループ名またはグループリスト名と、各々のグ
ループまたはグループリストについての例外カウント総数とを備えた上位10例
外ウィンドウが表示される。上位10位までの例外の表示は、構成設定された期
間の間ずっと自動的に更新され、かつ、最新の更新時間がさらに表示される。こ
のポップアップ式対話ウィンドウは、グループ名またはグループリスト名をクリ
ックすることにより、他のイベントビューアへドリルダウンすることを許容する
【0121】 〈ポップアップメニューオプション(Popup Menu Option)〉 さらに、Java(登録商標)ベースのイベントビューア130は、新たなイ
ベントビューアを立ち上げる(launch)べく、組織フレーム63から右マウスボ
タンをクリックすることをユーザーに許容し、この結果、ユーザーは、他のセッ
トの要素を同時に表示することができる。
【0122】 《警報詳細報告(Alarm Detail Report)》 ライブエクセプションズは、警報または例外の履歴報告をユーザーのために生
成することができ、かつ、その報告をイベントビューア130内に表示すること
ができる。ライブエクセプションズは、ユーザーが、警報詳細報告を生成し、次
に、報告を生成すべき警報または例外を選択することを可能にする。表示される
動向報告は二次元チャートであり、x軸は時間を示し、かつ、y軸は監視される
変数の値を示す。
【0123】 特定の変数についての警報詳細報告70の例が、図8に示される。報告70は
、関連変数の値を、時間の関数としてプロットする(プロット73を参照)。報
告70は、一連の垂直方向のバー72をさらに表示し、該バー72は、各々が、
1時間という別々の期間を表し、かつ、各々が、以前の期間にわたるその日時に
ついての変数の平均値をマーキングする中心線71を有する。各々のバーの広が
りは、以前の期間にわたる平均からの、その変数の観測された変化量を特徴づけ
る。この場合には、観測された平均値からの正および負の標準偏差が表される。
【0124】 説明された例において、適用されている規則は、動的閾値超過時間の規則であ
る。より明確には、この例は、WAN要素と関連した待ち時間についての警報詳
細報告であり、かつ、動的閾値超過時間の規則を用いる。この例は、時間に対す
る要素の待ち時間の尺度を示す。バーからバーへの中心線71の変動レベルは、
規則がその閾値を平均値の計算に基づいて更新することを示し、かつ、変動する
バーの長さは、規則がその通常値をも標準偏差の計算に基づいて更新することを
示す。線73が、バー要素72の上端または下端のいずれかと、その期間におい
て交差する場合に、LEエンジン100は、該線がバーの外側に存在する間の時
間を蓄積し、かつ、LEエンジン100は、分析ウィンドウ内の総蓄積時間が、
規則において指定された条件ウィンドウを超過すれば、警報を誘発する。報告7
0によって、ユーザーは、変数の履歴的動向を閲覧することができる。
【0125】 規則が固定閾値超過時間であったならば、バーの中心線は全て同じレベルとな
り、かつ、以前の期間にわたってその変数内で観測された変化量を反映しなかっ
ただろう。
【0126】 〈再構成設定(Reconfiguration)〉 システム10は、ユーザーがネットワークをどのように管理したいのかに基づ
いて、LEエンジン100の構成設定をカスタマイズすることを該ユーザーに許
容する。構成設定の変更は、概略的に、警報規則の追加/削除と、要素の追加/
削除/修正と、プロファイルの追加/削除/修正と、グループまたはグループリ
ストの追加/削除/修正とを含み、この場合に、関連性は、プロファイルと、グ
ループまたはグループリストとの間のマッピングを定義する。
【0127】 〈再構成設定工程の流れ〉 概略的に、再構成設定についての基本的な流れは、以下の段階を含む: 1.ユーザーが、ユーザーインターフェースにおいて、何らかの変更を行うか
、または、ユーザーが、構成設定の変更を含むファイルをインポートする。 2.変更について説明するメッセージが同報通信(broadcast)される。 3.LEエンジン100が、変更が発生したことを示すメッセージを受信する
。 4.LEエンジン100が、変更を反映するために、自身の内部データ構造の
状態を更新する。
【0128】 この工程によって、変更が、LEエンジン100内で実施され、かつ、関連し
たモジュールに通知される。エンジンを再始動する必要も、いかなるファイルを
再コンパイルする必要もない。
【0129】 再構成設定に対する一つの取り組みは、LEエンジン100が再構成設定メッ
セージを受信した時間に基づいて、全ての必要な更新を行うことであり、この結
果、全ての変更が同時に発生する。しかしながら、時には、この取り組みは、非
効率性に起因して不十分なパフォーマンスを有する。代替案は、変更がポーリン
グ時間に発生することを可能にする償却的な(amortized)取り組みである。
【0130】 〈例:警報規則の変更についての標準的な取り組み〉 ユーザーがプロファイル内の警報規則を更新する場合に、その変更について、
該規則を含むプロファイルを現在用いている全ての要素に認識させる必要がある
。前述した最初の取り組みによれば、LEエンジン100は、前記規則と関連し
たプロファイルを更新する必要があり、該プロファイルと関連したグループまた
はグループリストを識別する必要があり、かつ、該グループまたはグループリス
ト内の該プロファイルを用いた全ての要素を発見する必要がある。この時点で、
前記規則に関連した全ての要素には、警報規則の変更が発生したことが通知され
る。この取り組みによれば、プロファイルに関連した1つの要素と、システム内
の全ての要素とを識別するために、1つのプロファイルと、1つのグループまた
は1つのグループリストと、全てのグループまたは全てのグループリストとの間
の全ての関連性を検査することが必要である。結果として、この取り組みは、非
常に非効率的である。
【0131】 〈例:警報規則の変更についての償却的な取り組み〉 償却的な(amortized)取り組みによれば、警報規則を含むプロファイルのみ
が再構成設定時間に更新される。各々の要素の更新は、ポーリング時間まで放置
される。このことは、再構成設定をより単純にすることを可能にし、かつ、ポー
リング時間におけるオーバーヘッドの代わりに、事実上一定時間内で更新を行う
ことができる。より明確には、要素がポーリングされる毎に、要素は、いずれか
のプロファイルが警報規則の変更に起因して更新されたか否かを判断するために
、該要素と関連する全てのプロファイルをチェックする必要がある。
【0132】 〈システムハードウェア〉 図9は、ワークステーションディスプレイ装置502と、入力装置(例えば、
キーボード)504と、1つ以上のプロセッサ506と、複数の命令(例えば、
プログラムコード)510を記憶したコンピュータ読み取り可能な媒体508と
を含むコンピュータシステム500を示す。プロセッサ506により実行される
と、命令510は、プロセッサ506に、ポーラーモジュールと、構成設定モジ
ュールと、LEエンジンと、ウェブサーバーと、ベースライン計算ユニットとを
含む、前述したライブエクセプションズ・システムの機能性を実施させる。プロ
グラムコードを記憶する他に、通常はディスク記憶装置とRAMとROMとの組
み合わせにより実施され得るコンピュータ読み取り可能な媒体は、データの記憶
をさらに実施する。
【0133】 本発明に関する多数の実施形態について説明してきた。それでもなお、本発明
の真意および範囲から逸脱することなく、種々の修正が行われ得ることが理解さ
れる。したがって、他の実施形態も、冒頭の請求項の範囲内にある。
【0134】
【表2−1】
【表2−2】
【表2−3】
【表2−4】
【表2−5】
【表2−6】
【表2−7】
【表2−8】
【表2−9】
【表2−10】
【表2−11】
【表2−12】
【表2−13】
【表2−14】
【表2−15】
【表2−16】
【表2−17】
【表2−18】
【表2−19】
【表2−20】
【表2−21】
【表2−22】
【表2−23】
【表2−24】
【表2−25】
【表2−26】
【表2−27】
【表2−28】
【表2−29】
【表2−30】
【表2−31】
【表2−32】
【表3−1】
【表3−2】
【表3−3】
【表3−4】
【表3−5】
【表3−6】
【図面の簡単な説明】
【図1】 ライブエクセプションズ問題検出/報告システムのブロック図で
ある。
【図2】 ポーラーモジュールに記憶されるMIB変換ファイル(MTF)
の例を示す図である。
【図3】 警報規則と、プロファイルと、グループと、グループリストと、
例外との間における関係を示す図である。
【図4】 警報の重大度に関する判断を示す図である。
【図5】 閾値超過時間アルゴリズムを示す図である。
【図6】 動的閾値超過時間アルゴリズムを示す図である。
【図7】 ネットワークパフォーマンス情報をユーザーに表示するためのブ
ラウザスクリーンの例を示す図である。
【図8】 警報詳細報告の例を示す図である。
【図9】 ライブエクセプションズを実施することができるコンピュータシ
ステムを示す図である。
【符号の説明】
10 ライブエクセプションズ問題検出/報告システム 30 グループリスト 100 ライブエクセプションズ・エンジン(LEエンジン) 102 ラベルテーブル 110 ポーラーモジュール 111 MTF 120 データベースモジュール 121 データ記憶ユニット 122 ベースライン計算ユニット 130 イベントビューア 135 NOC 140 ウェブサーバー 150 例外データ記憶装置 160 データソース 170 NMS 180 構成設定モジュール 190 管理インターフェース 300 アルゴリズム 310 警報規則 320 プロファイル 330 グループ 340 例外 500 コンピュータシステム 502 ディスプレイ装置 504 入力装置 506 プロセッサ 508 コンピュータ読み取り可能な媒体 510 命令(プログラムコード)
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE,TR),OA(BF ,BJ,CF,CG,CI,CM,GA,GN,GW, ML,MR,NE,SN,TD,TG),AP(GH,G M,KE,LS,MW,MZ,SD,SL,SZ,TZ ,UG,ZW),EA(AM,AZ,BY,KG,KZ, MD,RU,TJ,TM),AE,AG,AL,AM, AT,AU,AZ,BA,BB,BG,BR,BY,B Z,CA,CH,CN,CO,CR,CU,CZ,DE ,DK,DM,DZ,EE,ES,FI,GB,GD, GE,GH,GM,HR,HU,ID,IL,IN,I S,JP,KE,KG,KP,KR,KZ,LC,LK ,LR,LS,LT,LU,LV,MA,MD,MG, MK,MN,MW,MX,MZ,NO,NZ,PL,P T,RO,RU,SD,SE,SG,SI,SK,SL ,TJ,TM,TR,TT,TZ,UA,UG,US, UZ,VN,YU,ZA,ZW (72)発明者 ジェイ・ビー・ウォルフ アメリカ合衆国・マサチューセッツ・ 01701・フレイミンハム・ラヴァリング・ アヴェニュ・63 (72)発明者 ウィル・シー・ロアー アメリカ合衆国・マサチューセッツ・ 01752・マルボロ・ブロードメドー・ロー ド・118・アパートメント・E (72)発明者 ローレンス・エー・ステイバイル アメリカ合衆国・マサチューセッツ・ 01778・コチテュート・コモンウェルス・ ロード・120 Fターム(参考) 5B042 GA12 JJ17 JJ29 MC28 5B085 AC11 AC13 AC14 BA06 5B089 GA01 GA21 GB02 HA08 JB16 KA12 LB14 5K030 MB01 MB09 MC08

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 コンピュータネットワーク内の要素を監視する方法であって
    、 前記要素に関連する予め選択された変数を監視する段階と、 監視された予め選択された変数についての閾値を定義する段階と、 滑動する時間ウィンドウを確立する段階と、 閾値超過時間値を反復的に生成する段階と、 閾値超過時間値がいつ条件ウィンドウの値を超過するのかを検出する段階と、 前記閾値超過時間値がいつ条件ウィンドウの値を超過するのかを検出する段階
    に応答して、警報を生成する段階と を具備し、 前記閾値超過時間値は、監視された変数が、滑動する時間ウィンドウの間に閾
    値を超過した時間量の尺度であることを特徴とする方法。
  2. 【請求項2】 前記警報を生成する段階の後に、少なくとも、閾値超過時間
    値が消去ウィンドウ値を超過する間は、警報を維持する段階をさらに具備するこ
    とを特徴とする請求項1に記載の方法。
  3. 【請求項3】 前記消去ウィンドウ値は、前記条件ウィンドウの値に等しい
    ことを特徴とする請求項2に記載の方法。
  4. 【請求項4】 前記要素に関連する複数の変数を監視する段階と、 監視された複数の変数の各々について、他の変数についての対応する閾値を定
    義する段階と をさらに具備し、 前記予め選択された変数は、前記複数の変数の1つであり、 前記閾値超過時間値は、監視された変数のうちのいずれか1つ以上が、その対
    応する閾値を、対応している滑動する時間ウィンドウの間に超過した時間量の尺
    度であることを特徴とする請求項3に記載の方法。
  5. 【請求項5】 前記予め選択された変数についての閾値を定義する段階は、 以前の対応する期間にわたって、予め選択された変数について得られた値に基
    づいて、予め選択された変数についての平均値を計算する段階と、 偏位量を定義する段階と、 平均値と偏位量との合計に等しい閾値を設定する段階と を具備することを特徴とする請求項1に記載の方法。
  6. 【請求項6】 前記対応する期間は、一日未満であることを特徴とする請求
    項5に記載の方法。
  7. 【請求項7】 前記対応する期間は、一日のうちの特定の1時間という期間
    であることを特徴とする請求項6に記載の方法。
  8. 【請求項8】 前記平均値を計算する段階は、 以前の所定数の週についての同じ曜日の同じ1時間という期間で、予め選択さ
    れた変数について得られた値を用いて、予め選択された変数についての平均値を
    計算する段階を具備することを特徴とする請求項6に記載の方法。
  9. 【請求項9】 前記偏位量を定義する段階は、 所定の期間にわたって、予め選択された変数について得られた値に基づいて、
    予め選択された変数についての標準偏差を計算する段階と、 計算された標準偏差のK倍(Kは正の数)に等しい偏位量を設定する段階と を具備することを特徴とする請求項5に記載の方法。
  10. 【請求項10】 前記標準偏差を計算する段階は、以前の所定数の週につい
    ての同じ曜日の同じ1時間という期間で、予め選択された変数について得られた
    値を用いて、標準偏差を計算する段階を具備することを特徴とする請求項9に記
    載の方法。
  11. 【請求項11】 前記予め選択された変数についての閾値を定義する段階は
    、 偏位量を定義する段階と、 H(Hは正の数)から偏位量を減じた値に等しい閾値を設定する段階と を具備することを特徴とする請求項1に記載の方法。
  12. 【請求項12】 前記偏位量を定義する段階は、 所定の期間にわたって、予め選択された変数について得られた値に基づいて、
    予め選択された変数についての標準偏差を計算する段階と、 計算された標準偏差のK倍(Kは正の数)に等しい偏位量を設定する段階と を具備することを特徴とする請求項11に記載の方法。
  13. 【請求項13】 コンピュータネットワーク内の要素を監視する方法であっ
    て、 対応する1つ以上の変数についての警報テストを各々の警報規則が確立する複
    数の異なる警報規則を含むプロファイルを、その要素について定義する段階と、 複数の異なる警報規則のいずれか1つ以上についての警報テストがいつ満たさ
    れるのかを検出する段階と、 閾値超過時間値を反復的に生成する段階と 閾値超過時間値がいつ条件ウィンドウの値を超過するのかを検出する段階と、 前記閾値超過時間値がいつ条件ウィンドウの値を超過するのかを検出する段階
    に応答して、警報を生成する段階と を具備し、 前記閾値超過時間値は、警報テストのいずれか1つ以上が、以前の予め選択さ
    れた時間ウィンドウの間に満たされた時間量の尺度であることを特徴とする方法
  14. 【請求項14】 例外を生成した後に、少なくとも、閾値超過時間値が消去
    ウィンドウ値を超過する間は、その例外を維持する段階をさらに具備することを
    特徴とする請求項13に記載の方法。
  15. 【請求項15】 ネットワーク上の要素の履歴パフォーマンスをコンピュー
    タディスプレイスクリーン上に表示する方法であって、 要素のパフォーマンスを監視する段階と、 複数のタイムスロットの各々について、要素のパフォーマンスの尺度を、その
    監視されたパフォーマンスから得る段階と、 複数のタイムスロットの各々について、要素のパフォーマンスの尺度について
    の平均値を計算する段階と、 複数のタイムスロットの各々について、パフォーマンスの尺度についての変動
    性を計算する段階と、 コンピュータディスプレイスクリーン上において、かつ、複数のタイムスロッ
    トの各々について、(1)そのタイムスロットについて計算された平均値の第1
    指標と、(2)そのタイムスロットについて計算された変動性の第2指標と、(
    3)そのタイムスロットについて得られたパフォーマンスの尺度の第3指標とを
    表示する段階と を具備することを特徴とする方法。
  16. 【請求項16】 コンピュータネットワークの要素に関連する予め選択され
    た変数を監視する機能と、 監視された予め選択された変数についての閾値を定義する機能と、 滑動する時間ウィンドウを確立する機能と、 閾値超過時間値を反復的に生成する機能と、 閾値超過時間値がいつ条件ウィンドウの値を超過するのかを検出する機能と、 前記閾値超過時間値がいつ条件ウィンドウの値を超過するのかを検出する機能
    に応答して、警報を生成する機能と をコンピュータシステムに行わせるための、コンピュータ読み取り可能な媒体上
    に記憶されるコンピュータプログラムであって、 前記閾値超過時間値は、監視された変数が、滑動する時間ウィンドウの間に閾
    値を超過した時間量の尺度であることを特徴とするコンピュータプログラム。
  17. 【請求項17】 コンピュータネットワーク内の要素を監視するためのコン
    ピュータプログラムであって、 前記プログラムは、 対応する1つ以上の変数についての警報テストを各々の警報規則が確立する複
    数の異なる警報規則を含むプロファイルを、その要素について定義する機能と、 複数の異なる警報規則のいずれか1つ以上についての警報テストがいつ満たさ
    れるのかを検出する機能と、 閾値超過時間値を反復的に生成する機能と、 閾値超過時間値がいつ条件ウィンドウの値を超過するのかを検出する機能と、 前記閾値超過時間値がいつ条件ウィンドウの値を超過するのかを検出する機能
    に応答して、警報を生成する機能と をコンピュータシステムに行わせるために、コンピュータ読み取り可能な媒体上
    に記憶され、 前記閾値超過時間値は、警報テストのいずれか1つ以上が、以前の予め選択さ
    れた時間ウィンドウの間に満たされた時間量の尺度であることを特徴とするコン
    ピュータプログラム。
  18. 【請求項18】 ネットワーク上の要素の履歴パフォーマンスをコンピュー
    タディスプレイスクリーン上に表示するためのコンピュータプログラムであって
    、 前記プログラムは、 要素のパフォーマンスを監視する機能と、 複数のタイムスロットの各々について、要素のパフォーマンスの尺度を、その
    監視されたパフォーマンスから得る機能と、 複数のタイムスロットの各々について、要素のパフォーマンスの尺度について
    の平均値を計算する機能と、 複数のタイムスロットの各々について、パフォーマンスの尺度についての変動
    性を計算する機能と、 コンピュータディスプレイスクリーン上において、かつ、複数のタイムスロッ
    トの各々について、(1)そのタイムスロットについて計算された平均値の第1
    指標と、(2)そのタイムスロットについて計算された変動性の第2指標と、(
    3)そのタイムスロットについて得られたパフォーマンスの尺度の第3指標とを
    表示する機能と をコンピュータシステムに行わせるために、コンピュータ読み取り可能な媒体上
    に記憶されることを特徴とするコンピュータプログラム。
JP2002503690A 2000-06-21 2001-06-21 ライブエクセプションズ・システム Withdrawn JP2003536162A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US21321100P 2000-06-21 2000-06-21
US60/213,211 2000-06-21
PCT/US2001/019780 WO2001098916A1 (en) 2000-06-21 2001-06-21 Liveexception system

Publications (1)

Publication Number Publication Date
JP2003536162A true JP2003536162A (ja) 2003-12-02

Family

ID=22794174

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002503690A Withdrawn JP2003536162A (ja) 2000-06-21 2001-06-21 ライブエクセプションズ・システム

Country Status (6)

Country Link
US (2) US7490145B2 (ja)
EP (1) EP1352332A4 (ja)
JP (1) JP2003536162A (ja)
AU (2) AU7001701A (ja)
CA (1) CA2413285A1 (ja)
WO (1) WO2001098916A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003244195A (ja) * 2002-02-20 2003-08-29 Nippon Telegr & Teleph Corp <Ntt> 通信トラヒック分析方法および通信トラヒック分析装置
JP2006209329A (ja) * 2005-01-26 2006-08-10 Sony Corp 管理方法、プログラム、コンピュータ、および管理システム
JP2018521611A (ja) * 2015-07-22 2018-08-02 ダイナミック・ネットワーク・サービシーズ・インコーポレイテッドDynamic Network Services, Inc. 情報伝送パフォーマンス警告を生成するための方法、システム、および装置
JP2018198417A (ja) * 2017-04-14 2018-12-13 ソーラーウインズ ワールドワイド エルエルシー ネットワーク状態評価

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7143153B1 (en) * 2000-11-09 2006-11-28 Ciena Corporation Internal network device dynamic health monitoring
US6968540B2 (en) * 2000-10-25 2005-11-22 Opnet Technologies Inc. Software instrumentation method and apparatus
US20020069271A1 (en) * 2000-12-06 2002-06-06 Glen Tindal Event manager for network operating system
US20030023716A1 (en) * 2001-07-25 2003-01-30 Loyd Aaron Joel Method and device for monitoring the performance of a network
US7197562B2 (en) * 2002-04-05 2007-03-27 Infocus Corporation Projector device management system
US7779026B2 (en) * 2002-05-03 2010-08-17 American Power Conversion Corporation Method and apparatus for collecting and displaying network device information
US7130899B1 (en) * 2002-06-14 2006-10-31 Emc Corporation Robust indication processing
US7434109B1 (en) * 2002-09-26 2008-10-07 Computer Associates Think, Inc. Network fault manager for maintaining alarm conditions
US7246159B2 (en) * 2002-11-01 2007-07-17 Fidelia Technology, Inc Distributed data gathering and storage for use in a fault and performance monitoring system
US7475108B2 (en) * 2003-06-26 2009-01-06 International Business Machines Corporation Slow-dynamic load balancing method
US7602725B2 (en) * 2003-07-11 2009-10-13 Computer Associates Think, Inc. System and method for aggregating real-time and historical data
WO2005017735A1 (ja) * 2003-08-19 2005-02-24 Fujitsu Limited ディスクアレイ装置におけるボトルネックを検出するシステムおよびプログラム
US20050066027A1 (en) * 2003-09-22 2005-03-24 International Business Machines Corporation Method of displaying events
US7657453B2 (en) * 2004-06-30 2010-02-02 Sap Aktiengesellschaft System, computer-readable medium and method for filtering exceptions generated by forecasting and replenishment engine
US7409314B2 (en) * 2004-07-29 2008-08-05 International Business Machines Corporation Method for first pass filtering of anomalies and providing a base confidence level for resource usage prediction in a utility computing environment
US8645540B2 (en) * 2004-07-29 2014-02-04 International Business Machines Corporation Avoiding unnecessary provisioning/deprovisioning of resources in a utility services environment
WO2006059251A2 (en) * 2004-08-19 2006-06-08 Copernic Technologies, Inc. Electronic mail indexing systems and methods
US7769850B2 (en) * 2004-12-23 2010-08-03 International Business Machines Corporation System and method for analysis of communications networks
GB2424793A (en) * 2005-03-30 2006-10-04 Agilent Technologies Inc Monitoring a telecommunications network
US20070130191A1 (en) * 2005-11-18 2007-06-07 Promontory Compliance Solutions, Llc Method and system for analyzing effectiveness of compliance function
US9110934B2 (en) * 2006-06-02 2015-08-18 International Business Machines Corporation System and method for delivering an integrated server administration platform
US8468042B2 (en) * 2006-06-05 2013-06-18 International Business Machines Corporation Method and apparatus for discovering and utilizing atomic services for service delivery
US20070282645A1 (en) * 2006-06-05 2007-12-06 Aaron Baeten Brown Method and apparatus for quantifying complexity of information
US20080130509A1 (en) * 2006-11-30 2008-06-05 Network Equipment Technologies, Inc. Leased Line Emulation for PSTN Alarms Over IP
US20130024844A1 (en) * 2006-12-27 2013-01-24 The Mathworks, Inc. Continuous evaluation of program code and saving state information associated with program code
US9645915B2 (en) 2006-12-27 2017-05-09 The Mathworks, Inc. Continuous evaluation of program code and saving state information associated with program code
US20090077156A1 (en) * 2007-09-14 2009-03-19 Srinivas Raghav Kashyap Efficient constraint monitoring using adaptive thresholds
US20090079560A1 (en) * 2007-09-26 2009-03-26 General Electric Company Remotely monitoring railroad equipment using network protocols
JP4984162B2 (ja) * 2008-01-17 2012-07-25 日本電気株式会社 監視制御方法および監視制御装置
US20090248722A1 (en) * 2008-03-27 2009-10-01 International Business Machines Corporation Clustering analytic functions
US9363143B2 (en) * 2008-03-27 2016-06-07 International Business Machines Corporation Selective computation using analytic functions
US20090315891A1 (en) * 2008-06-18 2009-12-24 Fyi Corporation Method and system for automatic range determination of data for display
US8023513B2 (en) * 2009-02-24 2011-09-20 Fujitsu Limited System and method for reducing overhead in a wireless network
US20100287416A1 (en) * 2009-03-17 2010-11-11 Correlsense Ltd Method and apparatus for event diagnosis in a computerized system
US8560544B2 (en) 2010-09-15 2013-10-15 International Business Machines Corporation Clustering of analytic functions
JP2012178681A (ja) * 2011-02-25 2012-09-13 Kddi Corp ネットワーク情報取得装置、取得方法およびプログラム
US8812410B2 (en) * 2011-08-25 2014-08-19 International Business Machines Corporation Efficient data profiling to optimize system performance
US8719196B2 (en) 2011-12-19 2014-05-06 Go Daddy Operating Company, LLC Methods for monitoring computer resources using a first and second matrix, and a feature relationship tree
US8600915B2 (en) 2011-12-19 2013-12-03 Go Daddy Operating Company, LLC Systems for monitoring computer resources
US20130282891A1 (en) * 2012-04-20 2013-10-24 Kevin E. Davis Resource Usage Pattern Matching
US8832267B2 (en) 2012-08-07 2014-09-09 Ca, Inc. System and method for adaptive baseline calculation
US10394946B2 (en) * 2012-09-07 2019-08-27 Splunk Inc. Refining extraction rules based on selected text within events
US8792633B2 (en) 2012-09-07 2014-07-29 Genesys Telecommunications Laboratories, Inc. Method of distributed aggregation in a call center
US9753909B2 (en) 2012-09-07 2017-09-05 Splunk, Inc. Advanced field extractor with multiple positive examples
US8751963B1 (en) 2013-01-23 2014-06-10 Splunk Inc. Real time indication of previously extracted data fields for regular expressions
US20140208217A1 (en) 2013-01-22 2014-07-24 Splunk Inc. Interface for managing splittable timestamps across event records
US8682906B1 (en) 2013-01-23 2014-03-25 Splunk Inc. Real time display of data field values based on manual editing of regular expressions
US9900432B2 (en) 2012-11-08 2018-02-20 Genesys Telecommunications Laboratories, Inc. Scalable approach to agent-group state maintenance in a contact center
US9756184B2 (en) 2012-11-08 2017-09-05 Genesys Telecommunications Laboratories, Inc. System and method of distributed maintenance of contact center state
US10412121B2 (en) 2012-11-20 2019-09-10 Genesys Telecommunications Laboratories, Inc. Distributed aggregation for contact center agent-groups on growing interval
US9477464B2 (en) 2012-11-20 2016-10-25 Genesys Telecommunications Laboratories, Inc. Distributed aggregation for contact center agent-groups on sliding interval
US9152929B2 (en) 2013-01-23 2015-10-06 Splunk Inc. Real time display of statistics and values for selected regular expressions
US9578171B2 (en) 2013-03-26 2017-02-21 Genesys Telecommunications Laboratories, Inc. Low latency distributed aggregation for contact center agent-groups on sliding interval
US9215240B2 (en) 2013-07-25 2015-12-15 Splunk Inc. Investigative and dynamic detection of potential security-threat indicators from events in big data
US10574548B2 (en) * 2013-07-31 2020-02-25 Splunk Inc. Key indicators view
US10225165B2 (en) 2013-08-26 2019-03-05 Telefonaktiebolaget Lm Ericsson (Publ) Apparatus and method for processing data streams in a communication network
US9053228B1 (en) 2013-10-22 2015-06-09 The Mathworks, Inc. Determining when to evaluate program code and provide results in a live evaluation programming environment
US10425312B1 (en) 2013-12-11 2019-09-24 Ca, Inc. One-click monitoring
US9838244B1 (en) * 2013-12-11 2017-12-05 Ca, Inc. Compound alarms
CN104361713A (zh) * 2014-10-13 2015-02-18 北京国双科技有限公司 一种指标数据的监测方法、装置及服务器
US20170070397A1 (en) * 2015-09-09 2017-03-09 Ca, Inc. Proactive infrastructure fault, root cause, and impact management
US11050609B2 (en) 2015-12-09 2021-06-29 Telefonaktiebolaget Lm Ericsson (Publ) Technique for reporting and processing alarm conditions occurring in a communication network
US10515323B2 (en) * 2016-09-12 2019-12-24 PagerDuty, Inc. Operations command console
US10771369B2 (en) * 2017-03-20 2020-09-08 International Business Machines Corporation Analyzing performance and capacity of a complex storage environment for predicting expected incident of resource exhaustion on a data path of interest by analyzing maximum values of resource usage over time
CN108923952B (zh) * 2018-05-31 2021-11-30 北京百度网讯科技有限公司 基于服务监控指标的故障诊断方法、设备及存储介质
US11184222B2 (en) * 2019-09-27 2021-11-23 Ciena Corporation Learning alarm and PM threshold values in network elements based on actual operating conditions
US11768000B2 (en) * 2020-03-24 2023-09-26 Johnson Controls Tyco IP Holdings LLP System and method to operate HVAC system during voltage variation event
CN113190423B (zh) * 2021-04-20 2024-02-20 北京异乡旅行网络科技有限公司 业务数据的监控方法、装置及***
US11700169B2 (en) * 2021-09-23 2023-07-11 Atlassian Pty Ltd Methods, apparatuses and computer program products for generating responder alert data objects based on global alert policy data objects and inline alert policy data objects
US11907142B2 (en) * 2022-02-04 2024-02-20 Red Hat, Inc. Configuring polling times for software applications

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6115393A (en) * 1991-04-12 2000-09-05 Concord Communications, Inc. Network monitoring
US5634009A (en) * 1993-10-01 1997-05-27 3Com Corporation Network data collection method and apparatus
US5619656A (en) * 1994-05-05 1997-04-08 Openservice, Inc. System for uninterruptively displaying only relevant and non-redundant alert message of the highest severity for specific condition associated with group of computers being managed
US5706436A (en) * 1995-02-01 1998-01-06 Cabletron Systems, Inc. Apparatus and method for evaluation network traffic performance
US5751964A (en) * 1995-09-12 1998-05-12 International Business Machines Corporation System and method for automatic determination of thresholds in network management
US5724362A (en) * 1995-09-29 1998-03-03 Transwitch Corporation Apparatus and method employing a window reset for excessive bit error rate alarm detection and clearing
FR2751448B1 (fr) * 1996-07-17 1999-01-15 Bull Sa Procede de surveillance en temps reel d'un systeme informatique pour son administration et l'aide a sa maintenance en phase d'exploitation
US5937165A (en) * 1996-09-10 1999-08-10 Ganymede Software, Inc Systems, methods and computer program products for applications traffic based communications network performance testing
US6414594B1 (en) * 1996-12-31 2002-07-02 Honeywell International Inc. Method and apparatus for user-initiated alarms in process control system
US6081840A (en) * 1997-10-14 2000-06-27 Zhao; Yan Two-level content distribution system
US6073089A (en) * 1997-10-22 2000-06-06 Baker; Michelle Systems and methods for adaptive profiling, fault detection, and alert generation in a changing environment which is measurable by at least two different measures of state
US6664978B1 (en) * 1997-11-17 2003-12-16 Fujitsu Limited Client-server computer network management architecture
US6182022B1 (en) * 1998-01-26 2001-01-30 Hewlett-Packard Company Automated adaptive baselining and thresholding method and system
US6098195A (en) * 1998-04-03 2000-08-01 Pmc-Sierra Ltd. Multiple recent event age tracking method and apparatus
US6327677B1 (en) * 1998-04-27 2001-12-04 Proactive Networks Method and apparatus for monitoring a network environment
US6347374B1 (en) * 1998-06-05 2002-02-12 Intrusion.Com, Inc. Event detection
US6556957B1 (en) * 1998-06-22 2003-04-29 Martin Daumer Method and device for detecting drifts, jumps and/or outliers of measurement values
US6453346B1 (en) * 1998-07-17 2002-09-17 Proactivenet, Inc. Method and apparatus for intelligent storage and reduction of network information
AU5900299A (en) 1998-08-24 2000-03-14 Emory University Method and apparatus for predicting the onset of seizures based on features derived from signals indicative of brain activity
US6836800B1 (en) * 1998-09-30 2004-12-28 Netscout Systems, Inc. Managing computer resources
US6397359B1 (en) * 1999-01-19 2002-05-28 Netiq Corporation Methods, systems and computer program products for scheduled network performance testing
GB2350983B (en) * 1999-06-10 2001-10-03 3Com Corp Network problem indication
US6754664B1 (en) * 1999-07-02 2004-06-22 Microsoft Corporation Schema-based computer system health monitoring
US6449739B1 (en) * 1999-09-01 2002-09-10 Mercury Interactive Corporation Post-deployment monitoring of server performance
US6747951B1 (en) * 1999-09-20 2004-06-08 Nortel Networks Limited Method and apparatus for providing efficient management of resources in a multi-protocol over ATM (MPOA)
US6480809B1 (en) * 1999-09-23 2002-11-12 Intel Corporation Computer system monitoring
US6564174B1 (en) * 1999-09-29 2003-05-13 Bmc Software, Inc. Enterprise management system and method which indicates chaotic behavior in system resource usage for more accurate modeling and prediction
US6377907B1 (en) * 1999-11-17 2002-04-23 Mci Worldcom, Inc. System and method for collating UNIX performance metrics
US6785540B1 (en) * 1999-11-30 2004-08-31 Agilent Technologies, Inc. Monitoring system and method implementing test configuration logic
US6594241B1 (en) * 1999-12-08 2003-07-15 Telefonaktiebolaget Lm Ericsson (Publ) Channel-type switching control
US6763380B1 (en) * 2000-01-07 2004-07-13 Netiq Corporation Methods, systems and computer program products for tracking network device performance
US6862623B1 (en) * 2000-04-14 2005-03-01 Microsoft Corporation Capacity planning for server resources
US20020177910A1 (en) * 2000-04-19 2002-11-28 Quarterman John S. Performance measurement system for large computer network
US7043546B2 (en) * 2000-04-28 2006-05-09 Agilent Technologies, Inc. System for recording, editing and playing back web-based transactions using a web browser and HTML
US6889255B1 (en) * 2000-04-28 2005-05-03 Microsoft Corporation System and method for caching data in a client management tool
US6744748B1 (en) * 2000-05-25 2004-06-01 Vtech Communications Ltd. Method and apparatus for monitoring errors in a wireless transceiver

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003244195A (ja) * 2002-02-20 2003-08-29 Nippon Telegr & Teleph Corp <Ntt> 通信トラヒック分析方法および通信トラヒック分析装置
JP2006209329A (ja) * 2005-01-26 2006-08-10 Sony Corp 管理方法、プログラム、コンピュータ、および管理システム
JP4595562B2 (ja) * 2005-01-26 2010-12-08 ソニー株式会社 管理方法、プログラム、コンピュータ、および管理システム
JP2018521611A (ja) * 2015-07-22 2018-08-02 ダイナミック・ネットワーク・サービシーズ・インコーポレイテッドDynamic Network Services, Inc. 情報伝送パフォーマンス警告を生成するための方法、システム、および装置
US10848406B2 (en) 2015-07-22 2020-11-24 Dynamic Network Services, Inc. Methods, systems, and apparatus to generate information transmission performance alerts
US11178035B2 (en) 2015-07-22 2021-11-16 Dynamic Network Services, Inc. Methods, systems, and apparatus to generate information transmission performance alerts
US11818025B2 (en) 2015-07-22 2023-11-14 Oracle International Corporation Methods, systems, and apparatus to generate information transmission performance alerts
JP2018198417A (ja) * 2017-04-14 2018-12-13 ソーラーウインズ ワールドワイド エルエルシー ネットワーク状態評価
JP7123590B2 (ja) 2017-04-14 2022-08-23 ソーラーウインズ ワールドワイド エルエルシー ネットワーク状態評価

Also Published As

Publication number Publication date
EP1352332A1 (en) 2003-10-15
US20020049838A1 (en) 2002-04-25
US20090234944A1 (en) 2009-09-17
US7490145B2 (en) 2009-02-10
EP1352332A4 (en) 2004-12-08
AU2001270017B2 (en) 2008-03-13
AU7001701A (en) 2002-01-02
CA2413285A1 (en) 2001-12-27
WO2001098916A1 (en) 2001-12-27
US7877472B2 (en) 2011-01-25

Similar Documents

Publication Publication Date Title
JP2003536162A (ja) ライブエクセプションズ・システム
AU2001270017A1 (en) Liveexception system
US10673731B2 (en) System event analyzer and outlier visualization
US10038618B2 (en) System event analyzer and outlier visualization
US7693876B2 (en) Monitoring usage rate patterns in storage resources
US6327677B1 (en) Method and apparatus for monitoring a network environment
US7318178B2 (en) Method and system for reducing false alarms in network fault management systems
EP0994602B1 (en) Computer system and network performance monitoring
US7574502B2 (en) Early warning of potential service level agreement violations
US7502844B2 (en) Abnormality indicator of a desired group of resource elements
US20060265272A1 (en) System and methods for re-evaluating historical service conditions after correcting or exempting causal events
CN105610648B (zh) 一种运维监控数据的采集方法及服务器
US20040098223A1 (en) Computing performance thresholds based on variations in network traffic patterns
CN110535713B (zh) 监控管理***以及监控管理方法
US6633834B2 (en) Baselining of data collector data
JP5659108B2 (ja) 運用監視装置、運用監視プログラム及び記録媒体
US20040083246A1 (en) Method and system for performance management in a computer system
CN108075913A (zh) 一种播发***服务质量的监控方法及其***
EP1622310B1 (en) Administration method and system for network management systems
US7673035B2 (en) Apparatus and method for processing data relating to events on a network
US8516099B1 (en) Scaling management tasks performed by a management system according to a determined size of a managed environment
CN116827751A (zh) 基于数据存储改变计算网络信息
WO2006124032A2 (en) A system and methods for re-evaluating historical service conditions after correcting or exempting causal events
JP2005278079A (ja) ボトルネックリソース検出システム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080902