JP2003067264A - ネットワークシステムの監視間隔制御方法 - Google Patents

ネットワークシステムの監視間隔制御方法

Info

Publication number
JP2003067264A
JP2003067264A JP2001252585A JP2001252585A JP2003067264A JP 2003067264 A JP2003067264 A JP 2003067264A JP 2001252585 A JP2001252585 A JP 2001252585A JP 2001252585 A JP2001252585 A JP 2001252585A JP 2003067264 A JP2003067264 A JP 2003067264A
Authority
JP
Japan
Prior art keywords
monitoring
agent
time
life
interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001252585A
Other languages
English (en)
Inventor
Toshio Hirozawa
敏夫 廣澤
Nobuaki Tsuge
信昭 柘植
Katsunobu Okuda
克信 奥田
Kazunari Takenoshita
和成 竹之下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2001252585A priority Critical patent/JP2003067264A/ja
Publication of JP2003067264A publication Critical patent/JP2003067264A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

(57)【要約】 【課題】 ネットワークシステム内の装置の生死確認を
行う監視システムにおいて、生死確認の精度を向上させ
る。 【解決手段】 センタ監視装置4の監視マネージャ(M
GR)は、最近の生死確認監視時刻から第1の時間間隔
を経過時に各サイト監視装置1の監視エージェント(A
GT)2に対して生死確認要求を発行してAGT2から
の応答を待つ。所定時間内にAGT2からの応答がない
とき、可変的に設定される第2の時間間隔を経過時に当
該エージェントに対して生死確認要求を再発行する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワークシス
テムの監視間隔の制御方法に係り、特に監視対象物の生
死監視間隔をダイナミックに変更することにより生死監
視の確認精度の向上を図る監視間隔制御方法に関する。
【0002】
【従来の技術】近年の企業内ネットワーク基盤の普及に
伴い、ネットワーク系を基本にして大型計算機システ
ム、ワークステーション、パーソナルコンピュータ群な
どのサーバ類が相互に接続され、各種業務が実行されて
いる。これに伴い、ネットワークシステムが情報インフ
ラの基盤となり、ネットワークシステムは24時間、3
65日連続して監視する必要がある。ネットワークシス
テムの監視は、監視装置がSNMP(Simple N
etwork Management Protoco
l)に基づいて、ネットワークシステム内の各サーバや
ルータなどの機器の監視を行うのが一般的である。なお
SNMPに関しては、SNMPインターネットワーク管
理に関するRFC(Request For Comm
ent)1157に開示されている。
【0003】SNMPに基づいた監視装置は、ネットワ
ークシステムからの障害通知割り込み(トラップ)に付
加された障害情報MIB(Media Informa
tion Base)の内容をその監視画面に表示し、
かつ障害履歴情報としてファイル装置に格納する。さら
に監視対象物となるサーバやルータ等の生死を確認する
方法として、上記RFCに記載のように、PING(P
acket Internet Groper)を監視
サーバから発行し、その応答を確認する方法が一般的に
知られている。従って上述のネットワークシステムの管
理技術を応用すれば、ネットワークシステムとサーバシ
ステムを結合して監視することも可能である。
【0004】また特開平11−96043号公報は、分
散システムにおけるセンタ監視システムを開示する。す
なわち多数の分散システムからの障害、または自動復旧
の情報に対応して、障害メッセージを監視コンソール画
面に表示し、削除コマンドで当該障害メッセージの表示
削除を実行することによって、大規模の分散システムの
状況を監視センターのコンソール画面で監視する際の表
示メッセージ数を削減してオペレータによる状況把握を
容易ならしめようとするものである。
【0005】従ってネットワークの監視要員は、上記の
監視機能を有する監視装置の監視画面に表示された障害
情報やサーバのCPU利用率などの性能データを見て、
ネットワーク系やサーバ系の障害個所を判断したり、性
能監視を行っている。特に前述のPINGによる方法が
監視対象物の生死を簡単に把握する上で強力な方法であ
り、一般的に良く知られた方法である。
【0006】
【発明が解決しようとする課題】上記PINGによる監
視対象の生死確認は、監視対象装置の負荷に比較的余裕
があり負荷変動が小さい場合には充分効果を発揮する。
しかし監視対象装置の負荷が比較的大きく負荷変動が大
きい場合には、監視センタからの生死確認指令に対して
監視対象物は無応答状態となることがあり、このような
場合、実際には当該監視対象物が動作しているにもかか
わらず、死状態、すなわちダウン状態と誤認識される可
能性が高くなる。特にネットワークシステムの監視業務
を外部業者に委託、すなわちアウトソーシングする場合
には、このような問題が生じ易い。ネットワークシステ
ムのアウトソーシング事業者は、通常監視センタの監視
装置からネットワークを介して複数顧客のネットワーク
システムを監視するため、監視対象物が置かれる負荷環
境は顧客側のシステムによって様々であり、上記のよう
な問題が生じる場合がある。
【0007】本発明の目的は、上記の問題点に対処する
ものであり、監視対象物の生死確認の精度を向上させる
ことにある。
【0008】
【課題を解決するための手段】本発明は、監視側環境に
設けられた監視マネージャがネットワークシステム内の
監視対象環境のエージェントの生死を確認する監視マネ
ージャによって実行される監視方法であって、最近の生
死確認監視時刻から第1の時間間隔を経過時にエージェ
ントに生死確認要求を発行するステップと、エージェン
トからの応答を待つステップと、所定時間内にエージェ
ントからの応答がないとき、可変的に設定される第2の
時間間隔を経過時に当該エージェントに生死確認要求を
再発行するステップとを含むネットワークシステムの監
視間隔制御方法を特徴とする。
【0009】
【発明の実施の形態】以下、本発明の実施形態につい
て、図面を用いて詳細に説明する。
【0010】図1は、本実施形態の稼動監視システムの
構成図である。監視システムは、監視対象のサーバセン
タ100、顧客サイト200などの情報処理システム
と、これらの情報処理システムを監視する監視センタ3
00の情報処理システムとから構成される。
【0011】サーバセンタ100及び顧客サイト200
のシステムは、ワークステーション(WS)101、サ
ーバ102、ファイアウォール(F/W)104、ルー
タ105などの被監視装置がローカルエリアネットワー
ク(LAN)103を介してサイト監視装置1に接続さ
れる構成となっている。サイト監視装置1は、プログラ
ムとして監視エージェント(AGT)2を実装する。な
お本実施例では、監視エージェント2を独立したサイト
監視装置1に搭載しているが、一般には監視エージェン
ト2をサーバ102など他の装置に搭載しても構わな
い。
【0012】監視センタ300のシステムは、センタ監
視装置4を有する。センタ監視装置4は、LAN、ワイ
ドエリアネットワーク(WAN)などのネットワークを
介してサーバセンタ100及び顧客サイト200の情報
処理システムと接続される。センタ監視装置4は、プロ
グラムとして監視マネージャ(MGR)5を実装し、ま
たそのメモリ上に監視管理テーブル10及びエージェン
ト管理テーブル11を格納する。
【0013】サイト監視装置1の監視エージェント2
は、ワークステーション101、サーバ102、ファイ
アウォール104、ルータ105などの情報処理装置や
ネットワーク機器に対して生死確認などの監視を行い、
その監視結果の情報を収集してログ情報ファイル3に記
録する。センタ監視装置4の監視マネージャ5は、監視
管理テーブル10及びエージェント管理テーブル11を
参照して各サイト監視装置1へ生死確認指令を送信す
る。各サイト監視装置1の監視エージェント2は、この
生死確認指令を受信すると、監視対象の各情報処理装置
やネットワーク機器の生死確認を行い、その結果を監視
マネージャ5に送信する。監視マネージャ5は、各サイ
ト監視装置1から収集した生死確認結果を監視情報デー
タベース(DB)6に格納する。
【0014】監視エージェント2は、SNMPの動作規
約に基づいて監視対象の装置群の状態を監視する。監視
エージェント2がいずれかの装置の障害発生を検知する
と、監視マネージャ5に対して障害通知割込み(トラッ
プ)を発生させ、障害情報をMIB(Media In
formation Base)として監視マネージャ
5に送出する。なおトラップおよびMIBに関しては、
SNMPインターネットワーク管理に関するRFC11
57及びRFC792に記載されている。
【0015】図2は、監視マネージャ5によって管理さ
れる監視管理テーブル10及びエージェント管理テーブ
ル11のデータ構成を示す図である。監視管理テーブル
10の監視間隔(Tn)は、エージェントに対する標準
の監視時間間隔であり、単位はms,秒,分など任意で
ある。マネージャ・リトライ回数(R)は、生死確認指
令に対して監視先のエージェントから応答がない場合
に、当該指令のリトライ回数である。エージェント数
(N)は、監視対象のエージェント数であり、エージェ
ント管理テーブル11の数である。エージェントポイン
タ(Ai)は、各エージェント対応に設けられたエージ
ェント管理テーブル11へのポインタが格納される。
【0016】各エージェント管理テーブル11のエージ
ェント・タイプ(TPE)は、0又は1の値が設定され
る。 TPEが‘0’のときには、監視時間間隔として
監視管理テーブル10の監視間隔(Tn)が使用され、
TPEが‘1’のときには、エージェント管理テーブル
11の一定監視間隔値(TA)又は可変監視間隔(T
V)の値が使用される。監視間隔タイプ(TM)は、0
又は1の値が設定される。生死監視をリトライすると
き、TMが‘0’のときには、監視時間間隔としてTP
Eの値に従ってTn又はTAの値が使用され、TMが
‘1’のときには、TVの値が使用される。TPEが
‘0’のとき、TMが‘0’でなければならない。レン
ジ(TR)は、TVが使用されるとき発生させる乱数の
範囲を設定する。応答待ち時間(TW)は、監視マネー
ジャ5が監視エージェント2に生死確認指令を発行して
から応答を待つ時間である。最終確認時刻(TL)は、
最後に生死確認をした時刻を格納する。TLの初期値は
0である。
【0017】監視エージェント2及び監視対象がその負
荷に比較的余裕があり負荷変動の小さい装置に搭載され
る場合には、監視時間間隔としてTn又はTAを使用す
れば充分である。また監視エージェント2及び監視対象
が負荷に余裕が少なく負荷変動の大きい装置に搭載され
ている場合には、TVを使用することによって監視エー
ジェント2又はサイト監視装置1が死状態と誤認識され
るケースを削減できる。
【0018】図3は、監視マネージャ5の監視処理の流
れを示すフローチャートである。監視マネージャ5は、
監視対象の監視エージェント2について、監視管理テー
ブル10のエージェントポインタ(Ai)が指すエージ
ェント管理テーブル11のエージェント・タイプ(TP
E)の値を判定する(ステップ31)。 TPEが
‘0’であれば、監視間隔(Tn)をメモリの作業領域
の監視間隔(Tc)に移動する(ステップ32)。 T
PEが‘1’であれば、一定監視間隔(TA)をTcに
移動する(ステップ33)。
【0019】次に監視マネージャ5は、生死確認時刻に
なったか否かを判定する(ステップ34)。最終確認時
刻(TL)が0ならば生死確認時刻である。TLが0で
なければ、現在時刻≧TL+Tcであれば生死確認時刻
である。監視間隔タイプ(TM)として‘1’、すなわ
ち可変監視間隔(TV)が選択される場合にも、1回目
の生死確認指令については監視間隔を可変にする必要が
ないので、本実施形態では一定監視間隔(TA)を適用
している。生死確認時刻でなければ、ステップ40へ行
く。生死確認時刻であれば、当該監視エージェント2に
対して生死確認指令を発行する(ステップ35)。次に
応答待ち時間(TW)だけ応答待ちをする(ステップ3
6)。
【0020】待ち時間内に応答があれば(ステップ37
YES)、監視マネージャ5は、現在時刻を最終確認時
刻(TL)に格納し(ステップ38)、応答に従って監
視対象の生死確認結果を監視情報DB6に格納する(ス
テップ39)。例えば監視対象装置のIPアドレスとM
IBを格納する。次に次の順番の監視エージェント2を
選択し(ステップ40)、ステップ31に戻る。
【0021】待ち時間内に応答がなければ(ステップ3
7NO)、監視マネージャ5は、作業領域上のリトライ
回数がマネージャ・リトライ回数(R)に達したか否か
を判定する(ステップ41)。リトライ回数(R)に達
していなければ、監視間隔タイプ(TM)が‘0’か否
かを判定する(ステップ42)。TMが‘0’であれ
ば、監視間隔(Tc)の値の時間だけ待ち(ステップ4
3)、メモリの作業領域上のリトライ回数に1を加えて
ステップ35に戻る。TMが‘1’であれば、図4に示
す処理ルーチンに従って可変監視間隔(TV)の値を計
算し(ステップ44)、TVの値の時間だけ待ち(ステ
ップ45)、作業領域上のリトライ回数に1を加えてス
テップ35に戻る。作業領域上のリトライ回数がマネー
ジャ・リトライ回数(R)に達したとき(ステップ41
YES)、対象物が障害状態の旨を監視情報DB6に格
納し、表示画面にエラー表示し(ステップ46)、ステ
ップ40へ行く。
【0022】図4は、可変監視間隔(TV)の値計算の
一例として、一様乱数を計算する処理手順を示す図であ
る。監視マネージャ5は、現在時刻タイマー値の下位8
ビットを取得しその値を作業領域WKに置く(ステップ
51)。次に0〜(TR−1)の範囲の乱数値を算出す
る(ステップ52)。具体的には、WKの値に素数を掛
けてWK1とし、WK1の値をTRで割ってその商にT
Rを掛けたものをWK1から引いてWK2とする。WK
2はTRを法とするWK1のモジュロである。次にWK
2の値を可変監視間隔(TV)に設定する(ステップ5
3)。
【0023】なお以上、監視マネージャ5の処理を中心
とした処理動作について説明したが、監視エージェント
2は、監視マネージャ5に対してはエージェントの役割
を果たす一方で、監視対象の装置をエージェントとして
監視マネージャ5の役割を果たすように動作する。この
ような監視エージェント2の監視マネージャ5部分につ
いて、上記の監視管理テーブル10、エージェント管理
テーブル11及び監視マネージャ5の処理手順が同様に
適用できる。
【0024】以上述べたように本実施形態によれば、監
視エージェント2及び監視対象の負荷が変動する場合
に、可変監視間隔(TV)を使用することによって監視
エージェント2及び監視対象に対する生死確認時刻を負
荷の増大時からずらすことが可能であり、よって監視エ
ージェント2の無応答状態を削減し、もって生死確認の
誤認識を削減することが可能であり、監視対象の生死確
認監視の精度を向上させることが可能である。
【0025】
【発明の効果】以上述べたように本発明によれば、監視
マネージャは、生死確認指令のリトライ時に可変の監視
時間間隔を用いることによって監視対象物が高負荷とな
る時点を避けるように生死確認指令を発行することがで
き、監視対象物の生死確認の精度を向上させることがで
きる。
【図面の簡単な説明】
【図1】実施形態の稼動監視システムの構成図である。
【図2】実施形態の監視管理テーブル10及びエージェ
ント管理テーブル11のデータ構成を示す図である。
【図3】実施形態の監視マネージャ5の監視処理の流れ
を示すフローチャートである。
【図4】可変監視間隔(TV)の値計算の一例として、
一様乱数を計算する処理手順を示す図である。
【符号の説明】
1:サイト監視装置、2:監視エージェント、4:セン
タ監視装置、5:監視マネージャ、10:監視管理テー
ブル、11:エージェント管理テーブル
フロントページの続き (72)発明者 奥田 克信 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所情報サービス事業部内 (72)発明者 竹之下 和成 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所情報サービス事業部内 Fターム(参考) 5B089 GA11 GA21 GA31 GB02 JA35 JB14 KA12 KA13 KB04 MC06 5K030 HC01 HC14 HD03 HD06 JA10 LA08 MA01

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】監視側環境に設けられた監視マネージャが
    ネットワークシステム内の監視対象環境のエージェント
    の生死を確認する前記監視マネージャによって実行され
    る監視方法であって、 最近の生死確認監視時刻から第1の時間間隔を経過時に
    前記エージェントに生死確認要求を発行するステップ
    と、前記エージェントからの応答を待つステップと、所
    定時間内に前記エージェントからの応答がないとき、可
    変的に設定される第2の時間間隔を経過時に前記エージ
    ェントに生死確認要求を再発行するステップとを含むこ
    とを特徴とするネットワークシステムの監視間隔制御方
    法。
  2. 【請求項2】前記第1の時間間隔は、あらかじめ設定さ
    れた一定時間であることを特徴とする請求項1記載のネ
    ットワークシステムの監視間隔制御方法。
  3. 【請求項3】前記第2の時間間隔は、算出された乱数値
    であることを特徴とする請求項1記載のネットワークシ
    ステムの監視間隔制御方法。
  4. 【請求項4】前記監視マネージャが監視する複数の前記
    エージェントのうち、一部のエージェントについて前記
    第2の時間間隔の代わりに前記第1の時間間隔を適用す
    ることを特徴とする請求項1記載のネットワークシステ
    ムの監視間隔制御方法。
  5. 【請求項5】前記エージェントは、さらに下位の監視対
    象のエージェントの生死確認をするとき、前記監視マネ
    ージャによる前記ステップの各々を実行することを特徴
    とする請求項1記載のネットワークシステムの監視間隔
    制御方法。
JP2001252585A 2001-08-23 2001-08-23 ネットワークシステムの監視間隔制御方法 Pending JP2003067264A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001252585A JP2003067264A (ja) 2001-08-23 2001-08-23 ネットワークシステムの監視間隔制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001252585A JP2003067264A (ja) 2001-08-23 2001-08-23 ネットワークシステムの監視間隔制御方法

Publications (1)

Publication Number Publication Date
JP2003067264A true JP2003067264A (ja) 2003-03-07

Family

ID=19081034

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001252585A Pending JP2003067264A (ja) 2001-08-23 2001-08-23 ネットワークシステムの監視間隔制御方法

Country Status (1)

Country Link
JP (1) JP2003067264A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007005905A (ja) * 2005-06-21 2007-01-11 Mitsubishi Electric Corp 監視対象端末装置及び監視プログラム及び監視システム及び監視方法
JP2009501371A (ja) * 2005-07-13 2009-01-15 トムソン ライセンシング 分散局のネットワークで装置の活動状態を検出する方法及びこの方法を実行するネットワーク局
JP2012015762A (ja) * 2010-06-30 2012-01-19 Hitachi Systems Ltd リモート監視システムにおけるエージェント実装方式
JP2013544408A (ja) * 2010-11-17 2013-12-12 アルカテル−ルーセント 冗長サーバ構成におけるクライアント回復戦略のための方法およびシステム
JP2014529828A (ja) * 2011-09-02 2014-11-13 トレーディング テクノロジーズ インターナショナル インコーポレイテッド メッセージ・ストリーム・インテグリティ
US11425207B2 (en) 2018-08-27 2022-08-23 Mitsubishi Electric Corporation Receiving device estimating that a communication device is in an incommunicable state

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007005905A (ja) * 2005-06-21 2007-01-11 Mitsubishi Electric Corp 監視対象端末装置及び監視プログラム及び監視システム及び監視方法
JP2009501371A (ja) * 2005-07-13 2009-01-15 トムソン ライセンシング 分散局のネットワークで装置の活動状態を検出する方法及びこの方法を実行するネットワーク局
JP4898804B2 (ja) * 2005-07-13 2012-03-21 トムソン ライセンシング 分散局のネットワークで装置の活動状態を検出する方法及びこの方法を実行するネットワーク局
US8335818B2 (en) 2005-07-13 2012-12-18 Thomson Licensing Method for detection of the activity of a device in a network of distributed stations, as well as a network station for carrying out the method
JP2012015762A (ja) * 2010-06-30 2012-01-19 Hitachi Systems Ltd リモート監視システムにおけるエージェント実装方式
JP2013544408A (ja) * 2010-11-17 2013-12-12 アルカテル−ルーセント 冗長サーバ構成におけるクライアント回復戦略のための方法およびシステム
JP2014529828A (ja) * 2011-09-02 2014-11-13 トレーディング テクノロジーズ インターナショナル インコーポレイテッド メッセージ・ストリーム・インテグリティ
US9154393B2 (en) 2011-09-02 2015-10-06 Trading Technologies International, Inc. Order feed message stream integrity
US10152751B2 (en) 2011-09-02 2018-12-11 Trading Technologies International, Inc. Order feed message stream integrity
US10311518B2 (en) 2011-09-02 2019-06-04 Trading Technologies International, Inc. Order feed message stream integrity
US11425207B2 (en) 2018-08-27 2022-08-23 Mitsubishi Electric Corporation Receiving device estimating that a communication device is in an incommunicable state

Similar Documents

Publication Publication Date Title
US7581006B1 (en) Web service
US6912534B2 (en) Web service
US6317786B1 (en) Web service
US8010840B2 (en) Generation of problem tickets for a computer system
US6314463B1 (en) Method and system for measuring queue length and delay
JP3765138B2 (ja) 改善されたノードディスカバリ及び監視付きネットワーク管理システム
US7630313B2 (en) Scheduled determination of network resource availability
US7076691B1 (en) Robust indication processing failure mode handling
US7076696B1 (en) Providing failover assurance in a device
US20030226056A1 (en) Method and system for a process manager
US10198338B2 (en) System and method of generating data center alarms for missing events
US20050114352A1 (en) Method and system for detecting a dead server
US20090043881A1 (en) Cache expiry in multiple-server environment
JP2005524162A (ja) データ処理ネットワークにおいて接続を動的に変更するためのシステムおよび方法
WO2006035040A1 (en) Method and apparatus for determining impact of faults on network service
JP2016536920A (ja) ネットワークパフォーマンス監視のための機器および方法
US9485156B2 (en) Method and system for generic application liveliness monitoring for business resiliency
US20040123183A1 (en) Method and apparatus for recovering from a failure in a distributed event notification system
US7552215B2 (en) Method, system, and computer program product for supporting a large number of intermittently used application clusters
JP2003067264A (ja) ネットワークシステムの監視間隔制御方法
JP4515262B2 (ja) フォールトトレランススキームを動的に切換えるための方法
US7769844B2 (en) Peer protocol status query in clustered computer system
JP2002215424A (ja) 稼働監視データのフィルタリング方法
EP3435615B1 (en) Network service implementation method, service controller, and communication system
CN114584573A (zh) 一种基于长轮询机制的节点机信息同步方法