JP2004021549A

JP2004021549A - ネットワーク監視システムおよびプログラム

Info

Publication number: JP2004021549A
Application number: JP2002174833A
Authority: JP
Inventors: Sohei Yoshino; 芳野　壮平; Shinji Shinno; 新野　真司; Junichi Hosokawa; 細川　淳一; Yosuke Itasaka; 板坂　洋介; Kenzo Horie; 堀江　健三; Shinichi Okamoto; 岡本　真一
Original assignee: Hitachi Ltd; Hitachi Information Systems Ltd
Current assignee: Hitachi Ltd; Hitachi Information Systems Ltd
Priority date: 2002-06-14
Filing date: 2002-06-14
Publication date: 2004-01-22

Abstract

【課題】大規模なマルチベンダ環境の分散コンピュータネットワークの運用管理者の負担の軽減とＴＣＯの削減を可能とする。
【解決手段】監視対象装置４，５に情報収集エージェント４４，５４を、また、監視装置にネットワーク監視マネージャ１を組み込み、監視対象装置５においては、情報収集エージェント５４により、別系統の監視装置２専用に組込まれた情報収集エージェント５Ａと共存させ、複数台の監視装置と情報共用を実現することにより、マルチベンダ環境の分散コンピュータネットワークシステムにおける各監視サポートを統合的して行う。この際、監視装置（ネットワーク監視マネージャ１）と監視対象装置４，５間にワンタイムパスワードによる認証を行う機能（１１ａ、４４ａ，５４ａ）を設けることで、監視装置になりすましてのユーザ側の監視対象装置への不正侵入を防止する。
【選択図】　　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、ネットワークの監視・管理技術に係わり、特に、大規模なネットワーク上に分散したサーバ装置やデータ伝送装置等を対象とした障害監視および性能監視を効率的に行い、ネットワークの運用管理者の負担を軽減するのに好適なネットワーク監視技術に関するものである。
【０００２】
【従来の技術】
コンピュータシステムにおけるクライアント・サーバ環境の進歩によりコンピュータネットワーク上でのリソースの分散化が進み、分散したオフィス先のコンピュータ装置に対する監視・管理も必要となっている。
【０００３】
このような分散ネットワークでの監視では、監視装置一台でネットワークを挟んだ分散オフィスや同一ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）上にあるデータ伝送装置やサーバ装置のリソースを監視することが望まれるが、ネットワークを挟んだ監視ではリモート系コマンドによる制御が必要となる。
【０００４】
しかし、このようなリモート系コマンドによる制御では、不正アクセスが可能となり、他人から覗かれる恐れがあり、セキュリティ上の問題がある。そのため、現状では、分散オフィス毎、例えば、同じＬＡＮに監視装置を設置し、当該ＬＡＮ内の監視対象装置のみを監視している。
【０００５】
さらに、リモートでの監視はネットワーク上のトラヒックが増加するので、このような問題に対処するために、監視対象装置（サーバ装置など）にエージェント（問題発覚時のみトラップを行う）を組み込み、このエージェントで収集した監視情報や管理情報を、監視装置は、監視の基本であるＳＮＭＰ（Ｓｉｍｐｌｅ　ＮｅｔｗｏｒｋＭａｎａｇｅｍｅｎｔ　Ｐｒｏｔｏｃｏｌ）により採取する技術が用いられている。
【０００６】
しかし、これらエージェントで収集した監視情報や管理情報には、問題発覚時に障害としてトラップせずに異常状態のメッセージをログ情報として出力するものや、独自プロトコルを持った管理情報もあり、これらの情報に関しては、ＳＮＭＰによる情報収集ができない。このようなＳＮＭＰによる情報収集ができない監視対象装置や管理情報が増える傾向にある。例えば、グループウェーア系Ｍａｉｌ、ファイヤーウォールやディレクトリ（Ｌｉｇｈｔｗｅｉｇｈｔ　Ｄｉｒｅｃｔｏｒｙ　Ａｃｃｅｓｓ　Ｐｒｏｔｏｃｏｌ、以下「ＬＤＡＰ」と省略）などの共通アプリケーションソフトがある。
【０００７】
また、大規模な分散ネットワークでは、マルチベンダ環境が一般的である。すなわち、大規模なコンピュータネットワークシステムにおいては、ネットワーク構築に当たり一社だけでは満足のいくシステム体系にはならない為、他社製品と連携できることが重要なファクターでもある。
【０００８】
同一ＬＡＮにおいて、障害検知から復旧、そして通報までのプロセスを一元管理した従来技術はあるが、マルチベンダ環境下や複数の監視装置を統合した環境での監視制御はできない。そのため、現状では、各社シリーズ製品内での連携が大半である。
【０００９】
また、ＴＣＯ（Ｔｏｔａｌ　Ｃｏｓｔ　ｏｆ　Ｏｗｎｅｒｓｈｉｐ、トータル運用コスト）削減を目的に、障害発生の通報を効率化する従来技術がある。すなわち、障害発生と同時にユーザへ、障害通知のための電子メールを自動送信するものであり、この技術では、電子メール宛先を監視担当者として通知したり、同報でメーリングリスト対象ユーザ全員に通知する。
【００１０】
しかし、実際の通報の流れはもう少し複雑である。すなわち、監視センタからネットワーク管理者へ通報し、ネットワーク管理者は関係するサーバ担当者を探し、電話やメールで連絡、または担当者の席まで呼びに行くのが実態である。このように、サイト先の顕在する問題を考慮しないと、実際のＴＣＯ削減が図れない。
【００１１】
また、ネットワーク監視者は、監視装置で提供する画面の状態確認が必要だがマルチベンダ環境下で複数の監視装置が分散されている為、業務は煩雑となり対応が遅れる。例えば、従来のマルチベンダ環境下での各監視装置の連携技術では、マスタ監視装置の画面に、その監視下になる各監視装置のアイコンを表示し、各アイコン間にリンクを張るだけである。そのため、監視情報画面や性能監視情報やログ情報は、各監視装置固有の画面表示のままであり、統合されていない。
【００１２】
また、電子メールのような共通アプリケーションの異常発生を監視する場合には、ＵＮＩＸ（登録商標）／ＯＳや、それ以外のＯＳ等が備えているメッセージ（リソース状況）と、アプリケーションが出力するメッセージログ情報とを連携し、どこまでリカバリ処理が必要か検知する。これを自動的に実行して障害を復旧させたり、システム担当者に警告を出すことが要求される。しかし、サーバ別や障害別にその対応が異なる点を考慮した監視システムは無く、ユーザ自身で開発しなければならない。
【００１３】
例えば、ＵＮＩＸ（登録商標）／ＯＳ系でもＦｒｅｅＢＳＤ（登録商標）、Ｌｉｎｕｘ（登録商標）や商用ＵＮＩＸ（登録商標）およびそれ以外のＯＳと多種にわたる。そして、監視対象の電子メールでも、ＳＭＴＰメールやグループウェーア系Ｍａｉｌなどがあり、その代表的な監視技術にメッセージ滞留キューチェックがあるが、グループウェーア系Ｍａｉｌの状態監視では、「ｘ．４００」、「ｓｍｔｐｇｗ」、「ｓｍｔｐ（Ｓｅｎｄｍａｉｌ）」それぞれの情報を収集し、グループウェーア系Ｍａｉｌサーバ内に滞留しているメールキュー数を予め設定したしきい値と比較し、障害を判定する必要がある。
【００１４】
以上のように、従来のネットワーク監視ソフト製品は同一ＬＡＮ（そのビルにクローズした利用）上での監視を前提にした仕様が大半であるが、クライアント／サーバ技術の進歩によりリソースの分散化が進んでおり、このような分散したオフィスの監視管理（ネットワークや広域ＬＡＮを挟んだ監視）や、アプリケーション層までを含めた”Ｅｎｄ　ｔｏ　Ｅｎｄ”の観点に立った監視、そしてその一元化によるネットワークシステム全体の信頼性確保が必要とされている。
【００１５】
しかし、従来の分散オフィス間の監視はセキュア通信が不十分であり、また分散先毎の情報セキュリテイ確保が困難であることから、分散オフィス毎に監視システムを構築・運用するのが現状である。
【００１６】
このように、近年のコンピュータネットワークの普及に伴い（１）ネットワークの広域化、（２）ネットワークの分散化、（３）マルチベンダ環境、（４）管理の効率化とＴＣＯ削減の要求があり、さらにはユーザ側からも監視状況が把握できる機能とサーバ装置のリブートをリモートで操作して復旧させることも要求される。また、各システム管理部門でもイントラネットや電子メール等の急激な利用増加により、サーバ装置の常時監視と障害の早期復旧が重要な課題となっている。しかし、どこにボトルネックが生じているのか予測し難いという現状である。
【００１７】
その対応として、複数の市販監視製品を導入し、良い所を集めたマルチベンダ監視システム環境の導入が図られているが、業務アプリケーション毎に特化した「障害情報表示と連携した連絡、異常処理のリモート復旧」等の連携運用機能面が不十分であった。この結果、監視・運用管理に要する費用（ＴＣＯ）の増大を招くと共にネットワーク監視の一元化に反し全体ネットワークシステムの信頼性維持が困難となっている。
【００１８】
【発明が解決しようとする課題】
解決しようとする問題点は、従来のマルチベンダ環境の大規模な分散ネットワークの監視技術では、別系統の監視装置専用に組み込まれた情報収集エージェントと共存させる配慮がなく、一つの監視システムだけではサポートが不可能であり、また、リモート監視により監視装置になりすましてユーザのサーバ装置等へ不正侵入することを防止することができず、また、従来は障害の発生をネットワーク管理者に電子メール等で通知するだけであり、通知を確認したネットワーク管理者が障害サーバ装置等の担当者を特定して連絡するまでに時間と手間がかかってしまい、また、従来は監視対象サーバが増えた場合に監視性能確保のために監視装置を分散させると全体の監視情報を一元管理できずＴＣＯ削減ができず、また、一台の監視装置で全ての監視情報を集約して管理すると当該管理装置への負荷が増大してしまい、また、従来の監視システムではＰＩＮＧコマンドでの動作状態監視やＳＮＭＰによる性能監視の抱き合わせ機能までであり、障害検知から通報そして復旧までの障害監視運用過程を自動化することができず、また、従来は複数の監視装置で分散して監視しているので、例えば、それぞれの監視装置を連携しマスタ監視装置の画面にその監視下になる監視装置アイコンを表示し、リンクを張るだけであり、監視情報画面や性能監視情報、ログ情報などは、各監視装置に固有の画面表示のままで統合されておらず、また、従来は監視装置で提供する画面の状態確認が監視装置に分散され業務は煩雑となり対応が遅れてしまい、さらに、従来の稼働統計は計画停止時間などの情報がなくこの時間を除いた稼働率が提供されていたため、大規模なマルチベンダ環境の分散コンピュータネットワークシステムにおける監視を効率良くかつ安全にサポートすることができない点である。
【００１９】
本発明の目的は、これら従来技術の課題を解決し、大規模なマルチベンダ環境の分散コンピュータネットワークの運用管理者の負担の軽減とＴＣＯの削減を可能とすることである。
【００２０】
【課題を解決するための手段】
上記目的を達成するため、本発明では、マルチベンダ環境のコンピュータネットワークシステムにおける各監視対象装置のリモート監視を行うシステムとして、各監視対象装置（データ伝送装置やサーバ装置）に情報収集エージェント（プログラム）を、また、監視装置にネットワーク監視マネージャ（プログラム）を組み込み、監視対象装置において、情報収集エージェントにより、別系統の監視装置専用に組込まれた情報収集エージェントと共存させ、複数台の監視装置と情報共用を実現することにより、マルチベンダ環境のコンピュータネットワークシステムにおける各監視サポートを統合的して行う。また、監視装置と監視対象装置間にワンタイムパスワードによる認証を行う機能を設けることで、監視装置になりすましてのユーザ側の監視対象装置への不正侵入を防止する。また、障害単位で担当者リスト、電話連絡の有無、重要度を示すメッセージを表示する機能を設けることで、障害を誰に伝えればよいかの検索を容易とする。また、ＮＦＳ（Ｎｅｔｗｏｒｋ　Ｆｉｌｅ　Ｓｙｓｔｅｍ）技術を利用して、監視情報が保存されるそれぞれの監視装置間をネットワーク結合する機能を設けることにより、サーバ負荷軽減を図り、かつ、複数の監視装置間の監視情報を同期させ、一元管理する。また、情報収集エージェントにおいて、ログ情報に用いられるアドレスや識別子、文字の配列などを登録し、ログ情報を検索して、同じパターンを検出した場合、予め登録したアクション動作をさせるパタンマッチ処理機能を設けることにより、ＳＮＭＰなどのように障害情報をログ上に出力するだけでは不可能な監視も可能とし、さらに、障害検知から通報そして復旧までの障害監視運用過程の自動実行を可能とする。また、ユーザ側に提供する監視情報は、監視状態を一元的に把握できる構成でＷｅｂ画面で提供し、かつ、階層が深くなるほど詳細情報を提供する表示構成とすることにより、ユーザと監視センタの双方向での遠隔監視を実現し、迅速な障害体制の確立を可能とする。また、ネットワーク監視マネージャにおいて、監視情報結果から監視対象装置ごとの計画停止時間を含めた月間サービス稼動率とリソース使用率を算出し、サービス稼働率表（稼働率、稼働時間、停止回数、停止時間、警告回数、計画停止回数と時間）と重要障害発生頻度管理（レベルを４区分して色分けして警告）およびリソース使用率推移グラフ（閾値との比較表示、週単位比較表示）の稼動月次レポートを自動作成してＷｅｂ画面で提供する機能を設けることにより、データ伝送装置やサーバ装置等の監視対象装置のシステム障害を事前に予測する情報を提供する。
【００２１】
【発明の実施の形態】
以下、本発明の実施の形態を、図面により詳細に説明する。
【００２２】
図１は、本発明に係わるネットワーク監視システムの構成例を示すブロック図であり、図２は、図１におけるネットワーク監視システムの第１の動作例を示す説明図、図３は、図１におけるネットワーク監視システムの第２の動作例を示す説明図、図４は、図１におけるネットワーク監視システムの詳細構成例を示すブロック図である。
【００２３】
図１において、１は監視装置に読み込まれたネットワーク監視マネージャ（図中「ネットワーク監視マネージャプログラム」と記載）、２は別系統の監視装置、３〜５はデータ伝送装置やサーバ装置等の監視対象装置であり、６〜９は広域ＬＡＮ等のネットワークの通信回線である。
【００２４】
各装置１〜５は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）や主メモリ、表示装置、入力装置、外部記憶装置等を具備したコンピュータ構成からなり、光ディスク駆動装置等を介してＣＤ−ＲＯＭ等の記憶媒体に記録されたプログラムやデータを外部記憶装置内にインストールした後、この外部記憶装置から主メモリに読み込みＣＰＵで処理することにより各機能を実現する。
【００２５】
監視対象装置３は、ＴＣＰ（Ｔｒａｎｓｍｉｓｓｉｏｎ　Ｃｏｎｔｒｏｌ　Ｐｒｏｔｏｃｏｌ）処理を行うＴＣＰ処理部（図中「ＴＣＰポート」と記載）３１と、装置保有リソース情報や稼働情報を格納する情報記憶部（図中「装置保有リソース情報や稼働情報」と記載）３２、および、例えばＳＭＴＰ（Ｓｉｍｐｌｅ　Ｍａｉｌ　Ｔｒａｎｓｆｅｒ　Ｐｒｏｔｏｃｏｌ）やＷＷＷ（Ｗｏｒｌｄ　Ｗｉｄｅ　Ｗｅｂ）等のアプリケーションプログラムに基づく処理を行うアプリケーション処理部（図中「アプリケーションプログラム」と記載）３３を有する。
【００２６】
また、監視対象装置４は、同ＴＣＰ処理部４１、情報記憶部４２、アプリケーション処理部４３と共に、ワンタイムパスワード認証プログラム４４ａ、性能監視用エージェントプログラム４４ｂ、リモート復旧プログラム４４ｃをサブプログラムとして持ち本発明に係わる情報収集処理を行う情報収集エージェント（図中「情報収集エージェントプログラム」と記載）４４を有する。
【００２７】
さらに、監視対象装置５は、同ＴＣＰ処理部５１、情報記憶部５２、アプリケーション処理部５３、および、ワンタイムパスワード認証プログラム５４ａ、性能監視用エージェントプログラム５４ｂ、リモート復旧プログラム５４ｃをサブプログラムとして持ち情報収集処理を行う情報収集エージェント５４と共に、別系統の監視装置用の専用情報収集エージェントに基づく処理を行う別系統情報収集エージェント（図中「別系統の監視装置用の専用情報収集エージェントプログラム」と記載）５Ａを有する。
【００２８】
監視装置に組み込まれるネットワーク監視マネージャ１は、プロセス／性能監視プログラム１１、中継サーバプログラム１２、稼働月次レポート自動作成プログラム１３からなり、さらに、プロセス／性能監視プログラム１１は、ワンタイムパスワード発生プログラム１１ａ、ＴＣＰポート番号設定変更プログラム１１ｂ、プロセス／ステータス確認プログラム１１ｃ、監視タイミング時間調整変更プログラム１１ｄ、監視一時休止状態表示プログラム１１ｅ、障害管理用Ｗｅｂプログラム１１ｆ、リモート復旧判断プログラム１１ｇからなり、中継サーバプログラム１２は、統合監視情報管理プログラム１２ａ、ＨＴＭＬ生成プログラム（図中「ＨＴＭＬ生成」と記載）１２ｂ、ソケットプログラム１２ｃ、別系統の監視装置の専用情報収集エージェントプログラム１２Ａからなり、稼働月次レポート自動作成プログラム１３は、状態履歴情報Ｗｅｂコンテンツ生成プログラム（図中「状態履歴情報Ｗｅｂコンテンツ生成」と記載）１３ａからなる。
【００２９】
別系統の監視装置２は、障害復旧テンプレート２１ａとソケットプログラム２１ａを有し、仮想通信経路１０を介して、ネットワーク監視マネージャ１内に取り込まれた別系統の監視装置の専用情報収集エージェントプログラム１２Ａと接続される。
【００３０】
各監視対象装置３〜５はそれぞれ異なるベンダから提供されたものとし、本例のネットワーク監視システムでは、このようなマルチベンダ環境において、各監視対象装置３〜５に対するリモート監視を行う。
【００３１】
大規模なネットワークを構成するにはこのようなマルチベンダ環境となるのが一般的であり、このような大規模なネットワークを運用するにあたり、ネットワーク監視の自動化と標準化が要求される。また、ネットワーク機器やトラヒック管理のみでは万全ではなく、さらにはアプリケーションをも連携した監視も含め、迅速な復旧処理をする必要がある。
【００３２】
これらの要件を考慮したネットワーク監視を行うためには、次に例示するようなポイントが重要である。
【００３３】
ポイント（１）：監視オペレータの仕事は常時緊張を強いられる。すなわち、オペレータは、監視画面を常時チェックし、障害が発生するとユーザに連絡しなければならない。その際、連絡先担当者を調べて連絡・操作指示を待つ。役割分担の通りに障害に対応するには迅速な連絡を実現する必要があり、そのためには、オペレータが障害を誰に伝えればよいかを容易に検索できるようにすることが重要なポイントとなる。
【００３４】
そのために、本例では、ネットワーク監視マネージャ１（のプロセス／性能監視プログラム１１）に障害管理用Ｗｅｂプログラム１１ｆを設け、見やすいＷｅｂ画面構成で、ユーザ側および監視センタ側の双方に同時に、障害単位で担当者リスト、電話連絡の有無、重要度を示すメッセージを表示する。
【００３５】
ポイント（２）：業務アプリケーションの異常発生を監視する場合、ＯＳ（オペレーションシステム）が備えているメッセージ（リソース状況）とアプリケーションが出力するメッセージログを連携し、どこまでリカバリ処理が必要かを検知し、さらに、障害から自動復旧させたり、システム担当者に警告を出すことが要求される。本例では、プロセス／性能監視プログラム１１を設け、このような処理を行う。
【００３６】
ポイント（３）：リモートでの監視ソフトウエアはネットワーク上のトラヒックが増加する為、監視対象サーバ等にエージェントを組み込み、問題発覚時のみトラップすることで情報採取する技術があるが、監視の基本であるＳＮＭＰだけでは管理できない機器や管理情報が増える傾向にある。本例では、このような問題に対処するために、情報収集エージェント４４に性能監視用エージェントプログラム４４ｂを設ける。
【００３７】
ポイント（４）：大規模なコンピュータネットワークシステムの運用管理をする際、アプリケーション管理機能やソフトウエア配布／イベントリ管理機能等の個々の運用管理機能同士を連携させることが要求されるが、構築に当たり一社だけでは満足のいく製品体系にはならない。本例では、ネットワーク監視マネージャ１に中継サーバプログラム１２を設けて他社製品との連携を行う。これにより、分散先毎に監視マネージャを設置する必要がなくなり、設備面、運用人員面でのコスト削減を図ることができる。
【００３８】
ポイント（５）：分散したオフィス先の各リソース管理をＷＡＮ等を挟んでリモート系コマンドによる監視制御を行う場合、不正アクセスが可能であるとの問題に対処するため、本例では、ネットワーク監視マネージャ１側にワンタイムパスワード発生プログラム１１ａを、情報収集エージェント４４側にワンタイムパスワード認証プログラム４４ａを設け、監視装置と監視対象装置４，５間のセキュア通信をサポートする。
【００３９】
従来は、監視サーバ（監視マネージャとも呼ばれている）１台でＷＡＮを挟んだ分散オフィスや同一ＬＡＮ上にあるサーバのリソースを監視する場合、他人から覗かれる恐れがあるので、分散毎に監視サーバを設置し監視している。
【００４０】
その他、例えば、動作状態を監視するのに、「Ｐｉｎｇ」コマンドが用いられるが、従来は、このコマンド（Ｐｉｎｇ）の発行間隔時間を監視状態に応じて変更できない。その結果、実際には障害復旧しているが、監視間隔時間ズレにより監視マネージャの監視状態は異常表示となったままの状態が発生する。このような問題に対処するために、本例では、ネットワーク監視マネージャ１におけるプロセス／性能監視プログラム１１に監視タイミング時間調整変更プログラム１１ｄを設けている。
【００４１】
また、従来技術では、工事等で停止している状態も、障害として検知されるので、障害情報の精度が劣化する。このような問題に対処するために、本例では、監視一時休止状態表示プログラム１１ｅを設け、工事管理情報データベース１４に基づき、工事等での停止状態を障害状態と区別して管理する。
【００４２】
このように、本例では、監視対象装置４，５に情報収集エージェント４４，５４を、また、監視装置にネットワーク監視マネージャ１を組み込み、監視対象装置４，５では、情報収集エージェント４４，５４により、当該監視対象装置４，５の稼働情報や性能情報および保有するリソースの状態等の情報を収集し、情報記憶部４２，５２に格納して管理する。
【００４３】
監視対象装置４，５の情報収集エージェント４４，５４は、ログ情報に用いられるアドレスや識別子、文字の配列などを登録し、ログ情報を検索して、同じパターンを検出した場合、予め登録したアクション動作をさせるパタンマッチ処理機能を有し、ＳＮＭＰなどのように障害情報をログ上に出力するだけでは不可能な監視も行い、さらに、障害検知から通報そして復旧までの障害監視運用過程を自動的に実行する。
【００４４】
ネットワーク監視マネージャ１は、通信回線７，８を介して、監視対象装置４，５の情報収集エージェント４４，５４に定期的にアクセスして、情報記憶部４２，５２に格納した各種情報を取得し、障害発生の検知、および、障害復旧の検知等を行い、検知した障害情報および復旧情報を一元的に管理して、監視センタ側と共にユーザ装置側にもＷｅｂブラウザを介して通知する。これにより、リアルタイムで遠隔性と同時可視化に優れたネットワーク管理を行うことができる。
【００４５】
また、情報収集エージェント４４，５４とネットワーク監視マネージャ１間では、ワンタイムパスワード発生プログラム１１ａとワンタイムパスワード認証プログラム４４ａ，５４ａにより、ワンタイムパスワードによる情報収集単位毎の認証を行うことにより、リモート不正アクセスを可否でき安全性を確保できる。
【００４６】
また、ネットワーク監視マネージャ１は、監視対象装置４，５での障害情報を取得すると、監視タイミング時間調整変更プログラム１１ｄにより、当該障害に対する復旧情報を取得するまで、情報収集時間間隔を短くして、復旧情報を取得するタイミングを早め、監視精度を向上させる。
【００４７】
また、ネットワーク監視マネージャ１は、中継サーバプログラム１２により、別系統の監視装置の制御下で収集・管理している監視情報を、ＮＦＳ（Ｎｅｔｗｏｒｋ　Ｆｉｌｅ　Ｓｙｓｔｅｍ）技術により統合管理し、さらに、統合管理した情報に基づき障害発生を検知し、検知した障害に対応する復旧処理を別系統の監視装置に指示し、この別系統の監視装置にアドオンしたプログラムからリモートコマンドを発行し、当該監視対象装置の情報収集エージェントに自動復旧させる。これにより、既存の監視マネージャをそのまま導入しただけで、例えばイントラネット環境下でのベンダ毎の監視や管理ツールを共存させることができる。
【００４８】
以下、図１におけるシステムの動作説明を行う。
【００４９】
図１においては、データ伝送装置やサーバ装置などからなる複数の監視対象装置３〜５の情報収集エージェント４４，５４は、予め監視センタからリモート処理で組み込まれる。
【００５０】
この情報収集エージェント４４，５４が収集して情報記憶部３２，４２，５２に格納した各種情報（障害情報や装置保有リソース情報、稼動情報等の性能情報など）、および、アプリケーションプログラム３３，４３，５３の動作状況などが、ネットワークを介してネットワーク監視マネージャ１において、監視情報（システムログ情報）として収集される。この際、ネットワーク監視マネージャ１が監視対象装置であるか否かをワンタイムパスワード認証により認証し、正当性を確認する。
【００５１】
ネットワーク監視マネージャ１は、障害管理用Ｗｅｂプログラム１１ｆにより、監視情報と同時に収集している性能情報を基に、図２に示す手順で、監視センタとユーザの双方に、同時に、障害検知や、監視情報および性能情報の分析結果などを自動通知する。
【００５２】
すなわち、図２に示すように、従来は、監視対象装置における障害発生を検知した監視装置が、まず、監視センタに通知し、監視センタにおいて、情報収集、分析／調査を行い、ユーザ側に警告／通知を障害当該ユーザに行っており、ユーザ側と監視センタにおいて通知を受けるまでに大きな時間差が発生していたが、本例では、ネットワーク監視マネージャ１が、障害発生を検知すると、監視センタとユーザの双方に、同時に、通知するので、監視センタとユーザとの通知時間差がほとんどゼロになる。
【００５３】
また、本例では、ネットワーク監視マネージャ１と情報収集エージェント４４，５４において、障害情報の自動収集と、分析、調査、および、リモート復旧処理を行うことにより、監視センタおよびユーザ側では、直接の情報収集が不要となり、重度障害のみの分析／調査のみを行うだけでよくなる。
【００５４】
さらに、ネットワーク監視マネージャ１から監視センタおよびユーザ側への障害発生などの通知は、障害管理用Ｗｅｂプログラム１１ｆによりＷｅｂ技術を利用して、瞬時に異常を見つけ易いように監視項目や性能項目を任意の観測時間で、数値や○×で、視覚的に表示かつ具体的変化を数値で判断しやすいチックシート形式でＷｅｂ画面に表示する。
【００５５】
例えば、この障害管理用Ｗｅｂプログラム１１ｆによるＷｅｂ画面表示において、各監視対象装置３〜５がイントラネット系のサーバ装置であれば、障害が発生した装置の担当者および連絡先と条件等が記載されたポップアップメモが自動的に現れ、同時に、障害管理用Ｗｅｂプログラム１１ｆは、担当者へ電子メールを自動発信する。
【００５６】
監視センタ側に対するＷｅｂ画面では、障害サーバ名や時刻等の情報メッセージをポップアップ表示して警告する。障害が復旧すると自動的に裏画面の障害履歴画面に内容が移動される仕組みとする。
【００５７】
監視対象が電子メールサーバであれば、監視画面に障害サーバを表示してブザーを鳴らし、オペレータが、該当する障害サーバ表示部分をクリックすると連絡先情報がポップアップする仕組みとする。
【００５８】
ユーザ側に対するＷｅｂ画面では、階層画面構成とし、最初の階層画面では、事業所毎にサービス別ノードをアイコンで稼動状況をリアルタイム表示する。この際、正常／注意／異常の３段階評価で色分けして表示する。さらに次の階層画面では、パスワード入力を必要とし、障害発生ログによる詳細状態を把握可能な内容を表示し、この画面で警告音を出す仕組みとする。
【００５９】
また、監視対象装置３〜５がイントラネットやインターネット系のサーバであれば、そのプロセス・性能の監視に関してのＷｅｂ画面では、最初の画面においては、各監視対象装置３〜５の状態をアイコンで、正常／警告／異常の３階段評価で表示する。次の階層画面ではチェックシート方式による性能情報を提供し、次の階層画面で、詳細性能情報をテキストベースで提供する仕組みとする。
【００６０】
電子メールサーバの障害に関しては、監視画面に障害箇所を表示してブザーを鳴らし、オペレータが該当する障害箇所をクリックすると、稼動状況一覧画面にリンクし、リンク先では各障害箇所での滞留メッセージ数やＳＭＴＰのレスポンス状態等の情報をユーザが瞬時に異常判断できる最小項目をビジュアルにサーバ毎にブロック表示する。
【００６１】
尚、小規模な事業所側では、夜間バッチ処理によるサーバ停止が毎晩発生することがある。このような場合に対処するため、本例では、監視一時休止状態表示プログラム１１ｅにより、監視対象から任意な時間帯に解除する。
【００６２】
さらに、本例では、障害の発生から復旧、稼動月次統計報告作成に至る障害監視運用全過程を、途中、人的操作を介入せず、Ｗｅｂ管理画面のみで総合的に一括管理することができる。
【００６３】
以下、図１におけるネットワーク監視システムの動作について説明する。図１において、監視対象装置３は、情報収集エージェントが組み込まれておらず、ＴＣＰポートのみで監視される装置である。ＴＣＰポートでの監視としては、例えばサーバ装置の各サービスプロセスの生死状態確認がある。
【００６４】
また、監視対象装置４は、ＴＣＰポートでの監視を含み、さらに、ワンタイムパスワード認証プログラム４４ａと、性能監視用エージェントプログラム４４ｂ、リモート復旧プログラム４４ｃからなる情報収集エージェント４４が組み込まれ、これらのプログラムに基づく監視が行われる。
【００６５】
そして、監視対象装置５は、監視対象装置４の構成に、さらに、既に別系統の監視装置２の監視下にある専用情報収集エージェント５Ａが組み込まれており、情報収集エージェント４４と専用情報収集エージェント５Ａとが共存し、両監視が行われる。
【００６６】
これらの監視対象装置３〜５は、ネットワークや広域ＬＡＮを介して監視装置（ネットワーク監視マネージャ１）に接続され、監視装置において、各監視対象装置３〜５の監視情報が収集され管理される。
【００６７】
まず、監視対象装置３に対する監視動作について説明する。
【００６８】
監視対象装置３の監視は、ネットワーク監視マネージャ１のプロセス／ステータス確認プログラム１１ｃから、状態確認コマンド（ＰＩＮＧ）を、ＴＣＰポート番号設定変更プログラム１１ｂ経由（予め該当のＴＣＰポート番号変更指示設定がない場合はデフォルト）で、通信回線６に接続した監視対象装置３のＴＣＰ処理部３１を介して各ＴＣＰポートに接続し、監視対象のＴＣＰポートのプロセス状態を５分間隔（任意設定可）で監視する。
【００６９】
状態確認コマンド（ＰＩＮＧ）の無応答を検知すると、「正常／警告／異常」の３区分のうち「警告」に設定する。
【００７０】
このように、「警告」を設定すると、図３で示すように、監視タイミング時間変更プログラム１１ｂにより、ＰＩＮＧの発行タイミング時間を、５分間隔から１分間隔（任意設定可）に自動的に短縮し、以降、約１０分間、１分間隔で、そのＴＣＰポートに対してＴＣＰセッション確立を試みる。
【００７１】
そこで、確立できない場合のみエラーのメッセージ（Ｃｏｎｎｅｃｔｉｏｎ　ｒｅｆｕｓｅｄ）を返す。そのメッセージの存在有無により、プロセス／ステータス確認プログラム１１ｃは、障害を検知し、「異常」区分とする。
【００７２】
尚、ＰＩＮＧのレスポンスがあると、プロセス／ステータス確認プログラム１１ｃは、自動的にデフォルトに戻し「正常」区分となる。
【００７３】
このように、ネットワーク監視マネージャ１では、「警告」を設定すると、ＰＩＮＧ発行タイミング時間を、５分間隔から１分間隔に自動的に短縮して、そのＴＣＰポートに対するＴＣＰセッション確立を試みることにより、復旧検知時間を早くでき、監視精度向上を図ることが可能である。
【００７４】
また、監視タイミング時間変更プログラム１１ｂは、監視対象装置３が固有に持っているシステムログ情報で管理している復旧時刻と、ネットワーク監視マネージャ１の復旧時刻にズレが発生した場合、ネットワーク監視マネージャ１が障害通知のため自動発行する通知メール上に記載される障害発生時刻や復旧時刻およびＷｅｂ表示の警告時刻などに時刻差が生じるので、ネットワーク監視マネージャ１が参照する時刻を、監視対象装置３がシステムログ情報の管理に用いている時刻に補正する。複数の監視装置間にまたがった監視情報や性能管理情報の収集時刻などが同期されるので、障害分析を複数のログ情報を突き合わせる原因追跡（時間経緯）では有効となる。
【００７５】
尚、障害管理Ｗｅｂプログラム１１ｆでは、ＴＣＰポートに応答がない場合（「Ｃｏｎｎｅｃｔｉｏｎ」が「ｒｅｆｕｓｅｄ」される場合）は「警告」とし、ユーザ側装置や監視センタ装置に提供するＷｅｂ画面で表示するアイコンを緑色（正常）から黄色（警告）に変える。そして、監視間隔が１分間隔に切り替わり、さらに、１０回連続で応答がない場合（約１０分間）に障害として判断し、アイコンを黄色から赤色（異常）に変えアラームを鳴動する。
【００７６】
また、監視対象装置の「障害」、「復旧」を検知した場合は、監視条件メッセージ管理データベース１５において予め指定されたサーバ管理者に、電子メールを自動発送して通報する。この監視条件メッセージ管理データベース１５におけるユーザ別・サーバ別の通知先や、時間他の指定や担当者のエスカレーション等は任意に設定が可能である。
【００７７】
自動発送する通知メールの例を下記に示す。

【００７８】
また、監視結果は下記のようにＷｅｂ画面上にロギングされる。これらログは、常時、過去５日間のログを表示する。また、サーバの稼動状態が良好の場合は何も表示されない。
【００７９】

【００８０】
ここで、「Ａｐｒ／２４／２００１　０２：１３：１０　ｎｍａｐｐ１　ｄｉｓｋ　ｏｋ」は、「正常」であり、色識別区分は「緑色」で、緑色に表示され、また「Ａｐｒ／２３／２００１　００：１３：１０　ｎｍａｐｐ１　ｄｉｓｋ　ｗａｒｎｉｎｇ　ｏｖｅｒ　９０％」は、「警告」であり、色識別区分は「黄色」で黄色に表示され、そして、「Ａｐｒ／２２／２００１　１０：０６：３９　ｎｍａｐｐ２　ｄｎｓ　（ｐｏｒｔ　５３）　ｅｒｒｏｒ」は「異常」であり、色識別区分は「赤色」で、赤色に表示される。
【００８１】
障害管理用Ｗｅｂプログラム１１ｆでは、監視対象のＴＣＰポートに応答がない場合、監視一時休止表示プログラム１１ｅからの情報を参照する。すなわち、監視一時休止表示プログラム１１ｅは、工事管理情報データベース１４を参照し、監視対象装置３の工事停止情報を検索し、障害か工事による停止かを判断し、その結果を障害管理用Ｗｅｂプログラム１１ｆに指示する。
【００８２】
障害外、例えば工事による停止であれば、障害管理用Ｗｅｂプログラム１１ｆは、その時間帯を監視対象外扱いとする。このように、監視対象外時の場合は、Ｗｅｂ画面上に青色のアイコンを表示する。このアイコンは通常は使用しないが、計画的停止などによる監視の一時停止時などに表示する。
【００８３】
また、この停止時間情報は、稼動月次レポート自動作成プログラム１３に蓄積される。稼動月次レポート自動作成プログラム１３は、蓄積した情報結果から監視対象装置（サーバ装置等）ごとの月間サービス稼動率とリソース使用率を算出し、サービス稼働率表（稼働率、稼働時間、停止回数、停止時間、警告回数、計画停止回数と時間）と重要障害発生頻度管理（レベル４で区分して色で警告）、および、リソース使用率推移グラフ（閾値との比較表示、週単位比較表示）等からなる稼動月次レポートを自動作成し、状態履歴情報Ｗｅｂコンテンツ生成１３ａでデータ伝送装置やサーバ装置のシステム障害を事前に予測する情報に加工する。
【００８４】
次に、監視対象装置４に対する監視動作を説明するが、監視対象装置４の「状態監視」に関しては、ネットワーク監視マネージャ１のプロセス／ステータス確認プログラム１１ｃから状態確認コマンド（ＰＩＮＧ）をＴＣＰポート番号設定変更プログラム１１ｂ経由（予め該当のＴＣＰポート番号変更指示設定がない場合はデフォルト）で通信回線７に接続した監視対象装置４のＴＣＰ処理部４１を介して各ＴＣＰポートに接続するもので、監視対象装置３と同様の監視過程であり、以下「性能監視」のみをポイントに説明する。
【００８５】
監視対象装置４において、性能監視用エージェントプログラム４４ｂは、情報収集エージェント４４に組み込んだサブプログラムであるが、性能監視用エージェントプログラム４４ｂ単体でも機能するものであり、ＣＰＵ負荷情報の収集、ディスク使用率情報の収集、メモリ使用率情報の採取、メールキュー情報の採取、プロセス数の収集等を行う。
【００８６】
また、情報収集エージェント４４は、ログ情報とのパターンマッチによるアクション動作機能の他に、ネットワーク監視マネージャ１との監視専用ＴＣＰポート（例えばポート番号「８８８８」）での通信機能、ならびに、別系統の監視装置専用に組み込まれた情報収集エージェントと共存を可能とする機能を有し、さらに、ワンタイムパスワード認証プログラム４４ａ、性能監視用エージェントプログラム４４ｂ、リモート復旧プログラム４４ｃのそれぞれを連携する機能を有する。
【００８７】
ネットワーク監視マネージャ１は、プロセス／ステータス確認プログラム１１ｃからＴＣＰポート番号設定変更プログラム１１ｂ経由（予め該当のＴＣＰポート番号変更指示設定がない場合はデフォルト）で、監視対象装置４の情報収集エージェント４４の性能監視用エージェントプログラム４４ｂを起動させる為のリモートコマンドを、通信回線７に接続した監視対象装置４のＴＣＰ処理部４１が情報収集エージェント４４に専用に割当てたＴＣＰポート（「８８８８」）を介して発行し、性能監視用エージェントプログラム４４ｂにおいて予め登録されている各種スクリプト（ＣＰＵ負荷情報収集用、ディスク使用率情報収集用、メモリ使用率情報採取用、メールキュー情報採取用、プロセス数収集用など）を起動させる。
【００８８】
尚、この際、リモートコマンドには、ワンタイムパスワード発生プログラム１１ａで生成した、監視対象装置４の情報収集エージェント４４の性能監視用エージェントプログラム４４ｂを起動させる為のワンタイムパスワードを付与し、ワンタイムパスワード認証プログラム４４ａにおいてワンタイムパスワードに基づく認証を行った後に、性能監視用エージェントプログラム４４ｂに発行し起動させる。
【００８９】
このように、ワンタイムパスワード認証後に、性能監視用エージェントプログラム４４ｂは、リモートコマンドに対応する性能数値をチェックシート形式で性能監視情報として編集し、プロセス／性能監視プログラム１１に送信する。
【００９０】
プロセス／性能監視プログラム１１では、障害管理用Ｗｅｂプログラム１１ｆにより、性能監視用エージェントプログラム４４ｂから送られてきた性能数値を予め設定した「しきい値」と比較し、しきい値を超えた（下回った）場合には障害として検知し通報対象とする。尚、性能監視用エージェントプログラム４４ｂでは、性能監視情報は貯めず、アクセスログ情報のみを残す。
【００９１】
性能評価における「ロードアベレージの監視（ＣＰＵ負荷情報収集）」は、基本的に「ｕｐｔｉｍｅ」コマンド　の結果をもとにＣＰＵの負荷状況を把握し、過去１分平均の値をもとに監視を行う。例えば、ＦｒｅｅＢＳＤ（登録商標）の場合、「ｕｐｔｉｍｅ」　の実行結果は以下のように示される。
【００９２】

【００９３】
上記「ｌｏａｄ　ａｖｅｒａｇｅ」以下の項目（０．１０，　０．０９，　０．０８）を取得し、しきい値と比較させ、それを上回った場合に警告とする。この状態がしばらく続くと障害として検知する。
【００９４】
このように、しきい値を超えた時すぐに障害を検知するのではなく、しきい値を超えた状態が続くようなら障害と認識する。尚、警告期間は任意に設定可能である。
【００９５】
また、性能評価における「ディスク使用率の監視」は「ｄｆ」コマンド　の結果をもとにディスクの使用状況を把握し、ファイルシステム単位での監視を行う。例えばＦｒｅｅＢＳＤ（登録商標）の場合、「ｄｆ」の実行結果は以下のようになる。
【００９６】

【００９７】
ファイルシステム（「Ｆｉｌｅｓｙｓｔｅｍ」）に対応する「Ｃａｐａｃｉｔｙ」の値（５２％、４８％、０％）を取得し、しきい値と比較し、それを超えた場合に障害として検知する。ファイルシステムは同時に複数監視可能であるが、しきい値は同一のものとする。尚、しきい値の指定は２つまで可能とする。
【００９８】
また、性能評価における「メモリ使用率の監視」は、基本的に「ｔｏｐ」コマンド　の結果をもとにメモリの使用状況を把握し、フリーメモリの値をもとに監視を行う。例えば、ＦｒｅｅＢＳＤ（登録商標）の場合、「ｔｏｐ」の実行結果は以下に示すようになる。
【００９９】

【０１００】
このうち、「Ｍｅｍｏｒｙ：」の行（「Ｍｅｍｏｒｙ：　Ｒｅａｌ：　３６２８Ｋ／２２Ｍ　Ｖｉｒｔ：　８７５２Ｋ／１９９Ｍ　Ｆｒｅｅ：　２９Ｍ」）のみを選定する。さらに、「Ｍｅｍｏｒｙ：」に関する「Ｆｒｅｅ：」の項目（「２９Ｍ」）を取得し、しきい値と比較させ、それを下回った場合に障害として検知する。但し、「ｔｏｐ」コマンドが標準でインストールされていない場合があるので、その場合は別途インストールするか、監視できないということになる。
【０１０１】
例えば、オペレーティングシステムがＬｉｎｕｘ（登録商標）の場合、Ｌｉｎｕｘ（登録商標）にはメモリ使用状況を表示する専用の「ｆｒｅｅ」コマンドなるものが存在するので、Ｌｉｎｕｘ（登録商標）の場合はこの「ｆｒｅｅ」コマンドを使用する。この「ｆｒｅｅ」コマンドの実行例を下記に示す。
【０１０２】

【０１０３】
この時は、「Ｍｅｍ：」行に対する「ｆｒｅｅ」の値（「２３３４８」）を取得する。
【０１０４】
次に、性能評価における「メールキュー監視」について「Ｓｅｎｄｍａｉｌ」を例に説明する。
【０１０５】
「Ｓｅｎｄｍａｉｌ」のメールキュー監視は、「ｍａｉｌｑ」コマンド　の結果をもとにメールの滞留状況を把握し、この滞留数をもとに監視を行う。例えば、「Ｓｅｎｄｍａｉｌ」の場合の「ｍａｉｌｑ」の実行結果は以下のようになる。
【０１０６】

【０１０７】
このような実行結果から、メールの滞留数を取得し、しきい値と比較させ、それを超えた場合に障害として検知する。尚、メールキューがない場合はメッセージとして「ｅｍｐｔｙ」を返すので、これを「０（数値）」として扱う。
【０１０８】
また、他の事例として、グループウェーア系Ｍａｉｌについて説明する。このグループウェーア系Ｍａｉｌのメールキュー監視は、上記「Ｓｅｎｄｍａｉｌ」のメールキュー監視に加え、グループウェーア系Ｍａｉｌのローカルで使われている「ｘ．４００」及び、この「ｘ．４００」とＳＭＴＰとの掛け橋となる「ＳＭＴＰ　Ｇａｔｅｗａｙ」の持つそれぞれのファイル数をカウントし、それを滞留数として扱うようにする。尚、「ＳＭＴＰ　Ｇａｔｅｗａｙ」は「ｘ．４００」向けと「Ｓｅｎｄｍａｉｌ」向けの２つをカウントする。
【０１０９】
グループウェーア系Ｍａｉｌ特有のメール滞留数は、ある特定のディレクトリ上のファイル数をカウントすることで求めることができるので、ファイルをカウントするスクリプトを準備しておき、これを実行することで各々滞留数を取得することができる。このようにして取得した滞留数としきい値を比較させ、それを超えた場合に障害として検知する。尚、監視は「Ｍａｉｌ　ｑｕｅｕｅ」、「ｘ４００　ｑｕｅｕｅ」、「ｓｍｔｐ　ｔｏ　ｘ４００　ｑｕｅｕｅ」、「ｓｍｔｐ　ｔｏ　Ｓｅｎｄｍａｉｌ　ｑｕｅｕｅ」の４項目それぞれについて可能である。
【０１１０】
さらに、他の事例として、ウイルスチェックサーバの監視は、搭載されたウイルスチェックソフト製品を用いてのメールウィルスチェック専用のメールキューを監視する。このメール滞留数もグループウェーア系Ｍａｉｌと同様に、特定のディレクトリ上のファイル数をカウントすることで求めることができる。
【０１１１】
次に、性能評価における「プロセス数監視」は、特定のプロセス数をカウントして、そのカウント数を元に監視するものである。代表的なもので言えば、「ＳｅｎｄＭａｉｌ」、「Ｄｅｌｅｇａｔｅ」、「Ｓｑｕｉｄ」等である。対象プロセスを限定するものではないので、カウント可能ものであれば種別は問題ではない。
【０１１２】
例として、「ＳｅｎｄＭａｉｌ」のプロセス数を監視する際、以下に示すように、「ｐｓ」コマンド　にてプロセス一覧を表示させ、その中で　「ｓｅｎｄｍａｉｌ」　の文字列を有するものを抜き出す。その抜き出した行数をカウントすることでプロセス数を取得する。
【０１１３】

【０１１４】
特定プロセス数は、上記のようなプロセス数をカウントするためのスクリプトを準備しておき、これを実行することでプロセス数を取得することができる。取得したプロセス数としきい値を比較し、それを超えた場合に障害として検知する。
【０１１５】
次に、監視対象装置４に対するリモート復旧動作を説明する。
【０１１６】
まず、監視対象装置４上で生じるイベント（ＨＴＴＰ：Ｈｙｐｅｒ　Ｔｅｘｔ　Ｔｒａｎｓｆｅｒ　Ｐｒｏｔｏｃｏｌ、ＳＭＴＰ：Ｓｉｍｐｌｅ　Ｍａｉｌ　Ｔｒａｎｓｆｅｒ　Ｐｒｏｔｏｃｏｌの異常終了など）をトリガとして、リモート復旧プログラム４４ｃに予め組み込んだ障害に応じた復旧オペレーションを実行するプログラムやシェルスクリプトを登録しておく。
【０１１７】
監視対象装置４では、情報収集エージェント４４の性能監視用エージェントプログラム４４ｂが、情報記憶部４２に格納した装置保有リソースや稼動情報（各種ログファイル含む）を参照し、各種ログファイルでのパタンマッチやコマンド実行結果での監視を行う。
【０１１８】
情報収集エージェント４４は、この性能監視用エージェントプログラム４４ｂによる監視結果を、監視装置に組み込まれたネットワーク監視マネージャ１のプロセス／性能監視プログラム１１に、障害検知としてトラップを上げる。
【０１１９】
監視装置に組み込まれたネットワーク監視マネージャ１のプロセス／性能監視プログラム１１は、この情報を基に、リモート復旧判断プログラム１１ｇから、ＴＣＰポート番号設定変更プログラム１１ｂとワンタイムパスワード発生プログラム１１ａ経由で（予め該当のＴＣＰポート番号変更指示設定がない場合はデフォルト）、監視対象装置４の情報収集エージェント４４のリモート復旧プログラム４４ｃを起動させる為のワンタイムパスワード付きのリモートコマンドを、通信回線７を介して監視対象装置４に送る。
【０１２０】
監視対象装置４は、ＴＣＰ処理部４１を介して情報収集エージェント４４に専用に割当てたＴＣＰポート番号で、プロセス／性能監視プログラム１１と情報収集エージェント４４を接続する。
【０１２１】
情報収集エージェント４４は、プロセス／性能監視プログラム１１からのリモートコマンドに付与されたワンタイムパスワードを、ワンタイムパスワード認証プログラム４４ａで認証させた後に、リモートコマンドに対応して、リモート復旧プログラム４４ｃに対して、予め登録されている障害に応じた復旧オペレーションを実行するプログラムやシェルスクリプトを起動する。
【０１２２】
次に、第３の例として、監視対象装置５に対する監視動作について説明する。
【０１２３】
この監視対象装置５は、ネットワーク監視マネージャ１を設けた監視装置と、この監視装置とは別系統の監視装置２から同時に監視されるものであり、それぞれ（監視装置）に監視用通信回線８と監視用通信回線９で接続されている。
【０１２４】
そして、監視対象装置５には、別系統の監視装置２用の情報収集のための別系統の監視装置用の専用情報収集エージェント５Ａが設けられ、また、ネットワーク監視マネージャ１側には、中継サーバプログラム１２のサブシステムとして、別系統の監視装置の専用情報収集エージェントプログラム１２Ａが設けられている。尚、別系統の監視装置用の専用情報収集エージェント５Ａと別系統の監視装置の専用情報収集エージェントプログラム１２Ａとは同じ機能を有する。
【０１２５】
中継サーバプログラム１２の統合監視情報管理プログラム１２ａにより、ネットワーク監視マネージャ１の持つ監視情報と、別系統の監視装置２が持つ監視情報を仮想的に一体化させ、これにより、ネットワーク監視マネージャ１と別系統の監視装置２の監視機能を連携させる。
【０１２６】
以下、例として、別系統の監視装置２には、商用ＵＮＩＸ（登録商標）系のリモート復旧機能があるが、ＰＣ−ＵＮＩＸ（ＵＮＩＸ：登録商標）系（ＦｒｅｅＢＳＤ（登録商標）、Ｌｉｎｕｘ（登録商標）など）に対しては監視機能が無くリモート復旧対象外であるとし、また、ネットワーク監視マネージャ１には、ＰＣ−ＵＮＩＸ（ＵＮＩＸ：登録商標）のプロセス監視と性能監視および復旧機能を有するがリモートでの復旧機能が無いものと想定し、このような環境において、監視対象装置５でＨＴＴＰの障害が発生する際の動作処理を、図４を用いて説明する。
【０１２７】
このような監視対象装置５でＨＴＴＰの障害が発生すると（▲１▼）、監視対象装置５に設けた情報収集エージェント５４におけるサブプログラムの性能監視用エージェントプログラム５４ｂで検出し、ログ情報に記録する（▲２▼）。
【０１２８】
ネットワーク監視マネージャ１は、プロセス／ステータス確認プログラム１１ｃにより、所定の時間間隔でサブプログラムの性能監視用エージェントプログラム５４ｂからログ情報を取得し、監視対象装置５でのＨＴＴＰ障害を検知する（▲３▼）。
【０１２９】
このように、監視対象装置５でのＨＴＴＰ障害を検知すると、監視タイミング時間調整変更プログラム１１ｄにより、プロセス／ステータス確認プログラム１１ｃによる性能監視用エージェントプログラム５４ｂからのログ情報の取得時間間隔を短く、例えば、５分間隔から１分間隔にする。
【０１３０】
また、この際の障害状況により、障害管理用Ｗｅｂプログラム１１ｆにおいて、警告、障害、アラーム鳴動等、段階的にレベル分けしたＷｅｂ通報情報を生成し、ユーザ側および監視センタに送出する。
【０１３１】
また、プロセス／ステータス確認プログラム１１ｃで監視対象装置５のＨＴＴＰ障害を検知すると、リモート復旧判断プログラム１１ｇが、当該障害に対するリモートでの復旧機能の有無を判別する。ここでは、当該障害に対する復旧機能は有するがリモートでの復旧機能は無いとの判別結果となり、リモート復旧判断プログラム１１ｇから障害管理用Ｗｅｂプログラム１１ｆに復旧指示が出力される。
【０１３２】
このリモート復旧判断プログラム１１ｇから出力される復旧指示およびプロセス／ステータス確認プログラム１１ｃで取得した性能監視ログ情報を、障害管理用Ｗｅｂプログラム１１ｆは、障害復旧情報リスト生成機能１１ｆ_１により、チェックシート情報１１ｆ_２に編集する。このチェックシート情報１１ｆ_２は、別系統の監視装置２との共通化を図るようチェックシート形式となっている。
【０１３３】
この編集結果情報は、監視情報同期プログラム（ＮＦＳ）１１ｆ_３により、ＮＦＳを利用して、中継サーバプログラム１２の監視情報同期プログラム（ＮＦＳ）１２ｄに渡され、統合監視情報プログラム１２ａに伝達される（▲４▼、▲５▼）。
【０１３４】
このように、統合監視情報プログラム１２ａにおいては、別系統の監視装置２で登録されている障害ステータス情報をチェックシート（監視対象名称、障害ステータス情報、性能監視ログ情報、障害と同じ扱いで警報する情報）形式で登録し、このチェックシート情報１２ａ_１に基づき、別系統の監視装置用の専用情報収集エージェントプログラム１２Ａが、監視対象装置５のＨＴＴＰ障害を検知する。
【０１３５】
別系統の監視装置用の専用情報収集エージェントプログラム１２Ａによる監視対象装置５のＨＴＴＰ障害の検知動作に基づき、統合監視情報プログラム１２ａは、チェックシート情報１２ａ_１における「ＨＴＴＰ復旧指示」を読み出し、ソケットプログラム１２ｃを介して別系統の監視装置２に伝送し、別系統の監視装置２に対してリモート復旧指示のトラップをあげる（▲６▼）。
【０１３６】
この別系統の監視装置２は、通常は、障害検知機能２３により障害を検知すると、障害復旧用テンプレート２１に従いリモート復旧処理を行うが、ここでは、ＰＣ−ＵＮＩＸ（ＵＮＩＸ：登録商標）対応の復旧オペレーションを実行するプログラムやシェルスクリプトが無いので、監視対象装置５の情報収集エージェント５４の当該リモート復旧プログラム５４ｃを起動するために、ソケットプログラム２１ａを、予めリモート復旧機能２２のアドオンソフトとして、障害復旧用テンプレート２１に登録しておく。
【０１３７】
これにより、別系統の監視装置２は、ソケットプログラム２１ｂを介して接続された監視対象装置５に、情報収集エージェント５４のリモート復旧プログラム５４ｃの復旧オペレーションを実行するプログラムやシェルスクリプトをリモートコマンド発行し（▲７▼）、監視対象装置５においてＨＴＴＰ復旧オペレーションプログラム５４ｃ_１により復旧処理を行う（▲８▼）。
【０１３８】
尚、監視対象装置５において、別系統の監視装置２の配下用に組み込まれている別系統監視装置用専用の情報収集エージェント５Ａと、ネットワーク監視マネージャ１配下の情報収集エージェント５４とは、情報記憶部５２に格納されている装置保有リソース情報や稼動情報から共通に情報を収集するので、情報の同期ズレなどは発生しない。
【０１３９】
このように、監視対象装置５の監視機能を連携して利用することにより、このマルチベンダ環境下での複数の監視装置の監視運用の統合化が実現できる。
【０１４０】
次に、このようなマルチベンダ環境下での複数監視装置の監視機能の連携（トレース）動作に関して、監視対象装置５におけるディスク使用率やログ情報などの性能を監視する動作を例に説明する。
【０１４１】
ネットワーク監視マネージャ１から監視対象装置５に組込みこまれた情報収集エージェント５４の性能監視用エージェントプログラム５４ｂに性能監視情報を収集するためにポーリングを実施する。
【０１４２】
情報収集する内容は、例えば、「Ｌｏａｄ　ａｖｅｒａｇｅ　０．１３」、「Ｆｒｅｅ　Ｍｅｍｏｒｙ　１７５Ｍ」、「ｆｉｌｅ　ｓｙｓｔｅｍ　（／）　２９％」、「ｆｉｌｅ　ｓｙｓｔｅｍ　（／ｕｓｒ）　６２％」、「ｆｉｌｅ　ｓｙｓｔｅｍ　（／ｖａｒ）　１００％」、「ｆｉｌｅ　ｓｙｓｔｅｍ　（／ｖａｒ／ｍａｉｌ）　０％」、「ｆｉｌｅ　ｓｙｓｔｅｍ　（／ｖａｒ／ｓｐｏｏｌ／ｍｑｕｅｕｅ）　０％」、「ｉｎｅｔｄ　ｏ」、「ｓｙｓｌｏｇｄ　ｕｐｄａｔｅ　ｏ」、「ｎａｍｅｄ　ｏ」、「ｓｅｎｄｍａｉｌ　ｐｒｏｃｅｓｓ　１」、「Ｍａｉｌ　ｑｕｅｕｅ　０」、「ｄｅｌｅｇａｔｅ　ｐｒｏｃｅｓｓ　１」、「ｍｅｓｓａｇｅｓ　Ａｐｒ　２０　０５：３６：０３　監視対象装置５　ｋｅｒｎｅｌ：　／ｖａｒ：　ｏｐｔｉｍｉｚａｔｉｏｎ　ｃｈａｎｇｅｄ　ｆｒｏｍ　ＳＰＡＣＥ　ｔｏ　ＴＩＭＥ　　Ａｐｒ　２２　０３：１０：０４　監視対象装置５　ｋｅｒｎｅｌ：　／ｖａｒ：　ｏｐｔｉｍｉｚａｔｉｏｎ　ｃｈａｎｇｅｄ　ｆｒｏｍ　ＴＩＭＥ　ｔｏ　ＳＰＡＣＥ」等となる。
【０１４３】
ネットワーク監視マネージャ１は、上記データをテンポラリファイルとして保存し、予め監視設定ファイルに設定されたしきい値と比較し、監視対象装置５の障害発生の判定を行う。比較終了後、このテンポラリファイルは削除される。
【０１４４】
例えば、ディスク使用率がしきい値を越えて障害状態となった場合、障害管理用Ｗｅｂプログラム１１ｆにおいて、チェックシート情報１１ｆ_１を生成して、このチェックシート情報１１ｆ_１をＮＦＳでファイルシェアをしている中継サーバプログラム１２から、別系統の監視装置用の専用情報収集エージェントプログラム１２Ａを経由し、別系統の監視装置２に、この障害情報を通知する。
【０１４５】
障害管理用Ｗｅｂプログラム１１ｆでは、別系統の監視装置の監視下の障害を検知したことをオペレータコンソール画面などに警告等する。また、リモート復旧判断プログラム１１ｇにおいて、別系統の監視装置２内のリモート復旧機能２２の復旧対象か否か判定する。
【０１４６】
復旧対象の場合、ソケットプログラム１２ｃにより、別系統の監視装置２にアドオンソフトとして組み込まれたソケットプログラム２１ａを介して、リモート復旧機能２２にある障害復旧用テンプレート２１（ディスク障害復旧手順）を動作させ、監視対象装置５に組み込んだネットワーク監視マネージャ１の監視下にある情報収集エージェント５４のリモート復旧プログラム５４ｃ内のディスク障害復旧プログラムに起動をかける。
【０１４７】
このようにして、別系統の監視装置２からの上記アクセスを受け付けた監視対象装置５はネットワーク監視マネージャ１の監視下にある情報収集エージェント５４の専用ディレクトリ下のｂｉｎディレクトリ下に予め用意された復旧オペレーションプログラム（「ｄｉｓｋ＿ｒｅｃｏｖｅｒ．ｓｈ」）を実行する。
【０１４８】
次に、図１における監視装置に組み込まれたネットワーク監視マネージャ１の稼働月次レポート自動作成プログラム１３の動作を説明する。
【０１４９】
稼動月次レポート自動作成プログラム１３は、図４で示す統合監視情報管理プログラム１２ａのチェックシート情報１２ａ_１から，監視対象装置の月間のサービス稼働率とリソース使用率を算出し、「サービス稼働率表」と「リソース使用率推移グラフ」の月次レポートを作成する機能である。作成するレポートの詳細と画面を、図５および図６に示す。
【０１５０】
図５は、図１における稼動月次レポート自動作成プログラムで作成されるサービス稼働率表の構成項目内容例を示す説明図であり、図６は、図１における稼動月次レポート自動作成プログラムで作成されるリソース使用率推移グラフの構成項目内容例を示す説明図である。
【０１５１】
図５に示すように、月間の「サービス稼働率」は、「項目」と「単位」および「説明」欄からなり、例えば、「稼働率」は、「％」を単位とした、計画停止時間を除いた、稼働時間の割合であり、「（稼働率）＝（稼働時間）／（（全対象時間）−（計画停止時間））」の式で求められ。
【０１５２】
また、「稼働時間」は、「分」を単位としたサービス稼動時間であり、「（稼働時間）　＝　（全対象時間）−（計画停止時間）−（停止時間）」の式で求められ、「停止回数」は「回」を単位に、サービスが停止した回数で計画停止は除いた値となり、「停止時間」は「分」を単位に、サービスが停止した時間で計画停止は除いた値となり、「警告（応答遅延）回数」は「回」を単位に、サービス停止までには至らないが，応答遅延を検出した回数が記録され、「計画停止回数」は「回」を単位に、計画停止した回数が記録され、「計画停止時間」は「分」を単位に、計画停止した時間が記録される。
【０１５３】
そして、「停止時間レベル別停止回数」は「回」を単位に、サービスが停止した時間の長さ別の停止回数で計画停止は除く値が記録される。また、この「停止時間レベル別停止回数」においては、デフォルトの停止レベルは，「レベルＡ：２時間以上」、「レベルＢ：１時間以上２時間未満」、「レベルＣ：３０分以上１時間未満」、「レベルＤ：３０分未満」で、停止レベルを規定する停止時間は，設定変更可能である。
【０１５４】
尚、月をまたがる停止／警告／計画停止は，前後の月でそれぞれ停止／警告／計画停止回数にカウントする。また，停止時間レベルも，前後の月でそれぞれの停止時間により計算する。また、停止／警告時間に引き続いて計画停止に入った場合，計画停止前で，１回の停止／警告とカウントする。さらに、ｐｉｎｇ監視で停止／警告と判定された時間は，全てのサービスも停止／警告と判定された時間とする。
【０１５５】
「リソース使用率推移グラフ」は、ディスクやメモリなどのサーバリソースについて，対象月間中の使用率の推移を示すグラフであり、その構成項目内容は、図６に示すように、「項目」と「単位」および「説明」欄からなる。
【０１５６】
例えば、「ディスク使用量」は、「％」を単位として、各パーティションの日毎の最大使用率をプロットした推移グラフとなり、「空メモリ量」は、「Ｍｂｙｔｅ」を単位に、空メモリ量の日毎の最小量をプロットした推移グラフとなり、「ＣＰＵ負荷平均」は、ＣＰＵ負荷平均の日毎の最大値と平均値をプロットした推移グラフとなる。
【０１５７】
以上、図１〜図６を用いて説明したように、本例では、マルチベンダ環境の分散コンピュータネットワークシステムにおける各監視対象装置のリモート監視を行うシステムとして、各監視対象装置（データ伝送装置やサーバ装置）に情報収集エージェントを、また、監視装置にネットワーク監視マネージャを組み込み、監視対象装置において、情報収集エージェントにより、別系統の監視装置専用に組込まれた情報収集エージェントと共存させ、複数台の監視装置と情報共用を実現することにより、マルチベンダ環境のコンピュータネットワークシステムにおける各監視サポートを統合して行う。
【０１５８】
また、監視装置と監視対象装置間にワンタイムパスワードによる認証を行う機能を設けることで、監視装置になりすましてのユーザ側の監視対象装置への不正侵入を防止することが可能となる。
【０１５９】
また、障害単位で担当者リスト、電話連絡の有無、重要度を示すメッセージを監視センタ装置やユーザ装置に表示する機能を設けることで、センタおよびユーザ側において、障害を誰に伝えればよいかの検索が容易となり、迅速な通報等が可能となる。
【０１６０】
また、ＮＦＳ技術を利用して、監視情報が保存されるそれぞれの監視装置間をネットワーク結合する機能を設けることにより、サーバ負荷軽減を図り、かつ、複数の監視装置間の監視情報を同期させ、一元管理することができ、ＴＣＯの削減が可能となる。
【０１６１】
また、ログ情報に用いられるアドレスや識別子、文字の配列などを登録し、ログ情報を検索して、同じパターンを検出した場合、予め登録したアクション動作をさせるパタンマッチ処理機能を設けることにより、ＳＮＭＰなどのように障害情報をログ上に出力するだけでは不可能な監視も可能となり、さらに、障害検知から通報そして復旧までの障害監視運用過程を自動的に実行することができる。
【０１６２】
また、ユーザ側に提供する監視情報は、監視状態を一元的に把握できる構成でＷｅｂ画面で提供し、かつ、階層が深くなるほど詳細情報を提供する表示構成とすることにより、ユーザと監視センタの双方向での遠隔監視を実現し、迅速な障害体制の確立が可能となる。
【０１６３】
また、監視情報結果から監視対象装置ごとの計画停止時間を含めた月間サービス稼動率とリソース使用率を算出し、サービス稼働率表（稼働率、稼働時間、停止回数、停止時間、警告回数、計画停止回数と時間）と重要障害発生頻度管理（レベル４区分し色で警告）およびリソース使用率推移グラフ（閾値との比較表示、週単位比較表示）の稼動月次レポートを自動作成してＷｅｂ画面で提供する機能を設けることにより、データ伝送装置やサーバ装置等の監視対象装置のシステム障害を事前に予測する情報を提供することが可能となる。
【０１６４】
このように、本例では、マルチベンダ環境下での物理的ネットワークからアプリケーション層までを対象とした「監視から復旧及び運用管理」のシームレス化を実現させた。そして、新しい監視技術とＷｅｂ技術を活用し、監視センタで障害発生を検知したと同時にユーザ側にもＷｅｂ画面で通知する双方向監視による迅速な対応（情報収集／分析から障害検知及びリモート復旧）を可能とした。また、ＣＳ（クライアント・サーバ）技術思想を十分に考慮した運用管理の効率化と省力化を図り、ＴＣＯ（トータル運用コスト）の削減・信頼性面からの先手管理（データ伝送装置やサーバ装置のシステム障害を事前に予測する）を可能とした。
【０１６５】
このことにより、監視センタは、いつ障害が発生するか、また発生したら障害内容に応じてその担当者の連絡先を調べて連絡と、その対応指示を待つと言った行為の連続で監視装置画面をたえずチェックするなど常時緊張を強いられていたことから開放される。
【０１６６】
また、ユーザ側においては、マルチベンダ環境下の監視制限により個別に監視しなければならなかったグループウェーア系Ｍａｉｌ、ファイヤーウォールやディレクトリ（ＬＤＡＰ）などの共通アプリケーションソフト監視とその対象ＯＳ（ＦｒｅｅＢＳＤ（登録商標）、Ｌｉｎｕｘ（登録商標）等のＰＣ−ＵＮＩＸ（ＵＮＩＸ：登録商標）系、商用ＵＮＩＸ（登録商標）系やそれ以外のＯＳなど多岐にわたる）での監視運用と月次稼動報告業務の煩雑さから開放される。
【０１６７】
この結果、リモート型運用監視・管理サービスへのノウハウ適用範囲が広がった。例えば、他社製品と連携する中継サーバ機能により、監視装置のマルチベンダ化による監視業務分散等の問題を解決でき、また、監視システムからサーバ管理担当者毎に障害・復旧状況を自動的に通知する機能により、監視業務の工数を低減でき、また、従来の監視技術では未サポートであるＰＣ−ＵＮＩＸ（ＵＮＩＸ：登録商標）のリモート自動復旧プログラム開発で専門分野の人材確保対応など運用の実務にとっての効果が得られる。
【０１６８】
従って、本例のネットワーク監視システムは、インターネット時代には必須なネットワーク監視技術となる。本例の技術を用いないでネットワークを挟んだ分散オフィス先の運用監視をした場合、セキュリティが問題となるので、分散先に監視装置を設置した分散監視運用の体制となり、設備面・運用人員等のコスト面で増大する。
【０１６９】
尚、本発明は、図１〜図６を用いて説明した例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。例えば、図２の説明において、本例では、監視センタとは別の箇所に設置された監視装置が、ネットワーク監視マネージャ１内の障害管理用Ｗｅｂプログラム１１ｆと連動して、ユーザと監視センタへの同時通知を行うものとしているが、情報収集エージェント単体で、ユーザと監視センタへの自動同時通知を行うことでも良い。本例では、複数ユーザへの通知や、障害区分に応じた通知、性能情報やしきい値管理および障害復旧指示などのためのデータベースが必要となるので、エージェントの負荷軽減させるために障害管理用Ｗｅｂプログラム１１ｆと連動させ、この部分の情報を付加しユーザと監視センタへの同時通知をする仕組みとしている。
【０１７０】
また、図４での説明として本例では、ネットワーク監視マネージャ１に、ＰＣ−ＵＮＩＸ（ＵＮＩＸ：登録商標）のリモートでの復旧機能が無いものとしたが、ネットワーク監視マネージャ１に、ＰＣ−ＵＮＩＸ（ＵＮＩＸ：登録商標）のリモート復旧機能も持たせることでも良い。この場合、監視対象装置５におけるＨＴＴＰ障害の復旧は、別系統の監視装置２を介することなく、ネットワーク監視マネージャ１を設けた監視装置から直接、リモート復旧させることができる。
【０１７１】
また、図４に示す例では、ネットワーク監視マネージャ１が、プロセス／ステータス確認プログラム１１ｃにより監視対象装置５における情報収集エージェント５４における性能監視用エージェントプログラム５４ｂのログ情報を読みとることで、監視対象装置５におけるＨＴＴＰプログラム５３ａの障害を検出しているが、ネットワーク監視マネージャ１（プロセス／性能監視プログラム１１）から監視対象装置５に対してＨＴＴＰ監視ポーリングを行い、ＨＴＴＰ監視ポーリングの無応答を検知することで、監視対象装置５におけるＨＴＴＰプログラム５３ａの障害を検出することでも良い。
【０１７２】
また、本例では、ＯＳ（オペレーティングシステム）としてＵＮＩＸ（登録商標）／ＯＳを用いた構成で説明しているが、他のＯＳであっても良い。また、ＮＦＳを別系統の監視装置との連携に用いているが、他のネットワークファイルプロトコルを用いることでも良い。
【０１７３】
また、本例のコンピュータ構成例として、光ディスクをプログラムやデータの記録媒体として用いているが、ＦＤ（Ｆｌｅｘｉｂｌｅ　Ｄｉｓｋ）等を記録媒体として用いることでも良い。また、プログラムのインストールに関しても、通信装置を介してネットワーク経由でプログラムをダウンロードしてインストールすることでも良い。
【０１７４】
【発明の効果】
本発明によれば、ネットワーク監視マネージャからネットワークを介した監視対象装置の情報収集エージェント（シェルスクリプト）へ起動をかけるとき、不正利用者から監視対象サーバのシェルスクリプトを実行をできないようにネットワーク監視マネージャと監視対象装置（サーバ装置）間の通信に認証機能を設けたので、ネットワークを利用してもセキュア通信を確保した安全な監視が可能である。また、障害発生を検知したと同時にユーザ側もＷｅｂ画面で障害を認識できる双方向監視を行うことにより、迅速な対応（情報収集／分析から障害検知及びリモート復旧）が可能である。さらには、中継サーバプログラムにより他社製品との連携が可能となり、監視装置のマルチベンダ化による監視業務分散等の問題を解決することができ、例えば、従来の監視技術では未サポートであるＰＣ−ＵＮＩＸ（ＵＮＩＸ：登録商標）等のリモート自動復旧が可能となり、専門分野の人材確保対応など運用の実務にとって効果的である。また、各システム管理部門のネットワーク運用者が最も頭を悩ます稼動統計月報作成を高信頼に自動的に作成でき、システム障害の事前予測を高精度に行う情報を提供でき、ユーザと監視センタの双方の運用実務を効率化できる。
【図面の簡単な説明】
【図１】本発明に係わるネットワーク監視システムの構成例を示すブロック図である。
【図２】図１におけるネットワーク監視システムの第１の動作例を示す説明図である。
【図３】図１におけるネットワーク監視システムの第２の動作例を示す説明図である。
【図４】図１におけるネットワーク監視システムの詳細構成例を示すブロック図である。
【図５】図１における稼動月次レポート自動作成プログラムで作成されるサービス稼働率表の構成項目内容例を示す説明図である。
【図６】図１における稼動月次レポート自動作成プログラムで作成されるリソース使用率推移グラフの構成項目内容例を示す説明図である。
【符号の説明】
１：ネットワーク監視マネージャ、１ａ：ソケットプログラム、２：別系統の監視装置、３〜５：監視対象装置、５Ａ：別系統の監視装置用の専用情報収集エージェント、６〜８：通信回線、９：別系統の監視装置用の通信回線、１０：仮想通信経路、１１：プロセス／性能監視プログラム、１１ａ：ワンタイムパスワード発生プログラム、１１ｂ：ＴＣＰポート番号設定変更プログラム、１１ｃ：プロセス／ステータス確認プログラム、１１ｄ：監視タイミング時間調整変更プログラム、１１ｅ：監視一時休止状態表示プログラム、１１ｆ：障害管理用Ｗｅｂプログラム、１１ｆ_１：障害復旧情報リスト作成機能、１１ｆ_２：チェックシート情報、１１ｆ_３：監視情報同期プログラム（ＮＦＳ）、１１ｇ：リモート復旧判断プログラム、１２：中継サーバプログラム、１２ａ：統合監視情報管理プログラム、１２ａ_１：チェックシート情報、１２ｂ：ＨＴＭＬ生成プログラム（「ＨＴＭＬ生成」）、１２ｃ：ソケットプログラム、１２ｄ：監視情報同期プログラム（ＮＦＳ）、１２Ａ：別系統の監視装置の専用情報収集エージェント、１３：稼働月次レポート自動作成プログラム、１３ａ：状態履歴情報Ｗｅｂコンテンツ生成プログラム（「状態履歴情報Ｗｅｂコンテンツ生成」）、１４：工事管理情報データベース、１５：監視条件メッセージ管理データベース、２１：障害復旧テンプレート、２１ａ，２１ｂ：ソケットプログラム、２２：リモート復旧機能、２３：障害検知機能、３１，４１，５１：ＴＣＰ処理部（「ＴＣＰポート」）、３２，４２，５２：情報記憶部（「装置保有リソース情報や稼働情報」）、３３，４３，５３：アプリケーション処理部（「アプリケーションプログラム」）、４４，５４：情報収集エージェント、４４ａ，５４ａ：ワンタイムパスワード認証プログラム、４４ｂ，５４ｂ：性能監視用エージェントプログラム、４４ｃ，５４ｃ：リモート復旧プログラム、５３：アプリケーションプログラム、５３ａ：ＨＴＴＰ、５４ｃ_１：ＨＴＴＰ復旧オペレーションプログラム、５４ｄ：ソケットプログラム。

Claims

監視対象装置に対する監視をネットワークを挟んで監視装置で行うネットワーク監視システムであって、
上記監視対象装置に設けられ当該監視対象装置の少なくとも性能情報を含む監視情報を収集する情報収集エージェント手段と、
上記監視装置に設けられ上記情報収集エージェント手段で収集した稼動情報を取得し、該稼動情報に基づき当該監視対象装置における障害の発生を検知する監視マネージャ手段と、
該監視マネージャ手段が上記情報収集エージェント手段における上記稼動情報を収集する際に、当該監視装置の正当性の認証を行う認証手段と
を有することを特徴とするネットワーク監視システム。
監視対象装置に対する監視をネットワークを挟んで監視装置で行うネットワーク監視システムであって、
上記監視対象装置に設けられ当該監視対象装置の少なくとも性能情報を含む監視情報を収集する情報収集エージェント手段と、
上記監視装置に設けられ上記情報収集エージェント手段で収集した監視情報を取得し、該監視情報に基づき当該監視対象装置における障害の発生を検知する監視マネージャ手段と、
該監視マネージャ手段が上記情報収集エージェント手段における上記監視情報を収集する際に、当該監視装置の正当性の認証をワンタイムパスワードによる行う認証手段と
を有することを特徴とするネットワーク監視システム。
請求項１、もしくは、請求項２のいずれかに記載のネットワーク監視システムであって、
上記情報収集エージェント手段は、収集した監視情報に対して予め記憶装置に記憶された処理を判別して実行するオペレーション手段を有し、少なくとも、発生した障害に対する原因分析処理および復旧処理のいずれか一つを行うことを特徴とするネットワーク監視システム。
請求項１から請求項３のいずれかに記載のネットワーク監視システムであって、
上記監視マネージャ手段は、
上記情報収集エージェント手段で収集した監視情報を取得する時間間隔を設定する監視タイミング時間調整変更手段を有し、
該監視タイミング時間調整変更手段は、上記監視対象装置での異常発生検知に伴い上記時間間隔を短く変更し、正常状態検知に伴い元に戻すことを特徴とするネットワーク監視システム。
請求項１から請求項４のいずれかに記載のネットワーク監視システムであって、
上記監視マネージャ手段は、
上記監視対象装置で動作するアプリケーションプログラムを認識するＴＣＰポートの番号を設定変更するＴＣＰポート番号設定変更手段を有し、
該ＴＣＰポート番号設定変更手段で設定した番号のＴＣＰポートに対するＴＣＰセッション確立を試みることで、当該アプリケーションプログラムの異常を検知することを特徴とするネットワーク監視システム。
請求項５に記載のネットワーク監視システムであって、
上記監視マネージャ手段は、
上記ＴＣＰセッション確立を試みる時間間隔を設定する監視タイミング時間調整変更手段を有し、
該監視タイミング時間調整変更手段は、上記アプリケーションプログラムの異常検知に伴い上記時間間隔を短く変更し、正常状態検知に伴い元に戻すことを特徴とするネットワーク監視システム。
請求項５、もしくは、請求項６のいずれかに記載のネットワーク監視システムであって、
上記監視マネージャ手段で参照する時刻を、上記監視対象装置の時刻に合わせて補正する手段を有することを特徴とするネットワーク監視システム。
請求項１から請求項７のいずれかに記載のネットワーク監視システムであって、
上記監視マネージャ手段は、
上記監視対象装置に対する監視結果情報をＷｅｂ画面表示するＷｅｂ手段を有することを特徴とするネットワーク監視システム。
請求項８に記載のネットワーク監視システムであって、
上記監視マネージャ手段は、
上記監視結果情報のＷｅｂ画面を、当該監視対象装置を利用するユーザの端末装置および予め定められた監視センタ装置に送信して表示する手段を有することを特徴とするネットワーク監視システム。
請求項８、もしくは、請求項９のいずれかに記載のネットワーク監視システムであって、
上記監視結果情報のＷｅｂ画面は、多層構成され、最初の層の画面は、障害の発生を通知する情報を含み、他の層の画面は、少なくとも通報先を含む当該障害に対する対応手順を示す情報を含むことを特徴とするネットワーク監視システム。
請求項１０に記載のネットワーク監視システムであって、上記他の層の画面に対してパスワード保護を設けることを特徴とするネットワーク監視システム。
請求項１から請求項１１のいずれかに記載のネットワーク監視システムであって、
上記監視マネージャ手段は、予め記憶装置に記憶された監視対象装置の工事計画情報を参照して、当該監視対象装置の工事による障害を判別し、該工事による障害を通常の障害と区別可能に表示する休止状態表示手段を有することを特徴とするネットワーク監視システム。
請求項１から請求項１２のいずれかに記載のネットワーク監視システムであって、
上記監視マネージャ手段は、障害が発生した監視対象装置に対して、当該障害に対応した復旧指示情報を送出するリモート復旧指示手段を有し、
上記情報収集エージェント手段は、上記監視マネージャ手段からの復旧指示情報に基づき、当該障害に対して予め定められた復旧処理を行う復旧手段を有することを特徴とするネットワーク監視システム。
請求項１から請求項１３のいずれかに記載のネットワーク監視システムであって、
上記監視対象装置に、上記情報収集エージェント手段と、別系統の監視装置用の情報収集エージェント手段とを組み込み、それぞれの情報収集エージェント手段が収集する監視情報を、共通の記憶装置に記憶し、上記監視装置および上記別系統の監視装置のそれぞれで共有して利用することを特徴とするネットワーク監視システム。
請求項１４に記載のネットワーク監視システムであって、上記監視マネージャ手段は、
上記情報収集エージェントから収集した共通監視情報を上記別系統の監視装置と共通に取り扱えるチェックシート情報に変換する生成手段と、
上記チェックシート情報に基づき当該監視対象装置の上記別系統の監視装置での監視対象の障害を検知する手段と
を有することを特徴とするネットワーク監視システム。
請求項１５に記載のネットワーク監視システムであって、上記監視マネージャ手段は、
検知した上記別系統の監視装置での監視対象の障害が自装置での復旧対象であるか否かを判別する判別手段と、
復旧対象でなければ、上記別系統の監視装置に復旧依頼情報を送出する手段を有し、
上記別系統の監視装置は、上記復旧依頼情報に基づき当該監視対象装置の情報収集エージェントに当該障害を復旧するよう指示する手段を有する
ことを特徴とするネットワーク監視システム。
請求項１から請求項１６のいずれかに記載のネットワーク監視システムであって、
複数の監視装置のそれぞれで取得した監視情報を記憶する記憶装置を、ＮＦＳを含むネットワークファイルプロトコルのいずれかによりネットワーク結合する手段を有することを特徴とするネットワーク監視システム。
請求項１から請求項１７のいずれかに記載のネットワーク監視システムであって、
上記監視マネージャ手段は、予め定められた期間の監視結果に基づき、当該監視対象装置の当該期間における稼動状況を示す情報を生成するレポート作成手段を有することを特徴とするネットワーク監視システム。
請求項１８に記載のネットワーク監視システムであって、上記レポート作成手段は、
予め記憶装置に記憶された監視対象装置の工事情報に基づき、当該監視対象装置に対する稼動状況情報を補正する手段を有することを特徴とするネットワーク監視システム。
コンピュータを、請求項１から請求項１９のいずれかに記載のネットワーク監視システムにおける各手段として機能させるためのプログラム。