JP2004021549A - ネットワーク監視システムおよびプログラム - Google Patents
ネットワーク監視システムおよびプログラム Download PDFInfo
- Publication number
- JP2004021549A JP2004021549A JP2002174833A JP2002174833A JP2004021549A JP 2004021549 A JP2004021549 A JP 2004021549A JP 2002174833 A JP2002174833 A JP 2002174833A JP 2002174833 A JP2002174833 A JP 2002174833A JP 2004021549 A JP2004021549 A JP 2004021549A
- Authority
- JP
- Japan
- Prior art keywords
- monitoring
- information
- network
- monitoring system
- failure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Small-Scale Networks (AREA)
Abstract
【課題】大規模なマルチベンダ環境の分散コンピュータネットワークの運用管理者の負担の軽減とTCOの削減を可能とする。
【解決手段】監視対象装置4,5に情報収集エージェント44,54を、また、監視装置にネットワーク監視マネージャ1を組み込み、監視対象装置5においては、情報収集エージェント54により、別系統の監視装置2専用に組込まれた情報収集エージェント5Aと共存させ、複数台の監視装置と情報共用を実現することにより、マルチベンダ環境の分散コンピュータネットワークシステムにおける各監視サポートを統合的して行う。この際、監視装置(ネットワーク監視マネージャ1)と監視対象装置4,5間にワンタイムパスワードによる認証を行う機能(11a、44a,54a)を設けることで、監視装置になりすましてのユーザ側の監視対象装置への不正侵入を防止する。
【選択図】 図1
【解決手段】監視対象装置4,5に情報収集エージェント44,54を、また、監視装置にネットワーク監視マネージャ1を組み込み、監視対象装置5においては、情報収集エージェント54により、別系統の監視装置2専用に組込まれた情報収集エージェント5Aと共存させ、複数台の監視装置と情報共用を実現することにより、マルチベンダ環境の分散コンピュータネットワークシステムにおける各監視サポートを統合的して行う。この際、監視装置(ネットワーク監視マネージャ1)と監視対象装置4,5間にワンタイムパスワードによる認証を行う機能(11a、44a,54a)を設けることで、監視装置になりすましてのユーザ側の監視対象装置への不正侵入を防止する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、ネットワークの監視・管理技術に係わり、特に、大規模なネットワーク上に分散したサーバ装置やデータ伝送装置等を対象とした障害監視および性能監視を効率的に行い、ネットワークの運用管理者の負担を軽減するのに好適なネットワーク監視技術に関するものである。
【0002】
【従来の技術】
コンピュータシステムにおけるクライアント・サーバ環境の進歩によりコンピュータネットワーク上でのリソースの分散化が進み、分散したオフィス先のコンピュータ装置に対する監視・管理も必要となっている。
【0003】
このような分散ネットワークでの監視では、監視装置一台でネットワークを挟んだ分散オフィスや同一LAN(Local Area Network)上にあるデータ伝送装置やサーバ装置のリソースを監視することが望まれるが、ネットワークを挟んだ監視ではリモート系コマンドによる制御が必要となる。
【0004】
しかし、このようなリモート系コマンドによる制御では、不正アクセスが可能となり、他人から覗かれる恐れがあり、セキュリティ上の問題がある。そのため、現状では、分散オフィス毎、例えば、同じLANに監視装置を設置し、当該LAN内の監視対象装置のみを監視している。
【0005】
さらに、リモートでの監視はネットワーク上のトラヒックが増加するので、このような問題に対処するために、監視対象装置(サーバ装置など)にエージェント(問題発覚時のみトラップを行う)を組み込み、このエージェントで収集した監視情報や管理情報を、監視装置は、監視の基本であるSNMP(Simple NetworkManagement Protocol)により採取する技術が用いられている。
【0006】
しかし、これらエージェントで収集した監視情報や管理情報には、問題発覚時に障害としてトラップせずに異常状態のメッセージをログ情報として出力するものや、独自プロトコルを持った管理情報もあり、これらの情報に関しては、SNMPによる情報収集ができない。このようなSNMPによる情報収集ができない監視対象装置や管理情報が増える傾向にある。例えば、グループウェーア系Mail、ファイヤーウォールやディレクトリ(Lightweight Directory Access Protocol、以下「LDAP」と省略)などの共通アプリケーションソフトがある。
【0007】
また、大規模な分散ネットワークでは、マルチベンダ環境が一般的である。すなわち、大規模なコンピュータネットワークシステムにおいては、ネットワーク構築に当たり一社だけでは満足のいくシステム体系にはならない為、他社製品と連携できることが重要なファクターでもある。
【0008】
同一LANにおいて、障害検知から復旧、そして通報までのプロセスを一元管理した従来技術はあるが、マルチベンダ環境下や複数の監視装置を統合した環境での監視制御はできない。そのため、現状では、各社シリーズ製品内での連携が大半である。
【0009】
また、TCO(Total Cost of Ownership、トータル運用コスト)削減を目的に、障害発生の通報を効率化する従来技術がある。すなわち、障害発生と同時にユーザへ、障害通知のための電子メールを自動送信するものであり、この技術では、電子メール宛先を監視担当者として通知したり、同報でメーリングリスト対象ユーザ全員に通知する。
【0010】
しかし、実際の通報の流れはもう少し複雑である。すなわち、監視センタからネットワーク管理者へ通報し、ネットワーク管理者は関係するサーバ担当者を探し、電話やメールで連絡、または担当者の席まで呼びに行くのが実態である。このように、サイト先の顕在する問題を考慮しないと、実際のTCO削減が図れない。
【0011】
また、ネットワーク監視者は、監視装置で提供する画面の状態確認が必要だがマルチベンダ環境下で複数の監視装置が分散されている為、業務は煩雑となり対応が遅れる。例えば、従来のマルチベンダ環境下での各監視装置の連携技術では、マスタ監視装置の画面に、その監視下になる各監視装置のアイコンを表示し、各アイコン間にリンクを張るだけである。そのため、監視情報画面や性能監視情報やログ情報は、各監視装置固有の画面表示のままであり、統合されていない。
【0012】
また、電子メールのような共通アプリケーションの異常発生を監視する場合には、UNIX(登録商標)/OSや、それ以外のOS等が備えているメッセージ(リソース状況)と、アプリケーションが出力するメッセージログ情報とを連携し、どこまでリカバリ処理が必要か検知する。これを自動的に実行して障害を復旧させたり、システム担当者に警告を出すことが要求される。しかし、サーバ別や障害別にその対応が異なる点を考慮した監視システムは無く、ユーザ自身で開発しなければならない。
【0013】
例えば、UNIX(登録商標)/OS系でもFreeBSD(登録商標)、Linux(登録商標)や商用UNIX(登録商標)およびそれ以外のOSと多種にわたる。そして、監視対象の電子メールでも、SMTPメールやグループウェーア系Mailなどがあり、その代表的な監視技術にメッセージ滞留キューチェックがあるが、グループウェーア系Mailの状態監視では、「x.400」、「smtpgw」、「smtp(Sendmail)」それぞれの情報を収集し、グループウェーア系Mailサーバ内に滞留しているメールキュー数を予め設定したしきい値と比較し、障害を判定する必要がある。
【0014】
以上のように、従来のネットワーク監視ソフト製品は同一LAN(そのビルにクローズした利用)上での監視を前提にした仕様が大半であるが、クライアント/サーバ技術の進歩によりリソースの分散化が進んでおり、このような分散したオフィスの監視管理(ネットワークや広域LANを挟んだ監視)や、アプリケーション層までを含めた”End to End”の観点に立った監視、そしてその一元化によるネットワークシステム全体の信頼性確保が必要とされている。
【0015】
しかし、従来の分散オフィス間の監視はセキュア通信が不十分であり、また分散先毎の情報セキュリテイ確保が困難であることから、分散オフィス毎に監視システムを構築・運用するのが現状である。
【0016】
このように、近年のコンピュータネットワークの普及に伴い(1)ネットワークの広域化、(2)ネットワークの分散化、(3)マルチベンダ環境、(4)管理の効率化とTCO削減の要求があり、さらにはユーザ側からも監視状況が把握できる機能とサーバ装置のリブートをリモートで操作して復旧させることも要求される。また、各システム管理部門でもイントラネットや電子メール等の急激な利用増加により、サーバ装置の常時監視と障害の早期復旧が重要な課題となっている。しかし、どこにボトルネックが生じているのか予測し難いという現状である。
【0017】
その対応として、複数の市販監視製品を導入し、良い所を集めたマルチベンダ監視システム環境の導入が図られているが、業務アプリケーション毎に特化した「障害情報表示と連携した連絡、異常処理のリモート復旧」等の連携運用機能面が不十分であった。この結果、監視・運用管理に要する費用(TCO)の増大を招くと共にネットワーク監視の一元化に反し全体ネットワークシステムの信頼性維持が困難となっている。
【0018】
【発明が解決しようとする課題】
解決しようとする問題点は、従来のマルチベンダ環境の大規模な分散ネットワークの監視技術では、別系統の監視装置専用に組み込まれた情報収集エージェントと共存させる配慮がなく、一つの監視システムだけではサポートが不可能であり、また、リモート監視により監視装置になりすましてユーザのサーバ装置等へ不正侵入することを防止することができず、また、従来は障害の発生をネットワーク管理者に電子メール等で通知するだけであり、通知を確認したネットワーク管理者が障害サーバ装置等の担当者を特定して連絡するまでに時間と手間がかかってしまい、また、従来は監視対象サーバが増えた場合に監視性能確保のために監視装置を分散させると全体の監視情報を一元管理できずTCO削減ができず、また、一台の監視装置で全ての監視情報を集約して管理すると当該管理装置への負荷が増大してしまい、また、従来の監視システムではPINGコマンドでの動作状態監視やSNMPによる性能監視の抱き合わせ機能までであり、障害検知から通報そして復旧までの障害監視運用過程を自動化することができず、また、従来は複数の監視装置で分散して監視しているので、例えば、それぞれの監視装置を連携しマスタ監視装置の画面にその監視下になる監視装置アイコンを表示し、リンクを張るだけであり、監視情報画面や性能監視情報、ログ情報などは、各監視装置に固有の画面表示のままで統合されておらず、また、従来は監視装置で提供する画面の状態確認が監視装置に分散され業務は煩雑となり対応が遅れてしまい、さらに、従来の稼働統計は計画停止時間などの情報がなくこの時間を除いた稼働率が提供されていたため、大規模なマルチベンダ環境の分散コンピュータネットワークシステムにおける監視を効率良くかつ安全にサポートすることができない点である。
【0019】
本発明の目的は、これら従来技術の課題を解決し、大規模なマルチベンダ環境の分散コンピュータネットワークの運用管理者の負担の軽減とTCOの削減を可能とすることである。
【0020】
【課題を解決するための手段】
上記目的を達成するため、本発明では、マルチベンダ環境のコンピュータネットワークシステムにおける各監視対象装置のリモート監視を行うシステムとして、各監視対象装置(データ伝送装置やサーバ装置)に情報収集エージェント(プログラム)を、また、監視装置にネットワーク監視マネージャ(プログラム)を組み込み、監視対象装置において、情報収集エージェントにより、別系統の監視装置専用に組込まれた情報収集エージェントと共存させ、複数台の監視装置と情報共用を実現することにより、マルチベンダ環境のコンピュータネットワークシステムにおける各監視サポートを統合的して行う。また、監視装置と監視対象装置間にワンタイムパスワードによる認証を行う機能を設けることで、監視装置になりすましてのユーザ側の監視対象装置への不正侵入を防止する。また、障害単位で担当者リスト、電話連絡の有無、重要度を示すメッセージを表示する機能を設けることで、障害を誰に伝えればよいかの検索を容易とする。また、NFS(Network File System)技術を利用して、監視情報が保存されるそれぞれの監視装置間をネットワーク結合する機能を設けることにより、サーバ負荷軽減を図り、かつ、複数の監視装置間の監視情報を同期させ、一元管理する。また、情報収集エージェントにおいて、ログ情報に用いられるアドレスや識別子、文字の配列などを登録し、ログ情報を検索して、同じパターンを検出した場合、予め登録したアクション動作をさせるパタンマッチ処理機能を設けることにより、SNMPなどのように障害情報をログ上に出力するだけでは不可能な監視も可能とし、さらに、障害検知から通報そして復旧までの障害監視運用過程の自動実行を可能とする。また、ユーザ側に提供する監視情報は、監視状態を一元的に把握できる構成でWeb画面で提供し、かつ、階層が深くなるほど詳細情報を提供する表示構成とすることにより、ユーザと監視センタの双方向での遠隔監視を実現し、迅速な障害体制の確立を可能とする。また、ネットワーク監視マネージャにおいて、監視情報結果から監視対象装置ごとの計画停止時間を含めた月間サービス稼動率とリソース使用率を算出し、サービス稼働率表(稼働率、稼働時間、停止回数、停止時間、警告回数、計画停止回数と時間)と重要障害発生頻度管理(レベルを4区分して色分けして警告)およびリソース使用率推移グラフ(閾値との比較表示、週単位比較表示)の稼動月次レポートを自動作成してWeb画面で提供する機能を設けることにより、データ伝送装置やサーバ装置等の監視対象装置のシステム障害を事前に予測する情報を提供する。
【0021】
【発明の実施の形態】
以下、本発明の実施の形態を、図面により詳細に説明する。
【0022】
図1は、本発明に係わるネットワーク監視システムの構成例を示すブロック図であり、図2は、図1におけるネットワーク監視システムの第1の動作例を示す説明図、図3は、図1におけるネットワーク監視システムの第2の動作例を示す説明図、図4は、図1におけるネットワーク監視システムの詳細構成例を示すブロック図である。
【0023】
図1において、1は監視装置に読み込まれたネットワーク監視マネージャ(図中「ネットワーク監視マネージャプログラム」と記載)、2は別系統の監視装置、3〜5はデータ伝送装置やサーバ装置等の監視対象装置であり、6〜9は広域LAN等のネットワークの通信回線である。
【0024】
各装置1〜5は、CPU(Central Processing Unit)や主メモリ、表示装置、入力装置、外部記憶装置等を具備したコンピュータ構成からなり、光ディスク駆動装置等を介してCD−ROM等の記憶媒体に記録されたプログラムやデータを外部記憶装置内にインストールした後、この外部記憶装置から主メモリに読み込みCPUで処理することにより各機能を実現する。
【0025】
監視対象装置3は、TCP(Transmission Control Protocol)処理を行うTCP処理部(図中「TCPポート」と記載)31と、装置保有リソース情報や稼働情報を格納する情報記憶部(図中「装置保有リソース情報や稼働情報」と記載)32、および、例えばSMTP(Simple Mail Transfer Protocol)やWWW(World Wide Web)等のアプリケーションプログラムに基づく処理を行うアプリケーション処理部(図中「アプリケーションプログラム」と記載)33を有する。
【0026】
また、監視対象装置4は、同TCP処理部41、情報記憶部42、アプリケーション処理部43と共に、ワンタイムパスワード認証プログラム44a、性能監視用エージェントプログラム44b、リモート復旧プログラム44cをサブプログラムとして持ち本発明に係わる情報収集処理を行う情報収集エージェント(図中「情報収集エージェントプログラム」と記載)44を有する。
【0027】
さらに、監視対象装置5は、同TCP処理部51、情報記憶部52、アプリケーション処理部53、および、ワンタイムパスワード認証プログラム54a、性能監視用エージェントプログラム54b、リモート復旧プログラム54cをサブプログラムとして持ち情報収集処理を行う情報収集エージェント54と共に、別系統の監視装置用の専用情報収集エージェントに基づく処理を行う別系統情報収集エージェント(図中「別系統の監視装置用の専用情報収集エージェントプログラム」と記載)5Aを有する。
【0028】
監視装置に組み込まれるネットワーク監視マネージャ1は、プロセス/性能監視プログラム11、中継サーバプログラム12、稼働月次レポート自動作成プログラム13からなり、さらに、プロセス/性能監視プログラム11は、ワンタイムパスワード発生プログラム11a、TCPポート番号設定変更プログラム11b、プロセス/ステータス確認プログラム11c、監視タイミング時間調整変更プログラム11d、監視一時休止状態表示プログラム11e、障害管理用Webプログラム11f、リモート復旧判断プログラム11gからなり、中継サーバプログラム12は、統合監視情報管理プログラム12a、HTML生成プログラム(図中「HTML生成」と記載)12b、ソケットプログラム12c、別系統の監視装置の専用情報収集エージェントプログラム12Aからなり、稼働月次レポート自動作成プログラム13は、状態履歴情報Webコンテンツ生成プログラム(図中「状態履歴情報Webコンテンツ生成」と記載)13aからなる。
【0029】
別系統の監視装置2は、障害復旧テンプレート21aとソケットプログラム21aを有し、仮想通信経路10を介して、ネットワーク監視マネージャ1内に取り込まれた別系統の監視装置の専用情報収集エージェントプログラム12Aと接続される。
【0030】
各監視対象装置3〜5はそれぞれ異なるベンダから提供されたものとし、本例のネットワーク監視システムでは、このようなマルチベンダ環境において、各監視対象装置3〜5に対するリモート監視を行う。
【0031】
大規模なネットワークを構成するにはこのようなマルチベンダ環境となるのが一般的であり、このような大規模なネットワークを運用するにあたり、ネットワーク監視の自動化と標準化が要求される。また、ネットワーク機器やトラヒック管理のみでは万全ではなく、さらにはアプリケーションをも連携した監視も含め、迅速な復旧処理をする必要がある。
【0032】
これらの要件を考慮したネットワーク監視を行うためには、次に例示するようなポイントが重要である。
【0033】
ポイント(1):監視オペレータの仕事は常時緊張を強いられる。すなわち、オペレータは、監視画面を常時チェックし、障害が発生するとユーザに連絡しなければならない。その際、連絡先担当者を調べて連絡・操作指示を待つ。役割分担の通りに障害に対応するには迅速な連絡を実現する必要があり、そのためには、オペレータが障害を誰に伝えればよいかを容易に検索できるようにすることが重要なポイントとなる。
【0034】
そのために、本例では、ネットワーク監視マネージャ1(のプロセス/性能監視プログラム11)に障害管理用Webプログラム11fを設け、見やすいWeb画面構成で、ユーザ側および監視センタ側の双方に同時に、障害単位で担当者リスト、電話連絡の有無、重要度を示すメッセージを表示する。
【0035】
ポイント(2):業務アプリケーションの異常発生を監視する場合、OS(オペレーションシステム)が備えているメッセージ(リソース状況)とアプリケーションが出力するメッセージログを連携し、どこまでリカバリ処理が必要かを検知し、さらに、障害から自動復旧させたり、システム担当者に警告を出すことが要求される。本例では、プロセス/性能監視プログラム11を設け、このような処理を行う。
【0036】
ポイント(3):リモートでの監視ソフトウエアはネットワーク上のトラヒックが増加する為、監視対象サーバ等にエージェントを組み込み、問題発覚時のみトラップすることで情報採取する技術があるが、監視の基本であるSNMPだけでは管理できない機器や管理情報が増える傾向にある。本例では、このような問題に対処するために、情報収集エージェント44に性能監視用エージェントプログラム44bを設ける。
【0037】
ポイント(4):大規模なコンピュータネットワークシステムの運用管理をする際、アプリケーション管理機能やソフトウエア配布/イベントリ管理機能等の個々の運用管理機能同士を連携させることが要求されるが、構築に当たり一社だけでは満足のいく製品体系にはならない。本例では、ネットワーク監視マネージャ1に中継サーバプログラム12を設けて他社製品との連携を行う。これにより、分散先毎に監視マネージャを設置する必要がなくなり、設備面、運用人員面でのコスト削減を図ることができる。
【0038】
ポイント(5):分散したオフィス先の各リソース管理をWAN等を挟んでリモート系コマンドによる監視制御を行う場合、不正アクセスが可能であるとの問題に対処するため、本例では、ネットワーク監視マネージャ1側にワンタイムパスワード発生プログラム11aを、情報収集エージェント44側にワンタイムパスワード認証プログラム44aを設け、監視装置と監視対象装置4,5間のセキュア通信をサポートする。
【0039】
従来は、監視サーバ(監視マネージャとも呼ばれている)1台でWANを挟んだ分散オフィスや同一LAN上にあるサーバのリソースを監視する場合、他人から覗かれる恐れがあるので、分散毎に監視サーバを設置し監視している。
【0040】
その他、例えば、動作状態を監視するのに、「Ping」コマンドが用いられるが、従来は、このコマンド(Ping)の発行間隔時間を監視状態に応じて変更できない。その結果、実際には障害復旧しているが、監視間隔時間ズレにより監視マネージャの監視状態は異常表示となったままの状態が発生する。このような問題に対処するために、本例では、ネットワーク監視マネージャ1におけるプロセス/性能監視プログラム11に監視タイミング時間調整変更プログラム11dを設けている。
【0041】
また、従来技術では、工事等で停止している状態も、障害として検知されるので、障害情報の精度が劣化する。このような問題に対処するために、本例では、監視一時休止状態表示プログラム11eを設け、工事管理情報データベース14に基づき、工事等での停止状態を障害状態と区別して管理する。
【0042】
このように、本例では、監視対象装置4,5に情報収集エージェント44,54を、また、監視装置にネットワーク監視マネージャ1を組み込み、監視対象装置4,5では、情報収集エージェント44,54により、当該監視対象装置4,5の稼働情報や性能情報および保有するリソースの状態等の情報を収集し、情報記憶部42,52に格納して管理する。
【0043】
監視対象装置4,5の情報収集エージェント44,54は、ログ情報に用いられるアドレスや識別子、文字の配列などを登録し、ログ情報を検索して、同じパターンを検出した場合、予め登録したアクション動作をさせるパタンマッチ処理機能を有し、SNMPなどのように障害情報をログ上に出力するだけでは不可能な監視も行い、さらに、障害検知から通報そして復旧までの障害監視運用過程を自動的に実行する。
【0044】
ネットワーク監視マネージャ1は、通信回線7,8を介して、監視対象装置4,5の情報収集エージェント44,54に定期的にアクセスして、情報記憶部42,52に格納した各種情報を取得し、障害発生の検知、および、障害復旧の検知等を行い、検知した障害情報および復旧情報を一元的に管理して、監視センタ側と共にユーザ装置側にもWebブラウザを介して通知する。これにより、リアルタイムで遠隔性と同時可視化に優れたネットワーク管理を行うことができる。
【0045】
また、情報収集エージェント44,54とネットワーク監視マネージャ1間では、ワンタイムパスワード発生プログラム11aとワンタイムパスワード認証プログラム44a,54aにより、ワンタイムパスワードによる情報収集単位毎の認証を行うことにより、リモート不正アクセスを可否でき安全性を確保できる。
【0046】
また、ネットワーク監視マネージャ1は、監視対象装置4,5での障害情報を取得すると、監視タイミング時間調整変更プログラム11dにより、当該障害に対する復旧情報を取得するまで、情報収集時間間隔を短くして、復旧情報を取得するタイミングを早め、監視精度を向上させる。
【0047】
また、ネットワーク監視マネージャ1は、中継サーバプログラム12により、別系統の監視装置の制御下で収集・管理している監視情報を、NFS(Network File System)技術により統合管理し、さらに、統合管理した情報に基づき障害発生を検知し、検知した障害に対応する復旧処理を別系統の監視装置に指示し、この別系統の監視装置にアドオンしたプログラムからリモートコマンドを発行し、当該監視対象装置の情報収集エージェントに自動復旧させる。これにより、既存の監視マネージャをそのまま導入しただけで、例えばイントラネット環境下でのベンダ毎の監視や管理ツールを共存させることができる。
【0048】
以下、図1におけるシステムの動作説明を行う。
【0049】
図1においては、データ伝送装置やサーバ装置などからなる複数の監視対象装置3〜5の情報収集エージェント44,54は、予め監視センタからリモート処理で組み込まれる。
【0050】
この情報収集エージェント44,54が収集して情報記憶部32,42,52に格納した各種情報(障害情報や装置保有リソース情報、稼動情報等の性能情報など)、および、アプリケーションプログラム33,43,53の動作状況などが、ネットワークを介してネットワーク監視マネージャ1において、監視情報(システムログ情報)として収集される。この際、ネットワーク監視マネージャ1が監視対象装置であるか否かをワンタイムパスワード認証により認証し、正当性を確認する。
【0051】
ネットワーク監視マネージャ1は、障害管理用Webプログラム11fにより、監視情報と同時に収集している性能情報を基に、図2に示す手順で、監視センタとユーザの双方に、同時に、障害検知や、監視情報および性能情報の分析結果などを自動通知する。
【0052】
すなわち、図2に示すように、従来は、監視対象装置における障害発生を検知した監視装置が、まず、監視センタに通知し、監視センタにおいて、情報収集、分析/調査を行い、ユーザ側に警告/通知を障害当該ユーザに行っており、ユーザ側と監視センタにおいて通知を受けるまでに大きな時間差が発生していたが、本例では、ネットワーク監視マネージャ1が、障害発生を検知すると、監視センタとユーザの双方に、同時に、通知するので、監視センタとユーザとの通知時間差がほとんどゼロになる。
【0053】
また、本例では、ネットワーク監視マネージャ1と情報収集エージェント44,54において、障害情報の自動収集と、分析、調査、および、リモート復旧処理を行うことにより、監視センタおよびユーザ側では、直接の情報収集が不要となり、重度障害のみの分析/調査のみを行うだけでよくなる。
【0054】
さらに、ネットワーク監視マネージャ1から監視センタおよびユーザ側への障害発生などの通知は、障害管理用Webプログラム11fによりWeb技術を利用して、瞬時に異常を見つけ易いように監視項目や性能項目を任意の観測時間で、数値や○×で、視覚的に表示かつ具体的変化を数値で判断しやすいチックシート形式でWeb画面に表示する。
【0055】
例えば、この障害管理用Webプログラム11fによるWeb画面表示において、各監視対象装置3〜5がイントラネット系のサーバ装置であれば、障害が発生した装置の担当者および連絡先と条件等が記載されたポップアップメモが自動的に現れ、同時に、障害管理用Webプログラム11fは、担当者へ電子メールを自動発信する。
【0056】
監視センタ側に対するWeb画面では、障害サーバ名や時刻等の情報メッセージをポップアップ表示して警告する。障害が復旧すると自動的に裏画面の障害履歴画面に内容が移動される仕組みとする。
【0057】
監視対象が電子メールサーバであれば、監視画面に障害サーバを表示してブザーを鳴らし、オペレータが、該当する障害サーバ表示部分をクリックすると連絡先情報がポップアップする仕組みとする。
【0058】
ユーザ側に対するWeb画面では、階層画面構成とし、最初の階層画面では、事業所毎にサービス別ノードをアイコンで稼動状況をリアルタイム表示する。この際、正常/注意/異常の3段階評価で色分けして表示する。さらに次の階層画面では、パスワード入力を必要とし、障害発生ログによる詳細状態を把握可能な内容を表示し、この画面で警告音を出す仕組みとする。
【0059】
また、監視対象装置3〜5がイントラネットやインターネット系のサーバであれば、そのプロセス・性能の監視に関してのWeb画面では、最初の画面においては、各監視対象装置3〜5の状態をアイコンで、正常/警告/異常の3階段評価で表示する。次の階層画面ではチェックシート方式による性能情報を提供し、次の階層画面で、詳細性能情報をテキストベースで提供する仕組みとする。
【0060】
電子メールサーバの障害に関しては、監視画面に障害箇所を表示してブザーを鳴らし、オペレータが該当する障害箇所をクリックすると、稼動状況一覧画面にリンクし、リンク先では各障害箇所での滞留メッセージ数やSMTPのレスポンス状態等の情報をユーザが瞬時に異常判断できる最小項目をビジュアルにサーバ毎にブロック表示する。
【0061】
尚、小規模な事業所側では、夜間バッチ処理によるサーバ停止が毎晩発生することがある。このような場合に対処するため、本例では、監視一時休止状態表示プログラム11eにより、監視対象から任意な時間帯に解除する。
【0062】
さらに、本例では、障害の発生から復旧、稼動月次統計報告作成に至る障害監視運用全過程を、途中、人的操作を介入せず、Web管理画面のみで総合的に一括管理することができる。
【0063】
以下、図1におけるネットワーク監視システムの動作について説明する。図1において、監視対象装置3は、情報収集エージェントが組み込まれておらず、TCPポートのみで監視される装置である。TCPポートでの監視としては、例えばサーバ装置の各サービスプロセスの生死状態確認がある。
【0064】
また、監視対象装置4は、TCPポートでの監視を含み、さらに、ワンタイムパスワード認証プログラム44aと、性能監視用エージェントプログラム44b、リモート復旧プログラム44cからなる情報収集エージェント44が組み込まれ、これらのプログラムに基づく監視が行われる。
【0065】
そして、監視対象装置5は、監視対象装置4の構成に、さらに、既に別系統の監視装置2の監視下にある専用情報収集エージェント5Aが組み込まれており、情報収集エージェント44と専用情報収集エージェント5Aとが共存し、両監視が行われる。
【0066】
これらの監視対象装置3〜5は、ネットワークや広域LANを介して監視装置(ネットワーク監視マネージャ1)に接続され、監視装置において、各監視対象装置3〜5の監視情報が収集され管理される。
【0067】
まず、監視対象装置3に対する監視動作について説明する。
【0068】
監視対象装置3の監視は、ネットワーク監視マネージャ1のプロセス/ステータス確認プログラム11cから、状態確認コマンド(PING)を、TCPポート番号設定変更プログラム11b経由(予め該当のTCPポート番号変更指示設定がない場合はデフォルト)で、通信回線6に接続した監視対象装置3のTCP処理部31を介して各TCPポートに接続し、監視対象のTCPポートのプロセス状態を5分間隔(任意設定可)で監視する。
【0069】
状態確認コマンド(PING)の無応答を検知すると、「正常/警告/異常」の3区分のうち「警告」に設定する。
【0070】
このように、「警告」を設定すると、図3で示すように、監視タイミング時間変更プログラム11bにより、PINGの発行タイミング時間を、5分間隔から1分間隔(任意設定可)に自動的に短縮し、以降、約10分間、1分間隔で、そのTCPポートに対してTCPセッション確立を試みる。
【0071】
そこで、確立できない場合のみエラーのメッセージ(Connection refused)を返す。そのメッセージの存在有無により、プロセス/ステータス確認プログラム11cは、障害を検知し、「異常」区分とする。
【0072】
尚、PINGのレスポンスがあると、プロセス/ステータス確認プログラム11cは、自動的にデフォルトに戻し「正常」区分となる。
【0073】
このように、ネットワーク監視マネージャ1では、「警告」を設定すると、PING発行タイミング時間を、5分間隔から1分間隔に自動的に短縮して、そのTCPポートに対するTCPセッション確立を試みることにより、復旧検知時間を早くでき、監視精度向上を図ることが可能である。
【0074】
また、監視タイミング時間変更プログラム11bは、監視対象装置3が固有に持っているシステムログ情報で管理している復旧時刻と、ネットワーク監視マネージャ1の復旧時刻にズレが発生した場合、ネットワーク監視マネージャ1が障害通知のため自動発行する通知メール上に記載される障害発生時刻や復旧時刻およびWeb表示の警告時刻などに時刻差が生じるので、ネットワーク監視マネージャ1が参照する時刻を、監視対象装置3がシステムログ情報の管理に用いている時刻に補正する。複数の監視装置間にまたがった監視情報や性能管理情報の収集時刻などが同期されるので、障害分析を複数のログ情報を突き合わせる原因追跡(時間経緯)では有効となる。
【0075】
尚、障害管理Webプログラム11fでは、TCPポートに応答がない場合(「Connection」が「refused」される場合)は「警告」とし、ユーザ側装置や監視センタ装置に提供するWeb画面で表示するアイコンを緑色(正常)から黄色(警告)に変える。そして、監視間隔が1分間隔に切り替わり、さらに、10回連続で応答がない場合(約10分間)に障害として判断し、アイコンを黄色から赤色(異常)に変えアラームを鳴動する。
【0076】
また、監視対象装置の「障害」、「復旧」を検知した場合は、監視条件メッセージ管理データベース15において予め指定されたサーバ管理者に、電子メールを自動発送して通報する。この監視条件メッセージ管理データベース15におけるユーザ別・サーバ別の通知先や、時間他の指定や担当者のエスカレーション等は任意に設定が可能である。
【0077】
自動発送する通知メールの例を下記に示す。
【0078】
また、監視結果は下記のようにWeb画面上にロギングされる。これらログは、常時、過去5日間のログを表示する。また、サーバの稼動状態が良好の場合は何も表示されない。
【0079】
【0080】
ここで、「Apr/24/2001 02:13:10 nmapp1 disk ok」は、「正常」であり、色識別区分は「緑色」で、緑色に表示され、また「Apr/23/2001 00:13:10 nmapp1 disk warning over 90%」は、「警告」であり、色識別区分は「黄色」で黄色に表示され、そして、「Apr/22/2001 10:06:39 nmapp2 dns (port 53) error」は「異常」であり、色識別区分は「赤色」で、赤色に表示される。
【0081】
障害管理用Webプログラム11fでは、監視対象のTCPポートに応答がない場合、監視一時休止表示プログラム11eからの情報を参照する。すなわち、監視一時休止表示プログラム11eは、工事管理情報データベース14を参照し、監視対象装置3の工事停止情報を検索し、障害か工事による停止かを判断し、その結果を障害管理用Webプログラム11fに指示する。
【0082】
障害外、例えば工事による停止であれば、障害管理用Webプログラム11fは、その時間帯を監視対象外扱いとする。このように、監視対象外時の場合は、Web画面上に青色のアイコンを表示する。このアイコンは通常は使用しないが、計画的停止などによる監視の一時停止時などに表示する。
【0083】
また、この停止時間情報は、稼動月次レポート自動作成プログラム13に蓄積される。稼動月次レポート自動作成プログラム13は、蓄積した情報結果から監視対象装置(サーバ装置等)ごとの月間サービス稼動率とリソース使用率を算出し、サービス稼働率表(稼働率、稼働時間、停止回数、停止時間、警告回数、計画停止回数と時間)と重要障害発生頻度管理(レベル4で区分して色で警告)、および、リソース使用率推移グラフ(閾値との比較表示、週単位比較表示)等からなる稼動月次レポートを自動作成し、状態履歴情報Webコンテンツ生成13aでデータ伝送装置やサーバ装置のシステム障害を事前に予測する情報に加工する。
【0084】
次に、監視対象装置4に対する監視動作を説明するが、監視対象装置4の「状態監視」に関しては、ネットワーク監視マネージャ1のプロセス/ステータス確認プログラム11cから状態確認コマンド(PING)をTCPポート番号設定変更プログラム11b経由(予め該当のTCPポート番号変更指示設定がない場合はデフォルト)で通信回線7に接続した監視対象装置4のTCP処理部41を介して各TCPポートに接続するもので、監視対象装置3と同様の監視過程であり、以下「性能監視」のみをポイントに説明する。
【0085】
監視対象装置4において、性能監視用エージェントプログラム44bは、情報収集エージェント44に組み込んだサブプログラムであるが、性能監視用エージェントプログラム44b単体でも機能するものであり、CPU負荷情報の収集、ディスク使用率情報の収集、メモリ使用率情報の採取、メールキュー情報の採取、プロセス数の収集等を行う。
【0086】
また、情報収集エージェント44は、ログ情報とのパターンマッチによるアクション動作機能の他に、ネットワーク監視マネージャ1との監視専用TCPポート(例えばポート番号「8888」)での通信機能、ならびに、別系統の監視装置専用に組み込まれた情報収集エージェントと共存を可能とする機能を有し、さらに、ワンタイムパスワード認証プログラム44a、性能監視用エージェントプログラム44b、リモート復旧プログラム44cのそれぞれを連携する機能を有する。
【0087】
ネットワーク監視マネージャ1は、プロセス/ステータス確認プログラム11cからTCPポート番号設定変更プログラム11b経由(予め該当のTCPポート番号変更指示設定がない場合はデフォルト)で、監視対象装置4の情報収集エージェント44の性能監視用エージェントプログラム44bを起動させる為のリモートコマンドを、通信回線7に接続した監視対象装置4のTCP処理部41が情報収集エージェント44に専用に割当てたTCPポート(「8888」)を介して発行し、性能監視用エージェントプログラム44bにおいて予め登録されている各種スクリプト(CPU負荷情報収集用、ディスク使用率情報収集用、メモリ使用率情報採取用、メールキュー情報採取用、プロセス数収集用など)を起動させる。
【0088】
尚、この際、リモートコマンドには、ワンタイムパスワード発生プログラム11aで生成した、監視対象装置4の情報収集エージェント44の性能監視用エージェントプログラム44bを起動させる為のワンタイムパスワードを付与し、ワンタイムパスワード認証プログラム44aにおいてワンタイムパスワードに基づく認証を行った後に、性能監視用エージェントプログラム44bに発行し起動させる。
【0089】
このように、ワンタイムパスワード認証後に、性能監視用エージェントプログラム44bは、リモートコマンドに対応する性能数値をチェックシート形式で性能監視情報として編集し、プロセス/性能監視プログラム11に送信する。
【0090】
プロセス/性能監視プログラム11では、障害管理用Webプログラム11fにより、性能監視用エージェントプログラム44bから送られてきた性能数値を予め設定した「しきい値」と比較し、しきい値を超えた(下回った)場合には障害として検知し通報対象とする。尚、性能監視用エージェントプログラム44bでは、性能監視情報は貯めず、アクセスログ情報のみを残す。
【0091】
性能評価における「ロードアベレージの監視(CPU負荷情報収集)」は、基本的に「uptime」コマンド の結果をもとにCPUの負荷状況を把握し、過去1分平均の値をもとに監視を行う。例えば、FreeBSD(登録商標)の場合、「uptime」 の実行結果は以下のように示される。
【0092】
【0093】
上記「load average」以下の項目(0.10, 0.09, 0.08)を取得し、しきい値と比較させ、それを上回った場合に警告とする。この状態がしばらく続くと障害として検知する。
【0094】
このように、しきい値を超えた時すぐに障害を検知するのではなく、しきい値を超えた状態が続くようなら障害と認識する。尚、警告期間は任意に設定可能である。
【0095】
また、性能評価における「ディスク使用率の監視」は「df」コマンド の結果をもとにディスクの使用状況を把握し、ファイルシステム単位での監視を行う。例えばFreeBSD(登録商標)の場合、「df」の実行結果は以下のようになる。
【0096】
【0097】
ファイルシステム(「Filesystem」)に対応する「Capacity」の値(52%、48%、0%)を取得し、しきい値と比較し、それを超えた場合に障害として検知する。ファイルシステムは同時に複数監視可能であるが、しきい値は同一のものとする。尚、しきい値の指定は2つまで可能とする。
【0098】
また、性能評価における「メモリ使用率の監視」は、基本的に「top」コマンド の結果をもとにメモリの使用状況を把握し、フリーメモリの値をもとに監視を行う。例えば、FreeBSD(登録商標)の場合、「top」の実行結果は以下に示すようになる。
【0099】
【0100】
このうち、「Memory:」の行(「Memory: Real: 3628K/22M Virt: 8752K/199M Free: 29M」)のみを選定する。さらに、「Memory:」に関する「Free:」の項目(「29M」)を取得し、しきい値と比較させ、それを下回った場合に障害として検知する。但し、「top」コマンドが標準でインストールされていない場合があるので、その場合は別途インストールするか、監視できないということになる。
【0101】
例えば、オペレーティングシステムがLinux(登録商標)の場合、Linux(登録商標)にはメモリ使用状況を表示する専用の「free」コマンドなるものが存在するので、Linux(登録商標)の場合はこの「free」コマンドを使用する。この「free」コマンドの実行例を下記に示す。
【0102】
【0103】
この時は、「Mem:」行に対する「free」の値(「23348」)を取得する。
【0104】
次に、性能評価における「メールキュー監視」について「Sendmail」を例に説明する。
【0105】
「Sendmail」のメールキュー監視は、「mailq」コマンド の結果をもとにメールの滞留状況を把握し、この滞留数をもとに監視を行う。例えば、「Sendmail」の場合の「mailq」の実行結果は以下のようになる。
【0106】
【0107】
このような実行結果から、メールの滞留数を取得し、しきい値と比較させ、それを超えた場合に障害として検知する。尚、メールキューがない場合はメッセージとして「empty」を返すので、これを「0(数値)」として扱う。
【0108】
また、他の事例として、グループウェーア系Mailについて説明する。このグループウェーア系Mailのメールキュー監視は、上記「Sendmail」のメールキュー監視に加え、グループウェーア系Mailのローカルで使われている「x.400」及び、この「x.400」とSMTPとの掛け橋となる「SMTP Gateway」の持つそれぞれのファイル数をカウントし、それを滞留数として扱うようにする。尚、「SMTP Gateway」は「x.400」向けと「Sendmail」向けの2つをカウントする。
【0109】
グループウェーア系Mail特有のメール滞留数は、ある特定のディレクトリ上のファイル数をカウントすることで求めることができるので、ファイルをカウントするスクリプトを準備しておき、これを実行することで各々滞留数を取得することができる。このようにして取得した滞留数としきい値を比較させ、それを超えた場合に障害として検知する。尚、監視は「Mail queue」、「x400 queue」、「smtp to x400 queue」、「smtp to Sendmail queue」の4項目それぞれについて可能である。
【0110】
さらに、他の事例として、ウイルスチェックサーバの監視は、搭載されたウイルスチェックソフト製品を用いてのメールウィルスチェック専用のメールキューを監視する。このメール滞留数もグループウェーア系Mailと同様に、特定のディレクトリ上のファイル数をカウントすることで求めることができる。
【0111】
次に、性能評価における「プロセス数監視」は、特定のプロセス数をカウントして、そのカウント数を元に監視するものである。代表的なもので言えば、「SendMail」、「Delegate」、「Squid」等である。対象プロセスを限定するものではないので、カウント可能ものであれば種別は問題ではない。
【0112】
例として、「SendMail」のプロセス数を監視する際、以下に示すように、「ps」コマンド にてプロセス一覧を表示させ、その中で 「sendmail」 の文字列を有するものを抜き出す。その抜き出した行数をカウントすることでプロセス数を取得する。
【0113】
【0114】
特定プロセス数は、上記のようなプロセス数をカウントするためのスクリプトを準備しておき、これを実行することでプロセス数を取得することができる。取得したプロセス数としきい値を比較し、それを超えた場合に障害として検知する。
【0115】
次に、監視対象装置4に対するリモート復旧動作を説明する。
【0116】
まず、監視対象装置4上で生じるイベント(HTTP:Hyper Text Transfer Protocol、SMTP:Simple Mail Transfer Protocolの異常終了など)をトリガとして、リモート復旧プログラム44cに予め組み込んだ障害に応じた復旧オペレーションを実行するプログラムやシェルスクリプトを登録しておく。
【0117】
監視対象装置4では、情報収集エージェント44の性能監視用エージェントプログラム44bが、情報記憶部42に格納した装置保有リソースや稼動情報(各種ログファイル含む)を参照し、各種ログファイルでのパタンマッチやコマンド実行結果での監視を行う。
【0118】
情報収集エージェント44は、この性能監視用エージェントプログラム44bによる監視結果を、監視装置に組み込まれたネットワーク監視マネージャ1のプロセス/性能監視プログラム11に、障害検知としてトラップを上げる。
【0119】
監視装置に組み込まれたネットワーク監視マネージャ1のプロセス/性能監視プログラム11は、この情報を基に、リモート復旧判断プログラム11gから、TCPポート番号設定変更プログラム11bとワンタイムパスワード発生プログラム11a経由で(予め該当のTCPポート番号変更指示設定がない場合はデフォルト)、監視対象装置4の情報収集エージェント44のリモート復旧プログラム44cを起動させる為のワンタイムパスワード付きのリモートコマンドを、通信回線7を介して監視対象装置4に送る。
【0120】
監視対象装置4は、TCP処理部41を介して情報収集エージェント44に専用に割当てたTCPポート番号で、プロセス/性能監視プログラム11と情報収集エージェント44を接続する。
【0121】
情報収集エージェント44は、プロセス/性能監視プログラム11からのリモートコマンドに付与されたワンタイムパスワードを、ワンタイムパスワード認証プログラム44aで認証させた後に、リモートコマンドに対応して、リモート復旧プログラム44cに対して、予め登録されている障害に応じた復旧オペレーションを実行するプログラムやシェルスクリプトを起動する。
【0122】
次に、第3の例として、監視対象装置5に対する監視動作について説明する。
【0123】
この監視対象装置5は、ネットワーク監視マネージャ1を設けた監視装置と、この監視装置とは別系統の監視装置2から同時に監視されるものであり、それぞれ(監視装置)に監視用通信回線8と監視用通信回線9で接続されている。
【0124】
そして、監視対象装置5には、別系統の監視装置2用の情報収集のための別系統の監視装置用の専用情報収集エージェント5Aが設けられ、また、ネットワーク監視マネージャ1側には、中継サーバプログラム12のサブシステムとして、別系統の監視装置の専用情報収集エージェントプログラム12Aが設けられている。尚、別系統の監視装置用の専用情報収集エージェント5Aと別系統の監視装置の専用情報収集エージェントプログラム12Aとは同じ機能を有する。
【0125】
中継サーバプログラム12の統合監視情報管理プログラム12aにより、ネットワーク監視マネージャ1の持つ監視情報と、別系統の監視装置2が持つ監視情報を仮想的に一体化させ、これにより、ネットワーク監視マネージャ1と別系統の監視装置2の監視機能を連携させる。
【0126】
以下、例として、別系統の監視装置2には、商用UNIX(登録商標)系のリモート復旧機能があるが、PC−UNIX(UNIX:登録商標)系(FreeBSD(登録商標)、Linux(登録商標)など)に対しては監視機能が無くリモート復旧対象外であるとし、また、ネットワーク監視マネージャ1には、PC−UNIX(UNIX:登録商標)のプロセス監視と性能監視および復旧機能を有するがリモートでの復旧機能が無いものと想定し、このような環境において、監視対象装置5でHTTPの障害が発生する際の動作処理を、図4を用いて説明する。
【0127】
このような監視対象装置5でHTTPの障害が発生すると(▲1▼)、監視対象装置5に設けた情報収集エージェント54におけるサブプログラムの性能監視用エージェントプログラム54bで検出し、ログ情報に記録する(▲2▼)。
【0128】
ネットワーク監視マネージャ1は、プロセス/ステータス確認プログラム11cにより、所定の時間間隔でサブプログラムの性能監視用エージェントプログラム54bからログ情報を取得し、監視対象装置5でのHTTP障害を検知する(▲3▼)。
【0129】
このように、監視対象装置5でのHTTP障害を検知すると、監視タイミング時間調整変更プログラム11dにより、プロセス/ステータス確認プログラム11cによる性能監視用エージェントプログラム54bからのログ情報の取得時間間隔を短く、例えば、5分間隔から1分間隔にする。
【0130】
また、この際の障害状況により、障害管理用Webプログラム11fにおいて、警告、障害、アラーム鳴動等、段階的にレベル分けしたWeb通報情報を生成し、ユーザ側および監視センタに送出する。
【0131】
また、プロセス/ステータス確認プログラム11cで監視対象装置5のHTTP障害を検知すると、リモート復旧判断プログラム11gが、当該障害に対するリモートでの復旧機能の有無を判別する。ここでは、当該障害に対する復旧機能は有するがリモートでの復旧機能は無いとの判別結果となり、リモート復旧判断プログラム11gから障害管理用Webプログラム11fに復旧指示が出力される。
【0132】
このリモート復旧判断プログラム11gから出力される復旧指示およびプロセス/ステータス確認プログラム11cで取得した性能監視ログ情報を、障害管理用Webプログラム11fは、障害復旧情報リスト生成機能11f1により、チェックシート情報11f2に編集する。このチェックシート情報11f2は、別系統の監視装置2との共通化を図るようチェックシート形式となっている。
【0133】
この編集結果情報は、監視情報同期プログラム(NFS)11f3により、NFSを利用して、中継サーバプログラム12の監視情報同期プログラム(NFS)12dに渡され、統合監視情報プログラム12aに伝達される(▲4▼、▲5▼)。
【0134】
このように、統合監視情報プログラム12aにおいては、別系統の監視装置2で登録されている障害ステータス情報をチェックシート(監視対象名称、障害ステータス情報、性能監視ログ情報、障害と同じ扱いで警報する情報)形式で登録し、このチェックシート情報12a1に基づき、別系統の監視装置用の専用情報収集エージェントプログラム12Aが、監視対象装置5のHTTP障害を検知する。
【0135】
別系統の監視装置用の専用情報収集エージェントプログラム12Aによる監視対象装置5のHTTP障害の検知動作に基づき、統合監視情報プログラム12aは、チェックシート情報12a1における「HTTP復旧指示」を読み出し、ソケットプログラム12cを介して別系統の監視装置2に伝送し、別系統の監視装置2に対してリモート復旧指示のトラップをあげる(▲6▼)。
【0136】
この別系統の監視装置2は、通常は、障害検知機能23により障害を検知すると、障害復旧用テンプレート21に従いリモート復旧処理を行うが、ここでは、PC−UNIX(UNIX:登録商標)対応の復旧オペレーションを実行するプログラムやシェルスクリプトが無いので、監視対象装置5の情報収集エージェント54の当該リモート復旧プログラム54cを起動するために、ソケットプログラム21aを、予めリモート復旧機能22のアドオンソフトとして、障害復旧用テンプレート21に登録しておく。
【0137】
これにより、別系統の監視装置2は、ソケットプログラム21bを介して接続された監視対象装置5に、情報収集エージェント54のリモート復旧プログラム54cの復旧オペレーションを実行するプログラムやシェルスクリプトをリモートコマンド発行し(▲7▼)、監視対象装置5においてHTTP復旧オペレーションプログラム54c1により復旧処理を行う(▲8▼)。
【0138】
尚、監視対象装置5において、別系統の監視装置2の配下用に組み込まれている別系統監視装置用専用の情報収集エージェント5Aと、ネットワーク監視マネージャ1配下の情報収集エージェント54とは、情報記憶部52に格納されている装置保有リソース情報や稼動情報から共通に情報を収集するので、情報の同期ズレなどは発生しない。
【0139】
このように、監視対象装置5の監視機能を連携して利用することにより、このマルチベンダ環境下での複数の監視装置の監視運用の統合化が実現できる。
【0140】
次に、このようなマルチベンダ環境下での複数監視装置の監視機能の連携(トレース)動作に関して、監視対象装置5におけるディスク使用率やログ情報などの性能を監視する動作を例に説明する。
【0141】
ネットワーク監視マネージャ1から監視対象装置5に組込みこまれた情報収集エージェント54の性能監視用エージェントプログラム54bに性能監視情報を収集するためにポーリングを実施する。
【0142】
情報収集する内容は、例えば、「Load average 0.13」、「Free Memory 175M」、「file system (/) 29%」、「file system (/usr) 62%」、「file system (/var) 100%」、「file system (/var/mail) 0%」、「file system (/var/spool/mqueue) 0%」、「inetd o」、「syslogd update o」、「named o」、「sendmail process 1」、「Mail queue 0」、「delegate process 1」、「messages Apr 20 05:36:03 監視対象装置5 kernel: /var: optimization changed from SPACE to TIME Apr 22 03:10:04 監視対象装置5 kernel: /var: optimization changed from TIME to SPACE」等となる。
【0143】
ネットワーク監視マネージャ1は、上記データをテンポラリファイルとして保存し、予め監視設定ファイルに設定されたしきい値と比較し、監視対象装置5の障害発生の判定を行う。比較終了後、このテンポラリファイルは削除される。
【0144】
例えば、ディスク使用率がしきい値を越えて障害状態となった場合、障害管理用Webプログラム11fにおいて、チェックシート情報11f1を生成して、このチェックシート情報11f1をNFSでファイルシェアをしている中継サーバプログラム12から、別系統の監視装置用の専用情報収集エージェントプログラム12Aを経由し、別系統の監視装置2に、この障害情報を通知する。
【0145】
障害管理用Webプログラム11fでは、別系統の監視装置の監視下の障害を検知したことをオペレータコンソール画面などに警告等する。また、リモート復旧判断プログラム11gにおいて、別系統の監視装置2内のリモート復旧機能22の復旧対象か否か判定する。
【0146】
復旧対象の場合、ソケットプログラム12cにより、別系統の監視装置2にアドオンソフトとして組み込まれたソケットプログラム21aを介して、リモート復旧機能22にある障害復旧用テンプレート21(ディスク障害復旧手順)を動作させ、監視対象装置5に組み込んだネットワーク監視マネージャ1の監視下にある情報収集エージェント54のリモート復旧プログラム54c内のディスク障害復旧プログラムに起動をかける。
【0147】
このようにして、別系統の監視装置2からの上記アクセスを受け付けた監視対象装置5はネットワーク監視マネージャ1の監視下にある情報収集エージェント54の専用ディレクトリ下のbinディレクトリ下に予め用意された復旧オペレーションプログラム(「disk_recover.sh」)を実行する。
【0148】
次に、図1における監視装置に組み込まれたネットワーク監視マネージャ1の稼働月次レポート自動作成プログラム13の動作を説明する。
【0149】
稼動月次レポート自動作成プログラム13は、図4で示す統合監視情報管理プログラム12aのチェックシート情報12a1から,監視対象装置の月間のサービス稼働率とリソース使用率を算出し、「サービス稼働率表」と「リソース使用率推移グラフ」の月次レポートを作成する機能である。作成するレポートの詳細と画面を、図5および図6に示す。
【0150】
図5は、図1における稼動月次レポート自動作成プログラムで作成されるサービス稼働率表の構成項目内容例を示す説明図であり、図6は、図1における稼動月次レポート自動作成プログラムで作成されるリソース使用率推移グラフの構成項目内容例を示す説明図である。
【0151】
図5に示すように、月間の「サービス稼働率」は、「項目」と「単位」および「説明」欄からなり、例えば、「稼働率」は、「%」を単位とした、計画停止時間を除いた、稼働時間の割合であり、「(稼働率)=(稼働時間)/((全対象時間)−(計画停止時間))」の式で求められ。
【0152】
また、「稼働時間」は、「分」を単位としたサービス稼動時間であり、「(稼働時間) = (全対象時間)−(計画停止時間)−(停止時間)」の式で求められ、「停止回数」は「回」を単位に、サービスが停止した回数で計画停止は除いた値となり、「停止時間」は「分」を単位に、サービスが停止した時間で計画停止は除いた値となり、「警告(応答遅延)回数」は「回」を単位に、サービス停止までには至らないが,応答遅延を検出した回数が記録され、「計画停止回数」は「回」を単位に、計画停止した回数が記録され、「計画停止時間」は「分」を単位に、計画停止した時間が記録される。
【0153】
そして、「停止時間レベル別停止回数」は「回」を単位に、サービスが停止した時間の長さ別の停止回数で計画停止は除く値が記録される。また、この「停止時間レベル別停止回数」においては、デフォルトの停止レベルは,「レベルA:2時間以上」、「レベルB:1時間以上2時間未満」、「レベルC:30分以上1時間未満」、「レベルD:30分未満」で、停止レベルを規定する停止時間は,設定変更可能である。
【0154】
尚、月をまたがる停止/警告/計画停止は,前後の月でそれぞれ停止/警告/計画停止回数にカウントする。また,停止時間レベルも,前後の月でそれぞれの停止時間により計算する。また、停止/警告時間に引き続いて計画停止に入った場合,計画停止前で,1回の停止/警告とカウントする。さらに、ping監視で停止/警告と判定された時間は,全てのサービスも停止/警告と判定された時間とする。
【0155】
「リソース使用率推移グラフ」は、ディスクやメモリなどのサーバリソースについて,対象月間中の使用率の推移を示すグラフであり、その構成項目内容は、図6に示すように、「項目」と「単位」および「説明」欄からなる。
【0156】
例えば、「ディスク使用量」は、「%」を単位として、各パーティションの日毎の最大使用率をプロットした推移グラフとなり、「空メモリ量」は、「Mbyte」を単位に、空メモリ量の日毎の最小量をプロットした推移グラフとなり、「CPU負荷平均」は、CPU負荷平均の日毎の最大値と平均値をプロットした推移グラフとなる。
【0157】
以上、図1〜図6を用いて説明したように、本例では、マルチベンダ環境の分散コンピュータネットワークシステムにおける各監視対象装置のリモート監視を行うシステムとして、各監視対象装置(データ伝送装置やサーバ装置)に情報収集エージェントを、また、監視装置にネットワーク監視マネージャを組み込み、監視対象装置において、情報収集エージェントにより、別系統の監視装置専用に組込まれた情報収集エージェントと共存させ、複数台の監視装置と情報共用を実現することにより、マルチベンダ環境のコンピュータネットワークシステムにおける各監視サポートを統合して行う。
【0158】
また、監視装置と監視対象装置間にワンタイムパスワードによる認証を行う機能を設けることで、監視装置になりすましてのユーザ側の監視対象装置への不正侵入を防止することが可能となる。
【0159】
また、障害単位で担当者リスト、電話連絡の有無、重要度を示すメッセージを監視センタ装置やユーザ装置に表示する機能を設けることで、センタおよびユーザ側において、障害を誰に伝えればよいかの検索が容易となり、迅速な通報等が可能となる。
【0160】
また、NFS技術を利用して、監視情報が保存されるそれぞれの監視装置間をネットワーク結合する機能を設けることにより、サーバ負荷軽減を図り、かつ、複数の監視装置間の監視情報を同期させ、一元管理することができ、TCOの削減が可能となる。
【0161】
また、ログ情報に用いられるアドレスや識別子、文字の配列などを登録し、ログ情報を検索して、同じパターンを検出した場合、予め登録したアクション動作をさせるパタンマッチ処理機能を設けることにより、SNMPなどのように障害情報をログ上に出力するだけでは不可能な監視も可能となり、さらに、障害検知から通報そして復旧までの障害監視運用過程を自動的に実行することができる。
【0162】
また、ユーザ側に提供する監視情報は、監視状態を一元的に把握できる構成でWeb画面で提供し、かつ、階層が深くなるほど詳細情報を提供する表示構成とすることにより、ユーザと監視センタの双方向での遠隔監視を実現し、迅速な障害体制の確立が可能となる。
【0163】
また、監視情報結果から監視対象装置ごとの計画停止時間を含めた月間サービス稼動率とリソース使用率を算出し、サービス稼働率表(稼働率、稼働時間、停止回数、停止時間、警告回数、計画停止回数と時間)と重要障害発生頻度管理(レベル4区分し色で警告)およびリソース使用率推移グラフ(閾値との比較表示、週単位比較表示)の稼動月次レポートを自動作成してWeb画面で提供する機能を設けることにより、データ伝送装置やサーバ装置等の監視対象装置のシステム障害を事前に予測する情報を提供することが可能となる。
【0164】
このように、本例では、マルチベンダ環境下での物理的ネットワークからアプリケーション層までを対象とした「監視から復旧及び運用管理」のシームレス化を実現させた。そして、新しい監視技術とWeb技術を活用し、監視センタで障害発生を検知したと同時にユーザ側にもWeb画面で通知する双方向監視による迅速な対応(情報収集/分析から障害検知及びリモート復旧)を可能とした。また、CS(クライアント・サーバ)技術思想を十分に考慮した運用管理の効率化と省力化を図り、TCO(トータル運用コスト)の削減・信頼性面からの先手管理(データ伝送装置やサーバ装置のシステム障害を事前に予測する)を可能とした。
【0165】
このことにより、監視センタは、いつ障害が発生するか、また発生したら障害内容に応じてその担当者の連絡先を調べて連絡と、その対応指示を待つと言った行為の連続で監視装置画面をたえずチェックするなど常時緊張を強いられていたことから開放される。
【0166】
また、ユーザ側においては、マルチベンダ環境下の監視制限により個別に監視しなければならなかったグループウェーア系Mail、ファイヤーウォールやディレクトリ(LDAP)などの共通アプリケーションソフト監視とその対象OS(FreeBSD(登録商標)、Linux(登録商標)等のPC−UNIX(UNIX:登録商標)系、商用UNIX(登録商標)系やそれ以外のOSなど多岐にわたる)での監視運用と月次稼動報告業務の煩雑さから開放される。
【0167】
この結果、リモート型運用監視・管理サービスへのノウハウ適用範囲が広がった。例えば、他社製品と連携する中継サーバ機能により、監視装置のマルチベンダ化による監視業務分散等の問題を解決でき、また、監視システムからサーバ管理担当者毎に障害・復旧状況を自動的に通知する機能により、監視業務の工数を低減でき、また、従来の監視技術では未サポートであるPC−UNIX(UNIX:登録商標)のリモート自動復旧プログラム開発で専門分野の人材確保対応など運用の実務にとっての効果が得られる。
【0168】
従って、本例のネットワーク監視システムは、インターネット時代には必須なネットワーク監視技術となる。本例の技術を用いないでネットワークを挟んだ分散オフィス先の運用監視をした場合、セキュリティが問題となるので、分散先に監視装置を設置した分散監視運用の体制となり、設備面・運用人員等のコスト面で増大する。
【0169】
尚、本発明は、図1〜図6を用いて説明した例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。例えば、図2の説明において、本例では、監視センタとは別の箇所に設置された監視装置が、ネットワーク監視マネージャ1内の障害管理用Webプログラム11fと連動して、ユーザと監視センタへの同時通知を行うものとしているが、情報収集エージェント単体で、ユーザと監視センタへの自動同時通知を行うことでも良い。本例では、複数ユーザへの通知や、障害区分に応じた通知、性能情報やしきい値管理および障害復旧指示などのためのデータベースが必要となるので、エージェントの負荷軽減させるために障害管理用Webプログラム11fと連動させ、この部分の情報を付加しユーザと監視センタへの同時通知をする仕組みとしている。
【0170】
また、図4での説明として本例では、ネットワーク監視マネージャ1に、PC−UNIX(UNIX:登録商標)のリモートでの復旧機能が無いものとしたが、ネットワーク監視マネージャ1に、PC−UNIX(UNIX:登録商標)のリモート復旧機能も持たせることでも良い。この場合、監視対象装置5におけるHTTP障害の復旧は、別系統の監視装置2を介することなく、ネットワーク監視マネージャ1を設けた監視装置から直接、リモート復旧させることができる。
【0171】
また、図4に示す例では、ネットワーク監視マネージャ1が、プロセス/ステータス確認プログラム11cにより監視対象装置5における情報収集エージェント54における性能監視用エージェントプログラム54bのログ情報を読みとることで、監視対象装置5におけるHTTPプログラム53aの障害を検出しているが、ネットワーク監視マネージャ1(プロセス/性能監視プログラム11)から監視対象装置5に対してHTTP監視ポーリングを行い、HTTP監視ポーリングの無応答を検知することで、監視対象装置5におけるHTTPプログラム53aの障害を検出することでも良い。
【0172】
また、本例では、OS(オペレーティングシステム)としてUNIX(登録商標)/OSを用いた構成で説明しているが、他のOSであっても良い。また、NFSを別系統の監視装置との連携に用いているが、他のネットワークファイルプロトコルを用いることでも良い。
【0173】
また、本例のコンピュータ構成例として、光ディスクをプログラムやデータの記録媒体として用いているが、FD(Flexible Disk)等を記録媒体として用いることでも良い。また、プログラムのインストールに関しても、通信装置を介してネットワーク経由でプログラムをダウンロードしてインストールすることでも良い。
【0174】
【発明の効果】
本発明によれば、ネットワーク監視マネージャからネットワークを介した監視対象装置の情報収集エージェント(シェルスクリプト)へ起動をかけるとき、不正利用者から監視対象サーバのシェルスクリプトを実行をできないようにネットワーク監視マネージャと監視対象装置(サーバ装置)間の通信に認証機能を設けたので、ネットワークを利用してもセキュア通信を確保した安全な監視が可能である。また、障害発生を検知したと同時にユーザ側もWeb画面で障害を認識できる双方向監視を行うことにより、迅速な対応(情報収集/分析から障害検知及びリモート復旧)が可能である。さらには、中継サーバプログラムにより他社製品との連携が可能となり、監視装置のマルチベンダ化による監視業務分散等の問題を解決することができ、例えば、従来の監視技術では未サポートであるPC−UNIX(UNIX:登録商標)等のリモート自動復旧が可能となり、専門分野の人材確保対応など運用の実務にとって効果的である。また、各システム管理部門のネットワーク運用者が最も頭を悩ます稼動統計月報作成を高信頼に自動的に作成でき、システム障害の事前予測を高精度に行う情報を提供でき、ユーザと監視センタの双方の運用実務を効率化できる。
【図面の簡単な説明】
【図1】本発明に係わるネットワーク監視システムの構成例を示すブロック図である。
【図2】図1におけるネットワーク監視システムの第1の動作例を示す説明図である。
【図3】図1におけるネットワーク監視システムの第2の動作例を示す説明図である。
【図4】図1におけるネットワーク監視システムの詳細構成例を示すブロック図である。
【図5】図1における稼動月次レポート自動作成プログラムで作成されるサービス稼働率表の構成項目内容例を示す説明図である。
【図6】図1における稼動月次レポート自動作成プログラムで作成されるリソース使用率推移グラフの構成項目内容例を示す説明図である。
【符号の説明】
1:ネットワーク監視マネージャ、1a:ソケットプログラム、2:別系統の監視装置、3〜5:監視対象装置、5A:別系統の監視装置用の専用情報収集エージェント、6〜8:通信回線、9:別系統の監視装置用の通信回線、10:仮想通信経路、11:プロセス/性能監視プログラム、11a:ワンタイムパスワード発生プログラム、11b:TCPポート番号設定変更プログラム、11c:プロセス/ステータス確認プログラム、11d:監視タイミング時間調整変更プログラム、11e:監視一時休止状態表示プログラム、11f:障害管理用Webプログラム、11f1:障害復旧情報リスト作成機能、11f2:チェックシート情報、11f3:監視情報同期プログラム(NFS)、11g:リモート復旧判断プログラム、12:中継サーバプログラム、12a:統合監視情報管理プログラム、12a1:チェックシート情報、12b:HTML生成プログラム(「HTML生成」)、12c:ソケットプログラム、12d:監視情報同期プログラム(NFS)、12A:別系統の監視装置の専用情報収集エージェント、13:稼働月次レポート自動作成プログラム、13a:状態履歴情報Webコンテンツ生成プログラム(「状態履歴情報Webコンテンツ生成」)、14:工事管理情報データベース、15:監視条件メッセージ管理データベース、21:障害復旧テンプレート、21a,21b:ソケットプログラム、22:リモート復旧機能、23:障害検知機能、31,41,51:TCP処理部(「TCPポート」)、32,42,52:情報記憶部(「装置保有リソース情報や稼働情報」)、33,43,53:アプリケーション処理部(「アプリケーションプログラム」)、44,54:情報収集エージェント、44a,54a:ワンタイムパスワード認証プログラム、44b,54b:性能監視用エージェントプログラム、44c,54c:リモート復旧プログラム、53:アプリケーションプログラム、53a:HTTP、54c1:HTTP復旧オペレーションプログラム、54d:ソケットプログラム。
【発明の属する技術分野】
本発明は、ネットワークの監視・管理技術に係わり、特に、大規模なネットワーク上に分散したサーバ装置やデータ伝送装置等を対象とした障害監視および性能監視を効率的に行い、ネットワークの運用管理者の負担を軽減するのに好適なネットワーク監視技術に関するものである。
【0002】
【従来の技術】
コンピュータシステムにおけるクライアント・サーバ環境の進歩によりコンピュータネットワーク上でのリソースの分散化が進み、分散したオフィス先のコンピュータ装置に対する監視・管理も必要となっている。
【0003】
このような分散ネットワークでの監視では、監視装置一台でネットワークを挟んだ分散オフィスや同一LAN(Local Area Network)上にあるデータ伝送装置やサーバ装置のリソースを監視することが望まれるが、ネットワークを挟んだ監視ではリモート系コマンドによる制御が必要となる。
【0004】
しかし、このようなリモート系コマンドによる制御では、不正アクセスが可能となり、他人から覗かれる恐れがあり、セキュリティ上の問題がある。そのため、現状では、分散オフィス毎、例えば、同じLANに監視装置を設置し、当該LAN内の監視対象装置のみを監視している。
【0005】
さらに、リモートでの監視はネットワーク上のトラヒックが増加するので、このような問題に対処するために、監視対象装置(サーバ装置など)にエージェント(問題発覚時のみトラップを行う)を組み込み、このエージェントで収集した監視情報や管理情報を、監視装置は、監視の基本であるSNMP(Simple NetworkManagement Protocol)により採取する技術が用いられている。
【0006】
しかし、これらエージェントで収集した監視情報や管理情報には、問題発覚時に障害としてトラップせずに異常状態のメッセージをログ情報として出力するものや、独自プロトコルを持った管理情報もあり、これらの情報に関しては、SNMPによる情報収集ができない。このようなSNMPによる情報収集ができない監視対象装置や管理情報が増える傾向にある。例えば、グループウェーア系Mail、ファイヤーウォールやディレクトリ(Lightweight Directory Access Protocol、以下「LDAP」と省略)などの共通アプリケーションソフトがある。
【0007】
また、大規模な分散ネットワークでは、マルチベンダ環境が一般的である。すなわち、大規模なコンピュータネットワークシステムにおいては、ネットワーク構築に当たり一社だけでは満足のいくシステム体系にはならない為、他社製品と連携できることが重要なファクターでもある。
【0008】
同一LANにおいて、障害検知から復旧、そして通報までのプロセスを一元管理した従来技術はあるが、マルチベンダ環境下や複数の監視装置を統合した環境での監視制御はできない。そのため、現状では、各社シリーズ製品内での連携が大半である。
【0009】
また、TCO(Total Cost of Ownership、トータル運用コスト)削減を目的に、障害発生の通報を効率化する従来技術がある。すなわち、障害発生と同時にユーザへ、障害通知のための電子メールを自動送信するものであり、この技術では、電子メール宛先を監視担当者として通知したり、同報でメーリングリスト対象ユーザ全員に通知する。
【0010】
しかし、実際の通報の流れはもう少し複雑である。すなわち、監視センタからネットワーク管理者へ通報し、ネットワーク管理者は関係するサーバ担当者を探し、電話やメールで連絡、または担当者の席まで呼びに行くのが実態である。このように、サイト先の顕在する問題を考慮しないと、実際のTCO削減が図れない。
【0011】
また、ネットワーク監視者は、監視装置で提供する画面の状態確認が必要だがマルチベンダ環境下で複数の監視装置が分散されている為、業務は煩雑となり対応が遅れる。例えば、従来のマルチベンダ環境下での各監視装置の連携技術では、マスタ監視装置の画面に、その監視下になる各監視装置のアイコンを表示し、各アイコン間にリンクを張るだけである。そのため、監視情報画面や性能監視情報やログ情報は、各監視装置固有の画面表示のままであり、統合されていない。
【0012】
また、電子メールのような共通アプリケーションの異常発生を監視する場合には、UNIX(登録商標)/OSや、それ以外のOS等が備えているメッセージ(リソース状況)と、アプリケーションが出力するメッセージログ情報とを連携し、どこまでリカバリ処理が必要か検知する。これを自動的に実行して障害を復旧させたり、システム担当者に警告を出すことが要求される。しかし、サーバ別や障害別にその対応が異なる点を考慮した監視システムは無く、ユーザ自身で開発しなければならない。
【0013】
例えば、UNIX(登録商標)/OS系でもFreeBSD(登録商標)、Linux(登録商標)や商用UNIX(登録商標)およびそれ以外のOSと多種にわたる。そして、監視対象の電子メールでも、SMTPメールやグループウェーア系Mailなどがあり、その代表的な監視技術にメッセージ滞留キューチェックがあるが、グループウェーア系Mailの状態監視では、「x.400」、「smtpgw」、「smtp(Sendmail)」それぞれの情報を収集し、グループウェーア系Mailサーバ内に滞留しているメールキュー数を予め設定したしきい値と比較し、障害を判定する必要がある。
【0014】
以上のように、従来のネットワーク監視ソフト製品は同一LAN(そのビルにクローズした利用)上での監視を前提にした仕様が大半であるが、クライアント/サーバ技術の進歩によりリソースの分散化が進んでおり、このような分散したオフィスの監視管理(ネットワークや広域LANを挟んだ監視)や、アプリケーション層までを含めた”End to End”の観点に立った監視、そしてその一元化によるネットワークシステム全体の信頼性確保が必要とされている。
【0015】
しかし、従来の分散オフィス間の監視はセキュア通信が不十分であり、また分散先毎の情報セキュリテイ確保が困難であることから、分散オフィス毎に監視システムを構築・運用するのが現状である。
【0016】
このように、近年のコンピュータネットワークの普及に伴い(1)ネットワークの広域化、(2)ネットワークの分散化、(3)マルチベンダ環境、(4)管理の効率化とTCO削減の要求があり、さらにはユーザ側からも監視状況が把握できる機能とサーバ装置のリブートをリモートで操作して復旧させることも要求される。また、各システム管理部門でもイントラネットや電子メール等の急激な利用増加により、サーバ装置の常時監視と障害の早期復旧が重要な課題となっている。しかし、どこにボトルネックが生じているのか予測し難いという現状である。
【0017】
その対応として、複数の市販監視製品を導入し、良い所を集めたマルチベンダ監視システム環境の導入が図られているが、業務アプリケーション毎に特化した「障害情報表示と連携した連絡、異常処理のリモート復旧」等の連携運用機能面が不十分であった。この結果、監視・運用管理に要する費用(TCO)の増大を招くと共にネットワーク監視の一元化に反し全体ネットワークシステムの信頼性維持が困難となっている。
【0018】
【発明が解決しようとする課題】
解決しようとする問題点は、従来のマルチベンダ環境の大規模な分散ネットワークの監視技術では、別系統の監視装置専用に組み込まれた情報収集エージェントと共存させる配慮がなく、一つの監視システムだけではサポートが不可能であり、また、リモート監視により監視装置になりすましてユーザのサーバ装置等へ不正侵入することを防止することができず、また、従来は障害の発生をネットワーク管理者に電子メール等で通知するだけであり、通知を確認したネットワーク管理者が障害サーバ装置等の担当者を特定して連絡するまでに時間と手間がかかってしまい、また、従来は監視対象サーバが増えた場合に監視性能確保のために監視装置を分散させると全体の監視情報を一元管理できずTCO削減ができず、また、一台の監視装置で全ての監視情報を集約して管理すると当該管理装置への負荷が増大してしまい、また、従来の監視システムではPINGコマンドでの動作状態監視やSNMPによる性能監視の抱き合わせ機能までであり、障害検知から通報そして復旧までの障害監視運用過程を自動化することができず、また、従来は複数の監視装置で分散して監視しているので、例えば、それぞれの監視装置を連携しマスタ監視装置の画面にその監視下になる監視装置アイコンを表示し、リンクを張るだけであり、監視情報画面や性能監視情報、ログ情報などは、各監視装置に固有の画面表示のままで統合されておらず、また、従来は監視装置で提供する画面の状態確認が監視装置に分散され業務は煩雑となり対応が遅れてしまい、さらに、従来の稼働統計は計画停止時間などの情報がなくこの時間を除いた稼働率が提供されていたため、大規模なマルチベンダ環境の分散コンピュータネットワークシステムにおける監視を効率良くかつ安全にサポートすることができない点である。
【0019】
本発明の目的は、これら従来技術の課題を解決し、大規模なマルチベンダ環境の分散コンピュータネットワークの運用管理者の負担の軽減とTCOの削減を可能とすることである。
【0020】
【課題を解決するための手段】
上記目的を達成するため、本発明では、マルチベンダ環境のコンピュータネットワークシステムにおける各監視対象装置のリモート監視を行うシステムとして、各監視対象装置(データ伝送装置やサーバ装置)に情報収集エージェント(プログラム)を、また、監視装置にネットワーク監視マネージャ(プログラム)を組み込み、監視対象装置において、情報収集エージェントにより、別系統の監視装置専用に組込まれた情報収集エージェントと共存させ、複数台の監視装置と情報共用を実現することにより、マルチベンダ環境のコンピュータネットワークシステムにおける各監視サポートを統合的して行う。また、監視装置と監視対象装置間にワンタイムパスワードによる認証を行う機能を設けることで、監視装置になりすましてのユーザ側の監視対象装置への不正侵入を防止する。また、障害単位で担当者リスト、電話連絡の有無、重要度を示すメッセージを表示する機能を設けることで、障害を誰に伝えればよいかの検索を容易とする。また、NFS(Network File System)技術を利用して、監視情報が保存されるそれぞれの監視装置間をネットワーク結合する機能を設けることにより、サーバ負荷軽減を図り、かつ、複数の監視装置間の監視情報を同期させ、一元管理する。また、情報収集エージェントにおいて、ログ情報に用いられるアドレスや識別子、文字の配列などを登録し、ログ情報を検索して、同じパターンを検出した場合、予め登録したアクション動作をさせるパタンマッチ処理機能を設けることにより、SNMPなどのように障害情報をログ上に出力するだけでは不可能な監視も可能とし、さらに、障害検知から通報そして復旧までの障害監視運用過程の自動実行を可能とする。また、ユーザ側に提供する監視情報は、監視状態を一元的に把握できる構成でWeb画面で提供し、かつ、階層が深くなるほど詳細情報を提供する表示構成とすることにより、ユーザと監視センタの双方向での遠隔監視を実現し、迅速な障害体制の確立を可能とする。また、ネットワーク監視マネージャにおいて、監視情報結果から監視対象装置ごとの計画停止時間を含めた月間サービス稼動率とリソース使用率を算出し、サービス稼働率表(稼働率、稼働時間、停止回数、停止時間、警告回数、計画停止回数と時間)と重要障害発生頻度管理(レベルを4区分して色分けして警告)およびリソース使用率推移グラフ(閾値との比較表示、週単位比較表示)の稼動月次レポートを自動作成してWeb画面で提供する機能を設けることにより、データ伝送装置やサーバ装置等の監視対象装置のシステム障害を事前に予測する情報を提供する。
【0021】
【発明の実施の形態】
以下、本発明の実施の形態を、図面により詳細に説明する。
【0022】
図1は、本発明に係わるネットワーク監視システムの構成例を示すブロック図であり、図2は、図1におけるネットワーク監視システムの第1の動作例を示す説明図、図3は、図1におけるネットワーク監視システムの第2の動作例を示す説明図、図4は、図1におけるネットワーク監視システムの詳細構成例を示すブロック図である。
【0023】
図1において、1は監視装置に読み込まれたネットワーク監視マネージャ(図中「ネットワーク監視マネージャプログラム」と記載)、2は別系統の監視装置、3〜5はデータ伝送装置やサーバ装置等の監視対象装置であり、6〜9は広域LAN等のネットワークの通信回線である。
【0024】
各装置1〜5は、CPU(Central Processing Unit)や主メモリ、表示装置、入力装置、外部記憶装置等を具備したコンピュータ構成からなり、光ディスク駆動装置等を介してCD−ROM等の記憶媒体に記録されたプログラムやデータを外部記憶装置内にインストールした後、この外部記憶装置から主メモリに読み込みCPUで処理することにより各機能を実現する。
【0025】
監視対象装置3は、TCP(Transmission Control Protocol)処理を行うTCP処理部(図中「TCPポート」と記載)31と、装置保有リソース情報や稼働情報を格納する情報記憶部(図中「装置保有リソース情報や稼働情報」と記載)32、および、例えばSMTP(Simple Mail Transfer Protocol)やWWW(World Wide Web)等のアプリケーションプログラムに基づく処理を行うアプリケーション処理部(図中「アプリケーションプログラム」と記載)33を有する。
【0026】
また、監視対象装置4は、同TCP処理部41、情報記憶部42、アプリケーション処理部43と共に、ワンタイムパスワード認証プログラム44a、性能監視用エージェントプログラム44b、リモート復旧プログラム44cをサブプログラムとして持ち本発明に係わる情報収集処理を行う情報収集エージェント(図中「情報収集エージェントプログラム」と記載)44を有する。
【0027】
さらに、監視対象装置5は、同TCP処理部51、情報記憶部52、アプリケーション処理部53、および、ワンタイムパスワード認証プログラム54a、性能監視用エージェントプログラム54b、リモート復旧プログラム54cをサブプログラムとして持ち情報収集処理を行う情報収集エージェント54と共に、別系統の監視装置用の専用情報収集エージェントに基づく処理を行う別系統情報収集エージェント(図中「別系統の監視装置用の専用情報収集エージェントプログラム」と記載)5Aを有する。
【0028】
監視装置に組み込まれるネットワーク監視マネージャ1は、プロセス/性能監視プログラム11、中継サーバプログラム12、稼働月次レポート自動作成プログラム13からなり、さらに、プロセス/性能監視プログラム11は、ワンタイムパスワード発生プログラム11a、TCPポート番号設定変更プログラム11b、プロセス/ステータス確認プログラム11c、監視タイミング時間調整変更プログラム11d、監視一時休止状態表示プログラム11e、障害管理用Webプログラム11f、リモート復旧判断プログラム11gからなり、中継サーバプログラム12は、統合監視情報管理プログラム12a、HTML生成プログラム(図中「HTML生成」と記載)12b、ソケットプログラム12c、別系統の監視装置の専用情報収集エージェントプログラム12Aからなり、稼働月次レポート自動作成プログラム13は、状態履歴情報Webコンテンツ生成プログラム(図中「状態履歴情報Webコンテンツ生成」と記載)13aからなる。
【0029】
別系統の監視装置2は、障害復旧テンプレート21aとソケットプログラム21aを有し、仮想通信経路10を介して、ネットワーク監視マネージャ1内に取り込まれた別系統の監視装置の専用情報収集エージェントプログラム12Aと接続される。
【0030】
各監視対象装置3〜5はそれぞれ異なるベンダから提供されたものとし、本例のネットワーク監視システムでは、このようなマルチベンダ環境において、各監視対象装置3〜5に対するリモート監視を行う。
【0031】
大規模なネットワークを構成するにはこのようなマルチベンダ環境となるのが一般的であり、このような大規模なネットワークを運用するにあたり、ネットワーク監視の自動化と標準化が要求される。また、ネットワーク機器やトラヒック管理のみでは万全ではなく、さらにはアプリケーションをも連携した監視も含め、迅速な復旧処理をする必要がある。
【0032】
これらの要件を考慮したネットワーク監視を行うためには、次に例示するようなポイントが重要である。
【0033】
ポイント(1):監視オペレータの仕事は常時緊張を強いられる。すなわち、オペレータは、監視画面を常時チェックし、障害が発生するとユーザに連絡しなければならない。その際、連絡先担当者を調べて連絡・操作指示を待つ。役割分担の通りに障害に対応するには迅速な連絡を実現する必要があり、そのためには、オペレータが障害を誰に伝えればよいかを容易に検索できるようにすることが重要なポイントとなる。
【0034】
そのために、本例では、ネットワーク監視マネージャ1(のプロセス/性能監視プログラム11)に障害管理用Webプログラム11fを設け、見やすいWeb画面構成で、ユーザ側および監視センタ側の双方に同時に、障害単位で担当者リスト、電話連絡の有無、重要度を示すメッセージを表示する。
【0035】
ポイント(2):業務アプリケーションの異常発生を監視する場合、OS(オペレーションシステム)が備えているメッセージ(リソース状況)とアプリケーションが出力するメッセージログを連携し、どこまでリカバリ処理が必要かを検知し、さらに、障害から自動復旧させたり、システム担当者に警告を出すことが要求される。本例では、プロセス/性能監視プログラム11を設け、このような処理を行う。
【0036】
ポイント(3):リモートでの監視ソフトウエアはネットワーク上のトラヒックが増加する為、監視対象サーバ等にエージェントを組み込み、問題発覚時のみトラップすることで情報採取する技術があるが、監視の基本であるSNMPだけでは管理できない機器や管理情報が増える傾向にある。本例では、このような問題に対処するために、情報収集エージェント44に性能監視用エージェントプログラム44bを設ける。
【0037】
ポイント(4):大規模なコンピュータネットワークシステムの運用管理をする際、アプリケーション管理機能やソフトウエア配布/イベントリ管理機能等の個々の運用管理機能同士を連携させることが要求されるが、構築に当たり一社だけでは満足のいく製品体系にはならない。本例では、ネットワーク監視マネージャ1に中継サーバプログラム12を設けて他社製品との連携を行う。これにより、分散先毎に監視マネージャを設置する必要がなくなり、設備面、運用人員面でのコスト削減を図ることができる。
【0038】
ポイント(5):分散したオフィス先の各リソース管理をWAN等を挟んでリモート系コマンドによる監視制御を行う場合、不正アクセスが可能であるとの問題に対処するため、本例では、ネットワーク監視マネージャ1側にワンタイムパスワード発生プログラム11aを、情報収集エージェント44側にワンタイムパスワード認証プログラム44aを設け、監視装置と監視対象装置4,5間のセキュア通信をサポートする。
【0039】
従来は、監視サーバ(監視マネージャとも呼ばれている)1台でWANを挟んだ分散オフィスや同一LAN上にあるサーバのリソースを監視する場合、他人から覗かれる恐れがあるので、分散毎に監視サーバを設置し監視している。
【0040】
その他、例えば、動作状態を監視するのに、「Ping」コマンドが用いられるが、従来は、このコマンド(Ping)の発行間隔時間を監視状態に応じて変更できない。その結果、実際には障害復旧しているが、監視間隔時間ズレにより監視マネージャの監視状態は異常表示となったままの状態が発生する。このような問題に対処するために、本例では、ネットワーク監視マネージャ1におけるプロセス/性能監視プログラム11に監視タイミング時間調整変更プログラム11dを設けている。
【0041】
また、従来技術では、工事等で停止している状態も、障害として検知されるので、障害情報の精度が劣化する。このような問題に対処するために、本例では、監視一時休止状態表示プログラム11eを設け、工事管理情報データベース14に基づき、工事等での停止状態を障害状態と区別して管理する。
【0042】
このように、本例では、監視対象装置4,5に情報収集エージェント44,54を、また、監視装置にネットワーク監視マネージャ1を組み込み、監視対象装置4,5では、情報収集エージェント44,54により、当該監視対象装置4,5の稼働情報や性能情報および保有するリソースの状態等の情報を収集し、情報記憶部42,52に格納して管理する。
【0043】
監視対象装置4,5の情報収集エージェント44,54は、ログ情報に用いられるアドレスや識別子、文字の配列などを登録し、ログ情報を検索して、同じパターンを検出した場合、予め登録したアクション動作をさせるパタンマッチ処理機能を有し、SNMPなどのように障害情報をログ上に出力するだけでは不可能な監視も行い、さらに、障害検知から通報そして復旧までの障害監視運用過程を自動的に実行する。
【0044】
ネットワーク監視マネージャ1は、通信回線7,8を介して、監視対象装置4,5の情報収集エージェント44,54に定期的にアクセスして、情報記憶部42,52に格納した各種情報を取得し、障害発生の検知、および、障害復旧の検知等を行い、検知した障害情報および復旧情報を一元的に管理して、監視センタ側と共にユーザ装置側にもWebブラウザを介して通知する。これにより、リアルタイムで遠隔性と同時可視化に優れたネットワーク管理を行うことができる。
【0045】
また、情報収集エージェント44,54とネットワーク監視マネージャ1間では、ワンタイムパスワード発生プログラム11aとワンタイムパスワード認証プログラム44a,54aにより、ワンタイムパスワードによる情報収集単位毎の認証を行うことにより、リモート不正アクセスを可否でき安全性を確保できる。
【0046】
また、ネットワーク監視マネージャ1は、監視対象装置4,5での障害情報を取得すると、監視タイミング時間調整変更プログラム11dにより、当該障害に対する復旧情報を取得するまで、情報収集時間間隔を短くして、復旧情報を取得するタイミングを早め、監視精度を向上させる。
【0047】
また、ネットワーク監視マネージャ1は、中継サーバプログラム12により、別系統の監視装置の制御下で収集・管理している監視情報を、NFS(Network File System)技術により統合管理し、さらに、統合管理した情報に基づき障害発生を検知し、検知した障害に対応する復旧処理を別系統の監視装置に指示し、この別系統の監視装置にアドオンしたプログラムからリモートコマンドを発行し、当該監視対象装置の情報収集エージェントに自動復旧させる。これにより、既存の監視マネージャをそのまま導入しただけで、例えばイントラネット環境下でのベンダ毎の監視や管理ツールを共存させることができる。
【0048】
以下、図1におけるシステムの動作説明を行う。
【0049】
図1においては、データ伝送装置やサーバ装置などからなる複数の監視対象装置3〜5の情報収集エージェント44,54は、予め監視センタからリモート処理で組み込まれる。
【0050】
この情報収集エージェント44,54が収集して情報記憶部32,42,52に格納した各種情報(障害情報や装置保有リソース情報、稼動情報等の性能情報など)、および、アプリケーションプログラム33,43,53の動作状況などが、ネットワークを介してネットワーク監視マネージャ1において、監視情報(システムログ情報)として収集される。この際、ネットワーク監視マネージャ1が監視対象装置であるか否かをワンタイムパスワード認証により認証し、正当性を確認する。
【0051】
ネットワーク監視マネージャ1は、障害管理用Webプログラム11fにより、監視情報と同時に収集している性能情報を基に、図2に示す手順で、監視センタとユーザの双方に、同時に、障害検知や、監視情報および性能情報の分析結果などを自動通知する。
【0052】
すなわち、図2に示すように、従来は、監視対象装置における障害発生を検知した監視装置が、まず、監視センタに通知し、監視センタにおいて、情報収集、分析/調査を行い、ユーザ側に警告/通知を障害当該ユーザに行っており、ユーザ側と監視センタにおいて通知を受けるまでに大きな時間差が発生していたが、本例では、ネットワーク監視マネージャ1が、障害発生を検知すると、監視センタとユーザの双方に、同時に、通知するので、監視センタとユーザとの通知時間差がほとんどゼロになる。
【0053】
また、本例では、ネットワーク監視マネージャ1と情報収集エージェント44,54において、障害情報の自動収集と、分析、調査、および、リモート復旧処理を行うことにより、監視センタおよびユーザ側では、直接の情報収集が不要となり、重度障害のみの分析/調査のみを行うだけでよくなる。
【0054】
さらに、ネットワーク監視マネージャ1から監視センタおよびユーザ側への障害発生などの通知は、障害管理用Webプログラム11fによりWeb技術を利用して、瞬時に異常を見つけ易いように監視項目や性能項目を任意の観測時間で、数値や○×で、視覚的に表示かつ具体的変化を数値で判断しやすいチックシート形式でWeb画面に表示する。
【0055】
例えば、この障害管理用Webプログラム11fによるWeb画面表示において、各監視対象装置3〜5がイントラネット系のサーバ装置であれば、障害が発生した装置の担当者および連絡先と条件等が記載されたポップアップメモが自動的に現れ、同時に、障害管理用Webプログラム11fは、担当者へ電子メールを自動発信する。
【0056】
監視センタ側に対するWeb画面では、障害サーバ名や時刻等の情報メッセージをポップアップ表示して警告する。障害が復旧すると自動的に裏画面の障害履歴画面に内容が移動される仕組みとする。
【0057】
監視対象が電子メールサーバであれば、監視画面に障害サーバを表示してブザーを鳴らし、オペレータが、該当する障害サーバ表示部分をクリックすると連絡先情報がポップアップする仕組みとする。
【0058】
ユーザ側に対するWeb画面では、階層画面構成とし、最初の階層画面では、事業所毎にサービス別ノードをアイコンで稼動状況をリアルタイム表示する。この際、正常/注意/異常の3段階評価で色分けして表示する。さらに次の階層画面では、パスワード入力を必要とし、障害発生ログによる詳細状態を把握可能な内容を表示し、この画面で警告音を出す仕組みとする。
【0059】
また、監視対象装置3〜5がイントラネットやインターネット系のサーバであれば、そのプロセス・性能の監視に関してのWeb画面では、最初の画面においては、各監視対象装置3〜5の状態をアイコンで、正常/警告/異常の3階段評価で表示する。次の階層画面ではチェックシート方式による性能情報を提供し、次の階層画面で、詳細性能情報をテキストベースで提供する仕組みとする。
【0060】
電子メールサーバの障害に関しては、監視画面に障害箇所を表示してブザーを鳴らし、オペレータが該当する障害箇所をクリックすると、稼動状況一覧画面にリンクし、リンク先では各障害箇所での滞留メッセージ数やSMTPのレスポンス状態等の情報をユーザが瞬時に異常判断できる最小項目をビジュアルにサーバ毎にブロック表示する。
【0061】
尚、小規模な事業所側では、夜間バッチ処理によるサーバ停止が毎晩発生することがある。このような場合に対処するため、本例では、監視一時休止状態表示プログラム11eにより、監視対象から任意な時間帯に解除する。
【0062】
さらに、本例では、障害の発生から復旧、稼動月次統計報告作成に至る障害監視運用全過程を、途中、人的操作を介入せず、Web管理画面のみで総合的に一括管理することができる。
【0063】
以下、図1におけるネットワーク監視システムの動作について説明する。図1において、監視対象装置3は、情報収集エージェントが組み込まれておらず、TCPポートのみで監視される装置である。TCPポートでの監視としては、例えばサーバ装置の各サービスプロセスの生死状態確認がある。
【0064】
また、監視対象装置4は、TCPポートでの監視を含み、さらに、ワンタイムパスワード認証プログラム44aと、性能監視用エージェントプログラム44b、リモート復旧プログラム44cからなる情報収集エージェント44が組み込まれ、これらのプログラムに基づく監視が行われる。
【0065】
そして、監視対象装置5は、監視対象装置4の構成に、さらに、既に別系統の監視装置2の監視下にある専用情報収集エージェント5Aが組み込まれており、情報収集エージェント44と専用情報収集エージェント5Aとが共存し、両監視が行われる。
【0066】
これらの監視対象装置3〜5は、ネットワークや広域LANを介して監視装置(ネットワーク監視マネージャ1)に接続され、監視装置において、各監視対象装置3〜5の監視情報が収集され管理される。
【0067】
まず、監視対象装置3に対する監視動作について説明する。
【0068】
監視対象装置3の監視は、ネットワーク監視マネージャ1のプロセス/ステータス確認プログラム11cから、状態確認コマンド(PING)を、TCPポート番号設定変更プログラム11b経由(予め該当のTCPポート番号変更指示設定がない場合はデフォルト)で、通信回線6に接続した監視対象装置3のTCP処理部31を介して各TCPポートに接続し、監視対象のTCPポートのプロセス状態を5分間隔(任意設定可)で監視する。
【0069】
状態確認コマンド(PING)の無応答を検知すると、「正常/警告/異常」の3区分のうち「警告」に設定する。
【0070】
このように、「警告」を設定すると、図3で示すように、監視タイミング時間変更プログラム11bにより、PINGの発行タイミング時間を、5分間隔から1分間隔(任意設定可)に自動的に短縮し、以降、約10分間、1分間隔で、そのTCPポートに対してTCPセッション確立を試みる。
【0071】
そこで、確立できない場合のみエラーのメッセージ(Connection refused)を返す。そのメッセージの存在有無により、プロセス/ステータス確認プログラム11cは、障害を検知し、「異常」区分とする。
【0072】
尚、PINGのレスポンスがあると、プロセス/ステータス確認プログラム11cは、自動的にデフォルトに戻し「正常」区分となる。
【0073】
このように、ネットワーク監視マネージャ1では、「警告」を設定すると、PING発行タイミング時間を、5分間隔から1分間隔に自動的に短縮して、そのTCPポートに対するTCPセッション確立を試みることにより、復旧検知時間を早くでき、監視精度向上を図ることが可能である。
【0074】
また、監視タイミング時間変更プログラム11bは、監視対象装置3が固有に持っているシステムログ情報で管理している復旧時刻と、ネットワーク監視マネージャ1の復旧時刻にズレが発生した場合、ネットワーク監視マネージャ1が障害通知のため自動発行する通知メール上に記載される障害発生時刻や復旧時刻およびWeb表示の警告時刻などに時刻差が生じるので、ネットワーク監視マネージャ1が参照する時刻を、監視対象装置3がシステムログ情報の管理に用いている時刻に補正する。複数の監視装置間にまたがった監視情報や性能管理情報の収集時刻などが同期されるので、障害分析を複数のログ情報を突き合わせる原因追跡(時間経緯)では有効となる。
【0075】
尚、障害管理Webプログラム11fでは、TCPポートに応答がない場合(「Connection」が「refused」される場合)は「警告」とし、ユーザ側装置や監視センタ装置に提供するWeb画面で表示するアイコンを緑色(正常)から黄色(警告)に変える。そして、監視間隔が1分間隔に切り替わり、さらに、10回連続で応答がない場合(約10分間)に障害として判断し、アイコンを黄色から赤色(異常)に変えアラームを鳴動する。
【0076】
また、監視対象装置の「障害」、「復旧」を検知した場合は、監視条件メッセージ管理データベース15において予め指定されたサーバ管理者に、電子メールを自動発送して通報する。この監視条件メッセージ管理データベース15におけるユーザ別・サーバ別の通知先や、時間他の指定や担当者のエスカレーション等は任意に設定が可能である。
【0077】
自動発送する通知メールの例を下記に示す。
【0078】
また、監視結果は下記のようにWeb画面上にロギングされる。これらログは、常時、過去5日間のログを表示する。また、サーバの稼動状態が良好の場合は何も表示されない。
【0079】
【0080】
ここで、「Apr/24/2001 02:13:10 nmapp1 disk ok」は、「正常」であり、色識別区分は「緑色」で、緑色に表示され、また「Apr/23/2001 00:13:10 nmapp1 disk warning over 90%」は、「警告」であり、色識別区分は「黄色」で黄色に表示され、そして、「Apr/22/2001 10:06:39 nmapp2 dns (port 53) error」は「異常」であり、色識別区分は「赤色」で、赤色に表示される。
【0081】
障害管理用Webプログラム11fでは、監視対象のTCPポートに応答がない場合、監視一時休止表示プログラム11eからの情報を参照する。すなわち、監視一時休止表示プログラム11eは、工事管理情報データベース14を参照し、監視対象装置3の工事停止情報を検索し、障害か工事による停止かを判断し、その結果を障害管理用Webプログラム11fに指示する。
【0082】
障害外、例えば工事による停止であれば、障害管理用Webプログラム11fは、その時間帯を監視対象外扱いとする。このように、監視対象外時の場合は、Web画面上に青色のアイコンを表示する。このアイコンは通常は使用しないが、計画的停止などによる監視の一時停止時などに表示する。
【0083】
また、この停止時間情報は、稼動月次レポート自動作成プログラム13に蓄積される。稼動月次レポート自動作成プログラム13は、蓄積した情報結果から監視対象装置(サーバ装置等)ごとの月間サービス稼動率とリソース使用率を算出し、サービス稼働率表(稼働率、稼働時間、停止回数、停止時間、警告回数、計画停止回数と時間)と重要障害発生頻度管理(レベル4で区分して色で警告)、および、リソース使用率推移グラフ(閾値との比較表示、週単位比較表示)等からなる稼動月次レポートを自動作成し、状態履歴情報Webコンテンツ生成13aでデータ伝送装置やサーバ装置のシステム障害を事前に予測する情報に加工する。
【0084】
次に、監視対象装置4に対する監視動作を説明するが、監視対象装置4の「状態監視」に関しては、ネットワーク監視マネージャ1のプロセス/ステータス確認プログラム11cから状態確認コマンド(PING)をTCPポート番号設定変更プログラム11b経由(予め該当のTCPポート番号変更指示設定がない場合はデフォルト)で通信回線7に接続した監視対象装置4のTCP処理部41を介して各TCPポートに接続するもので、監視対象装置3と同様の監視過程であり、以下「性能監視」のみをポイントに説明する。
【0085】
監視対象装置4において、性能監視用エージェントプログラム44bは、情報収集エージェント44に組み込んだサブプログラムであるが、性能監視用エージェントプログラム44b単体でも機能するものであり、CPU負荷情報の収集、ディスク使用率情報の収集、メモリ使用率情報の採取、メールキュー情報の採取、プロセス数の収集等を行う。
【0086】
また、情報収集エージェント44は、ログ情報とのパターンマッチによるアクション動作機能の他に、ネットワーク監視マネージャ1との監視専用TCPポート(例えばポート番号「8888」)での通信機能、ならびに、別系統の監視装置専用に組み込まれた情報収集エージェントと共存を可能とする機能を有し、さらに、ワンタイムパスワード認証プログラム44a、性能監視用エージェントプログラム44b、リモート復旧プログラム44cのそれぞれを連携する機能を有する。
【0087】
ネットワーク監視マネージャ1は、プロセス/ステータス確認プログラム11cからTCPポート番号設定変更プログラム11b経由(予め該当のTCPポート番号変更指示設定がない場合はデフォルト)で、監視対象装置4の情報収集エージェント44の性能監視用エージェントプログラム44bを起動させる為のリモートコマンドを、通信回線7に接続した監視対象装置4のTCP処理部41が情報収集エージェント44に専用に割当てたTCPポート(「8888」)を介して発行し、性能監視用エージェントプログラム44bにおいて予め登録されている各種スクリプト(CPU負荷情報収集用、ディスク使用率情報収集用、メモリ使用率情報採取用、メールキュー情報採取用、プロセス数収集用など)を起動させる。
【0088】
尚、この際、リモートコマンドには、ワンタイムパスワード発生プログラム11aで生成した、監視対象装置4の情報収集エージェント44の性能監視用エージェントプログラム44bを起動させる為のワンタイムパスワードを付与し、ワンタイムパスワード認証プログラム44aにおいてワンタイムパスワードに基づく認証を行った後に、性能監視用エージェントプログラム44bに発行し起動させる。
【0089】
このように、ワンタイムパスワード認証後に、性能監視用エージェントプログラム44bは、リモートコマンドに対応する性能数値をチェックシート形式で性能監視情報として編集し、プロセス/性能監視プログラム11に送信する。
【0090】
プロセス/性能監視プログラム11では、障害管理用Webプログラム11fにより、性能監視用エージェントプログラム44bから送られてきた性能数値を予め設定した「しきい値」と比較し、しきい値を超えた(下回った)場合には障害として検知し通報対象とする。尚、性能監視用エージェントプログラム44bでは、性能監視情報は貯めず、アクセスログ情報のみを残す。
【0091】
性能評価における「ロードアベレージの監視(CPU負荷情報収集)」は、基本的に「uptime」コマンド の結果をもとにCPUの負荷状況を把握し、過去1分平均の値をもとに監視を行う。例えば、FreeBSD(登録商標)の場合、「uptime」 の実行結果は以下のように示される。
【0092】
【0093】
上記「load average」以下の項目(0.10, 0.09, 0.08)を取得し、しきい値と比較させ、それを上回った場合に警告とする。この状態がしばらく続くと障害として検知する。
【0094】
このように、しきい値を超えた時すぐに障害を検知するのではなく、しきい値を超えた状態が続くようなら障害と認識する。尚、警告期間は任意に設定可能である。
【0095】
また、性能評価における「ディスク使用率の監視」は「df」コマンド の結果をもとにディスクの使用状況を把握し、ファイルシステム単位での監視を行う。例えばFreeBSD(登録商標)の場合、「df」の実行結果は以下のようになる。
【0096】
【0097】
ファイルシステム(「Filesystem」)に対応する「Capacity」の値(52%、48%、0%)を取得し、しきい値と比較し、それを超えた場合に障害として検知する。ファイルシステムは同時に複数監視可能であるが、しきい値は同一のものとする。尚、しきい値の指定は2つまで可能とする。
【0098】
また、性能評価における「メモリ使用率の監視」は、基本的に「top」コマンド の結果をもとにメモリの使用状況を把握し、フリーメモリの値をもとに監視を行う。例えば、FreeBSD(登録商標)の場合、「top」の実行結果は以下に示すようになる。
【0099】
【0100】
このうち、「Memory:」の行(「Memory: Real: 3628K/22M Virt: 8752K/199M Free: 29M」)のみを選定する。さらに、「Memory:」に関する「Free:」の項目(「29M」)を取得し、しきい値と比較させ、それを下回った場合に障害として検知する。但し、「top」コマンドが標準でインストールされていない場合があるので、その場合は別途インストールするか、監視できないということになる。
【0101】
例えば、オペレーティングシステムがLinux(登録商標)の場合、Linux(登録商標)にはメモリ使用状況を表示する専用の「free」コマンドなるものが存在するので、Linux(登録商標)の場合はこの「free」コマンドを使用する。この「free」コマンドの実行例を下記に示す。
【0102】
【0103】
この時は、「Mem:」行に対する「free」の値(「23348」)を取得する。
【0104】
次に、性能評価における「メールキュー監視」について「Sendmail」を例に説明する。
【0105】
「Sendmail」のメールキュー監視は、「mailq」コマンド の結果をもとにメールの滞留状況を把握し、この滞留数をもとに監視を行う。例えば、「Sendmail」の場合の「mailq」の実行結果は以下のようになる。
【0106】
【0107】
このような実行結果から、メールの滞留数を取得し、しきい値と比較させ、それを超えた場合に障害として検知する。尚、メールキューがない場合はメッセージとして「empty」を返すので、これを「0(数値)」として扱う。
【0108】
また、他の事例として、グループウェーア系Mailについて説明する。このグループウェーア系Mailのメールキュー監視は、上記「Sendmail」のメールキュー監視に加え、グループウェーア系Mailのローカルで使われている「x.400」及び、この「x.400」とSMTPとの掛け橋となる「SMTP Gateway」の持つそれぞれのファイル数をカウントし、それを滞留数として扱うようにする。尚、「SMTP Gateway」は「x.400」向けと「Sendmail」向けの2つをカウントする。
【0109】
グループウェーア系Mail特有のメール滞留数は、ある特定のディレクトリ上のファイル数をカウントすることで求めることができるので、ファイルをカウントするスクリプトを準備しておき、これを実行することで各々滞留数を取得することができる。このようにして取得した滞留数としきい値を比較させ、それを超えた場合に障害として検知する。尚、監視は「Mail queue」、「x400 queue」、「smtp to x400 queue」、「smtp to Sendmail queue」の4項目それぞれについて可能である。
【0110】
さらに、他の事例として、ウイルスチェックサーバの監視は、搭載されたウイルスチェックソフト製品を用いてのメールウィルスチェック専用のメールキューを監視する。このメール滞留数もグループウェーア系Mailと同様に、特定のディレクトリ上のファイル数をカウントすることで求めることができる。
【0111】
次に、性能評価における「プロセス数監視」は、特定のプロセス数をカウントして、そのカウント数を元に監視するものである。代表的なもので言えば、「SendMail」、「Delegate」、「Squid」等である。対象プロセスを限定するものではないので、カウント可能ものであれば種別は問題ではない。
【0112】
例として、「SendMail」のプロセス数を監視する際、以下に示すように、「ps」コマンド にてプロセス一覧を表示させ、その中で 「sendmail」 の文字列を有するものを抜き出す。その抜き出した行数をカウントすることでプロセス数を取得する。
【0113】
【0114】
特定プロセス数は、上記のようなプロセス数をカウントするためのスクリプトを準備しておき、これを実行することでプロセス数を取得することができる。取得したプロセス数としきい値を比較し、それを超えた場合に障害として検知する。
【0115】
次に、監視対象装置4に対するリモート復旧動作を説明する。
【0116】
まず、監視対象装置4上で生じるイベント(HTTP:Hyper Text Transfer Protocol、SMTP:Simple Mail Transfer Protocolの異常終了など)をトリガとして、リモート復旧プログラム44cに予め組み込んだ障害に応じた復旧オペレーションを実行するプログラムやシェルスクリプトを登録しておく。
【0117】
監視対象装置4では、情報収集エージェント44の性能監視用エージェントプログラム44bが、情報記憶部42に格納した装置保有リソースや稼動情報(各種ログファイル含む)を参照し、各種ログファイルでのパタンマッチやコマンド実行結果での監視を行う。
【0118】
情報収集エージェント44は、この性能監視用エージェントプログラム44bによる監視結果を、監視装置に組み込まれたネットワーク監視マネージャ1のプロセス/性能監視プログラム11に、障害検知としてトラップを上げる。
【0119】
監視装置に組み込まれたネットワーク監視マネージャ1のプロセス/性能監視プログラム11は、この情報を基に、リモート復旧判断プログラム11gから、TCPポート番号設定変更プログラム11bとワンタイムパスワード発生プログラム11a経由で(予め該当のTCPポート番号変更指示設定がない場合はデフォルト)、監視対象装置4の情報収集エージェント44のリモート復旧プログラム44cを起動させる為のワンタイムパスワード付きのリモートコマンドを、通信回線7を介して監視対象装置4に送る。
【0120】
監視対象装置4は、TCP処理部41を介して情報収集エージェント44に専用に割当てたTCPポート番号で、プロセス/性能監視プログラム11と情報収集エージェント44を接続する。
【0121】
情報収集エージェント44は、プロセス/性能監視プログラム11からのリモートコマンドに付与されたワンタイムパスワードを、ワンタイムパスワード認証プログラム44aで認証させた後に、リモートコマンドに対応して、リモート復旧プログラム44cに対して、予め登録されている障害に応じた復旧オペレーションを実行するプログラムやシェルスクリプトを起動する。
【0122】
次に、第3の例として、監視対象装置5に対する監視動作について説明する。
【0123】
この監視対象装置5は、ネットワーク監視マネージャ1を設けた監視装置と、この監視装置とは別系統の監視装置2から同時に監視されるものであり、それぞれ(監視装置)に監視用通信回線8と監視用通信回線9で接続されている。
【0124】
そして、監視対象装置5には、別系統の監視装置2用の情報収集のための別系統の監視装置用の専用情報収集エージェント5Aが設けられ、また、ネットワーク監視マネージャ1側には、中継サーバプログラム12のサブシステムとして、別系統の監視装置の専用情報収集エージェントプログラム12Aが設けられている。尚、別系統の監視装置用の専用情報収集エージェント5Aと別系統の監視装置の専用情報収集エージェントプログラム12Aとは同じ機能を有する。
【0125】
中継サーバプログラム12の統合監視情報管理プログラム12aにより、ネットワーク監視マネージャ1の持つ監視情報と、別系統の監視装置2が持つ監視情報を仮想的に一体化させ、これにより、ネットワーク監視マネージャ1と別系統の監視装置2の監視機能を連携させる。
【0126】
以下、例として、別系統の監視装置2には、商用UNIX(登録商標)系のリモート復旧機能があるが、PC−UNIX(UNIX:登録商標)系(FreeBSD(登録商標)、Linux(登録商標)など)に対しては監視機能が無くリモート復旧対象外であるとし、また、ネットワーク監視マネージャ1には、PC−UNIX(UNIX:登録商標)のプロセス監視と性能監視および復旧機能を有するがリモートでの復旧機能が無いものと想定し、このような環境において、監視対象装置5でHTTPの障害が発生する際の動作処理を、図4を用いて説明する。
【0127】
このような監視対象装置5でHTTPの障害が発生すると(▲1▼)、監視対象装置5に設けた情報収集エージェント54におけるサブプログラムの性能監視用エージェントプログラム54bで検出し、ログ情報に記録する(▲2▼)。
【0128】
ネットワーク監視マネージャ1は、プロセス/ステータス確認プログラム11cにより、所定の時間間隔でサブプログラムの性能監視用エージェントプログラム54bからログ情報を取得し、監視対象装置5でのHTTP障害を検知する(▲3▼)。
【0129】
このように、監視対象装置5でのHTTP障害を検知すると、監視タイミング時間調整変更プログラム11dにより、プロセス/ステータス確認プログラム11cによる性能監視用エージェントプログラム54bからのログ情報の取得時間間隔を短く、例えば、5分間隔から1分間隔にする。
【0130】
また、この際の障害状況により、障害管理用Webプログラム11fにおいて、警告、障害、アラーム鳴動等、段階的にレベル分けしたWeb通報情報を生成し、ユーザ側および監視センタに送出する。
【0131】
また、プロセス/ステータス確認プログラム11cで監視対象装置5のHTTP障害を検知すると、リモート復旧判断プログラム11gが、当該障害に対するリモートでの復旧機能の有無を判別する。ここでは、当該障害に対する復旧機能は有するがリモートでの復旧機能は無いとの判別結果となり、リモート復旧判断プログラム11gから障害管理用Webプログラム11fに復旧指示が出力される。
【0132】
このリモート復旧判断プログラム11gから出力される復旧指示およびプロセス/ステータス確認プログラム11cで取得した性能監視ログ情報を、障害管理用Webプログラム11fは、障害復旧情報リスト生成機能11f1により、チェックシート情報11f2に編集する。このチェックシート情報11f2は、別系統の監視装置2との共通化を図るようチェックシート形式となっている。
【0133】
この編集結果情報は、監視情報同期プログラム(NFS)11f3により、NFSを利用して、中継サーバプログラム12の監視情報同期プログラム(NFS)12dに渡され、統合監視情報プログラム12aに伝達される(▲4▼、▲5▼)。
【0134】
このように、統合監視情報プログラム12aにおいては、別系統の監視装置2で登録されている障害ステータス情報をチェックシート(監視対象名称、障害ステータス情報、性能監視ログ情報、障害と同じ扱いで警報する情報)形式で登録し、このチェックシート情報12a1に基づき、別系統の監視装置用の専用情報収集エージェントプログラム12Aが、監視対象装置5のHTTP障害を検知する。
【0135】
別系統の監視装置用の専用情報収集エージェントプログラム12Aによる監視対象装置5のHTTP障害の検知動作に基づき、統合監視情報プログラム12aは、チェックシート情報12a1における「HTTP復旧指示」を読み出し、ソケットプログラム12cを介して別系統の監視装置2に伝送し、別系統の監視装置2に対してリモート復旧指示のトラップをあげる(▲6▼)。
【0136】
この別系統の監視装置2は、通常は、障害検知機能23により障害を検知すると、障害復旧用テンプレート21に従いリモート復旧処理を行うが、ここでは、PC−UNIX(UNIX:登録商標)対応の復旧オペレーションを実行するプログラムやシェルスクリプトが無いので、監視対象装置5の情報収集エージェント54の当該リモート復旧プログラム54cを起動するために、ソケットプログラム21aを、予めリモート復旧機能22のアドオンソフトとして、障害復旧用テンプレート21に登録しておく。
【0137】
これにより、別系統の監視装置2は、ソケットプログラム21bを介して接続された監視対象装置5に、情報収集エージェント54のリモート復旧プログラム54cの復旧オペレーションを実行するプログラムやシェルスクリプトをリモートコマンド発行し(▲7▼)、監視対象装置5においてHTTP復旧オペレーションプログラム54c1により復旧処理を行う(▲8▼)。
【0138】
尚、監視対象装置5において、別系統の監視装置2の配下用に組み込まれている別系統監視装置用専用の情報収集エージェント5Aと、ネットワーク監視マネージャ1配下の情報収集エージェント54とは、情報記憶部52に格納されている装置保有リソース情報や稼動情報から共通に情報を収集するので、情報の同期ズレなどは発生しない。
【0139】
このように、監視対象装置5の監視機能を連携して利用することにより、このマルチベンダ環境下での複数の監視装置の監視運用の統合化が実現できる。
【0140】
次に、このようなマルチベンダ環境下での複数監視装置の監視機能の連携(トレース)動作に関して、監視対象装置5におけるディスク使用率やログ情報などの性能を監視する動作を例に説明する。
【0141】
ネットワーク監視マネージャ1から監視対象装置5に組込みこまれた情報収集エージェント54の性能監視用エージェントプログラム54bに性能監視情報を収集するためにポーリングを実施する。
【0142】
情報収集する内容は、例えば、「Load average 0.13」、「Free Memory 175M」、「file system (/) 29%」、「file system (/usr) 62%」、「file system (/var) 100%」、「file system (/var/mail) 0%」、「file system (/var/spool/mqueue) 0%」、「inetd o」、「syslogd update o」、「named o」、「sendmail process 1」、「Mail queue 0」、「delegate process 1」、「messages Apr 20 05:36:03 監視対象装置5 kernel: /var: optimization changed from SPACE to TIME Apr 22 03:10:04 監視対象装置5 kernel: /var: optimization changed from TIME to SPACE」等となる。
【0143】
ネットワーク監視マネージャ1は、上記データをテンポラリファイルとして保存し、予め監視設定ファイルに設定されたしきい値と比較し、監視対象装置5の障害発生の判定を行う。比較終了後、このテンポラリファイルは削除される。
【0144】
例えば、ディスク使用率がしきい値を越えて障害状態となった場合、障害管理用Webプログラム11fにおいて、チェックシート情報11f1を生成して、このチェックシート情報11f1をNFSでファイルシェアをしている中継サーバプログラム12から、別系統の監視装置用の専用情報収集エージェントプログラム12Aを経由し、別系統の監視装置2に、この障害情報を通知する。
【0145】
障害管理用Webプログラム11fでは、別系統の監視装置の監視下の障害を検知したことをオペレータコンソール画面などに警告等する。また、リモート復旧判断プログラム11gにおいて、別系統の監視装置2内のリモート復旧機能22の復旧対象か否か判定する。
【0146】
復旧対象の場合、ソケットプログラム12cにより、別系統の監視装置2にアドオンソフトとして組み込まれたソケットプログラム21aを介して、リモート復旧機能22にある障害復旧用テンプレート21(ディスク障害復旧手順)を動作させ、監視対象装置5に組み込んだネットワーク監視マネージャ1の監視下にある情報収集エージェント54のリモート復旧プログラム54c内のディスク障害復旧プログラムに起動をかける。
【0147】
このようにして、別系統の監視装置2からの上記アクセスを受け付けた監視対象装置5はネットワーク監視マネージャ1の監視下にある情報収集エージェント54の専用ディレクトリ下のbinディレクトリ下に予め用意された復旧オペレーションプログラム(「disk_recover.sh」)を実行する。
【0148】
次に、図1における監視装置に組み込まれたネットワーク監視マネージャ1の稼働月次レポート自動作成プログラム13の動作を説明する。
【0149】
稼動月次レポート自動作成プログラム13は、図4で示す統合監視情報管理プログラム12aのチェックシート情報12a1から,監視対象装置の月間のサービス稼働率とリソース使用率を算出し、「サービス稼働率表」と「リソース使用率推移グラフ」の月次レポートを作成する機能である。作成するレポートの詳細と画面を、図5および図6に示す。
【0150】
図5は、図1における稼動月次レポート自動作成プログラムで作成されるサービス稼働率表の構成項目内容例を示す説明図であり、図6は、図1における稼動月次レポート自動作成プログラムで作成されるリソース使用率推移グラフの構成項目内容例を示す説明図である。
【0151】
図5に示すように、月間の「サービス稼働率」は、「項目」と「単位」および「説明」欄からなり、例えば、「稼働率」は、「%」を単位とした、計画停止時間を除いた、稼働時間の割合であり、「(稼働率)=(稼働時間)/((全対象時間)−(計画停止時間))」の式で求められ。
【0152】
また、「稼働時間」は、「分」を単位としたサービス稼動時間であり、「(稼働時間) = (全対象時間)−(計画停止時間)−(停止時間)」の式で求められ、「停止回数」は「回」を単位に、サービスが停止した回数で計画停止は除いた値となり、「停止時間」は「分」を単位に、サービスが停止した時間で計画停止は除いた値となり、「警告(応答遅延)回数」は「回」を単位に、サービス停止までには至らないが,応答遅延を検出した回数が記録され、「計画停止回数」は「回」を単位に、計画停止した回数が記録され、「計画停止時間」は「分」を単位に、計画停止した時間が記録される。
【0153】
そして、「停止時間レベル別停止回数」は「回」を単位に、サービスが停止した時間の長さ別の停止回数で計画停止は除く値が記録される。また、この「停止時間レベル別停止回数」においては、デフォルトの停止レベルは,「レベルA:2時間以上」、「レベルB:1時間以上2時間未満」、「レベルC:30分以上1時間未満」、「レベルD:30分未満」で、停止レベルを規定する停止時間は,設定変更可能である。
【0154】
尚、月をまたがる停止/警告/計画停止は,前後の月でそれぞれ停止/警告/計画停止回数にカウントする。また,停止時間レベルも,前後の月でそれぞれの停止時間により計算する。また、停止/警告時間に引き続いて計画停止に入った場合,計画停止前で,1回の停止/警告とカウントする。さらに、ping監視で停止/警告と判定された時間は,全てのサービスも停止/警告と判定された時間とする。
【0155】
「リソース使用率推移グラフ」は、ディスクやメモリなどのサーバリソースについて,対象月間中の使用率の推移を示すグラフであり、その構成項目内容は、図6に示すように、「項目」と「単位」および「説明」欄からなる。
【0156】
例えば、「ディスク使用量」は、「%」を単位として、各パーティションの日毎の最大使用率をプロットした推移グラフとなり、「空メモリ量」は、「Mbyte」を単位に、空メモリ量の日毎の最小量をプロットした推移グラフとなり、「CPU負荷平均」は、CPU負荷平均の日毎の最大値と平均値をプロットした推移グラフとなる。
【0157】
以上、図1〜図6を用いて説明したように、本例では、マルチベンダ環境の分散コンピュータネットワークシステムにおける各監視対象装置のリモート監視を行うシステムとして、各監視対象装置(データ伝送装置やサーバ装置)に情報収集エージェントを、また、監視装置にネットワーク監視マネージャを組み込み、監視対象装置において、情報収集エージェントにより、別系統の監視装置専用に組込まれた情報収集エージェントと共存させ、複数台の監視装置と情報共用を実現することにより、マルチベンダ環境のコンピュータネットワークシステムにおける各監視サポートを統合して行う。
【0158】
また、監視装置と監視対象装置間にワンタイムパスワードによる認証を行う機能を設けることで、監視装置になりすましてのユーザ側の監視対象装置への不正侵入を防止することが可能となる。
【0159】
また、障害単位で担当者リスト、電話連絡の有無、重要度を示すメッセージを監視センタ装置やユーザ装置に表示する機能を設けることで、センタおよびユーザ側において、障害を誰に伝えればよいかの検索が容易となり、迅速な通報等が可能となる。
【0160】
また、NFS技術を利用して、監視情報が保存されるそれぞれの監視装置間をネットワーク結合する機能を設けることにより、サーバ負荷軽減を図り、かつ、複数の監視装置間の監視情報を同期させ、一元管理することができ、TCOの削減が可能となる。
【0161】
また、ログ情報に用いられるアドレスや識別子、文字の配列などを登録し、ログ情報を検索して、同じパターンを検出した場合、予め登録したアクション動作をさせるパタンマッチ処理機能を設けることにより、SNMPなどのように障害情報をログ上に出力するだけでは不可能な監視も可能となり、さらに、障害検知から通報そして復旧までの障害監視運用過程を自動的に実行することができる。
【0162】
また、ユーザ側に提供する監視情報は、監視状態を一元的に把握できる構成でWeb画面で提供し、かつ、階層が深くなるほど詳細情報を提供する表示構成とすることにより、ユーザと監視センタの双方向での遠隔監視を実現し、迅速な障害体制の確立が可能となる。
【0163】
また、監視情報結果から監視対象装置ごとの計画停止時間を含めた月間サービス稼動率とリソース使用率を算出し、サービス稼働率表(稼働率、稼働時間、停止回数、停止時間、警告回数、計画停止回数と時間)と重要障害発生頻度管理(レベル4区分し色で警告)およびリソース使用率推移グラフ(閾値との比較表示、週単位比較表示)の稼動月次レポートを自動作成してWeb画面で提供する機能を設けることにより、データ伝送装置やサーバ装置等の監視対象装置のシステム障害を事前に予測する情報を提供することが可能となる。
【0164】
このように、本例では、マルチベンダ環境下での物理的ネットワークからアプリケーション層までを対象とした「監視から復旧及び運用管理」のシームレス化を実現させた。そして、新しい監視技術とWeb技術を活用し、監視センタで障害発生を検知したと同時にユーザ側にもWeb画面で通知する双方向監視による迅速な対応(情報収集/分析から障害検知及びリモート復旧)を可能とした。また、CS(クライアント・サーバ)技術思想を十分に考慮した運用管理の効率化と省力化を図り、TCO(トータル運用コスト)の削減・信頼性面からの先手管理(データ伝送装置やサーバ装置のシステム障害を事前に予測する)を可能とした。
【0165】
このことにより、監視センタは、いつ障害が発生するか、また発生したら障害内容に応じてその担当者の連絡先を調べて連絡と、その対応指示を待つと言った行為の連続で監視装置画面をたえずチェックするなど常時緊張を強いられていたことから開放される。
【0166】
また、ユーザ側においては、マルチベンダ環境下の監視制限により個別に監視しなければならなかったグループウェーア系Mail、ファイヤーウォールやディレクトリ(LDAP)などの共通アプリケーションソフト監視とその対象OS(FreeBSD(登録商標)、Linux(登録商標)等のPC−UNIX(UNIX:登録商標)系、商用UNIX(登録商標)系やそれ以外のOSなど多岐にわたる)での監視運用と月次稼動報告業務の煩雑さから開放される。
【0167】
この結果、リモート型運用監視・管理サービスへのノウハウ適用範囲が広がった。例えば、他社製品と連携する中継サーバ機能により、監視装置のマルチベンダ化による監視業務分散等の問題を解決でき、また、監視システムからサーバ管理担当者毎に障害・復旧状況を自動的に通知する機能により、監視業務の工数を低減でき、また、従来の監視技術では未サポートであるPC−UNIX(UNIX:登録商標)のリモート自動復旧プログラム開発で専門分野の人材確保対応など運用の実務にとっての効果が得られる。
【0168】
従って、本例のネットワーク監視システムは、インターネット時代には必須なネットワーク監視技術となる。本例の技術を用いないでネットワークを挟んだ分散オフィス先の運用監視をした場合、セキュリティが問題となるので、分散先に監視装置を設置した分散監視運用の体制となり、設備面・運用人員等のコスト面で増大する。
【0169】
尚、本発明は、図1〜図6を用いて説明した例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。例えば、図2の説明において、本例では、監視センタとは別の箇所に設置された監視装置が、ネットワーク監視マネージャ1内の障害管理用Webプログラム11fと連動して、ユーザと監視センタへの同時通知を行うものとしているが、情報収集エージェント単体で、ユーザと監視センタへの自動同時通知を行うことでも良い。本例では、複数ユーザへの通知や、障害区分に応じた通知、性能情報やしきい値管理および障害復旧指示などのためのデータベースが必要となるので、エージェントの負荷軽減させるために障害管理用Webプログラム11fと連動させ、この部分の情報を付加しユーザと監視センタへの同時通知をする仕組みとしている。
【0170】
また、図4での説明として本例では、ネットワーク監視マネージャ1に、PC−UNIX(UNIX:登録商標)のリモートでの復旧機能が無いものとしたが、ネットワーク監視マネージャ1に、PC−UNIX(UNIX:登録商標)のリモート復旧機能も持たせることでも良い。この場合、監視対象装置5におけるHTTP障害の復旧は、別系統の監視装置2を介することなく、ネットワーク監視マネージャ1を設けた監視装置から直接、リモート復旧させることができる。
【0171】
また、図4に示す例では、ネットワーク監視マネージャ1が、プロセス/ステータス確認プログラム11cにより監視対象装置5における情報収集エージェント54における性能監視用エージェントプログラム54bのログ情報を読みとることで、監視対象装置5におけるHTTPプログラム53aの障害を検出しているが、ネットワーク監視マネージャ1(プロセス/性能監視プログラム11)から監視対象装置5に対してHTTP監視ポーリングを行い、HTTP監視ポーリングの無応答を検知することで、監視対象装置5におけるHTTPプログラム53aの障害を検出することでも良い。
【0172】
また、本例では、OS(オペレーティングシステム)としてUNIX(登録商標)/OSを用いた構成で説明しているが、他のOSであっても良い。また、NFSを別系統の監視装置との連携に用いているが、他のネットワークファイルプロトコルを用いることでも良い。
【0173】
また、本例のコンピュータ構成例として、光ディスクをプログラムやデータの記録媒体として用いているが、FD(Flexible Disk)等を記録媒体として用いることでも良い。また、プログラムのインストールに関しても、通信装置を介してネットワーク経由でプログラムをダウンロードしてインストールすることでも良い。
【0174】
【発明の効果】
本発明によれば、ネットワーク監視マネージャからネットワークを介した監視対象装置の情報収集エージェント(シェルスクリプト)へ起動をかけるとき、不正利用者から監視対象サーバのシェルスクリプトを実行をできないようにネットワーク監視マネージャと監視対象装置(サーバ装置)間の通信に認証機能を設けたので、ネットワークを利用してもセキュア通信を確保した安全な監視が可能である。また、障害発生を検知したと同時にユーザ側もWeb画面で障害を認識できる双方向監視を行うことにより、迅速な対応(情報収集/分析から障害検知及びリモート復旧)が可能である。さらには、中継サーバプログラムにより他社製品との連携が可能となり、監視装置のマルチベンダ化による監視業務分散等の問題を解決することができ、例えば、従来の監視技術では未サポートであるPC−UNIX(UNIX:登録商標)等のリモート自動復旧が可能となり、専門分野の人材確保対応など運用の実務にとって効果的である。また、各システム管理部門のネットワーク運用者が最も頭を悩ます稼動統計月報作成を高信頼に自動的に作成でき、システム障害の事前予測を高精度に行う情報を提供でき、ユーザと監視センタの双方の運用実務を効率化できる。
【図面の簡単な説明】
【図1】本発明に係わるネットワーク監視システムの構成例を示すブロック図である。
【図2】図1におけるネットワーク監視システムの第1の動作例を示す説明図である。
【図3】図1におけるネットワーク監視システムの第2の動作例を示す説明図である。
【図4】図1におけるネットワーク監視システムの詳細構成例を示すブロック図である。
【図5】図1における稼動月次レポート自動作成プログラムで作成されるサービス稼働率表の構成項目内容例を示す説明図である。
【図6】図1における稼動月次レポート自動作成プログラムで作成されるリソース使用率推移グラフの構成項目内容例を示す説明図である。
【符号の説明】
1:ネットワーク監視マネージャ、1a:ソケットプログラム、2:別系統の監視装置、3〜5:監視対象装置、5A:別系統の監視装置用の専用情報収集エージェント、6〜8:通信回線、9:別系統の監視装置用の通信回線、10:仮想通信経路、11:プロセス/性能監視プログラム、11a:ワンタイムパスワード発生プログラム、11b:TCPポート番号設定変更プログラム、11c:プロセス/ステータス確認プログラム、11d:監視タイミング時間調整変更プログラム、11e:監視一時休止状態表示プログラム、11f:障害管理用Webプログラム、11f1:障害復旧情報リスト作成機能、11f2:チェックシート情報、11f3:監視情報同期プログラム(NFS)、11g:リモート復旧判断プログラム、12:中継サーバプログラム、12a:統合監視情報管理プログラム、12a1:チェックシート情報、12b:HTML生成プログラム(「HTML生成」)、12c:ソケットプログラム、12d:監視情報同期プログラム(NFS)、12A:別系統の監視装置の専用情報収集エージェント、13:稼働月次レポート自動作成プログラム、13a:状態履歴情報Webコンテンツ生成プログラム(「状態履歴情報Webコンテンツ生成」)、14:工事管理情報データベース、15:監視条件メッセージ管理データベース、21:障害復旧テンプレート、21a,21b:ソケットプログラム、22:リモート復旧機能、23:障害検知機能、31,41,51:TCP処理部(「TCPポート」)、32,42,52:情報記憶部(「装置保有リソース情報や稼働情報」)、33,43,53:アプリケーション処理部(「アプリケーションプログラム」)、44,54:情報収集エージェント、44a,54a:ワンタイムパスワード認証プログラム、44b,54b:性能監視用エージェントプログラム、44c,54c:リモート復旧プログラム、53:アプリケーションプログラム、53a:HTTP、54c1:HTTP復旧オペレーションプログラム、54d:ソケットプログラム。
Claims (20)
- 監視対象装置に対する監視をネットワークを挟んで監視装置で行うネットワーク監視システムであって、
上記監視対象装置に設けられ当該監視対象装置の少なくとも性能情報を含む監視情報を収集する情報収集エージェント手段と、
上記監視装置に設けられ上記情報収集エージェント手段で収集した稼動情報を取得し、該稼動情報に基づき当該監視対象装置における障害の発生を検知する監視マネージャ手段と、
該監視マネージャ手段が上記情報収集エージェント手段における上記稼動情報を収集する際に、当該監視装置の正当性の認証を行う認証手段と
を有することを特徴とするネットワーク監視システム。 - 監視対象装置に対する監視をネットワークを挟んで監視装置で行うネットワーク監視システムであって、
上記監視対象装置に設けられ当該監視対象装置の少なくとも性能情報を含む監視情報を収集する情報収集エージェント手段と、
上記監視装置に設けられ上記情報収集エージェント手段で収集した監視情報を取得し、該監視情報に基づき当該監視対象装置における障害の発生を検知する監視マネージャ手段と、
該監視マネージャ手段が上記情報収集エージェント手段における上記監視情報を収集する際に、当該監視装置の正当性の認証をワンタイムパスワードによる行う認証手段と
を有することを特徴とするネットワーク監視システム。 - 請求項1、もしくは、請求項2のいずれかに記載のネットワーク監視システムであって、
上記情報収集エージェント手段は、収集した監視情報に対して予め記憶装置に記憶された処理を判別して実行するオペレーション手段を有し、少なくとも、発生した障害に対する原因分析処理および復旧処理のいずれか一つを行うことを特徴とするネットワーク監視システム。 - 請求項1から請求項3のいずれかに記載のネットワーク監視システムであって、
上記監視マネージャ手段は、
上記情報収集エージェント手段で収集した監視情報を取得する時間間隔を設定する監視タイミング時間調整変更手段を有し、
該監視タイミング時間調整変更手段は、上記監視対象装置での異常発生検知に伴い上記時間間隔を短く変更し、正常状態検知に伴い元に戻すことを特徴とするネットワーク監視システム。 - 請求項1から請求項4のいずれかに記載のネットワーク監視システムであって、
上記監視マネージャ手段は、
上記監視対象装置で動作するアプリケーションプログラムを認識するTCPポートの番号を設定変更するTCPポート番号設定変更手段を有し、
該TCPポート番号設定変更手段で設定した番号のTCPポートに対するTCPセッション確立を試みることで、当該アプリケーションプログラムの異常を検知することを特徴とするネットワーク監視システム。 - 請求項5に記載のネットワーク監視システムであって、
上記監視マネージャ手段は、
上記TCPセッション確立を試みる時間間隔を設定する監視タイミング時間調整変更手段を有し、
該監視タイミング時間調整変更手段は、上記アプリケーションプログラムの異常検知に伴い上記時間間隔を短く変更し、正常状態検知に伴い元に戻すことを特徴とするネットワーク監視システム。 - 請求項5、もしくは、請求項6のいずれかに記載のネットワーク監視システムであって、
上記監視マネージャ手段で参照する時刻を、上記監視対象装置の時刻に合わせて補正する手段を有することを特徴とするネットワーク監視システム。 - 請求項1から請求項7のいずれかに記載のネットワーク監視システムであって、
上記監視マネージャ手段は、
上記監視対象装置に対する監視結果情報をWeb画面表示するWeb手段を有することを特徴とするネットワーク監視システム。 - 請求項8に記載のネットワーク監視システムであって、
上記監視マネージャ手段は、
上記監視結果情報のWeb画面を、当該監視対象装置を利用するユーザの端末装置および予め定められた監視センタ装置に送信して表示する手段を有することを特徴とするネットワーク監視システム。 - 請求項8、もしくは、請求項9のいずれかに記載のネットワーク監視システムであって、
上記監視結果情報のWeb画面は、多層構成され、最初の層の画面は、障害の発生を通知する情報を含み、他の層の画面は、少なくとも通報先を含む当該障害に対する対応手順を示す情報を含むことを特徴とするネットワーク監視システム。 - 請求項10に記載のネットワーク監視システムであって、上記他の層の画面に対してパスワード保護を設けることを特徴とするネットワーク監視システム。
- 請求項1から請求項11のいずれかに記載のネットワーク監視システムであって、
上記監視マネージャ手段は、予め記憶装置に記憶された監視対象装置の工事計画情報を参照して、当該監視対象装置の工事による障害を判別し、該工事による障害を通常の障害と区別可能に表示する休止状態表示手段を有することを特徴とするネットワーク監視システム。 - 請求項1から請求項12のいずれかに記載のネットワーク監視システムであって、
上記監視マネージャ手段は、障害が発生した監視対象装置に対して、当該障害に対応した復旧指示情報を送出するリモート復旧指示手段を有し、
上記情報収集エージェント手段は、上記監視マネージャ手段からの復旧指示情報に基づき、当該障害に対して予め定められた復旧処理を行う復旧手段を有することを特徴とするネットワーク監視システム。 - 請求項1から請求項13のいずれかに記載のネットワーク監視システムであって、
上記監視対象装置に、上記情報収集エージェント手段と、別系統の監視装置用の情報収集エージェント手段とを組み込み、それぞれの情報収集エージェント手段が収集する監視情報を、共通の記憶装置に記憶し、上記監視装置および上記別系統の監視装置のそれぞれで共有して利用することを特徴とするネットワーク監視システム。 - 請求項14に記載のネットワーク監視システムであって、上記監視マネージャ手段は、
上記情報収集エージェントから収集した共通監視情報を上記別系統の監視装置と共通に取り扱えるチェックシート情報に変換する生成手段と、
上記チェックシート情報に基づき当該監視対象装置の上記別系統の監視装置での監視対象の障害を検知する手段と
を有することを特徴とするネットワーク監視システム。 - 請求項15に記載のネットワーク監視システムであって、上記監視マネージャ手段は、
検知した上記別系統の監視装置での監視対象の障害が自装置での復旧対象であるか否かを判別する判別手段と、
復旧対象でなければ、上記別系統の監視装置に復旧依頼情報を送出する手段を有し、
上記別系統の監視装置は、上記復旧依頼情報に基づき当該監視対象装置の情報収集エージェントに当該障害を復旧するよう指示する手段を有する
ことを特徴とするネットワーク監視システム。 - 請求項1から請求項16のいずれかに記載のネットワーク監視システムであって、
複数の監視装置のそれぞれで取得した監視情報を記憶する記憶装置を、NFSを含むネットワークファイルプロトコルのいずれかによりネットワーク結合する手段を有することを特徴とするネットワーク監視システム。 - 請求項1から請求項17のいずれかに記載のネットワーク監視システムであって、
上記監視マネージャ手段は、予め定められた期間の監視結果に基づき、当該監視対象装置の当該期間における稼動状況を示す情報を生成するレポート作成手段を有することを特徴とするネットワーク監視システム。 - 請求項18に記載のネットワーク監視システムであって、上記レポート作成手段は、
予め記憶装置に記憶された監視対象装置の工事情報に基づき、当該監視対象装置に対する稼動状況情報を補正する手段を有することを特徴とするネットワーク監視システム。 - コンピュータを、請求項1から請求項19のいずれかに記載のネットワーク監視システムにおける各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002174833A JP2004021549A (ja) | 2002-06-14 | 2002-06-14 | ネットワーク監視システムおよびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002174833A JP2004021549A (ja) | 2002-06-14 | 2002-06-14 | ネットワーク監視システムおよびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004021549A true JP2004021549A (ja) | 2004-01-22 |
Family
ID=31173704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002174833A Pending JP2004021549A (ja) | 2002-06-14 | 2002-06-14 | ネットワーク監視システムおよびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004021549A (ja) |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007005905A (ja) * | 2005-06-21 | 2007-01-11 | Mitsubishi Electric Corp | 監視対象端末装置及び監視プログラム及び監視システム及び監視方法 |
JP2007048266A (ja) * | 2005-07-11 | 2007-02-22 | Fujitsu Ltd | 監査証跡追跡装置、監査証跡追跡方法および監査証跡追跡プログラム |
JP2007148738A (ja) * | 2005-11-28 | 2007-06-14 | Hitachi Ltd | 情報監視方法、システム及びプログラム |
JP2007156869A (ja) * | 2005-12-06 | 2007-06-21 | Mitsubishi Electric Corp | アラーム管理装置及びアラーム管理方法 |
JP2008015648A (ja) * | 2006-07-04 | 2008-01-24 | Yokogawa Electric Corp | アプリケーション管理フレームワーク |
JP2008102763A (ja) * | 2006-10-19 | 2008-05-01 | Hitachi Ltd | メール管理方法、メールシステム及びメールシステムでの表示方法 |
JPWO2006046486A1 (ja) * | 2004-10-27 | 2008-05-22 | 日本電気株式会社 | 資源管理システム、資源情報提供方法、及び、プログラム |
JP2008518291A (ja) * | 2004-10-25 | 2008-05-29 | アルカテル−ルーセント | アクセス制御ユニットを介してプリペイドサービスにアクセスするユーザをアカウント処理する方法 |
JP2009501386A (ja) * | 2005-07-12 | 2009-01-15 | ヴィジブル メジャーズ,インク. | 動的なアプリケーションの利用情報の分散取得および集約 |
JP2009530979A (ja) * | 2006-03-20 | 2009-08-27 | ソニー・コンピュータ・エンタテインメント・アメリカ・インク | ネットワーク装置の評価および誠実性の保全 |
JP2009205356A (ja) * | 2008-02-27 | 2009-09-10 | Nec Fielding Ltd | 遠隔通報システムおよび電子計算機、並びに、遠隔通報方法 |
JP2010521749A (ja) * | 2007-03-14 | 2010-06-24 | マイクロソフト コーポレーション | 企業セキュリティアセスメントの共有 |
JP2010232733A (ja) * | 2009-03-25 | 2010-10-14 | Oki Networks Co Ltd | ネットワーク監視装置およびネットワーク監視プログラム |
JP2010538551A (ja) * | 2007-09-03 | 2010-12-09 | アルカテル−ルーセント ユーエスエー インコーポレーテッド | Ipネットワーク上のipリンクの接続性状態を自動的に確認するための方法およびシステム |
JP2011502307A (ja) * | 2007-10-26 | 2011-01-20 | ソニー コンピュータ エンタテインメント アメリカ リミテッド ライアビリテイ カンパニー | オンラインリソースモニタリング |
JP2011048539A (ja) * | 2009-08-26 | 2011-03-10 | Nec Corp | 管理システム、管理装置、ネットワーク装置、管理方法およびプログラム |
JP2011060323A (ja) * | 2010-12-06 | 2011-03-24 | Hitachi Ltd | 情報監視方法、システム及びプログラム |
JP2011100283A (ja) * | 2009-11-05 | 2011-05-19 | Ricoh Co Ltd | 管理装置、機器管理方法、機器管理プログラム、記録媒体、及び機器管理システム |
US8032502B2 (en) | 2006-03-20 | 2011-10-04 | Sony Computer Entertainment America Llc | Validation of network devices |
JP2012048556A (ja) * | 2010-08-27 | 2012-03-08 | Toshiba It Service Kk | リモートセキュリティ診断システム |
US8230001B2 (en) | 2004-05-28 | 2012-07-24 | Hewlett-Packard Development Company, L.P. | Providing information about a system using scripts |
US8266117B2 (en) | 2005-07-11 | 2012-09-11 | Fujitsu Limited | Method and apparatus for tracing data in audit trail, and computer product |
JP2012185577A (ja) * | 2011-03-03 | 2012-09-27 | Toshiba Tec Corp | アプリケーションサーバ及びその監視プログラム |
JP2012198796A (ja) * | 2011-03-22 | 2012-10-18 | Nec Corp | ログ収集システム、装置、方法及びプログラム |
CN102752167A (zh) * | 2012-06-05 | 2012-10-24 | 东莞市博晟电子科技有限公司 | 一种互联网网站信息实时监控*** |
JP2012208646A (ja) * | 2011-03-29 | 2012-10-25 | Nec Corp | 監視システム |
US8327140B2 (en) | 2006-07-07 | 2012-12-04 | Nec Corporation | System and method for authentication in wireless networks by means of one-time passwords |
JP2013196219A (ja) * | 2012-03-16 | 2013-09-30 | Fujitsu Fsas Inc | 報告書作成装置、報告書作成プログラムおよび報告書作成方法 |
WO2013153767A1 (ja) * | 2012-04-13 | 2013-10-17 | 株式会社ソニー・コンピュータエンタテインメント | 情報処理システムおよびメディアサーバ |
JP2014053042A (ja) * | 2007-11-29 | 2014-03-20 | Barclays Capital Inc | 通信エンタープライズサーバモニター |
US8771061B2 (en) | 2006-03-20 | 2014-07-08 | Sony Computer Entertainment America Llc | Invalidating network devices with illicit peripherals |
US8955105B2 (en) | 2007-03-14 | 2015-02-10 | Microsoft Corporation | Endpoint enabled for enterprise security assessment sharing |
JP2015519630A (ja) * | 2012-03-30 | 2015-07-09 | アンビエント・コーポレイション | データ転送容量を低減するためのデータネットワークデバイスの発見最適化 |
JP2015228104A (ja) * | 2014-05-30 | 2015-12-17 | 株式会社東芝 | 医用画像診断装置 |
US9636589B2 (en) | 2010-11-02 | 2017-05-02 | Sony Interactive Entertainment America Llc | Detecting lag switch cheating in game |
US9996372B2 (en) | 2015-03-27 | 2018-06-12 | Fujitsu Limited | Information processing apparatus, information processing system and program |
JP2019197395A (ja) * | 2018-05-10 | 2019-11-14 | 村田機械株式会社 | ストレージ装置 |
-
2002
- 2002-06-14 JP JP2002174833A patent/JP2004021549A/ja active Pending
Cited By (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8230001B2 (en) | 2004-05-28 | 2012-07-24 | Hewlett-Packard Development Company, L.P. | Providing information about a system using scripts |
JP2008518291A (ja) * | 2004-10-25 | 2008-05-29 | アルカテル−ルーセント | アクセス制御ユニットを介してプリペイドサービスにアクセスするユーザをアカウント処理する方法 |
US8484650B2 (en) | 2004-10-27 | 2013-07-09 | Nec Corporation | Resource management system, resource information providing method and program for providing resource information relating to a plurality of resources |
JP5040311B2 (ja) * | 2004-10-27 | 2012-10-03 | 日本電気株式会社 | 資源管理システム、資源情報提供方法、及び、プログラム |
JPWO2006046486A1 (ja) * | 2004-10-27 | 2008-05-22 | 日本電気株式会社 | 資源管理システム、資源情報提供方法、及び、プログラム |
US8191068B2 (en) | 2004-10-27 | 2012-05-29 | Nec Corporation | Resource management system, resource information providing method and program |
JP2007005905A (ja) * | 2005-06-21 | 2007-01-11 | Mitsubishi Electric Corp | 監視対象端末装置及び監視プログラム及び監視システム及び監視方法 |
JP2007048266A (ja) * | 2005-07-11 | 2007-02-22 | Fujitsu Ltd | 監査証跡追跡装置、監査証跡追跡方法および監査証跡追跡プログラム |
US8266117B2 (en) | 2005-07-11 | 2012-09-11 | Fujitsu Limited | Method and apparatus for tracing data in audit trail, and computer product |
JP2009501386A (ja) * | 2005-07-12 | 2009-01-15 | ヴィジブル メジャーズ,インク. | 動的なアプリケーションの利用情報の分散取得および集約 |
JP2007148738A (ja) * | 2005-11-28 | 2007-06-14 | Hitachi Ltd | 情報監視方法、システム及びプログラム |
JP2007156869A (ja) * | 2005-12-06 | 2007-06-21 | Mitsubishi Electric Corp | アラーム管理装置及びアラーム管理方法 |
US9717992B2 (en) | 2006-03-20 | 2017-08-01 | Sony Interactive Entertainment America Llc | Invalidating network devices with illicit peripherals |
US8032502B2 (en) | 2006-03-20 | 2011-10-04 | Sony Computer Entertainment America Llc | Validation of network devices |
US10293262B2 (en) | 2006-03-20 | 2019-05-21 | Sony Interactive Entertainment America Llc | Managing game metrics and authorizations |
US10124260B2 (en) | 2006-03-20 | 2018-11-13 | Sony Interactive Entertainment America Llc | Invalidating network devices with illicit peripherals |
US8622837B2 (en) | 2006-03-20 | 2014-01-07 | Sony Computer Entertainment America Llc | Managing game metrics and authorizations |
JP4672797B2 (ja) * | 2006-03-20 | 2011-04-20 | ソニー コンピュータ エンタテインメント アメリカ リミテッド ライアビリテイ カンパニー | ネットワーク装置の評価および誠実性の保全 |
US9526990B2 (en) | 2006-03-20 | 2016-12-27 | Sony Interactive Entertainment America Llc | Managing game metrics and authorizations |
US8771061B2 (en) | 2006-03-20 | 2014-07-08 | Sony Computer Entertainment America Llc | Invalidating network devices with illicit peripherals |
US8972364B2 (en) | 2006-03-20 | 2015-03-03 | Sony Computer Entertainment America Llc | Defining new rules for validation of network devices |
US8626710B2 (en) | 2006-03-20 | 2014-01-07 | Sony Computer Entertainment America Llc | Defining new rules for validation of network devices |
US11077376B2 (en) | 2006-03-20 | 2021-08-03 | Sony Interactive Entertainment LLC | Managing game metrics and authorizations |
JP2009530979A (ja) * | 2006-03-20 | 2009-08-27 | ソニー・コンピュータ・エンタテインメント・アメリカ・インク | ネットワーク装置の評価および誠実性の保全 |
US8715072B2 (en) | 2006-03-20 | 2014-05-06 | Sony Computer Entertainment America Llc | Generating rules for maintaining community integrity |
JP2008015648A (ja) * | 2006-07-04 | 2008-01-24 | Yokogawa Electric Corp | アプリケーション管理フレームワーク |
US8327140B2 (en) | 2006-07-07 | 2012-12-04 | Nec Corporation | System and method for authentication in wireless networks by means of one-time passwords |
JP2008102763A (ja) * | 2006-10-19 | 2008-05-01 | Hitachi Ltd | メール管理方法、メールシステム及びメールシステムでの表示方法 |
US8955105B2 (en) | 2007-03-14 | 2015-02-10 | Microsoft Corporation | Endpoint enabled for enterprise security assessment sharing |
US8959568B2 (en) | 2007-03-14 | 2015-02-17 | Microsoft Corporation | Enterprise security assessment sharing |
JP2010521749A (ja) * | 2007-03-14 | 2010-06-24 | マイクロソフト コーポレーション | 企業セキュリティアセスメントの共有 |
JP2010538551A (ja) * | 2007-09-03 | 2010-12-09 | アルカテル−ルーセント ユーエスエー インコーポレーテッド | Ipネットワーク上のipリンクの接続性状態を自動的に確認するための方法およびシステム |
JP2011502307A (ja) * | 2007-10-26 | 2011-01-20 | ソニー コンピュータ エンタテインメント アメリカ リミテッド ライアビリテイ カンパニー | オンラインリソースモニタリング |
JP2014053042A (ja) * | 2007-11-29 | 2014-03-20 | Barclays Capital Inc | 通信エンタープライズサーバモニター |
JP2009205356A (ja) * | 2008-02-27 | 2009-09-10 | Nec Fielding Ltd | 遠隔通報システムおよび電子計算機、並びに、遠隔通報方法 |
JP2010232733A (ja) * | 2009-03-25 | 2010-10-14 | Oki Networks Co Ltd | ネットワーク監視装置およびネットワーク監視プログラム |
JP2011048539A (ja) * | 2009-08-26 | 2011-03-10 | Nec Corp | 管理システム、管理装置、ネットワーク装置、管理方法およびプログラム |
JP2011100283A (ja) * | 2009-11-05 | 2011-05-19 | Ricoh Co Ltd | 管理装置、機器管理方法、機器管理プログラム、記録媒体、及び機器管理システム |
JP2012048556A (ja) * | 2010-08-27 | 2012-03-08 | Toshiba It Service Kk | リモートセキュリティ診断システム |
US9636589B2 (en) | 2010-11-02 | 2017-05-02 | Sony Interactive Entertainment America Llc | Detecting lag switch cheating in game |
US10092845B2 (en) | 2010-11-02 | 2018-10-09 | Sony Interactive Entertainment America Llc | Detecting lag switch cheating in game |
JP2011060323A (ja) * | 2010-12-06 | 2011-03-24 | Hitachi Ltd | 情報監視方法、システム及びプログラム |
JP2012185577A (ja) * | 2011-03-03 | 2012-09-27 | Toshiba Tec Corp | アプリケーションサーバ及びその監視プログラム |
JP2012198796A (ja) * | 2011-03-22 | 2012-10-18 | Nec Corp | ログ収集システム、装置、方法及びプログラム |
JP2012208646A (ja) * | 2011-03-29 | 2012-10-25 | Nec Corp | 監視システム |
JP2013196219A (ja) * | 2012-03-16 | 2013-09-30 | Fujitsu Fsas Inc | 報告書作成装置、報告書作成プログラムおよび報告書作成方法 |
JP2015519630A (ja) * | 2012-03-30 | 2015-07-09 | アンビエント・コーポレイション | データ転送容量を低減するためのデータネットワークデバイスの発見最適化 |
JP2013222249A (ja) * | 2012-04-13 | 2013-10-28 | Sony Computer Entertainment Inc | 情報処理システムおよびメディアサーバ |
WO2013153767A1 (ja) * | 2012-04-13 | 2013-10-17 | 株式会社ソニー・コンピュータエンタテインメント | 情報処理システムおよびメディアサーバ |
CN102752167A (zh) * | 2012-06-05 | 2012-10-24 | 东莞市博晟电子科技有限公司 | 一种互联网网站信息实时监控*** |
JP2015228104A (ja) * | 2014-05-30 | 2015-12-17 | 株式会社東芝 | 医用画像診断装置 |
US9996372B2 (en) | 2015-03-27 | 2018-06-12 | Fujitsu Limited | Information processing apparatus, information processing system and program |
JP2019197395A (ja) * | 2018-05-10 | 2019-11-14 | 村田機械株式会社 | ストレージ装置 |
JP7045652B2 (ja) | 2018-05-10 | 2022-04-01 | 村田機械株式会社 | ストレージ装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004021549A (ja) | ネットワーク監視システムおよびプログラム | |
US7490066B2 (en) | Method, apparatus, and article of manufacture for a network monitoring system | |
EP0898822B1 (en) | Method and apparatus for integrated network management and systems management in communications networks | |
US8145742B1 (en) | Method of and apparatus for network administration | |
CN107632918B (zh) | 计算存储设备的监控***及方法 | |
US8176137B2 (en) | Remotely managing a data processing system via a communications network | |
WO2001080032A1 (en) | A system and method for managing computing devices within a data communications network from a remotely located console | |
JP2001519942A (ja) | 分散アプリケーションを監視するシステムおよび方法 | |
JP2002330177A (ja) | セキュリティ管理サーバおよびこれと連携して動作するホストサーバ | |
EP1890427B1 (en) | A system and method for monitoring the device port state | |
CN111488258A (zh) | 一种用于软硬件运行状态分析与预警的*** | |
KR20040091392A (ko) | 웹을 이용한 원격 백업관리 시스템 및 그 시스템을 운용한백업관리 방법 | |
KR20020000225A (ko) | 컴퓨터 시스템의 통합적인 원격 보안 관리를 수행하는시스템 및 방법 | |
JP2005117371A (ja) | リモート監視装置およびリモート監視システム | |
JP2002352361A (ja) | 建築物管理方法及び建築物管理システム | |
EP1622310B1 (en) | Administration method and system for network management systems | |
JP2004013411A (ja) | リモートメンテナンス装置 | |
CN108366077A (zh) | 裂变式防攻击网络接入*** | |
US20060053021A1 (en) | Method for monitoring and managing an information system | |
JPH1145195A (ja) | コンピュータシステム、異常検出装置及び記録媒体 | |
JP2002215424A (ja) | 稼働監視データのフィルタリング方法 | |
Cisco | Overview | |
JP2014164628A (ja) | 情報処理装置、情報処理方法および情報処理プログラム並びに統合監視サーバ及び監視システム | |
JP2000148539A (ja) | 障害検知方法、コンピュータシステム及び構成装置、記録媒体 | |
KR100599929B1 (ko) | 지능형통합보안관리시스템의 에이전트계층 데이터처리방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060725 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061117 |