JP4980581B2 - 性能監視装置、性能監視方法及びプログラム - Google Patents

性能監視装置、性能監視方法及びプログラム Download PDF

Info

Publication number
JP4980581B2
JP4980581B2 JP2005114821A JP2005114821A JP4980581B2 JP 4980581 B2 JP4980581 B2 JP 4980581B2 JP 2005114821 A JP2005114821 A JP 2005114821A JP 2005114821 A JP2005114821 A JP 2005114821A JP 4980581 B2 JP4980581 B2 JP 4980581B2
Authority
JP
Japan
Prior art keywords
information processing
monitoring
correlation
data
monitoring data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005114821A
Other languages
English (en)
Other versions
JP2005327261A (ja
Inventor
良文 坂井
佳隆 池田
朋和 進藤
雄一 横山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NS Solutions Corp
Original Assignee
NS Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NS Solutions Corp filed Critical NS Solutions Corp
Priority to JP2005114821A priority Critical patent/JP4980581B2/ja
Publication of JP2005327261A publication Critical patent/JP2005327261A/ja
Application granted granted Critical
Publication of JP4980581B2 publication Critical patent/JP4980581B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Description

本発明は、複数の情報処理装置が協動して動作する情報処理システムの稼働を監視し、情報処理システムの障害発生を検知又は予測する性能監視装置、性能監視方法及びプログラムに関するものである。
従来、装置の障害を監視する手法、或いは運用管理を行う手法が提案されている。例えば、特許文献1には、障害発生予測アルゴリズムと障害検出用のパラメータを格納したテーブルをメモリに格納しておき、また、顧客名・製品名・モデル番号・保守履歴・障害履歴などをデータベースに格納しておき、障害発生予測アルゴリズムを用いてデータベースに格納しておき、障害発生予測アルゴリズムを用いてデータベースに格納された各情報が、障害発生条件を満たせば通知メールを発信するシステムが開示されている。また、特許文献2には、ハードウェア状態・プログラムの稼働状況を能動的に採取して解析を行い、運用支障をきたす危険がある場合には障害を回避する指示を与えるための装置が開示されている。
特開2001−84276号公報 特開平9−311733号公報
特許文献1に開示される発明は、特定の装置の監視をして障害発生を予測するものであるが、監視対象が装置自体のみであることを想定している。例えば、ウェブサーバ、アプリケーションサーバ及びデータベースサーバから成る3層構造のウェブシステムなど、複数の機能が協調して動作しているシステムの場合、装置間における処理の負荷分散やトランザクション発生数に対してメモリ等のリソースが不足している等、様々な原因による障害が予測されるが、特許文献1に開示される発明は、その点については全く考慮されていない。
また、特許文献2に開示される発明は、知識ベース格納装置に格納された採取すべきハードウェア/ソフトウェアの稼働情報に基づいて、情報採取手段が情報を採取し、採取された情報を用いて経験則から対処すべき指示を出力するものである。特許文献2に開示された発明の場合も、監視対象はコンピュータ自体のみであり、複数のコンピュータが協調して動作しているようなシステムで発生し得る上記の障害については何ら説明がなされていない。
以上のように、従来の監視・運用管理システムは個々のコンピュータを監視すること自体はできたものの、今日のような複数のコンピュータが協調して動作し、協調して動作することによる複雑化した障害発生の予測は想定されておらず、複雑なコンピュータシステムを対象とする監視においては、障害の検出・予測や原因の切りわけが難しい、あるいは手間がかかる場合が多かった。
従って、本発明の目的は、例えば、情報処理装置間における処理の負荷分散やトランザクション発生数に対してメモリ等のリソースが不足している等、複数の情報処理装置が協調して動作する情報処理システムに発生し得る複雑化した障害を精度よく検知又は予測可能とすることにある。
本発明の性能監視装置は、複数の情報処理装置が協調して動作する情報処理システムの性能を監視する性能監視装置であって、前記複数の情報処理装置の稼働状況、及び、前記複数の情報処理装置間を接続する各通信回線のデータ通信状況を監視する監視手段と、前記複数の情報処理装置のうちの一の情報処理装置の稼働状況に関する監視データと他の情報処理装置の稼働状況に関する監視データとの相関関係、前記複数の情報処理装置間を接続する各通信回線のうちの一の通信回線のデータ通信状況に関する監視データと他の通信回線のデータ通信状況に関する監視データとの相関関係、又は、前記複数の情報処理装置のうちの一の情報処理装置の稼働状況に関する監視データと当該情報処理装置と他の情報処理装置とを接続する通信回線のデータ通信状況に関する監視データとの相関関係に基づいて、前記情報処理システムに現在発生している障害を検知、又は、前記情報処理システムに将来障害が発生する可能性を予測する障害検知/予測手段とを有することを特徴とする。
本発明の性能監視方法は、複数の情報処理装置が協調して動作する情報処理システムの性能を監視する性能監視装置による性能監視方法であって、前記複数の情報処理装置の稼働状況、及び、前記複数の情報処理装置間を接続する各通信回線のデータ通信状況を監視する監視ステップと、前記複数の情報処理装置のうちの一の情報処理装置の稼働状況に関する監視データと他の情報処理装置の稼働状況に関する監視データとの相関関係、前記複数の情報処理装置間を接続する各通信回線のうちの一の通信回線のデータ通信状況に関する監視データと他の通信回線のデータ通信状況に関する監視データとの相関関係、又は、前記複数の情報処理装置のうちの一の情報処理装置の稼働状況に関する監視データと当該情報処理装置と他の情報処理装置とを接続する通信回線のデータ通信状況に関する監視データとの相関関係に基づいて、前記情報処理システムに現在発生している障害を検知、又は、前記情報処理システムに将来障害が発生する可能性を予測する障害検知/予測ステップとを有することを特徴とする。
本発明のプログラムは、前記性能監視方法をコンピュータに実行させることを特徴とする。
本発明によれば、情報処理システムを構成する複数の情報処理装置の稼働状況、及び、当該複数の情報処理装置を接続する各通信監視のデータ通信状況を監視することにより、例えば、情報処理装置間における処理が正常に動作している場合、発生するトランザクション量に対して本来使うべきリソースよりも多いあるいは少ないリソースしか使用できていないことから、障害の発生を検出、予測したり、その現象がどのサーバでおきているかを検出することによって、複数の情報処理装置からなるシステムのどの部分で障害がおきているかを知ることができ、複数の情報処理装置が協調して動作する情報処理システムに発生し得る複雑化した障害を精度よく検知又は予測することが可能となる。
以下、本発明を適用した好適な第一の実施形態を、添付図面を参照しながら詳細に説明する。
図1は、本発明の第一の実施形態に係る性能監視システムの構成を概略的に示した図である。図1において、本実施形態の性能監視システムは、性能監視装置10、Webサーバ11、AP(アプリケーション)サーバ12、及び、DB(データベース)サーバ13により構成されている。性能監視装置10は、Webサーバ11、APサーバ12及びDBサーバ13から構成される情報処理システムとLAN(Local Area Network)等の通信回線で接続され、この通信回線を介して各サーバの状態を監視することが可能である。
本実施形態の性能監視装置10は、蓄積サーバ101と分析サーバ102によって構成され、蓄積サーバ101は、各サーバに対する監視により夫々のCPUやメモリ等のリソースの使用量、使用率を示すリソース使用状況データ及び処理履歴を示すログデータ等を取得するとともに、Webサーバ11、APサーバ12及びDBサーバ13間を接続する各通信回線で通信されるトランザクションのスループット、処理名等を示すトランザクションデータを取得し、夫々を監視データとして内部に蓄積する。また、サーバに対する監視或いは通信回線に対する監視いずれからも取得できる情報として、ある処理命令に対する応答時間なども蓄積する。分析サーバ102は、蓄積サーバ101に蓄積された監視データに基づいて、情報処理システムに現在発生している障害を検知、又は、情報処理システムに将来発生する可能性のある障害を予測する。
このように、本実施形態では、性能監視装置10の監視対象を複数の装置夫々の稼働状況、装置間を接続する各通信回線のデータ通信状況としていることにより、複数の情報処理装置が協動して動作する情報処理システムに発生する障害の検知又は予測を精度よく行うことが可能となる。
図2は、性能監視装置10(蓄積サーバ101、分析サーバ102)内のコンピュータシステムのハードウェア構成を概略的に示した図である。
図2に示すように、上記コンピュータシステム1200は、CPU1201、ROM1202、RAM1203、キーボード(KB)1209のキーボードコントローラ(KBC)1205、表示部としてのCRTディスプレイ(CRT)1210のCRTコントローラ(CRTC)1206、ハードディスク(HD)1211及びフレキシブルディスク(FD)1212のディスクコントローラ(DKC)1207、並びに、ネットワーク1220との接続のためのネットワークインタフェースカード(NIC)1208が、システムバス1204を介して互いに通信可能に接続された構成としている。
CPU1201は、ROM1202或いはHD1211等から情報を読み出すソフトウェアを実行することで、システムバス1204に接続された各構成部を統括的に制御し、後述する図4及び図5に示す処理等を実行する。
RAM1203は、CPU1201の主メモリ或いはワークエリア等として機能する。KBC1205は、KB1209や図示していないポインティングデバイス等からの指示入力を制御する。CRTC1206は、CRT1210の表示を制御する。DKC1207は、ブートプログラム、種々のアプリケーション、編集ファイル、ユーザファイル及びネットワーク管理プログラムへのアクセスを制御する。NIC1208は、Webサーバ11、APサーバ12、DBサーバ13及び各サーバ間を接続する通信回線と本性能監視装置10間のデータの送受信を制御する。
図3は、性能監視装置10(蓄積サーバ101及び分析サーバ102)の機能構成を示すブロック図である。
性能監視装置10は、監視データ取得部1001、監視データ記憶部1002、異常検出部1003、相関関係抽出部1004、相関関係記憶部1005、障害検知/予測部1006及び報知部1007により構成される。監視データ取得部1001は、例えばCPU1201、ROM1202内のプログラム及びNIC1208により構成され、異常検出部1003、相関関係抽出部1004及び障害検知/予測部1006は、例えばCPU1201及びROM1202内のプログラムにより構成され、監視データ記憶部1001及び相関関係記憶部1004は、例えばRAM1203やHD1211の記録媒体により構成され、報知部1007は、例えばCPU1201、CRTC1206及びCRT1210によって構成される。
監視データ取得部1001は、Webサーバ11、APサーバ12及びDBサーバ13からリソース使用状況データ及びログデータ、上記サーバ間を接続する通信回線からトランザクションデータ等を取得する。図示していないが、APサーバ12やDBサーバ13のログデータは、APサーバ12やDBサーバ13内に保存されていたり、或いは別途設けられるログ保存用サーバに保存されていたりするが、監視データ取得部1001は、通信回線を介してftpなどによりこのログデータを取得する。なお、APサーバ12やDBサーバ13がログデータを送信する機能を設けていれば、監視データ取得部1001はログデータを受動的に取得するという方法をとっても良い。監視データ記憶部1002は、監視データ取得部1001によってこれまで取得された監視データを蓄積する。
異常検出部1003は、監視データ記憶部1002から監視データを読み込み、読み込んだ監視データに基づいて情報処理システムの異常を検出する。相関関係抽出部1004は、監視データ記憶部1002から2種類の監視データを読み込み、その相関関係を求める。この相関関係の詳細については後述するが、相関関係抽出部1004では、情報処理システムが正常に稼働しているときの相関関係や、情報処理システムに異常が発生したときの相関関係が求められる。なお、1組の監視データに基づいて作成される相関関係は、正常時も異常時も複数あって良い。相関関係記憶部1005は、相関関係抽出部1004によって求められた相関関係をそれぞれにIDを付与して記憶する。
障害検知/予測部1006は、情報処理システムに現在発生している障害の検知、又は、情報処理システムに将来発生する可能性のある障害の予測を行う。即ち、障害検知/予測部1006は、情報処理システムが正常に稼働しているときの上記2種類の監視データの相関関係と、監視データ記憶部1002に蓄積される最新の上記2種類の監視データとを比較することにより、情報処理システムに現在発生している障害を検知したり、情報処理システムに異常が発生したときの上記2種類の監視データの相関関係と、最近得られた上記2種類の監視データの相関関係との類似性から情報処理システムに将来発生する可能性のある障害を予測する。
報知部1007は、障害検知/予測部1006により障害発生が検知された場合、又は、障害発生が予測された場合にそれらの内容を報知する。本実施形態の報知方法としては、報知部1007が画面表示により検知内容又は予測内容をオペレータに報知するが、他の実施形態として、電子メール等による報知方法でもよい。
尚、本実施形態においては、監視データ取得部1001及び監視データ記憶部1002が蓄積サーバ101内の構成、異常検出部1003、相関関係抽出部1004、相関関係記憶部1005、障害検知/予測部1006及び報知部1007が分析サーバ102内の構成であることを想定しているが、他の実施形態として、性能監視装置10の構成を蓄積サーバ101及び分析サーバ102の二つのサーバに分けることなく、一つのサーバ内に集約した構成としてもよい。
次に、性能監視装置10の動作について図4及び図5のフローチャートを用いて詳細に説明する。本発明を適用した第一の実施形態における性能監視システムでは、大きく分けて次の5つの処理がある。(1)監視データ取得部1001が取得した監視データを監視データ記憶部1002に記憶させる処理。(2)監視データ記憶部1002から読み込んだデータに基づいて相関関係を求める(生成する)処理。(3)相関関係抽出部1004が求めた相関関係を相関関係記憶部1005に記憶させる処理。この(1)〜(3)の処理は監視目的に応じてバッチ処理或いはリアルタイム処理で行われる。更に、(4)監視データと相関関係或いは相関関係どうしを比較する処理。そして(5)監視データと相関関係から異常検知する処理などがある。図4は、監視データ取得部1001、異常検出部1003及び相関関係抽出部1004の動作を示すフローチャートであり、図5は、障害検知/予測部1006の動作を示すフローチャートである。
なお、監視データ記憶部1002に(1)で蓄積された各種データは、その後の各処理で用いられた後も原則として消去せずに残しておくことが好ましい。例えば後述する第二の実施形態で説明する通り、システムの構成が変更されたときなどに、過去データとの比較を行う上で、多くのデータが使用できるという利点がある。
先ず、図4を参照しながら、監視データ取得部1001、異常検出部1003及び相関関係抽出部1004の動作について説明する。図4では、上述した(1)や(3)の記憶させる処理と他の処理とを並行して説明するが、必ずしも並行して行う必要はない。まず最初に監視データ取得部1001は、Webサーバ11、APサーバ12、DBサーバ13及び各サーバを接続する通信回線の監視データを取得し、取得した監視データを監視データ記憶部1002に蓄積させていく(ステップS401、S402)。
続いて、異常検出部1003は、監視データ記憶部1002から2種類の監視データを読み込んだ後、それらの2種類の監視データに対応する正常時の相関関係を相関関係記憶部1005から読み込み、監視データ記憶部1002から読み込んだ当該2種類の監視データと、相関関係記憶部1005から読み込んだ正常時の相関関係とを比較することにより情報処理システムの異常を検出する(ステップS403)。これは監視目的に応じて任意の周期で監視データと相関関係を読み込んで比較処理する。なお、ここで異常検出部1003によって監視データ記憶部1002から読み込まれる2種類の監視データは、監視データ取得部1001によって同時に取得されたデータであることが前提である。また、ここで異常検出部1003によって用いられる正常時の相関関係とは、当該2種類の監視データに関して一つ前のステップS406の処理で求められた正常時の相関関係である。
情報処理システムの異常が検出された場合、相関関係抽出部1004は、監視データ記憶部1002から読み込んだ過去の当該2種類の監視データから当該2種類の監視データの相関関係を算出する(ステップS403/YES、S404)。続いて、相関関係抽出部1004は、算出した相関関係を異常時の相関関係として相関関係記憶部1005に相関関係IDと共に記憶させる(ステップS407)。このとき、相関関係記憶部1005内においては、当該2種類の監視データについて、一つ前のステップS404の処理において求められた異常時の相関関係が今回のステップS404の処理において求められた異常時の相関関係に更新される。従って、本実施形態では、情報処理システムの稼働に追従して常に新しい異常時の相関関係を、後述のステップS505におけるエラー予測処理に用いることが可能となる。
一方、ステップS403において異常が検出されなかった場合、相関関係抽出部1004は、当該2種類の監視データの取得開始から所定時間が経過したか否かを判断する(ステップS403/NO、S405)。
当該2種類の監視データの取得開始から所定時間が経過している場合、相関関係抽出部1004は、取得開始から所定時間が経過するまでに監視データ記憶部1002から読み込んだ当該2種類の監視データから当該2種類の監視データの相関関係を算出し、正常時の相関関係として相関関係記憶部1005に相関関係IDと共に記憶させる(ステップS405/YES、ステップS406、S407)。このとき、相関関係記憶部1005内においては、当該2種類の監視データに関し、一つ前のステップS406の処理において求められた正常時の相関関係が今回のステップS406の処理において求められた正常時の相関関係に更新される。従って、本実施形態では、情報処理システムの稼働に追従して常に新しい正常時の相関関係を、後述のステップS503におけるエラー検知処理に用いることが可能となる。
ステップS405において、当該監視データの取得開始から所定時間が経過していない場合には、ステップS401の監視データの取得処理に戻る。以上のように、本実施形態では監視対象のシステムに特に異常がない限り常に正常時としての相関関係が蓄積されていき、異常が発生したときには、異常時の相関関係が新たに生成され蓄積されていく。
次に、図5を参照しながら、障害検知/予測部1006の動作について説明する。障害検知/予測部1006は、監視データ記憶部1002から2種類の監視データを読み込む(ステップS501)。なお、ここで読み込まれる2種類の監視データは、監視データ取得部1001によって同時に取得されたデータであり、監視データ記憶部1002において記憶される当該2種類の監視データのうち最新のデータであることが前提である。そして、監視データ記憶部1002から監視データを読み込む周期は監視目的に応じて任意に設定できるが、障害検知という目的からすればできるだけリアルタイム性が求められる。従って監視データ取得部1001がデータを取得して監視データ記憶部1002に記憶されたらすぐに読み込むよう設定することが好ましい。
続いて、障害検知/予測部1006は、当該2種類の監視データと、相関関係記憶部1005に記憶される当該2種類の監視データに対応する正常時の相関関係とを比較し、その比較結果に基づいて情報処理システムにエラー(異常)が発生したか否かを判断する(ステップS502、S503)。
ステップS503において、障害検知/予測部1006が情報処理システムにエラーが発生したと判断した場合、報知部1007はその内容をオペレータに対して報知する(ステップS503/YES、S506)。
一方、障害検知/予測部1006は、ステップS503において情報処理システムにエラーが発生したと判断しなかった場合には、所定回数前のステップS501の処理から今回のステップS501の処理までに得られた複数の当該2種類の監視データに基づいて、当該2種類の監視データの相関関係を求め、この相関関係と相関関係記憶部1005に蓄積されている当該2種類の監視データの過去の相関関係とを用いてエラーが発生する可能性があるか否かを予測をする(ステップS503/NO、S504、S505)。
ステップS505において、障害検知/予測部1006が情報処理システムに将来エラーが発生する可能性があると判断した場合、報知部1007はその内容をオペレータに対して報知する(ステップS505/YES、S507)。
一方、障害検知/予測部1006が上記2つの相関関係が類似していないと判断した場合、処理はステップS501の監視データの読み込みに戻る(ステップS505/NO、S501)。
ここで、ステップS503におけるエラー検知処理について図6を用いて具体的に説明する。 図6では、上記2種類の監視データとしてトランザクションデータとリソース使用状況データとが用いられ、トランザクションデータにより示されるスループット、リソース使用状況データにより示されるディスクI/O量から算出された相関関係601を示している。なお、図6中の「×」印は、上記2種類の監視データで示されるスループット、ディスクI/O量の関係からプロットされる点であり、上記2種類の監視データ毎に対応する点として、12個の点がプロットされている。また、ハッチングされた範囲領域604は、正常時の相関関係601を基準としたときに正常とみなす範囲であり、相関関係に応じて予め定められている。なお、図6においては、相関関係601と平行して範囲領域604が設定されているが、必ずしも相関関係を中心とした一定幅で領域を設定する必要はない。
相関関係抽出部1004は、上記12個の点の近似式(図6中の直線に相当)を求める。ここで求められる近似式がスループットとディスクI/O量との相関関係601である。この相関関係601がステップS406において求められる正常時の相関関係であるとすると、ステップS501において読み込まれる2種類の監視データに対応して(当該2種類の監視データにより示されるスループット、ディスクI/O量に対応して)プロットされる点が図6中の602である場合、即ち、相関関係601を基準とする所定幅の範囲領域604外であって、当該範囲領域604の上方にステップS501にて読み込まれる2種類の監視データがプロットされるような場合、障害検知/予測部1006は、正常時の相関関係601を基準にして、現在、スループットに対してディスクI/O量が多過ぎると判断し、ディスクI/O量の多さを原因とした情報処理システムのエラーを検知することができる。報知部1007は、画面表示によりオペレータに対してシステムのエラーとその原因(スループットに対してディスクI/O量が多過ぎる)とを報知する。
また、ステップS501において読み込まれた2種類の監視データに対応して(当該2種類の監視データにより示されるスループット、ディスクI/O量に対応して)プロットされる点が図6中の603である場合、即ち、相関関係601を基準とした所定幅の範囲領域604外であって、当該範囲領域604の下方にステップS501にて読み込まれる2種類の監視データがプロットされるような場合、障害検知/予測部1006は、正常時の相関関係601を基準にして、現在、ディスクI/O量に対してスループットが高過ぎると判断し、スループットの高さを原因とした情報処理システムのエラーを検知することができる。報知部1007は、画面表示によりオペレータに対してシステムのエラーとその原因(ディスクI/O量に対してスループットが高過ぎる)とを報知する。
なお、上述した実施形態では、どのような処理に対するスループットであるかの内容は限定していない。したがって、特定の処理に関するスループットであってもよいし、或いは、いくつかの処理を足し合わせたスループットでも良い。例えば処理a、処理b、処理c毎にスループットとディスクのI/O量との相関関係を求めておき、これら3つの相関関係の足し合わせた量を、当該スループットにおける基準のディスクI/O量として扱うようにしても良い。
また、本実施形態の性能監視システムは、複数のサーバを監視していることを特徴としているので、オペレータに対しては、どのサーバの挙動に基づいてエラーを検知したかを含めてシステムのエラーとその原因を報知するようにする。
本実施形態では、監視データ取得部1001によって取得される監視データに基づいて他にも様々なエラー検知を行うことが可能である。例えば、或るサーバへのトランザクションを監視して得られるトランザクションデータと、当該サーバのリソース使用状況データとを用い、トランザクションデータにより示されるスループット、リソース使用状況データにより示されるCPU使用率に基づいて、当該サーバのスループットが高くなっているにも拘わらずCPU使用率が低い、又は、当該サーバのスループットが低いにも拘わらずCPU使用率が高いことを情報処理システムのエラー原因として判断することができる。
また、異なる2つのサーバのリソース使用状況データに基づいて次のようなエラー原因を把握することが可能となる。例えば、正常な稼働状態では、Webサーバ11とAPサーバ12とのCPU使用率はN:Mであるはずなのに、Webサーバ11から得られるリソース使用状況データにより示されるCPU使用率、APサーバ12から得られるリソース使用状況データにより示されるCPU使用率に基づいて、Webサーバ11の使用率のみが高い場合には、情報処理システムのエラー原因がAPサーバ12における障害発生であることが判断できる。
また、或るサーバのリソース使用状況データとログデータとに基づいて次のようなエラー原因を把握することが可能となる。例えば、リソース使用状況データにより示されるCPU使用率、ログデータから判断される処理1の発生頻度に基づいて、当該サーバのCPU利用率が異常に高い値をとる時間帯で通常より処理1の発生頻度が高くなっている場合には、情報処理システムのエラー原因が、その時間帯において当該サーバ内の処理1の発生頻度が高くなっていることであることが判断できる。
さらに、異なる2つのサーバのログデータに基づいて次のようなエラー原因を把握することが可能となる。例えば、Webサーバ11のログデータから判断されるWebサーバ11のスループット、APサーバ12のログデータから判断されるAPサーバ12のスループットに基づいて、Webサーバ11のスループットが増加傾向であるのに拘わらずAPサーバ12のスループットが増加しない場合には、APサーバ12に問題があるため、APサーバ12を利用する処理が滞っており、Webサーバ11のみを利用する処理の比率が増えているということを検出できる。
次に、図5のステップS505のエラー予測処理を図7を用いて具体的に説明する。
図7は、異なるサーバ(ここでは、Webサーバ11とAPサーバ12)のログデータを用い、それらのログデータにより判断されるWebサーバ11の処理1のスループット、APサーバ12の処理2のスループットに基づいて算出された相関関係を示している。範囲領域701は、Webサーバ11の処理1の発生数に対してAPサーバ12の処理2の発生数が正常時に求められたときの正常とみなされる範囲を示している。
図7においては、相関関係702として、相関関係1005に蓄積されている過去の相関関係として、702(a)と702(b)がある。そして、所定回数前のステップS501の処理から今回のステップS501の処理までに得られたWebサーバ11とAPサーバ12のログデータに基づいて、相関関係抽出部1004が求めた相関関係702(c)も示されている。時系列的に見たときに、最初に求めた相関関係が702(a)、次が702(b)、最新のデータが702(c)であるとする。更に、相関関係703(d)は監視対象システムの今後予想される相関関係を示している。なお、図をわかりやすくするために、図7においては範囲領域701に対応する相関関係の線は表示していない。
ステップ504では、監視対象システムの過去の動向と現在の状況を相関関係702(a)〜702(c)に基づいて、つまり、ある監視対象のシステムを定期的に監視したときのデータを用いてエラーを予測する。
障害検知/予測部1006は、ステップS505において、相関関係702の時系列に伴う推移を判定し、相関関係が正常時の範囲領域701からはずれそうな場合、情報処理システムに将来異常が発生する可能性があると予測する。この時、必要に応じて、将来の相関関係702(d)を生成する。尚、本実施例では、最新の監視データから作成された相関関係が、正常時の相関関係の範囲領域701から外れそうであることを判断の基準としているが、例えば、最新の監視データから作成された相関関係が異常時の相関関係に類似した相関関係になりつつあることを判断基準としても良いし、或いは、領域範囲に入るか否かで判断するのではなく、正常時・異常時の相関関係の傾きなどで判断しても良い。
障害検知/予測部1006による上記の予測内容は、報知部1007によってオペレータに対して報知される。
また、本実施形態においては、本情報処理システムに類似した構成の情報処理システムを新規に設置する場合、本情報処理システムの相関関係記憶部1005で記憶された正常時及び異常時の相関関係を、新規の情報処理システム内の相関関係記憶部に記憶させることにより、新規の情報処理システムにおいて適切なエラー検知処理、エラー予測処理を同様に行うこともできる。ここで性能監視装置10は、図1に示す情報処理システムに限られず様々な構成の情報処理システムを監視対象とすることができるため、流用できる相関関係は上述した例に限られないことは勿論である。
以上のように、本実施形態によれば、障害検知又は予測時に用いた2種類の監視データの種類によって、当該障害の原因まで追求することが可能となる。尚、本実施形態では、2種類の監視データの相関関係を用いているが、本発明に適用可能な相関関係は2種類の監視データから算出されるものに限られず、更に多種類の監視データの相関関係であってもよい。
また、説明の便宜上、異常検出部1003と障害検知/予測部1006とは別の構成で行うよう説明したが、いずれも、監視データ記憶部1002から読み込んだ監視データと、相関関係記憶部1005から読み込んだ相関関係とを比較するという処理については、共通のソフトウェア/ハードウェアを用いてもよい。
次に、本実施形態の他の処理の例について説明する。Webサーバ11における処理1の発生回数とAPサーバ12における処理2の発生回数間の基準比率を予め設定しておき、現在の当該2種類の監視データ間の比率が基準比率から離れていく傾向にある場合にエラーを予測することも可能である。例えば基準比率が1:1で設定されているにもかかわらず、時間経過と共にその比率が1:1.1、1:1.2、1:1.3、・・・などと基準から離れていく傾向が見られた場合に検知して、オペレータに報知する。
さらに、2種類の監視データから得られる1つの相関関係情報に基づいても異常検知をすることができる。図8は、スループットデータに対する応答時間との相関関係を示す例である。この図においては、スループットが高くなるにつれて応答時間が長くなっており、スループットがある量を超えると急激に応答時間が悪化することがわかる。応答時間が悪化する点をエラーとして検知することにより、レスポンス悪化に対してオペレータは早期に対策をとることが可能となる。具体的には、このような相関関係を相関関係記憶部1005に記憶しておき、性能監視装置10は監視データがこのような相関関係の極点に差し掛かったことを検知した場合にエラーと判断してオペレータに報知する。
このように、本実施形態では相関関係の時間経過による変化を捉え、相関関係の傾きの変化、相関関係のX軸やY軸方向へのシフトなどが許容されていない場合には、これらの状況を元にエラーを報知するものである。但しこれに限るものではなく、ある時刻断面で正常時の相関関係と比較してエラー予測しても良い。
なお、上述した実施形態では、性能監視装置10によって取得される監視データとしてリソース使用状況データ、トランザクションデータ及びログデータを例として挙げたが、本発明に適用可能な監視データはこれらに限られず、Webサーバ11、APサーバ12及びDBサーバ13の稼働状況を特定可能なデータは全て性能監視装置10の採取対象とすることができ、同様の動作によるエラー検知処理、エラー予測処理が可能である。さらに、上記実施形態では、性能監視装置10の監視対象となる情報処理システムの構成を、図1に示すWebサーバ11、APサーバ12及びDBサーバ13から成る情報処理システムとしているが、他の構成の情報処理システムも本発明の性能監視装置の監視対象となり得ることは勿論である。
上述した実施形態では、1つのWebサーバ11と1つのAPサーバ12と1つのDBサーバ13とで構成されたシステムを1つの性能監視装置10で監視するという例で説明したが、これらは必ずしも1つずつである必要はない。性能監視装置10は、ネットワーク上に接続されたサーバや通信回線を監視できるものであるため、1つの性能監視装置10で2組以上のWebサーバ11とAPサーバ12とDBサーバ13とで構成されたシステムを監視することも可能である。
また、Webサーバ11とAPサーバ12とDBサーバ13の数も1:1:1である必要はなく、M:N:Lというようにそれぞれが複数備えられたシステムであっても良い。1例を挙げると、図9のように、6台のWebサーバ11がそれぞれ3台ずつ2台のAPサーバ12と接続され、この2台のAPサーバ12が1台のDBサーバ13と接続されている。このとき性能監視装置10は個々のサーバや通信回線を監視し、その挙動からきめ細かにエラー検知をすることができるようになる。また、必要に応じて1台のAPサーバ12に接続されている3台のWebサーバ11との通信については、取りまとめて1つのWebサーバ11とみなして監視することもできる。この場合、システム構成情報を性能監視装置10に格納しておき、任意に監視対象を設定できるようにすることが好ましい。
次に、本発明を適用した好適な第二の実施形態を説明する。上述したように、監視対象となるシステムについて、システム構成情報を性能監視装置10に格納しておき、任意に監視対象を設定できるようにすることが好ましい。そこで第二の実施形態では、第一の実施形態の機能構成に加え、監視対象となるシステムのシステム構成情報を更に管理することで、より多様な監視と障害予測を行えるように工夫している。
図10は、第二の実施形態に係る性能監視システムの構成を概略的に示した図である。以下、図面を参照しながら詳細に説明するが、第一の実施形態と同一の機能については説明を省略する。図10は、図9で示した6台のWebサーバ11と2台のAPサーバ12と1台のDBサーバ13とから構成されたシステムの性能監視を行うための構成であり、第一の実施形態と同様に、蓄積サーバ101と分析サーバ102から構成される性能監視装置10が通信回線から取得できる情報を収集蓄積し、分析する。第二の実施形態では更に、構成情報管理装置20が備わっており、性能監視装置10に接続されている。なお、以下の説明では構成情報管理装置20は性能監視装置10と別の装置として構成した例を説明するが、これは1台のコンピュータで構成しても良い。
構成情報管理装置20は、監視対象となるシステム全体の構成にかかわる情報を格納しておくものである。具体的には、各機能のサーバの数やハードウェア属性、ネットワーク構成、ネットワーク属性、ソフトウェアやファームウェアなど、情報処理装置自体の情報と各情報処理装置間の関連性を示す情報をデータベースに格納している。なお、以下では説明を簡単にするために、ハードウェアに関する構成情報を扱う例とする。例えば、図9で示した全体構成について、IDを付与して格納しておく。新たにサーバが追加されたなど監視対象のシステムの構成が変更された場合には、新たな構成情報として別途IDが付与されて構成情報管理装置20に格納される。なお、構成情報管理装置20は、単体コンピュータで構成するには、図2に示したようなコンピュータの基本的な機能を有することになる。
図11は第二の実施形態に用いる性能監視装置10と構成情報管理装置20の構成を詳細に説明する図である。性能監視装置10は、第一の実施形態で説明した機能に加え、システム構成全体の中で、監視対象とする範囲を指定するための監視対象指定部1008と、指定された監視対象範囲を記憶しておくための監視対象範囲データを監視データ記憶部1002に備えている。
後述するように、第二の実施形態においては、複数のハードウェアで構成されたシステムの全体構成が構成情報管理装置20に構成情報IDが付与されて記憶される。これに対して、監視対象は記憶されているシステムの全体構成の内任意の範囲を指定することができるようになっている。例えば図9において6台のWebサーバ11と2台のAPサーバ12と1台のDBサーバ13の合計9台のコンピュータで構成されているシステムについて、システム全体を監視対象とすることもでき、或はその内の何台かだけを監視対象とすることもできる。そのために監視対象指定部1008は監視対象を特定するための情報をオペレータから受付ける機能を持っている。具体的には、オペレータのキーボードやマウス操作等で範囲指定の情報を受け取る。
監視対象指定部1008で受け取った範囲指定の情報は、監視データ記憶部1002に監視対象範囲データとして監視対象IDが付与されて記憶される。監視データ所得部1001は、Webサーバ11、APサーバ12及びDBサーバ13からリソース使用状況データ及びログデータ、上記サーバ間を接続する通信回線からトランザクションデータ等を取得する際に、監視対象範囲データを参照し、指定されている範囲の情報だけを取得する。なお、監視データ所得部1001が能動的に監視データを取得する場合には、指定されているサーバ等にアクセスしてログデータ等を取得し、受動的に監視データを取得する場合には、受信したログデータ等の内、監視対象範囲として指定されているサーバ等のデータだけを選別(フィルタリング)して取得する。
構成情報管理装置20は、構成情報を入力して登録するための構成情報登録部2001と、入力された構成情報を記憶するための構成情報記憶部2002、そして性能監視装置10からの要求に応じて構成情報記憶部2002に記憶された構成情報を抽出し、性能監視装置10に送信するための構成情報抽出部2003から構成される。
構成情報登録部2001は、キーボードやマウスなどでありオペレータが入力する情報を受け付ける機能である。例えば図9であればオペレータは、監視対象としたいシステムの全体構成として、6台のWebサーバと2台のAPサーバと1台のDBサーバなど、ハードウェアの数量に関する情報と、各ハードウェアがそれぞれどのような形態で接続されているか、接続するためのネットワークはどれほどの転送レートを持ったものであるか、各ハードウェア・ソフトウェアのスペックはどのようなものであるか等を入力する。各ハードウェア・ソフトウェアのスペックとしては、単に購入時のスペックだけではなく、ファームウェアやソフトウェアのバージョンなども登録しておくと良い。なお、オペレータからの入力だけでなく、ネットワークを介してコンピュータが取得できるシステムの構成情報は、自動的に取得しても良い。
構成情報記憶部2002は、構成情報登録部2001で受け付けた情報を監視対象システム毎に格納するものである。構成情報には、構成情報ID以外にも構成情報を受け付けた記憶日時情報等の属性情報も付加されて記憶される。
構成情報抽出部2003は、構成情報記憶部2002に格納されている構成情報を、性能監視装置10やオペレータからの指示に基づいて抽出する機能である。後述するように、第二の実施形態では、システムの構成に応じて性能を監視したり異常を検出するため、監視対象のシステムと正常時のシステムの挙動とから相関関係を求める必要がある。そこで、性能監視装置10は必要に応じて構成情報を構成情報記憶部2002から読み出して相関関係のデータ等を作成する。
ここで、相関関係記憶部1005内の相関関係は、相関関係を求めた環境毎に記憶される。例えばサーバが10台の時と、11台の時とではシステムの挙動は異なってくる。従ってサーバが10台の時の相関関係と11台になったときの相関関係は別に求めてそれぞれに相関関係IDを付与して記憶する。そして、当該相関関係を求めた際の監視対象ID及び/又は構成情報IDとをリンクさせておく。リンクはリレーショナルデータベース等で管理することで容易に設定できる。このような、IDで関連付けられた各情報は別途履歴情報として格納しておいても良い。当然ながら、1つの監視対象に対して複数の相関関係が生成されるので、相関関係IDと監視対象IDとは複数対複数の関係でリンクが形成される。構成情報IDも同様である。
次に、図12を参照しながら性能監視装置10と構成情報管理装置20の動作を説明する。第二の実施形態では、図4を用いて説明した第一の実施形態による監視と相関関係抽出の処理自体は同じであるが、この監視処理に先立って監視対象の範囲を特定する処理が行われる。まず最初に、構成情報登録部2001は、オペレータ又はコンピュータにより入力されるシステムの全体構成に拘る情報を受信して構成情報記憶部2002に転送する(ステップS1201)。システムの全体構成に拘る情報を受信した構成情報記憶部2002は、構成情報にIDを付与して順次情報を記憶していく。この時、上述のように受信した日時情報も一緒に記憶される(ステップS1202)。
続いて、構成情報記憶部2002に記憶されたシステムの全体構造の内、監視対象としたい範囲に関する情報をオペレータが入力し、入力された情報を監視対象指定部1008が受付ける(ステップS1203)。範囲指定方法の一例としては、対象となる複数のサーバのIPアドレスなど一意にハードウェアを特定することが挙げられる。そして受付けられた情報に基づいて、監視データ取得部1001は構成情報抽出部2003に抽出指示し、構成情報抽出部2003が構成情報記憶部2002からシステムに関する情報を抽出して監視データ取得部1001に返送する(ステップS1204)。
例えば、図9において、DBサーバ以外の8台のサーバを監視対象とするようオペレータからの指示を監視対象指定部1008が受けると、監視データ取得部1001はその情報を構成情報抽出部2003に抽出条件として送信し、構成情報抽出部2003は8台のIPアドレス等を用いてサーバを特定する。特定された対象となる複数のサーバのIPアドレスは監視データ取得部1001に送信され、監視データ取得部1001は監視データ記憶部1002に監視対象範囲データとして監視対象IDを付与して記憶する(S1205)。
監視データ取得部1001は監視処理を行う際に、監視データ記憶部1002に記憶された監視対象範囲データで特定されるハードウェア群に関する監視データを取得する。以下は図4や図5を用いて説明した第一の実施形態と同様に処理が行われる。この時、監視対象IDと対応する相関関係IDとに基づいて比較に用いられる相関関係が抽出され各処理が行われる。なお、図12のステップS1201からステップS1205に於ける処理はシステムの構成が変更された度、または監視対象範囲が変更される度に行われる。
以上説明したように、本発明を適用した第二の実施形態では、監視対象とするハードウェア構成とソフトウェア構成を特定する情報を更に備えることにより、システム全体の中の特定部位だけの監視を行たいなど、目的に応じた監視対象の範囲を監視することが可能となる。なお、上述した実施形態では1つのシステムについて性能監視装置10と構成情報管理装置20がひとつずつ備わっている例を示したが、本発明はこれにとどまらず例えば、ASP(アプリケーションサービスプロバイダ)サービス等の形態にも応用できる。つまり、監視対象となるシステムが複数存在し、それら個々のシステム内の特定範囲だけを監視対象とすることができる。その場合、システム毎に構成情報を記憶し、システム毎に監視対象範囲データを持てば良い。
また、別の形態として、1つのシステムの中で、目的に応じて複数の監視対象範囲を設定しても良い。例えばサーバA〜サーバJまでの10台のサーバで構成されたシステム全体の内、1つ目の監視対象範囲がサーバA〜サーバEの5台、2つ目の監視対象範囲がサーバF〜サーバHの3台という範囲を指定しても良い。更には、1つ目の監視対象範囲がサーバA〜サーバGの7台、2つ目の監視対象範囲がサーバC〜サーバJの8台など、1つのサーバが複数の監視対象として指定されても良い。いずれの場合も、監視データ取得部1001は監視処理を行う際に、監視データ記憶部1002に記憶された監視対象範囲データを参照して監視対象のサーバを特定し、必要な監視データを取得するという処理が行われる。
次に、本発明を適用した好適な第三の実施形態を説明する。上述した第一の実施形態と第二の実施形態では、何れもリソース使用状況データ、ログデータ、トランザクションデータなど、コンピュータの稼働状況を収集していた。これに対して第三の実施形態では、更に、コンピュータ稼働状況以外の情報をも収集して相関関係を求めるようにしている。
コンピュータシステムは、様々な理由により、ハードウェア構成やソフトウェア構成が変更される。これらの変更によりコンピュータシステムの性能が変化する。また、コンピュータシステムを取りまく環境の変化によってもコンピュータシステムの性能は変化する。本実施形態においては、これらの変化を捉えて監視データのひとつとして扱うことを特徴としている。これを特に「イベントデータ」と称することとする。「イベントデータ」は、稼働状況を含めて監視したい対象システムの内外で発生する事象に関するデータである。例えば、内部で発生する事象としては、エラーの発生、コンピュータに組み込まれるCPUの数量が増加したなどのシステムの変更がある。また外部的な事象としては、温度の変化や地震や衝撃による揺れの発生などがある。そしてイベントの内容によってはコンピュータの演算性能が低下してスループットが低下するなどの変化が発生する。そこで、例えば、監視データ取得部1001がイベントデータをキャッチしたときに、イベントに応じて分析や異常検知などの処理を行うようにする。
図13は、第三の実施形態に係る性能監視システムの構成を概略的に示した図である。第三の実施形態でも基本的な情報処理は第一の実施形態及び第二の実施形態と同様であるが、本実施形態の特徴をわかりやすく説明するための構成のみを表示している。従って、同じ処理については説明を省略する。第三の実施形態の特徴のひとつとして入力データソースが「Webサーバ」「APサーバ」「DBサーバ」等の監視対象装置に加え、「運用管理ツール」「ユーザ入力」が含まれている点がある。そして監視データ記憶部1002に記憶されているデータについて、監視データに関するもの1002と、イベントデータに関するもの1002'とを分けて示している。
イベントデータは、監視対象システムから発せられる信号をそのまま利用したり、図示しない運用管理ツールから受信したり、或いは人間により入力されるデータがある。なお、運用管理ツールはシステムのハードウェアやソフトウェアを管理するものであって、それぞれのハードウェアがどのような構成を持っており、どのようなバージョンのソフトウェアがインストールされているかどうか等の情報を管理している。
さらに、イベントデータは後述するように、監視対象システムから受信したログデータなどを元に生成されるものもある。いずれにしても、イベントデータもそれぞれイベントデータIDが付与されて監視データ記憶部1002の所定の場所に格納される。
次に、第三の実施形態におけるデータの流れを説明する。監視データ取得部1001を介して受信した各データは、それぞれデータの種類に応じて、記憶部に格納される。まず監視対象システムの構成に関するデータは、第二の実施形態で説明したように構成情報管理装置20の構成情報記憶部2002に記憶される。監視対象システムから受信したログデータやスループットなどの監視データは、監視データ記憶部1002に格納され、同様に監視データ取得部1001を介して受信したイベントデータも監視データ記憶部1002'に格納される。
監視データ記憶部1002に格納された監視データからは、何らかのイベントに関する情報を引き出すこともできる。例えば監視対象のサーバがダウンすると、監視データが受信されなくなる。つまり、定期的に受信できていた監視データが監視データ記憶部1002に記憶されなくなった時点を感知できれば監視対象のサーバがダウンしたというエラー(障害)に関するイベントを抽出することができる。また、CPU使用率が10分程度にわたって90%を越えているような場合は過負荷とみなすことができるので、システムの稼働状況に関するイベントを抽出することができる。
そこで、第三の実施形態では、イベントデータ生成部1009を設けて、監視データをもとにイベントデータを生成している。イベントデータ生成部1009は、監視データ記憶部1002に格納された監視データについて、図示しないルール記憶部に記憶されているイベントデータ生成ルールに基づいてイベントデータを生成する。イベントデータ生成ルールには、どのようなタイミングで、どのデータを用いて、どのようなイベントデータを生成すかどうかが定義されている。上述したエラーに関するイベントの例では、「常に」「監視データ」を抽出して「監視データが一定時間受信できなければ"サーバダウン"」というイベントデータ生成ルールに従ってルール生成処理が行われる。また、稼働状況に関するイベントの例では、「常に」「CPU使用率」を抽出して「90%異常が10分続いたら"過負荷"」というイベントデータ生成ルールに従ってルール生成処理が行われる。そして、イベントデータIDを付与した上で監視データ記憶部1002'に格納する。
このように、第三の実施形態では、監視対象のシステムに発生するあらゆる事象について、監視対象システムから発せられる信号、図示しない運用管理ツールから受信した信号、人間により入力される情報、或いはイベントデータ生成部1009で生成されたデータを、イベントデータとして監視データ記憶部1002に格納する。
相関関係抽出部1004は、監視データ記憶部1002及び構成情報記憶部2002に記憶された各情報を用いて相関関係を求め、相関関係1005に記憶しておく。
次に、イベントデータを用いた処理について説明する。第一の実施形態や第二の実施形態では、(2)監視データ記憶部1002から読み込んだデータに基づいて相関関係を求める(生成する)処理、(4)監視データと相関関係或いは相関関係どうしを比較する処理、(5)監視データと1つの相関関係から異常検知する処理を行ったが、本実施形態では更に(6)監視データと、イベントデータをきっかけとして生成した相関関係とを比較する。
監視データと、イベントデータをきっかけとして生成した相関関係とを比較する処理(6)の例として、ここでは上述した監視データとサーバダウンというイベントデータとの相関関係を用いた一連の分析処理を説明する。監視データとしては、「ディスクI/O」と「サーバのスループット」を監視しているものとする。
まず、監視対象のシステムについて「ディスクI/O」と「サーバのスループット」を継続的に測定し、測定されたデータは監視データ取得部1001で取得され、監視データ記憶部1002に「ディスクI/O」と「サーバのスループット」として逐次記憶される。イベントデータ生成部1009は常に監視データを抽出し続け、もし監視データが一定時間受信できなければ"サーバダウン"とみなして"サーバダウン"というイベントデータを生成した上で監視データ記憶部1002'に記憶する。
次に相関関係抽出部1004は、監視データ記憶部1002に記憶されたディスク「ディスクI/O」と「サーバのスループット」と、監視データ記憶部1002'に記憶された"サーバダウン"のイベントデータに基づいて相関関係を抽出し、相関関係記憶部1005に記憶する。具体的には、監視データ記憶部1002に記憶された「ディスクI/O」と「サーバのスループット」の監視データが急増した直後に監視データが一定時間受信できなくなっていれば、「ディスクI/O」と「サーバの処理数」に基づいて図14に示したような相関関係を求めた上で、更に、「ディスクI/O」または「サーバのスループット」がある一定値を超えたときに"サーバダウン"が発生したという情報を生成する。図14では、ハッチングした領域が過去に"サーバダウン"発生した時の「ディスクI/O」と「サーバのスループット」との関係を示す部分である。
次に、障害検知/予測部1006は、監視データ記憶部1002に逐次記憶される「ディスクI/O」と「サーバのスループット」の監視データについて読み出し、そのデータが図14に示した相関関係の正常値にあるのか、それとも"サーバダウン"が発生する可能性にあるのか(障害予測)、或は"サーバダウン"が発生したのか(障害検知)を判別する。そして、障害予測または障害検知と判断した場合には、「"サーバダウン"が発生する可能性がある」「"サーバダウン"が発生した」等のメッセージを報知部1007に表示する。
なお、先に示した稼働状況に関するイベントの例では、生成された"過負荷"というイベントデータに基づいて、次のような相関関係の比較をすることができる。一般的にはスループットが上昇したときにCPUの処理が増加して負荷が高くなる。それに対して、スループットが高くなっているにもかかわらず、CPU負荷が高くなっていない状態は異常と考えられる。そこで、CPU使用率とスループットとの相関関係について、正常時の相関関係と"過負荷"というイベントが発生した時の相関関係を比較し、障害を判断する。
以上のように、第三の実施形態では、監視対象のシステムの内外に発生するあらゆる事象をイベントデータとして抽出し、抽出したイベントデータと監視データとを用いて相関関係を抽出している。なお、上記実施形態では単にイベントデータと監視データとを用いた分析処理について説明したが、第二の実施形態で説明したような構成情報まで含めたデータを用いて相関関係を求めることでより詳細な異常検知をすることも可能となる。
なお、上述した各実施形態では、予め相関関係を求めるには図示しないルール記憶部に記憶された相関関係抽出ルールに基づいて相関関係が抽出される。この相関関係抽出ルールは予めユーザによって登録されているものであるが、記憶された監視データやイベントデータを元に、どのような相関関係を抽出すればよいかを自動的に推測し、相関関係抽出ルール自体を自動生成するようにしても良い。つまり、監視データやイベントデータを蓄積しつづけておき、エラー等が発生しない状況を正常値とし、この正常値を外れた何らかの監視データがあった場合に相関関係抽出ルール生成機能が働き、それらデータから新たな相関関係ルールを生成するなどしても良い。
以上詳細に説明したとおり、本発明では、第一の実施形態および第二の実施形態のように、システムの稼動状況に関する量的な複数種類の情報から相関関係を求める方法、そして、第三の実施形態のように、システムの稼動状況に関する量的な情報とシステムに対して発生したイベント情報とから相関関係を求める。このようにして求めた相関関係は相関関係記憶部1005に記憶され、監視データはこの相関関係と比較されて障害の検知や予測が行われる。
ところで、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、プログラムコード自体及びそのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(基本システム或いはオペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本発明の第一の実施形態に係る性能監視システムの構成を概略的に示す図である。 性能監視装置内のコンピュータシステムのハードウェア構成を概略的に示す図である。 性能監視装置の機能構成を示すブロック図である。 監視データ取得部、異常検出部及び相関関係抽出部の動作を示すフローチャートである。 障害検知/予測部の動作を示すフローチャートである。 図5のステップS503におけるエラー検知処理を具体的に説明するための図である。 図5のステップS505におけるエラー予測処理を具体的に説明するための図である。 スループットデータに対する応答時間との相関関係を示す図である。 本発明を適用可能な性能監視システムの他の構成例を示す図である。 本発明の第二の実施形態に係る性能監視システムの構成を概略的に示す図である。 性能監視装置内のコンピュータシステムのハードウェア構成を概略的に示す図である。 構成情報の登録と抽出処理を示すフローチャートである。 性能監視装置内のコンピュータシステムのハードウェア構成を概略的に示す図である。 本発明の第三の実施形態における相関関係を示す図である。
符号の説明
10:性能監視装置
11:Webサーバ
12:APサーバ
13:DBサーバ
20:構成情報管理装置
101:蓄積サーバ
102:分析サーバ
1001:監視データ取得部
1002:監視データ記憶部
1003:異常検出部
1004:相関関係抽出部
1005:相関関係記憶部
1006:障害検知/予測部
1007:報知部
1008:監視対象指定部
1009:イベントデータ生成部
1200:コンピュータシステム
1201:CPU
1202:ROM
1203:RAM
1204:システムバス
1205:キーボードコントローラ(KBC)
1206:CRTコントローラ(CRTC)
1207:ディスクコントローラ(DKC)
1208:ネットワークインタフェースカード(NIC)
1209:キーボード(KB)
1210:CRTディスプレイ(CRT)
1211:ハードディスク(HD)
1212:フレキシブルディスク(FD)
1220:LAN
2001:構成情報登録部
2002:構成情報記憶部
2003:構成情報抽出部

Claims (13)

  1. 複数の情報処理装置が協調して動作する情報処理システムの性能を監視する性能監視装置であって、
    前記複数の情報処理装置の稼働状況、及び、前記複数の情報処理装置間を接続する各通信回線のデータ通信状況を監視する監視手段と、
    前記複数の情報処理装置のうちの一の情報処理装置の稼働状況に関する監視データと他の情報処理装置の稼働状況に関する監視データとの相関関係、前記複数の情報処理装置間を接続する各通信回線のうちの一の通信回線のデータ通信状況に関する監視データと他の通信回線のデータ通信状況に関する監視データとの相関関係、又は、前記複数の情報処理装置のうちの一の情報処理装置の稼働状況に関する監視データと当該情報処理装置と他の情報処理装置とを接続する通信回線のデータ通信状況に関する監視データとの相関関係に基づいて、前記情報処理システムに現在発生している障害を検知、又は、前記情報処理システムに将来障害が発生する可能性を予測する障害検知/予測手段とを有することを特徴とする性能監視装置。
  2. 前記監視手段による監視データを蓄積する監視データ蓄積手段と、
    前記監視データ蓄積手段から複数種類の監視データを読み出し、前記複数種類の監視データの相関関係を算出する相関関係算出手段とを更に有し、
    前記障害検知/予測手段は、前記相関関係算出手段により算出される前記複数種類の監視データの相関関係と、前記監視手段によって得られる現在の前記複数種類の監視データとに基づいて、前記情報処理システムに現在発生している障害を検知することを特徴とする請求項に記載の性能監視装置。
  3. 前記監視手段による監視データを蓄積する監視データ蓄積手段と、
    前記監視データ蓄積手段から前記複数種類の監視データを読み出し、前記複数種類の監視データの相関関係を算出する相関関係算出手段とを更に有し、
    前記障害検知/予測手段は、前記相関関係算出手段により算出される前記複数種類の監視データの相関関係と、前記監視手段によって現在までに得られた前記複数種類の監視データの推移とに基づいて、前記情報処理システムに将来障害が発生する可能性のあることを予測することを特徴とする請求項に記載の性能監視装置。
  4. 前記相関関係算出手段は、前記監視データ蓄積手段から読み出した前記複数種類の監視データに基づいて、前記情報処理システムの正常稼働時及び異常稼働時の少なくとも何れか一方の相関関係を算出し、前記障害検知/予測手段は、前記正常稼働時の相関関係又は前記異常稼働時の相関関係を用いて、前記情報処理システムに現在発生している障害を検知、又は、前記情報処理システムに将来障害が発生する可能性を予測することを特徴とする請求項2又は3に記載の性能監視装置。
  5. 前記障害検知/予測手段は、前記情報処理システムに現在発生している障害を検知、又は、前記情報処理システムに将来障害が発生する可能性を予測したときに用いた相関関係の種類から、前記情報処理システムに現在発生している障害の原因又は前記情報処理システムに将来発生する可能性のある障害の原因を判別することを特徴とする請求項乃至の何れか1項に記載の性能監視装置。
  6. 前記障害検知/予測手段により検知又は予測された前記情報処理システムに現在発生している発生した障害又は前記情報処理システムに将来障害が発生する可能性を報知する報知手段を更に有することを特徴とする請求項1乃至の何れか1項に記載の性能監視装置。
  7. 前記障害検知/予測手段により検知又は予測された前記情報処理システムに現在発生している障害又は前記情報処理システムに将来障害が発生する可能性と、同じく前記障害検知/予測手段によって判別された障害の原因とを報知する報知手段を更に有することを特徴とする請求項に記載の性能監視装置。
  8. 前記複数の情報処理装置が協調して動作する情報処理システムの情報処理装置及び前記複数の情報処理装置間の関連性に関する構成情報を格納する構成情報記憶手段と、前記格納された構成情報のうち前記監視手段で監視対象とする範囲を特定するための監視対象指定手段とを更に備え、
    前記監視手段は、前記監視対象指定手段で特定された範囲について監視することを特徴とする請求項1乃至の何れか1項に記載の性能監視装置。
  9. 監視対象の前記情報処理装置、情報処理装置間を接続する各通信回線、前記情報処理装置を取り巻く環境のうち、少なくとも1つに発生した事象に関するイベントデータを格納するイベントデータ格納手段を更に備え、
    前記監視手段は、前記情報処理装置の稼働状況及び前記複数の情報処理装置間を接続する各通信回線のデータ通信状況に加え、前記イベントデータを取得し、前記イベントデータ格納手段に格納することを特徴とする請求項1乃至の何れか1項に記載の性能監視装置。
  10. 前記監視手段が取得した監視データを基に、イベントデータを生成するイベントデータ生成手段を更に備え、
    前記イベントデータ生成手段は、生成したイベントデータを、前記イベントデータ格納手段に格納することを特徴とする請求項1乃至の何れか1項に記載の性能監視装置。
  11. 前記障害検知/予測手段は、前記イベントデータ格納手段に格納されたイベントデータに関連する相関関係に基づいて前記情報処理システムに将来障害が発生する可能性を予測することを特徴とする請求項又は10に記載の性能監視装置。
  12. 複数の情報処理装置が協調して動作する情報処理システムの性能を監視する性能監視装置による性能監視方法であって、
    前記複数の情報処理装置の稼働状況、及び、前記複数の情報処理装置間を接続する各通信回線のデータ通信状況を監視する監視ステップと、
    前記複数の情報処理装置のうちの一の情報処理装置の稼働状況に関する監視データと他の情報処理装置の稼働状況に関する監視データとの相関関係、前記複数の情報処理装置間を接続する各通信回線のうちの一の通信回線のデータ通信状況に関する監視データと他の通信回線のデータ通信状況に関する監視データとの相関関係、又は、前記複数の情報処理装置のうちの一の情報処理装置の稼働状況に関する監視データと当該情報処理装置と他の情報処理装置とを接続する通信回線のデータ通信状況に関する監視データとの相関関係に基づいて、前記情報処理システムに現在発生している障害を検知、又は、前記情報処理システムに将来障害が発生する可能性を予測する障害検知/予測ステップとを有することを特徴とする性能監視方法。
  13. 請求項12に記載の性能監視方法をコンピュータに実行させるためのプログラム。
JP2005114821A 2004-04-16 2005-04-12 性能監視装置、性能監視方法及びプログラム Active JP4980581B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005114821A JP4980581B2 (ja) 2004-04-16 2005-04-12 性能監視装置、性能監視方法及びプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004122074 2004-04-16
JP2004122074 2004-04-16
JP2005114821A JP4980581B2 (ja) 2004-04-16 2005-04-12 性能監視装置、性能監視方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2005327261A JP2005327261A (ja) 2005-11-24
JP4980581B2 true JP4980581B2 (ja) 2012-07-18

Family

ID=35473535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005114821A Active JP4980581B2 (ja) 2004-04-16 2005-04-12 性能監視装置、性能監視方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4980581B2 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1960886A1 (en) 2005-12-16 2008-08-27 International Business Machines Corporation Method, system and computer program for metering usage of software products based on real-time benchmarking of processing power
JP4594258B2 (ja) * 2006-03-10 2010-12-08 富士通株式会社 システム分析装置およびシステム分析方法
JP2007264921A (ja) * 2006-03-28 2007-10-11 Fujitsu Ltd 性能情報採取プログラム及び装置
JP4896573B2 (ja) * 2006-04-20 2012-03-14 株式会社東芝 障害監視システムと方法、およびプログラム
JP4573179B2 (ja) * 2006-05-30 2010-11-04 日本電気株式会社 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
JP4837445B2 (ja) * 2006-06-06 2011-12-14 株式会社日立製作所 記憶システム並びに管理装置及び方法
JP4859558B2 (ja) 2006-06-30 2012-01-25 株式会社日立製作所 コンピュータシステムの制御方法及びコンピュータシステム
JP2008015596A (ja) * 2006-07-03 2008-01-24 Nec Fielding Ltd 管理サーバ及び修復プログラム送信方法
JP4752767B2 (ja) * 2007-01-12 2011-08-17 日本電気株式会社 システム構成候補導出装置、方法およびプログラム
JP4957256B2 (ja) * 2007-01-12 2012-06-20 日本電気株式会社 システム構成変更ルール生成システム、方法およびプログラム
JP4881761B2 (ja) * 2007-02-23 2012-02-22 株式会社日立製作所 システムリソース監視方法、監視装置、及びプログラム
US8332344B2 (en) 2007-03-14 2012-12-11 Nec Corporation Operation management apparatus, operation management method, and operation management program
JP4990018B2 (ja) * 2007-04-25 2012-08-01 株式会社日立製作所 装置性能管理方法、装置性能管理システム、および管理プログラム
JP2009053992A (ja) * 2007-08-28 2009-03-12 Jiec Co Ltd ログ収集システム
JP4872944B2 (ja) * 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP4872945B2 (ja) * 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP2009217770A (ja) * 2008-03-13 2009-09-24 Nec Corp 故障予測通知システム、故障予測通知方法、故障予測通知プログラムおよびプログラム記録媒体
JP5384136B2 (ja) * 2009-02-19 2014-01-08 株式会社日立製作所 障害解析支援システム
JP5287382B2 (ja) * 2009-03-13 2013-09-11 日本電気株式会社 システム性能分析装置、システム性能分析方法、及びプログラム
JP2010231293A (ja) * 2009-03-26 2010-10-14 Nomura Research Institute Ltd 監視装置
US8645769B2 (en) 2010-01-08 2014-02-04 Nec Corporation Operation management apparatus, operation management method, and program storage medium
JP5418250B2 (ja) * 2010-01-26 2014-02-19 富士通株式会社 異常検出装置、プログラム、及び異常検出方法
JP5471859B2 (ja) * 2010-06-10 2014-04-16 富士通株式会社 解析プログラム、解析方法、および解析装置
JP5387779B2 (ja) * 2010-09-01 2014-01-15 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
JP5516494B2 (ja) * 2011-04-26 2014-06-11 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP5141789B2 (ja) * 2011-04-26 2013-02-13 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
US9531588B2 (en) 2011-12-16 2016-12-27 Microsoft Technology Licensing, Llc Discovery and mining of performance information of a device for anticipatorily sending updates to the device
JP5500301B2 (ja) * 2013-07-18 2014-05-21 日本電気株式会社 監視制御システム、監視制御方法、監視制御サーバ及び監視制御プログラム
JP5590196B2 (ja) * 2013-07-22 2014-09-17 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP6295857B2 (ja) 2014-06-27 2018-03-20 富士通株式会社 抽出方法、装置、及びプログラム
JP6574332B2 (ja) * 2015-03-26 2019-09-11 株式会社日立システムズ データ分析システム
WO2017094263A1 (ja) * 2015-12-04 2017-06-08 日本電気株式会社 ログ分析システム、方法およびプログラム
WO2017154241A1 (ja) * 2016-03-07 2017-09-14 株式会社日立製作所 異常検出装置、及び、異常検出方法
JP6823265B2 (ja) * 2017-03-28 2021-02-03 富士通株式会社 分析装置、分析システム、分析方法および分析プログラム
JP7501266B2 (ja) 2019-12-06 2024-06-18 富士電機株式会社 運転支援装置、運転支援システム及び運転支援方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3321487B2 (ja) * 1993-10-20 2002-09-03 株式会社日立製作所 機器/設備診断方法およびシステム
JPH1049219A (ja) * 1996-08-02 1998-02-20 Mitsubishi Electric Corp 障害発生回避装置
JPH1188399A (ja) * 1997-09-02 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> ネットワーク管理方法
JPH11308221A (ja) * 1998-04-22 1999-11-05 Sumitomo Electric Ind Ltd ネットワーク管理システム

Also Published As

Publication number Publication date
JP2005327261A (ja) 2005-11-24

Similar Documents

Publication Publication Date Title
JP4980581B2 (ja) 性能監視装置、性能監視方法及びプログラム
JP4859558B2 (ja) コンピュータシステムの制御方法及びコンピュータシステム
JP5267736B2 (ja) 障害検出装置、障害検出方法およびプログラム記録媒体
CN107925612B (zh) 网络监视***、网络监视方法和计算机可读介质
US10496465B2 (en) System operations management apparatus, system operations management method and program storage medium
JP5736881B2 (ja) ログ収集システム、装置、方法及びプログラム
JP2010526352A (ja) 統計的な分析を利用した性能障害管理システム及びその方法
JP4990018B2 (ja) 装置性能管理方法、装置性能管理システム、および管理プログラム
JP4573179B2 (ja) 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
JP2014134987A (ja) 情報処理システム監視装置、監視方法、及び監視プログラム
US8713377B2 (en) System and method to assess serviceability of device
JP4705484B2 (ja) 性能監視装置、性能監視方法及びプログラム
WO2018179937A1 (ja) リスク評価装置、リスク評価方法、及び、リスク評価プログラム
JP6777142B2 (ja) システム分析装置、システム分析方法、及び、プログラム
JP6482743B1 (ja) リスク評価装置、リスク評価システム、リスク評価方法、及び、リスク評価プログラム
JP2016146020A (ja) データ分析システム及び分析方法
JP6574533B2 (ja) リスク評価装置、リスク評価システム、リスク評価方法、及び、リスク評価プログラム
WO2008050323A2 (en) Method for measuring health status of complex systems
WO2020044898A1 (ja) 機器状態監視装置及びプログラム
JP4081258B2 (ja) 管理サーバシステム
JP6482742B1 (ja) リスク評価装置、リスク評価システム、リスク評価方法、及び、リスク評価プログラム
JP2008191849A (ja) 稼働管理装置、情報処理装置、稼働管理装置の制御方法、情報処理装置の制御方法及びプログラム
JP4881761B2 (ja) システムリソース監視方法、監視装置、及びプログラム
JP2009032052A (ja) 情報処理装置、情報処理方法及びプログラム
JP2005275815A (ja) ネットワークリモート管理方法および管理サーバ

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120403

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120419

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150427

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4980581

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250