JP4575020B2 - 障害解析装置 - Google Patents
障害解析装置 Download PDFInfo
- Publication number
- JP4575020B2 JP4575020B2 JP2004133998A JP2004133998A JP4575020B2 JP 4575020 B2 JP4575020 B2 JP 4575020B2 JP 2004133998 A JP2004133998 A JP 2004133998A JP 2004133998 A JP2004133998 A JP 2004133998A JP 4575020 B2 JP4575020 B2 JP 4575020B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- business
- monitoring
- resource
- information table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
ところでこれらの障害監視は、個々の監視設定に従って独立に実施されており相互の連携はない。あるものは短周期での監視、あるものは長周期での監視になっており、1つの根本原因に誘発された複数の波及障害の検知に時間差が生じる。更に個々に表面的な障害現象のみが収集されるので、障害の素を解析するには専門技術を必要とし、障害の根本原因箇所特定に時間を要してしまう。また、監視周期を短くすることで障害検知のリアルタイム性は向上し、検知の同時性も向上するが、システムに対するデータ収集と原因解析量の増大による監視処理の負荷が大きくなってしまう。
上記各構成機器・リソースの個別監視方法を記憶する監視方法情報テーブルと、
上記監視対象システムを監視する監視部と、
上記監視部が上記監視対象システムの障害を検出すると、上記業務構成情報テーブルを参照して上記障害が発生した業務を推定し、該障害が発生した業務を構成する構成機器・リソースを抽出し、該業務を構成する構成機器・リソースの監視方法を適用する関連障害の確認方法特定部、とを備えた。
システム障害があった場合に、その障害の根本原因部分は、業務を構成する機器やソフトウェアを含むリソース群の中のいずれかに存在するはずである。このことから、システム障害を検知すると、直ちに関連する業務構成機器かリソースの障害を推定して、その推定機器またはリソースに対して直ちに機能確認すれば、根本の障害部分を短時間に特定できる。こうすれば通常時のシステム監視負荷を増加することもない。
図1は、上記思想に基づくこの発明の実施の形態1における、障害解析装置を示す構成ブロック図である。
図1の構成において、監視対象システム1は、障害解析装置により、通常時に一定周期等でシステムの障害発生状況を監視部51,52で監視されている。同様に随時障害監視部53,54により、随時、監視対象システム内の構成要素の障害発生状況等を監視されている。
後にも詳述するが、クライアント別に監視業務を細分化し、監視プログラムをこれら細分化した業務が使用するリソースのレスポンスまで監視するようにすれば、少なくともどのような業務で障害が発生したかを把握することは困難ではない。
更に障害解析装置には、関連障害の確認方法特定部30が障害部分を推定する際に参照する、システムに関する情報群40がある。このシステムに関する情報群40中に、業務構成情報テーブル41、対象毎の監視方法情報テーブル42がある。更に、以上の一連の処理全体を制御する障害情報収集制御部20がある。
図において、コンピュータノードとしてのサーバ101〜106は、内部に種々のプログラム111〜117を持ち、ネットワーク機器121〜124及びネットワークサービス125,126を経由して互いに接続されている。
図中の点線130は、ある業務処理「業務1」を構成する業務構成である。例として挙げた「業務1」はクライアント1からの処理要求が業務サーバ3 103中の業務プログラム3、業務プログラム4を経由して業務サーバ1 101中の業務プログラム1で処理される構成である。また業務プログラム3はその処理の中で、例えばネームサービスや認証サービスのような共有サービスプログラム1 115を利用している。「業務1」の点線130は、これらの業務構成を線で表したものである。
通常時障害監視部51等が行う監視の方法として、例えば業務1として業務プログラム1はクライアント1からアクセスされ、同じ業務プログラム1を使用してもクライアント2からアクセスする場合には業務11と名付けるようにすれば、かなり細かなレベルで障害発生時の業務の特定が可能である。更に監視プログラムが、業務プログラム1、クライアントプログラム1の振る舞いまでも監視すれば、障害発生を検知することは容易である。
また図4は、図1中の対象毎の監視方法情報テーブル42におけるデータ例を示す図であり、図2で示した対象システムの構成要素1つずつに対して、その監視方法をテーブル形式で表したものである。
図1の通常時障害監視部51,52は、監視対象システムの障害を検知すると、障害情報収集制御部20に障害検知を通知する。ここでは、例として図2におけるクライアントプログラム1 116で業務応答が無くなった場合を想定する。即ち設定された時間内に応答が返らないので、障害検知とする。
この検知を受けて、障害情報収集制御部20は、この情報を関連障害の確認方法特定部30に渡す。関連障害の確認方法特定部30では、まず障害発生業務特定部31が障害の内容にあるクライアントプログラムの応答不良からその障害が業務1に関する障害であることを推定する。これは図18における障害業務の推定ステップS101である。次に関連リソース抽出部32が、図3に示す業務構成情報テーブル41を参照して業務1に関連する機器やリソースを抽出する。これは図18の構成機器・リソース推定ステップS102である。さらに、確認方法特定部33が、図4に示す対象毎の監視方法情報テーブル42から、各機器やリソースに対する障害監視方法を特定する。これは図18の監視方法特定ステップS104である。図5は、関連障害の確認方法特定部30が作成した業務1に関する監視方法情報テーブルの例を示す図である。
図13は、このシステムの通常時の監視方法に関するテーブルの例を示す図であるが、この中で参考として示した各監視機能の監視間隔の例によると、NW機器1の監視間隔は20分であり、本実施の形態における障害解析装置がなければ、根本原因部分の障害を検知するまでに、最悪20分の時間差が生じてしまう。
このように従来の監視装置が、個々の機器やリソースの監視をそれぞれ個別に独立して設定された監視周期で実施されているだけの状況に比べて、本障害解析装置を用いることにより、業務の障害に対する根本原因部分の特定が迅速に行える効果がある。
実施の形態1では、確認方法特定部33が図5に示す業務構成機器・リソースに対して順次、個別に障害確認を行う例を説明した。しかし順次、障害確認を行う方法では、効率が悪い。障害が発生した構成機器・リソースを推定するには、過去に発生した障害を参照して、同様の状況であれば、その構成機器・リソースであると推定するのが自然である。本実施の形態では、こうした過去の履歴によって障害が発生した業務の推定を行う。
図6は、本実施の形態における障害解析装置を示す構成ブロック図である。図において、先の実施の形態に追加された新しい構成要素として、障害履歴情報テーブル43が追加されている。この障害履歴情報テーブル43は、関連障害の確認方法特定部30が処理を行う際に参照する。
また図7は、障害履歴情報テーブル43に記憶されている具体的なデータの例を示す図であり、監視対象システム機器やリソース毎の障害履歴を記録している。
図8は、実施の形態1で作成した図5の監視方法情報テーブルに図7の障害履歴情報テーブル43から得た「障害発生日」「障害重大度」の情報を付加したテーブルである。
特定の業務が障害していると推定されたとして、その推定された業務を構成する機器やリソースが多数抽出される場合がある。その場合、これら抽出された全ての機器の障害状況を優先度制御なしに全抽出機器とリソースに順次、図5に示す監視方法を適用して結果を得るには長い時間が要る。
そこで、過去に障害が発生した部分は、再度障害が発生する確率が高いと想定し、まずはそれらを優先的に障害確認し一次情報を報告する。その後全件の確認を行うことで、障害復旧対策の迅速化が図れる効果がある。
図8の例では、業務プログラム1、NW機器1、共用サービスプログラム1について優先的に障害確認を行う。
実施の形態3では実施の形態2と同様に障害監視の優先処理を実施するが、優先処理判断に利用する情報は図9に例を示した障害履歴情報テーブル43cである。ここでは機能ブロック図は省略するが、この障害発生頻度情報テーブルは図6の障害履歴情報テーブル43の中にこの頻度項目を設けて、関連障害の確認方法特定部30が処理を行う際にこの頻度項目を参照する。
図9の例で、たとえば3回以上のしきい値で優先監視するならば、先ずNW機器1、業務プログラム1に対して優先的に障害確認を行う。ただしNWサービス2は業務1には該当しない。
本実施の形態では実施の形態2と同様に障害監視の優先処理を実施するが、優先処理判断に利用する情報は図10に例を示したシステム変更履歴情報テーブル44である。ここでは機能ブロック図を省略するが、このシステム変更履歴情報テーブル44は図6の障害履歴情報テーブル43と同等のテーブルとし、障害履歴情報テーブル43と同様の部分に設ける。そして関連障害の確認方法特定部30が処理を行う際に、このシステム変更履歴情報テーブル44を参照する。
図10の例では、変更記録があるもの全てを優先するならば、業務プログラム3、業務プログラム1、NW機器3、NW機器1、共用サービスプログラム1を優先的に障害確認を行う。ただしNWサービス2は業務1には該当しない。
本実施の形態では、実施の形態2、3、4と類似で障害監視の優先処理を実施するが、優先処理判断に利用する情報は図11に例を示したシステム機器・リソース重要度情報テーブル45の情報である。ここでは機能ブロック図を省略するが、このシステム機器・リソース重要度情報テーブル45は図6の障害履歴情報テーブル43と同等のテーブルとし、障害履歴情報テーブル43と同様の部分に設ける。そして関連障害の確認方法特定部30が処理を行う際に、このシステム機器・リソース重要度情報テーブル45を参照する。
図11の例では、まず重大度レベルが最高値10の業務プログラム1の障害確認を行い、順次、次いで重大度レベルの高い順へと確認を行う。
本実施の形態では、実施の形態2、3、4と類似で障害監視の優先処理を実施するが、優先処理判断に利用する情報は、図12に示される、リソース毎の単位時間当たりの使用頻度情報テーブル46である。これは例えば図1の構成において、障害情報収集制御部20が随時障害監視部53を用いて定期的に各業務構成機器とリソースの使用頻度を調べる。その調査結果を図12のリソース使用頻度情報テーブル46の、使用頻度の項に記録して管理しておく。使用頻度の調査は任意期間でよく、障害情報収集制御部20が随時障害監視部53に起動をかけて、対象となるリソースのオープン(開始)またはクローズ(終了)のどちらかを数えることで頻度が判る。これを更に積算していけば、相対的な使用頻度が判る。このリソース使用頻度テーブルを図6の障害履歴情報テーブル43と同様の部分に設ける。
そして関連障害の確認方法特定部30が処理を行う際に、このリソース使用頻度情報テーブル46を参照する。
障害の根本原因箇所を特定する場合に、リソース使用頻度情報テーブル46に記載の使用頻度が少ないリソースほど、残存バグなどの可能性があって、障害が発生しているのかもしれない。
本発明の装置は、システム障害の検知を効率よく行うことを目的としているが、その監視方法によっては、監視対象の障害自体ではなく、それ以外の障害によって誤検知している場合もあり得る。
図13は、pingによりネットワーク機器の外部から生死を確認している例であり、ping監視サーバ107からNW機器3 124を監視している。この時、NW機器3に対するping応答エラー(無応答)はNW機器3の障害以外に、監視経路上のNW機器2やNW機器4の障害でも検知してしまう。すなわち、ping監視サーバ107の位置からのNW機器3へのping監視は、NW機器2とNW機器4に依存していると言える。
図14は、通常時の監視についての監視依存関係を示した監視依存関係テーブル57の例を示した図である。たとえばNW機器3の障害を検知した場合に、「誤検知原因になる監視機能の依存箇所」に登録されているNW機器2、NW機器4の障害状況を先ず確認する。そして、これらに障害がなければ、実施の形態1ないし6の処理を実施する。
この事前処理を行うことにより、根本障害箇所検出処理の精度が向上する。
実施の形態1〜6の処理では、業務構成から抽出した機器やリソースの障害状況を、登録してある確認方法で確認するが、全ての機器やリソースに障害状態が認められないケースが考えられる。本実施の形態では、その場合でも、障害確認方法の観点を変更したり、より詳しい分析のために、障害解析情報を収集し人的な分析を行うことに備えたりする、二次ステップ、三次ステップの処理を実施できる手段を持つ。
図15は、図4に示した対象毎の監視方法情報テーブル42を拡張した監視方法情報テーブル42dであり、二次アクションを登録した例である。この例では二次アクションとしては障害解析のための情報収集方法が登録されている。
なお、この例を実施するためには、構成要素を追加した装置を示す図16において、障害解析情報収集部55,56を新たに設ける等、実施したい処理に合わせた要素を追加する必要がある。
この処理により、障害箇所を検出できなかった場合でも、人的な分析に備えた障害解析情報を予め収集しておくなどの、代替処置を実行しておくことができ、システム障害対策の迅速化がはかれる。
上記の各実施の形態では、障害解析装置はハードウェアで構成されるとして説明した。しかし装置はそれに限定されることは無く、汎用のプロセッサとメモリを用いて、メモリにソフトウェアのプログラムでステップを記述して、このプログラム・ステップにより、同等の動作を実行させてもよい。
図18は、こうしたプログラム・ステップで実施の形態1における動作を実現するフローチャートを示した図である。図において、プログラム・ステップとしてS101で障害発生業務特定部31相当の機能を組む。通常時障害監視部1 51が障害検知を通知すると、この通知をスタートの監視するステップS100として監視を始める。以下、関連リソース抽出部32相当の機能をS1お2で組み、確認方法特定部33相当の機能をS104とS105で組む。また実施の形態2ないし6における個別構成機器・リソース選択優先順位の機能を、S103で組む。
更にこの図18で示されるフローチャートの機能をプログラムとして作成しておけば、汎用の計算機にそのプログラムをロードして、上記各実施の形態で説明した障害解析装置を構成することが出来る。
Claims (1)
- 監視対象システムが実行する複数の業務の業務毎に業務を構成する構成機器とリソースとの情報を記憶する業務構成情報テーブルと、
構成機器の障害状況を確認するコマンドを構成機器毎に記憶するとともに、リソースの障害状況を確認するコマンドをリソース毎に記憶する監視方法情報テーブルと、
上記監視対象システムをあらかじめ定められた周期で監視し、上記監視対象システムの構成機器とリソースとのいずれかの障害を検知した場合、障害を検知した構成機器と障害を検知したリソースとのいずれかを示す障害検知情報を通知する通常時障害監視部と、
上記通常時障害監視部から上記障害検知情報が通知された場合、上記業務構成情報テーブルに業務毎に記憶された業務を構成する構成機器とリソースとの情報を参照して、通知された障害検知情報が示す構成機器と通知された障害検知情報が示すリソースとのいずれかにより構成される業務を抽出し、
抽出した業務を構成する構成機器とリソースとを上記業務構成情報テーブルを参照して抽出し、
抽出した業務を構成する構成機器とリソースとの障害状況を確認するコマンドを上記監視方法情報テーブルを参照して特定する関連障害の確認方法特定部と
上記関連障害の確認方法特定部が抽出した上記監視対象システムの業務を構成する構成機器とリソースとに対して、上記関連障害の確認方法特定部が特定したコマンドを実行して障害状況を確認する随時障害監視部と
を備えたことを特徴とする障害解析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004133998A JP4575020B2 (ja) | 2004-04-28 | 2004-04-28 | 障害解析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004133998A JP4575020B2 (ja) | 2004-04-28 | 2004-04-28 | 障害解析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005316728A JP2005316728A (ja) | 2005-11-10 |
JP4575020B2 true JP4575020B2 (ja) | 2010-11-04 |
Family
ID=35444087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004133998A Expired - Fee Related JP4575020B2 (ja) | 2004-04-28 | 2004-04-28 | 障害解析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4575020B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4928480B2 (ja) * | 2008-01-31 | 2012-05-09 | 株式会社野村総合研究所 | ジョブ処理システムおよびジョブ管理方法 |
US8612372B2 (en) | 2008-08-29 | 2013-12-17 | International Business Machines Corporation | Detection rule-generating facility |
JP5237034B2 (ja) | 2008-09-30 | 2013-07-17 | 株式会社日立製作所 | イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。 |
JP2010205066A (ja) * | 2009-03-04 | 2010-09-16 | Nec Corp | 反例解析支援装置、反例解析支援システム、それらの反例解析支援方法及びプログラム |
WO2013190694A1 (ja) * | 2012-06-22 | 2013-12-27 | 株式会社日立製作所 | 計算機の復旧方法、計算機システム及び記憶媒体 |
US20210019299A1 (en) * | 2019-07-17 | 2021-01-21 | Aveva Software, Llc | System and server comprising database schema for accessing and managing utilization and job data |
CN110502404B (zh) * | 2019-07-22 | 2022-05-31 | 平安科技(深圳)有限公司 | 一种基于数据治理平台的预警处理方法及相关设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000069003A (ja) * | 1998-08-21 | 2000-03-03 | Nippon Telegr & Teleph Corp <Ntt> | マルチレイヤネットワーク故障影響範囲推定方法及びその装置 |
JP2000209201A (ja) * | 1999-01-11 | 2000-07-28 | Fujitsu Ltd | ネットワ―ク管理方法及びネットワ―ク管理システム |
JP2002271328A (ja) * | 2001-03-09 | 2002-09-20 | Mitsubishi Electric Corp | ネットワーク障害解析装置およびネットワーク障害解析方法 |
JP2003162504A (ja) * | 2001-11-26 | 2003-06-06 | Hitachi Ltd | 障害分析支援システム |
JP2003241996A (ja) * | 2002-02-19 | 2003-08-29 | Yoshihiro Maruyama | 動作依存性情報と障害情報を元にコンピュータシステムの障害予測と原因特定を行う方法及びシステム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0594383A (ja) * | 1991-10-02 | 1993-04-16 | Nec Corp | 障害監視装置 |
JPH10187232A (ja) * | 1996-12-19 | 1998-07-14 | Toshiba Corp | 監視制御装置 |
JP3598394B2 (ja) * | 1997-02-13 | 2004-12-08 | 日本電信電話株式会社 | サービス管理方法及び装置 |
JPH10326208A (ja) * | 1997-03-24 | 1998-12-08 | N T T Data:Kk | 障害復旧システム及び記録媒体 |
US6138122A (en) * | 1998-03-02 | 2000-10-24 | Agilent Technologies | Modeling of internet services |
JPH11259331A (ja) * | 1998-03-13 | 1999-09-24 | Nippon Telegr & Teleph Corp <Ntt> | ネットワークにおける障害箇所検出方法及び装置及びネットワークにおける障害箇所検出プログラムを格納した記憶媒体 |
JPH11353254A (ja) * | 1998-06-11 | 1999-12-24 | Sharp Corp | ネットワーク管理装置ならびにネットワーク管理プログラムを記録した記録媒体 |
US7096459B2 (en) * | 2002-09-11 | 2006-08-22 | International Business Machines Corporation | Methods and apparatus for root cause identification and problem determination in distributed systems |
-
2004
- 2004-04-28 JP JP2004133998A patent/JP4575020B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000069003A (ja) * | 1998-08-21 | 2000-03-03 | Nippon Telegr & Teleph Corp <Ntt> | マルチレイヤネットワーク故障影響範囲推定方法及びその装置 |
JP2000209201A (ja) * | 1999-01-11 | 2000-07-28 | Fujitsu Ltd | ネットワ―ク管理方法及びネットワ―ク管理システム |
JP2002271328A (ja) * | 2001-03-09 | 2002-09-20 | Mitsubishi Electric Corp | ネットワーク障害解析装置およびネットワーク障害解析方法 |
JP2003162504A (ja) * | 2001-11-26 | 2003-06-06 | Hitachi Ltd | 障害分析支援システム |
JP2003241996A (ja) * | 2002-02-19 | 2003-08-29 | Yoshihiro Maruyama | 動作依存性情報と障害情報を元にコンピュータシステムの障害予測と原因特定を行う方法及びシステム |
Also Published As
Publication number | Publication date |
---|---|
JP2005316728A (ja) | 2005-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6828096B2 (ja) | サーバハードウェア障害の分析及びリカバリ | |
US9672085B2 (en) | Adaptive fault diagnosis | |
US9003230B2 (en) | Method and apparatus for cause analysis involving configuration changes | |
Sharma et al. | CloudPD: Problem determination and diagnosis in shared dynamic clouds | |
JP4866861B2 (ja) | トランザクション・ベースのシステムを監視するための方法及びシステム | |
Xu et al. | POD-Diagnosis: Error diagnosis of sporadic operations on cloud applications | |
US20100064179A1 (en) | Call-stack pattern matching for problem resolution within software | |
US10177984B2 (en) | Isolation of problems in a virtual environment | |
US20120054554A1 (en) | Problem isolation in a virtual environment | |
US9122784B2 (en) | Isolation of problems in a virtual environment | |
WO2015116064A1 (en) | End user monitoring to automate issue tracking | |
WO2006117833A1 (ja) | 監視シミュレーション装置,方法およびそのプログラム | |
JP2011197785A (ja) | ログ収集システムおよびログ収集プログラム | |
JP4575020B2 (ja) | 障害解析装置 | |
US20140372803A1 (en) | Apparatus and method for analyzing abnormal states of component-based system | |
JP5503177B2 (ja) | 障害情報収集装置 | |
JP2004145536A (ja) | 管理システム | |
EP2495660A1 (en) | Information processing device and method for controlling information processing device | |
US20050149809A1 (en) | Real time determination of application problems, using a lightweight diagnostic tracer | |
JP6317074B2 (ja) | 障害通知装置、障害通知プログラムならびに障害通知方法 | |
Chan et al. | Debugging incidents in Google's distributed systems | |
AU2014200806B1 (en) | Adaptive fault diagnosis | |
Dudley et al. | Automatic self-healing systems in a cross-product IT environment | |
JP2004086278A (ja) | 装置障害監視方法および装置障害監視システム | |
Avritzer et al. | Using software aging monitoring and rejuvenation for the assessment of high-availability systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070314 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090526 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090716 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100608 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100716 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100817 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100819 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130827 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |