JP4575020B2 - 障害解析装置 - Google Patents

障害解析装置 Download PDF

Info

Publication number
JP4575020B2
JP4575020B2 JP2004133998A JP2004133998A JP4575020B2 JP 4575020 B2 JP4575020 B2 JP 4575020B2 JP 2004133998 A JP2004133998 A JP 2004133998A JP 2004133998 A JP2004133998 A JP 2004133998A JP 4575020 B2 JP4575020 B2 JP 4575020B2
Authority
JP
Japan
Prior art keywords
failure
business
monitoring
resource
information table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004133998A
Other languages
English (en)
Other versions
JP2005316728A (ja
Inventor
信胤 森
佐藤  誠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Mitsubishi Electric Information Systems Corp
Original Assignee
Mitsubishi Electric Corp
Mitsubishi Electric Information Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp, Mitsubishi Electric Information Systems Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004133998A priority Critical patent/JP4575020B2/ja
Publication of JP2005316728A publication Critical patent/JP2005316728A/ja
Application granted granted Critical
Publication of JP4575020B2 publication Critical patent/JP4575020B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

この発明は、システム中で発生した障害状況から障害原因を推定して、その障害の素となった要素を特定する装置、方法に関するものである。
分散コンピュータシステムでは、障害の発生に備えてシステム内でさまざまな監視が行われている。例えば、ping監視に代表される機器外部からの問い合わせによるシステムあるいはシステムを構成する要素の生死監視がある。また障害以外にも、機器内のエージェントによるプロセス有無やディスク空き、CPU使用状況等のリソース監視、業務処理の利用者視点に立った応答時間の監視等である。
ところでこれらの障害監視は、個々の監視設定に従って独立に実施されており相互の連携はない。あるものは短周期での監視、あるものは長周期での監視になっており、1つの根本原因に誘発された複数の波及障害の検知に時間差が生じる。更に個々に表面的な障害現象のみが収集されるので、障害の素を解析するには専門技術を必要とし、障害の根本原因箇所特定に時間を要してしまう。また、監視周期を短くすることで障害検知のリアルタイム性は向上し、検知の同時性も向上するが、システムに対するデータ収集と原因解析量の増大による監視処理の負荷が大きくなってしまう。
また、業務処理フローを集中管理し、その実行結果を収集することで障害データを迅速に収集する技術、例えば特許文献1の「管理マネージャ計算機、記録媒体、および、計算機運用管理方法」や、特許文献2の「業務フローの稼動情報取得方法および業務フローシステム」があるが、これらは、業務処理フローの観点で実行結果を追跡する技術である。従って、単に障害が発生したという事実の通知はあっても、業務処理を実行するために利用するコンピュータリソースや外部サービス、ネットワーク経路の障害には関知していない。つまり障害解析に関しては何の開示もないし、障害の根本原因の特定については述べられていない。
特開平11−134306号公報 特開2003−67222号公報
従来のシステムの監視装置は上記のように構成されており、単に障害状況を個々に収集するのみである。あるいは過去の障害を記録した障害データベースを参照して障害原因を推定するのみであり、もとになる障害を見つけることが困難であるという課題がある。
本発明は上記の課題を解決するためになされたもので、関連する業務構成機器やリソースの障害状況から障害部分を特定し、かつ特定した障害部分に対して直ちに機能確認を行って容易に障害部分を特定することを目的とする。
この発明に係る障害解析装置は、監視対象システムの業務を構成する構成機器・リソースを業務毎に記憶する業務構成情報テーブルと、
上記各構成機器・リソースの個別監視方法を記憶する監視方法情報テーブルと、
上記監視対象システムを監視する監視部と、
上記監視部が上記監視対象システムの障害を検出すると、上記業務構成情報テーブルを参照して上記障害が発生した業務を推定し、該障害が発生した業務を構成する構成機器・リソースを抽出し、該業務を構成する構成機器・リソースの監視方法を適用する関連障害の確認方法特定部、とを備えた。
この発明によれば、業務構成情報テーブルと監視方法情報テーブルと障害が発生した業務を推定し、その業務を構成する構成機器・リソースを抽出し、その構成機器・リソースの監視方法を適用する関連障害の確認方法特定部とを備えたので、障害を分析する高度な知識を要せずに、障害部分に対して直ちに機能確認を行って容易に障害部分を特定できる効果がある。
実施の形態1.
システム障害があった場合に、その障害の根本原因部分は、業務を構成する機器やソフトウェアを含むリソース群の中のいずれかに存在するはずである。このことから、システム障害を検知すると、直ちに関連する業務構成機器かリソースの障害を推定して、その推定機器またはリソースに対して直ちに機能確認すれば、根本の障害部分を短時間に特定できる。こうすれば通常時のシステム監視負荷を増加することもない。
図1は、上記思想に基づくこの発明の実施の形態1における、障害解析装置を示す構成ブロック図である。
図1の構成において、監視対象システム1は、障害解析装置により、通常時に一定周期等でシステムの障害発生状況を監視部51,52で監視されている。同様に随時障害監視部53,54により、随時、監視対象システム内の構成要素の障害発生状況等を監視されている。
後にも詳述するが、クライアント別に監視業務を細分化し、監視プログラムをこれら細分化した業務が使用するリソースのレスポンスまで監視するようにすれば、少なくともどのような業務で障害が発生したかを把握することは困難ではない。
また障害解析装置には、これらの監視部で得られた監視データから、障害発生を検知すると、障害に関連する機器やリソースを抽出し、それらの障害状況を確認する方法を特定する関連障害の確認方法特定部30がある。関連障害の確認方法特定部30は、内部に、発生した障害から最も障害があり得る業務を推定する障害発生業務特定部31と、その業務処理を行うための機器やリソースを抽出する関連リソース抽出部32と、それらの機器やリソースの障害状況を確認する方法を特定する確認方法特定部33を持つ。
更に障害解析装置には、関連障害の確認方法特定部30が障害部分を推定する際に参照する、システムに関する情報群40がある。このシステムに関する情報群40中に、業務構成情報テーブル41、対象毎の監視方法情報テーブル42がある。更に、以上の一連の処理全体を制御する障害情報収集制御部20がある。
また図2は、図1において監視対象システム1として示される、その具体的な構成の例と、特定の構成機器またはリソースを使用した業務の関係を示す図である。
図において、コンピュータノードとしてのサーバ101〜106は、内部に種々のプログラム111〜117を持ち、ネットワーク機器121〜124及びネットワークサービス125,126を経由して互いに接続されている。
図中の点線130は、ある業務処理「業務1」を構成する業務構成である。例として挙げた「業務1」はクライアント1からの処理要求が業務サーバ3 103中の業務プログラム3、業務プログラム4を経由して業務サーバ1 101中の業務プログラム1で処理される構成である。また業務プログラム3はその処理の中で、例えばネームサービスや認証サービスのような共有サービスプログラム1 115を利用している。「業務1」の点線130は、これらの業務構成を線で表したものである。
通常時障害監視部51等が行う監視の方法として、例えば業務1として業務プログラム1はクライアント1からアクセスされ、同じ業務プログラム1を使用してもクライアント2からアクセスする場合には業務11と名付けるようにすれば、かなり細かなレベルで障害発生時の業務の特定が可能である。更に監視プログラムが、業務プログラム1、クライアントプログラム1の振る舞いまでも監視すれば、障害発生を検知することは容易である。
また図3は、図1中の業務構成情報テーブル41におけるデータ例を示す図であり、図2で示した「業務1」の業務構成をテーブル形式で表したものである。このテーブルには、業務1を構成する機器やリソースとそれぞれの機器やリソースが動作するための前提となる依存機器やリソースが表されている。もちろんその他に、業務2、業務3等の、他の業務の構成機器・リソースも記憶、表されている。
また図4は、図1中の対象毎の監視方法情報テーブル42におけるデータ例を示す図であり、図2で示した対象システムの構成要素1つずつに対して、その監視方法をテーブル形式で表したものである。
次に動作について説明する。
図1の通常時障害監視部51,52は、監視対象システムの障害を検知すると、障害情報収集制御部20に障害検知を通知する。ここでは、例として図2におけるクライアントプログラム1 116で業務応答が無くなった場合を想定する。即ち設定された時間内に応答が返らないので、障害検知とする。
この検知を受けて、障害情報収集制御部20は、この情報を関連障害の確認方法特定部30に渡す。関連障害の確認方法特定部30では、まず障害発生業務特定部31が障害の内容にあるクライアントプログラムの応答不良からその障害が業務1に関する障害であることを推定する。これは図18における障害業務の推定ステップS101である。次に関連リソース抽出部32が、図3に示す業務構成情報テーブル41を参照して業務1に関連する機器やリソースを抽出する。これは図18の構成機器・リソース推定ステップS102である。さらに、確認方法特定部33が、図4に示す対象毎の監視方法情報テーブル42から、各機器やリソースに対する障害監視方法を特定する。これは図18の監視方法特定ステップS104である。図5は、関連障害の確認方法特定部30が作成した業務1に関する監視方法情報テーブルの例を示す図である。
図5の業務1の監視方法情報テーブル42bによる監視方法の情報を受け取った障害情報収集制御部20は、随時障害監視部53,54を経由して、監視対象システムの中の業務1に関わる機器やリソースの障害状況の確認を、図5の「監視方法(現在状況確認方法)」に基づいて、構成される業務構成機器・リソース別に順に、直ちに実行する。これは図18の個別障害確認実行ステップS105である。例えば、図5のNW機器1について、ping NW1−1を実行し、所定の応答が返らなければ、NW機器1が障害原因であったことが確認、検知できる。この障害状況確認処理の中で図2のNW機器1 121に障害が発生していることを確認、検知すれば、クライアントプログラム1 116の業務応答が無くなった根本原因部分がNW機器1であることが判明する。
図13は、このシステムの通常時の監視方法に関するテーブルの例を示す図であるが、この中で参考として示した各監視機能の監視間隔の例によると、NW機器1の監視間隔は20分であり、本実施の形態における障害解析装置がなければ、根本原因部分の障害を検知するまでに、最悪20分の時間差が生じてしまう。
このように従来の監視装置が、個々の機器やリソースの監視をそれぞれ個別に独立して設定された監視周期で実施されているだけの状況に比べて、本障害解析装置を用いることにより、業務の障害に対する根本原因部分の特定が迅速に行える効果がある。
実施の形態2.
実施の形態1では、確認方法特定部33が図5に示す業務構成機器・リソースに対して順次、個別に障害確認を行う例を説明した。しかし順次、障害確認を行う方法では、効率が悪い。障害が発生した構成機器・リソースを推定するには、過去に発生した障害を参照して、同様の状況であれば、その構成機器・リソースであると推定するのが自然である。本実施の形態では、こうした過去の履歴によって障害が発生した業務の推定を行う。
図6は、本実施の形態における障害解析装置を示す構成ブロック図である。図において、先の実施の形態に追加された新しい構成要素として、障害履歴情報テーブル43が追加されている。この障害履歴情報テーブル43は、関連障害の確認方法特定部30が処理を行う際に参照する。
また図7は、障害履歴情報テーブル43に記憶されている具体的なデータの例を示す図であり、監視対象システム機器やリソース毎の障害履歴を記録している。
次に動作について説明する。
図8は、実施の形態1で作成した図5の監視方法情報テーブルに図7の障害履歴情報テーブル43から得た「障害発生日」「障害重大度」の情報を付加したテーブルである。
特定の業務が障害していると推定されたとして、その推定された業務を構成する機器やリソースが多数抽出される場合がある。その場合、これら抽出された全ての機器の障害状況を優先度制御なしに全抽出機器とリソースに順次、図5に示す監視方法を適用して結果を得るには長い時間が要る。
そこで、過去に障害が発生した部分は、再度障害が発生する確率が高いと想定し、まずはそれらを優先的に障害確認し一次情報を報告する。その後全件の確認を行うことで、障害復旧対策の迅速化が図れる効果がある。
図8の例では、業務プログラム1、NW機器1、共用サービスプログラム1について優先的に障害確認を行う。
実施の形態3.
実施の形態3では実施の形態2と同様に障害監視の優先処理を実施するが、優先処理判断に利用する情報は図9に例を示した障害履歴情報テーブル43cである。ここでは機能ブロック図は省略するが、この障害発生頻度情報テーブルは図6の障害履歴情報テーブル43の中にこの頻度項目を設けて、関連障害の確認方法特定部30が処理を行う際にこの頻度項目を参照する。
この場合の動作としては、実施の形態2と同様に、障害発生頻度が高い部分に障害が発生する確率が高いと想定し、まずはそれらの障害発生頻度が高い業務構成機器またはリソースを優先的に障害確認して一次情報を報告する。その後全件の確認を行うことで、障害復旧対策の迅速化が図れる効果がある。
図9の例で、たとえば3回以上のしきい値で優先監視するならば、先ずNW機器1、業務プログラム1に対して優先的に障害確認を行う。ただしNWサービス2は業務1には該当しない。
実施の形態4.
本実施の形態では実施の形態2と同様に障害監視の優先処理を実施するが、優先処理判断に利用する情報は図10に例を示したシステム変更履歴情報テーブル44である。ここでは機能ブロック図を省略するが、このシステム変更履歴情報テーブル44は図6の障害履歴情報テーブル43と同等のテーブルとし、障害履歴情報テーブル43と同様の部分に設ける。そして関連障害の確認方法特定部30が処理を行う際に、このシステム変更履歴情報テーブル44を参照する。
実施の形態2と同様に、システムに対して変更を行った部分に障害が発生する確率が高いと想定し、まずはそれらを優先的に障害確認し一次情報を報告する。その後全件の確認を行うことで、障害復旧の迅速化が図れる効果がある。
図10の例では、変更記録があるもの全てを優先するならば、業務プログラム3、業務プログラム1、NW機器3、NW機器1、共用サービスプログラム1を優先的に障害確認を行う。ただしNWサービス2は業務1には該当しない。
実施の形態5.
本実施の形態では、実施の形態2、3、4と類似で障害監視の優先処理を実施するが、優先処理判断に利用する情報は図11に例を示したシステム機器・リソース重要度情報テーブル45の情報である。ここでは機能ブロック図を省略するが、このシステム機器・リソース重要度情報テーブル45は図6の障害履歴情報テーブル43と同等のテーブルとし、障害履歴情報テーブル43と同様の部分に設ける。そして関連障害の確認方法特定部30が処理を行う際に、このシステム機器・リソース重要度情報テーブル45を参照する。
障害の根本原因箇所を特定する場合に、障害の影響が大きい機器やリソースの障害は、いち早く検知し対策をとるべきである。この目的のため、まずは重要度の高い機器やリソースを優先的に障害確認し順次報告することで、障害の業務影響を極小化できる。
図11の例では、まず重大度レベルが最高値10の業務プログラム1の障害確認を行い、順次、次いで重大度レベルの高い順へと確認を行う。
実施の形態6.
本実施の形態では、実施の形態2、3、4と類似で障害監視の優先処理を実施するが、優先処理判断に利用する情報は、図12に示される、リソース毎の単位時間当たりの使用頻度情報テーブル46である。これは例えば図1の構成において、障害情報収集制御部20が随時障害監視部53を用いて定期的に各業務構成機器とリソースの使用頻度を調べる。その調査結果を図12のリソース使用頻度情報テーブル46の、使用頻度の項に記録して管理しておく。使用頻度の調査は任意期間でよく、障害情報収集制御部20が随時障害監視部53に起動をかけて、対象となるリソースのオープン(開始)またはクローズ(終了)のどちらかを数えることで頻度が判る。これを更に積算していけば、相対的な使用頻度が判る。このリソース使用頻度テーブルを図6の障害履歴情報テーブル43と同様の部分に設ける。
そして関連障害の確認方法特定部30が処理を行う際に、このリソース使用頻度情報テーブル46を参照する。
障害の根本原因箇所を特定する場合に、リソース使用頻度情報テーブル46に記載の使用頻度が少ないリソースほど、残存バグなどの可能性があって、障害が発生しているのかもしれない。
実施の形態7.
本発明の装置は、システム障害の検知を効率よく行うことを目的としているが、その監視方法によっては、監視対象の障害自体ではなく、それ以外の障害によって誤検知している場合もあり得る。
図13は、pingによりネットワーク機器の外部から生死を確認している例であり、ping監視サーバ107からNW機器3 124を監視している。この時、NW機器3に対するping応答エラー(無応答)はNW機器3の障害以外に、監視経路上のNW機器2やNW機器4の障害でも検知してしまう。すなわち、ping監視サーバ107の位置からのNW機器3へのping監視は、NW機器2とNW機器4に依存していると言える。
本実施の形態では、実施の形態1ないし6の処理を行う前に、システム障害の検知に誤検知状態がなかったかをまず確認するものである。
図14は、通常時の監視についての監視依存関係を示した監視依存関係テーブル57の例を示した図である。たとえばNW機器3の障害を検知した場合に、「誤検知原因になる監視機能の依存箇所」に登録されているNW機器2、NW機器4の障害状況を先ず確認する。そして、これらに障害がなければ、実施の形態1ないし6の処理を実施する。
この事前処理を行うことにより、根本障害箇所検出処理の精度が向上する。
実施の形態8.
実施の形態1〜6の処理では、業務構成から抽出した機器やリソースの障害状況を、登録してある確認方法で確認するが、全ての機器やリソースに障害状態が認められないケースが考えられる。本実施の形態では、その場合でも、障害確認方法の観点を変更したり、より詳しい分析のために、障害解析情報を収集し人的な分析を行うことに備えたりする、二次ステップ、三次ステップの処理を実施できる手段を持つ。
図15は、図4に示した対象毎の監視方法情報テーブル42を拡張した監視方法情報テーブル42dであり、二次アクションを登録した例である。この例では二次アクションとしては障害解析のための情報収集方法が登録されている。
図16は、本実施の形態における動作を実行するフローである。一次アクションリストに従って関連機器、リソースの障害状況を確認しても、いずれも明らかな障害状態でない場合、二次アクションに切り替えて再度処置を、ステップS61ないしS65により実行する。
なお、この例を実施するためには、構成要素を追加した装置を示す図16において、障害解析情報収集部55,56を新たに設ける等、実施したい処理に合わせた要素を追加する必要がある。
この処理により、障害箇所を検出できなかった場合でも、人的な分析に備えた障害解析情報を予め収集しておくなどの、代替処置を実行しておくことができ、システム障害対策の迅速化がはかれる。
実施の形態9.
上記の各実施の形態では、障害解析装置はハードウェアで構成されるとして説明した。しかし装置はそれに限定されることは無く、汎用のプロセッサとメモリを用いて、メモリにソフトウェアのプログラムでステップを記述して、このプログラム・ステップにより、同等の動作を実行させてもよい。
図18は、こうしたプログラム・ステップで実施の形態1における動作を実現するフローチャートを示した図である。図において、プログラム・ステップとしてS101で障害発生業務特定部31相当の機能を組む。通常時障害監視部1 51が障害検知を通知すると、この通知をスタートの監視するステップS100として監視を始める。以下、関連リソース抽出部32相当の機能をS1お2で組み、確認方法特定部33相当の機能をS104とS105で組む。また実施の形態2ないし6における個別構成機器・リソース選択優先順位の機能を、S103で組む。
更にこの図18で示されるフローチャートの機能をプログラムとして作成しておけば、汎用の計算機にそのプログラムをロードして、上記各実施の形態で説明した障害解析装置を構成することが出来る。
この発明の実施の形態1における障害解析装置を示す構成ブロック図である。 実施の形態1における監視対象システムである業務1と特定の構成機器・リソースの関係を示す図である。 実施の形態1における業務構成情報テーブル中のデータ例を示す図である。 実施の形態1における監視方法情報テーブル中のデータ例を示す図である。 実施の形態1で関連障害の確認方法特定部が作成した監視方法情報の例を示す図である。 この発明の実施の形態2における障害解析装置を示す構成ブロック図である。 実施の形態2における障害履歴情報テーブル中のデータ例を示す図である。 実施の形態2で関連障害の確認方法特定部が作成した監視方法情報の例を示す図である。 実施の形態3における障害履歴情報テーブル中のデータ例を示す図である。 実施の形態4におけるシステム変更履歴情報テーブル中のデータ例を示す図である。 実施の形態5におけるシステム機器・リソース重要度情報テーブル中のデータ例を示す図である。 実施の形態6における使用頻度情報テーブル中のデータ例を示す図である。 実施の形態7における外部からの構成機器・リソース障害確認方法例を説明する図である。 実施の形態7における監視依存関係テーブル中のデータ例を示す図である。 実施の形態8における監視方法情報テーブル中のデータ例を示す図である。 実施の形態8における障害分析動作を示すフロー図である。 実施の形態8における障害解析装置を示す構成ブロック図である。 この発明の実施の形態9における障害解析方法を示す動作フロー図である。
符号の説明
20 障害情報収集制御部、30 関連障害の確認方法特定部、31 障害発生業務特定部、32 関連リソース抽出部、33 確認方法特定部、40 システムに関する情報群、41 業務構成情報テーブル、42,42b,42c,42d (対象毎の)監視方法情報テーブル、43,43c 障害履歴情報テーブル、44 システム変更履歴情報テーブル、45 システム機器・リソース重要度情報テーブル、46 使用頻度情報テーブル、51,52 通常時障害監視部、53,54 随時障害監視部、55,56 障害解析情報収集部、57 監視依存関係テーブル、S61 前業務関連箇所の抽出と第一次ステップアクションの抽出、S62 全対象に対するアクション実施、S63 障害箇所検出ステップ、S64 次アクション登録ステップ、S65 次アクション抽出ステップ、S101 障害業務推定ステップ、S102 該当業務の構成機器・リソース抽出ステップ、S103 構成機器・リソースの優先順位選定ステップ、S104 構成機器・リソースの確認方法特定ステップ、S105 優先順位に基づく個別障害確認実行ステップ、S106 確認実行終了確認ステップ。

Claims (1)

  1. 監視対象システムが実行する複数の業務の業務毎に業務を構成する構成機器とリソースとの情報を記憶する業務構成情報テーブルと、
    構成機器の障害状況を確認するコマンドを構成機器毎に記憶するとともに、リソースの障害状況を確認するコマンドをリソース毎に記憶する監視方法情報テーブルと、
    上記監視対象システムをあらかじめ定められた周期で監視し、上記監視対象システムの構成機器とリソースとのいずれかの障害を検知した場合、障害を検知した構成機器と障害を検知したリソースとのいずれかを示す障害検知情報を通知する通常時障害監視部と、
    上記通常時障害監視部から上記障害検知情報が通知された場合、上記業務構成情報テーブルに業務毎に記憶された業務を構成する構成機器とリソースとの情報を参照して、通知された障害検知情報が示す構成機器と通知された障害検知情報が示すリソースとのいずれかにより構成される業務を抽出し、
    抽出した業務を構成する構成機器とリソースとを上記業務構成情報テーブルを参照して抽出し、
    抽出した業務を構成する構成機器とリソースとの障害状況を確認するコマンドを上記監視方法情報テーブルを参照して特定する関連障害の確認方法特定部と
    上記関連障害の確認方法特定部が抽出した上記監視対象システムの業務を構成する構成機器とリソースとに対して、上記関連障害の確認方法特定部が特定したコマンドを実行して障害状況を確認する随時障害監視部と
    を備えたことを特徴とする障害解析装置。
JP2004133998A 2004-04-28 2004-04-28 障害解析装置 Expired - Fee Related JP4575020B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004133998A JP4575020B2 (ja) 2004-04-28 2004-04-28 障害解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004133998A JP4575020B2 (ja) 2004-04-28 2004-04-28 障害解析装置

Publications (2)

Publication Number Publication Date
JP2005316728A JP2005316728A (ja) 2005-11-10
JP4575020B2 true JP4575020B2 (ja) 2010-11-04

Family

ID=35444087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004133998A Expired - Fee Related JP4575020B2 (ja) 2004-04-28 2004-04-28 障害解析装置

Country Status (1)

Country Link
JP (1) JP4575020B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4928480B2 (ja) * 2008-01-31 2012-05-09 株式会社野村総合研究所 ジョブ処理システムおよびジョブ管理方法
US8612372B2 (en) 2008-08-29 2013-12-17 International Business Machines Corporation Detection rule-generating facility
JP5237034B2 (ja) 2008-09-30 2013-07-17 株式会社日立製作所 イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。
JP2010205066A (ja) * 2009-03-04 2010-09-16 Nec Corp 反例解析支援装置、反例解析支援システム、それらの反例解析支援方法及びプログラム
WO2013190694A1 (ja) * 2012-06-22 2013-12-27 株式会社日立製作所 計算機の復旧方法、計算機システム及び記憶媒体
US20210019299A1 (en) * 2019-07-17 2021-01-21 Aveva Software, Llc System and server comprising database schema for accessing and managing utilization and job data
CN110502404B (zh) * 2019-07-22 2022-05-31 平安科技(深圳)有限公司 一种基于数据治理平台的预警处理方法及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000069003A (ja) * 1998-08-21 2000-03-03 Nippon Telegr & Teleph Corp <Ntt> マルチレイヤネットワーク故障影響範囲推定方法及びその装置
JP2000209201A (ja) * 1999-01-11 2000-07-28 Fujitsu Ltd ネットワ―ク管理方法及びネットワ―ク管理システム
JP2002271328A (ja) * 2001-03-09 2002-09-20 Mitsubishi Electric Corp ネットワーク障害解析装置およびネットワーク障害解析方法
JP2003162504A (ja) * 2001-11-26 2003-06-06 Hitachi Ltd 障害分析支援システム
JP2003241996A (ja) * 2002-02-19 2003-08-29 Yoshihiro Maruyama 動作依存性情報と障害情報を元にコンピュータシステムの障害予測と原因特定を行う方法及びシステム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0594383A (ja) * 1991-10-02 1993-04-16 Nec Corp 障害監視装置
JPH10187232A (ja) * 1996-12-19 1998-07-14 Toshiba Corp 監視制御装置
JP3598394B2 (ja) * 1997-02-13 2004-12-08 日本電信電話株式会社 サービス管理方法及び装置
JPH10326208A (ja) * 1997-03-24 1998-12-08 N T T Data:Kk 障害復旧システム及び記録媒体
US6138122A (en) * 1998-03-02 2000-10-24 Agilent Technologies Modeling of internet services
JPH11259331A (ja) * 1998-03-13 1999-09-24 Nippon Telegr & Teleph Corp <Ntt> ネットワークにおける障害箇所検出方法及び装置及びネットワークにおける障害箇所検出プログラムを格納した記憶媒体
JPH11353254A (ja) * 1998-06-11 1999-12-24 Sharp Corp ネットワーク管理装置ならびにネットワーク管理プログラムを記録した記録媒体
US7096459B2 (en) * 2002-09-11 2006-08-22 International Business Machines Corporation Methods and apparatus for root cause identification and problem determination in distributed systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000069003A (ja) * 1998-08-21 2000-03-03 Nippon Telegr & Teleph Corp <Ntt> マルチレイヤネットワーク故障影響範囲推定方法及びその装置
JP2000209201A (ja) * 1999-01-11 2000-07-28 Fujitsu Ltd ネットワ―ク管理方法及びネットワ―ク管理システム
JP2002271328A (ja) * 2001-03-09 2002-09-20 Mitsubishi Electric Corp ネットワーク障害解析装置およびネットワーク障害解析方法
JP2003162504A (ja) * 2001-11-26 2003-06-06 Hitachi Ltd 障害分析支援システム
JP2003241996A (ja) * 2002-02-19 2003-08-29 Yoshihiro Maruyama 動作依存性情報と障害情報を元にコンピュータシステムの障害予測と原因特定を行う方法及びシステム

Also Published As

Publication number Publication date
JP2005316728A (ja) 2005-11-10

Similar Documents

Publication Publication Date Title
JP6828096B2 (ja) サーバハードウェア障害の分析及びリカバリ
US9672085B2 (en) Adaptive fault diagnosis
US9003230B2 (en) Method and apparatus for cause analysis involving configuration changes
Sharma et al. CloudPD: Problem determination and diagnosis in shared dynamic clouds
JP4866861B2 (ja) トランザクション・ベースのシステムを監視するための方法及びシステム
Xu et al. POD-Diagnosis: Error diagnosis of sporadic operations on cloud applications
US20100064179A1 (en) Call-stack pattern matching for problem resolution within software
US10177984B2 (en) Isolation of problems in a virtual environment
US20120054554A1 (en) Problem isolation in a virtual environment
US9122784B2 (en) Isolation of problems in a virtual environment
WO2015116064A1 (en) End user monitoring to automate issue tracking
WO2006117833A1 (ja) 監視シミュレーション装置,方法およびそのプログラム
JP2011197785A (ja) ログ収集システムおよびログ収集プログラム
JP4575020B2 (ja) 障害解析装置
US20140372803A1 (en) Apparatus and method for analyzing abnormal states of component-based system
JP5503177B2 (ja) 障害情報収集装置
JP2004145536A (ja) 管理システム
EP2495660A1 (en) Information processing device and method for controlling information processing device
US20050149809A1 (en) Real time determination of application problems, using a lightweight diagnostic tracer
JP6317074B2 (ja) 障害通知装置、障害通知プログラムならびに障害通知方法
Chan et al. Debugging incidents in Google's distributed systems
AU2014200806B1 (en) Adaptive fault diagnosis
Dudley et al. Automatic self-healing systems in a cross-product IT environment
JP2004086278A (ja) 装置障害監視方法および装置障害監視システム
Avritzer et al. Using software aging monitoring and rejuvenation for the assessment of high-availability systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070314

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090526

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100608

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100716

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100817

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100819

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees