JPH10326208A - 障害復旧システム及び記録媒体 - Google Patents

障害復旧システム及び記録媒体

Info

Publication number
JPH10326208A
JPH10326208A JP6485298A JP6485298A JPH10326208A JP H10326208 A JPH10326208 A JP H10326208A JP 6485298 A JP6485298 A JP 6485298A JP 6485298 A JP6485298 A JP 6485298A JP H10326208 A JPH10326208 A JP H10326208A
Authority
JP
Japan
Prior art keywords
failure
procedure
analysis
recovery
cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6485298A
Other languages
English (en)
Inventor
Yuji Senboku
裕司 千北
Jiro Noda
次郎 野田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA KK
NTT Data Group Corp
Original Assignee
N T T DATA KK
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA KK, NTT Data Corp filed Critical N T T DATA KK
Priority to JP6485298A priority Critical patent/JPH10326208A/ja
Publication of JPH10326208A publication Critical patent/JPH10326208A/ja
Pending legal-status Critical Current

Links

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)
  • Digital Computer Display Output (AREA)
  • Computer And Data Communications (AREA)

Abstract

(57)【要約】 【課題】 システムの障害報告後の障害原因の追求及び
障害復旧を効率よく自動化して、システム管理者の作業
負荷を軽減し、障害復旧を自動化して、障害からの迅速
な復旧を可能とする。 【解決手段】 障害管理部21は、監視エージェント部
12からの障害通知を受け、障害原因の追求及び障害復
旧を行う障害管理プロセスを実行する。予め、手順登録
部22により、アプリケーション毎に、障害解析及び復
旧の手順の登録を行う。コンポーネント登録部26は、
障害原因となり得る各コンポーネント毎に、解析及び復
旧手順を登録する。フロー登録部27により、各コンポ
ーネントを組み合わせて障害解析及び復旧フローを登録
する。登録された障害解析及び復旧の手順は、記憶部2
3の解析手順記憶部28及び復旧手順記憶部29にそれ
ぞれ記憶され、障害解析部24及び障害復旧部25によ
り参照される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、システムの障害
発生時の原因解析及び障害復旧の自動化に係り、特に、
クライアント−サーバシステムにおけるアプリケーショ
ンに関連する障害の管理に好適な障害復旧システムに関
する。
【0002】
【従来の技術】近年における分散環境の発達にともなっ
て、端末装置等のシステムの障害管理等を含む運用管理
に要する時間及びコストが著しく増大している。分散環
境、すなわちネットワークを介して分散処理を行うシス
テムにおいては、コンピュータ及び端末装置等がネット
ワークの各所に散在する。このように、管理の対象がネ
ットワーク上に散在するため、運用管理作業は、散在す
る対象の全てについて行わなければならない。
【0003】このような背景のもとで、システム管理者
の管理負荷を軽減するため、端末等の状態を監視し、障
害が発生すると管理者に報告するツールが存在する。し
かし、障害の発生を監視する部分を自動化するだけで
は、システム管理者の負荷は依然として大きい。
【0004】このような問題を解決するため、特開平2
−91735号には、分散処理システムにおいて、リモ
ート側の障害を、リモート側とホスト側との連携により
監視分析して復旧処理するツールが開示されている。ま
た、特開平5−41706号には、ネットワークシステ
ムにおいて、障害原因を追求し、障害復旧のためのコマ
ンドを自動発行するツールが開示されている。
【0005】
【発明が解決しようとする課題】しかし、これらの文献
は、障害の原因の解析と障害の復旧との関連、具体的な
障害復旧の処理、及び障害の原因の解析と障害の復旧処
理の設定操作等については、何ら言及されていない。
【0006】すなわち、特開平2−91735号及び特
開平5−41706号は、障害原因の追求及び障害復旧
を自動的に行うことを漠然と開示したに過ぎず、具体的
なシステム構成については開示されていない。このた
め、システムの障害報告後の障害原因の追求及び障害復
旧を効率よく自動化することは困難であり、システム管
理者の作業負荷が大きい。従って、障害からの迅速な復
旧も困難であり、システムの信頼性も低いままであっ
た。
【0007】この発明は、上述した事情に鑑みてなされ
たもので、システム管理者の作業負荷を軽減するととも
に、障害からの迅速な復旧を可能とすることを目的とす
る。また、この発明は、システムの障害報告後の障害原
因の追求及び障害復旧を効率よく自動化することを目的
とする。
【0008】
【課題を解決するための手段】上記目的を達成するた
め、この発明の第1の観点による障害復旧システムは、
複数のコンピュータシステムがネットワークにより結合
されてなるネットワークシステムと、前記ネットワーク
システム上の1以上のコンピュータシステムにて、1以
上のアプリケーションを実行するアプリケーション実行
手段と、前記アプリケーションの実行と該アプリケーシ
ョンが稼働しているコンピュータシステムととの障害を
監視して、障害の状況を通知する監視手段と、前記監視
手段からの通知に基づき、前記アプリケーション毎に予
め設定された手順に従って障害の状況を解析し、障害の
原因を追求する障害解析手段と、前記障害解析手段によ
る障害の原因の追求結果に基づき、前記アプリケーショ
ン毎に予め設定した手順に従って障害の原因を回避・除
去して障害の復旧を行う障害復旧手段と、を具備する。
【0009】前記障害解析手段は、障害の原因を特定で
きた場合に、前記障害復旧手段に障害の原因を提供し
て、該障害復旧手段を起動し、障害の原因が特定できな
かった場合には、システム管理者への障害状況の報告表
示を行う手段を含んでいてもよい。
【0010】前記障害解析手段及び障害復旧手段は、前
記アプリケーション毎に設定された手順又は複数の前記
アプリケーションに共通に設定された手順に従って障害
解析及び障害復旧を行う手段であってもよい。
【0011】前記障害解析手段における障害の解析の手
順及び障害復旧手段における障害復旧の手順の少なくと
も一方を設定する手順設定手段をさらに含んでいてもよ
い。
【0012】前記手順設定手段は、障害の要因となる各
処理要素についての解析・復旧手順が登録されており、
障害の要因となる各処理要素をシンボル化して表示画面
上に配置し、前記表示画面上で方向性をもって、該複数
の処理要素間を、結合することにより、処理要素の順序
を設定する手段を含んでいてもよい。
【0013】この発明の第2の観点による障害復旧シス
テムは、障害解析の手順及び障害復旧の手順の少なくと
も一方を、アプリケーション毎に設定する手順設定手段
と、前記アプリケーションの実行に係る障害を監視し
て、障害状況を通知する監視手段と、前記監視手段によ
る障害状況の通知に基づき、前記手順設定手段により予
め前記アプリケーション毎に設定した手順に従って、障
害状況を解析し、障害原因を追求する障害解析手段と、
前記障害解析手段による障害原因の追求結果に基づき、
前記手順設定手段により予め前記アプリケーション毎に
設定した手順に従って、障害原因を回避・除去して障害
復旧を行う障害復旧手段と、を具備する。
【0014】前記障害解析手段は、障害原因を特定でき
た場合に、前記障害復旧手段に障害原因を提供して、該
障害復旧手段を起動し、障害原因が特定できなかった場
合には、システム管理者への障害状況の報告表示を行う
手段を含んでいてもよい。前記手順設定手段は、各アプ
リケーションについて、前記障害解析の手順及び障害復
旧の手順を、それぞれ所望に応じて各別に設定する手段
を含んでいてもよい。前記手順設定手段は、各アプリケ
ーションについて、前記障害解析の手順及び障害復旧の
手順を、共通に設定する手段を含んでいてもよい。前記
手順設定手段は、障害要因となる各処理要素についての
解析・復旧手順を登録し、前記アプリケーションに係る
複数の処理要素をシンボル化して表示画面上に配置し、
前記表示画面上で方向性をもって、該複数の処理要素間
を、結合することにより、処理要素の順序を設定する手
段を含んでいてもよい。
【0015】この発明に係る障害復旧システムは、複数
のコンピュータシステムがネットワークにより結合され
てなるネットワークシステム上の1以上のコンピュータ
システムにて、1以上のアプリケーションを実行してい
る際に、前記アプリケーションの実行及び該アプリケー
ションが稼働しているコンピュータシステムに係る障害
を監視して、障害が発生すると、障害状況の通知に基づ
き、アプリケーション毎に予め設定した手順に従って障
害状況を解析し、障害原因を追求するとともに、アプリ
ケーション毎に予め設定した手順に従って障害原因を回
避・除去して障害復旧を実行する。このシステムでは、
アプリケーション毎に予め設定した手順に従って障害原
因を追求し、同様にアプリケーション毎に予め設定した
手順に従って障害原因を回避・除去して障害復旧を行う
ので、適切な障害復旧を実現することができる。
【0016】また、この発明に係る障害復旧システム
は、障害要因となる各処理要素毎に解析・復旧手順を登
録し、アプリケーション毎に、関連する各処理要素をシ
ンボル化して表示画面に表示し、各障害要素間を矢印等
により方向性結合することにより、アプリケーション毎
の障害解析・復旧手順を登録する。これら障害解析手順
及び障害除去手順は、アプリケーション毎に共通に使用
するようにしてもよい。このシステムでは、容易にアプ
リケーション毎の適切な障害解析・復旧手順を登録する
ことができ、適切な障害復旧の自動化を容易に達成する
ことができる。
【0017】この発明のコンピュータ読み取り可能な記
録媒体は、ネットワークシステム上の1以上のコンピュ
ータシステムを、アプリケーションの実行と該アプリケ
ーションが稼働しているコンピュータシステムの障害を
監視して、障害の状況を通知する監視手段、前記監視手
段からの通知に基づき、前記アプリケーション毎に予め
設定された手順に従って障害の状況を解析し、障害の原
因を追求する障害解析手段、前記障害解析手段による障
害の原因の追求結果に基づき、前記アプリケーション毎
に予め設定した手順に従って障害の原因を回避・除去し
て障害の復旧を行う障害復旧手段、として機能させるた
めのプログラムを格納したことを特徴とする。
【0018】さらに、この発明のコンピュータ読みとり
可能な記録媒体は、コンピュータを、障害解析の手順及
び障害復旧の手順の少なくとも一方を、アプリケーショ
ンに設定する手順設定手段、実行中の前記アプリケーシ
ョンの障害の状況を監視して、障害の状況を通知する監
視手段、前記監視手段による障害の状況の通知に基づ
き、前記手順設定手段により予め前記アプリケーション
に設定した手順に従って、障害状況を解析し、障害原因
を追求する障害解析手段、前記障害解析手段による障害
の原因の追求結果に基づき、前記手順設定手段により予
め前記アプリケーション毎に設定した手順に従って、障
害の原因を回避・除去して障害の復旧を行う障害復旧手
段、として機能させるためのプログラムを格納している
ことを特徴とする。
【0019】
【発明の実施の形態】以下、この発明の実施の形態を図
面を参照して説明する。図1〜図4を参照して、この発
明の第1の実施の形態に係るネットワークシステムに適
用した障害復旧システムを説明する。
【0020】図1は、この発明の第1の実施の形態に係
るネットワークシステムに適用された障害復旧システム
の原理的なシステム構成を模式的に示している。図2
は、該ネットワークシステムのシステム構成及びプロセ
ス構成を模式的に示している。
【0021】図1に示す障害復旧システムは、ネットワ
ークNWにより互いに結合される第1の装置1及び第2
の装置2を有するネットワークシステムに適用されてい
る。第1の装置1及び第2の装置2は、いわゆるワーク
ステーション、パーソナルコンピュータ等のようなコン
ピュータシステムを構築する端末装置を含み、それぞれ
例えばクライアント装置及びサーバ装置として機能す
る。
【0022】第1の装置1はアプリケーション実行部1
1及び監視エージェント部12を備え、第2の装置2は
障害管理部21を備えている。
【0023】図2は、上述した第1の装置1、第2の装
置2及びネットワークNWのハードウェア的な結合関
係、並びに、アプリケーション実行部11、監視エージ
ェント部12及び障害管理部21の各部において実行さ
れる各プロセスの相互関係を示す。
【0024】図1及び図2において、アプリケーション
実行部11は、端末装置等の第1の装置1内で1以上の
アプリケーション(アプリケーションプログラム)を実
行する。
【0025】監視エージェント部12は監視エージェン
トプロセスを実行する。この監視エージェントプロセス
は、アプリケーション実行部11が実行しているアプリ
ケーションの状況(実行の状況)を監視するプロセスで
あり、障害が発生した場合には、障害管理部21に障害
の発生及び障害状況を通知する。
【0026】障害管理部21は、監視エージェント部1
2からの通知を受け、障害原因の追求及び障害復旧を行
う障害管理プロセスを実行する。障害管理部21は、障
害管理プロセスを実行するため、図1に示すように、手
順登録部22、記憶部23、障害解析部24及び障害復
旧部25を有している。
【0027】手順登録部22は、障害解析及び障害復旧
のための手順を予め記憶部23に登録するために用いら
れる。手順登録部22は、コンポーネント登録部26及
びフロー登録部27を有しており、障害の解析及び復旧
の手順を簡単に登録できるようにする。
【0028】コンポーネント登録部26は、障害原因と
なり得る各要素部分毎に、解析及び復旧に用いられるコ
マンドの実行シーケンスのような解析手順及び復旧手順
を登録するための機能を有する。すなわち、コンポーネ
ント登録部26は、このような障害原因となり得る各要
素部分をコンポーネントとし、コンポーネント毎の解析
シーケンスを、例えばシステム管理者の操作によって、
インタラクティブ(対話的)に登録する。コンポーネン
ト、すなわち障害原因となり得る要素部分には、例えば
IP(Internet Protocol)処理部分、TCP(Transmi
ssion ControlProtocol)処理部分等がある。また、各
コンポーネント毎の解析手順のシーケンスを構成する実
行コマンドには、例えばpingコマンド等が多く用いられ
る。
【0029】フロー登録部27は、アプリケーション毎
に、各コンポーネントを組み合わせて障害解析フロー及
び障害復旧フローを登録する。フロー登録部27による
障害解析フローの登録は、コンポーネントを選択し、そ
れらコンポーネント間の処理の流れを決めるだけであ
る。具体的には、例えば、各コンポーネントをシンボル
化して表示画面上に配置し、各シンボル間を矢印等によ
り方向性をもって結合すればよい。これらコンポーネン
トのシンボルの選定及び画面上での配置及び矢印等によ
る方向性結合は、マウスによるいわゆるドラッグアンド
ドロップ操作等を用いれば、一層簡単に行うことができ
る。
【0030】障害復旧の手順についても、障害解析と同
様にして登録することができる。すなわち、コンポーネ
ント登録部26は、障害原因となり得る各要素部分であ
るコンポーネント毎の復旧シーケンスを、例えばシステ
ム管理者の操作によって、インタラクティブに登録す
る。この場合も、障害原因となり得る要素部分であるコ
ンポーネントは、例えばIP処理部分、TCP処理部分
等であり、各コンポーネント毎の復旧手順のシーケンス
を、適宜なる実行コマンドで構成する。
【0031】フロー登録部27による障害復旧フローの
登録も、コンポーネントを選択し、それらコンポーネン
ト間の処理の流れを決めるだけである。具体的には、各
コンポーネントをシンボル化して表示画面上に配置し、
各シンボル間を矢印等により方向性をもって結合する。
これらコンポーネントのシンボルの選定及び画面上での
配置及び矢印等による方向性結合も、マウスによるいわ
ゆるドラッグアンドドロップ操作等を用いて簡単に行う
ことができる。
【0032】登録された障害解析及び障害復旧の手順
は、記憶部23の解析手順記憶部28及び復旧手順記憶
部29にそれぞれ記憶される。
【0033】障害解析部24は、該当するアプリケーシ
ョンについて、記憶部23の解析手順記憶部28を参照
し、該記憶部23に登録された障害解析フローに従った
手順で障害原因を追求して障害を解析する。
【0034】障害復旧部25は、障害解析部24の解析
結果に基づいて、該当するアプリケーションについて、
記憶部23の復旧手順記憶部29から対応する障害復旧
フローを読み出す。障害復旧部25は、読み出した手順
に従って、主としてアプリケーション実行部11のアプ
リケーションにおける障害原因を回避又は除去して障害
を復旧する。
【0035】次に、図1及び図2に示した、障害復旧シ
ステムの動作を、図3に示すフローチャートを参照して
説明する。
【0036】まず、アプリケーションの実行をともなう
システムの動作に先立ち、障害管理部21の手順登録部
22により、例えばシステム管理者の操作により、コン
ポーネント解析手順、コンポーネント復旧手順、解析手
順フロー及び復旧手順フローが記憶部23に登録され
る。
【0037】即ち、システム管理者は、手順登録部22
のコンポーネント登録部26の機能に基づくインタラク
ティブな操作により、障害原因となり得る各要素部分で
あるコンポーネント毎に、解析及び復旧に用いられるコ
マンドの実行シーケンスのような解析シーケンス及び復
旧シーケンスを登録する。
【0038】コンポーネント、すなわち障害原因となり
得る要素部分としては、例えば図4に示すように、IP
(Internet Protocol)コンポーネントC1、UDP(U
serDatagram Protocol)コンポーネントC2、TCPコ
ンポーネントC3、SNMP(Simple Network Managem
ent Protocol)コンポーネントC4、DNS(Domain N
ame Service)コンポーネントC5、HTTP(Hyper T
ext Transfer Protocol)コンポーネントC6、ODB
C(Open Database Connectivity)コンポーネントC
7、及びSQLサーバコンポーネントC8等がある。
【0039】コンポーネント毎の解析手順のシーケンス
を構成する解析用の実行コマンドには、pingコマンド、
等がある。
【0040】例えば、解析シーケンスとして、IPコン
ポーネントC1については、実行中のアプリケーション
がアクセスしている他のアプリケーションに対して、監
視エージェントプロセスにpingコマンドを実行させ、実
行結果を通知させるコマンド群(シーケンス)を設定す
る。UDPコンポーネントC2については、監視エージ
ェントプロセスに、tracertコマンドを実行させ、実行
結果を通知させるコマンド群(シーケンス)を設定す
る。
【0041】TCPコンポーネントC3については、接
続状態をチェックするために、監視エージェントプロセ
スにnetstatコマンドを実行させ、実行結果を通知させ
るコマンド群(シーケンス)を設定する。SNMPコン
ポーネントC4については、SNMPのgetコマンドを
実行させ、値が帰ってくるかどうか確認する。DNSコ
ンポーネントC5については、監視エージェントプロセ
スに、ipconfigコマンドを実行させ、DNSが正常に設
定されているかどうかを確認した後、別の装置に対して
ping[別の装置名]を実行し、実行結果を確認する。
【0042】HTTPコンポーネントC6については、
HTTPサーバ上で、WWWサービスが起動しているこ
とを確認する。ODBCコンポーネントC7について
は、自マシンのSQLサーバ用のODBCドライバのバ
ージョンを問い合わせるコマンドと、アプリケーション
が必要とするODBCドライバのバージョンを問い合わ
せるコマンドと、問い合わせにより得られたバーション
を比較し比較結果を通知すると共に、一致しない場合
に、アプリケーションが必要とするバージョンのODB
Cドライバのバージョンを通知させるシーケンスを設定
する。SQLサーバコンポーネントC8については、S
QLServerが動作しているサーバ上で、SQLServerの
サービスが起動していることを確認する。
【0043】さらに、システム管理者は、障害原因とな
り得る各要素部分であるコンポーネント毎に、復旧シー
ケンスを、コンポーネント登録部26によるインタラク
ティブな操作によって登録する。障害原因となり得る要
素部分であるコンポーネントは障害解析の場合とほぼ同
様であり、コンポーネント毎に、復旧手順のシーケンス
を、適当な実行コマンドを組み合わせて構成する。
【0044】図4に示すように、復旧シーケンスとし
て、IPコンポーネントC1については、実行中のアプ
リケーションがアクセスしている他のアプリケーション
を再起動させるコマンド群(シーケンス)を設定する。
従って、例えば、IPコンポーネントで異常が検出され
た場合には、他のアプリケーションが再起動される。
【0045】UDPコンポーネントC2については、T
CP/IPの設定を行い、装置を再起動する。TCPコ
ンポーネントC3については、一旦接続を切り、再接続
させるコマンド群を設定する。従って、TCPコンポー
ネントC3で異常が検出された場合には、接続が一旦切
断され、改めで、接続動作が実行される。SNMPコン
ポーネントC4については、SNMPに関する設定を行
い、装置を再起動する。
【0046】DNSコンポーネントC5については、D
NSに関する設定を行い、装置を再起動する。HTTP
コンポーネントC6については、HTTPサーバのWW
Wサービスを再起動する。ODBCコンポーネントC7
については、監視エージェントプロセス12が通知した
バージョンのODBCと該ODBCをインストールする
スクリプトを送信してインストールさせるコマンド
(群)を設定する。従って、ODBCコンポーネントC
7で、異常が検出された場合は、正しいバージョンのO
DBCが第1の装置に送信され、インストールされる。
SQLサーバコンポーネントC8については、SQLSe
rverのサービスを再起動する。
【0047】次に、システム管理者は、フロー登録部2
7により、アプリケーション毎に、各コンポーネントを
組み合わせて障害解析フロー及び障害復旧フローを登録
する。フロー登録部27による障害解析フローの登録
は、コンポーネントを選択し、それらコンポーネント間
の処理の流れを決めるだけである。
【0048】例えば、システム管理者が、図4に示すよ
うに、各コンポーネントC1〜C10をシンボル化して
表示画面上に配置し、各シンボル間を矢印等により方向
性をもって結合すればよい。これらコンポーネントのシ
ンボルの選定及び画面上での配置及び矢印等による方向
性結合は、マウスによるいわゆるドラッグアンドドロッ
プ操作等を用いれば、一層簡単に行うことができる。
【0049】図4に示す障害解析フローでは、IPコン
ポーネントC1の解析の次には、UDPコンポーネント
C2又はTCPコンポーネントC3の解析を行う。UD
PコンポーネントC2の解析の次には、SNMPコンポ
ーネントC4又はDNSコンポーネントC5の解析を行
う。TCPコンポーネントC3の解析の次は、HTTP
コンポーネントC6又はODBCコンポーネントC7の
解析を行う。ODBCコンポーネントC7の解析の次に
は、SQLサーバコンポーネントC8の解析を行う。
【0050】図4のフローにおける分岐については、分
岐元の解析において、次にどちらの分岐先に進むかを判
別するものとする。解析を確実にするために、両方の分
岐先について解析を行うようにしてもよい。
【0051】障害復旧フローの登録も、フロー登録部2
7により、コンポーネントを選択し、それらコンポーネ
ント間の処理の流れを決めるだけであり、各コンポーネ
ントをシンボル化して表示画面上に配置し、各シンボル
間を矢印等により結合する。この矢印により示される手
順に従って各コンポーネントC1〜C10についての障
害解析及び障害復旧の処理が行われる。
【0052】なお、障害解析及び復旧フローは、アプリ
ケーション毎に登録する。コンポーネントC1〜C10
は、新規にアプリケーションを追加する場合には、過去
に登録したものの再利用が可能である。
【0053】コンポーネント登録部26及びフロー登録
部27により登録された障害解析及び障害復旧の手順
は、記憶部23の解析手順記憶部28及び復旧手順記憶
部29にそれぞれ記憶される。
【0054】図3において、システムの動作がスタート
すると、第1の装置1のアプリケーション実行部11及
び監視エージェント部12におけるアプリケーション実
行プロセス及び監視エージェントプロセス、並びに第2
の装置2の障害管理部21における障害管理プロセスの
各プロセスが起動される(ステップS1)。
【0055】監視エージェント部12の監視エージェン
トプロセスは、アプリケーション実行部11におけるア
プリケーション実行プロセスすなわちアプリケーション
の実行状態を監視し(ステップS2〜図2:矢印A
1)、正常であるか否かをチェックする(ステップS
3)。ステップS3で、正常であると判定される限り、
監視エージェントプロセスはアプリケーションの状態監
視を継続的に繰り返す。
【0056】ステップS3において、アプリケーション
の状態が正常でないと判定されると、監視エージェント
プロセスは、障害管理部21の障害管理プロセスに障害
情報を通知する(ステップS4〜図2:矢印A2)。監
視エージェントプロセスからの障害情報に基づき障害管
理プロセスは、記憶部23の解析手順記憶部28を参照
し、図4に示す障害解析フローに従って障害原因を追求
し、障害状況を解析する(ステップS5〜図2:矢印A
3)。
【0057】図4の障害解析フローに基づく障害解析に
より、障害原因の追求が終了し、障害の解析が完了した
か否かが判定される(ステップS6)。ステップS6に
おいて、障害原因が全て判明し、障害解析が完了したと
判定されると、障害管理プロセスは、復旧手順記憶部2
9を参照し、図4とほぼ同様にして登録された障害復旧
フローに従って、障害解析により判明した障害原因に応
じて障害を回避・除去し、障害復旧を行う(ステップS
7〜図2:矢印A4)。ステップS7による障害復旧に
より、正常に戻された後は、ステップS2に戻り、ステ
ップS2以降の処理を繰り返す。
【0058】ステップS6において、ステップS5を終
了しても、障害原因が全て判明しておらず、障害解析が
完了していないと判定されると、障害管理プロセスは、
システム管理者に対し、アラーム、メッセージ等によっ
てその旨を報告する(ステップS8)。ステップS8に
より、障害原因が完全に解析できず、自動復旧ができな
いことが報告されると、システム管理者は、図3に示す
一連の処理を終了させ、マニュアルによる復旧処理を行
う。
【0059】上述の障害復旧システムにおいては、障害
を検出して障害通知を発行し、その障害通知をトリガに
して、予め登録された手順に基づき自動的に障害の解析
を行う。そして、解析による障害原因の追求を終えた時
点で、障害の復旧を自動的に行い、正常な状態に戻すこ
とができる。
【0060】しかも、障害解析及び障害復旧の手順の登
録を簡単に行うことができるようにするため、障害とな
り得るコンポーネント毎に解析手順を登録する。そし
て、アプリケーション毎にコンポーネントを組み合わせ
て障害解析フローを登録する。同様に、障害となり得る
コンポーネント毎に障害復旧手順を登録する。そして、
アプリケーション毎にコンポーネントを組み合わせて障
害復旧フローを登録する。このようにして、簡単な操作
で、障害解析及び障害復旧の処理手順を簡単に登録する
ことができる。対象となるアプリケーションを追加する
場合にも、コンポーネントの組み合わせ及びフローを変
えて登録するだけである。したがって、このシステム
は、拡張性にも優れている。
【0061】以上説明した、障害復旧システムをネット
ワークシステムに適用した例を、図5を参照して説明す
る。図5に示す障害復旧システムは、ネットワークNW
により互いに結合される第1の装置1A、第2の装置2
A及び第3の装置3を有するネットワークシステムに適
用されている。第1の装置1A、第2の装置2A及び第
3の装置3は、いわゆるワークステーション、パーソナ
ルコンピュータ等のようなコンピュータシステムを構築
する端末装置を含む。
【0062】図2の場合と同様に、第1の装置1Aはア
プリケーション実行部11A及び監視エージェント部1
2を備え、第2の装置2Aは障害管理部21Aを備えて
いる。さらに、図5の第3の装置3はデータベース部3
1及び監視エージェント部32を備えている。
【0063】このシステムでは、第1の装置1Aのアプ
リケーション実行部11Aで実行されるアプリケーショ
ンプロセスが、第3の装置3のデータべース部31をア
クセスしている。なお、データベース部31は、SQL
サーバを用いているものとする。この第3の装置3にも
監視エージェント部32が設けられており、この監視エ
ージェント部32で第3の装置3についての監視エージ
ェントプロセスが実行される。
【0064】このシステムにおいては、障害解析・復旧
フローを例えば図6のように構成する。この場合も第2
の装置2Aの障害管理部21Aの障害管理プロセスによ
り、障害解析・復旧フローを予め登録しておく。障害解
析・復旧フローの登録は、図6のように、表示画面上に
IPコンポーネントC1、TCPコンポーネントC3、
ODBCコンポーネントC7、SQLサーバコンポーネ
ントC8及びアプリケーションコンポーネントC9のシ
ンボルを配置しておき、各コンポーネント間を矢印等に
より方向性をもって結合すればよい。このとき、例え
ば、図4に示した各コンポーネントが、他のアプリケー
ションに関連して既に登録されていたとすると、図4と
共通のIPコンポーネントC1、TCPコンポーネント
C3、ODBCコンポーネントC7及びSQLサーバコ
ンポーネントC8については、図6の登録の際に新たに
登録する必要はなく、既に登録されているものを利用す
ることができる。
【0065】例えば、障害解析時のIPコンポーネント
C1、TCPコンポーネントC3及びODBCコンポー
ネントC7の詳細な解析手順のシーケンスの例を示す。
【0066】〔a〕IPコンポーネントC1 (1) 第2の装置2Aの障害管理部21Aによる障害管理
プロセスが、第1の装置1Aの監視エージェント部12
の監視エージェントプロセスに、第3の装置3に対する
pingコマンドを実行させる命令を送信する。 (2) 第2の装置2Aの障害管理プロセスから命令を受け
た第1の装置1Aの監視エージェントプロセスは、第3
の装置3に対してpingコマンドを実行する。 (3) 第1の装置1Aの監視エージェントプロセスは、実
行結果、すなわちpingコマンドが成功したか否かを、第
2の装置2Aの障害管理プロセスに送信する。
【0067】〔b〕TCPコンポーネントC3 (1) 第2の装置2Aの障害管理プロセスが、第1の装置
1Aの監視エージェントプロセスに、接続状態を確認す
るためのnetstatコマンドを実行させる命令を送信す
る。 (2) 第2の装置2Aの障害管理プロセスから命令を受け
た第1の装置1Aの監視エージェントプロセスは、nets
tatコマンドを実行し、接続状態を確認する。 (3) 第1の装置1Aの監視エージェントプロセスは、実
行結果、すなわち接続状態が正常か否かを第2の装置2
Aの障害管理プロセスに送信する。
【0068】〔c〕ODBCコンポーネントC7 (1) 第2の装置2Aの障害管理プロセスが、第1の装置
1Aの監視エージェントプロセスに、ODBCドライバ
のバージョンが正しいかどうかを確認する命令を送信す
る。 (2) 命令を受けた第1の装置1Aの監視エージェントプ
ロセスは、当該マシンすなわち第1の装置1AのSQL
サーバ用のODBCドライバのバージョンが、第1の装
置1Aのアプリケーションが必要とするバージョンに該
当するか否かを確認する。 (3) 第1の装置1Aの監視エージェントプロセスは、実
行結果、すなわちODBCドライバのバージョンが異常
か否かを、第2の装置2Aの障害管理プロセスに送信す
る。
【0069】次に、図5のシステムにおける障害発生、
障害解析及び障害復旧に係る動作について説明する。図
5のシステムの稼動中に、第1の装置1Aのアプリケー
ション実行部11Aで実行されているアプリケーション
に障害が発生したとする。障害の原因は、この場合、第
1の装置1Aで、他の新しいアプリケーションをインス
トールした際に、SQLサーバ用のODBCドライバ
が、現在実行しているアプリケーションが要求するOD
BCドライバのバージョンとは異なるバージョンに置き
換わってしまい、第1の装置1Aのアプリケーションが
第3の装置3のデータべース部31のデータベースにア
クセスできなくなったためであるとする。
【0070】このような場合の障害解析及び復旧の処理
の流れは、次のようになる。 〈1〉第1の装置1Aのアプリケーションで障害発生 第1の装置1Aの監視エージェント部12の監視エージ
ェントプロセスがアプリケーション部11Aで実行され
ているアプリケーションの障害を検知し、第2の装置2
Aの障害管理部21Aの障害管理プロセスに障害を報告
する。このとき、第3の装置3の監視エージェントプロ
セス32は、障害を検出していないので何もしない。
【0071】〈2〉障害解析開始 図6に示したフローに従って障害解析が行われる。ま
ず、最初にIPコンポーネントの解析手順シーケンスに
従った障害解析が行われる。
【0072】〔2-a〕IPコンポーネントC1 (1) 第2の装置2Aの障害管理プロセスが、第1の装置
1Aの監視エージェントプロセスに、第3の装置3に対
するpingコマンドを実行させる命令を送信する。 (2) 命令を受けた第1の装置1Aの監視エージェントプ
ロセスは、第3の装置3に対してpingコマンドを実行す
る。 (3) 第1の装置1Aの監視エージェントプロセスは、実
行結果、この場合、pingコマンドが成功したことを第2
の装置2Aの障害管理プロセスに送信する。
【0073】〔2-b〕TCPコンポーネントC3 (1) 第2の装置2Aの障害管理プロセスが、第1の装置
1Aの監視エージェントプロセスに、netstatコマンド
を実行させる命令を送信する。 (2) 命令を受けた第1の装置1Aの監視エージェントプ
ロセスは、netstatコマンドを実行し、接続状態を確認
する。 (3) 第1の装置1Aの監視エージェントプロセスは、実
行結果、この場合、接続状態が正常であることを第2の
装置2Aの障害管理プロセスに送信する。
【0074】〔2-c〕ODBCコンポーネントC7 (1) 第2の装置2Aの障害管理プロセスが、第1の装置
1Aの監視エージェントプロセスに、ODBCドライバ
のバージョンが正しいかどうかを確認する命令を送信す
る。 (2) 命令を受けた第1の装置1Aの監視エージェントプ
ロセスは、当該マシンすなわち第1の装置1AのSQL
サーバ用のODBCドライバのバージョンが、第1の装
置1Aのアプリケーションが必要とするバージョンに該
当するか否かを確認する。
【0075】(3) 第1の装置1Aの監視エージェントプ
ロセスは、実行結果、この場合、ODBCドライバのバ
ージョンが異常であることを第2の装置2Aの障害管理
プロセスに送信する。
【0076】〈3〉障害復旧 第1の装置1Aの監視エージェントプロセスからODB
Cのバージョンが異常だという通知を受けた第2の装置
2Aの障害管理プロセスは、第1の装置1Aへ実行中の
アプリケーションに適合する適正なバージョンのODB
Cドライバと、当該ドライバをインストールするための
スクリプトとを送信し、第1の装置1AのODBCドラ
イバを適正なバージョンのODBCドライバに入れ替え
る。以上のようにして、ODBCドライバの不適合によ
る障害からの復旧が行われる。
【0077】このようにして、アプリケーションの障害
発生時の障害原因解析及び障害復旧を自動化することに
より、システム管理者の管理負荷を低減させることがで
きる。しかも、障害復旧をマニュアル操作に頼らず自動
的に行うことにより、障害復旧に要する時間も短縮する
ことができるため、システムの保守性が向上し、管理コ
ストを低減させることができる。
【0078】また、障害管理における障害解析及び復旧
手順の登録を容易に行うことができるため、管理すべき
アプリケーションが追加されても容易に対応させること
ができるため、汎用性に富み、障害管理システム自体の
バージョンアップ等を行う必要もない。
【0079】なお、解析手順と復旧手順とは相互に関連
があり、ほぼ同様の手順を利用できる場合もある。その
ような場合には、図7に示すこの発明の第3の実施の形
態のように、解析及び復旧手順を、障害管理部41の記
憶部42の共通の解析・復旧手順記憶部43に記憶させ
るようにしてもよい。その場合、障害解析部24及び障
害復旧部25は、解析・復旧手順記憶部43を共通に参
照する。
【0080】また、コンポーネント毎の解析及び復旧シ
ーケンスを、複数のアプリケーションで共用し易くし、
汎用性を高めるためのこの発明の第4の実施の形態は、
図8に示すように構成する。図8のシステムにおいて
は、障害管理部51の手順登録部52及び記憶部53の
構成を変更して、手順登録部52をコンポーネント登録
部54及びフロー登録部55で構成し、記憶部53をコ
ンポーネント記憶部56、解析手順記憶部57及び復旧
手順記憶部58で構成するようにする。
【0081】コンポーネント登録部54は、コンポーネ
ント毎の解析及び復旧シーケンスをコンポーネント記憶
部56に記憶させる。フロー登録部55は、障害解析フ
ロー及び障害復旧フローを解析手順記憶部57及び復旧
手順記憶部58に記憶させる。
【0082】なお、この発明のシステムは、専用のシス
テムとして構成することなく、通常のコンピュータシス
テムを用いて実現することができる。例えば、コンピュ
ータシステムに上述の動作を実行するためのプログラム
を格納した媒体(フロッピーディスク、CD−ROM、
MO等)から該プログラムをインストールすることによ
り、上述の処理を実行するシステムを構築することがで
きる。なお、上述の機能を、OSが分担又はOSとアプ
リケーションの共同により実現する場合等には、OS以
外の部分のみを媒体に格納してもよい。また、OSが上
記システムの一部を構成する場合、あるいはOSとプロ
グラムが協同して上述の機能を構成するような場合に
は、OSを除いた部分を格納してもよい。
【0083】また、コンピュータにプログラムを供給す
るための媒体は、狭義の記憶媒体に限らず、通信回線、
通信ネットワーク及び通信システムのように、一時的且
つ流動的にプログラム等の情報を保持する通信媒体等を
含む広義の記憶媒体であってもよい。例えば、インター
ネット等の通信ネットワーク上に設けたFTP(File T
ransfer Protocol)サーバに当該プログラムを登録し、
FTPクライアントにネットワークを介して配信するよ
うにしてもよく、通信ネットワークの電子掲示板(BB
S:Bulletin Board System)等に該プログラムを登録
し、これをネットワークを介して配信してもよい。そし
て、このプログラムを起動し、OS(Operating Syste
m)の制御下において実行することにより、上述の処理
を達成することができる。さらに、通信ネットワークを
介してプログラムを転送しながら起動実行することによ
っても、上述の処理を達成することができる。
【0084】
【発明の効果】以上説明したように、この発明による障
害復旧システムは、アプリケーション毎に予め設定した
手順に従って障害原因を追求し、アプリケーション毎に
予め設定した手順に従って障害原因を回避・除去して障
害復旧を行う。また、この発明に係る障害復旧システム
は、障害要因となる各処理要素毎に解析・復旧手順を登
録し、アプリケーション毎に、関連する各処理要素をシ
ンボル化して表示画面に表示し、各障害要素間を矢印等
により方向性結合することにより、アプリケーション毎
の障害解析・復旧手順を登録する。これら障害解析手順
及び障害除去手順は、アプリケーション毎に共通に使用
するようにしてもよい。
【図面の簡単な説明】
【図1】この発明の第1の実施の形態に係る障害復旧シ
ステムを適用したネットワークシステムの構成を模式的
に示すブロック図である。
【図2】図1のシステムのシステム構成及びプロセス構
成を模式的に示すシステムプロセス構成図である。
【図3】図1のシステムにおける動作を説明するための
フローチャートである。
【図4】図1のシステムにおける障害解析フロー及びそ
の作成登録操作を説明するための図である。
【図5】この発明の第2の実施の形態に係る障害復旧シ
ステムを適用したネットワークシステムのシステム構成
及びプロセス構成を模式的に示すシステムプロセス構成
図である。
【図6】図5のシステムにおける障害解析フロー及びそ
の作成登録操作を説明するための図である。
【図7】この発明の第3の実施の形態に係る障害復旧シ
ステムの構成を模式的に示すブロック図である。
【図8】この発明の第4の実施の形態に係る障害復旧シ
ステムの構成を模式的に示すブロック図である。
【符号の説明】
1,1A,2,2A,3 装置、 11,11A アプリケーション実行
部、 12 監視エージェント部、 21,21A 障害管理部、 22 手順登録部、 23 記憶部、 24 障害解析部、 25 障害復旧部、 26 コンポーネント登録部、 27 フロー登録部、 28 解析手順記憶部、 29 復旧手順記憶部、 31 データベース部、 32 監視エージェント部、 41 障害管理部、 43 解析・復旧手順記憶部、 52 手順登録部、 53 記憶部、 54 コンポーネント登録部、 55 フロー登録部、 56 コンポーネント記憶部 57 解析手順記憶部、 58 復旧手順記憶部、

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】複数のコンピュータシステムがネットワー
    クにより結合されてなるネットワークシステムと、 前記ネットワークシステム上の1以上のコンピュータシ
    ステムにて、1以上のアプリケーションを実行するアプ
    リケーション実行手段と、 前記アプリケーションの実行と該アプリケーションが稼
    働しているコンピュータシステムとの障害を監視して、
    障害の状況を通知する監視手段と、 前記監視手段からの通知に基づき、前記アプリケーショ
    ン毎に予め設定された手順に従って障害の状況を解析
    し、障害の原因を追求する障害解析手段と、 前記障害解析手段による障害の原因の追求結果に基づ
    き、前記アプリケーション毎に予め設定した手順に従っ
    て障害の原因を回避・除去して障害の復旧を行う障害復
    旧手段と、を具備することを特徴とする障害復旧システ
    ム。
  2. 【請求項2】前記障害解析手段は、障害の原因を特定で
    きた場合に、前記障害復旧手段に障害の原因を提供し
    て、該障害復旧手段を起動する手段を含むことを特徴と
    する請求項1に記載の障害復旧システム。
  3. 【請求項3】前記障害解析手段は、障害の原因を特定で
    きた場合に、前記障害復旧手段に障害の原因を提供し
    て、該障害復旧手段を起動し、障害の原因が特定できな
    かった場合には、システム管理者への障害状況の報告表
    示を行う手段を含むことを特徴とする請求項1に記載の
    障害復旧システム。
  4. 【請求項4】前記障害解析手段及び障害復旧手段は、ア
    プリケーション毎に設定された手順又は複数の前記アプ
    リケーションに共通に設定された手順に従って障害解析
    及び障害復旧を行う手段であることを特徴とする請求項
    1、2又は3に記載の障害復旧システム。
  5. 【請求項5】前記障害解析手段における障害の解析の手
    順及び障害復旧手段における障害復旧の手順の少なくと
    も一方を設定する手順設定手段をさらに含むことを特徴
    とする請求項1乃至4のうちのいずれか1項に記載の障
    害復旧システム。
  6. 【請求項6】前記手順設定手段は、障害の要因となる各
    処理要素についての解析・復旧手順が登録されており、
    障害の要因となる処理要素をシンボル化して表示画面上
    に配置し、前記表示画面上で方向性をもって、該複数の
    処理要素間を結合することにより、処理要素の順序を設
    定する手段を含む、ことを特徴とする請求項5に記載の
    障害復旧システム。
  7. 【請求項7】障害解析の手順及び障害復旧の手順の少な
    くとも一方を、アプリケーションに設定する手順設定手
    段と、 実行中の前記アプリケーションの障害の状況を監視し
    て、障害の状況を通知する監視手段と、 前記監視手段による障害の状況の通知に基づき、前記手
    順設定手段により予め前記アプリケーションに設定した
    手順に従って、障害状況を解析し、障害原因を追求する
    障害解析手段と、 前記障害解析手段による障害の原因の追求結果に基づ
    き、前記手順設定手段により予め前記アプリケーション
    毎に設定した手順に従って、障害の原因を回避・除去し
    て障害の復旧を行う障害復旧手段と、を具備することを
    特徴とする障害復旧システム。
  8. 【請求項8】前記障害解析手段は、障害の原因を特定で
    きた場合に、前記障害復旧手段に障害の原因を提供する
    手段を含むことを特徴とする請求項7に記載の障害復旧
    システム。
  9. 【請求項9】前記障害解析手段は、障害の原因が特定で
    きなかった場合には、システム管理者への障害状況の報
    告表示を行う手段を含むことを特徴とする請求項7又は
    8に記載の障害復旧システム。
  10. 【請求項10】前記手順設定手段は、各アプリケーショ
    ンについて、前記障害解析の手順及び障害復旧の手順
    を、各別に設定する手段を含むことを特徴とする請求項
    6、7、8又は9に記載の障害復旧システム。
  11. 【請求項11】前記手順設定手段は、複数のアプリケー
    ションについて、前記障害解析の手順及び障害復旧の手
    順を共通に設定する手段を含むことを特徴とする請求項
    6、78又は9に記載の障害復旧システム。
  12. 【請求項12】前記手順設定手段は、障害要因となる各
    処理要素についての解析・復旧手順が登録されており、
    前記アプリケーションに係る複数の処理要素をシンボル
    化して表示画面上に配置し、前記表示画面上で方向性を
    もって、該複数の処理要素間を、結合することにより、
    処理要素の順序を設定する手段を含むことを特徴とする
    請求項7乃至11のうちのいずれか1項に記載の障害復
    旧システム。
  13. 【請求項13】ネットワーク上の1以上のコンピュータ
    を、 アプリケーションの実行と該アプリケーションが稼働し
    ているコンピュータの障害を監視して、障害の状況を通
    知する監視手段、 前記監視手段からの通知に基づき、前記アプリケーショ
    ン毎に予め設定された手順に従って障害の状況を解析
    し、障害の原因を追求する障害解析手段、 前記障害解析手段による障害の原因の追求結果に基づ
    き、前記アプリケーション毎に予め設定した手順に従っ
    て障害の原因を回避・除去して障害の復旧を行う障害復
    旧手段、として機能させるためのプログラムを格納した
    ことを特徴とするコンピュータ読み取り可能な記録媒
    体。
  14. 【請求項14】コンピュータを、 障害解析の手順及び障害復旧の手順の少なくとも一方
    を、アプリケーションに設定する手順設定手段、 実行中の前記アプリケーションの障害の状況を監視し
    て、障害の状況を通知する監視手段、 前記監視手段による障害の状況の通知に基づき、前記手
    順設定手段により予め前記アプリケーションに設定した
    手順に従って、障害状況を解析し、障害原因を追求する
    障害解析手段、 前記障害解析手段による障害の原因の追求結果に基づ
    き、前記手順設定手段により予め前記アプリケーション
    毎に設定した手順に従って、障害の原因を回避・除去し
    て障害の復旧を行う障害復旧手段、 として機能させるためのプログラムを記録したコンピュ
    ータ読み取り可能な記録媒体。
JP6485298A 1997-03-24 1998-03-16 障害復旧システム及び記録媒体 Pending JPH10326208A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6485298A JPH10326208A (ja) 1997-03-24 1998-03-16 障害復旧システム及び記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP7003897 1997-03-24
JP9-70038 1997-03-24
JP6485298A JPH10326208A (ja) 1997-03-24 1998-03-16 障害復旧システム及び記録媒体

Publications (1)

Publication Number Publication Date
JPH10326208A true JPH10326208A (ja) 1998-12-08

Family

ID=26405954

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6485298A Pending JPH10326208A (ja) 1997-03-24 1998-03-16 障害復旧システム及び記録媒体

Country Status (1)

Country Link
JP (1) JPH10326208A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316728A (ja) * 2004-04-28 2005-11-10 Mitsubishi Electric Corp 障害解析装置、障害解析方法及び障害解析プログラム
JP2006190138A (ja) * 2005-01-07 2006-07-20 Mitsubishi Electric Corp アラーム管理装置及びアラーム管理方法及びプログラム
DE102005024327B4 (de) * 2005-05-27 2009-04-09 Siemens Ag Watch-Dog in einer verteilten Applikations-Umgebung
JP2010103695A (ja) * 2008-10-22 2010-05-06 Ntt Data Corp クラスタシステム、クラスタサーバ及びクラスタ制御方法
WO2013190694A1 (ja) * 2012-06-22 2013-12-27 株式会社日立製作所 計算機の復旧方法、計算機システム及び記憶媒体
US10346251B2 (en) 2016-02-05 2019-07-09 Fuji Xerox Co., Ltd. Information processing apparatus, non-transitory computer readable medium, and information processing method
JP2019125940A (ja) * 2018-01-17 2019-07-25 日本電信電話株式会社 作業手順提示装置及び作業手順提示方法、並びに、自動制御装置及び自動制御方法
JP2021016090A (ja) * 2019-07-12 2021-02-12 日本電気株式会社 通信装置、障害通知システム、障害通知方法および障害通知プログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316728A (ja) * 2004-04-28 2005-11-10 Mitsubishi Electric Corp 障害解析装置、障害解析方法及び障害解析プログラム
JP2006190138A (ja) * 2005-01-07 2006-07-20 Mitsubishi Electric Corp アラーム管理装置及びアラーム管理方法及びプログラム
DE102005024327B4 (de) * 2005-05-27 2009-04-09 Siemens Ag Watch-Dog in einer verteilten Applikations-Umgebung
JP2010103695A (ja) * 2008-10-22 2010-05-06 Ntt Data Corp クラスタシステム、クラスタサーバ及びクラスタ制御方法
WO2013190694A1 (ja) * 2012-06-22 2013-12-27 株式会社日立製作所 計算機の復旧方法、計算機システム及び記憶媒体
US9529656B2 (en) 2012-06-22 2016-12-27 Hitachi, Ltd. Computer recovery method, computer system, and storage medium
US10346251B2 (en) 2016-02-05 2019-07-09 Fuji Xerox Co., Ltd. Information processing apparatus, non-transitory computer readable medium, and information processing method
JP2019125940A (ja) * 2018-01-17 2019-07-25 日本電信電話株式会社 作業手順提示装置及び作業手順提示方法、並びに、自動制御装置及び自動制御方法
JP2021016090A (ja) * 2019-07-12 2021-02-12 日本電気株式会社 通信装置、障害通知システム、障害通知方法および障害通知プログラム

Similar Documents

Publication Publication Date Title
US7620848B1 (en) Method of diagnosing and repairing network devices based on scenarios
US9900226B2 (en) System for managing a remote data processing system
EP2256582B1 (en) Remotely managing a data processing system via a communications network
US7076691B1 (en) Robust indication processing failure mode handling
CN101996108B (zh) 一种分布式环境的备份和恢复方法及其***
US7093013B1 (en) High availability system for network elements
US6216051B1 (en) Manufacturing backup system
CN102291262B (zh) 一种容灾的方法、装置及***
JPH11296459A (ja) ネットワークシステム
CN101032123B (zh) 用于确定故障对网络服务的影响的方法和装置
JP2013130901A (ja) 監視サーバおよびそれを用いたネットワーク機器復旧システム
JPH10326208A (ja) 障害復旧システム及び記録媒体
CN111209012A (zh) 一种面向Linux***的软件代理端自动化部署的方法
WO2012155648A1 (zh) 一种北向通知管理接口装置及其管理方法
JP2007141007A (ja) システム運用監視での障害時のサポートシステム化
CN114650213A (zh) 配置Jenkins服务器集群的方法、装置、存储介质
CN105786645A (zh) 一种操作***的备份、还原方法及装置
JPH1188471A (ja) 試験方法及び試験装置
US7421492B1 (en) Control arrangement for operating multiple computer systems
JP2019197352A (ja) サービス継続システムおよびサービス継続方法
KR20050071975A (ko) 자동화 재해 복구 시스템 및 그 방법
JP2795221B2 (ja) マネージャの検証方式
JPH10107792A (ja) サーバ監視装置
JP3428260B2 (ja) 回線切替制御装置
KR20010048178A (ko) 통신망관리시스템의 서버프로세스 원격감시 방법