JPH0291735A - リモート障害保守管理システム - Google Patents

リモート障害保守管理システム

Info

Publication number
JPH0291735A
JPH0291735A JP63245097A JP24509788A JPH0291735A JP H0291735 A JPH0291735 A JP H0291735A JP 63245097 A JP63245097 A JP 63245097A JP 24509788 A JP24509788 A JP 24509788A JP H0291735 A JPH0291735 A JP H0291735A
Authority
JP
Japan
Prior art keywords
failure
distributed
recovery
unit
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63245097A
Other languages
English (en)
Inventor
Katsuhiko Seki
関 勝彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TOHOKU NIPPON DENKI SOFTWARE KK
NEC Solution Innovators Ltd
Original Assignee
TOHOKU NIPPON DENKI SOFTWARE KK
NEC Software Tohoku Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TOHOKU NIPPON DENKI SOFTWARE KK, NEC Software Tohoku Ltd filed Critical TOHOKU NIPPON DENKI SOFTWARE KK
Priority to JP63245097A priority Critical patent/JPH0291735A/ja
Publication of JPH0291735A publication Critical patent/JPH0291735A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は分散コンピュータ側の障害発生に対応するリモ
ート障害保守管理システムに関する。
〔従来の技術〕
産業の発展、コンピュータハードウェア機器の低価格化
およびネットワーク技術の進歩により、社会にオンライ
ン化が進展するようになった。そしてEDP化される業
務量の増大に伴い、分散処理に対するニーズも高まって
きている。この様にネットワーク化されたシステムにお
ける障害の発生は、しだいに生活に身近なものになって
きているが、その復旧処理に関しては、FDP処理の経
過を人が追跡してチエツクするとか、そのオペレーショ
ン時の当事者に詳しい状況を確認する等、いわゆる°“
人海戦術“で対応しているのが現状である。
〔発明が解決しようとする課題〕
上述した従来の分散処理システムに於ける障害復旧方法
は本質的に人手の作業に負うものであり、 く1)障害発生から復旧完了までの時間(障害認識−障
害の通知−障害解析一障害復旧処理の指示−障害復旧処
理)が非常に長くなることが多い。
(2)分散コンピュータ側には、システム運営経費の低
減のためにFDP処理に不慣れな作業者を配置すること
が多く、したがって障害復旧処理の信頼性が低いことが
多い。
という欠点がある。
〔課題を解決するための手段〕
本発明のリモート障害保守管理システムは、分散して設
置した分散コンピュータをホストコンピュータから保守
管理するリモート障害保守管理システムにおいて、前記
ホストコンピュータは前記分散コンピュータのプログラ
ムおよびファイルの環境を保存し保守するシステムメン
テナンス機能部と、前記分散コンピュータが送出した障
害発生通知を受けログファイルおよび復旧処理知識ベー
スを参照して障害解析処理を行なうホスト側障害解析処
理部と、前記障害解析処理の結果に従って前記分散コン
ピュータに復旧処理を指示する復旧処理指示部と、前記
分散コンピュータとの通信手段を統括する分散コンピュ
ータ連絡部とを具備し、前記分散コンピュータは業務の
実行状況を監視し障害の発生を検知する実行監視部と、
ログファイルおよび復旧手続きファイルを参照して前記
障害のレベルを判断する分散側障害解析処理部と、前記
障害のレベルに従って前記ホストコンピュータに障害発
生通知を送出し前記復旧処理の指示に従って復旧処理す
る復旧処理手続き部と、前記ホストコンピュータとの通
信手段を統括するホスト連絡部とを具備する。
〔実施例〕
次に、本発明について図面を参照して説明する。
第1図は本発明の一実施例を示す説明図である。同図に
おいてリモート障害保守管理システムは、分散コンピュ
ータのプログラムおよびファイルの環境を保存し保守す
るシステムメンテナンス機能部11と、前記分散コンピ
ュータが送出した障害発生通知を受けログファイル16
および復旧処理知識ベース15を参照して障害解析処理
を行なうホスト側障害解析処理部12と、前記障害解析
処理の結果に従って前記分散コンピュータに復旧処理を
指示する復旧処理指示部13と、前記分散コンピュータ
との通信手段を統括する分散コンピュータ連絡部14と
を具備したホストコンピュータ10と、前記分散コンピ
ュータの業務の実行状況を監視し障害の発生を検知する
実行監視部21と、ログファイル25および復旧手続き
ファイル26を参照して前記障害のレベルを判断する分
散側障害解析処理部22と、前記障害のレベルに従って
前記ホストコンピュータに障害発生通知を送出し前記復
旧処理の指示に従って復旧処理する復旧処理手続き部2
3と、前記ホストコンピュータとの通信手段を統括する
ホスト連絡部24とを具備した分散コンピュータ20と
を有している。
システムメンテナンス機能部11は分散コンピュータ側
のプログラム、ファイル等の環境状況の保存保守機能を
有する。
障害解析処理部12は分散コンピュータ連絡部14に対
する分散ログファイルデータ収集指示機能、ホストログ
ファイル16および復旧処理知識ベース15により障害
解析処理を行ない、その復旧手続き処理をログファイル
16に記録する機能、および障害解析処理結果を復旧処
理指示部13に通知する機能とから成る。
復旧処理指示部13は障害解析処理部12より受け取っ
た障害レベル情報に応じて復旧処理を行なう機能を有す
る。つまり障害レベルが0ならばホストログファイル1
6に記録済みの自動復旧処理の情報を読み収るよう通知
し、障害レベルが1ならばセンタオペレータの操作介入
要求を促し、センタオペレータによる復旧指示手順を分
散コンピュータ連絡部14に送ると共に復旧処理知識ベ
ース15およびホストログファイル16に記録する。
分散コンピュータ連絡部14は分散コンピュータから障
害通知のメツセージを受け障害解析処理部12に通知す
る機能、障害解析処理部12より受けた分散ログファイ
ルデータ送信指示を分散コンピュータに通知する機能、
分散コンピュータより受け取った分散ログファイルデー
タをホストログファイル16に書き込み、その終了後に
障害解析処理部12に通知する機能、復旧処理指示部1
3から受け取った復旧指示手順データを分散コンピュー
タ側に通知する機能とから成る。
復旧処理知識ベース15は各障害データとそれに対する
復旧処理手続きデータとを併わせ持つ。
ホストログファイル16は分散ログファイルデータおよ
び復旧処理手続きデータとを併わせ持つ。
実行監視部21は分散コンピュータ内に於いて業務の実
行状況を監視し、この実行状況データを分散ログファイ
ル25に記録する機能、および障害発生時に障害解析処
理部22に障害発生通知を行なう機能とから成る。
障害解析処理部22は実行監視部21より受け取った障
害発生通知に基づき、分散ログファイル25および復旧
手続きファイル26を参照してその障害レベルを判断す
る。
復旧処理手続き部23は障害解析処理部22より受け取
った障害レベルを判断し、その値が0ならば復旧手続き
ファル26を参照して分散コンピュータ内での自動障害
復旧処理を行ない、その値が1の時にはホスト連絡部2
4へ障害レベル値を通知する機能、およびホスト連絡部
24から通知される復旧処理手続きに基づきこれを実施
し分散ログファイル25に記録する機能から成る。
ホスト連絡部24は分散コンピュータ内に於いて復旧処
理手続き部23より受けた障害レベルをホストコンピュ
ータに通知する機能、また分散コンピュータ連絡部14
より受けた分散ログファイルデータ送信指示に基づき分
散ログファイル内データをホストコンピュータに送信す
る機能、およびホストコンピュータからの復旧指示手順
データを受け取り復旧処理手続き部23に通知する機能
から成る。
分散ログファイル25は実行監視部21の指示に基づく
実行状況データおよび復旧処理手続き部23に基づく復
旧手続きデータとを併わせ持つ。
復旧手続きファイル26は復旧処理知識ベース15と同
様に分散コンピュータ内に於ける各障害データとそれに
対する復旧処理手続きデータとを併わせ持つ。
第2図は上記リモート障害保守管理システムの動作を示
す流れ図である。
まず、分散コンピュータ20でプログラムの実行が為さ
れている時に(ステップ31)、実行監視部21がこれ
を監視する。ここで何らかの障害が発生した時、実行監
視部は障害発生通知(第3図参照)障害解析処理部22
に送る。障害解析処理部22では分散ログファイル25
および復旧手続きファイル26とによりその障害レベル
を判断する(ステップ32,33.34)。
ここで判゛定された障害レベルの値(0・・・障害レベ
ル小、1・・・障害レベル大)により、その分散コンピ
ュータ内だけでの障害復旧処理で済むか、それともホス
トコンピュータからの指示を受けるかのどちらかの処理
手続きを踏む。すなわち、障害レベルがOの時には、障
害解析処理部22が復旧手続きファイル26を基に記録
しておいた分散ログファイル25を復旧処理手続き部2
3が参照して実行する(ステップ35)。また、障害レ
ベルが1の時には、障害解析処理部22はホスト連絡部
24に障害発生通知を行ない、ホスト連絡部24は回線
を径由してホストコンピュータ10にこれをそのまま伝
える(ステップ36)。
障害発生通知を受けたホストコンピュータ10では、ま
ず分散コンピュータ連絡部14がこれを引取り、障害解
析処理部12にそのまま伝える。
同時にホストログファイル16にそのデータ(第4図(
a)参照)を記録する。そして障害解析処理部12では
復旧処理知識ベース15を参照する事により、発生した
障害レベル(0・・・障害レベル小、1・・・障害レベ
ル大)の判定を行なう(ステップ37.38)。
ここで障害レベルが0の時は、復旧処理知識ベース15
から得た障害復旧手続きデータを分散コンピュータ連絡
部14に送り、分散コンピュータ側のホスト連絡部24
を介して復旧処理手続き部23に通知して復旧手続きを
実行する。同時にホスト連絡部24は分散ログファイル
25.復旧手続きファイル26に記録する。(ステップ
39.41,42,43.および第4図(b)参照)。
障害レベルが1の時は、ホストコンピュータ内の障害解
析処理部12は分散コンピュータ連絡部14に分散ログ
ファイルデータ収集指示を行ない、回線を経由して分散
コンピュータ内のホスト連絡部24に通知する。通知を
受けたホスト連絡部24では分散ログファイル25の必
要箇所を抽出し、これをホストコンピュータ内の分散コ
ンピュータ連絡部14に送信する。分散コンピュータ連
絡部14はこれをホストログファイル16に記録し、ま
た障害解析処理部12に通知する。障害解析処理部12
は再度復旧処理知識ベース15およびホストログファイ
ル16を参照し、その障害レベルを判断する。
ここでその障害レベルが0ならば、前と同様に復旧処理
知識ベース15から得な障害復旧手続きデータを分散コ
ンピュータ内の復旧処理手続き部23で実行する。もし
障害レベルが1ならば、ホストコンピュータ内の障害解
析処理部12は復旧処理指示部13にこれを通知する。
復旧処理指示部13はセンタオペレータの操作介入要求
を行なう(ステップ40)。
センタオペレータの復旧手続き指示は復旧処理知識ベー
ス15.ホストログファイル16に記録され、同時に分
散コンピュータ連絡部14に通知される。分散コンピュ
ータ連絡部14は回線を経由して分散コンピュータ内の
ホスト連絡部24に通知する。ホスト連絡部24は分散
ログファイル25、復旧手続きファイル26に記録する
と同時に復旧処理手続き部23に通知し、上記と同様に
障害復旧手続きを実行する(ステップ41゜42.43
)。
なお、本発明はいわゆる°゛ホストコンピユータ゛°限
定されず、例えばあるコンピュータを監視する別のコン
ピュータの場合も含む。
〔発明の効果〕
以上説明したように本発明は、分散コンピュータで発生
した障害を分散コンピュータ内又は回線を経由したホス
トコンピュータ(他の監視コンピュータ)で自動的に復
旧処理することにより、(1)障害発生から復旧するま
での時間を大幅に短縮できる。
(2)システム運用に不慣れな作業者を配置しても障害
復旧処理の信頼性を向上できる。
という効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示す説明図、第2図は処理
動作を示す流れ図、第3図は障害発生通知の形式を示す
説明図、第4図はログファイルおよび復旧手続きファイ
ルの形式を示す説明図である。 10・・・ホストコンピュータ、11・・・システムメ
ンテナンス機能部、12.22・・・障害解析処理部、
13・・・復旧処理指示部、14・・・分散コンピュー
タ連絡部、15・・・復旧処理知識ベース、16・・・
ホストログファイル、20・・・分散コンピュータ、2
1・・・実行監視部、23・・・復旧処理手続き部、2
4・・・ホスト連絡部、25・・・分散ログファイル、
26・・・復旧手続きファイル。

Claims (1)

  1. 【特許請求の範囲】 分散して設置した分散コンピュータをホストコンピュー
    タから保守管理するリモート障害保守管理システムにお
    いて、 前記ホストコンピュータは前記分散コンピュータのプロ
    グラムおよびファイルの環境を保存し保守するシステム
    メンテナンス機能部と、前記分散コンピュータが送出し
    た障害発生通知を受けログファイルおよび復旧処理知識
    ベースを参照して障害解析処理を行なうホスト側障害解
    析処理部と、前記障害解析処理の結果に従って前記分散
    コンピュータに復旧処理を指示する復旧処理指示部と、
    前記分散コンピュータとの通信手段を統括する分散コン
    ピュータ連絡部とを具備し、 前記分散コンピュータは業務の実行状況を監視し障害の
    発生を検知する実行監視部と、ログファイルおよび復旧
    手続きファイルを参照して前記障害のレベルを判断する
    分散側障害解析処理部と、前記障害のレベルに従つて前
    記ホストコンピュータに障害発生通知を送出し前記復旧
    処理の指示に従って復旧処理する復旧処理手続き部と、
    前記ホストコンピュータとの通信手段を統括するホスト
    連絡部とを具備することを特徴とするリモート障害保守
    管理システム。
JP63245097A 1988-09-28 1988-09-28 リモート障害保守管理システム Pending JPH0291735A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63245097A JPH0291735A (ja) 1988-09-28 1988-09-28 リモート障害保守管理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63245097A JPH0291735A (ja) 1988-09-28 1988-09-28 リモート障害保守管理システム

Publications (1)

Publication Number Publication Date
JPH0291735A true JPH0291735A (ja) 1990-03-30

Family

ID=17128563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63245097A Pending JPH0291735A (ja) 1988-09-28 1988-09-28 リモート障害保守管理システム

Country Status (1)

Country Link
JP (1) JPH0291735A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08320967A (ja) * 1996-06-27 1996-12-03 Toshiba Corp 現金処理システム
JPH09146813A (ja) * 1995-11-21 1997-06-06 Nec Software Ltd データリカバリ方法
JPH09161116A (ja) * 1995-12-07 1997-06-20 Omron Corp 遠隔監視制御システム
JP2004524596A (ja) * 2000-09-08 2004-08-12 ネットワーク・アプライアンス・インコーポレイテッド パニック・メッセージ解析機
KR100484130B1 (ko) * 1997-12-26 2005-06-16 삼성전자주식회사 원격장애치유기능을갖는컴퓨터시스템및그방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146813A (ja) * 1995-11-21 1997-06-06 Nec Software Ltd データリカバリ方法
JPH09161116A (ja) * 1995-12-07 1997-06-20 Omron Corp 遠隔監視制御システム
JPH08320967A (ja) * 1996-06-27 1996-12-03 Toshiba Corp 現金処理システム
KR100484130B1 (ko) * 1997-12-26 2005-06-16 삼성전자주식회사 원격장애치유기능을갖는컴퓨터시스템및그방법
JP2004524596A (ja) * 2000-09-08 2004-08-12 ネットワーク・アプライアンス・インコーポレイテッド パニック・メッセージ解析機

Similar Documents

Publication Publication Date Title
US5491791A (en) System and method for remote workstation monitoring within a distributed computing environment
US7801984B2 (en) Diagnostic/remote monitoring by email
JP2001188765A (ja) 分散コンピューティング環境で複数の関係する障害を表す障害情報を参照する技法
JP3653335B2 (ja) コンピュータ管理システム
US6266697B1 (en) System automatically maintaining client under control of client, and a recording medium therefor
JPH0291735A (ja) リモート障害保守管理システム
US7634625B2 (en) Storage system and method for copying volumes by inspection of data security
CN116560893B (zh) 一种计算机应用程序运行数据故障处理***
US7328452B2 (en) Method and device for coping with illegal accesses to a data server
JPH0850555A (ja) 障害解析装置及び障害検出装置
JP6317074B2 (ja) 障害通知装置、障害通知プログラムならびに障害通知方法
AU666794B2 (en) Data processing system
JP2001005692A (ja) 計算機システムおよびその保守管理システム並びに障害通知方法
JP2004094701A (ja) 監視情報表示システムと監視情報表示方法およびプログラムならびに監視装置
JP3449884B2 (ja) クライアント/サーバシステム及びコンピュータシステム
JPH10105440A (ja) システム障害監視装置及び記録媒体
JPH0962626A (ja) 分散処理システムのオンラインテスト方法
JP2003006018A (ja) 処理要求復旧方式及び処理要求復旧方法及びクライアント装置及びサーバ装置
JPH1188471A (ja) 試験方法及び試験装置
JPS6143354A (ja) ロギング処理方式
JP3449425B2 (ja) コンピュータネットワーク監視支援システム
JP2002278853A (ja) 分散オブジェクト環境における通信障害監視システムと通信障害監視方法およびプログラム
US20070005756A1 (en) Shared data center monitor
JP2559771B2 (ja) 回線ロギング自動停止制御方式
JPH1173336A (ja) 計算機システムの障害自動復旧システム