JPS58144263A - 分散処理システムの障害処理方式 - Google Patents

分散処理システムの障害処理方式

Info

Publication number
JPS58144263A
JPS58144263A JP57026043A JP2604382A JPS58144263A JP S58144263 A JPS58144263 A JP S58144263A JP 57026043 A JP57026043 A JP 57026043A JP 2604382 A JP2604382 A JP 2604382A JP S58144263 A JPS58144263 A JP S58144263A
Authority
JP
Japan
Prior art keywords
host
program
failure
file
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57026043A
Other languages
English (en)
Inventor
Masahiro Sakata
正博 坂田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP57026043A priority Critical patent/JPS58144263A/ja
Publication of JPS58144263A publication Critical patent/JPS58144263A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明はホストと複数のサブホストを有する分散処理シ
ステムに係抄、特にサブホストの障害修復時間短縮化、
保守効率向上、システム信頼性の向上に好適な障害処理
方式に関する。
従来技術 ゛ ホストと複数のサブホストを有する分散処理システ
ムにおいて、サブホストのオペレータ不在、保守要員不
在等を前提とした無人化運転方式が従来より種々試みら
れている.しかし、サブホストニハハードウエアの自動
診断、ソフトウェアの自動メモリダンプ、自動イニシャ
ルプログラムロード(IPL)機能等が欠如しているた
め、障害発生をホスト等で検知すると、保守要員がサブ
ホストへ出動しているのが現況で、次のような問題があ
った。
(1)  ハードウェアの障害かソフトウェアの障害か
が出動時点で不明であるため、ノ・−ドウエア、ソフト
ウェア両面の保守要員の出動が必要であリ、さらに、保
守要員がサブホストの設置場所に到着後、障害切分けが
開始されることになるため、障害切分は時間が必要とな
る。
(2)  ハードウェアの障害時でも、保守要員出動時
に障害部位が指摘されていないため、保守要員がサブホ
ストの設置場所に到着後、障害部位を指摘し、然る後保
守用部品を調達する為、障害回復時間が長くなる。
(3)  ソフトウェアの障害は、再IPLKよりシス
テムが動作する可能性が高いが、自動再IPL及び後刻
でのソフトウェア障害解析のための自動メモリダンプ機
能が存在しない為、システム信頼性上、あるいはソフト
ウェア品質向上の上で問題がある。
発明の目的 この発明の目的とするところは、前記の如き従来技術の
間趙点を解決することであり、分散処理システムにおけ
る障害修復時間の短縮化、保守効率向と1 システム信
頼性の向上を図るととKある。
仁の発明の%徴とするところは、サブホストに診断用プ
ログラム(MD)、メモリダンプ用プログラム、通常の
プログラムを格納した磁気ディスク装置等のファイルメ
モリを持ち、コンソールサービスプロセッサの制御の下
に自動診断、自動メモリダンプ、自動IPLを実行させ
ることにより、障害修復時間の短縮化、保守効率向上、
システム信頼性向上を可能ならしめるものである。
実施例の説明 第1図はホストと複数のサブホストを有する分散処理シ
ステムのブロック図である0図中、1はホスト処理装置
(以下、ホストと略称する)であり、該ホス1通信回線
11を介して各々サブホスト処理装置2(以下、サブホ
ストと略称する)が接続され、各サブホスト8には端末
回線12を介して端末装置群8が接続されている。
第2図は本発明の一実施例のブロック図で、便宜上、ホ
ス′トと1つのサブホストとの接続のみを示したもので
ある。第8図において、サブホスト2にはコンソールサ
ービスプロセッサ22及び業務用ファイル以外に、プロ
グラムファイル28、診断プログラム(MD)用ファイ
ル24、メモリダンプ用ファイル25が接続されている
。こ\で、メモリダンプとはメインメモリ上の内容(プ
ログラム、データ等)を外部記憶装置へ出力することで
、ソフトウェア障害の解析に非常に有効なものである。
メモリダンププログラムはファイル25よりメインメモ
リにロードされた後、メモリダンプを実行する。なお、
21はサブポス)Z内のハードコア部を示す。第8図は
該実施例の動作を説明するためのフローチャー1である
サブホスト2の運転は、コンソールサービスプロセッサ
22又はホスト1からの起動により、プログラムファイ
ル28に格納さねているプログラムがサブホス)2にロ
ードされて開始される。通常運転では、端末装置118
よりメツセージを久方し、それがサブホスト2に到着後
、サブホスト内で一定の処理を実行し、さらにホス)1
での処理を実施すべくメツセージはサブホスト2よりホ
ストlへ転送される。処理完了後は、ホストlより応答
メツセージをサブホスト2を経由して膚末装+18へ送
信する。
次に、通常運転中に何らかの障害が発生した場合の動作
について説明する。通常運転中にサブホス)2の障害で
あるマシンチェックが発生した場合、コンソールサービ
スプロセッサ22はマシンチェックを検出後、MD7ア
イルz4より診断プログラムをロードする。ロードされ
た診断プログ’)ムはバー)’:rア部81全81して
サブホスト2の診断を実行後、診断結果をホス)lへ転
送する。
診断結果を受信し九ホス)1では、障害が発生したサブ
ホスト名と診断結果を保守要員に出力する。
連絡を受けた′保守要員は、該結果によりサブホスト2
の修復を実施する。
次に、通常運転中にプログラム障害であるプログラムル
ープ等が発生し九場合の動作について説明する。通常運
転中にプログラム障害であるプログラムループ等が発生
し九場合、コンソールサービスプロセッサ82はプログ
ラムループ壽を検出後、メモリタ”ンプ用ファイル25
よりメモリダンププログラムをロードする。ロードされ
たメモリダンププログラムにより、メモリダンプ用ファ
イル25へメモリダンプを実行する。コンソールサービ
スプロセッサ2zはメモリダンプ完了を検知後、プログ
ラムファイル2Bより再度プログラムをロードし、サブ
ホスlの自勘運転再開始を図る。ここで、サブホスト2
のシステム再開始が正常に実行された場合は、ホス)1
とサブホスト8間の通信回線11を使用して、メモリダ
ンプ用ファイルz5よりメモリダンプ内容がホストlへ
転送され、プログラム障害原因の解析が行われる。
一方、サブホスト2のシステム再開始が不成功であった
場合は、ホストlからのヘルスチェックにより障害が検
出され、障害修復処理が開始される。
すなわち、分散処理システムにおいては、ホストからサ
ブホストへ診断データを送信し、該診断データに対する
サブホストからの回答をホストでチェックすることによ
り、ホスト側でサブホストの障害を検知する。これがヘ
ルスチェックである。
次に、通常運転中に周辺装置の障害である■0エラーが
発生した場合の動作について説明する。
通常運転中にIO障害が発生し九場合、サブホスト8内
のオペレーティングシステムはIO障害検出後、該サブ
ホストが動作可能か不可能かを判定する。サブホストが
動作可能であれば、ホストlへIO障害が発生した旨の
メツセージを送信後、通常運転を続行する。該IO障害
によりサブホスト2の運転が不可能な場合、ホスト1か
らのヘルスチェックにより障害が検出され、障害修復処
理が開始される。
発明の効果 以上の説明から明らかな如く、本発明によれば、次の様
な効果が得られる。
(1)  遠隔地にあるサブホストで障害が発生したと
しても、処理装置障害、プログラム障害、周辺装置障害
がホスト側で識別可能となり、出動する保守要員の初期
動作が的確なものとなる。
(2)処理装置障害の場合、持8する保守部品は的確で
あるため、保守効率、経済性が向上する。
(3)処理装置障害の場合、修復時間が短縮される。
(4)  プログラム障吾の場合、自動的にメモリダン
プを取得する為、回復時間が短縮される。
(5)  プログラム障害の場合、自動IPLを実行す
るため、タイミングに関係したプログラム障害叫ではシ
ステム停止することなく運転続行可能となり、システム
信頼性が向上する。
(6)  上記(5)の場合でもメモリダンプ内容をホ
ストへ送信し、プログラム障害原因解析が可能であり、
プログラム品質向上に有益となる。
(7)醐辺装置il障害の場合でもサブホストの動作が
可能な場合、ホストへ障害連絡がなされているので適切
な保守が可能となる。
【図面の簡単な説明】
第1図は本発明で対象とする分散処理システムのブロッ
ク図、第2′図は本発明の一実施例のブロック図、第8
図は第2図の動作を説明する九めの流れ図である。 l・・・′ホスト、2・・・サブホスト、8・・・端末
装置、11・・・通信回線、12・・・端末回線、21
・・・ハードコアm、22・・・コンソールサービスプ
ロセッサ、z8・・・プログラムファイル、24・・・
診断プログラム用ファイル、25・・・メモリダンプ用
ファイル。 第1 図 3     35     5        5  
   3第2図

Claims (1)

    【特許請求の範囲】
  1. (1)ホスト処理装置と、該ホスト処理装置に接続され
    た複数のサブホスト処理装置と、該サブホスト処理装置
    に接続され九端末装置とを有する分散処理システムにお
    いて、前記サブホスト処理装置に、コンソールサービス
    プロセッサ及び、診断プログラム、メモリダンププログ
    ラムを格納したファイルメモリを設け、前記コンソール
    サービスプロセッサの制御の下に、サブホスト処理装置
    のハードウェア障害時は自動的に診断プログラムを冥行
    後、該結果をホスト処理装置へ送信し、プログラム障害
    時は自動的にメモリダンプを取得後自動イニシャルプロ
    グラムロードを実行してシステム回復を図り、端末装置
    障害時は該端末装置障害をホスト処理装置へ連絡するこ
    とを特徴とする分散処理システムの障害処理方式。
JP57026043A 1982-02-22 1982-02-22 分散処理システムの障害処理方式 Pending JPS58144263A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57026043A JPS58144263A (ja) 1982-02-22 1982-02-22 分散処理システムの障害処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57026043A JPS58144263A (ja) 1982-02-22 1982-02-22 分散処理システムの障害処理方式

Publications (1)

Publication Number Publication Date
JPS58144263A true JPS58144263A (ja) 1983-08-27

Family

ID=12182665

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57026043A Pending JPS58144263A (ja) 1982-02-22 1982-02-22 分散処理システムの障害処理方式

Country Status (1)

Country Link
JP (1) JPS58144263A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6116353A (ja) * 1984-06-11 1986-01-24 Fujitsu Ltd 通信制御処理装置におけるncpダウン防止方式
JPS63293644A (ja) * 1987-05-27 1988-11-30 Hitachi Ltd オンライン自動回復システム
JPH01316835A (ja) * 1988-06-17 1989-12-21 Nec Corp 業務復元処理方式
JPH0764881A (ja) * 1993-08-31 1995-03-10 Nec Corp 有線ワークステーション制御パッケージ制御方式

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6116353A (ja) * 1984-06-11 1986-01-24 Fujitsu Ltd 通信制御処理装置におけるncpダウン防止方式
JPH0412496B2 (ja) * 1984-06-11 1992-03-04 Fujitsu Ltd
JPS63293644A (ja) * 1987-05-27 1988-11-30 Hitachi Ltd オンライン自動回復システム
JPH01316835A (ja) * 1988-06-17 1989-12-21 Nec Corp 業務復元処理方式
JPH0764881A (ja) * 1993-08-31 1995-03-10 Nec Corp 有線ワークステーション制御パッケージ制御方式

Similar Documents

Publication Publication Date Title
US7281040B1 (en) Diagnostic/remote monitoring by email
US20020162053A1 (en) User transparent software malfunction detection and reporting
CN107634860B (zh) 一种weblogic集群补丁批量自动升级方法
CN107800783B (zh) 远程监控服务器的方法及装置
CN111563002B (zh) 交易故障的处理方法和装置、以及电子设备和存储介质
JPS58144263A (ja) 分散処理システムの障害処理方式
CN111880947A (zh) 一种数据传输方法及装置
CN112286797B (zh) 一种服务监控方法、装置、电子设备及存储介质
JP3248485B2 (ja) クラスタシステム、クラスタシステムにおける監視方式およびその方法
CN107590647A (zh) 船舶管理***的伺服监管***
CN109672573B (zh) 一种配置文件的部署方法、确定方法、服务器及存储介质
JPH1188471A (ja) 試験方法及び試験装置
CN114257534A (zh) 测试结果处理方法、装置、***及存储介质
CN111309504A (zh) 嵌入式模块串口冗余传输的控制方法及相关组件
CN110956456A (zh) 一种打款处理方法、装置及***
CN110572292A (zh) 基于单向传输链路的高可用***及方法
KR0130418B1 (ko) 전전자 교환기의 이중화 공통 버스 자원 및 프로세서의 자가 진단 및 복구 방법
CN114356643B (zh) 一种遥感卫星处理***中自动发现任务失败和恢复方法
JPS6298445A (ja) ネツトワ−ク障害切分け方式
JPH08263405A (ja) ソフトウェア配布システム
CN115525522A (zh) 一种异地互备测试的方法、装置及介质
JP3166730B2 (ja) 交換機の自動試験装置および交換機の自動試験方法、並びに記録媒体
CN115221065A (zh) 一种服务器固件程序纠错自检方法、***
CN117034366A (zh) 一种云原生非停机升级的保持数据完整性方法及其应用
CN117472756A (zh) 应用***测试方法、装置、存储介质及计算机设备