JPH0341852B2 - - Google Patents

Info

Publication number
JPH0341852B2
JPH0341852B2 JP57166509A JP16650982A JPH0341852B2 JP H0341852 B2 JPH0341852 B2 JP H0341852B2 JP 57166509 A JP57166509 A JP 57166509A JP 16650982 A JP16650982 A JP 16650982A JP H0341852 B2 JPH0341852 B2 JP H0341852B2
Authority
JP
Japan
Prior art keywords
program
host
failure
processing device
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP57166509A
Other languages
English (en)
Other versions
JPS5957349A (ja
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed filed Critical
Priority to JP57166509A priority Critical patent/JPS5957349A/ja
Publication of JPS5957349A publication Critical patent/JPS5957349A/ja
Publication of JPH0341852B2 publication Critical patent/JPH0341852B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1433Saving, restoring, recovering or retrying at system level during software upgrading

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、ホスト処理装置と複数のサブホスト
等分散処理装置を有する分散処理システムに係
り、特に分散処理装置のプログラム障害に際し該
分散処理装置の自動運転及び障害修復時間短縮に
好適なソフトウエア障害修復処理方式に関する。
〔従来技術〕
第1図は、ホストと複数のサブホストとを有す
る分散処理システムの一例を示すシステム構成図
である。ホスト1は、通信回線4を介して複数個
のサブホスト2と接続されている。またサブホス
ト2には、それぞれ通信回線4を介して複数台の
端末装置3が接続されている。
このような分散処理システムにおいては、サブ
ホスト2でプログラム障害が発生した場合サブホ
スト2側が無人であるときには障害修復の手段が
なく、またホスト1側からはサブホストでどの様
な障害が発生しているかを知る手段がなかつた。
従つて、サブホスト2側は有人であることが前提
であるが、この場合でも下記の問題点があつた。
(a) プログラム障害の検知及び再開始処理のため
のオペレータが必要である。
(b) サブホスト2側でプログラム障害原因の追求
を行う場合、専門家がサブホスト2の所在地へ
到着する迄に時間を要す。
(c) ホスト1側でプログラム障害原因の追求を行
う場合でも、下記いずれかの問題があつた。
(i) 障害情報を人手でサブホスト2からホスト
1の所在地へ輸送するために輸送時間が必要
である。
(ii) 通信回線を経由して障害情報を転送する場
合でも、プログラム障害部位の局所化がなさ
れていないために、障害情報の転送に長時間
を必要とする。
〔発明の目的〕
本発明の目的とするところは、前記の如き従来
技術の問題点を解決することであり、分散処理シ
ステムに於けるサブホスト等分散処理装置のプロ
グラム障害時の自動運転及び障害修復時間短縮に
好適なソフトウエア障害修復方式を提供すること
にある。
〔発明の概要〕
この発明の特徴とするところは、分散処理装置
に接続されるサービスプロセツサがプログラム障
害を検出し、プログラム障害検出時自動的にメモ
リダンプを取得し、サブホストの再立上げを実行
後、サービスプロセツサを有する分散処理装置が
プログラム障害部位の局所化を行い該障害情報を
ホスト処理装置へ転送し、ホスト側で障害原因の
究明完了後送信されるパツチ情報を受信し、該パ
ツチを障害プログラムに施こし、この後サービス
プロセツサがシステムの再開始を行うソフトウエ
ア障害修復方式である。
〔発明の実施例〕
以下、本発明の一実施例を第2図〜第8図によ
り説明する。
第2図は、本発明の一実施例である分散処理シ
ステムのシステム構成図である。サブホスト2に
は、業務フアイル装置6以外に現システムレジデ
ンス装置7、旧システム・レジデンス装置8、メ
モリダンププログラムフアイル装置9およびメモ
リダンプ用フアイル装置10が接続されている。
第3図は、本発明の一実施例である分散処理シ
ステムの動作を示すフローチヤートである。
以下、通常運転について第2図により説明す
る。サブホスト2の運転は、コンソールサービス
プロセツサ5またはホスト1からの起動により、
現システム.レジデンス装置7に格納されている
プログラムがサブホスト2にロードされ実行開始
される。
通常運転とのときは、たとえば端末装置3より
メツセージを入力し、該メツセージが通信回線4
を径由してサブホスト2へ到着した後、サブホス
ト2内で一定の処理を実行し、ホスト1での処理
を実行すべくメツセージはサブホスト2より通信
回線4を経由してホスト1へ転送される。ホスト
1で業務処理を終了した後、ホスト1によつて作
成された応答メツセージは、サブホスト2を経由
して端末装置3へ送信される。以上は通常運転の
ときに行われるサブホスト2の動作の一例であ
る。
次に通常運転中にサブホスト2でプログラム障
害が発生した場合の本発明の一実施例の動作につ
いて第3図をもとに説明する。通常運転中にコン
ソールサービスプロセツサ5でプログラム障害を
検知した場合、コンソールサービスプロセツサ5
は、サブホスト2に対してSTOP、STORE、
STATUS(サブホスト2の関連レジスタを主記
憶に格納するオペレーシヨン)、を指示後、メモ
リダンププログラムをメモリダンププログラムフ
アイル装置9よりロードした後、メモリダンプを
メモリダンプ用フアイル装置10に格納する。こ
の後、コンソールサービスプロセツサ5は、予め
設定されているフラグを判定することにより、プ
ログラムのバージヨンアツプ直後か否かを判定
し、バージヨンアツプ直後であれば旧システム.
レジデンス装置8よりサブホスト2の立上げを実
行する。バージヨンアツプ直後でなければ該当フ
ラグは消去されており、現システム.レジデンス
装置7より再開始処理を実行し、再開始処理が不
成功である場合旧システム.レジデンス装置8よ
りサブホスト2の立上げを実行する。なおコンソ
ールサービスプロセツサ5は、オペレータに代わ
つて上記オペレーシヨンを自動的に実行するもの
でありオペレータが実行できる上記のようなオペ
レーシヨンを自動的に遂行できることはよく知ら
れている。再立上げ後、サブホスト2内のサービ
スプログラムは、メモリダンプ用フアイル装置1
0の内容にもとづきプログラム障害部位の局所化
を実行し、障害情報をホスト1へ送信する。障害
情報を受信したホスト1ではプログラム障害原因
究明後、パツチ情報をサブホスト2へ送信する。
パツチ情報を受信したサブホスト2では、現シス
テム.レジデンス装置7へ該パツチを実行する。
パツチが終了すると、サービスプログラムは、た
とえばコンソールメツセージ出力のような方法
で、コンソールサービスプロセツサ5にパツチ終
了を連絡する。次にコンソールサービスプロセツ
サ5は、サブホスト2が現システム.レジデンス
装置7で運転されていれば運転を続行し、旧シス
テム.レジデンス装置8で運転されていれば現シ
ステム.レジデンス装置7での運転に切替える。
第3図でステツプ31は、主としてコンソールサー
ビスプロセツサ5で行われる部分、ステツプ32は
主としてサブホスト2内のソフトウエアで行われ
る部分、ステツプ33はコンソールサービスプロセ
ツサ5およびサブホスト2内のサービスプログラ
ムによつて行われる部分を示す。
次にプログラム障害の判定方法について説明す
る。第4図は、本発明の一実施例であるプログラ
ム障害判定のフローチヤートを示すものである。
本障害判定は、主としてコンソールサービスプロ
セツサ5で実施する。
プログラム障害の場合、表面化する現象は下記
の4ケースである。
(1) プログラムABEND サブホスト2内ソフトウエアで検知され、コ
ンソールサービスプロセツサ5にABENDコー
ドが出力される。ABENDコードは、通常コン
ソールメツセージとして出力されるもので、コ
ンソールサービスプロセツサ5がABENDコー
ドを監視することは容易である。
(2) システムWAIT システムがWAIT状態となり、WAITコー
ドはPSW(Program Status Word)等のレジ
スタに格納されている。システムWAITとな
ると通常WAITコードがコンソールに出力さ
れる。
(3) プログラムループ プログラム自体がループ状態となる。
(4) 結果不正 上記4ケースのうち、(4)結果不正は人間の判定
を必要とする場合が多く本発明の対象外である。
ABEND、WAITの場合、コンソールサービスプ
ロセツサ5は、それぞれ登録されているABEND
コード、WAITコードと合致するかどうかチエ
ツクし、判定する。ループの場合の検出方法は、
一定時間間隔で診断命令が出ているか否かを判定
し、一定間隔で診断命令が出ていなければコンソ
ールサービスプロセツサ5からサブホスト2内ソ
フトウエアに割込みを発生させ割込みに対する応
答の正常/異常によりループ状態を検出する。
コンソールサービスプロセツサ5がプログラム
障害を検出すると、上記のようなプログラム障害
の種別と障害コードとを、コンソールキーインを
シミユレーシヨンする方法によつて主記憶装置の
所定の場所に格納する。
第5図に本発明の一実施例であるプログラム障
害局所化のフローチヤートを示す。本局所化で使
用する情報は、プログラム障害検出後取得済みの
メモリダンプ用フアイル装置10に格納されてい
るメモリダンプと現システム.レジデンス装置7
である。
メモリダンプ内システムトレース情報より障害
部位を決定する。障害プログラムがオペレーテイ
ングシステムの一部であれば、オペレーテイング
システム関連テーブルをサーチすることにより、
チエーン切れ等のチエツクを行う。さらにプログ
ラムによつては障害部位前後の範囲をメモリダン
プと現システム.レジデンスとを比較照合するこ
とにより障害部位の局所化が可能である。
なお障害局所化がサブホスト側のみでは不可能
な場合、すなわち上記判定で異常が無い場合ホス
トからの指示により特定範囲のメモリダンプのみ
を送信することにより、情報転送時間の短縮が可
能となる。
ここで、上記判定で使用した要素を第6図から
第8図を用いて解説する。
第6図はシステムトレース情報である。オペレ
ーテイングシステムは、タスクデイスパツチング
のたびに関連するタスクのアドレス、割込み情報
等をシステムトレースエリア11に格納してお
く。このシステムトレースエリア11は決められ
たサイズであり、このエリアは複数個の最新情報
が残る様にラウンドロビン方式に管理されてお
り、メモリダンプにより取出せる。従つて本シス
テムトレース情報を判定することにより、障害時
のアドレスあるいは障害状態が判明する。
第7図は、オペレーテイングシステムのテーブ
ル12〜18がチエーンによりつながつている状
態を示すものである。このテーブルのつながりを
サーチすることにより、チエーン切れを見つけ、
どの部分が不良かを判定する。
第8図は、プログラム実行形式の例を示す。(a)
は正しいプログラム、(b)は誤つたプログラムであ
り、本内容を比較することにより、0005C4番地
に誤りがあることが判明する。
なおプログラム障害局所化そのものは、公知技
術である。たとえば多重プログラミングの環境
で、ある問題プログラムが異常終了したとき(プ
ログラムABENDしたとき)、そのプログラムが
占有している主記憶領域のみをメモリダンプする
ことは広く行われている。プログラム障害局所化
で問題となるのは、どこまで障害局所化の範囲を
狭くするかという程度の問題と、問題プログラム
の障害がオペレーテイングシステムと関連する場
合の処置である。上記述べたような手段を用い
て、どの程度までプログラム障害局所化を行うか
の判断は、サブホスト2内のサービスプログラム
の設計者にまかされる設計事項である。
〔発明の効果〕
本発明によれば次の効果がある。
(a) 分散処理装置のプログラム障害を自動的に検
出できる。
(b) プログラム障害発生時、自動的にメモリダン
プを取得するので、プログラム障害原因究明が
可能である。
(c) プログラム障害が発生しても、自動的に再開
始ができる。
(d) 分散処理装置で障害部位の局所化が可能であ
ることにより、障害情報転送時間が短くなる。
(e) 専門家を分散配置することなく、ホスト処理
装置側に集中配置することが可能となり障害原
因究明の効率向上ができる。
従つてサブホスト等分散処理装置運転の自動
化、障害修復時間の短縮が図れる。
【図面の簡単な説明】
第1図はホストと複数のサブホストを有する分
散処理システムの一例を示すシステム構成図、第
2図は本発明の一実施例である分散処理システム
のシステム構成図、第3図は本発明の一実施例の
動作を示すフローチヤート、第4図は本発明の一
実施例であるプログラム障害判定についてのフロ
ーチヤート、第5図は本発明の一実施例であるプ
ログラム障害部位局所化のフローチヤート、第6
図はシステムトレースエリアに格納されるシステ
ムトレース情報を示す図、第7図はOSのテーブ
ルがチエインされている状態を示す図、第8図は
プログラム実行形式の例を示す図である。 1……ホスト、2……サブホスト、3……端末
装置、4……通信回線、5……コンソールサービ
スプロセツサ、7……現システム.レジデンス装
置、8……旧システム.レジデンス装置、9……
メモリダンププログラムフアイル装置、10……
メモリダンプ用フアイル装置、11……システム
トレースエリア、12〜18……OSのテーブル。

Claims (1)

    【特許請求の範囲】
  1. 1 ホスト処理装置と、該ホスト処理装置に接続
    される分散処理装置とを有する分散処理システム
    において、前記分散処理装置で稼動されるプログ
    ラムのプログラム障害を検出しプログラム障害の
    場合にはメモリダンプ採取を起動し該メモリダン
    プ後システム再開始を行うサービスプロセツサ
    と、前記システム再開始後に前記メモリダンプに
    基づいてプログラム障害局所化を行い該局所化さ
    れた情報を含む障害情報を前記ホスト処理装置に
    送信しホスト処理装置よりパツチ情報を受信した
    とき該パツチを前記障害プログラムに施こすサー
    ビスプログラムが実行される前記分散処理装置と
    を有し、前記サービスプロセツサは前記パツチが
    施こされた後にシステムの再開始を行うことを特
    徴とする分散処理システムのソフトウエア障害修
    復方式。
JP57166509A 1982-09-27 1982-09-27 分散処理システムにおけるソフトウェア障害修復方式 Granted JPS5957349A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57166509A JPS5957349A (ja) 1982-09-27 1982-09-27 分散処理システムにおけるソフトウェア障害修復方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57166509A JPS5957349A (ja) 1982-09-27 1982-09-27 分散処理システムにおけるソフトウェア障害修復方式

Publications (2)

Publication Number Publication Date
JPS5957349A JPS5957349A (ja) 1984-04-02
JPH0341852B2 true JPH0341852B2 (ja) 1991-06-25

Family

ID=15832657

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57166509A Granted JPS5957349A (ja) 1982-09-27 1982-09-27 分散処理システムにおけるソフトウェア障害修復方式

Country Status (1)

Country Link
JP (1) JPS5957349A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5152206B2 (ja) 2008-02-21 2013-02-27 富士通株式会社 パッチ候補選択装置、パッチ候補選択プログラムおよびパッチ候補選択方法

Also Published As

Publication number Publication date
JPS5957349A (ja) 1984-04-02

Similar Documents

Publication Publication Date Title
US8930931B2 (en) Information processing apparatus using updated firmware and system setting method
CN109032822B (zh) 一种死机信息的保存方法和装置
US7941658B2 (en) Computer system and method for updating program code
MXPA05014131A (es) Equipo de red y un metodo para monitorear el arranque de tal equipo.
JP3481737B2 (ja) ダンプ採取装置およびダンプ採取方法
EP0477385B1 (en) Method of resetting adapter module at failing time and computer system executing said method
CN116266150A (zh) 一种业务恢复方法、数据处理单元及相关设备
US8032791B2 (en) Diagnosis of and response to failure at reset in a data processing system
CN112068935A (zh) kubernetes程序部署监控方法、装置以及设备
CN107273291B (zh) 一种处理器调试方法及***
CN115904793A (zh) 一种基于多核异构***的内存转存方法、***及芯片
JPH0341852B2 (ja)
JPH05181824A (ja) データ管理方式
CN113703823A (zh) 一种bmc固件升级方法、装置、电子设备及存储介质
JPH08329006A (ja) 障害通知方式
CN115048244B (zh) 一种服务器的硬件修复方法、***、计算机设备及介质
JPH11120154A (ja) コンピュータシステムにおけるアクセス制御装置および方法
US6760863B1 (en) CPU unit and run alternative control method of programmable controller
US20220374525A1 (en) Apparatus and method for detecting vulnerability to nonvolatile memory attack
KR20020065188A (ko) 컴퓨터 시스템의 장애관리 방법
JPH0119180B2 (ja)
JPS58144263A (ja) 分散処理システムの障害処理方式
JPS597982B2 (ja) 計算機システムのシステム障害時の再開始方式
CN118377658A (zh) 故障处理方法、装置、设备及存储介质
CN117389799A (zh) 虚拟机备份方法及装置、存储介质及电子设备