JPS6375963A - システム回復方式 - Google Patents

システム回復方式

Info

Publication number
JPS6375963A
JPS6375963A JP61219542A JP21954286A JPS6375963A JP S6375963 A JPS6375963 A JP S6375963A JP 61219542 A JP61219542 A JP 61219542A JP 21954286 A JP21954286 A JP 21954286A JP S6375963 A JPS6375963 A JP S6375963A
Authority
JP
Japan
Prior art keywords
job
online
configuration information
standby
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61219542A
Other languages
English (en)
Inventor
Hiromichi Ogata
緒方 博通
Yoichi Yamamoto
洋一 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP61219542A priority Critical patent/JPS6375963A/ja
Priority to GB8719726A priority patent/GB2195192B/en
Priority to US07/097,123 priority patent/US4977500A/en
Publication of JPS6375963A publication Critical patent/JPS6375963A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2097Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、情報処理システムに係り、特にオンライン実
行中のジョブに異常が発生したとき、別のCPUで待機
しているオンライン実行待ちのジョブでオンラインを続
行するのに好適なシステム回復方式(ホットスタンバイ
)に関する。
〔従来の技術〕
従来のシステム回復方式(ホットスタンバイ)は情報処
理学会第32回(昭和61年前期)全国大会予稿集4B
−12XDM(10)、ホットスタンバイ処理方式に記
載のようにオンライン機のバックアップとして予備機を
設置し、オンライン機障害(CPU、オペレーティング
システム、DB/DC等のシステム障害)時に、別のC
PUで待機しているオンライン実行待ちのジョブに切替
えて、瞬時にオンラインを続行する制御方式である。し
かし、オンライン実行用のオンライフジ1プと障害時に
オンラインを続行するための侍礪ジ四ブとの関係は待機
ジョブがオンラインジョブのバンクアップとして用意さ
れているため、オンラインジョブと待機ジョブは、1対
1に対応するこどになる。従って、オンラインジョブが
複数存在するデータ処理システムにおいては待機ジョブ
がそれに応じて複数必要となるために障害時以外は、普
段実行されない待機ジョブが多くのメモIJ、CPUお
よび磁気ディスク装置などの資源?多(必要とする点に
ついては配慮されていなかった。
〔発明が解決しようとする問題点〕
上記従来技術は複数のオンラインジョブが存在する場合
、これに対応する待機ジ1プの数の点について配#、さ
れ℃おもず、複数の待機ジョブが存在して、各待機ジョ
ブかそれぞれメモ!J、CPUおよび磁気ディスク装置
などの資源を必要に占有するために、情報処理システム
の資源が装置に必要となるという問題があった。
本発明の目的は#機ジョブの数を削減し、もって、待機
ジョブのために占有されている資源tv削減することで
情報処理システム全体の資源を削減し、効率良いシステ
ムにて、障害に膚するシステムの回復を行うことにある
〔問題をS決するための手段〕
上記目的は、オンラインジョブ等に対して予備となる予
備装置に、障害時瞬時に回復処理を行う待機ジョブを設
け、この待機ジぢブにオンラインジョブの構成の論理和
の構成清報を持たせ、オンライン障害時に、障害となっ
たオンラインジョブ以外のオンラインジョブの構成情報
を無効にし、予備装置に障害となった処理装置の交替を
行なわせることにより達成される。
〔作用〕
本発明のシステム切替方式は、周辺端末装置をそれぞれ
有する複数の処理1i1tlcおける1の処理装置にて
、ジョブ実行の障害発生を予期して設けである予備装置
に、障害回復の処理を行う待機ジョブを設け、更に、待
機ジョブに各処理装置でのジョブの構成についての論理
和の構成i′#報を持たせ、1の処理装置でのジョブ実
行障害発生時に、障害発生のオンラインジョブ以外のオ
ンライフジョブの構成情報を無効にするように動作する
それによって、予備装置は、ジョブ障害発生の処理装置
のジョブ実行の構成情報のみを保有することになるため
、予備装置は、ジョブ障害発生の処理W置と同様のオン
ライフジ5プの構成を有することなり、障害発生に対し
てシステムの回復を行うこととなるので、予備装置が複
数の処理装置の有するジョブ数に対応した待機ジョブ数
音保有する必要がな(なり、情報処理システム全体の資
源を削減し、効率良いシステムが実現できる。
〔実施例〕
以下、本発明の一実施例を第1図から第4図により説明
する。第1図は本発明によるオンラインシステムの構成
図である。オンライン機11.オンライン機12とオン
ライン磯障害時にオンライン機に切替える予備機13よ
り成るデータ処理システムである。計、lE機システム
間はシステム間通信装置t17によって相互に接続され
ている。谷計算機システムには計疼機システムの切替え
を制御する管理プログラム111,121.151が存
在する。谷計暉機システムからアクセス可能な磁気ディ
スク!7’&データベース15とし、また別の磁気ディ
スク装置には、谷計j!機システムに関するオンライン
ジョブの構成情報が構成情報ファイル16に格納されて
いる。オンライン機11およびオンライン機12にはオ
ンラインジョブA(112)およびオンラインジョブB
(122)が存在し、処理を実行することとなっている
。オンラインジョブへの内容は端末システム141゜1
42.145がCCP (通信1tIIj御処理装置)
18aを介して接続された状態で、データベース15を
使用したオンライン処理を実行するものである。
オンラインジョブBの内容は端末システム144゜14
5がCCP18bを介して接続された状態でデータベー
ス15乞使用したオンライン処理?:実行するものであ
る。オンラインジョブA 、およびオンラインジョブB
の構成情報として端末システムの凝続状況、データベー
スのアクセス情報が構成情報ファイル16に格納されて
いる。予備機13には待機ジョブ132が存在している
。待機ジョブ132には構成情報ファイル16からオン
ラインジョブA、およびオンラインジョブBの構成情報
の論理和で、bる構成情報、つまり、端末システム14
1〜145およびデータベース150入出力装置などの
資源を占有して処理を行うジョブの構成情報?持ってい
る。
次に、本システムにおける動作について説明する。オン
ラインジョブ1.またはオンラインジョブ2の障害検知
はシステム間通信装置17によって予備機15の管理プ
ログラム151が行なう。
障害を検知すると管理プログラム161は待機ジョブ1
32に対して障害のあったオンライフジョブの識別子乞
連絡する。待機ジョブ152はオンラインジョブ識別子
によってオンラインシッフAが障害となったか、オンラ
インシッフ゛Bが障害トなったかヲ知り、オンラインシ
ッフAか障害となった場合はオンラインジョブBのみが
使用可能である端末システム144.145のシステム
構成Ic間する情i′?:i効にする。オンラインジョ
ブBが障害となった場合はオンラインシッフAのみが使
用可能である端末システム141,142.145のシ
ステム構成に関する情報を無効とする。その後にオンラ
インシステムのデータとして矛盾がないようにするため
に、障害時に仕掛り中であった処理の結着などのシステ
ム回復処理を行ない、システム回復後CCPを介して端
末システムに計算機システム切替えを連絡してオンライ
ンを再開するよう動作する。
第2図は第1図の予備機13の管理プログラム131の
処理の流れ図である。オンラインジョブの障害検知(2
1)はシステム間通信装置17によってオンライン機1
1.12の管理プログラム1t1.121からの予備機
13の管理プログラム131に連絡されるか、または一
定時間毎の正常動作中の連絡にて、管理プログラム15
への未着によって行なう。予備機16に障害となったオ
ンラインジョブの待機ジョブが存在するかのチェック(
22))k行ない、待機ジョブが存在する場合は待機ジ
ョブにオンライフジ1プ識別子と共にオンラインシッフ
障害連絡を行なう(23)。予備機13のメモリ、CP
Uなどの状況で他の待機ジョブが立上げoT能か否かを
判定(23)して、必要なら障害の発生し又いない他の
オンラインジョブの障害に備えて、他の待機ジョブを立
上げる処理を行なう(25)。オンラインジョブ障害連
絡ヲ行なった待機ジョブのシステム回復処理の完了乞待
ち(26)、完了後オンラインの再開始を他の計算機シ
ステムの管理プログラムへ連絡すると共に、待機ジョブ
の状態からオンラインシッフの状態に変更(27)する
第3図は第1図の住機ジョブ132の構成情報管理図で
ある。構成情報管理デープル51には構成情報テーブル
管理1′#報53を持つ。構成情報テーブル管理情報3
3には構成清報テーブル32に関するテーブル種別、テ
ーブル二ン) IJの先頭アドレス、エンドIJ数によ
び待機属性を持つ。待機属性とはオンラインジョブ障害
時に構成情報の有効または無効の管理の必要の有無に関
する情報である。構成情報テーブル52にはエントリ毎
に、本エントリが有効か否かの情報と、本エントリを使
用するオンラインジョブ識別子を持つ。第1図の実施例
の場合の構成情報には、テーブル4別として、いくつか
のテーブルが想定される。例えばデータベースを管理す
るテーブルと端末システムを管理するテーブルである。
データベース15はオンラインジョブ共通であるので待
機属性として、有効または無効の管理は不要である。複
数の端末システムは、オンラインシステムに使用される
か否かが異なるため、有効または無効の管理が必要であ
る。端末システムを管理するテーブルは端末システム1
41〜145毎にエントリがあり、初期値は本二ントリ
有効としてセクトされ、端末システム141〜143の
エントリにはオンラインジョブ1の識別子が使用オンラ
イフジ1プ識別子としてセットされ、端末システム14
4.145のエントリにはオンラインシッフ2の識別子
が使用オンラインジョブ識別子としてセクトされている
次に、上述の構成情報管理状況における障害時の構成情
報の管理制御について説明する。第4図は、第1図の待
機ジョブ162による構成情報管理の流れ図である。障
害発生を検知すると、構成情報1埋テーブル管理消報3
3の先頭アドレスなサーチ(41)l、て、待機属性に
て示されたオンライフジョブ毎の使用の可否によって無
効にすべき必要のある無効化必要テーブルか否かのチェ
ックを行なう(42)。無効化必要テーブルの場合には
構成情報テーブル52の先頭アドレスta:構成慣報管
理テーブル管理情報33からサーチする処理を行なう(
43)。谷エントリにある使用オンライフジョブ鷹別子
と障害の発生したオンラインジ曹プ識別子が同一か、つ
まり、使用オンライフジョブが障害オンラインジ璽ブで
あるかチェックしく44)、相違している場合は漂効情
9!iをエントリにセットする(45)。全エントリの
チェック済みか否かのチェック7行ない(46)、まだ
ならば次のエン) IJの処理のために次のエントリア
ドレスをサーチ(47)する。全構成清報テーブル32
をサーチ済みか否かをチェック48して。
まだならば、次の構成情報テーブル管理m報53をサー
チ(49)して処理を繰返す。以後の処理ではエントリ
に無効情報がセットされていると当該エントリを無視す
る。
本実施例によれば、他のオンライン機、ブの待機ジョブ
を立上げることもできるので、複数のオンラインジ璽プ
が障害となってもシステム回復ができる効果がある。
〔発明の効果〕
本発明によれば、a故のオンライフジョブが存在する場
合の障害に対する待機ジョブの数が削減できるので、待
機ジョブによるデータ処理システムのメモリ、CPUお
よび磁気ディスク:!Itなどの資源が削減でき、効率
よいシステムでの回復ができる効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例のオンラインシステムの構成
図、第2図は第1図の予備機の管理プログラムの処理の
流れ図、第5図は第1図の待機ジ11.12・・・オン
ライン機、15・・・予備機、1m!  12m、15
1・・・管理プログラム、112−・・オンラインジ璽
ブ1.122・・・オンライフジョブ2.132・・・
待機ジョブ、141i42゜145.144,145・
・・端末システム、15・・・データベース、16・・
・構成情報、17・・・システム間通信装置、31・・
・構成情報管理テーブル、32−・構成情報テーブル、
33・・・構成情報テーブル管理情報。 ¥J 1 図 第 2 図 第3 ■

Claims (1)

    【特許請求の範囲】
  1. (1)周辺端末装置をそれぞれ有し、ジョブの実行と管
    理を行う複数の処理装置と、前記処理装置におけるジョ
    ブ実行の障害時に当該処理装置と切替わる予備装置を有
    する情報処理システムにおいて、 前記予備装置に障害回復を行わせる待機ジョブを設け、
    当該待機ジョブに各ジョブの構成の論理和の構成情報を
    持たせ、特定の処理装置でのジョブ実行に障害が発生し
    たときに、前記待機ジョブの有する構成情報について、
    障害発生のジョブ以外のジョブの有する周辺端末装置等
    の構成情報を無効にすることで前記予備装置へシステム
    の切替えを行わせることを特徴とするシステム回復方式
JP61219542A 1986-09-09 1986-09-19 システム回復方式 Pending JPS6375963A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP61219542A JPS6375963A (ja) 1986-09-19 1986-09-19 システム回復方式
GB8719726A GB2195192B (en) 1986-09-19 1987-08-20 System recovery method for computer system
US07/097,123 US4977500A (en) 1986-09-09 1987-09-16 System recovery method for computer system having a standby system with a wait job operation capability

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61219542A JPS6375963A (ja) 1986-09-19 1986-09-19 システム回復方式

Publications (1)

Publication Number Publication Date
JPS6375963A true JPS6375963A (ja) 1988-04-06

Family

ID=16737125

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61219542A Pending JPS6375963A (ja) 1986-09-09 1986-09-19 システム回復方式

Country Status (3)

Country Link
US (1) US4977500A (ja)
JP (1) JPS6375963A (ja)
GB (1) GB2195192B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015018479A (ja) * 2013-07-12 2015-01-29 日本電気通信システム株式会社 情報処理システム、情報処理装置、情報処理方法及びプログラム

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2755437B2 (ja) * 1989-07-20 1998-05-20 富士通株式会社 通信制御プログラムの連続運転保証処理方法
US5153881A (en) * 1989-08-01 1992-10-06 Digital Equipment Corporation Method of handling errors in software
DE69130197T2 (de) * 1990-03-05 1999-02-11 Fujitsu Ltd., Kawasaki, Kanagawa Datenverarbeitungssystem zur nachrichtenübertragung
JPH04109352A (ja) * 1990-08-29 1992-04-10 Nec Corp オンライン情報処理装置
US5175735A (en) * 1990-09-28 1992-12-29 Xerox Corporation Method and apparatus for handling object faults in an electronic reprographic printing system
DE59108472D1 (de) * 1991-02-01 1997-02-20 Siemens Ag Verfahren für den fehlerbedingten Neustart eines Multiprozessorrechners eines Fernmeldevermittlungssystems
GB2273180A (en) * 1992-12-02 1994-06-08 Ibm Database backup and recovery.
US5790791A (en) * 1995-05-12 1998-08-04 The Boeing Company Apparatus for synchronizing flight management computers where only the computer chosen to be the master received pilot inputs and transfers the inputs to the spare
US5675723A (en) * 1995-05-19 1997-10-07 Compaq Computer Corporation Multi-server fault tolerance using in-band signalling
US5696895A (en) * 1995-05-19 1997-12-09 Compaq Computer Corporation Fault tolerant multiple network servers
US5822512A (en) * 1995-05-19 1998-10-13 Compaq Computer Corporartion Switching control in a fault tolerant system
US6032271A (en) * 1996-06-05 2000-02-29 Compaq Computer Corporation Method and apparatus for identifying faulty devices in a computer system
JP3877519B2 (ja) * 2000-12-15 2007-02-07 株式会社日立製作所 システム回復方法およびその実施計算機システム並びにその処理プログラムを記録した記録媒体
CN100436831C (zh) * 2001-10-30 2008-11-26 英业达股份有限公司 散热***的切换装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB243464A (en) * 1924-09-06 1925-12-03 Gen Electric Improvements in and relating to methods of and means for regulating temperature
US3377623A (en) * 1965-09-29 1968-04-09 Foxboro Co Process backup system
US3623014A (en) * 1969-08-25 1971-11-23 Control Data Corp Computer communications system
US4257097A (en) * 1978-12-11 1981-03-17 Bell Telephone Laboratories, Incorporated Multiprocessor system with demand assignable program paging stores
US4306288A (en) * 1980-01-28 1981-12-15 Nippon Electric Co., Ltd. Data processing system with a plurality of processors
ZA821999B (en) * 1981-03-31 1983-05-25 British Telecomm Computor or processor control systems
US4648031A (en) * 1982-06-21 1987-03-03 International Business Machines Corporation Method and apparatus for restarting a computing system
US4589093A (en) * 1983-03-28 1986-05-13 Xerox Corporation Timer manager
US4674038A (en) * 1984-12-28 1987-06-16 International Business Machines Corporation Recovery of guest virtual machines after failure of a host real machine
US4703481A (en) * 1985-08-16 1987-10-27 Hewlett-Packard Company Method and apparatus for fault recovery within a computing system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015018479A (ja) * 2013-07-12 2015-01-29 日本電気通信システム株式会社 情報処理システム、情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
GB8719726D0 (en) 1987-09-30
US4977500A (en) 1990-12-11
GB2195192A (en) 1988-03-30
GB2195192B (en) 1990-10-17

Similar Documents

Publication Publication Date Title
EP0319034B1 (en) Method of recovering failure of online control program
US5121486A (en) Network control system for dynamically switching a logical connection between an identified terminal device and an indicated processing unit
US6026499A (en) Scheme for restarting processes at distributed checkpoints in client-server computer system
JP2003131900A (ja) サーバシステム運用管理方式
JPS6375963A (ja) システム回復方式
US7941810B2 (en) Extensible and flexible firmware architecture for reliability, availability, serviceability features
CN110807064B (zh) Rac分布式数据库集群***中的数据恢复装置
KR19990082867A (ko) 갱신 트랜잭션 완성 방법 및 장치
US20080288812A1 (en) Cluster system and an error recovery method thereof
JP3481737B2 (ja) ダンプ採取装置およびダンプ採取方法
JPH07306794A (ja) 分散システム及び分散システムの高信頼化方法
JP2778798B2 (ja) 制御データのキュー構造管理処理方式
JPH05314075A (ja) オンラインコンピュータ装置
JP3335779B2 (ja) プラント性能監視システム
JPH05314085A (ja) 複数計算機間の相互稼動待機方式
JPS6113626B2 (ja)
JP3312652B2 (ja) マルチプロセッサアーキテクチャでのデータベース管理方式
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体
JPH0277943A (ja) システムリカバリ方法
JP3101353B2 (ja) プロセスの親子関係引き継ぎ処理装置
JP3340284B2 (ja) 冗長システム
JP2000047893A (ja) 複数オンラインシステムにおける障害回復方法およびオンライン処理システム
JPH02153437A (ja) 出力メッセージ回復方式
CN115269556A (zh) 一种数据库故障处理方法、装置、设备及存储介质
JPH1091478A (ja) エージェント管理方法