JPH04330531A - チェックポイント処理方式 - Google Patents

チェックポイント処理方式

Info

Publication number
JPH04330531A
JPH04330531A JP3100797A JP10079791A JPH04330531A JP H04330531 A JPH04330531 A JP H04330531A JP 3100797 A JP3100797 A JP 3100797A JP 10079791 A JP10079791 A JP 10079791A JP H04330531 A JPH04330531 A JP H04330531A
Authority
JP
Japan
Prior art keywords
computer
checkpoint
program
file
executed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3100797A
Other languages
English (en)
Inventor
Namiko Hayashi
林 奈美子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP3100797A priority Critical patent/JPH04330531A/ja
Publication of JPH04330531A publication Critical patent/JPH04330531A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は複数の計算機を接続し
た複合計算機システムにおけるチェックポイント処理方
式に関する。
【0002】
【従来の技術】一般に、コンピュータシステムにおいて
は、各種の障害対策機能が設けられている。この障害対
策機能の1つとして、リスタート処理が良く使用されて
いる。このリスタート処理は、障害により実行中のジョ
ブまたはシステム全体が停止した場合に実行されるもの
である。
【0003】リスタート処理には、特定のジョブのみを
リスタートさせる場合(ジョブリスタート)と、システ
ム全体をリスタートさせる場合(システムリスト)とが
あり、一般には、処理の高速化の目的でジョブリスター
トが多く使用されている。
【0004】ジョブリスタートとしては、チェックポイ
ントリスタート処理方式が良く知られている。このチェ
ックポイントリスタートは、ジョブの要所要所に予めチ
ェックポイントを設定しておくものであり、ジョブ処理
がチェックポイントにくるたびにその実行環境をステー
タス情報としてチェックポイントファイル記録しておき
、障害によりジョブの実行が中断した場合には、最新の
チェックポイントからリスタートされる。
【0005】このように、従来のチェックポイントリス
タートは、実行中のプログラムの実行環境を外部記憶媒
体にチェックポイントファイルとして保存し、障害発生
によりプログラムの実行が中断した場合に、保存されて
いるチェックポイントファイルの情報に基づいて旧環境
を復元し、再実行を可能とするものであり、このリスタ
ート方式を用いることで高速の障害復旧を行なうことが
できる。
【0006】しかしながら、このような従来のチェック
ポイントリスタート方式は電子計算機単体における障害
復旧を行なうものであるため、障害の発生した計算機が
稼動状態に復帰しないかぎり、プログラムの再実行は行
えない。
【0007】このため、複数の電子計算機が結合されて
構成される複合電子計算機システムに従来のチェックポ
イントリスタート方式を採用しても、ダウンした計算機
が稼動状態に復帰するまでプログラムの再実行を行なえ
ないので、複合電子計算機システム全体の動作の信頼性
を高めることは出来ないという問題がある。
【0008】
【発明が解決しようとする課題】従来では、障害の発生
した計算機が稼動状態に復帰しないかぎりプログラムの
再実行を行なえないため、複合電子計算機システム全体
の信頼性を高めることができないという問題があった。
【0009】この発明はこのような点に鑑みてなされた
もので、ダウンした計算機が稼動状態に復帰しなくても
そのプログラムを再実行できるようにし、複合電子計算
機システム全体の動作の信頼性を十分に向上させること
ができるチェックポイント処理方式を提供することを目
的とする。
【0010】
【課題を解決するための手段および作用】この発明によ
るチェックポイント処理方式は、2次記憶装置を共有す
る複数の電子計算機が結合されて構成された複合電子計
算機システムにおいて、前記各電子計算機に、自計算機
上で実行中のプログラムの実行環境を前記2次記憶装置
内に設定された自計算機用のチェックポイントファイル
に記録する手段と、自計算機の障害発生時に前記チェッ
クポイントファイルの内容に基づいてプログラムを実行
再開するチェックポイント処理手段と、前記2次記憶装
置内の他の計算機のチェックポイントファイルの情報を
自計算機用のチェックポイントファイルに複写する手段
と、前記他の計算機の障害発生時に前記自計算機用のチ
ェックポイントファイルに複写した他の計算機のチェッ
クポイントファイルの内容に基づいて前記他の計算機で
実行されていたプログラムを実行再開する手段とを具備
し、中断されたプログラムを別の電子計算機上で代替実
行することを特徴とする。
【0011】このチェックポイント処理方式においては
、各電子計算機が共通に参照できる2次記憶装置上にそ
れぞれの計算機のチェックポインファイルが記憶され、
必要に応じて、他の計算機のチェックポインファイルの
内容を自計算機のチェックポイントファイル上に複写す
ることができる。このため、他の計算機が故障した場合
に、その複写した他の計算機のチェックポイントファイ
ルの内容を参照することにより他の計算機で実行されて
いたプログラムを実行再開できる。したがって、故障し
た計算機のプログラムを別の計算機上で代替実行できる
ようになり、複合電子計算機システム全体の動作の信頼
性を向上させることができる。
【0012】
【実施例】以下、図面を参照してこの発明の実施例を説
明する。
【0013】図1にはこの発明の一実施例に係わる複合
電子計算機システムの構成が示されている。この複合電
子計算機システムは、複数の電子計算機を通信装置によ
り結合し、共有メモリは持たずに、各電子計算機から共
通に参照できる共有ディスクを持つ構成であるが、ここ
では、簡単のために、第1および第2の2台の電子計算
機11,12に着目し、これら電子計算機11,12が
共有ディスク13を共有する場合について説明する。
【0014】第1および第2の電子計算機11,12は
、専用のCPU間接続バスやLAN等の通信回線10を
介して結合されており、互いの動作状態を通知し合うこ
と等によって動作監視を行ないながら、それぞれプログ
ラムの実行処理を行なうものである。
【0015】共有ディスク13は、電子計算機11,1
2の両方から共通に参照できる2次記憶装置であり、チ
ェックポイントファイル131,132を初め、各種デ
ータやプログラムが格納されている。
【0016】チェックポイントファイル131は、第1
の電子計算機11で実行中のプログラムのチェックポイ
ント情報を記録するためのファイルである。また、チェ
ックポイントファイル132は、第2の電子計算機12
で実行中のプログラムのチェックポイント情報を記録す
るためのファイルである。
【0017】第1の電子計算機11には、チェックポイ
ント管理モジュール111が設けられている。このチェ
ックポイント管理モジュール111は、第1の電子計算
機11のチェックポイントファイル131を管理するも
のであり、自計算機11上で実行中のプログラムの実行
環境を所定のチェックポイント毎にチェックポイントフ
ァイル131に記録すると共に、自計算機11の障害発
生時にはチェックポイントファイル131の内容に基づ
いてプログラムを実行再開するための処理を行なう。
【0018】例えば、第1の電子計算機11がプログラ
ムAを実行している時は、チェックポイントファイル1
31にはプログラムAについての実行環境を示すチェッ
クポイント情報D1が格納される。
【0019】また、チェックポイント管理モジュール1
11は、第2の電子計算機12が故障した場合に、第2
の電子計算機12のチェックポイントファイル132の
情報を自計算機11用のチェックポイントファイル13
1に複写し、その複写したチェックポイントファイル1
32の内容に基づいて第2の電子計算機12で実行され
ていたプログラムを代替実行するための機能も有してい
る。
【0020】このチェックポイント管理モジュール11
1による複写およびプログラムの代替実行処理は、代替
管理プログラム112の指示によって実行開始される。 代替管理プログラム112は、オペレータの指示によっ
て起動されるか、または第2の電子計算機12の故障を
第1の計算機11が検知することによって自動的に起動
される。
【0021】第2の電子計算機12もチェックポイント
管理モジュール121を備えている。このチェックポイ
ント管理モジュール121は、第2の電子計算機12の
チェックポイントファイル132を管理するものであり
、自計算機12上で実行中のプログラムの実行環境を所
定のチェックポイント毎にチェックポイントファイル1
32に記録すると共に、自計算機12の障害発生時には
チェックポイントファイル132の内容に基づいてプロ
グラムを実行再開するための処理を行なう。
【0022】例えば、第2の電子計算機12がプログラ
ムBを実行している時は、チェックポイントファイル1
32にはプログラムBについての実行環境を示すチェッ
クポイント情報D2が格納される。
【0023】また、チェックポイント管理モジュール1
21は、第1の電子計算機11が故障した場合に、第1
の電子計算機11のチェックポイントファイル131の
情報を自計算機12用のチェックポイントファイル13
2に複写し、その複写したチェックポイントファイル1
31の内容に基づいて第1の電子計算機11で実行され
ていたプログラムを代替実行するための機能も有してい
る。
【0024】このチェックポイント管理モジュール12
1による複写およびプログラムの代替実行処理は、代替
管理プログラム122の指示によって実行開始される。 代替管理プログラム122は、オペレータの指示によっ
て起動されるか、または第1の電子計算機11の故障を
第2の計算機12が検知することによって自動的に起動
される。
【0025】以上の構成は計算機11,12共に正常稼
動中の状態に対応するものであり、以下に説明する構成
要素は第1の電子計算機11が障害発生によりダウンし
た場合に生じるものである。
【0026】すなわち、図1において、D1′は計算機
1がダウンした場合にチェックポイント管理モジュール
121によって、チェックポイントファイル131から
チェックポイントファイル132へ複写されたプログラ
ムAのチェックポイント情報である。第2の電子計算機
12のプログラムA´は、上記の情報複写が行われた後
、情報D1′に基づいて、計算機2で再実行されたもの
である。次に、図2のフローチャートを参照して、チェ
ックポイント管理モジュール111,121による複写
およびプログラムの代替実行動作について説明する。
【0027】図1の計算機11でプログラムAが実行さ
れ、計算機12でプログラムBが実行されている時、チ
ェックポイント管理モジュール111はチェックポイン
トファイル131にプログラムAのチェックポイント情
報D1を記録し、チェックポイント管理モジュール12
1はチェックポイントファイル132にプログラムBの
チェックポイント情報D2を記録する。このとき、計算
機11が障害発生によりシステムダウンし、プログラム
Aを計算機12で代替実行させたる場合について説明す
る。
【0028】計算機12上の代替管理プログラム122
が例えばオペレータの指示等にって起動され、代替処理
が指定されると、チェックポイント管理モジュール12
1は以下のような処理を行う。
【0029】まず、チェックポイント管理モジュール1
21は、計算機11の状態をチェックし、計算機11が
稼働中かどうかを調べる(ステップS1)。計算機11
が稼働中の場合には、プログラムの代替実行処理を中止
する。一方、計算機11が稼働中の場合には、まず、チ
ェックポイントファイル131をロック(専有)し、こ
の後、計算機11が立ち上がったか否かを調べる(ステ
ップS3)。ここで、チェックポイントファイル131
をロックするのは、3台以上の計算機からシステムが構
成されている場合に、2台以上の計算機によって同じプ
ログラムについての代替実行処理を同時に実行されるの
を防止するためである。もし、計算機11が立ち上がっ
ている場合には、チェックポイントファイル131をア
ンロック(解放)した後(ステップS4)、代替実行処
理を中止する。
【0030】計算機11が立ち上がらず故障状態のまま
である場合には、チェックポイントファイル13を検査
して、リスタートに使用できるチェックポイント情報(
D1)を調べる(ステップS5)。次いで、チェックポ
イント管理モジュール121は、チェックポイントファ
イル131からチェックポイントファイル132へ、チ
ェックポイント情報D1を複写する(ステップS6)。
【0031】この複写が完了したら、チェックポイント
管理モジュール121は、チェックポイントファイル1
31のアンロックを行う(ステップS7)。この後、チ
ェックポイントファイル131は、複写したチェックポ
イント情報D1´に従ってプログラムAを代替実行する
ための復元処理を行う(ステップS8)。
【0032】この復元処理処理では、プログラムAが例
えば共有ディスク13から電子計算機12にプログラム
A´として転送され、チェックポイント情報D1´で指
定されるチェックポイントの位置からプログラムA´が
実行が再開される。
【0033】以上のように、この実施例においては、各
電子計算機11,12が共通に参照できる共有ディスク
13上にそれぞれの計算機のチェックポインファイル1
31,132が記憶され、電子計算機11が故障した場
合には、その故障した計算機11のチェックポインファ
イル131の内容を計算機12のチェックポイントファ
イル132上に複写することができる。
【0034】このため、その複写した計算機11のチェ
ックポイントファイル131の内容を参照することによ
り、計算機11で実行されていたプログラムAを計算機
12上で実行再開できる。したがって、複合電子計算機
システム全体の動作の信頼性を向上させることができる
【0035】
【発明の効果】以上詳記したようにこの発明によれば、
ダウンした計算機が稼動状態に復帰しなくてもそのプロ
グラム再実行できるようになり、複合電子計算機システ
ム全体の動作の信頼性を十分に向上させることができる
【図面の簡単な説明】
【図1】この発明の一実施例に係るコンピュータシステ
ムの構成を示すブロック図。
【図2】同実施例における代替処理動作を説明するフロ
ーチャート。
【符号の説明】
11,12…電子計算機、111,121…チェックポ
イント管理モジュール、13…共有ディスク、131,
132…チェックポイントファイル。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  2次記憶装置を共有する複数の電子計
    算機が結合されて構成された複合電子計算機システムに
    おいて、前記各電子計算機は、自計算機上で実行中のプ
    ログラムの実行環境を前記2次記憶装置内に設定された
    自計算機用のチェックポイントファイルに記録する手段
    と、自計算機の障害発生時に前記チェックポイントファ
    イルの内容に基づいてプログラムを実行再開するチェッ
    クポイント処理手段と、前記2次記憶装置内の他の計算
    機のチェックポイントファイルの情報を自計算機用のチ
    ェックポイントファイルに複写する手段と、前記他の計
    算機の障害発生時に前記自計算機用のチェックポイント
    ファイルに複写した他の計算機のチェックポイントファ
    イルの内容に基づいて前記他の計算機で実行されていた
    プログラムを実行再開する手段とを具備し、中断された
    プログラムを別の電子計算機上で代替実行することを特
    徴とするチェックポイント処理方式。
JP3100797A 1991-05-02 1991-05-02 チェックポイント処理方式 Pending JPH04330531A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3100797A JPH04330531A (ja) 1991-05-02 1991-05-02 チェックポイント処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3100797A JPH04330531A (ja) 1991-05-02 1991-05-02 チェックポイント処理方式

Publications (1)

Publication Number Publication Date
JPH04330531A true JPH04330531A (ja) 1992-11-18

Family

ID=14283405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3100797A Pending JPH04330531A (ja) 1991-05-02 1991-05-02 チェックポイント処理方式

Country Status (1)

Country Link
JP (1) JPH04330531A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015173857A1 (ja) * 2014-05-12 2015-11-19 株式会社日立製作所 情報処理方法及び情報処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015173857A1 (ja) * 2014-05-12 2015-11-19 株式会社日立製作所 情報処理方法及び情報処理装置

Similar Documents

Publication Publication Date Title
JP4321705B2 (ja) スナップショットの取得を制御するための装置及び記憶システム
JP3675802B2 (ja) 計算の状態を再構成する方法ならびにシステム
US7516361B2 (en) Method for automatic checkpoint of system and application software
US20050283504A1 (en) Disaster recovery system suitable for database system
JP3030658B2 (ja) 電源故障対策を備えたコンピュータシステム及びその動作方法
JP2004164046A (ja) 階層型バックアップシステムにおけるバックアップ方法
JPH07234808A (ja) システムダンプ採取方式
JPH04330531A (ja) チェックポイント処理方式
JP2000293391A (ja) 大規模メモリシステム管理方法および装置
JP3022768B2 (ja) 仮想計算機システム
WO2014147707A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP3335779B2 (ja) プラント性能監視システム
JP4358943B2 (ja) 自動バックアップシステム及び自動バックアッププログラムを記録した記録媒体
JP3103877B2 (ja) 多重構成システムによるプログラム実行方式
JPH07281933A (ja) 計算機システム
JP2853527B2 (ja) ファイル障害自動復旧システム
JPH10161815A (ja) ディスク二重化管理装置およびディスク二重化管理方法
JPH04337856A (ja) 二重化記憶装置の管理方式
JPH06187102A (ja) 二重化ディスク処理方式
JP2850756B2 (ja) 分散処理システムにおけるファイルの障害復旧方式
JPH04141751A (ja) 大容量記憶媒体障害復旧方式
JPS597982B2 (ja) 計算機システムのシステム障害時の再開始方式
JPH04291628A (ja) 複合サブシステム形オンラインシステムの障害回復方式
JPH04105159A (ja) 業務代行方式
JPH10240635A (ja) 計算機システムおよびそのシステムにおけるi/o装置の状態復元方法