JPH08235134A - Computer starting-up method of multicomputer system - Google Patents

Computer starting-up method of multicomputer system

Info

Publication number
JPH08235134A
JPH08235134A JP7036485A JP3648595A JPH08235134A JP H08235134 A JPH08235134 A JP H08235134A JP 7036485 A JP7036485 A JP 7036485A JP 3648595 A JP3648595 A JP 3648595A JP H08235134 A JPH08235134 A JP H08235134A
Authority
JP
Japan
Prior art keywords
data
startup
auxiliary storage
storage device
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7036485A
Other languages
Japanese (ja)
Inventor
Hiroto Tsukahara
裕人 塚原
Shigenori Kaneko
茂則 金子
Takeshi Miyao
宮尾  健
Sunao Kato
加藤  直
Hirokazu Kasashima
広和 笠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Information and Control Systems Inc
Original Assignee
Hitachi Ltd
Hitachi Process Computer Engineering Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Process Computer Engineering Inc filed Critical Hitachi Ltd
Priority to JP7036485A priority Critical patent/JPH08235134A/en
Publication of JPH08235134A publication Critical patent/JPH08235134A/en
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

PURPOSE: To suppress influence on other computers if a fault is generated right after a transaction program is started to repeat resetting and restarting and lighten the load on the whole system by stopping reporting the survival of a computer where a fault occurs, and then disconnecting this computer from mutual life/death monitoring and evading the start of the transaction program. CONSTITUTION: When a computer 1 (101) is powered ON and a multiple system operation state managing program 1 starts the starting-up process of its own system 102, a data check 103, whether or not there is startup in-process data 113 being start data in an auxiliary storage device 110, is made first. When the data is present, it is judged that the computer 1 (101) stops during the start-up process, and the startup of its own system is ended 114. When the startup in-process data 113 is not present, on the other hand, startup in-process data 113 is newly written 104 in the auxiliary storage device 110, and a survival information program 105 and a life/dead monitoring program 106 are started to start the transaction program.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明はマルチコンピュータシス
テムの計算機立ち上げ方法に関し、特に多重系計算機シ
ステムにおける障害発生後の計算機立ち上げ方法に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a computer startup method for a multi-computer system, and more particularly to a computer startup method after a failure occurs in a multi-system computer system.

【0002】[0002]

【従来の技術】一般にマルチコンピュータシステムで
は、システムを構成する複数の計算機の内の一つで障害
が発生しても、他の計算機により業務を引き継ぐ機能を
備えている。この為、オンライン業務を処理している計
算機が障害により停止した場合でも、他の計算機により
停止した計算機で処理をしていたオンライン業務が引き
継がれ、システム全体としての信頼性を高めている。
2. Description of the Related Art Generally, a multi-computer system has a function of taking over a task by another computer even if a failure occurs in one of a plurality of computers constituting the system. Therefore, even if the computer processing the online work is stopped due to a failure, the online work being processed by the computer stopped by another computer is succeeded, and the reliability of the entire system is improved.

【0003】このマルチコンピュータシステムの信頼性
は、マルチコンピュータシステムを構成する複数の計算
機全てが動作している状態が最も高く、マルチコンピュ
ータシステムにおいては、障害の発生により停止した計
算機をリスタートすることにより、システム全体を高信
頼な状態に移行することができるリスタート方式を実現
している。
The reliability of this multi-computer system is highest when all of the plurality of computers constituting the multi-computer system are in operation. In the multi-computer system, the computer stopped due to the occurrence of a failure must be restarted. This realizes a restart method that can shift the entire system to a highly reliable state.

【0004】また、特開平6−35718 号公報,特開平5−
210529号公報等には、異常が発生したプロセッサやタス
クを切り離し、リセットを減らしてシステムの運用に支
障を発生させない技術が記載されている。例えば、特開
平6−35718号公報では、障害が発生した欠陥タスクを処
理から切り離すことによりリセットの頻度を少なくし、
システムの運用に支障を生じさせないようにしている。
また、特開平5− 210529号公報では、故障したプロ
セッサをリセットし、一定時間経過後リスタートし、そ
の際に故障したプロセッサが復旧不可能の場合はシステ
ムから故障したプロセッサを切り離している。
Further, Japanese Patent Laid-Open Nos. 6-35718 and 5-
Japanese Patent No. 210529 discloses a technique of separating a processor or task in which an abnormality has occurred and reducing resetting so as not to hinder the operation of the system. For example, in Japanese Unexamined Patent Publication No. 6-35718, the frequency of reset is reduced by separating a defective task in which a failure has occurred from processing,
The system operation is not disturbed.
Further, in Japanese Patent Laid-Open No. 5-210529, the failed processor is reset and restarted after a certain period of time, and when the failed processor cannot be recovered, the failed processor is separated from the system.

【0005】多重系を構成するマルチコンピュータシス
テムにおいても、一方の系が相手系を異常とみなした場
合は、相手系をリセットし、相手系の業務を引き継ぐ
が、相手系をリスタートさせる際に障害を検出すると再
度リセットを行うことになる。
Even in a multi-computer system that constitutes a multiple system, if one system considers the other system abnormal, it resets the other system and takes over the work of the other system, but when restarting the other system. If a failure is detected, it will be reset again.

【0006】[0006]

【発明が解決しようとする課題】しかし、上述した従来
のリスタート方式を行う複数の計算機で構成され、各計
算機が相互に監視を行うマルチコンピュータシステムに
おいて、一つの計算機で業務プログラムの起動直後に障
害が発生し、これにより障害が発生した計算機のリセッ
トとリスタートを繰り返す状態に陥った場合、他の正常
な計算機では、繰り返して行われるリセットとリスター
トに伴い相互の生死監視処理を繰り返すことになるた
め、システム全体の負担が大きくなるという問題があ
る。
However, in a multi-computer system that is composed of a plurality of computers that perform the above-mentioned conventional restart method, and each computer monitors each other, one computer immediately after starting the business program. When a failure occurs and the resulting failure of the computer causes the resetting and restarting of the computer to repeat, other normal computers should repeat the life-and-death monitoring process with the repeated resetting and restarting. Therefore, there is a problem in that the burden on the entire system increases.

【0007】本発明の目的は、一つの計算機において業
務プログラムの起動直後に障害が発生し、リセットとリ
スタートを繰り返す状態に陥った場合、他の計算機への
影響を抑え、システム全体の負担を軽減することであ
る。
An object of the present invention is to suppress the influence on other computers and reduce the load on the entire system when a failure occurs immediately after the start of a business program in one computer and the reset and restart are repeated. It is to reduce.

【0008】[0008]

【課題を解決するための手段】上記目的を達成するため
に、本発明においては、自計算機の障害の検出、又は他
計算機からのリセット信号によりリスタート処理を行う
複数の計算機が互いに生存通知の送受信を行うことによ
り他計算機の生死監視を行うマルチコンピュータシステ
ムで立ち上げ処理を行なう際に、補助記憶装置に立ち上
げ処理中を示す起動データが存在する場合、該立ち上げ
処理を終了し、該起動データが存在しない場合には、補
助記憶装置に立ち上げ処理中を示す起動データを書き込
んだ後、生存通知処理,生死監視処理及び業務プログラ
ムを起動し、起動された業務プログラムでは、一旦待機
状態となる前に補助記憶装置内の立ち上げ処理中を示す
該起動データを消去する。
In order to achieve the above object, according to the present invention, a plurality of computers, which detect a failure of their own computer or perform restart processing by a reset signal from another computer, notify each other of their existence. When startup processing is performed in a multi-computer system that monitors the life and death of other computers by transmitting and receiving, if startup data indicating that startup processing is in progress is present in the auxiliary storage device, the startup processing is terminated, and If the startup data does not exist, after writing the startup data indicating that the startup process is in progress to the auxiliary storage device, the survival notification process, the life-and-death monitoring process, and the business program are started up. Before that, the boot data indicating that the boot process in the auxiliary storage device is in progress is erased.

【0009】また、本発明の別の方法としては、立ち上
げ処理の際に、補助記憶装置に業務開始を示す起動デー
タが存在する場合、該立ち上げ処理を終了し、該起動デ
ータが存在しない場合には、生存通知処理、生死監視処
理及び業務プログラムを起動し、該業務プログラムが業
務を開始するのに先立ち、業務開始を示す起動データを
補助記憶装置に書き込むと共に、該業務プログラムの業
務開始後一定時間経過した後、補助記憶装置に業務開始
を示す該起動データを消去する処理を起動し、立ち上げ
処理中のリセット乃至は業務開始後、一定時間以内に障
害の発生により再起動した場合の立ち上げ処理で生存通
知処理,業務プログラムの起動を抑止する。
As another method of the present invention, if startup data indicating the start of work is present in the auxiliary storage device during startup processing, the startup processing is terminated and the startup data does not exist. In this case, the survival notification process, the life-and-death monitoring process, and the business program are started, and before the business program starts the business, the startup data indicating the business start is written in the auxiliary storage device and the business program of the business program is started. After a lapse of a certain period of time, a process of erasing the start data indicating the start of work in the auxiliary storage device is started, and the device is restarted due to the occurrence of a failure within a certain period of time after a reset or start of work during the startup process. The startup notification process and the activation of business programs are suppressed.

【0010】[0010]

【作用】本発明では、障害が発生する計算機の生存通知
を抑止することで、該計算機を相互の生死監視から切り
離し、更に業務プログラムの起動を回避させるようにす
ることで、障害の発生する計算機がリセット、リスター
トを繰り返さないことから、他の計算機への影響を最小
限にとどめることができる。
According to the present invention, by suppressing the notification of the existence of a computer in which a failure occurs, the computer is separated from the mutual monitoring of life and death, and the activation of the business program is avoided, so that the computer in which the failure occurs. Since resetting and restarting is not repeated, the influence on other computers can be minimized.

【0011】また、本発名の別の方法によれば、ある計
算機において業務プログラムの起動直後に障害が発生
し、リセット,リスタートを繰り返す状態に陥った場合
でも、障害の発生タイミングが業務プログラムの起動直
後か否かの判別が可能となる。
According to another method of the present name, even when a failure occurs immediately after the start of the business program on a certain computer and the reset and restart are repeated, the timing of occurrence of the failure is the business program. It is possible to determine whether or not it has just been started.

【0012】[0012]

【実施例】以下に本発明の実施例を図面を用いて詳細に
説明する。
Embodiments of the present invention will be described in detail below with reference to the drawings.

【0013】まず、本発明における第一の実施例の概要
を図1に示す。図1に示すシステムにおいては、計算機
1(101)と計算機2(121)の2台の計算機が互
いに生死監視を行うマルチコンピュータシステムを例に
説明する。
First, an outline of the first embodiment of the present invention is shown in FIG. In the system shown in FIG. 1, a multi-computer system in which two computers, a computer 1 (101) and a computer 2 (121), monitor life and death with each other will be described as an example.

【0014】計算機1(101)において、電源投入等
により多重系動作状態管理プログラム(1)で自系の立
ち上げ処理が開始(102)されると、まず補助記憶装
置(110)内に起動データである立ち上げ処理中デー
タ(113)が存在するか否かのデータチェック(10
3)を行う。立ち上げ処理中データ(113)が存在す
る場合、計算機1(101)が立ち上げ処理中に停止し
たと判断し、自系の立ち上げを終了(114)する。
In the computer 1 (101), when the start-up process of its own system is started (102) by the multi-system operation state management program (1) by turning on the power source or the like, first, the startup data is stored in the auxiliary storage device (110). Data check (10) whether or not the startup processing data (113) is
Perform 3). If the startup processing data (113) exists, it is determined that the computer 1 (101) has stopped during the startup processing, and the startup of its own system is ended (114).

【0015】一方、立ち上げ処理中データ(113)が
補助記憶装置(110)内に存在しない場合、処理を起
動したことを表す起動データとして立ち上げ処理中デー
タ(113)を新たに補助記憶装置(110)内に書き
込み(104)、生存通知プログラム(105),生死
監視プログラム(106)を起動し、次いで業務プログ
ラムを起動する。
On the other hand, in the case where the startup processing data (113) is not present in the auxiliary storage device (110), the startup processing data (113) is newly added as startup data indicating that the processing has been started. Writing (104) in (110), starting alive notification program (105), and life-and-death monitoring program (106), and then starting a business program.

【0016】なお、本実施例では生存通知プログラム
(105)及び生死監視プログラム(106)を、多重
系動作状態管理プログラム(1)とは別のプログラムと
して説明しているが、これら生存通知プログラム(10
5)及び生死監視プログラム(106)の行う処理の一
部又は全部は多重系動作状態管理プログラム(1)が行
ってもよく、例えば、多重系動作状態管理プログラム
(1)において、一定時間おきに生存通知処理を行った
り、又は一定時間おきに他の計算機からの生存通知を受
信する生死監視処理を行うようにしても良い。
In this embodiment, the survival notification program (105) and the life-and-death monitoring program (106) are explained as programs different from the multi-system operation state management program (1). 10
5) and part or all of the processing performed by the life-and-death monitoring program (106) may be performed by the multi-system operation state management program (1). The survival notification process may be performed, or the life-and-death monitoring process of receiving the survival notification from another computer at regular intervals may be performed.

【0017】多重系動作状態管理プログラム(1)によ
り起動された業務プログラム(2)では、初期化処理
(107)を実行し、初期化処理終了時に立ち上げ処理
の終了を表すために、補助記憶装置(110)内の立ち
上げ処理中データ(113)を消去(108)した後、
一旦待機状態(109)となる。
In the business program (2) started by the multi-system operation state management program (1), the initialization process (107) is executed, and an auxiliary storage is provided to indicate the end of the startup process at the end of the initialization process. After erasing (108) the in-process data (113) in the device (110),
Once in the standby state (109).

【0018】業務プログラムの初期処理(107)中に
障害が発生した場合、多重系動作状態管理プログラム
(1)の障害時処理によって障害発生を検出(111)
し自系停止処理(112)を行う。この後、再び立ち上
げ処理(102)を起動する。この時、補助記憶装置
(110)内から立ち上げ処理中データ(113)が消
去されていないため、データチェック(103)におい
て立ち上げ処理を終了(114)する。
When a failure occurs during the initial processing (107) of the business program, the failure occurrence is detected by the failure time processing of the multi-system operation status management program (1) (111).
Then, the own system stop process (112) is performed. After that, the startup process (102) is started again. At this time, since the data (113) in the startup process is not erased from the auxiliary storage device (110), the startup process is ended (114) in the data check (103).

【0019】また、業務プログラム(2)の初期化処理
(107)中に生存通知が行えないような障害が発生し
た場合、計算機2(121)の生死監視プログラム(1
23)で、計算機1(101)の生存通知プログラム
(105)からの生存通知停止を検出(124)し、計
算機1(101)へのリセット要求(122)信号を計
算機1(101)のリセット受付回路(115)へ送信
する。計算機1(101)では、リセット受付回路(1
15)がこのリセット要求(122)を受け、計算機1
(101)をリセットし、多重系動作状態管理プログラ
ム(1)の立ち上げ処理(102)を起動する。ここで
も立ち上げ処理中データ(113)が補助記憶装置(1
10)内から消去されていないため、データチェック
(103)において立ち上げ処理を終了(114)す
る。
In addition, when a failure such as alive notification cannot occur during the initialization processing (107) of the business program (2), the life and death monitoring program (1) of the computer 2 (121)
23), the stop of the live notification from the live notification program (105) of the computer 1 (101) is detected (124), and the reset request (122) signal to the computer 1 (101) is accepted for reset of the computer 1 (101). Send to circuit (115). In the computer 1 (101), the reset acceptance circuit (1
15) receives this reset request (122), and the computer 1
(101) is reset and the start-up process (102) of the multi-system operating state management program (1) is started. Also in this case, the data during the startup process (113) is stored in the auxiliary storage device (1
Since it is not erased from the inside of 10), the start-up process is ended (114) in the data check (103).

【0020】次に、図5に第一の実施例における別の立
ち上げ処理の詳細を示す。
Next, FIG. 5 shows the details of another startup process in the first embodiment.

【0021】立ち上げ処理の開始(401)から立ち上
げ処理中データのデータチェック(404)の処理まで
の間に、他計算機からの生存通知の受信処理(402)
を行い、他計算機からの生存通知があるか生存通知チェ
ック(403)を行う。生存通知チェック(403)の
際に生存通知が来ていなければ、立ち上げ処理中データ
のデータチェック(404)を行わずに、生存通知プロ
グラム,生存監視プログラムを起動(406)し、業務
プログラムを起動(407)することで他計算機が停止
状態の時には、立ち上げ処理中データの有無に係わらず
立ち上げを行う。
During the period from the start of the startup processing (401) to the data check of the data in the startup processing (404), a live notification reception processing (402) from another computer
Then, alive notification check (403) is performed to see if there is a live notification from another computer. If there is no live notification during the live notification check (403), the live notification program and live monitoring program are started (406) without executing the data check (404) of the data being started up, and the business program is started. When the other computer is in the stopped state by starting (407), the startup is performed regardless of the presence or absence of data in the startup process.

【0022】本実施例によれば、他系が停止している場
合には、前回の自系の立ち上げ処理の際に異常が発生
し、立ち上げ処理が中断した場合でも自系を立ち上げる
ようにすることで、障害発生による両系の停止を極力防
ぐ効果がある。
According to the present embodiment, when the other system is stopped, an abnormality occurs during the previous startup process of the own system, and the own system is started even if the startup process is interrupted. By doing so, it is possible to prevent the stoppage of both systems due to the occurrence of a failure as much as possible.

【0023】次に、本発明における第二の実施例を図2
に示す。図2においても先の実施例と同様に、計算機1
(101)と計算機2(121)が互いに生死監視を行
うマルチコンピュータシステムを例に説明を行う。
Next, a second embodiment of the present invention will be described with reference to FIG.
Shown in Also in FIG. 2, as in the previous embodiment, the computer 1
A multi-computer system in which (101) and computer 2 (121) monitor life and death mutually will be described as an example.

【0024】計算機1(101)の電源投入により多重
系動作状態管理プログラム(3)の立ち上げ(202)
処理が開始されると、補助記憶装置(110)内に起動
データとして業務実行中データ(212)が既に存在す
るか否かのデータチェック(203)を行う。補助記憶
装置(110)内に業務実行中データ(212)が存在
した場合、計算機1(101)が前回行われた立ち上げ
処理中に停止したと判断し、立ち上げ処理を終了(21
6)する。
When the computer 1 (101) is turned on, the multi-system operating state management program (3) is started (202)
When the process is started, a data check (203) is performed as to whether or not the in-work execution data (212) already exists as start data in the auxiliary storage device (110). When the work executing data (212) exists in the auxiliary storage device (110), it is determined that the computer 1 (101) has stopped during the startup process performed last time, and the startup process ends (21
6) Do.

【0025】業務実行中データ(212)が補助記憶装
置(110)内に存在しない場合、生存通知プログラム
(105),生死監視プログラム(106)を起動し、
次に業務プログラム(4)を実行する。
When the business execution data (212) does not exist in the auxiliary storage device (110), the survival notification program (105) and the life and death monitoring program (106) are started,
Next, the business program (4) is executed.

【0026】多重系動作状態管理プログラム(3)によ
り起動された業務プログラム(4)では、初期化処理
(204)を行った後、待機状態(205)となる。
The business program (4) activated by the multi-system operation state management program (3) enters the standby state (205) after performing the initialization processing (204).

【0027】その後、計算機2(121)において、計
算機2(121)の図示されていないシステムコンソー
ルからの入力等により、多重系の構成を変更するための
計画切り替え要求(225)が発生した場合、または、
計算機2(121)の生存通知プログラム(222)か
らの生存通知が停止し、計算機1(101)の生死監視
プログラム(106)において計算機2(121)の生
存通知が検出されなくなった場合、即ち計算機2(12
1)の生存通知停止検出(210)が発生した場合、計
算機1(101)の多重系動作状態管理プログラム
(3)の状態監視処理において他系のこれらの状態変化
を検出(230)し、待機状態(205)にあった業務
プログラム(4)の処理を再開する。
Thereafter, in the computer 2 (121), when a plan switching request (225) for changing the configuration of the multiplex system is generated due to an input from a system console (not shown) of the computer 2 (121), Or
When the survival notification from the survival notification program (222) of the computer 2 (121) is stopped and the survival notification of the computer 2 (121) is no longer detected in the life and death monitoring program (106) of the computer 1 (101), that is, the computer 2 (12
When the existence notification stop detection (210) of 1) occurs, these status changes of other systems are detected (230) in the status monitoring processing of the multi-system operation status management program (3) of the computer 1 (101), and stand by. The process of the business program (4) in the state (205) is restarted.

【0028】多重系動作状態管理プログラム(3)の状
態監視処理において、待機状態(205)にあった業務
プログラム(4)の処理を再開させるのに先立ち、処理
を起動したことを表す起動データとして業務プログラム
の起動を意味する業務実行中データ(212)を補助記
憶装置(110)に書き込むデータ書き込み(206)
処理と一定時間経過後に、業務プログラムが初期動作を
終了したことを表すために業務実行中データを消去する
プログラム(213)を起動する。なお、本実施例では
一定時間経過後に業務実行中データを消去する処理を、
多重系動作状態管理プログラム(3)とは別なプログラ
ム(213)を起動することにより行うものとして説明
しているが、この処理は多重系動作状態管理プログラム
(3)が行ってもよく、例えば、状態監視処理において
業務実行中データ(212)を補助記憶装置(110)に書
き込むデータ書き込み(206)処理を行った後、一定
時間待機してから業務実行中データ(212)を消去す
るようにしても良い。
In the status monitoring processing of the multi-system operation status management program (3), as starting data indicating that the processing has been started before restarting the processing of the business program (4) in the standby status (205). Data writing (206) for writing business-executing data (212), which means the activation of a business program, to the auxiliary storage device (110)
After the processing and a certain period of time have passed, a program (213) for erasing the data under execution of the business is started to indicate that the business program has completed the initial operation. In addition, in the present embodiment, the process of deleting the data being executed after a certain period of time is
Although it is described that the program (213) different from the multi-system operation state management program (3) is started, this processing may be performed by the multi-system operation state management program (3). In the status monitoring process, after executing the data writing (206) process of writing the work-in-progress data (212) to the auxiliary storage device (110), the work-in-progress data (212) is erased after waiting for a certain period of time. May be.

【0029】業務プログラム(4)において業務開始
(207)後、一定時間経過する前に障害が発生した場
合、多重系動作状態管理プログラム(3)の障害時処理
によって障害発生を検出(214)し自系停止処理(2
15)を行った後、再び立ち上げ処理(202)を開始
する。この時、業務実行中データ(212)が補助記憶
装置(110)から消去されていないため、データチェ
ック(203)の処理の際に、立ち上げ処理を終了(2
16)することになる。
When a failure occurs in the business program (4) after the start of the business (207) and before the elapse of a predetermined time, the failure occurrence is detected (214) by the multi-system operation status management program (3). Own system stop processing (2
After performing 15), the start-up process (202) is started again. At this time, since the work-in-progress data (212) has not been erased from the auxiliary storage device (110), the start-up process is ended (2 when the data check (203) is performed.
16) will be done.

【0030】また、業務開始(207)後、計算機1
(101)において一定時間経過する前に生存通知が行
えないような障害が発生した場合には、計算機2(12
1)の生死監視プログラム(123)で、計算機1(1
01)の生存通知プログラム(105)からの生存通知
が停止したことを検出し生存通知停止検出(124)が
発生すると、計算機1(101)へのリセット要求信号
(122)を計算機1(101)のリセット受付回路
(115)に送信する。計算機1(101)では、リセ
ット受付回路(115)がこのリセット要求(122)
信号を受け、計算機1(を01)をリセットし、多重系
動作状態管理プログラム(3)の立ち上げ処理(20
2)を起動する。この場合でも業務実行中データ(21
2)が補助記憶装置(110)から消去されていないた
め、データチェック(203)において立ち上げ処理を
終了(216)する。
After the start of work (207), the computer 1
In the case where a failure occurs in which notification of existence cannot be issued before the elapse of a certain time in (101), the computer 2 (12
In the life and death monitoring program (123) of 1), computer 1 (1
01) when the live notification from the live notification program (105) is stopped and the live notification stop detection (124) occurs, the reset request signal (122) to the computer 1 (101) is sent to the computer 1 (101). To the reset acceptance circuit (115). In the computer 1 (101), the reset acceptance circuit (115) requests the reset request (122).
Upon receiving the signal, the computer 1 (01) is reset, and the multi-system operating state management program (3) startup processing (20
2) Start up. Even in this case, the data (21
Since 2) has not been erased from the auxiliary storage device (110), the start-up process is ended (216) in the data check (203).

【0031】上記2つの実施例における、別のデータチ
ェック処理の詳細を図3,図4に示す。
Details of another data check process in the above two embodiments are shown in FIGS.

【0032】この場合、図3に示すように、補助記憶装
置(110)に書き込む立ち上処理中を示す立ち上処理
中データ(311)または、業務プログラム実行中を示
す業務実行中データ(312)に、カウンタ値(31
3、314)の格納領域を設ける。
In this case, as shown in FIG. 3, data during start-up processing (311) indicating that the start-up processing is being written to the auxiliary storage device (110) or data during business execution (312) indicating that the business program is being executed. , The counter value (31
3, 314) storage areas are provided.

【0033】図4は、図3に示した立ち上処理中データ
又は業務実行中データを用いた場合のデータチェック処
理の流れを示したものである。
FIG. 4 shows the flow of the data check processing when the data during start-up processing or the data during work execution shown in FIG. 3 is used.

【0034】データチェック(301)を行う際、補助
記憶装置(110)に立ち上げ処理中データ(311)
又は、業務実行中データ(312)が存在するか確認す
るデータの存在チェックを行う(302)。
When the data check (301) is performed, the data (311) in the process of starting up in the auxiliary storage device (110)
Alternatively, a data existence check is performed to confirm whether or not the business execution data (312) exists (302).

【0035】なお、当然のことではあるが、このデータ
の存在チェック(302)の際に確認するデータは、第
一の実施例にこの処理を適用する場合には立ち上げ処理
中データ(311)であり、第二の実施例にこの処理を
適用する場合には業務実行中データ(312)であり、
第一及び第二の実施例を組み合わせた処理を行う場合に
は立ち上げ処理中データ(311)及び業務実行中デー
タ(312)であることは言うまでもない。このことは
以下の処理においても同様である。
As a matter of course, the data to be confirmed at the time of checking the existence of this data (302) is the start-up processing data (311) when this processing is applied to the first embodiment. In the case where this processing is applied to the second embodiment, it is the business execution data (312),
It is needless to say that when performing the processing in which the first and second embodiments are combined, the data is in the process of starting up (311) and the data in execution of business (312). This also applies to the following processing.

【0036】データの存在チェック(302)において
補助記憶装置(110)内に立ち上げ処理中データ(3
11)又は業務実行中データ(312)が存在しない場
合には、これらデータを書き込む処理を行う際に、カウ
ンタ値を1に初期化してから立ち上げ処理中データ(3
11)又は業務実行中データ(312)の書き込み(3
06)を行う。
In the data existence check (302), the data (3
11) or when the data (312) under execution of business does not exist, the counter value is initialized to 1 before the data (3
11) or writing of data during work execution (312) (3
06).

【0037】一方、立ち上げ処理中データ(311)、
業務実行中データ(312)が補助記憶装置(110)
内に存在する場合には、次に、これらデータ内に格納さ
れているカウンタ値のチェックを行い(303)、この
データ内カウンタ値チェック(303)の結果、データ
内に格納されているカウンタ値が予め定められた規定数
以上、即ち、立ち上げ処理乃至は業務開始時に異常が生
じて規定数回以上連続して処理が中断した場合には、立
ち上げ処理を終了させる(304)。
On the other hand, start-up processing data (311),
Data during business execution (312) is the auxiliary storage device (110)
If the counter value stored in the data is checked, the counter value stored in the data is checked (303). As a result of the counter value check in the data (303), the counter value stored in the data is checked. If the number is a predetermined number or more, that is, if an abnormality occurs at the start-up process or the start of the work and the process is interrupted continuously for a predetermined number of times or more, the start-up process is ended (304).

【0038】また、データ内に格納されているカウンタ
値が予め定められた規定数に満たないときは、補助記憶
装置(110)内の立ち上げ処理中データ(311)や
業務実行中データ(312)に格納されているカウンタ
値に1を加算した値を新たなカウンタ値として、再び書
き込み(305)を行うことで規定数回までは立ち上げ
処理のリトライを行う。
If the counter value stored in the data is less than the predetermined number, the startup processing data (311) and the job execution data (312) in the auxiliary storage device (110) are stored. (1) is added to the counter value stored in (1) as a new counter value, and the write processing is performed again (305) to retry the startup process up to the specified number of times.

【0039】なお、第二の実施例の場合、データチェッ
ク(203)とデータの書き込み(206)が連続した
処理となっていないが、この場合は、データ書き込みを
行う場合にカウンタ値を初期化する(306)のか又は
カウンタ値を1増やすのかを、データチェックの際にフ
ラグ等の記憶手段によって記憶しておき、実際のデータ
書き込み処理(206)の際にこのフラグを参照して書
き込むカウンタ値を決定すればよい。
In the case of the second embodiment, the data check (203) and the data write (206) are not continuous processes, but in this case, the counter value is initialized when the data is written. Whether to perform (306) or to increase the counter value by 1 is stored by a storage unit such as a flag at the time of data check, and the counter value to be written by referring to this flag at the time of actual data writing process (206). Should be decided.

【0040】更に別のデータチェック処理の詳細を図
6、図7に示す。
Details of still another data check process are shown in FIGS.

【0041】この実施例においては、図6に示すよう
に、補助記憶装置(510)に書き込む立ち上処理中デ
ータ(511)又は業務実行中データ(512)に、そ
れぞれデータの書き込み時刻を保存する領域(513,
514)を設け、立ち上げ処理中データ(511)、業
務実行中データ(512)に書き込み時刻を付加する。
図7は、図6に示した立ち上処理中データ又は業務実行
中データを用いた場合のデータチェック処理の流れを示
したものである。
In this embodiment, as shown in FIG. 6, the data writing time is stored in the startup process data (511) or the job execution data (512) to be written in the auxiliary storage device (510). Area (513,
514) is provided, and the writing time is added to the start-up processing data (511) and the job execution data (512).
FIG. 7 shows a flow of the data check process when the start-up processing data or the work execution data shown in FIG. 6 is used.

【0042】データチェック(501)を行う際、補助
記憶装置(110)に立ち上げ処理中データ(511)
又は、業務実行中データ(512)が存在するか確認す
るデータの存在チェックを行う(502)。なお、先の
実施例と同様に、このデータの存在チェック(502)
の際に確認するデータは、第一の実施例にこの処理を適
用する場合には立ち上げ処理中データ(511)であ
り、第二の実施例にこの処理を適用する場合には業務実
行中データ(512)であり、第一及び第二の実施例を
組み合わせた処理を行う場合には立ち上げ処理中データ
(511)及び業務実行中データ(512)である。
When the data check (501) is performed, the data (511) in the process of starting up is stored in the auxiliary storage device (110).
Alternatively, a data existence check is performed to confirm whether or not the business execution data (512) exists (502). As in the previous embodiment, this data existence check (502)
The data to be confirmed at this time is start-up processing data (511) when this processing is applied to the first embodiment, and business execution is being performed when this processing is applied to the second embodiment. The data (512) is the start-up processing data (511) and the job execution data (512) when the combined processing of the first and second embodiments is performed.

【0043】データの存在チェック(502)において
補助記憶装置(110)内に立ち上げ処理中データ(5
11)又は業務実行中データ(512)が存在しない場
合には、これらデータを書き込む処理を行う際に、現在
の時刻を付加して書き込み(505)を行う。
In the presence check (502) of data, the data (5
11) or when there is no business execution data (512), when writing these data, the current time is added and writing (505) is performed.

【0044】一方、データチェック処理(502,50
3)でデータが存在した場合、データ書き込み時刻と現
在時刻を比較(503)し、データ内に保存されていた
書き込み時刻(513,514)が予め定められた規定
時間未満であれば、立ち上げ処理を終了(504)する
ことで障害発生直後の立ち上げか否かのを判別し、規定
時間を経過していれば、データを書き込む処理を行う際
に、現在の時刻を付加して書き込み(505)を行う。
On the other hand, data check processing (502, 50
If the data exists in 3), the data write time is compared with the current time (503), and if the write time (513, 514) stored in the data is less than the predetermined time, the start-up is performed. By terminating the process (504), it is determined whether or not the start-up is immediately after the occurrence of a failure, and if the specified time has passed, the current time is added and the write ( 505) is performed.

【0045】これにより、短時間の間に繰り返し発生す
る再立ち上げ処理を回避することが可能になる。
As a result, it becomes possible to avoid the re-startup processing that repeatedly occurs in a short time.

【0046】[0046]

【発明の効果】本発明によれば、立ち上げ処理中の恒久
的な障害による立ち上げから再スタートスタートの繰り
返しを防止し、他計算機への生死監視を繰り返す負担を
低減することが可能となる。
According to the present invention, it is possible to prevent the restart from being restarted from the start-up due to a permanent failure during the start-up process, and to reduce the burden of repeating live / dead monitoring to other computers. .

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明による第一の実施例の構成と立ち上げ処
理フローチャート。
FIG. 1 is a flowchart of a configuration and a startup process of a first embodiment according to the present invention.

【図2】本発明による第二の実施例の構成と立ち上げ処
理フローチャート。
FIG. 2 is a flowchart of a configuration and a startup process of a second embodiment according to the present invention.

【図3】本発明による起動データ構造。FIG. 3 is an activation data structure according to the present invention.

【図4】本発明による立ち上げリトライを示すフローチ
ャート。
FIG. 4 is a flowchart showing a startup retry according to the present invention.

【図5】本発明による第一の実施例における別の立ち上
げ処理を示すフローチャート。
FIG. 5 is a flowchart showing another startup process in the first embodiment according to the present invention.

【図6】本発明による別の起動データ構造。FIG. 6 is another activation data structure according to the present invention.

【図7】本発明による時刻チェックを示すフローチャー
ト。
FIG. 7 is a flowchart showing a time check according to the present invention.

【符号の説明】[Explanation of symbols]

1,3…多重系動作状態管理プログラム、2,4…業務
プログラム、101…計算機1、105,222…生存
通知プログラム、106,123…生死監視プログラ
ム、110…補助記憶装置、113,311,511…
立ち上げ処理中データ、115…リセット受付回路、1
21…計算機2、122…リセット要求、124,21
0…生存通知停止検出、212,312,512…業務
実行中データ、225…計画切り替え要求、313,3
14…カウンタ値、513,514…書き込み時刻。
1, 3 ... Multiple system operating state management program, 2, 4 ... Business program, 101 ... Computer 1, 105, 222 ... Survival notification program, 106, 123 ... Life / death monitoring program, 110 ... Auxiliary storage device, 113, 311, 511 …
Start-up processing data, 115 ... Reset acceptance circuit, 1
21 ... Computer 2, 122 ... Reset request, 124, 21
0 ... Survival notification stop detection, 212, 312, 512 ... Business execution data, 225 ... Plan switching request, 313, 3
14 ... Counter value, 513, 514 ... Writing time.

フロントページの続き (72)発明者 金子 茂則 茨城県日立市大みか町五丁目2番1号 株 式会社日立製作所大みか工場内 (72)発明者 宮尾 健 茨城県日立市大みか町五丁目2番1号 株 式会社日立製作所大みか工場内 (72)発明者 加藤 直 茨城県日立市大みか町五丁目2番1号 株 式会社日立製作所大みか工場内 (72)発明者 笠嶋 広和 茨城県日立市大みか町五丁目2番1号 株 式会社日立製作所大みか工場内Front Page Continuation (72) Inventor Shigenori Kaneko 5-2-1 Omika-cho, Hitachi City, Ibaraki Hitachi Ltd. Omika Factory, Hitachi Ltd. (72) Ken Miyao 5-2-1 Omika-cho, Hitachi City, Ibaraki Prefecture Hitachi Ltd. Omika Factory (72) Inventor Nao Kato 52-1 Omika-cho, Hitachi City, Ibaraki Prefecture Hitachi Ltd. Omika Factory (72) Inventor Hirokazu Kasashima 5th Omika-cho, Hitachi City, Ibaraki Prefecture 2-1 Hitachi Ltd. Omika factory

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】複数の計算機で互いに生存通知の送受信を
行うことにより他計算機の生死監視を行い、自計算機の
障害の検出、又は他計算機からのリセット信号により立
ち上げ処理を起動する処理を有するマルチコンピュータ
システムの計算機立ち上げ方法において、 立ち上げ処理の際に、補助記憶装置に立ち上げ処理中を
示す起動データが存在する場合、該立ち上げ処理を終了
し、 該起動データが存在しない場合には、補助記憶装置に立
ち上げ処理中を示す起動データを書き込んだ後、生存通
知処理、生死監視処理及び業務プログラムを起動し、 該起動された業務プログラムにおいては、待機状態とな
る前に補助記憶装置の立ち上げ処理中を示す該起動デー
タを消去することにより、 立ち上げ処理中のリセット乃至は障害の発生によりシス
テムを再起動した場合の立ち上げ処理では、生存通知処
理及び業務プログラムの起動を抑止することを特徴とす
る計算機立ち上げ方法。
1. A process for monitoring alive / dead of another computer by transmitting / receiving alive notification to / from each other by a plurality of computers, detecting a failure of its own computer, or activating a startup process by a reset signal from another computer In the computer startup method of the multi-computer system, if startup data indicating that startup processing is in progress exists in the auxiliary storage device during startup processing, the startup processing is terminated, and the startup data does not exist. Writes startup data indicating that startup processing is in progress in the auxiliary storage device, then activates the survival notification processing, the life-and-death monitoring processing, and the business program, and in the started business program, the auxiliary storage is executed before the standby state. By deleting the startup data that indicates that the device is in the process of starting up, the system is A computer startup method characterized in that the startup processing when a system is restarted suppresses the live notification processing and the startup of business programs.
【請求項2】複数の計算機で互いに生存通知の送受信を
行うことにより他計算機の生死監視を行い、自計算機の
障害の検出、又は他計算機からのリセット信号により立
ち上げ処理を起動する処理を有するマルチコンピュータ
システムにおいて、 立ち上げ処理の際に、補助記憶装置に業務開始を示す起
動データが存在する場合、該立ち上げ処理を終了し、 該起動データが存在しない場合には、生存通知処理、生
死監視処理及び業務プログラムを起動し、 該業務プログラムが業務を開始するのに先立ち、業務開
始を示す起動データを補助記憶装置に書き込むと共に、
該業務プログラムの業務開始後一定時間経過した後、補
助記憶装置に業務開始を示す該起動データを消去する処
理を起動し、 立ち上げ処理中のリセット乃至は業務開始後、一定時間
以内に障害の発生によりシステムを再起動した場合の立
ち上げ処理では、生存通知処理,業務プログラムの起動
を抑止することを特徴とする計算機立ち上げ方法。
2. A method for monitoring whether a computer is alive or dead by sending / receiving alive notifications to / from each other by a plurality of computers, detecting a failure of its own computer, or activating a startup process by a reset signal from another computer. In the multi-computer system, at the time of start-up processing, if start-up data indicating the start of work exists in the auxiliary storage device, the start-up processing is terminated, and if the start-up data does not exist, alive notification processing, life or death The monitoring process and the business program are started, and before the business program starts the business, the start data indicating the start of the business is written in the auxiliary storage device, and
After a lapse of a certain time after the start of the work of the business program, a process of erasing the start data indicating the start of the work in the auxiliary storage device is started, and a failure occurs within a predetermined time after the reset during the start-up process or the start of the work. In the startup process when the system is restarted due to occurrence, a computer startup method characterized by suppressing the existence notification process and the startup of business programs.
【請求項3】請求項1または請求項2において、前記補
助記憶装置に書き込む起動データにカウンタ値を格納す
る領域を設け、 前記補助記憶装置に起動データが存在するか否かを確認
し、該起動データが存在しなければ、前記補助記憶装置
に該起動データを書き込む際に、該領域に格納するカウ
ンタ値を初期化し、 前記補助記憶装置に起動データが存在する場合、該補助
記憶装置に存在する起動データの該領域に格納されたカ
ウンタ値が、予め定められた規定数以上で有れば、立ち
上げ処理を終了し、 該カウンタ値が規定回数未満である場合には、前記補助
記憶装置に該起動データを書き込む際に、該領域に格納
するカウンタ値をカウントアップし、 該規定数回まで立ち上げ処理をリトライすることを特徴
とする計算機立ち上げ方法。
3. The start data to be written in the auxiliary storage device according to claim 1 or 2, wherein an area for storing a counter value is provided, and it is confirmed whether or not the start data exists in the auxiliary storage device. If the boot data does not exist, the counter value stored in the area is initialized when the boot data is written to the auxiliary storage device, and if the boot data exists in the auxiliary storage device, the boot data exists in the auxiliary storage device. If the counter value stored in the area of the boot data to be executed is equal to or greater than a predetermined number, the start-up process is terminated, and if the counter value is less than the predetermined number of times, the auxiliary storage device is A method for starting a computer, characterized in that, when the boot data is written in, the counter value stored in the area is counted up and the startup process is retried up to the specified number of times.
【請求項4】請求項1において、前記立ち上処理中を示
す起動データが前記補助記憶装置に存在する場合でも、
他計算機からの生存通知がなければ、生存通知処理及び
業務プログラムの起動を行うことを特徴とする計算機立
ち上げ方法。
4. The method according to claim 1, wherein startup data indicating that the startup process is in progress is present in the auxiliary storage device.
A computer startup method characterized by performing alive notification processing and starting a business program if there is no alive notification from another computer.
【請求項5】請求項1または請求項2において、前記補
助記憶装置に書き込む起動データに該データを書き込ん
だ時刻を格納する領域を設け、 前記補助記憶装置に起動データが存在するか否かを確認
し、該起動データが存在しなければ、前記補助記憶装置
に該起動データを書き込む際に、該領域に書き込み時刻
として現在時刻を格納し、 前記補助記憶装置に起動データが存在する場合、該補助
記憶装置に存在する起動データの該領域に格納された書
き込み時刻を現在時刻と比較して、予め定められた規定
数時間を経過していない場合、立ち上げ処理を終了し、 該書き込み時刻を現在時刻と比較して、予め定められた
規定数時間を経過ていた場合には、前記補助記憶装置に
該起動データを書き込む際に、該領域に書き込み時刻と
して現在時刻を格納することにより、 補助記憶装置に起動データが存在しても、それらデータ
の書き込み時間が、一定時間以上経過したものであれば
生存通知処理,業務プログラムの起動を開始することを
特徴とする計算機立ち上げ方法。
5. The start data to be written to the auxiliary storage device according to claim 1 or 2, wherein an area for storing a time at which the data is written is provided to check whether the start data exists in the auxiliary storage device. If the boot data does not exist, the current time is stored as the writing time in the area when the boot data is written in the auxiliary storage device, and if the boot data exists in the auxiliary storage device, The write time stored in the area of the start data existing in the auxiliary storage device is compared with the current time, and if the preset specified number of hours has not elapsed, the start-up process is terminated and the write time is changed. If a predetermined specified number of hours has elapsed compared to the current time, the current time is set as the write time in the area when the boot data is written to the auxiliary storage device. By storing the data, even if the boot data exists in the auxiliary storage device, if the writing time of the data has passed a certain time or more, the survival notification process and the start of the business program are started. How to launch.
JP7036485A 1995-02-24 1995-02-24 Computer starting-up method of multicomputer system Pending JPH08235134A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7036485A JPH08235134A (en) 1995-02-24 1995-02-24 Computer starting-up method of multicomputer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7036485A JPH08235134A (en) 1995-02-24 1995-02-24 Computer starting-up method of multicomputer system

Publications (1)

Publication Number Publication Date
JPH08235134A true JPH08235134A (en) 1996-09-13

Family

ID=12471132

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7036485A Pending JPH08235134A (en) 1995-02-24 1995-02-24 Computer starting-up method of multicomputer system

Country Status (1)

Country Link
JP (1) JPH08235134A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130262670A1 (en) * 2010-11-26 2013-10-03 Fujitsu Limited Management system, management apparatus and management method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130262670A1 (en) * 2010-11-26 2013-10-03 Fujitsu Limited Management system, management apparatus and management method
US9674061B2 (en) * 2010-11-26 2017-06-06 Fujitsu Limited Management system, management apparatus and management method

Similar Documents

Publication Publication Date Title
US6952766B2 (en) Automated node restart in clustered computer system
JP3253883B2 (en) Process restart method and process monitoring device
CN108121630B (en) Electronic device, restart method, and recording medium
US6526521B1 (en) Methods and apparatus for providing data storage access
KR100557399B1 (en) A method of improving the availability of a computer clustering system through the use of a network medium link state function
JP3345626B2 (en) Processor error countermeasure device in multiprocessor system and processor error countermeasure method in multiprocessor system
US7716520B2 (en) Multi-CPU computer and method of restarting system
US6195760B1 (en) Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network
JP2000105754A (en) Method and apparatus for detecting failure of distributed applications in network and recovering failure according to designated replication style
EP0167540A1 (en) Processing system tolerant of loss of access to secondary storage.
EP2518627B1 (en) Partial fault processing method in computer system
KR20040047209A (en) Method for automatically recovering computer system in network and recovering system for realizing the same
US8880552B2 (en) Database system and database control method
JPH09251443A (en) Processor fault recovery processing method for information processing system
JP2001022709A (en) Cluster system and computer-readable storage medium storing program
JP2735514B2 (en) Process status management method
WO2008004330A1 (en) Multiple processor system
JPH08235134A (en) Computer starting-up method of multicomputer system
JPH0879246A (en) Distributed communication system and fault recovery method therefor
JPH10116261A (en) Check point restarting method for parallel computer system
JP2010140106A (en) Job execution system, method of taking over job flow used therein, and job flow takeover control program
JP3117666B2 (en) Cold standby type dual system
JPH08329006A (en) Fault information system
JP3448197B2 (en) Information processing device
JPH0424838A (en) Fault control system for multiprocessor