JP2001306351A - Fault handling system in computer system - Google Patents

Fault handling system in computer system

Info

Publication number
JP2001306351A
JP2001306351A JP2000118375A JP2000118375A JP2001306351A JP 2001306351 A JP2001306351 A JP 2001306351A JP 2000118375 A JP2000118375 A JP 2000118375A JP 2000118375 A JP2000118375 A JP 2000118375A JP 2001306351 A JP2001306351 A JP 2001306351A
Authority
JP
Japan
Prior art keywords
module
failure
alternative
function
function module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000118375A
Other languages
Japanese (ja)
Other versions
JP3496822B2 (en
Inventor
Eri Haneda
恵里 羽根田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2000118375A priority Critical patent/JP3496822B2/en
Publication of JP2001306351A publication Critical patent/JP2001306351A/en
Application granted granted Critical
Publication of JP3496822B2 publication Critical patent/JP3496822B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a fault handling system in a computer system to realize continuation of processing to be performed by a certain functional module without preparing an exclusive functional module as an alternative even when a fault is generated in the functional module. SOLUTION: When the fault is generated in a functional module A, either of a functional module B or a functional module C for performing the same processing type as the functional module A and having lighter load performs alternative processing together with normal processing. When the functional module A is restarted, the functional module A performs processing to follow the alternative processing.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、コンピュータシス
テムにおける障害対処方式及びコンピュータシステムの
ための障害対処方法に関する。
[0001] 1. Field of the Invention [0002] The present invention relates to a failure handling method for a computer system and a failure handling method for the computer system.

【0002】[0002]

【従来の技術】従来、コンピュータシステムにおいて障
害が発生した時には、障害となった機能モジュールを再
起動することによりコンピュータシステムを障害から復
旧させる方式がとられていた。
2. Description of the Related Art Conventionally, when a failure occurs in a computer system, a method of restoring the computer system from the failure by restarting the failed functional module has been adopted.

【0003】[0003]

【発明が解決しようとする課題】上記の方式では、再起
動を完了するまで障害となった機能モジュールが担当す
る処理が中断されるという問題があり、あらかじめ用意
された代替用機能モジュールに処理を切り替えを行った
場合でも、代替用機能モジュール分のコストがかかる
上、障害時以外でも代替用機能モジュールは処理を行う
必要があった。
In the above-mentioned method, there is a problem that the processing assigned to the function module which has become a failure is interrupted until the restart is completed, and the processing is performed by a substitute function module prepared in advance. Even when the switching is performed, the cost for the replacement function module is required, and the replacement function module needs to perform the process even at the time of failure.

【0004】本発明は、専用の代替用機能モジュールを
用意しなくても、ある機能モジュールに障害が発生して
もその機能モジュールが行う処理を継続することを可能
とするコンピュータシステムにおける障害対処方式及び
コンピュータシステムのための障害対処方法を提供する
ことを目的とする。
SUMMARY OF THE INVENTION The present invention provides a failure handling method in a computer system that allows a function module to continue processing even if a failure occurs in a certain function module without preparing a dedicated replacement function module. And a failure handling method for a computer system.

【0005】[0005]

【課題を解決するための手段】本発明による障害対処方
式は、相互に結合された複数の機能モジュールを備え、
前記複数の機能モジュールのうちの2以上の機能モジュ
ールが同一の処理タイプを実行する同一処理タイプ機能
モジュールであり、前記同一処理タイプ機能モジュール
のうちの1の同一処理タイプ機能モジュールに障害が発
生したときに、前記同一処理タイプ機能モジュールのう
ちのいずれかの他の同一処理タイプ機能モジュールが前
記障害が発生した前記同一処理タイプ機能モジュールが
実行していた処理を継続するための手段と、前記障害が
発生した前記同一処理タイプ機能モジュールが再起動し
たときに、前記他の同一処理タイプ機能モジュールによ
り継続されていた処理を前記障害が発生し再起動した前
記同一処理タイプ機能モジュールが継続するための手段
と、を備えることを特徴とする。
SUMMARY OF THE INVENTION A fault handling system according to the present invention comprises a plurality of interconnected functional modules;
Two or more of the plurality of function modules are the same processing type function modules that execute the same processing type, and one of the same processing type function modules has failed. And means for causing any of the same processing type functional modules of the same processing type functional module to continue processing being executed by the same processing type functional module in which the failure has occurred; When the same processing type functional module in which the error has occurred is restarted, the same processing type functional module that has been restarted due to the failure can continue the processing continued by the other same processing type functional module. Means.

【0006】また、本発明による障害対処方式は、相互
に結合された複数の機能モジュールを備え、各機能モジ
ュールが、自機能モジュールに障害が発生したときに他
機能モジュールに処理タイプについての情報を有する障
害発生通知同報を送信する手段と、他機能モジュールか
ら前記障害発生通知同報を受信したときに、前記障害発
生通知同報により示される前記処理タイプと自機能モジ
ュールの処理タイプが同一である場合に、代替可能応答
を前記障害発生通知同報の送信元の他機能モジュールに
送信する手段と、前記代替可能応答の送信元の他機能モ
ジュールのうちの1の他機能モジュールに自機能モジュ
ールの処理を当該1の他機能モジュールで代替するのに
必要な処理代替必要情報を含む情報退避要求を送信する
手段と、前記情報退避要求を受信したときに、前記情報
退避要求に含まれる前記処理代替必要情報を利用して、
前記情報退避要求を送信した他機能モジュールのために
代替処理を行う手段と、自機能モジュールが再起動した
ときに、他機能モジュールに再起動完了通知同報を送信
する手段と、他機能モジュールから前記再起動完了通知
同報を受信したときに、自機能モジュールが前記代替処
理を行っている場合に、代替中応答を前記再起動完了通
知同報の送信元の他機能モジュールに送信する手段と、
前記代替中応答を受信したときに、代替情報要求を前記
代替中応答の送信元の他機能モジュールに送信する手段
と、前記代替情報要求を受信したときに、前記代替情報
要求の送信元の他機能モジュールが代替処理に続く処理
を実行するのに必要な代替情報を含む代替情報転送を前
記代替情報要求の送信元の他機能モジュールに送信する
手段と、前記代替情報転送を受信したときに、前記代替
情報を利用して、前記代替処理に継続する処理を再開す
る手段と、を備えることを特徴とする。
Further, the failure handling system according to the present invention comprises a plurality of functional modules interconnected with each other, and each functional module transmits information about a processing type to another functional module when a failure occurs in its own functional module. Means for transmitting a failure occurrence notification broadcast having, when receiving the failure occurrence notification broadcast from another function module, the processing type indicated by the failure occurrence notification broadcast and the processing type of the own function module are the same. Means for transmitting a substitute-possible response to another function module of the transmission source of the failure notification broadcast, and a function module of one of the other function modules of the transmission source of the substitute-response response. Means for transmitting an information evacuation request including processing alternative necessary information necessary for substituting the processing by the one other function module; Upon receiving the avoidance request, by using the processing substitute needs information contained in the information save request,
Means for performing alternative processing for the other function module that transmitted the information saving request, means for transmitting a restart completion notification broadcast to the other function module when the own function module is restarted, and Means for, when receiving the restart completion notification broadcast, transmitting a response during replacement to another function module of the transmission source of the restart completion notification broadcast, when the own function module is performing the replacement processing; ,
Means for transmitting an alternative information request to another function module that has transmitted the alternative information response when the alternative information response has been received, and other means for transmitting the alternative information request when the alternative information request has been received. Means for transmitting an alternative information transfer including alternative information necessary for the functional module to execute processing subsequent to the alternative processing to another functional module that has transmitted the alternative information request, and upon receiving the alternative information transfer, Means for using the substitute information to restart a process continued from the substitute process.

【0007】更に、本発明によるコンピュータシステム
における障害対処方式は、上記のコンピュータシステム
における障害対処方式において、前記情報退避要求は、
前記代替可能応答の送信元の他機能モジュールのうちの
最も負荷の軽い他機能モジュールに送信することを特徴
とする。
[0007] Further, according to the present invention, there is provided a failure handling system in a computer system, wherein the information saving request is
The alternative response module transmits the alternative function module to the other function module having the lightest load among other function modules.

【0008】本発明によるコンピュータシステムのため
の障害対処方法は、相互に結合された複数の機能モジュ
ールを備えるコンピュータシステムのための障害対処方
法において、前記複数の機能モジュールのうちの2以上
の機能モジュールが同一の処理タイプを実行する同一処
理タイプ機能モジュールであり、前記同一処理タイプ機
能モジュールのうちの1の同一処理タイプ機能モジュー
ルに障害が発生したときに、前記同一処理タイプ機能モ
ジュールのうちのいずれかの他の同一処理タイプ機能モ
ジュールが前記障害が発生した前記同一処理タイプ機能
モジュールが実行していた処理を継続するステップと、
前記障害が発生した前記同一処理タイプ機能モジュール
が再起動したときに、前記他の同一処理タイプ機能モジ
ュールにより継続されていた処理を前記障害が発生し再
起動した前記同一処理タイプ機能モジュールが継続する
ステップと、を有することを特徴とする。
[0008] A fault handling method for a computer system according to the present invention is a fault handling method for a computer system having a plurality of interconnected functional modules, wherein two or more of the plurality of functional modules are provided. Are the same processing type functional modules that execute the same processing type, and when one of the same processing type functional modules fails, one of the same processing type functional modules The other same processing type functional module continuing the processing being executed by the same processing type functional module in which the failure has occurred; and
When the same processing type functional module in which the failure has occurred is restarted, the processing which has been continued by the other same processing type functional module is continued by the same processing type functional module in which the failure has occurred and restarted. And step.

【0009】また、本発明によるコンピュータシステム
のための障害対処方法は、相互に結合された複数の機能
モジュールを備えるコンピュータシステムのための障害
対処方法において、障害が発生した機能モジュールが他
機能モジュールに処理タイプについての情報を有する障
害発生通知同報を送信するステップと、前記障害発生通
知同報を受信した機能モジュールが、前記障害発生通知
同報により示される前記処理タイプと自機能モジュール
の処理タイプが同一である場合に、代替可能応答を前記
障害が発生した機能モジュールに送信するステップと、
前記障害が発生した機能モジュールが前記代替可能応答
の送信元の他機能モジュールのうちの1の他機能モジュ
ールに自機能モジュールの処理を当該1の他機能モジュ
ールで代替するのに必要な処理代替必要情報を含む情報
退避要求を送信するステップと、前記情報退避要求を受
信した他機能モジュールが、前記情報退避要求に含まれ
る前記処理代替必要情報を利用して、前記障害が発生し
た機能モジュールのために代替処理を行うステップと、
前記障害が発生した機能モジュールが再起動したとき
に、前記障害が発生した機能モジュールが他機能モジュ
ールに再起動完了通知同報を送信するステップと、前記
再起動完了通知同報を受信した機能モジュールが、自機
能モジュールが前記代替処理を行っている場合に、代替
中応答を前記障害が発生し再起動した機能モジュールに
送信するステップと、前記障害が発生し再起動した機能
モジュールが、前記代替中応答を受信したときに、代替
情報要求を前記代替中応答の送信元の他機能モジュール
に送信するステップと、前記代替情報要求を受信した他
機能モジュールが、前記障害が発生し再起動した機能モ
ジュールが代替処理に続く処理を実行するのに必要な代
替情報を含む代替情報転送を前記障害が発生し再起動し
た機能モジュールに送信するステップと、前記障害が発
生し再起動した機能モジュールが、前記代替情報転送を
受信したときに、前記代替情報を利用して、前記代替処
理に継続する処理を再開するステップと、を有すること
を特徴とする。
Further, according to the present invention, there is provided a failure handling method for a computer system having a plurality of interconnected functional modules, wherein the failed functional module is replaced by another functional module. Transmitting a failure occurrence notification broadcast having information about a processing type; and receiving the failure occurrence notification broadcast, the function module receiving the failure occurrence notification broadcast, the processing type indicated by the failure occurrence notification broadcast and the processing type of its own function module. Sending an alternative response to the failed functional module if are the same,
Processing replacement necessary for the failed function module to replace the processing of its own function module with one of the other function modules of the other function module of the transmission source of the replaceable response, which is necessary. Transmitting an information save request including information, and transmitting the information save request to the other function module using the processing alternative necessary information included in the information save request for the function module in which the failure has occurred; Performing alternative processing on
When the failed functional module is restarted, the failed functional module transmits a restart completion notification broadcast to another function module, and the functional module receives the restart completion notification broadcast. Transmitting the substitute-in-progress response to the failed-restarted and restarted functional module when the own-function module is performing the substitute process; and Transmitting a substitute information request to another function module that has transmitted the substitute information response when the medium response is received; and a function in which the other function module that has received the substitute information request has restarted due to the failure. The alternative information transfer including the alternative information necessary for the module to execute the processing following the alternative processing is transferred to the functional module restarted due to the failure. Receiving the alternative information transfer, and restarting the processing that continues to the alternative processing by using the alternative information when the failed functional module restarted receives the alternative information transfer. It is characterized by the following.

【0010】更に、本発明によるコンピュータシステム
のための障害対処方法は、上記のコンピュータシステム
のための障害対処方法において、前記情報退避要求は、
前記代替可能応答の送信元の他機能モジュールのうちの
最も負荷の軽い他機能モジュールに送信することを特徴
とする。
[0010] Further, according to the failure handling method for a computer system according to the present invention, in the failure handling method for a computer system described above, the information saving request is:
The alternative response module transmits the alternative function module to the other function module having the lightest load among other function modules.

【0011】[0011]

【発明の実施の形態】以下、本発明の実施形態について
図面を参照して詳細に説明する。
Embodiments of the present invention will be described below in detail with reference to the drawings.

【0012】同一バス上に複数の機能モジュールが存在
し、各機能モジュールが、いくつかの処理タイプのいず
れかに属するようなシステムにおいて、任意の機能モジ
ュールが障害となった場合、該機能モジュールは全機能
モジュールに対して障害発生通知同報の送信を行う。
In a system in which a plurality of function modules exist on the same bus and each of the function modules belongs to one of several processing types, if any function module fails, the function module is A failure notification broadcast is transmitted to all functional modules.

【0013】障害発生通知同報を受信した機能モジュー
ルのうち、代替可能な機能モジュールは、障害となった
機能モジュールに対して代替可能応答を送信し、障害と
なった機能モジュールは、受信した代替可能応答に含ま
れる処理負荷度を互いに比較して一番処理負荷の低い機
能モジュールを代替機能モジュールとして指定する。
[0013] Among the functional modules that have received the broadcast of the failure notification, the replaceable functional module transmits a replaceable response to the failed functional module, and the failed functional module transmits the received substitute response. The processing loads included in the possible responses are compared with each other, and the functional module with the lowest processing load is designated as the substitute functional module.

【0014】障害となった機能モジュールは、処理負荷
の一番低い機能モジュールに対して情報退避要求を送信
することにより、障害となった機能モジュールの代替に
必要な処理代替必要情報をすべて代替機能モジュールに
転送し、さらにその後該機能モジュールの再起動を行
う。
The failed functional module transmits an information save request to the functional module with the lowest processing load, thereby replacing all the processing replacement necessary information necessary for replacing the failed functional module with the replacement function. Transfer to the module, and then restart the functional module.

【0015】情報退避要求を受信した代替機能モジュー
ルは、受信した処理代替必要情報をもとに、本来の機能
モジュールの処理に加えて、障害となった機能モジュー
ルの代替処理を行う。
The substitute function module that has received the information save request performs a substitute process for the failed function module based on the received process substitute necessary information, in addition to the process of the original function module.

【0016】障害となっていた機能モジュールは再起動
が終了すると、全機能モジュールに対して再起動完了通
知同報を送信して再起動が完了したことを通知し、再起
動完了通知同報を受信した代替機能モジュールは、再起
動を行った機能モジュールに対して代替中応答を送信す
る。
Upon completion of the restart, the failed functional module transmits a restart completion notification broadcast to all functional modules to notify that the restart has been completed, and transmits a restart completion notification broadcast. The received substitute function module transmits a substitute-in-progress response to the restarted function module.

【0017】代替中応答を受信した機能モジュールは、
どの機能モジュールが代替を行っていたかを判定するこ
とができ、代替中応答を送信した機能モジュールに対し
て代替情報要求を送信する。
The functional module receiving the substitute-in-progress response includes:
It is possible to determine which functional module is performing the substitution, and transmits a substitution information request to the functional module that has transmitted the response during substitution.

【0018】代替情報要求を受信した機能モジュール
は、すべての代替情報を代替情報転送として、再起動を
行った機能モジュールに送信した後、代替処理を終了す
る。
The functional module that has received the substitute information request transmits all the substitute information as substitute information transfer to the restarted functional module, and then terminates the substitute processing.

【0019】代替情報転送を受信した機能モジュール
は、引き続き代替情報をもとに該機能モジュールの処理
を続行する。
The functional module that has received the substitute information transfer continues the processing of the functional module based on the substitute information.

【0020】図1は本発明の実施形態におけるシステム
構成図の一例である。
FIG. 1 is an example of a system configuration diagram in an embodiment of the present invention.

【0021】複数の機能モジュール1、2、3、4、5
が同一バス上に存在し、機能モジュール1、2、3は同
じ処理タイプXを実行する機能モジュール、機能モジュ
ール4は処理タイプYを実行する機能モジュール、機能
モジュール5は処理タイプZを実行する機能モジュール
である。
A plurality of function modules 1, 2, 3, 4, 5
Exist on the same bus, function modules 1, 2, and 3 execute the same processing type X, function module 4 executes a processing type Y, and function module 5 executes a processing type Z. Module.

【0022】図2は本発明の実施形態におけるシステム
障害時の処理代替論理シーケンスを示している。
FIG. 2 shows a processing alternative logical sequence at the time of a system failure in the embodiment of the present invention.

【0023】同一バス上に複数機能モジュールが存在
し、各機能モジュールは、いくつかの処理タイプのいず
れかに属するようなシステムにおいて、任意の機能モジ
ュールが障害となり、その障害となった機能モジュール
が機能モジュールA(1)と仮定する。
In a system in which a plurality of function modules exist on the same bus, and each of the function modules belongs to any one of several processing types, an arbitrary function module becomes a failure, and the function module having the failure becomes a failure. Assume functional module A (1).

【0024】機能モジュールA(1)は、全機能モジュ
ールに対して障害発生通知同報6〜9の送信を行うこと
により障害機能モジュール名(ここでは機能モジュール
A(1))と、該機能モジュールの処理タイプ(ここで
は処理タイプ=X)を通知する。
The function module A (1) transmits a trouble occurrence notification broadcast 6 to 9 to all the function modules, thereby obtaining the trouble function module name (here, the function module A (1)) and the function module A (1). (Here, processing type = X) is notified.

【0025】障害発生通知同報6を受信した機能モジュ
ールB(2)は、機能モジュールA(1)と同じ処理タ
イプXを実行する機能モジュールであるので該機能モジ
ュールは機能モジュールA(1)の代替可能と判断し、
機能モジュールA(1)に対して、該機能モジュールの
処理負荷度を示す代替可能応答10を送信する。
The function module B (2) that has received the failure occurrence notification broadcast 6 is a function module that executes the same processing type X as the function module A (1), so that the function module is the function module A (1). Judge that it can be replaced,
An alternative response 10 indicating the processing load of the functional module is transmitted to the functional module A (1).

【0026】同様に機能モジュールC(3)も該機能モ
ジュールは機能モジュールA(1)の代替可能と判断
し、機能モジュールA(1)に対して、該機能モジュー
ルの処理負荷度を示す代替可能応答11を送信する。
Similarly, the functional module C (3) also determines that the functional module can be substituted for the functional module A (1), and substitutes for the functional module A (1) indicating the processing load of the functional module. The response 11 is transmitted.

【0027】機能モジュールD(4),E(5)は、機
能モジュールA(1)とは異なる処理タイプを実行する
機能モジュールであるので該機能モジュールは機能モジ
ュールA(1)の代替不可能と判断して機能モジュール
A(1)に対しては何も送信しない。
The function modules D (4) and E (5) are function modules that execute a processing type different from that of the function module A (1), so that the function modules cannot be substituted for the function module A (1). Judgment is made and nothing is transmitted to the function module A (1).

【0028】一方、機能モジュールA(1)は受信した
代替可能応答の処理負荷度を互いに比較して一番処理負
荷の低い機能モジュールを代替機能モジュールと判定
し、処理負荷の一番低い機能モジュール(ここでは機能
モジュールB(2)とする)に対して情報退避要求12
を送信することにより機能モジュールA(1)の代替に
必要な処理代替必要情報をすべて機能モジュールB
(2)に転送し、さらにその後機能モジュールA(1)
自身の再起動を行う。
On the other hand, the functional module A (1) compares the processing load levels of the received substitute-possible responses with each other, determines the functional module with the lowest processing load as the substitute functional module, and determines the functional module with the lowest processing load. (Here, it is assumed that the function module B (2)) transmits the information save request 12
To send all the processing alternative necessary information necessary for the replacement of the function module A (1) to the function module B.
(2), and then to the function module A (1)
Restart itself.

【0029】情報退避要求12を受信した機能モジュー
ルB(2)は機能モジュールA(1)から受信した処理
代替必要情報をもとに、本来の機能モジュールB(2)
の処理に加えて、機能モジュールA(1)の代替処理を
行う。
The function module B (2) that has received the information saving request 12 is based on the processing replacement necessary information received from the function module A (1), and the original function module B (2).
In addition to the above processing, a substitute processing for the functional module A (1) is performed.

【0030】機能モジュールA(1)は再起動が終了す
ると、どの機能モジュールが該機能モジュールの代替処
理を行っているかを判別するために全機能モジュールに
対して再起動完了通知同報13〜16を送信して機能モ
ジュールA(1)の再起動が完了したことを通知する。
When the restart of the functional module A (1) is completed, the restart completion notification broadcasts 13 to 16 are sent to all the functional modules in order to determine which functional module is performing the substitute processing of the functional module. To notify that the restart of the functional module A (1) is completed.

【0031】再起動完了通知同報13を受信した機能モ
ジュールB(2)は、機能モジュールA(1)の代替処
理を行っているため、機能モジュールA(1)に対して
代替中応答17を送信するが、再起動完了通知同報14
〜16を受信した機能モジュールC(3),D(4),
E(5)は、機能モジュールA(1)の代替処理は行っ
ていないので、機能モジュールA(1)に対して何も送
信しない。
Since the functional module B (2) that has received the restart completion notification broadcast 13 is performing the substitute processing of the functional module A (1), the functional module B (2) sends the substitute module response 17 to the functional module A (1). Transmit, but restart completion notification broadcast 14
, The function modules C (3), D (4),
E (5) does not perform any substitute processing for the function module A (1), and does not transmit anything to the function module A (1).

【0032】機能モジュールB(2)から代替中応答1
7を受信した機能モジュールA(1)は、該機能モジュ
ールの代替機能モジュールがB(2)であると判定し、
機能モジュールB(2)に対して代替情報要求18を送
信する。
Response 1 during substitution from function module B (2)
7, the functional module A (1) determines that the substitute functional module of the functional module is B (2),
A substitute information request 18 is transmitted to the function module B (2).

【0033】代替情報要求18を受信した機能モジュー
ルB(2)は機能モジュールA(1)に対して、機能モ
ジュールA(1)に機能モジュールA(1)が代替処理
より継続する処理を実行するために必要なすべての代替
情報を代替情報転送19として機能モジュールA(1)
に送信した後、機能モジュールA(1)の代替処理を終
了する。
The functional module B (2) that has received the substitute information request 18 executes a process for the functional module A (1) in which the functional module A (1) continues from the substitute process. Function module A (1) using all the necessary alternative information as the alternative information transfer 19
After that, the substitute processing of the functional module A (1) is terminated.

【0034】代替情報転送19を受信した機能モジュー
ルA(1)は、引き続き代替情報をもとに機能モジュー
ルA(1)の処理を続行する。
The functional module A (1) receiving the substitute information transfer 19 continues the processing of the functional module A (1) based on the substitute information.

【0035】[0035]

【発明の効果】以上説明したように、本発明によれば、
任意の機能モジュールが障害になった場合に、全モジュ
ールへの障害発生通知同報による応答により代替機能モ
ジュールを選択するため、代替機能モジュールを複数の
中から選択することが可能であり、また処理負荷の一番
低い機能モジュールを選択することが可能であるため代
替時の処理負荷を抑制することが可能である。
As described above, according to the present invention,
When an arbitrary function module fails, the alternative function module can be selected from a plurality of alternative function modules by selecting the alternative function module by responding to the failure notification broadcast to all modules. Since the functional module with the lowest load can be selected, the processing load at the time of substitution can be suppressed.

【0036】また、代替専用の機能モジュールを設ける
必要がなく、障害となった機能モジュールは再開時、自
発的に代替情報の退避/再取得を行うため、障害時以外
の処理負荷を軽減させるという利点がある。
In addition, there is no need to provide a function module dedicated to substitution, and the failed function module voluntarily saves / re-acquires substitute information when resuming, so that the processing load other than at the time of failure is reduced. There are advantages.

【0037】また、ある機能モジュールが障害となり他
機能モジュールが代替中である場合に、さらに他の機能
モジュールが障害となった場合でも、代替可能な機能モ
ジュールが存在する限り、代替を行うことが可能であ
る。
In addition, when a certain function module has failed and another function module is being replaced, and another function module has failed, replacement can be performed as long as there is a replaceable function module. It is possible.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施形態によるコンピュータシステム
における障害対処方式の構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of a failure handling method in a computer system according to an embodiment of the present invention.

【図2】本発明の実施形態によるコンピュータシステム
における障害対処方式の動作を示すシーケンス図であ
る。
FIG. 2 is a sequence diagram showing an operation of a failure handling method in the computer system according to the embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 機能モジュールA 2 機能モジュールB 3 機能モジュールC 4 機能モジュールD 5 機能モジュールE 1 Function Module A 2 Function Module B 3 Function Module C 4 Function Module D 5 Function Module E

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 相互に結合された複数の機能モジュール
を備え、 前記複数の機能モジュールのうちの2以上の機能モジュ
ールが同一の処理タイプを実行する同一処理タイプ機能
モジュールであり、 前記同一処理タイプ機能モジュールのうちの1の同一処
理タイプ機能モジュールに障害が発生したときに、前記
同一処理タイプ機能モジュールのうちのいずれかの他の
同一処理タイプ機能モジュールが前記障害が発生した前
記同一処理タイプ機能モジュールが実行していた処理を
継続するための手段と、 前記障害が発生した前記同一処理タイプ機能モジュール
が再起動したときに、前記他の同一処理タイプ機能モジ
ュールにより継続されていた処理を前記障害が発生し再
起動した前記同一処理タイプ機能モジュールが継続する
ための手段と、 を備えることを特徴とするコンピュータシステムにおけ
る障害対処方式。
A plurality of function modules coupled to each other, wherein at least two of the plurality of function modules are the same processing type function modules executing the same processing type; When one of the function modules has a failure in the same processing type function module, the other of the same processing type function modules has the same processing type function in which the failure has occurred. Means for continuing the processing executed by the module; and, when the same processing type functional module in which the failure has occurred is restarted, the processing continued by the other same processing type functional module is replaced with the failure. Means for continuing the same processing type functional module that has occurred and restarted, and Troubleshooting method in a computer system, wherein the obtaining.
【請求項2】 相互に結合された複数の機能モジュール
を備え、 各機能モジュールが、 自機能モジュールに障害が発生したときに他機能モジュ
ールに処理タイプについての情報を有する障害発生通知
同報を送信する手段と、 他機能モジュールから前記障害発生通知同報を受信した
ときに、前記障害発生通知同報により示される前記処理
タイプと自機能モジュールの処理タイプが同一である場
合に、代替可能応答を前記障害発生通知同報の送信元の
他機能モジュールに送信する手段と、 前記代替可能応答の送信元の他機能モジュールのうちの
1の他機能モジュールに自機能モジュールの処理を当該
1の他機能モジュールで代替するのに必要な処理代替必
要情報を含む情報退避要求を送信する手段と、 前記情報退避要求を受信したときに、前記情報退避要求
に含まれる前記処理代替必要情報を利用して、前記情報
退避要求を送信した他機能モジュールのために代替処理
を行う手段と、 自機能モジュールが再起動したときに、他機能モジュー
ルに再起動完了通知同報を送信する手段と、 他機能モジュールから前記再起動完了通知同報を受信し
たときに、自機能モジュールが前記代替処理を行ってい
る場合に、代替中応答を前記再起動完了通知同報の送信
元の他機能モジュールに送信する手段と、 前記代替中応答を受信したときに、代替情報要求を前記
代替中応答の送信元の他機能モジュールに送信する手段
と、 前記代替情報要求を受信したときに、前記代替情報要求
の送信元の他機能モジュールが代替処理に続く処理を実
行するのに必要な代替情報を含む代替情報転送を前記代
替情報要求の送信元の他機能モジュールに送信する手段
と、 前記代替情報転送を受信したときに、前記代替情報を利
用して、前記代替処理に継続する処理を再開する手段
と、 を備えることを特徴とするコンピュータシステムにおけ
る障害対処方式。
2. A system comprising a plurality of mutually coupled functional modules, wherein each functional module transmits a failure occurrence notification broadcast having information on a processing type to another functional module when a failure occurs in its own functional module. Means for receiving, when receiving the broadcast of the failure notification from another function module, when the processing type indicated by the broadcast of the failure notification and the processing type of the own function module are the same, an alternative response is sent. Means for transmitting the failure occurrence notification broadcast to another function module of the transmission source; and transmitting the processing of the own function module to one of the other function modules of the transmission source of the alternative response in the first other function. Means for transmitting an information save request including processing alternative necessary information required for replacement by a module; and Means for performing an alternative process for the other function module that transmitted the information save request by using the process alternative necessary information included in the evacuation request; Means for transmitting a restart completion notification broadcast, and, when receiving the restart completion notification broadcast from another function module, when the own function module is performing the replacement processing, the replacement in-progress response is restarted. Means for transmitting a completion notification broadcast to another function module of the transmission source; means for transmitting an alternative information request to another function module of the transmission source of the response during the substitution when the response during the substitution is received; When the information request is received, the alternative information transfer including the alternative information necessary for the other function module of the transmission source of the alternative information request to execute a process subsequent to the alternative process is performed. Means for transmitting a request to the other function module, and means for, when receiving the substitute information transfer, using the substitute information and restarting the processing continued from the substitute processing. Troubleshooting system in a computer system.
【請求項3】 請求項1に記載のコンピュータシステム
における障害対処方式において、 前記情報退避要求は、前記代替可能応答の送信元の他機
能モジュールのうちの最も負荷の軽い他機能モジュール
に送信することを特徴とするコンピュータシステムにお
ける障害対処方式。
3. The failure handling method in the computer system according to claim 1, wherein the information saving request is transmitted to another function module having the lightest load among other function modules of the transmission source of the replaceable response. A failure handling method in a computer system characterized by the following.
【請求項4】 相互に結合された複数の機能モジュール
を備えるコンピュータシステムのための障害対処方法に
おいて、 前記複数の機能モジュールのうちの2以上の機能モジュ
ールが同一の処理タイプを実行する同一処理タイプ機能
モジュールであり、 前記同一処理タイプ機能モジュールのうちの1の同一処
理タイプ機能モジュールに障害が発生したときに、前記
同一処理タイプ機能モジュールのうちのいずれかの他の
同一処理タイプ機能モジュールが前記障害が発生した前
記同一処理タイプ機能モジュールが実行していた処理を
継続するステップと、 前記障害が発生した前記同一処理タイプ機能モジュール
が再起動したときに、前記他の同一処理タイプ機能モジ
ュールにより継続されていた処理を前記障害が発生し再
起動した前記同一処理タイプ機能モジュールが継続する
ステップと、 を有することを特徴とするコンピュータシステムのため
の障害対処方法。
4. A failure handling method for a computer system having a plurality of interconnected functional modules, wherein two or more of the plurality of functional modules execute the same processing type. A failure of one of the same processing type functional modules, the other of the same processing type functional modules being the same processing type functional module. Continuing the process executed by the same processing type functional module in which the failure has occurred, and continuing by the other same processing type functional module when the same processing type functional module in which the failure has occurred is restarted. The same process in which the failed process was restarted due to the failure A method for handling a fault for a computer system, comprising: a type function module continuing.
【請求項5】 相互に結合された複数の機能モジュール
を備えるコンピュータシステムのための障害対処方法に
おいて、 障害が発生した機能モジュールが他機能モジュールに処
理タイプについての情報を有する障害発生通知同報を送
信するステップと、 前記障害発生通知同報を受信した機能モジュールが、前
記障害発生通知同報により示される前記処理タイプと自
機能モジュールの処理タイプが同一である場合に、代替
可能応答を前記障害が発生した機能モジュールに送信す
るステップと、 前記障害が発生した機能モジュールが前記代替可能応答
の送信元の他機能モジュールのうちの1の他機能モジュ
ールに自機能モジュールの処理を当該1の他機能モジュ
ールで代替するのに必要な処理代替必要情報を含む情報
退避要求を送信するステップと、 前記情報退避要求を受信した他機能モジュールが、前記
情報退避要求に含まれる前記処理代替必要情報を利用し
て、前記障害が発生した機能モジュールのために代替処
理を行うステップと、 前記障害が発生した機能モジュールが再起動したとき
に、前記障害が発生した機能モジュールが他機能モジュ
ールに再起動完了通知同報を送信するステップと、 前記再起動完了通知同報を受信した機能モジュールが、
自機能モジュールが前記代替処理を行っている場合に、
代替中応答を前記障害が発生し再起動した機能モジュー
ルに送信するステップと、 前記障害が発生し再起動した機能モジュールが、前記代
替中応答を受信したときに、代替情報要求を前記代替中
応答の送信元の他機能モジュールに送信するステップ
と、 前記代替情報要求を受信した他機能モジュールが、前記
障害が発生し再起動した機能モジュールが代替処理に続
く処理を実行するのに必要な代替情報を含む代替情報転
送を前記障害が発生し再起動した機能モジュールに送信
するステップと、 前記障害が発生し再起動した機能モジュールが、前記代
替情報転送を受信したときに、前記代替情報を利用し
て、前記代替処理に継続する処理を再開するステップ
と、 を有することを特徴とするコンピュータシステムのため
の障害対処方法。
5. A failure handling method for a computer system having a plurality of interconnected functional modules, wherein the failed functional module broadcasts a failure occurrence notification broadcast having information on a processing type to another functional module. Transmitting, and when the function module that has received the failure occurrence notification broadcast has the same processing type as the processing type indicated by the failure occurrence notification broadcast and the processing type of its own function module, sends the substitute possibility response to the failure. Transmitting to the function module in which the failure has occurred; and transmitting the processing of the function module to the function module in which the failure has occurred to one of the other function modules of the transmission source of the replaceable response. A step of transmitting an information save request including processing alternative information required for replacement by the module A step in which the other function module that has received the information save request performs an alternative process for the function module in which the failure has occurred, using the process alternative necessary information included in the information save request; When the failed functional module is restarted, the failed functional module sends a restart completion notification broadcast to another function module, and the functional module that has received the restart completion notification broadcast,
When the self-function module is performing the alternative processing,
Sending a substitute-in-progress response to the failed and restarted functional module; and transmitting the substitute information request to the substitute-in response when the failed and restarted functional module receives the substitute-in response. Transmitting the alternative information request to the other function module, and the other function module receiving the alternative information request, the alternative information necessary for the functional module restarted due to the failure to execute the processing following the alternative processing Transmitting the alternative information transfer to the failed and restarted functional module, wherein the failed and restarted functional module receives the alternative information transfer and uses the alternative information. And restarting the processing that continues to the alternative processing.
【請求項6】 請求項5に記載のコンピュータシステム
のための障害対処方法において、 前記情報退避要求は、前記代替可能応答の送信元の他機
能モジュールのうちの最も負荷の軽い他機能モジュール
に送信することを特徴とするコンピュータシステムのた
めの障害対処方法。
6. The failure handling method for a computer system according to claim 5, wherein the information saving request is transmitted to the other function module with the lightest load among the other function modules that have transmitted the replaceable response. And a failure handling method for a computer system.
JP2000118375A 2000-04-19 2000-04-19 Troubleshooting method for computer system Expired - Fee Related JP3496822B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000118375A JP3496822B2 (en) 2000-04-19 2000-04-19 Troubleshooting method for computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000118375A JP3496822B2 (en) 2000-04-19 2000-04-19 Troubleshooting method for computer system

Publications (2)

Publication Number Publication Date
JP2001306351A true JP2001306351A (en) 2001-11-02
JP3496822B2 JP3496822B2 (en) 2004-02-16

Family

ID=18629526

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000118375A Expired - Fee Related JP3496822B2 (en) 2000-04-19 2000-04-19 Troubleshooting method for computer system

Country Status (1)

Country Link
JP (1) JP3496822B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005111799A1 (en) * 2004-05-19 2005-11-24 Sony Computer Entertainment Inc. Methods and apparatus for handling processing errors in a multi-processor system
WO2011087020A1 (en) * 2010-01-15 2011-07-21 株式会社日立製作所 Embedded device and embedded system
WO2012004872A1 (en) * 2010-07-07 2012-01-12 富士通株式会社 Management device, management program and management method
JP2014003364A (en) * 2012-06-15 2014-01-09 Toshiba Corp Communication device and communication method

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005111799A1 (en) * 2004-05-19 2005-11-24 Sony Computer Entertainment Inc. Methods and apparatus for handling processing errors in a multi-processor system
KR100832192B1 (en) * 2004-05-19 2008-05-23 가부시키가이샤 소니 컴퓨터 엔터테인먼트 Methods and apparatus for handling processing errors in a multi-processor system
CN1906586B (en) * 2004-05-19 2010-05-05 索尼计算机娱乐公司 Methods and apparatus for handling processing errors in a multi-processor system
US7730456B2 (en) 2004-05-19 2010-06-01 Sony Computer Entertainment Inc. Methods and apparatus for handling processing errors in a multi-processing system
US7926023B2 (en) 2004-05-19 2011-04-12 Sony Computer Entertainment Inc. Methods and apparatus for handling processing errors in a multi-processing system
WO2011087020A1 (en) * 2010-01-15 2011-07-21 株式会社日立製作所 Embedded device and embedded system
CN102667729A (en) * 2010-01-15 2012-09-12 株式会社日立制作所 Embedded device and embedded system
WO2012004872A1 (en) * 2010-07-07 2012-01-12 富士通株式会社 Management device, management program and management method
JPWO2012004872A1 (en) * 2010-07-07 2013-09-02 富士通株式会社 Management device, management program, and management method
JP2014003364A (en) * 2012-06-15 2014-01-09 Toshiba Corp Communication device and communication method

Also Published As

Publication number Publication date
JP3496822B2 (en) 2004-02-16

Similar Documents

Publication Publication Date Title
KR101099822B1 (en) Redundant routing capabilities for a network node cluster
WO2008014696A1 (en) Method and apparatus for realizing communication take-over
JP2001043105A (en) High-availability computer system and data backup method of the system
WO2006129277A2 (en) Method and hardware node for customized upgrade control
JP2001306351A (en) Fault handling system in computer system
JPH08185330A (en) Method for switching redundant computer system
KR100832890B1 (en) Process obstacle lookout method and recovery method for information communication
JPH07152697A (en) Roughly coupled computer system
JP4028627B2 (en) Client server system and communication management method for client server system
JP2003298624A (en) Communication path securing method in service control application execution program
JP2000020336A (en) Duplex communication system
JPH06110800A (en) Dynamic path switching method
US11853175B2 (en) Cluster system and restoration method that performs failover control
JPH09288589A (en) System backup method
JP2002149439A (en) Method for switching server and server device in distributed processing system
JP2000010949A (en) Relay type decentralized health check control system and method
US7213167B1 (en) Redundant state machines in network elements
JPH11249909A (en) Method for process reactivation on multitask os
JPH0668034A (en) Online system monitor system
JPH1093617A (en) Standby switching system for communication processing device
JP3411966B2 (en) Configuration method of service management function of intelligent network
JP2001177446A (en) Communication controller and communication changeover control method
JP2645433B2 (en) Computer system
JPH04318721A (en) Transmission line switching system at abnormal multiple address communication
JPH06222944A (en) Switching control method for duplexed electronic computer system

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees