JPH10320326A - Check point communication processing system, method therefor and storage medium for storing the same method - Google Patents

Check point communication processing system, method therefor and storage medium for storing the same method

Info

Publication number
JPH10320326A
JPH10320326A JP9126774A JP12677497A JPH10320326A JP H10320326 A JPH10320326 A JP H10320326A JP 9126774 A JP9126774 A JP 9126774A JP 12677497 A JP12677497 A JP 12677497A JP H10320326 A JPH10320326 A JP H10320326A
Authority
JP
Japan
Prior art keywords
information processing
packet
communication packet
terminal device
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9126774A
Other languages
Japanese (ja)
Inventor
Masanori Tomota
正憲 友田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP9126774A priority Critical patent/JPH10320326A/en
Publication of JPH10320326A publication Critical patent/JPH10320326A/en
Pending legal-status Critical Current

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Retry When Errors Occur (AREA)

Abstract

PROBLEM TO BE SOLVED: To process a communication processing without any delay until check point collection in a computer system which can recover from failure by advancing a processing while collecting a check point, and executing the processing by rolling back to a finally collected check point at the time of the generation of failure. SOLUTION: A client computer 10 stores a transmitted communication packet, and when failure is generated in a fault tolearance(FT) computer 1, the stored communication packet is re-transmitted to the FT computer 1, and a processing is resumed. The FT computer 1 can transmit the communication packet to the client computer 10 regardless of check point collection, and a waiting time for check point collection can be unnecessitated for communication between the FT computer 1 and the client computer 10.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、コンピュータ間の
データ通信において、チェックポイントを採取しながら
処理を進めていき、障害が発生したときに、最後に取得
したチェックポイントから処理を再実行することにより
障害からの回復を実現するコンピュータシステムに適用
して好適なチェックポイント通信処理システムに係わ
り、特に次のチェックポイントまでパケットを待機させ
ることなく、通信パケットを送信することを可能とする
チェックポイント通信処理システム、及びチェックポイ
ント通信処理方法、この通信処理方法を格納した記憶媒
体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a process for performing a process while collecting checkpoints in data communication between computers, and re-executing a process from the last obtained checkpoint when a failure occurs. The present invention relates to a checkpoint communication processing system suitable for being applied to a computer system that realizes recovery from a failure, and particularly to checkpoint communication that enables transmission of a communication packet without waiting for the packet to the next checkpoint. The present invention relates to a processing system, a checkpoint communication processing method, and a storage medium storing the communication processing method.

【0002】[0002]

【従来の技術】従来、コンピュータ間のデータ通信にあ
っては、チェックポイントを採取しながら処理を進め、
故障が発生した場合には、最後に採取したチェックポイ
ントから処理を再実行することにより、故障からの回復
を可能とするコンピュータシステムにおいて、通信の出
力処理についても、その発行を次のチェックポイント処
理が開始されるまで保存し、チェックポイント後に一括
して発行させなければならなかった。
2. Description of the Related Art Conventionally, in data communication between computers, processing is performed while collecting check points.
If a failure occurs, in the computer system that enables recovery from the failure by re-executing the processing from the last checkpoint collected, the output of communication is also issued to the next checkpoint processing. Had to be saved until it started, and issued in batch after the checkpoint.

【0003】これは、故障が発生した場合にコンピュー
タシステムは直前のチェックポイントまで戻るため、故
障が発生するまでに生成された通信処理も全てキャンセ
ルしなければ、故障回復時に、応用プログラムなどが発
行した通信データの一貫性を保証できないからであっ
た。
[0003] This is because, when a failure occurs, the computer system returns to the immediately preceding checkpoint. Therefore, unless all the communication processing generated before the failure occurs is canceled, an application program or the like is issued at the time of failure recovery. This is because the consistency of the communication data obtained cannot be guaranteed.

【0004】[0004]

【発明が解決しようとする課題】上述例を、コンピュー
タ間のデータ通信の概念図である図7を用いて説明す
る。図7は、故障や障害に対応可能なフォールト・トレ
ラント・コンピュータ(耐故障性コンピュータ、以下F
T計算機と称する)とクライアント計算機とのデータ通
信の概念図であり、19はチェックポイントを示し、2
2はFT計算機に障害が発生した時の時刻を示す。パケ
ット1〜4は、上記コンピュータ間で送受信される通信
パケットを示す。21は、障害発生時点から、前回のチ
ェックポイント19の状態にロールバックすることを示
す。
The above example will be described with reference to FIG. 7, which is a conceptual diagram of data communication between computers. FIG. 7 shows a fault-tolerant computer (fault-tolerant computer, hereinafter referred to as F
FIG. 19 is a conceptual diagram of data communication between a client computer and a client computer.
2 indicates the time when a failure occurs in the FT computer. Packets 1 to 4 indicate communication packets transmitted and received between the computers. Reference numeral 21 indicates that the state is rolled back to the state of the previous checkpoint 19 from the time of occurrence of the failure.

【0005】この場合、FT計算機は、クライアント計
算機へのデータの送信を次のチェックポイントまで遅延
していない。従って、データの送信(パケット3)は、
チェックポイントに無関係にクライアント計算機に到達
する。
In this case, the FT computer does not delay the transmission of data to the client computer until the next checkpoint. Therefore, data transmission (packet 3)
Reach the client computer regardless of the checkpoint.

【0006】このような状況でFT計算機に障害が発生
すると、FT計算機上のアプリケ―ション30は、直前
のチェックポイントであるチェックポイント19の時点
の状態にロールバック21し、実行を再開する。つま
り、FT計算機のアプリケーション30は、クライアン
ト計算機上のアプリケーション31から、パケット2が
送られてくるのを待っている状況になる(パケット受信
待ち20)。
When a failure occurs in the FT computer in such a situation, the application 30 on the FT computer rolls back 21 to the state at the checkpoint 19 which is the immediately preceding checkpoint, and resumes execution. That is, the application 30 of the FT computer waits for the packet 2 to be sent from the application 31 on the client computer (packet reception wait 20).

【0007】しかし、クライアント計算機のアプリケー
ション31は、すでに時刻22、即ち、FT計算機に障
害が発生した時点まで、処理が進んでおり、パケット4
を送信した後の状態(22)でパケット2がFT計算機
のアプリケーション30に再送されることはない。
However, the processing of the application 31 of the client computer has already progressed to the time 22, that is, the point of time when a failure has occurred in the FT computer.
Is not resent to the application 30 of the FT computer in the state (22) after the transmission.

【0008】このような状態に陥ると、上記のFT計算
機のアプリケーション30は処理を続けることができな
いために、両者とも処理を中断せざるをえない。
In such a state, the application 30 of the above-mentioned FT computer cannot continue the processing, so that both of them have to interrupt the processing.

【0009】上記のような問題を回避するために、従来
のチェックポイント・ロールバック方式のFT計算機で
は、データの送信をチェックポイントを採取するまで遅
延している。
In order to avoid the above-mentioned problem, the conventional checkpoint rollback FT computer delays data transmission until a checkpoint is collected.

【0010】しかし、このようにチェックポイント採取
までデータ送信を遅延すると、LAN(Local A
rea Network)などのネットワークを通じて
他の計算機とデータをやりとりしながら、処理を進める
ようなアプリケーションの場合、1回のデータの通信の
度に、チェックポイントまでの待ち時間が含まれてしま
い、処理時間が長くなってしまうという問題がある。
However, if data transmission is delayed until checkpoint collection in this way, LAN (Local A
In the case of an application that advances processing while exchanging data with another computer through a network such as a network (rea Network), the waiting time until a check point is included for each data communication, and the processing time is increased. There is a problem that becomes longer.

【0011】そこで、本発明は上記事情を考慮してなさ
れたもので、FT計算機がLANなどのネットワークを
通じて他の計算機に宛てた通信パケットの送信をチェッ
クポイントまで遅延することなく行い、且つ障害が発生
した場合にその実行を矛盾なく再開できるチェックポイ
ント通信処理システム、及びチェックポイント通信処理
方法、この通信処理方法を格納した記憶媒体を提供する
ことを目的とする。
Therefore, the present invention has been made in view of the above circumstances, and an FT computer transmits a communication packet addressed to another computer through a network such as a LAN without delay to a checkpoint, and a failure occurs. It is an object of the present invention to provide a checkpoint communication processing system, a checkpoint communication processing method, and a storage medium storing the communication processing method, in which the execution thereof can be restarted without contradiction when it occurs.

【0012】[0012]

【課題を解決するための手段】本発明は、上記目的を達
成するために以下の通りとした。
SUMMARY OF THE INVENTION The present invention has the following aspects to attain the above object.

【0013】(1)本発明は、各種アプリケーションソ
フトウェア等の応用サービスを提供する情報処理装置
と、この情報処理装置から応用サービスの提供を受ける
端末機器と、上記情報処理装置と上記端末機器とを接続
するネットワークからなり、上記情報処理装置は、上記
端末機器との通信の際にチェックポイントを採取しなが
ら処理を進めていき障害が発生した時に、最後に採取し
たチェックポイントまでロールバックして処理を再実行
することにより障害からの回復を実現するチェックポイ
ント通信処理システムにおいて、上記情報処理装置は、
チェックポイントを採取し、障害が検出された時点で最
後に採取したチェックポイントでの処理状態に戻し、障
害を取り除いてから処理を再実行するチェックポイント
・ロールバック手段と、上記応用サービス等からの入出
力要求をチェックポイントが採取され状態が確定される
まで保持し、チェックポイント採取後に入出力要求を出
し保持した入出力要求を破棄する入出力要求保持手段
と、上記ネットワーク上での上記端末機器のアドレスを
登録するアドレス登録手段と、チェックポイントを採取
した時に、これを上記端末機器のアドレスに基づき上記
端末機器に通知し、上記情報処理装置に障害が発生し、
ロールバックして処理の実行を再開する場合には、この
実行を再開することを上記端末機器のアドレスに基づき
上記端末機器に通知するチェックポイント通知手段とを
備え、上記端末機器は、上記情報処理装置に対して送信
する通信パケットの情報である通信パケット情報を蓄積
するパケット蓄積手段と、上記チェックポイント通知手
段が、チェックポイントを通知してきた際には、上記パ
ケット蓄積手段に蓄積された通信パケット情報を破棄
し、ロールバックを通知してきた際には、上記パケット
蓄積手段に蓄積された通信パケット情報に基づき通信パ
ケットを上記情報処理装置へ送信するパケット再送手段
とを備え、上記入出力要求保持手段は、上記入出力要求
が上記情報処理装置から上記端末機器への通信パケット
の送信の場合は、この通信パケットを保持せずチェック
ポイント採取に関係無く上記端末機器に送信し、上記情
報処理装置に障害が発生しロールバックして実行を再開
した場合には、上記パケット再送手段が上記パケット蓄
積手段に蓄積した通信パケット情報に基づき通信パケッ
トを再送することで、障害発生直前のチェックポイント
から障害発生までの間に、上記端末機器が送信し上記情
報処理装置が受信した通信パケットを得てロールバック
後の再実行を行うことを特徴とする。
(1) The present invention relates to an information processing apparatus that provides application services such as various application software, a terminal device that receives application services from the information processing apparatus, and the information processing apparatus and the terminal device. It consists of a network to be connected, and the information processing device proceeds with processing while collecting checkpoints when communicating with the terminal device.If a failure occurs, it rolls back to the last collected checkpoint and processes In a checkpoint communication processing system that realizes recovery from a failure by re-executing
Checkpoint rollback means for collecting checkpoints, returning to the processing state at the last checkpoint collected when a failure was detected, removing the failure, and re-executing processing, and Input / output request holding means for holding an input / output request until a checkpoint is collected and the status is determined, issuing the input / output request after the checkpoint is collected, and discarding the held input / output request, and the terminal device on the network Address registration means for registering the address of the terminal, when a checkpoint is collected, notifies the terminal device based on the address of the terminal device, a failure occurs in the information processing device,
A checkpoint notifying unit for notifying the terminal device that the execution is to be resumed based on an address of the terminal device when the execution of the process is resumed by rolling back; When the packet storage means for storing communication packet information, which is information of a communication packet to be transmitted to the device, and the checkpoint notification means notifies a checkpoint, the communication packet stored in the packet storage means Packet retransmission means for transmitting a communication packet to the information processing device based on the communication packet information stored in the packet storage means when the information is discarded and a rollback is notified, and Means for transmitting a communication packet from the information processing device to the terminal device, If the communication packet is not retained and transmitted to the terminal device regardless of checkpoint collection, and if the information processing device fails and rolls back to resume execution, the packet retransmitting unit stores the communication packet in the packet storage unit. By retransmitting the communication packet based on the accumulated communication packet information, a communication packet transmitted by the terminal device and received by the information processing device is obtained and rolled back from a checkpoint immediately before the failure to the failure. Is re-executed.

【0014】このような構成によれば、上記端末機器が
送信したパケットを蓄積し上記情報処理装置に障害が発
生した際には、蓄積した通信パケットを上記情報処理装
置に再送し処理を再開する。これにより、上記情報処理
装置は、チェックポイント採取に関係無く上記端末機器
へ通信パケットを送信することができ、上記情報処理装
置と上記端末機器との通信にチェックポイント採取によ
る待ち時間が必要無くなる。
According to such a configuration, when the packet transmitted by the terminal device is stored and the information processing device fails, the stored communication packet is retransmitted to the information processing device to resume the processing. . Accordingly, the information processing apparatus can transmit a communication packet to the terminal device regardless of checkpoint collection, and the communication between the information processing apparatus and the terminal device does not need to wait for checkpoint collection.

【0015】(2)本発明は、上記(1)記載のチェッ
クポイント通信処理システムにおいて、上記情報処理装
置は、上記入出力要求が上記端末機器へ送信する通信パ
ケットの場合、この通信パケットの情報である通信パケ
ット情報を蓄積するパケット蓄積手段を備え、上記情報
処理装置に障害が発生しロールバックして実行を再開し
た場合には、再開後に上記情報処理装置から上記端末機
器へ通信パケットを送信する際、上記情報処理装置のパ
ケット蓄積手段は上記再開後の通信パケットと上記情報
処理装置のパケット蓄積手段に蓄積した通信パケット情
報とを比較して上記情報処理装置の応用サービスの処理
が障害前と同様に進んでいるかどうかを判断し障害前と
同様に上記再開後の通信パケットを送信するようにした
ことを特徴とする。
(2) In the checkpoint communication processing system according to (1), when the input / output request is a communication packet to be transmitted to the terminal device, the information processing apparatus may include information on the communication packet. If the information processing device fails and rolls back to resume execution, a communication packet is transmitted from the information processing device to the terminal device after the restart. The packet storage unit of the information processing apparatus compares the communication packet after the restart with the communication packet information stored in the packet storage unit of the information processing apparatus, and determines whether the processing of the application service of the information processing apparatus has occurred before the failure. The communication packet after the restart is transmitted in the same manner as before the failure by judging whether or not the communication has proceeded.

【0016】このような構成によれば、上記端末機器が
送信したパケットを蓄積し上記情報処理装置に障害が発
生した際には、蓄積した通信パケットを上記情報処理装
置に再送し処理を再開する。これにより、上記情報処理
装置は、チェックポイント採取に関係無く上記端末機器
へ通信パケットを送信することができ、上記情報処理装
置と上記端末機器との通信にチェックポイント採取によ
る待ち時間が必要無くなる。
According to such a configuration, when a packet transmitted by the terminal device is stored and a failure occurs in the information processing apparatus, the stored communication packet is retransmitted to the information processing apparatus to resume the processing. . Accordingly, the information processing apparatus can transmit a communication packet to the terminal device regardless of checkpoint collection, and the communication between the information processing apparatus and the terminal device does not need to wait for checkpoint collection.

【0017】また、再開後に上記情報処理装置から上記
端末機器へ通信パケットを送信する際、上記情報処理装
置に蓄積した通信パケット情報と比較することで、通信
パケットの送信順序等、障害前後の応用サービスの処理
を同一にすることができ、矛盾無くロールバック後の再
実行をすることができる。
When the communication packet is transmitted from the information processing apparatus to the terminal device after the restart, the communication packet information stored in the information processing apparatus is compared with the communication packet information to transmit the communication packet. Service processing can be the same, and re-execution after rollback can be performed without contradiction.

【0018】(3)本発明は、上記(2)記載のチェッ
クポイント通信処理システムにおいて、上記情報処理装
置に障害が発生しロールバックして実行を再開した場合
には、再開後に上記情報処理装置から上記端末機器へ通
信パケットを送信する際、上記情報処理装置のパケット
蓄積手段は上記再開後の通信パケットと上記情報処理装
置のパケット蓄積手段に蓄積した通信パケット情報とを
比較して上記情報処理装置の応用サービスの処理が障害
前と同様に進んでいるかどうかを判断し障害前と同様に
上記再開後の通信パケットを送信するようにし、上記判
断の結果、障害前と処理が異なり処理を継続できない端
末機器がある場合にはこの端末機器との接続を切断する
ことを特徴とする。
(3) In the checkpoint communication processing system according to the above (2), when a failure occurs in the information processing apparatus and rollback is performed to resume execution, the information processing apparatus may be resumed after the restart. When transmitting a communication packet from the terminal device to the terminal device, the packet storage unit of the information processing device compares the restarted communication packet with the communication packet information stored in the packet storage unit of the information processing device to perform the information processing. It is determined whether or not the processing of the application service of the apparatus is proceeding as before the failure, and the communication packet after the restart is transmitted as before the failure. As a result of the determination, the processing is different from that before the failure and the processing is continued. When there is a terminal device that cannot be used, the connection with the terminal device is disconnected.

【0019】このような構成によれば、上記端末機器が
送信したパケットを蓄積し上記情報処理装置に障害が発
生した際には、蓄積した通信パケットを上記情報処理装
置に再送し処理を再開する。これにより、上記情報処理
装置は、チェックポイント採取に関係無く上記端末機器
へ通信パケットを送信することができ、上記情報処理装
置と上記端末機器との通信にチェックポイント採取によ
る待ち時間が必要無くなる。
According to such a configuration, when the packet transmitted by the terminal device is stored and the information processing device fails, the stored communication packet is retransmitted to the information processing device to resume the processing. . Accordingly, the information processing apparatus can transmit a communication packet to the terminal device regardless of checkpoint collection, and the communication between the information processing apparatus and the terminal device does not need to wait for checkpoint collection.

【0020】また、再開後に上記情報処理装置から上記
端末機器へ通信パケットを送信する際、上記情報処理装
置に蓄積した通信パケット情報と比較することで、通信
パケットの送信順序等、障害前後の応用サービスの処理
を同一にすることができ、矛盾無くロールバック後の再
実行をすることができる。
When the communication packet is transmitted from the information processing apparatus to the terminal device after the restart, the communication packet information stored in the information processing apparatus is compared with the communication packet information to transmit the communication packet. Service processing can be the same, and re-execution after rollback can be performed without contradiction.

【0021】また、上記比較判断の結果、障害前と処理
が異なり処理を継続できない端末機器がある場合にはこ
の端末機器との接続を切断でき、一方のアプリケーショ
ンのみ受信待ちで、長時間動作しないといった状態を防
ぐことができる。
Also, as a result of the above-mentioned comparison judgment, if there is a terminal device whose processing is different from that before the failure and processing cannot be continued, the connection with this terminal device can be cut off, only one application waits for reception and does not operate for a long time. Such a state can be prevented.

【0022】[0022]

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0023】(第一の実施形態)以下、図面を参照して
本発明の第一実施の形態を説明する。
(First Embodiment) Hereinafter, a first embodiment of the present invention will be described with reference to the drawings.

【0024】図1は、本実施形態であるシステム構成図
である。
FIG. 1 is a system configuration diagram of the present embodiment.

【0025】本例におけるフォールト・トレラント計算
機(以下FT計算機)1は、データベースシステム等の
応用サービスをLAN(Local Area Net
work)等のネットワークを通じてクライアント計算
機10に提供する。この場合、クライアント計算機10
は、クライアント計算機10上のアプリケーション14
からの要求により、FT計算機1上のアプリケーション
7からデータ等のサービスの提供を受ける。各計算機の
通信手段である通信手段6と通信手段11の間はLAN
等のネットワークで接続されているものとする。
The fault-tolerant computer (hereinafter referred to as FT computer) 1 in the present embodiment provides an application service such as a database system to a LAN (Local Area Net).
work) to the client computer 10 through a network such as a network. In this case, the client computer 10
Is the application 14 on the client computer 10
Receives a service such as data from the application 7 on the FT computer 1 in response to the request from. LAN between the communication means 6 and the communication means 11 which are communication means of each computer
And so on.

【0026】FT計算機1は、FT計算機1がチェック
ポイントを取得したこと、またFT計算機1が障害を検
知し、直前のチェックポイントまで戻って、再実行を始
めたことを、クライアント計算機10に通知するチェッ
クポイント通知手段2と、チェックポイント通知手段2
が通知を行うべき相手のクライアント計算機10のネッ
トワーク上でのアドレスを格納するアドレステーブル3
を具備する。
The FT computer 1 notifies the client computer 10 that the FT computer 1 has acquired a checkpoint and that the FT computer 1 has detected a failure and has returned to the immediately preceding checkpoint and has started re-execution. Checkpoint notifying means 2 and checkpoint notifying means 2
Table 3 which stores the address on the network of the client computer 10 of the other party to which notification should be made
Is provided.

【0027】FT計算機1は、後で説明するパケット再
送機能を持つクライアント計算機10との間でのみ、チ
ェックポイントと関係なくパケットを送信することがで
きる。予め管理者が、複数のクライアント計算機10の
ネットワーク上でのアドレスを、アドレステーブル3に
登録しておく。
The FT computer 1 can transmit a packet only to a client computer 10 having a packet retransmission function described later, regardless of a checkpoint. The administrator registers the addresses of the plurality of client computers 10 on the network in the address table 3 in advance.

【0028】チェックポイント通知手段2は、以下のよ
うに動作する。
The checkpoint notifying means 2 operates as follows.

【0029】(1)FT計算機1が起動すると、アドレ
ステーブル3に入っている、複数のクライアント計算機
10に、初期化通知を出す。
(1) When the FT computer 1 is started, it issues an initialization notification to a plurality of client computers 10 in the address table 3.

【0030】(2)チェックポイント・ロールバック手
段4がチェックポイントを採取すると、クライアント計
算機10にチェックポイント通知を出す。
(2) When the checkpoint / rollback means 4 collects a checkpoint, it issues a checkpoint notification to the client computer 10.

【0031】(3)チェックポイント・ロールバック手
段4が、ロールバックを行なうと、クライアント計算機
10にロールバック通知を出す。
(3) When the checkpoint / rollback means 4 performs a rollback, a rollback notification is issued to the client computer 10.

【0032】さらに、FT計算機1は、通常の計算機を
構成する各要素のほかに、従来の技術で述べたように、
チェックポイント・ロールバックを実現するために、障
害が起きた時に戻って再実行できることを保証した状態
であるチェックポイントを、適宜採取しながら処理を進
める。
Further, the FT computer 1 includes, in addition to the components constituting a normal computer,
In order to implement checkpoint rollback, the process proceeds while appropriately collecting checkpoints that are guaranteed to be re-executable when a failure occurs.

【0033】FT計算機1に障害が検出された時点で、
以前に採取しておいた障害が起きる前の状態にプロセッ
サやメモリを戻し、障害を取り除いてから再実行するチ
ェックポイント・ロールバック手段4と、FT計算機1
上の各種アプリケーションソフトウェアであるアプリケ
ーション7等からの全ての入出力装置への要求(入出力
要求)をチェックポイントが取得された状態が確定する
まで保持する入出力要求保持手段5から構成される。
When a failure is detected in the FT computer 1,
Checkpoint / rollback means 4 for returning the processor and memory to the state before the failure, which was previously collected, for removing the failure and re-executing the processing, and the FT computer 1
It comprises input / output request holding means 5 for holding requests (input / output requests) to all the input / output devices from the application 7 or the like, which is the above various application software, until the state in which the checkpoint has been acquired is determined.

【0034】チェックポイント・ロールバック手段4
は、従来のチェックポイント・ロールバック方式で必要
な処理に加えて、チェックポイントを取得したときと、
ロールバックを行ったときに、チェックポイント通知手
段2に通知することを新たに行う。
Checkpoint / rollback means 4
In addition to the processing required by the conventional checkpoint and rollback method, when a checkpoint is acquired,
When the rollback is performed, a new notification to the checkpoint notification unit 2 is performed.

【0035】次に、FT計算機1上で動作するアプリケ
―ション7が、どのようにクライアント計算機10にパ
ケットを送信するかを説明する。
Next, how the application 7 operating on the FT computer 1 transmits a packet to the client computer 10 will be described.

【0036】入出力要求保持手段5は、従来のチェック
ポイント・ロールバック方式で必要な処理に加えて、以
下のような動作を行う。この処理を図2のフローチャー
トに示す。
The input / output request holding means 5 performs the following operation in addition to the processing required in the conventional checkpoint / rollback method. This process is shown in the flowchart of FIG.

【0037】FT計算機上1のアプリケーション7など
が通常の入出力要求を出し、その要求は、入出力要求保
持手段5に到着する(A1)。
The application 7 or the like on the FT computer 1 issues a normal input / output request, and the request arrives at the input / output request holding means 5 (A1).

【0038】入出力要求保持手段5は、この入出力要求
が、クライアント計算機10に宛てたものかどうか判定
する(A2)。
The input / output request holding unit 5 determines whether the input / output request is addressed to the client computer 10 (A2).

【0039】入出力要求がクライアント計算機10に宛
てたもので無い場合(A2のNO)、チェックポイント
・ロールバック手段4のチェックポイント採取まで、こ
れらの要求を保持する(A4)。チェックポイント採取
後に(A5)、入出力要求を通信手段6に出す(A
3)。入出力要求を通信手段6に出した後、この保持さ
れていた入出力要求は破棄される。
If the input / output requests are not addressed to the client computer 10 (NO in A2), these requests are held until the checkpoint / rollback means 4 collects the checkpoints (A4). After the checkpoint is collected (A5), an input / output request is issued to the communication means 6 (A5).
3). After issuing the input / output request to the communication means 6, the held input / output request is discarded.

【0040】ネットワークを通じてクライアント計算機
10に宛てたパケットを送信することを要求する入出力
要求を受け取った場合(A2のYES)、この要求を保
持せずに、通信手段6に、そのまま入出力要求(通信パ
ケット)を出す(A3)。つまり、クライアント計算機
10宛ての通信パケットの場合、FT計算機1のチェッ
クポイント採取を待たず、上記通信パケットを送信す
る。
When an input / output request requesting transmission of a packet addressed to the client computer 10 through the network is received (YES in A2), the input / output request (A2) is sent to the communication means 6 without holding the request. (A3). That is, in the case of a communication packet addressed to the client computer 10, the communication packet is transmitted without waiting for checkpoint collection by the FT computer 1.

【0041】入出力要求保持手段5は、アドレステーブ
ル3を参照することで、どの要求がクライアント計算機
10宛てか判断することができる。
The input / output request holding means 5 can determine which request is addressed to the client computer 10 by referring to the address table 3.

【0042】クライアント計算機10は、通常の計算機
を構成する各要素のほかに、ネットワークを通じて他の
計算機と通信を行う通信手段11を備えている。また、
さらに、パケットを蓄積するパケットテーブル12とパ
ケット再送手段13を具備する。
The client computer 10 includes a communication unit 11 for communicating with other computers via a network, in addition to the components constituting a normal computer. Also,
Further, it has a packet table 12 for storing packets and a packet retransmitting means 13.

【0043】パケット再送手段13は、通信手段11が
FT計算機1に対して送信するパケットをパケットテー
ブル12に蓄積し、FT計算機1のチェックポイント通
知手段2が、FT計算機1がチェックポイントを採取し
たことを通知(チェックポイント通知)してきた場合
に、それまでパケットテーブル12に蓄積したパケット
を破棄し、FT計算機1のチェックポイント通知手段2
が、FT計算機1がロールバックしたことを通知(ロー
ルバック通知)してきた場合に、それまでパケット・テ
ーブル12に蓄積してきたパケットを順番にFT計算機
1に再送する。図3は、パケットテーブル6の例であ
る。パケットテーブル6には、時刻301に各パケット
を蓄えた時間が格納され、パケット302にはパケット
の内容そのものが格納される。
The packet retransmitting means 13 accumulates, in the packet table 12, the packet transmitted by the communication means 11 to the FT computer 1, and the checkpoint notifying means 2 of the FT computer 1 collects the checkpoint by the FT computer 1. Is notified (checkpoint notification), the packet accumulated in the packet table 12 is discarded, and the checkpoint notification means 2 of the FT computer 1
When the FT computer 1 notifies that the FT computer 1 has rolled back (rollback notification), the FT computer 1 retransmits the packets accumulated in the packet table 12 to the FT computer 1 in order. FIG. 3 is an example of the packet table 6. The packet table 6 stores the time at which each packet was stored at time 301, and the packet 302 stores the packet itself.

【0044】次に、クライアント計算機10上で動作す
るアプリケーション14からFT計算機1へ宛てたパケ
ットを、どのように処理するかを説明する。
Next, how to process a packet addressed to the FT computer 1 from the application 14 running on the client computer 10 will be described.

【0045】クライアント計算機10上のパケット再送
手段13は、どのパケットを蓄積するかを決めるため
に、FT計算機1のアドレスを知る必要がある。これ
は、以下のように知ることができる。
The packet retransmitting means 13 on the client computer 10 needs to know the address of the FT computer 1 in order to determine which packet to store. This can be known as follows.

【0046】初期化として以下の2つの場合がある。There are the following two cases for initialization.

【0047】(1)FT計算機1が先に起動している場
合 FT計算機1のチェックポイント通知手段2は、チェッ
クポイント毎にチェックポイント通知を出すので、再送
手段13はそれをもとに、FT計算機1のネットワーク
上のアドレスを得る。
(1) When the FT Calculator 1 is Activated First The checkpoint notification means 2 of the FT computer 1 issues a checkpoint notification for each checkpoint. The address of the computer 1 on the network is obtained.

【0048】(2)クライアント計算機10が先に起動
している場合 すでに述べたようにFT計算機1のチェックポイント通
知手段2が初期化通知を出すので、再送手段13はそれ
をもとに、FT計算機1のアドレスを得る。あるいは、
FT計算機1と同様に、あらかじめ管理者がFT計算機
1のアドレスをパケット再送手段13に設定しておいて
もよい。次に、パケット再送手段13における処理を図
4、図5、図6のフローチャートで示す。
(2) When the Client Computer 10 is Activated First As described above, the checkpoint notifying unit 2 of the FT computer 1 issues an initialization notification, and the retransmitting unit 13 performs FT based on the notification. The address of the computer 1 is obtained. Or,
Similarly to the FT computer 1, the administrator may set the address of the FT computer 1 in the packet retransmitting means 13 in advance. Next, the processing in the packet retransmitting means 13 will be described with reference to the flowcharts of FIGS.

【0049】まず、入出力要求が到着した場合を、図4
で説明する。クライアント計算機10上で動作するアプ
リケーション14は、パケット再送手段13に入出力要
求である送信パケットを渡す(B1)。パケット再送手
段13は、送信パケットをFT計算機1宛てかどうか判
定する(B2)。
First, a case where an input / output request has arrived is shown in FIG.
Will be described. The application 14 running on the client computer 10 passes a transmission packet, which is an input / output request, to the packet retransmission unit 13 (B1). The packet retransmitting means 13 determines whether the transmission packet is addressed to the FT computer 1 (B2).

【0050】送信パケットがFT計算機に宛てたパケッ
トの場合(B2のYES)、パケットテーブル12に、
この送信パケットを蓄積(コピー)する(B3)。次
に、通信手段11を使用して、送信パケットを宛先に送
る(B4)。
When the transmission packet is a packet addressed to the FT computer (YES in B2), the packet table 12
This transmission packet is stored (copied) (B3). Next, the transmission packet is sent to the destination using the communication means 11 (B4).

【0051】送信パケットがFT計算機に宛てたパケッ
トで無い場合(B2のNO)、そのまま、通信手段11
を使用して、送信パケットを宛先に送る(B4)。
If the transmission packet is not a packet addressed to the FT computer (NO in B2), the communication means 11
Is used to send the transmission packet to the destination (B4).

【0052】FT計算機1のチェックポイント通知手段
2が、チェックポイント通知を再送手段13に通知した
場合について図5で説明する。
The case where the checkpoint notification means 2 of the FT computer 1 notifies the retransmission means 13 of a checkpoint notification will be described with reference to FIG.

【0053】チェックポイント通知が到着したら(C
1)、パケット再送手段13は、パケットテーブル12
に蓄積したパケットをすべて破棄する(C2)。
When the checkpoint notification arrives (C
1), the packet retransmitting means 13
(C2).

【0054】FT計算機1のチェックポイント通知手段
2が、ロールバック通知を通知してきた場合について図
6で説明する。
The case where the checkpoint notifying means 2 of the FT computer 1 notifies the rollback notification will be described with reference to FIG.

【0055】ロールバック通知が到着したら(D1)、
パケット再送手段13は、パケットテーブル12から蓄
積していたパケットを一つ取り、通信手段11を使用し
て送信する(D2)。
When the rollback notification arrives (D1),
The packet retransmitting means 13 takes one packet stored from the packet table 12 and transmits it using the communication means 11 (D2).

【0056】パケットを送信したら、パケットテーブル
12からパケットが無くなったかどうかを判定する(D
3)。
After transmitting the packet, it is determined from the packet table 12 whether or not the packet has been lost (D
3).

【0057】パケットテーブル12にパケットが無い場
合(D3のYES)、処理は終了する。パケットテーブ
ル12にパケットがまだ有る場合(D3のNO)、パケ
ットをパケットテーブル12から一つ取り、通信手段1
1を使用して送信する(D2)。このようにして、クラ
イアント計算機10上のパケット再送手段13は、パケ
ットテーブル12に蓄積したパケットを順番に、FT計
算機1に向かってすべて再送する。
If there is no packet in the packet table 12 (YES in D3), the process ends. If there is still a packet in the packet table 12 (NO in D3), one packet is taken from the packet table 12 and
1 is transmitted (D2). In this way, the packet retransmitting means 13 on the client computer 10 retransmits all the packets stored in the packet table 12 to the FT computer 1 in order.

【0058】第一の実施形態で、FT計算機1が障害を
起こした場合について、図7を用いて説明する。
The case where the FT computer 1 has failed in the first embodiment will be described with reference to FIG.

【0059】FT計算機1のアプリケーションがクライ
アント計算機10のアプリケーションと通信を行いなが
ら処理を進めていく場合を考える。ここでは、FT計算
機1のアプリケーションを30、クライアント計算機1
0のアプリケーションを31とする。
Consider a case where the application of the FT computer 1 proceeds with the process while communicating with the application of the client computer 10. Here, 30 applications of the FT computer 1 and the client computer 1
Assume that the application of 0 is 31.

【0060】従来のチェックポイント・ロールバック方
式では、チェックポイント採取までパケットの通信を遅
延する。よって、障害が発生した場合、前回のチェック
ポイント19の状態に戻り、FT計算機1はパケット2
の受信待ちになるが、クライアント計算機10はチェッ
クポイント採取によるパケット2の受領通知をFT計算
機1からもらっていないので、パケット2の再送を行
い、処理が再開できる。このようなパケットの受領通知
の仕組みは、信頼性のあるトランスポート(例えば、T
CP/IP)を使用した通信では、通常備えている機能
である。
In the conventional checkpoint / rollback method, packet communication is delayed until checkpoint collection. Therefore, when a failure occurs, the state returns to the state of the previous checkpoint 19, and the FT computer 1
However, since the client computer 10 has not received the reception notification of the packet 2 from the checkpoint collection from the FT computer 1, the client computer 10 retransmits the packet 2 and can resume the processing. The mechanism of such packet acknowledgment is a reliable transport (eg, T
The communication using CP / IP is a function normally provided.

【0061】但し、このような従来のチェックポイント
・ロールバック方式では、1回のデータの送受信の度
に、チェックポイントまでの待ち時間が含まれてしま
い、処理時間が長くなってしまう問題は解決できない。
However, such a conventional checkpoint / rollback method solves the problem that the waiting time until the checkpoint is included every time data is transmitted and received once, which increases the processing time. Can not.

【0062】そこで、本実施形態では、障害が発生した
場合、チェックポイント19までロールバック21する
と、FT計算機は、クライアント計算機にロールバック
通知をクライアント計算機10のパケット再送手段13
に通知する。これにより、パケット再送手段13は、直
前のチェックポイント19からのパケットをすべて再送
するので、従来例の様にチェックポイントの採取を待つ
こと無く、パケットの送信が可能で有り、上記の問題を
解決することができる。
Therefore, in the present embodiment, when a failure occurs, when the rollback 21 is performed to the checkpoint 19, the FT computer sends a rollback notification to the client computer and transmits the rollback notification to the packet retransmission unit 13 of the client computer 10.
Notify. As a result, the packet retransmitting means 13 retransmits all the packets from the immediately preceding checkpoint 19, so that the packet can be transmitted without waiting for the checkpoint to be collected as in the conventional example. can do.

【0063】図7では、クライアント計算機10がパケ
ット2とパケット4を再送する。FT計算機1のアプリ
ケ一ション30は、パケット2とパケット4を受け取る
ことができ、処理を継続することができる。この際、ア
プリケーション30は、パケット3を実際に、クライア
ント計算機10に送信してしまっても良い。信頼性のあ
るトランスポートを使用する通信では、既に受信したパ
ケットをもう一度受信しても、それをアプリケーション
には伝えない仕組みを持っているからである。 (第二の実施形態)上記第一の実施形態のFT計算機1
のロールバック後の再実行において、FT計算機1は、
障害発生前とまったく同一の動作を取るとは限らない。
例えば、複数のプロセッサを備えた計算機の場合では、
複数のプロセッサの間で同一のスピンロックを競合して
同時に取る処理があると、そのときの実行環境によっ
て、どのプロセッサがスピンロックを獲得するかが変わ
ることがある。つまり、再実行において、FT計算機1
からクライアント計算機10へ送信される通信パケット
の順序や内容が障害発生前と異なる場合がある。このよ
うに、再実行において必ずしもアプリケーションが同一
の動作をとるとは限らないことから、単にクライアント
計算機10が通信パケットを再送したとしても、処理を
継続できない場合がある。
In FIG. 7, the client computer 10 retransmits the packet 2 and the packet 4. The application 30 of the FT computer 1 can receive the packet 2 and the packet 4, and can continue the processing. At this time, the application 30 may actually transmit the packet 3 to the client computer 10. This is because communication using a reliable transport has a mechanism in which even if a received packet is received again, it is not transmitted to the application. (Second embodiment) FT computer 1 of the first embodiment
In the re-execution after the rollback, the FT computer 1
It does not always take exactly the same operation as before the failure occurred.
For example, in the case of a computer with multiple processors,
If there is a process of simultaneously competing for the same spin lock among a plurality of processors, which processor acquires the spin lock may change depending on the execution environment at that time. That is, in the re-execution, the FT computer 1
In some cases, the order and contents of communication packets transmitted from the server to the client computer 10 may be different from those before the occurrence of the failure. As described above, since the application does not always perform the same operation in the re-execution, even if the client computer 10 simply retransmits the communication packet, the process may not be able to be continued.

【0064】本第二の実施形態は、このような場合に、
矛盾の起こった接続のみを切断し、矛盾なく再実行でき
た接続は、そのまま実行を続けられることを特徴とす
る。
In the second embodiment, in such a case,
It is characterized in that only the connection in which inconsistency has occurred is cut off, and the connection that can be re-executed without inconsistency can be continuously executed.

【0065】図8は、本実施形態のシステム構成図であ
る。
FIG. 8 is a system configuration diagram of the present embodiment.

【0066】FT計算機801は、通常の計算機を構成
する各要素のほかに、従来の技術で述べたように、チェ
ックポイント・ロールバックを実現するために、障害が
起きた時に戻って再実行できることを保証した状態であ
るチェックポイントを、適宜採取しながら処理を進め、
障害が検出された時点で、以前に採取しておいた故障が
起きる前のチェックポイントの状態にプロセッサやメモ
リを戻し、障害を取り除いてから再実行するチェックポ
イント・ロールバック手段803と、全ての入出力装置
への要求(入出力要求)をチェックポイントが採取され
状態が確定するまで保持する入出力要求保持手段805
等から構成される。
The FT computer 801 must be capable of returning and re-executing when a failure occurs in order to implement checkpoint rollback, as described in the background art, in addition to the elements constituting a normal computer. Proceed with processing while collecting checkpoints that are in a state where
When a failure is detected, the processor or memory is returned to the state of the checkpoint before the failure, which was previously collected, and the checkpoint / rollback means 803 for removing the failure and re-executing the processing is provided. An input / output request holding unit 805 that holds a request to the input / output device (input / output request) until a checkpoint is collected and the state is determined.
And so on.

【0067】さらに、FT計算機801は、他の計算機
と通信を行うための通信手段807を備える。通信手段
807は、例えばLANのインタフェースを制御するド
ライバなどである。図8では、このFT計算機801と
ネットワーク809を通じて接続されているクライアン
ト計算機などは図示しない。
Further, the FT computer 801 includes a communication unit 807 for communicating with another computer. The communication unit 807 is, for example, a driver that controls a LAN interface. In FIG. 8, a client computer connected to the FT computer 801 via the network 809 is not shown.

【0068】通信手段807は、通常の計算機が備える
入出力要求(送信パケットなど)を受け取り、ネットワ
−ク809ヘ送信し、ネットワーク809からFT計算
機801宛てに到着する通信パケットを受信する。受信
した通信パケットは、パケットを処理する、トランスポ
ート804に渡される。トランスポート804は、TC
P/IPなどがこれにあたり、データの送受信のための
基本的な仕組みを提供する。
The communication unit 807 receives an input / output request (such as a transmission packet) provided in a normal computer, transmits the request to the network 809, and receives a communication packet arriving at the FT computer 801 from the network 809. The received communication packet is passed to a transport 804, which processes the packet. Transport 804 uses TC
P / IP and the like correspond to this, and provide a basic mechanism for transmitting and receiving data.

【0069】パケット蓄積手段806は入出力要求保持
手段805と通信手段807の間に位置し、FT計算機
801の送信する通信パケットを全てパケットテーブル
802にコピーした後、通信手段807に渡す。
The packet storage unit 806 is located between the input / output request holding unit 805 and the communication unit 807, and copies all communication packets transmitted by the FT computer 801 to the packet table 802, and transfers the packet to the communication unit 807.

【0070】通信パケットを蓄積するパケットテーブル
802に格納されるデータについて、図9を用いて説明
する。アドレス901とポート番号902には、通信パ
ケットが渡される、あるいは、通信パケットが発生した
コネクション(アドレスとポート番号)のそれぞれアド
レスとポート番号を格納する。フラグ903には、その
通信パケットのコネクションとFT計算機801の通信
状態を格納する。時刻904は、通信パケットをパケッ
トテーブル802に蓄えた時刻を格納する。送受信別9
05は、その通信パケットが送信パケットか、受信パケ
ットかを格納する。パケット906は、通信パケットの
内容そのものを格納する。
Data stored in the packet table 802 for storing communication packets will be described with reference to FIG. The address 901 and the port number 902 store the address and port number of the connection (address and port number) to which the communication packet is passed or in which the communication packet has occurred. The flag 903 stores the connection of the communication packet and the communication state of the FT computer 801. The time 904 stores the time when the communication packet was stored in the packet table 802. 9 by transmission and reception
05 stores whether the communication packet is a transmission packet or a reception packet. The packet 906 stores the content of the communication packet itself.

【0071】FT計算機801の主記憶は、障害が発生
し、ロールバックした場合、その内容が直前のチェック
ポイントに戻る。しかし、パケットテーブル802は、
ロ−ルバックした場合でも、その内容が戻らないような
記憶装置上にあるものとする。パケットテーブル802
の内容をロールバック後に使用するためである。
When a failure occurs in the main memory of the FT computer 801 and the rollback is performed, the contents return to the immediately preceding checkpoint. However, the packet table 802 is
It is assumed that the contents are on a storage device such that the contents do not return even if the rollback occurs. Packet table 802
Is used after the rollback.

【0072】図10のフローチャートを用いて、パケッ
ト蓄積手段806の処理の流れを説明する。
The processing flow of the packet storage means 806 will be described with reference to the flowchart of FIG.

【0073】FT計算機1のロールバック後の再実行に
おいて、アプリケーションの処理を継続できず、矛盾の
起こったコネクションに対して、トランスポート804
が、コネクションの切断を出す、あるいは、受け取った
場合、トランスポート804から、パケット蓄積手段8
06へ、特別のコネクション断通知を渡す。
In the re-execution after the rollback of the FT computer 1, the processing of the application cannot be continued, and the transport 804
Issues a disconnection or receives a connection, the transport
06, a special connection disconnection notification is passed.

【0074】E1では、パケット蓄積手段806への通
知がコネクション断通知かどうかを判定する。コネクシ
ョン断通知の場合(E1のYES)、コネクション断処
理を行う(E6)。コネクション断処理は、切断したコ
ネクションの通信パケットをパケットテーブルから削除
するための処理であるが、実際には、次のチェックポイ
ントまでパケットテーブル802から削除できないの
で、パケットテーブル802の上記切断したコネクショ
ンの通信パケットのフラグ903を断状態とする。
At E1, it is determined whether the notification to the packet storage means 806 is a disconnection notification. In the case of a connection disconnection notification (YES in E1), a connection disconnection process is performed (E6). The connection disconnection process is a process for deleting the communication packet of the disconnected connection from the packet table. However, in actuality, the communication packet cannot be deleted from the packet table 802 until the next checkpoint. The communication packet flag 903 is turned off.

【0075】コネクション断通知で無い場合(E1のN
O)は次の処理に移る。
If not a connection disconnection notification (N of E1)
O) moves on to the next process.

【0076】次に、チェックポイント採取通知かどうか
を判定する。チェックポイント採取通知の場合(E2の
YES)、チェックポイント採取通知処理を行う(E
7)。チェックポイント採取通知処理について以下に説
明する。チェックポイント・ロールバック手段803
は、チェックポイント採取後、チェックポイント採取通
知をパケット蓄積手段806に出す。パケット蓄積手段
806は、チェックポイント採取通知を受け取ると、パ
ケットテーブル802の通信パケットのうち、フラグ9
03が通常状態と断状態のものをすべて削除する。これ
は、既にチェックポイントを採取したため、通常状態の
通信パケットは、ロールバック後に再送されることはな
いからで、断状態のものも同様の理由で削除してよい。
さらに、パケット蓄積手段806は、チェックポイント
採取通知を受け取ると、フラグ903が故障状態の通信
パケットの時刻904に格納された時刻と現在時刻を比
較し、あらかじめ定められた時間以上経過した通信パケ
ットを破棄し、そのパケットのコネクションを切断する
ように、トランスポート804に通知する。トランスポ
ート804は、指定されたコネクションの切断を実行す
る。こうすることで、回復状態の通信パケットに関して
は、いつまでもパケットテーブルに放置される状態を回
避している。
Next, it is determined whether it is a checkpoint collection notification. In the case of a checkpoint collection notification (YES in E2), a checkpoint collection notification process is performed (E
7). Checkpoint collection notification processing will be described below. Checkpoint / rollback means 803
Sends a checkpoint collection notification to the packet storage unit 806 after the checkpoint collection. Upon receiving the checkpoint collection notification, the packet storage unit 806 receives the flag 9 among the communication packets in the packet table 802.
03 deletes all the normal and disconnected states. This is because the checkpoint has already been collected, and the communication packet in the normal state will not be retransmitted after rollback, and the communication packet in the disconnected state may be deleted for the same reason.
Further, upon receiving the checkpoint collection notification, the packet storage unit 806 compares the time stored in the time 904 of the communication packet in which the flag 903 is in the faulty state with the current time, and determines the communication packet that has elapsed for a predetermined time or more. It discards the packet and notifies the transport 804 to disconnect the connection of the packet. The transport 804 executes disconnection of the specified connection. By doing so, it is possible to avoid a state where the communication packet in the recovery state is left in the packet table forever.

【0077】チェックポイント採取通知で無い場合(E
2のNO)、E3の処理に移る。
When the notification is not a checkpoint collection notification (E
(NO in 2), the process proceeds to E3.

【0078】パケット蓄積手段806は、通信パケット
を受け取ると、同一のコネクション(同じアドレス、ポ
ート番号)の通信パケットがパケットテーブル802に
故障状態で、存在するかどうか判定する(E3)。 故障状態の通信パケットが存在する場合(E3のYE
S)は、ロールバック後の再実行の場合である。その場
合、同一コネクションで、故障状態のパケットのうち、
もっとも古いものを検索する(E8)。
Upon receiving the communication packet, the packet storage means 806 determines whether a communication packet of the same connection (the same address and port number) exists in the packet table 802 in a failure state (E3). When there is a communication packet in a failure state (YE of E3)
S) is a case of re-execution after rollback. In that case, of the packets in the same connection,
The oldest one is searched (E8).

【0079】次に、この通信パケットと、受け取った通
信パケットの内容が一致するかどうか判定する(E
9)。一致する場合(E9のYES)は、故障前後で、
同じ処理が行われていることがわかるので、パケットテ
―ブル中の通信パケットのフラグを通常状態にする(E
12)。通信パケットの内容が一致しない場合(E9の
NO)は、処理が異なるので、同一コネクション(同一
アドレス、同一ポート番号)のパケットを全てパケット
テーブル802から削除する(E10)。そして、トラ
ンスポート804に、このコネクションを切断すること
を指示する(E11)。
Next, it is determined whether or not the content of the communication packet matches the content of the received communication packet (E
9). If they match (YES in E9),
Since it is known that the same processing is performed, the flag of the communication packet in the packet table is set to the normal state (E
12). If the contents of the communication packets do not match (NO in E9), the processing is different, so that all the packets of the same connection (same address, same port number) are deleted from the packet table 802 (E10). Then, it instructs the transport 804 to disconnect this connection (E11).

【0080】故障状態のパケットが存在しない場合(E
3のNO)は、パケットテーブル802に通信パケット
を通常状態として登録し(E4)、通信手段に送り実際
に送信される(E5)。
When there is no faulty packet (E
No. 3), the communication packet is registered as a normal state in the packet table 802 (E4), sent to the communication means and actually transmitted (E5).

【0081】パケット蓄積手段806が、このようにロ
ールバック後の送信パケットの内容を検査することで、
ロールバック前と、ロールバック後で動作が変わったか
どうかを判断することができ、変わっている場合は、コ
ネクションを切断する。
The packet storage unit 806 examines the contents of the transmitted packet after the rollback as described above,
It is possible to determine whether the operation has changed before and after the rollback, and disconnect the connection if the operation has changed.

【0082】これにより、FT計算機、クライアント計
算機で動作するアプリケーション両方とも、コネクショ
ンが切れ、これ以上通信できないことがわかる。この場
合、両者とも、通信できないために、処理を継続するこ
とはできない。しかし、一方のアプリケーションのみ、
受信待ちで長時間動作しない、といった状態になること
はない。
As a result, it is understood that both the FT computer and the application operating on the client computer have lost the connection and cannot communicate any more. In this case, the processing cannot be continued because both cannot communicate. However, only one application,
There is no possibility that the system will not operate for a long time while waiting for reception.

【0083】また、パケットテーブル802に蓄積した
送信パケットの送信内容、送信時刻等に基づき、ロール
バック後の送信パケットと比較すれば送信順序を確認す
ることができる。これにより、ロールバック後の送信順
序を障害発生前と同一になる様に調整することができ
る。例えば、パケット蓄積手段806は、ロールバック
後に再送した送信パケットが蓄積した障害発生前の順序
と異なる場合には、蓄積順では後になるロールバック後
の送信パケットについては送信が完了していないように
一時遅延をし、蓄積順で先のロールバック後の送信パケ
ットを送信してから、上記遅延した送信パケットの送信
を完了させることで、ロールバック後のアプリケーショ
ンの動作の順序を送信パケットの完了で制御することに
より、実施例1の場合よりも、確実に通信に関する再実
行を行うことができる。
Further, the transmission order can be confirmed by comparing the transmitted packet stored in the packet table 802 with the transmitted packet after rollback based on the transmission contents, transmission time, and the like. Thus, the transmission order after the rollback can be adjusted so as to be the same as before the occurrence of the failure. For example, when the transmission packet retransmitted after the rollback is different from the stored order before the occurrence of the failure, the packet storage unit 806 determines that the transmission is not completed for the transmission packet after the rollback that is later in the storage order. By performing a temporary delay, transmitting the transmission packet after the previous rollback in the accumulation order, and then completing the transmission of the delayed transmission packet, the order of operation of the application after the rollback is determined by the completion of the transmission packet. By performing the control, the re-execution of the communication can be performed more reliably than in the case of the first embodiment.

【0084】[0084]

【発明の効果】以上詳記したように本発明によれば、F
T計算機とクライアント計算機間での通信の際、クライ
アント計算機が通信パケットを蓄積し、障害発生時に
は、蓄積した通信パケットをFT計算機に再送する。こ
れにより、FT計算機は、チェックポイント採取を待つ
こと無く、通信パケットをクライアント計算機に送信で
きるので、チェックポイントのための待ち時間が必要無
く、FT計算機とクライアント計算機の問の通信をより
高速に行うことができる。また、クライアント計算機、
FT計算機上で動作するアプリケ−ションは、チェック
ポイントの動き、或いはロールバックして再実行するこ
となどをまったく意識する必要がない。
As described above in detail, according to the present invention, F
At the time of communication between the T computer and the client computer, the client computer stores communication packets, and when a failure occurs, retransmits the stored communication packets to the FT computer. Thereby, the FT computer can transmit the communication packet to the client computer without waiting for the checkpoint collection, so that the waiting time for the checkpoint is not required and the communication between the FT computer and the client computer is performed at higher speed. be able to. Also, client computer,
The application operating on the FT computer does not need to be aware of the movement of the checkpoint or the rollback and re-execution.

【0085】ロールバック後にFT計算機が通信パケッ
トを再送する方式では、ロールバック後の処理の順番、
動作が、障害発生前と異なる場合がある。このような場
合、処理に矛盾が生じたクライアント計算機との処理を
継続できない。このような場合に対して本発明では、送
信する通信パケットを蓄積することで、ロールバック後
にFT計算機上のアプリケーションから再送される通信
パケットの処理順序を判定して通信パケットの再送を行
い、処理に矛盾が生じたクライアント計算機との接続は
切断する。これにより、ロールバック後の処理の順序、
動作をできるだけ障害発生前と同じにすることで、矛盾
なくロールバック、処理の再実行を行うことができる。
また、処理を継続することができないクライアント計算
機に対しては、接続を切断することで、一方のアプリケ
ーションのみ受信待ちで、長時間動作しないといった状
態を防ぐことができる。
In the method in which the FT computer retransmits a communication packet after rollback, the order of processing after rollback is as follows.
The operation may be different from before the failure. In such a case, it is not possible to continue processing with the client computer whose processing has been inconsistent. In such a case, in the present invention, by storing the communication packets to be transmitted, the processing order of the communication packets retransmitted from the application on the FT computer after the rollback is determined, and the communication packets are retransmitted. The connection with the client computer in which the inconsistency has occurred is disconnected. As a result, the order of processing after rollback,
By making the operation the same as before the occurrence of the failure as much as possible, rollback and re-execution of the process can be performed without contradiction.
Further, by disconnecting the connection to the client computer that cannot continue the processing, it is possible to prevent a state in which only one application waits for reception and does not operate for a long time.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第一の実施形態に係わり、チェックポ
イント処理システムの概略構成を示す図。
FIG. 1 is a diagram showing a schematic configuration of a checkpoint processing system according to a first embodiment of the present invention.

【図2】同実施の形態に係わり、入出力要求保持手段の
要求到着時の処理動作を示すフローチャート。
FIG. 2 is a flowchart showing a processing operation of the input / output request holding unit when a request arrives according to the embodiment;

【図3】同実施の形態に係わり、パケットテーブルの格
納状態を示す図。
FIG. 3 is a diagram showing a storage state of a packet table according to the embodiment;

【図4】同実施の形態に係わり、パケット再送手段の入
出力要求到着時のパケット送信処理の処理動作を示すフ
ローチャート。
FIG. 4 is a flowchart showing a processing operation of a packet transmitting process when an input / output request of a packet retransmitting unit arrives according to the embodiment;

【図5】同実施の形態に係わり、パケット再送手段のチ
ェックポイント通知到着時の処理動作を示すフローチャ
ート。
FIG. 5 is a flowchart showing a processing operation of the packet retransmission unit when a checkpoint notification arrives according to the embodiment;

【図6】同実施の形態に係わり、パケット再送手段のロ
ールバック通知到着時の処理動作を示すフローチャー
ト。
FIG. 6 is a flowchart showing a processing operation of the packet retransmission unit when a rollback notification arrives according to the embodiment;

【図7】同実施の形態に係わり、FT計算機とクライア
ント計算機のアプリケーションの通信の様子を示す概念
図。
FIG. 7 is an exemplary conceptual diagram showing communication between an application of the FT computer and an application of the client computer according to the embodiment;

【図8】本発明の第二の実施形態に係わるチェックポイ
ント処理システムの概略構成を示す図。
FIG. 8 is a diagram showing a schematic configuration of a checkpoint processing system according to a second embodiment of the present invention.

【図9】同実施の形態に係わり、パケットテーブルの格
納状態を示す図。
FIG. 9 is a diagram showing a storage state of a packet table according to the embodiment;

【図10】同実施の形態に係わり、パケット蓄積手段の
処理動作を示すフローチャート。
FIG. 10 is a flowchart showing a processing operation of a packet storage unit according to the embodiment.

【符号の説明】[Explanation of symbols]

1…FT計算機 2…チェックポイント通知手段 3…アドレステーブル 4…チェックポイント・ロールバック手段 5…入出力要求保持手段 6…通信手段 7…アプリケーション 10…クライアント計算機 11…通信手段 12…パケットテーブル 13…パケット再送手段 14…アプリケーション 801…FT計算機 802…パケットテーブル 803…チェックポイント・ロールバック手段 804…トランスポート 805…入出力要求保持手段 806…パケット蓄積手段 807…通信手段 808…アプリケーション 809…ネットワーク DESCRIPTION OF SYMBOLS 1 ... FT computer 2 ... Checkpoint notification means 3 ... Address table 4 ... Checkpoint / rollback means 5 ... Input / output request holding means 6 ... Communication means 7 ... Application 10 ... Client computer 11 ... Communication means 12 ... Packet table 13 ... Packet retransmission means 14 Application 801 FT computer 802 Packet table 803 Checkpoint / rollback means 804 Transport 805 Input / output request holding means 806 Packet storage means 807 Communication means 808 Application 809 Network

Claims (17)

【特許請求の範囲】[Claims] 【請求項1】 各種アプリケーションソフトウェア等の
応用サービスを提供する情報処理装置と、 この情報処理装置から応用サービスの提供を受ける端末
機器と、 上記情報処理装置と上記端末機器とを接続するネットワ
ークからなり、 上記情報処理装置は、上記端末機器との通信の際にチェ
ックポイントを採取しながら処理を進めていき、障害が
発生した時に、最後に採取したチェックポイントまでロ
ールバックして処理を再実行することにより障害からの
回復を実現するチェックポイント通信処理システムにお
いて、 上記情報処理装置は、 チェックポイントを採取し、障害が検出された時点で最
後に採取したチェックポイントでの処理状態に戻し、障
害を取り除いてから処理を再実行するチェックポイント
・ロールバック手段と、 上記応用サービス等からの入出力要求をチェックポイン
トが採取された状態が確定されるまで保持し、チェック
ポイント採取後に入出力要求を出し保持した入出力要求
を破棄する入出力要求保持手段と、 上記ネットワーク上での上記端末機器のアドレスを登録
するアドレス登録手段と、 チェックポイントを採取した時に、これを上記端末機器
のアドレスに基づき上記端末機器に通知し、上記情報処
理装置に障害が発生し、ロールバックして処理の実行を
再開する場合には、この実行を再開することを上記端末
機器のアドレスに基づき上記端末機器に通知するチェッ
クポイント通知手段とを備え、 上記端末機器は、 上記情報処理装置に対して送信する通信パケットの情報
である通信パケット情報を蓄積するパケット蓄積手段
と、 上記チェックポイント通知手段が、チェックポイントを
通知してきた際には、上記パケット蓄積手段に蓄積され
た通信パケット情報を破棄し、ロールバックを通知して
きた際には、上記パケット蓄積手段に蓄積された通信パ
ケット情報に基づき通信パケットを上記情報処理装置へ
送信するパケット再送手段とを備え、 上記入出力要求保持手段は、上記入出力要求が上記情報
処理装置から上記端末機器への通信パケットの送信の場
合は、この通信パケットを保持せずチェックポイント採
取に関係無く上記端末機器に送信し、 上記情報処理装置に障害が発生しロールバックして実行
を再開した場合には、上記パケット再送手段が上記パケ
ット蓄積手段に蓄積した通信パケット情報に基づき通信
パケットを再送することで、障害発生直前のチェックポ
イントから障害発生までの間に、上記端末機器が送信し
上記情報処理装置が受信した通信パケットを得てロール
バック後の再実行を行うことを特徴とするチェックポイ
ント通信処理システム。
An information processing apparatus that provides application services such as various application software, a terminal device that receives application services from the information processing device, and a network that connects the information processing device and the terminal device. The information processing apparatus proceeds with processing while collecting checkpoints during communication with the terminal device, and when a failure occurs, rolls back to the last collected checkpoint and executes the processing again. In the checkpoint communication processing system that realizes recovery from a failure by performing the above processing, the information processing apparatus collects a checkpoint, and when a failure is detected, returns to the processing state at the last checkpoint collected, and resolves the failure. Checkpoint / rollback means for removing and re-executing the process; An input / output request holding means for holding an input / output request from a service for use until the state at which the checkpoint is collected is determined, issuing the input / output request after the checkpoint is collected, and discarding the held input / output request; Address registration means for registering the address of the terminal device above, and when a checkpoint is collected, notifies the terminal device of the checkpoint based on the address of the terminal device. A checkpoint notifying unit for notifying the terminal device based on an address of the terminal device that the execution of the process is resumed based on an address of the terminal device. Packet storing means for storing communication packet information, which is information of communication packets to be transmitted to When the notification unit notifies the checkpoint, the communication packet information stored in the packet storage unit is discarded, and when the rollback is notified, the communication packet information stored in the packet storage unit is discarded. Packet retransmitting means for transmitting a communication packet to the information processing device based on information, wherein the input / output request holding means is configured to transmit the communication packet from the information processing device to the terminal device when the input / output request is a transmission of the communication packet from the information processing device to the terminal device. If the communication packet is not retained and transmitted to the terminal device regardless of checkpoint collection, and if the information processing device fails and rolls back and resumes execution, the packet retransmitting unit stores the packet. By retransmitting the communication packet based on the communication packet information stored in the means, the failure from the checkpoint immediately before the failure occurred Until raw checkpoint communication processing system and performing a re-execution after rollback to obtain a communication packet which the terminal device receives the transmission and the information processing apparatus.
【請求項2】 上記情報処理装置は、上記入出力要求が
上記端末機器へ送信する通信パケットの場合、この通信
パケットの情報である通信パケット情報を蓄積するパケ
ット蓄積手段を備え、 上記情報処理装置に障害が発生しロールバックして実行
を再開した場合には、再開後に上記情報処理装置から上
記端末機器へ通信パケットを送信する際、 上記情報処理装置のパケット蓄積手段は上記再開後の通
信パケットと上記情報処理装置のパケット蓄積手段に蓄
積した通信パケット情報とを比較して上記情報処理装置
の応用サービスの処理が障害前と同様に進んでいるかど
うかを判断し障害前と同様に上記再開後の通信パケット
を送信するようにしたことを特徴とする請求項1記載の
チェックポイント通信処理システム。
2. The information processing apparatus according to claim 1, further comprising a packet storage unit configured to store communication packet information that is information of the communication packet when the input / output request is a communication packet to be transmitted to the terminal device. If a failure occurs and the execution is resumed by rolling back, when the communication packet is transmitted from the information processing apparatus to the terminal device after the restart, the packet storage unit of the information processing apparatus uses the communication packet after the restart. Is compared with the communication packet information stored in the packet storage means of the information processing apparatus to determine whether the processing of the application service of the information processing apparatus is proceeding as before the failure, and after the restart as in the case before the failure. 2. The checkpoint communication processing system according to claim 1, wherein said communication packet is transmitted.
【請求項3】 上記情報処理装置は、上記入出力要求が
上記端末機器へ送信する通信パケットの場合、この通信
パケットの情報である通信パケット情報を蓄積するパケ
ット蓄積手段を備え、 上記情報処理装置に障害が発生しロールバックして実行
を再開した場合には、 再開後に上記情報処理装置から上記端末機器へ通信パケ
ットを送信する際、 上記情報処理装置のパケット蓄積手段は上記再開後の通
信パケットと上記情報処理装置のパケット蓄積手段に蓄
積した通信パケット情報とを比較して障害前の通信パケ
ットの送信順序と同様に進んでいるかどうかを判断し、 障害前と上記再開後の通信パケットの送信順序が異なる
場合は、障害前と送信順序が同様になる様に上記再開後
の通信パケットを送信するようにしたことを特徴とする
請求項1記載のチェックポイント通信処理システム。
3. The information processing apparatus further comprises: packet storage means for storing communication packet information that is information of the communication packet when the input / output request is a communication packet to be transmitted to the terminal device. If a failure occurs and the execution is resumed after rolling back, when the communication packet is transmitted from the information processing apparatus to the terminal device after the restart, the packet storage unit of the information processing apparatus uses the communication packet after the restart. By comparing the communication packet information stored in the packet storage means of the information processing apparatus with the communication packet before the failure, and determining whether the communication packet has proceeded in the same order as the transmission order of the communication packet before the failure. If the order is different, the communication packet after the restart is transmitted so that the transmission order is the same as before the failure. Check point communication processing system as claimed.
【請求項4】 上記情報処理装置に障害が発生しロール
バックして実行を再開した場合には、 再開後に上記情報処理装置から上記端末機器へ通信パケ
ットを送信する際、 上記情報処理装置のパケット蓄積手段は上記再開後の通
信パケットと上記情報処理装置のパケット蓄積手段に蓄
積した通信パケット情報とを比較して上記情報処理装置
の応用サービスの処理が障害前と同様に進んでいるかど
うかを判断し障害前と同様に上記再開後の通信パケット
を送信するようにし、 上記判断の結果、障害前と処理が異なり処理を継続でき
ない端末機器がある場合にはこの端末機器との接続を切
断することを特徴とする請求項2乃至請求項3記載のチ
ェックポイント通信処理システム。
4. When a failure occurs in the information processing apparatus and rollback is performed to resume execution, when the communication packet is transmitted from the information processing apparatus to the terminal device after the restart, a packet of the information processing apparatus is transmitted. The storage unit compares the communication packet after the restart with the communication packet information stored in the packet storage unit of the information processing device to determine whether the processing of the application service of the information processing device is proceeding as before the failure. In the same way as before the failure, the communication packet after the restart is transmitted, and as a result of the above determination, if there is a terminal device that is different from the process before the failure and cannot continue processing, disconnect the connection with this terminal device. The checkpoint communication processing system according to claim 2 or 3, wherein:
【請求項5】 各種アプリケーションソフトウェア等の
応用サービスを提供する情報処理装置と、 この情報処理装置から応用サービスの提供を受ける端末
機器と、 上記情報処理装置と上記端末機器とを接続するネットワ
ークからなり、 上記情報処理装置は、上記端末機器との通信の際にチェ
ックポイントを採取しながら処理を進めていき障害が発
生した時に、最後に採取したチェックポイントまでロー
ルバックして処理を再実行することにより障害からの回
復を実現するチェックポイント通信処理システムのチェ
ックポイント通信処理方法において、 上記情報処理装置は、 上記端末機器のネットワーク上でのアドレスを登録して
おき、 上記応用サービスからの入出力要求が上記端末機器への
通信パケットの送信の場合は、この通信パケットをチェ
ックポイント採取に関係無く上記端末機器に送信し、 上記端末機器は、 上記情報処理装置に対して送信する通信パケットの情報
である通信パケット情報を蓄積しておき、 上記情報処理装置に障害が発生し上記情報処理装置がロ
ールバックして実行を再開した場合には、 上記情報処理装置は上記登録しておいた上記端末機器の
アドレスに基づき上記端末機器に上記端末機器が登録し
ておいた通信パケット情報に基づき通信パケットを再送
することを通知し、 上記端末機器は上記情報処理装置の通知に基づき上記蓄
積したおいた通信パケット情報に基づき通信パケットを
再送することで、上記情報処理装置は障害発生直前のチ
ェックポイントから障害発生までの間に、上記端末機器
が送信し上記情報処理装置が受信した通信パケットを得
てロールバック後の再実行を行うことを特徴とするチェ
ックポイント通信処理方法。
5. An information processing apparatus for providing application services such as various application software, a terminal device for receiving application services from the information processing device, and a network connecting the information processing device and the terminal devices. The information processing apparatus proceeds with the process while collecting checkpoints during communication with the terminal device, and when a failure occurs, rolls back to the last collected checkpoint and re-executes the process. In the checkpoint communication processing method of the checkpoint communication processing system for realizing the recovery from the failure by the above, the information processing device registers an address of the terminal device on the network, and receives an input / output request from the application service. Is the transmission of a communication packet to the terminal device, Is transmitted to the terminal device regardless of checkpoint collection, and the terminal device stores communication packet information that is information of a communication packet transmitted to the information processing device, and the information processing device has a failure. When the information processing apparatus rolls back and resumes execution, the information processing apparatus has registered the terminal device in the terminal device based on the registered address of the terminal device. By notifying that the communication packet is retransmitted based on the communication packet information, the terminal device retransmits the communication packet based on the stored communication packet information based on the notification of the information processing device. Between the checkpoint immediately before the failure and the occurrence of the failure, the communication packet transmitted by the terminal device and received by the information processing device is Checkpoint communication processing method, which comprises carrying out the re-execution after rollback Te.
【請求項6】 上記情報処理装置は、上記入出力要求が
上記端末機器へ送信する通信パケットの場合、この通信
パケットの情報である通信パケット情報を蓄積してお
き、 上記情報処理装置に障害が発生しロールバックして実行
を再開した場合には、再開後に上記情報処理装置から上
記端末機器へ通信パケットを送信する際、 上記再開後の通信パケットと上記情報処理装置に蓄積し
ておいた通信パケット情報とを比較して上記情報処理装
置の応用サービスの処理が障害前と同様に進んでいるか
どうかを判断し、障害前と同様に上記再開後の通信パケ
ットを送信するようにしたことを特徴とする請求項5記
載のチェックポイント通信処理方法。
6. When the input / output request is a communication packet to be transmitted to the terminal device, the information processing device accumulates communication packet information that is information of the communication packet, and the information processing device has a fault. In the case where the occurrence has occurred and the execution has been resumed by rolling back, when the communication packet is transmitted from the information processing device to the terminal device after the restart, the communication packet after the restart and the communication stored in the information processing device are transmitted. It is determined whether the processing of the application service of the information processing apparatus is proceeding as before the failure by comparing the packet information and transmitting the communication packet after the restart as before the failure. The checkpoint communication processing method according to claim 5, wherein
【請求項7】 上記情報処理装置は、上記入出力要求が
上記端末機器へ送信する通信パケットの場合、この通信
パケットの情報である通信パケット情報を蓄積してお
き、 上記情報処理装置に障害が発生しロールバックして実行
を再開した場合には、再開後に上記情報処理装置から上
記端末機器へ通信パケットを送信する際、 上記再開後の通信パケットと上記情報処理装置に蓄積し
ておいた通信パケット情報とを比較して障害前の通信パ
ケットの送信順序と同様に進んでいるかどうかを判断
し、 障害前と上記再開後の通信パケットの送信順序が異なる
場合は、障害前と送信順序が同様になる様に上記再開後
の通信パケットを送信するようにしたことを特徴とする
請求項5記載のチェックポイント通信処理方法。
7. When the input / output request is a communication packet to be transmitted to the terminal device, the information processing device stores communication packet information, which is information of the communication packet, and the information processing device has a fault. In the case where the occurrence has occurred and the execution has been resumed by rolling back, when the communication packet is transmitted from the information processing device to the terminal device after the restart, the communication packet after the restart and the communication stored in the information processing device are transmitted. By comparing the packet information with the transmission order of the communication packets before the failure, it is determined whether or not the communication packet has proceeded in the same order. If the transmission order of the communication packet before the failure is different from that after the restart, the transmission order is the same as before the failure. 6. The checkpoint communication processing method according to claim 5, wherein the communication packet after the restart is transmitted so as to be as follows.
【請求項8】 上記情報処理装置に障害が発生しロール
バックして実行を再開した場合には、 再開後に上記情報処理装置から上記端末機器へ通信パケ
ットを送信する際、 上記再開後の通信パケットと上記情報処理装置に蓄積し
ておいた通信パケット情報とを比較して上記情報処理装
置の応用サービスの処理が障害前と同様に進んでいるか
どうかを判断し障害前と同様に上記再開後の通信パケッ
トを送信するようにし、 上記判断の結果、障害前と処理が異なり処理を継続でき
ない端末機器がある場合にはこの端末機器との接続を切
断することを特徴とする請求項6乃至請求項7記載のチ
ェックポイント通信処理方法。
8. When a failure occurs in the information processing apparatus and execution is resumed after rolling back, when the communication packet is transmitted from the information processing apparatus to the terminal device after the restart, the communication packet after the restart is transmitted. Is compared with the communication packet information stored in the information processing apparatus to determine whether or not the processing of the application service of the information processing apparatus is proceeding in the same manner as before the failure. A communication packet is transmitted, and if there is a terminal device that is different from the process before the failure and cannot continue the process as a result of the determination, the connection with the terminal device is disconnected. 7. The checkpoint communication processing method according to 7.
【請求項9】 各種アプリケーションソフトウェア等の
応用サービスを提供し、端末機器との通信の際にチェッ
クポイントを採取しながら処理を進めていき障害が発生
した時に、最後に採取したチェックポイントまでロール
バックして処理を再実行することにより障害からの回復
を実現する情報処理装置とネットワークで接続されこの
情報処理装置から応用サービスの提供を受ける端末機器
において、 上記情報処理装置に対して送信する通信パケットの情報
である通信パケット情報を蓄積するパケット蓄積手段
と、 上記情報処理装置がチェックポイントの採取を通知して
きた際には、上記パケット蓄積手段に蓄積された通信パ
ケット情報を破棄し、上記情報処理装置がロールバック
を通知してきた際には、上記パケット蓄積手段に蓄積さ
れた通信パケット情報に基づき通信パケットを上記情報
処理装置へ送信するパケット再送手段とを備え、 上記情報処理装置に障害が発生しロールバックして実行
を再開した場合には、上記パケット再送手段が上記パケ
ット蓄積手段に蓄積した通信パケット情報に基づき上記
情報処理装置に通信パケットを再送することを特徴とす
る端末機器。
9. An application service such as various application software is provided, and the process proceeds while collecting checkpoints during communication with a terminal device. When a failure occurs, rollback is performed to the last collected checkpoint. A communication packet to be transmitted to the information processing device in a terminal device connected to the information processing device that realizes recovery from the failure by re-executing the process and receiving the application service from the information processing device. Packet storing means for storing communication packet information, which is information of the information processing apparatus; and when the information processing apparatus notifies the collection of a checkpoint, discards the communication packet information stored in the packet storing means. When the device notifies the rollback, the packet is stored in the packet storage unit. Packet retransmitting means for transmitting a communication packet to the information processing device based on the received packet information, wherein when the information processing device fails and rolls back to resume execution, the packet retransmitting means A terminal device for retransmitting a communication packet to the information processing device based on communication packet information stored in a storage unit.
【請求項10】 ネットワークを介して接続された端末
機器に各種アプリケーションソフトウェア等の応用サー
ビスを提供し、上記端末機器との通信の際にチェックポ
イントを採取しながら処理を進めていき障害が発生した
時に、最後に採取したチェックポイントまでロールバッ
クして処理を再実行することにより障害からの回復を実
現する情報処理装置において、 チェックポイントを採取し、障害が検出された時点で最
後に採取したチェックポイントでの処理状態に戻し、障
害を取り除いてから処理を再実行するチェックポイント
・ロールバック手段と、 上記応用サービス等からの入出力要求をチェックポイン
トが採取され状態が確定されるまで保持し、チェックポ
イント採取後に入出力要求を出し保持した入出力要求を
破棄する入出力要求保持手段と、 上記ネットワーク上での上記端末機器のアドレスを登録
するアドレス登録手段と、 チェックポイントを採取した時に、これを上記端末機器
のアドレスに基づき上記端末機器に通知し、上記情報処
理装置に障害が発生し、ロールバックして処理の実行を
再開する場合には、この実行を再開することを上記端末
機器のアドレスに基づき上記端末機器に通知するチェッ
クポイント通知手段とを備え、 上記入出力要求保持手段は、上記入出力要求が上記情報
処理装置から上記端末機器への通信パケットの送信の場
合は、この通信パケットを保持せずチェックポイント採
取に関係無く上記端末機器に送信し、 上記情報処理装置に障害が発生しロールバックして実行
を再開した場合には、上記端末機器に障害発生直前のチ
ェックポイントから障害発生までの間に上記端末機器が
上記情報処理装置に送信した通信パケットを再送させて
ロールバック後の再実行を行うことを特徴とする情報処
理装置。
10. An application service such as various application software is provided to a terminal device connected via a network, and a process is performed while collecting checkpoints at the time of communication with the terminal device. Sometimes, in an information processing device that recovers from a failure by rolling back to the last collected checkpoint and re-executing processing, a checkpoint is collected and the check collected last when a failure is detected Checkpoint / rollback means for returning to the processing state at the point, removing the fault and re-executing the processing, and holding input / output requests from the above-mentioned application services etc. until the checkpoint is collected and the state is determined, An I / O request that issues an I / O request after checkpoint collection and discards the retained I / O request Holding means, address registration means for registering the address of the terminal device on the network, and when a checkpoint is collected, notifies the terminal device of the checkpoint based on the address of the terminal device, and notifies the information processing device A checkpoint notifying means for notifying the terminal device based on the address of the terminal device that the execution is resumed when a failure occurs and the execution of the process is resumed by rolling back; When the input / output request is a transmission of a communication packet from the information processing device to the terminal device, the request holding unit transmits the communication packet to the terminal device regardless of checkpoint collection without holding the communication packet. If the processing unit fails and rolls back to resume execution, check the terminal device immediately before the failure occurs. The information processing apparatus in which the terminal device and performing the re-execution after rollback by retransmitting the communication packet transmitted to the information processing apparatus until Luo failure.
【請求項11】 上記情報処理装置は、上記入出力要求
が上記端末機器へ送信する通信パケットの場合、この通
信パケットの情報である通信パケット情報を蓄積するパ
ケット蓄積手段を備え、 上記情報処理装置に障害が発生しロールバックして実行
を再開した場合には、再開後に上記情報処理装置から上
記端末機器へ通信パケットを送信する際、 上記情報処理装置のパケット蓄積手段は上記再開後の通
信パケットと上記情報処理装置のパケット蓄積手段に蓄
積した通信パケット情報とを比較して上記情報処理装置
の応用サービスの処理が障害前と同様に進んでいるかど
うかを判断し障害前と同様に上記再開後の通信パケット
を送信するようにしたことを特徴とする請求項10記載
の情報処理装置。
11. The information processing apparatus according to claim 1, further comprising: a packet storage unit configured to store communication packet information that is information of the communication packet when the input / output request is a communication packet to be transmitted to the terminal device. If a failure occurs and the execution is resumed by rolling back, when the communication packet is transmitted from the information processing apparatus to the terminal device after the restart, the packet storage unit of the information processing apparatus uses the communication packet after the restart. Is compared with the communication packet information stored in the packet storage means of the information processing apparatus to determine whether the processing of the application service of the information processing apparatus is proceeding as before the failure, and after the restart as in the case before the failure. The information processing apparatus according to claim 10, wherein the communication packet is transmitted.
【請求項12】 上記情報処理装置は、上記入出力要求
が上記端末機器へ送信する通信パケットの場合、この通
信パケットの情報である通信パケット情報を蓄積するパ
ケット蓄積手段を備え、 上記情報処理装置に障害が発生しロールバックして実行
を再開した場合には、再開後に上記情報処理装置から上
記端末機器へ通信パケットを送信する際、 上記情報処理装置のパケット蓄積手段は上記再開後の通
信パケットと上記情報処理装置のパケット蓄積手段に蓄
積した通信パケット情報とを比較して障害前の通信パケ
ットの送信順序と同様に進んでいるかどうかを判断し、
障害前と上記再開後の通信パケットの送信順序が異なる
場合は、障害前と送信順序が同様になる様に上記再開後
の通信パケットを送信するようにしたことを特徴とする
請求項10記載の情報処理装置。
12. The information processing apparatus according to claim 1, further comprising: packet storage means for storing, when the input / output request is a communication packet transmitted to the terminal device, communication packet information that is information of the communication packet. If a failure occurs and the execution is resumed by rolling back, when the communication packet is transmitted from the information processing apparatus to the terminal device after the restart, the packet storage unit of the information processing apparatus uses the communication packet after the restart. And comparing the communication packet information stored in the packet storage means of the information processing apparatus to determine whether the communication packet has proceeded in the same order as the transmission order of the communication packet before the failure,
The communication packet after the restart is transmitted so that the transmission order of the communication packet before the failure and after the restart is different from that before the failure. Information processing device.
【請求項13】 上記情報処理装置に障害が発生しロー
ルバックして実行を再開した場合には、 再開後に上記情報処理装置から上記端末機器へ通信パケ
ットを送信する際、 上記情報処理装置のパケット蓄積手段は上記再開後の通
信パケットと上記情報処理装置のパケット蓄積手段に蓄
積した通信パケット情報とを比較して上記情報処理装置
の応用サービスの処理が障害前と同様に進んでいるかど
うかを判断し障害前と同様に上記再開後の通信パケット
を送信するようにし、 上記判断の結果、障害前と処理が異なり処理を継続でき
ない端末機器がある場合にはこの端末機器との接続を切
断することを特徴とする請求項11乃至請求項12記載
の情報処理装置。
13. When a failure occurs in the information processing apparatus and rollback is performed to resume execution, when the communication packet is transmitted from the information processing apparatus to the terminal device after the restart, a packet of the information processing apparatus is transmitted. The storage unit compares the communication packet after the restart with the communication packet information stored in the packet storage unit of the information processing device to determine whether the processing of the application service of the information processing device is proceeding as before the failure. In the same way as before the failure, the communication packet after the restart is transmitted, and as a result of the above determination, if there is a terminal device that is different from the process before the failure and cannot continue processing, disconnect the connection with this terminal device. 13. The information processing apparatus according to claim 11, wherein:
【請求項14】 各種アプリケーションソフトウェア等
の応用サービスを提供し、端末機器との通信の際にチェ
ックポイントを採取しながら処理を進めていき障害が発
生した時に、最後に採取したチェックポイントまでロー
ルバックして処理を再実行することにより障害からの回
復を実現する情報処理装置とネットワークで接続されこ
の情報処理装置から応用サービスの提供を受ける端末機
器のチェックポイント通信処理方法において、 上記情報処理装置に対して送信する通信パケットの情報
である通信パケット情報を蓄積しておき、 上記情報処理装置がチェックポイントの採取を通知して
きた際には、上記蓄積しておいた通信パケット情報を破
棄し、上記情報処理装置がロールバックを通知してきた
際には、上記蓄積しておいた通信パケット情報に基づき
通信パケットを上記情報処理装置に再送することを特徴
とするチェックポイント通信処理方法。
14. An application service such as various application software is provided, and processing is performed while collecting checkpoints during communication with a terminal device. When a failure occurs, rollback is performed to the last collected checkpoint. A checkpoint communication processing method for a terminal device connected to a network and an information processing device that realizes recovery from a failure by re-executing a process and receiving the application service from the information processing device. The communication packet information, which is the information of the communication packet to be transmitted to the storage device, is stored, and when the information processing device notifies the checkpoint collection, the stored communication packet information is discarded. When the information processing device notifies the rollback, the communication packet stored above is stored. Checkpoint communication processing method of a communication packet based on the information, characterized in that retransmission to said information processing apparatus.
【請求項15】 ネットワークを介して接続された端末
機器に各種アプリケーションソフトウェア等の応用サー
ビスを提供し、上記端末機器との通信の際にチェックポ
イントを採取しながら処理を進めていき障害が発生した
時に、最後に採取したチェックポイントまでロールバッ
クして処理を再実行することにより障害からの回復を実
現する情報処理装置のチェックポイント通信処理方法に
おいて、 上記端末機器のネットワーク上でのアドレスを登録して
おき、 上記応用サービスからの入出力要求が上記端末機器への
通信パケットの送信の場合は、この通信パケットをチェ
ックポイント採取に関係無く上記端末機器に送信し、 上記入出力要求が上記情報処理装置から上記端末機器へ
の通信パケットの送信の場合は、この通信パケットをチ
ェックポイント採取に関係無く上記端末機器に送信し、 上記情報処理装置に障害が発生しロールバックして実行
を再開した場合には、上記端末機器に障害発生直前のチ
ェックポイントから障害発生までの間に上記端末機器が
上記情報処理装置に送信した通信パケットを再送させて
ロールバック後の再実行を行うことを特徴とするチェッ
クポイント通信処理方法。
15. An application service such as various application software is provided to a terminal device connected via a network, and a process is performed while collecting checkpoints at the time of communication with the terminal device, and a failure occurs. Sometimes, in a checkpoint communication processing method of an information processing apparatus that realizes recovery from a failure by rolling back to the last collected checkpoint and re-executing processing, the address of the terminal device on the network is registered. If the input / output request from the application service is a transmission of a communication packet to the terminal device, the communication packet is transmitted to the terminal device regardless of checkpoint collection, and the input / output request is When transmitting a communication packet from the device to the terminal device, check this communication packet. Regardless of the point collection, the information is sent to the terminal device, and if the information processing device fails and rolls back to resume execution, the checkpoint immediately before the terminal device failure occurs until the failure occurs A retransmission of the communication packet transmitted from the terminal device to the information processing device, and re-execution after rollback.
【請求項16】 情報処理装置に装填されることにより
所定の機能を実現するものであって、請求項14記載の
チェックポイント通信処理方法のプログラム情報を格納
した記憶媒体。
16. A storage medium storing program information for a checkpoint communication processing method according to claim 14, wherein said program information realizes a predetermined function by being loaded into an information processing apparatus.
【請求項17】 情報処理装置に装填されることにより
所定の機能を実現するものであって、請求項15記載の
チェックポイント通信処理方法のプログラム情報を格納
した記憶媒体。
17. A storage medium storing program information for the checkpoint communication processing method according to claim 15, which realizes a predetermined function by being loaded into an information processing apparatus.
JP9126774A 1997-05-16 1997-05-16 Check point communication processing system, method therefor and storage medium for storing the same method Pending JPH10320326A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9126774A JPH10320326A (en) 1997-05-16 1997-05-16 Check point communication processing system, method therefor and storage medium for storing the same method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9126774A JPH10320326A (en) 1997-05-16 1997-05-16 Check point communication processing system, method therefor and storage medium for storing the same method

Publications (1)

Publication Number Publication Date
JPH10320326A true JPH10320326A (en) 1998-12-04

Family

ID=14943608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9126774A Pending JPH10320326A (en) 1997-05-16 1997-05-16 Check point communication processing system, method therefor and storage medium for storing the same method

Country Status (1)

Country Link
JP (1) JPH10320326A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010134177A1 (en) * 2009-05-21 2010-11-25 三菱電機株式会社 Operating system execution device, packet identification program, recording medium, and packet identification method
JP2011170683A (en) * 2010-02-19 2011-09-01 Yahoo Japan Corp Web system, method, and program
US9251002B2 (en) 2013-01-15 2016-02-02 Stratus Technologies Bermuda Ltd. System and method for writing checkpointing data
US9588844B2 (en) 2013-12-30 2017-03-07 Stratus Technologies Bermuda Ltd. Checkpointing systems and methods using data forwarding
US9652338B2 (en) 2013-12-30 2017-05-16 Stratus Technologies Bermuda Ltd. Dynamic checkpointing systems and methods
US9760442B2 (en) 2013-12-30 2017-09-12 Stratus Technologies Bermuda Ltd. Method of delaying checkpoints by inspecting network packets

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010134177A1 (en) * 2009-05-21 2010-11-25 三菱電機株式会社 Operating system execution device, packet identification program, recording medium, and packet identification method
JP5197847B2 (en) * 2009-05-21 2013-05-15 三菱電機株式会社 Operating system execution device, packet identification program, recording medium, and packet identification method
JP2011170683A (en) * 2010-02-19 2011-09-01 Yahoo Japan Corp Web system, method, and program
US9251002B2 (en) 2013-01-15 2016-02-02 Stratus Technologies Bermuda Ltd. System and method for writing checkpointing data
US9588844B2 (en) 2013-12-30 2017-03-07 Stratus Technologies Bermuda Ltd. Checkpointing systems and methods using data forwarding
US9652338B2 (en) 2013-12-30 2017-05-16 Stratus Technologies Bermuda Ltd. Dynamic checkpointing systems and methods
US9760442B2 (en) 2013-12-30 2017-09-12 Stratus Technologies Bermuda Ltd. Method of delaying checkpoints by inspecting network packets

Similar Documents

Publication Publication Date Title
EP1116115B1 (en) Protocol for replicated servers
Amir et al. Membership algorithms for multicast communication groups
US7676616B2 (en) Method, apparatus and program storage device for providing asynchronous status messaging in a data storage system
JP3932994B2 (en) Server handover system and method
EP0818001B1 (en) Fault-tolerant processing method
JP5714571B2 (en) Cache data processing using cache clusters in configurable mode
CN100399282C (en) State recovery and failover of intelligent network adapters
US5396613A (en) Method and system for error recovery for cascaded servers
JPH11502658A (en) Failure tolerance processing method
JPH0962526A (en) Fault resistant rpc system and method therefor
WO1991014230A1 (en) Message communication processing system
US9319267B1 (en) Replication in assured messaging system
JP2003288283A (en) Static end-to-end retransmission device and method
JPH09259096A (en) System for enhancing reliability of network
JP2003288284A (en) Method for dynamically retransmitting transaction in multi processor computer architecture
JP2003337717A (en) Fault recovery synchronizing system of online transaction process
JPH10320326A (en) Check point communication processing system, method therefor and storage medium for storing the same method
JPH10336272A (en) Data communication system and data communication method
US8089987B2 (en) Synchronizing in-memory caches while being updated by a high rate data stream
JP3467750B2 (en) Distributed object processing system
JPH0591108A (en) Message communication control method and communication system
JP3493035B2 (en) Dynamic path switching method
JP3088683B2 (en) Data communication system
JP3833746B2 (en) Checkpoint communication processing system and checkpoint communication processing method
Chen et al. Message logging and recovery in wireless CORBA using access bridge