JP5672521B2 - Computer system and checkpoint restart method thereof - Google Patents
Computer system and checkpoint restart method thereof Download PDFInfo
- Publication number
- JP5672521B2 JP5672521B2 JP2010049182A JP2010049182A JP5672521B2 JP 5672521 B2 JP5672521 B2 JP 5672521B2 JP 2010049182 A JP2010049182 A JP 2010049182A JP 2010049182 A JP2010049182 A JP 2010049182A JP 5672521 B2 JP5672521 B2 JP 5672521B2
- Authority
- JP
- Japan
- Prior art keywords
- management information
- job
- node number
- restart
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Retry When Errors Occur (AREA)
- Hardware Redundancy (AREA)
Description
本発明は、コンピュータシステム、およびそのチェックポイントリスタート方法に関する。 The present invention relates to a computer system and a checkpoint restart method thereof.
コンピュータシステムにおいて、障害回復やプロセスのマイグレーションのため、ある時点でのプロセス群の状態を保存し、後に、保存した状態からプロセスを再開する方法として、チェックポイント/リスタート機能が知られている。 In a computer system, a checkpoint / restart function is known as a method for saving the state of a process group at a certain point in time for failure recovery and process migration, and then restarting the process from the saved state.
チェックポイント機能は、カーネルレベルで実現するものとして、プロセスで使用するデータ、プログラムテキスト等のユーザレベルの情報と、プロセス管理、ジョブ管理データ等のカーネルレベルの情報とをリスタートファイルとしてまとめて保存する。また、リスタート機能は、リスタートファイルとして保存した時点におけるプロセスの状態をシステムに復元する。このようなチェックポイント/リスタート機能の動作例は、下記特許文献1に記載されている。
The checkpoint function is realized at the kernel level. User level information such as process data and program text, and kernel level information such as process management and job management data are saved together as a restart file. To do. The restart function restores the process state at the time of saving as a restart file to the system. An example of the operation of such a checkpoint / restart function is described in
しかしながら、特許文献1に記載のチェックポイント/リスタート機能は、SMP(Symmetrical Multi−Processing)システムでの利用を前提としており、NUMA(Non−Uniform Memory Access)システムでのノード構成の復元までは考慮されていない。
However, the checkpoint / restart function described in
NUMAシステムとは、1つ以上のCPUとメモリが対になったノードを1つ以上有するアーキテクチャであり、自ノード内のCPUとメモリの通信速度は速く、他のノード上のCPUとメモリへの通信速度は著しく遅いという特徴を有する。そのため、NUMAシステムは、ジョブを実行する際、関連するプロセスはできるだけ1つのノード内で処理を行うようにノードを割り当てるノード構成制御を行うことが、高実行効率を実現する上で重要である。 The NUMA system is an architecture having one or more nodes in which one or more CPUs and memory are paired, and the communication speed between the CPU and the memory in the own node is high, and the CPU and memory on other nodes are connected to the memory. The communication speed is remarkably slow. Therefore, in the NUMA system, when executing a job, it is important to implement node configuration control that assigns nodes so that related processes are processed within one node as much as possible.
よって、特許文献1に記載のチェックポイント/リスタート機能を、NUMAシステムにおける障害対応等のために使用した場合、上記ノード構成制御などにより、ジョブ生成時とは異なるノード構成でリスタートする可能性があり、プロセスが実行されるノードの識別番号と、プロセスが保持しているノードの識別番号とが異なってしまう。この場合、プロセスは、自ノード以外の他ノードにアクセスすることになるため、システム上の通信速度が低下し、システム性能は著しく低下してしまう。また、複数のNUMAシステム間で処理を実行するマルチノードシステムでは、処理自体がエラーになる可能性もある。これらの問題を回避するためには、ジョブ生成時と同じノード構成で復元する必要があるが、その場合は、障害時のノード管理やスケジュール管理の柔軟性に欠けてしまうという問題が生じる。
Therefore, when the checkpoint / restart function described in
よって、NUMAシステムに適したチェックポイント/リスタート方法の開発が望まれる。 Therefore, it is desired to develop a checkpoint / restart method suitable for the NUMA system.
NUMAシステムを前提としたチェックポイント/リスタート機能としては、SGI/IRIXのチェックポイント/リスタート機能が知られている。しかし、該チェックポイント/リスタート機能は、リスタートファイル保存時のノードや、任意のノードにプロセスを復元することは可能であっても、2つ以上のノードを指定してプロセスを割り当てて復元することはできないという問題点があった。 An SGI / IRIX checkpoint / restart function is known as a checkpoint / restart function based on the NUMA system. However, even if the checkpoint / restart function can restore the process to the node at the time of saving the restart file or any node, the process can be assigned by specifying two or more nodes. There was a problem that it was not possible.
また、特許文献2にも、NUMAシステムを前提としたチェックポイント/リスタート機能に関する技術が開示されている。特許文献2に記載の技術は、システムコールの前後において、ノード座標変換テーブルを用いて、ジョブの初回起動時(生成時)に割り当てられたノード座標と、リスタート時に再度割り当てるノード座標の変換を行うものである。しかし、該チェックポイント/リスタート機能は、ノード座標変換テーブルがシステム内に1つしかないため、あるジョブがノード座標変換テーブルの操作のために排他制御でロックした場合、他のジョブは実行を待たされてしまい、ジョブの実行効率が落ちるという問題があった。また、システムコール、チェックポイント、リスタートのたびに、ノード座標変換テーブルにエントリがあるか否かを確認する必要があり、CPUの投機実行が無駄になる可能性もある。
したがって、本発明は上記問題点を解決し、NUMAシステムにおけるチェックポイント/リスタート機能として、リスタート時に、プロセスの復元を任意の2つ以上のノードを指定して行うことができ、また、他のジョブからの影響を受けずに実行できる新しいコンピュータシステム、およびチェックポイントリスタート方法を提供することを目的とする。 Therefore, the present invention solves the above problems, and as a checkpoint / restart function in the NUMA system, at the time of restart, process restoration can be performed by designating any two or more nodes. It is an object of the present invention to provide a new computer system that can be executed without being affected by a job, and a checkpoint restart method.
本発明によるコンピュータシステムは、少なくとも1以上のプロセッサ、および該少なくとも1以上のプロセッサが共有するメモリをそれぞれ有する複数のノードを含んで構成されるコンピュータシステムであって、ジョブのプロセスごとに割り当て可能な論理ノード番号と、前記ジョブのプロセスを実行する前記ノードに固有の物理ノード番号との対応関係を示すノード番号変換テーブルの情報を含むジョブ管理情報を記憶するジョブ管理情報記憶手段と、前記ジョブのプロセスごとに割り当てられた前記論理ノード番号の情報を含むプロセス管理情報を記憶するプロセス管理情報記憶手段と、チェックポイント要求を受け付けると、実行中のジョブに関する前記ジョブ管理情報、および該ジョブの各プロセスに関する前記プロセス管理情報をそれぞれ前記ジョブ管理情報記憶手段および前記プロセス管理情報記憶手段から取得して、該取得した前記ジョブ管理情報および前記ジョブ管理情報から前記ジョブをリスタートするためのリスタートファイルを作成するリスタートファイル作成手段と、リスタート要求を受け付けると、前記リスタートファイルから前記ジョブ管理情報、および前記プロセス管理情報を復元する復元手段と、前記リスタート要求時において、前記物理ノード番号の更新要求を受け付けると、前記復元した前記ジョブ管理情報に含まれる前記ノード番号変換テーブルを更新する更新手段と、前記復元したプロセス管理情報に含まれる前記ジョブのプロセスごとに割り当てられた前記論理ノード番号に対応する前記物理ノード番号を、前記物理ノード番号の更新要求を受け付けた場合、前記更新手段により更新された前記ノード番号変換テーブルを参照して決定し、前記物理ノード番号の更新要求を受け付けていない場合、前記復元手段により復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを参照して決定する決定手段と、前記決定された前記物理ノード番号を有する前記ノード上で前記ジョブのプロセスを復元するプロセス復元手段と、を備える。 A computer system according to the present invention is a computer system including a plurality of nodes each having at least one or more processors and a memory shared by the at least one or more processors, and can be assigned to each job process. Job management information storage means for storing job management information including information of a node number conversion table indicating a correspondence relationship between a logical node number and a physical node number unique to the node executing the job process; Process management information storage means for storing process management information including information on the logical node number assigned for each process; when receiving a checkpoint request, the job management information relating to a job being executed; and each process of the job Process management information regarding Are respectively obtained from the job management information storage means and the process management information storage means, and a restart file for creating a restart file for restarting the job from the acquired job management information and the job management information Upon receipt of the restart request, the creation means, the restore means for restoring the job management information and the process management information from the restart file, and the physical node number update request at the time of the restart request Updating means for updating the node number conversion table included in the restored job management information; and the physical corresponding to the logical node number assigned to each process of the job included in the restored process management information. The node number is the physical node number When a new request is received, it is determined by referring to the node number conversion table updated by the updating unit. When a physical node number update request is not received, it is included in the job management information restored by the restoring unit. Determining means for referring to the node number conversion table, and process restoring means for restoring the process of the job on the node having the determined physical node number.
本発明によるチェックポイント/リスタート方法は、 少なくとも1以上のプロセッサ、および該少なくとも1以上のプロセッサが共有するメモリをそれぞれ有する複数のノードを含んで構成されるコンピュータシステムにおけるチェックポイントリスタート方法であって、ジョブのプロセスごとに割り当て可能な論理ノード番号と、前記ジョブのプロセスを実行する前記ノードに固有の物理ノード番号との対応関係を示すノード番号変換テーブルの情報を含むジョブ管理情報をジョブ管理情報記憶手段に記憶する段階と、前記ジョブのプロセスごとに割り当てられた前記論理ノード番号の情報を含むプロセス管理情報をプロセス管理情報記憶手段に記憶する段階と、チェックポイント要求を受け付けると、実行中のジョブに関する前記ジョブ管理情報、および該ジョブの各プロセスに関する前記プロセス管理情報をそれぞれ前記ジョブ管理情報記憶手段および前記プロセス管理情報記憶手段から取得して、該取得した前記ジョブ管理情報および前記ジョブ管理情報から前記ジョブをリスタートするためのリスタートファイルを作成する段階と、リスタート要求を受け付けると、前記リスタートファイルから前記ジョブ管理情報、および前記プロセス管理情報を復元手段により復元する段階と、前記リスタート要求時において、前記物理ノード番号の更新要求を受け付けると、前記復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを更新手段により更新する段階と、前記復元したプロセス管理情報に含まれる前記ジョブのプロセスごとに割り当てられた前記論理ノード番号に対応する前記物理ノード番号を、前記物理ノード番号の更新要求を受け付けた場合、前記更新手段により更新された前記ノード番号変換テーブルを参照して決定し、前記物理ノード番号の更新要求を受け付けていない場合、前記復元手段により復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを参照して決定する段階と、前記決定された物理ノード番号を有する前記ノード上で前記ジョブのプロセスを復元する段階と、を備える。
A checkpoint / restart method according to the present invention is a checkpoint restart method in a computer system including at least one processor and a plurality of nodes each having a memory shared by the at least one processor. Te, job management job management information including a logical node number that can be assigned to each job in the process, the information of the node number conversion table showing the correspondence between the unique physical node number to the node performing the process of the job Storing in the information storage means, storing process management information including information on the logical node number assigned to each process of the job in the process management information storage means, and executing a checkpoint request, Said job related to other jobs The management information and the process management information related to each process of the job are acquired from the job management information storage means and the process management information storage means, respectively, and the job is obtained from the acquired job management information and the job management information. A step of creating a restart file for restarting; a step of restoring the job management information and the process management information from the restart file by a restoring means upon receipt of the restart request; and the time of the restart request When the physical node number update request is received, the node number conversion table included in the restored job management information is updated by an update unit, and each process of the job included in the restored process management information The logical node assigned to When the physical node number update request is received, the physical node number corresponding to the signal is determined by referring to the node number conversion table updated by the update unit, and the physical node number update request is received. If not, the step of making a decision with reference to the node number conversion table included in the job management information restored by the restoration means, and restoring the job process on the node having the determined physical node number A stage.
以上のように構成された本発明によれば、リスタート処理時に、必要に応じて、ノード番号変更テーブルを更新することで、ジョブのプロセスの復元を任意のノードに対して行うことができる。 According to the present invention configured as described above, it is possible to restore a job process to an arbitrary node by updating the node number change table as necessary during the restart process.
以下、本発明を実施するための好適な実施形態を、図面を参照しながら説明する。なお、以下の実施形態では、コンピュータシステムとして、1つ以上のノードがインターコネクトにより相互に接続され、二次記憶装置を共有するNUMAシステムを用いる場合を例にとって説明する。 DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, preferred embodiments for carrying out the invention will be described with reference to the drawings. In the following embodiments, a case where a NUMA system in which one or more nodes are interconnected by an interconnect and share a secondary storage device will be described as an example of a computer system.
図1は、本発明の実施形態のNUMAシステム(以下、「システム」と称する)1の概略構成を例示する図であり、図2は、本実施形態のチェックポイント/リスタート機能を有するノードの概略構成を例示する図である。 FIG. 1 is a diagram illustrating a schematic configuration of a NUMA system (hereinafter referred to as “system”) 1 according to an embodiment of the present invention, and FIG. 2 illustrates a node having a checkpoint / restart function according to the present embodiment. It is a figure which illustrates schematic structure.
システム1は、図1に示すとおり、複数のノード100,110,・・150がインターコネクトにより相互に接続され、二次記憶装置200を共有する。
As shown in FIG. 1, in the
ノード100は、1つ以上のCPUと、メインメモリ(たとえば、ROMやRAMなどのメモリ)とから構成される。ノード110,・・・,150も、ノード100と同様に構成される。二次記憶装置200は、各ノード100,・・・150に共有のデータベースであって、後述するリスタートファイルを記憶する。二次記憶装置200は、たとえば、HDDなどの記憶装置を用いることができる。なお、ノード100自体のハードウェア構成は、原則として、従来のNUMAシステムで用いられるノードと同様とすることができるので、ここでの詳細な説明は省略する。また、ノードの数は、6つに限られず、適宜変更することができる。
The
ノード100は、カーネル部101やジョブ部102などの実行イメージを格納し、本実施形態のチェックポイント/リスタート機能を有する。
The
ジョブ部102は、1つ以上のプロセス群で構成され、1つ以上のノードに分散して実行される多数のプロセスをまとめて管理する。
The
カーネル部101は、図2に示すように、ジョブ管理情報記憶手段10、プロセス管理情報記憶手段11、リスタートファイル作成手段12、リスタートファイル復元手段13、更新手段14、物理ノード番号決定手段15、プロセス復元手段16、およびリスタートファイル入出力手段17を含む。なお、本実施形態では、カーネル部101の実行イメージがノード100に格納されている場合を例として説明するが、カーネル部がどのノードに格納されるかはOSの実装に依存するものとする。また、これら各手段は、たとえば、主にCPUがメインメモリに格納されるプログラムを実行し、各ハードウェアを制御することにより、実現することができる。
As illustrated in FIG. 2, the
ジョブ管理情報記憶手段10は、プロセス群が属するジョブの実行に必要な情報を保持し、論理ノード番号と物理ノード番号との対応関係を表すノード番号変換テーブルを含むジョブ管理情報を記憶する。ノード番号変換テーブルは、ジョブが生成されると作成され、ジョブ管理情報記憶手段10に記憶される。なお、ノード番号変換テーブルは、複数のジョブごとに作成され、ジョブ管理情報記憶手段10に記憶することができる。
The job management
ここで、本実施形態において、論理ノード番号とは、システム1内で利用可能であるノードの識別番号であって、ジョブのプロセスごとに割り当てられる。論理ノード番号は、0から始まり、使用するノード数分、たとえば、ノード数が6であれば、0〜5の番号を用意する。一方、物理ノード番号とは、各ノード100,・・・150のシステム1内で一意かつ固定に割り当てられるノード識別番号である。物理ノード番号は、たとえば、障害等により利用できないノードの場合、欠番となる。
In this embodiment, the logical node number is an identification number of a node that can be used in the
プロセス管理情報記憶手段11は、プロセスの実行に必要な情報を保持し、論理ノード番号および物理ノード番号を含むプロセス管理情報を記憶する。プロセス管理情報は、ジョブに属するプロセスの生成時に、ジョブ管理情報記憶手段10のノード番号変換テーブルを参照して、使用するノードの論理ノード番号と物理ノード番号の情報を得て、プロセス管理情報記憶手段11に記憶される。
The process management
リスタートファイル作成手段12は、チェックポイント要求を受け付けると、実行中のジョブに関するジョブ管理情報、および該ジョブの各プロセスに関するプロセス管理情報をそれぞれジョブ管理情報記憶手段10およびプロセス管理情報記憶手段11から取得して、該取得したジョブ管理情報およびプロセス管理情報から、ジョブをリスタートするためのリスタートファイルを作成する。すなわち、リスタートファイル作成手段12は、チェックポイント機能(実行中のジョブの状態のスナップショットを取る機能)を有し、作成したリスタートファイルを、リスタートファイル入出力手段17を介して二次記憶装置200に格納する。また、リスタートファイル作成手段12は、チェックポイント要求を所定のタイミング(たとえば、定期的に)で受け付けるごとに、前記リスタートファイルを作成することもできる。なお、チェックポイント要求の発行は、ユーザによって発行の回数・タイミングを適宜決めることができる。
Upon receiving the checkpoint request, the restart file creation unit 12 receives job management information related to the job being executed and process management information related to each process of the job from the job management
ここで、リスタートファイル復元手段13、更新手段14、物理ノード番号決定手段15、およびプロセス復元手段16は、本実施形態において、リスタート機能として機能する。リスタート機能は、リスタートファイルから各管理情報、実行イメージを復元し、チェックポイント機能の実行時のジョブの状態から実行を再開する機能である。
Here, the restart
リスタートファイル復元手段(復元手段)13は、リスタート要求を受け付けると、リスタートファイル入出力手段17を通じて二次記憶装置200からリスタートファイルを取得し、該取得したリスタートファイルからジョブ管理情報およびプロセス管理情報を復元する。
Upon receiving the restart request, the restart file restoring means (restoring means) 13 acquires the restart file from the
更新手段14は、リスタート要求時において、ジョブのプロセスを実行するノードの更新要求を受け付けると、復元したジョブ管理情報に含まれるノード番号変換テーブルを更新する。一例として、復元されたノード番号変換テーブルの更新前のテーブルおよび該テーブルで示す場合の各プロセス群の各ノードへの配置の関係を図3(a)に示し、更新後のテーブルおよび該テーブルで示す場合の各プロセス群の各ノードへの配置の関係を図3(b)に示す。
Upon receiving a request for updating a node that executes a job process at the time of a restart request, the updating
物理ノード番号決定手段(決定手段)15は、復元したプロセス管理情報に含まれるジョブのプロセスごとに割り当てられた論理ノード番号に対応する物理ノード番号を、ノード番号変換テーブルを参照して決定する。物理ノード番号決定手段15は、上記更新手段14によってノード番号変換テーブルが更新された場合、更新されたノード番号変換テーブルを参照して決定し、一方、更新手段14によってノード番号変換テーブルが更新されていない場合、リスタートファイル復元手段13によって復元したジョブ管理情報に含まれるノード番号変換テーブルを参照して決定する。
The physical node number determination unit (determination unit) 15 determines a physical node number corresponding to the logical node number assigned to each process of the job included in the restored process management information with reference to the node number conversion table. When the node number conversion table is updated by the
プロセス復元手段16は、物理ノード番号決定手段15によって決定された物理ノード番号を有するノード上でジョブのプロセスを復元する。
The
リスタートファイル入出力手段17は、上述のように、ノード100の各手段と二次記憶装置200とでリスタートファイルの入出力を実行する。
As described above, the restart file input /
以下、図4,5に示すフローチャートを参照して、システム1を用いて実施される本実施形態のチェックポイント/リスタート方法を説明する。なお、システム1は、ノード1〜6(各物理ノード番号は「1」〜「6」とする)を含んで構成され、ノード1がチェックポイント/リスタート方法を実行する上述した各手段を有しているものとする。また、チェックポイント/リスタート方法を実行する前処理として、ジョブ管理情報記憶手段10には、ジョブ生成時のノード番号変換テーブルが記憶されており、また、プロセス管理情報記憶手段11には、実行中のジョブの各プロセスの論理ノード番号および物理ノード番号が記憶されているものとする。
Hereinafter, the checkpoint / restart method of this embodiment implemented using the
図4を用いて、本実施形態のチェックポイント方法について説明する。なお、図4に示す各処理は、処理内容に矛盾を生じない範囲で任意に順番を変更して又は並列に実行することができる。 The checkpoint method according to this embodiment will be described with reference to FIG. Note that the processes shown in FIG. 4 can be executed in any order or in parallel as long as the process contents do not contradict each other.
まず、ノード1は、チェックポイント要求を受け付ける(ステップS100)。チェックポイント要求は、たとえば、一定時間経過後、定期的に発行される。
First, the
チェックポイント要求を受け付けると、ノード1は、ジョブを構成するプロセス群の実行状態を停止にし(ステップS101)、全プロセスの停止を確認後、ジョブ管理情報記憶手段10から、ノード番号変換テーブルを含むジョブ管理情報を取得する(ステップS102)。ノード番号変換テーブルは、たとえば、各プロセスの実行が、図3(a)の右図に示すように、ノード2,3,5(物理ノード番号「2」,「3」,「5」)で実行されていた場合、図3(a)の左図に示すテーブルとなる。
When receiving the checkpoint request, the
次いで、ノード1は、全プロセスについて、論理ノード番号を含むプロセス管理情報、およびプロセス実行イメージを取得する(ステップS103,S104)。
Next, the
次いで、ノード1は、上記取得した各情報と、リスタートに必要な情報をまとめ、リスタートファイルを作成する(ステップS105)。
Next, the
次いで、ノード1は、作成したリスタートファイルを、リスタートファイル入出力手段17を通じて二次記憶装置200に出力する(ステップS106)。
Next, the
なお、上記ステップS100〜S106の各処理は、チェックポイント採取手段として、リスタートファイル作成手段12によって処理され得る。 Note that the processes in steps S100 to S106 can be processed by the restart file creating unit 12 as a checkpoint collecting unit.
次に、図5を用いて、本実施形態のリスタート方法について説明する。なお、図5に示す各処理は、処理内容に矛盾を生じない範囲で任意に順番を変更して又は並列に実行することができる。 Next, the restart method of this embodiment will be described with reference to FIG. Note that the processes shown in FIG. 5 can be executed in any order or in parallel as long as the process contents do not contradict each other.
まず、ノード1は、リスタート要求を受け付ける(ステップS200)。
First, the
リスタート要求を受け付けると、ノード1は、リスタートファイル入出力手段17を通じて、二次記憶装置200からリスタートファイルを取得して読み込む(ステップS201)。
When receiving the restart request, the
次いで、ノード1は、リスタートファイルに含まれるジョブ管理情報を復元し、ノード番号変換テーブルなどジョブ実行の再開に必要な各情報を復元する(ステップS202)。
Next, the
リスタート要求時に、物理ノード番号の更新要求を受け付けた場合(ステップS203:Yes)、ノード1は、復元したノード番号変換テーブルを更新する(ステップS204)。たとえば、復元されたノード番号変換テーブルの更新前のテーブルを図3(a)に示し、更新後のテーブルおよび該テーブルの時の各プロセス群の各ノードへの配置の関係を図3(b)に示す。図3(a),(b)に示すように、論理ノード「0」に対応する物理ノードを「2」→「1」、論理ノード1に対応する物理ノードを「3」→「4」に更新している。なお、物理ノード番号の更新要求を受け付けていない場合(ステップS203:No)、ノード1は、ノード番号変換テーブルの更新をせずに、ステップS205の処理に移る。
When a physical node number update request is received at the time of the restart request (step S203: Yes), the
次いで、ノード1は、リスタートファイルに含まれる全プロセスについて、プロセス管理情報を復元し(ステップS205)、チェックポイント要求時に利用していた論理ノード番号から対応する物理ノード番号をノード番号変換テーブルから決定し(ステップS206)、物理ノード番号を持つノード上にプロセスを復元する(ステップS207)。たとえば、復元した論理ノード番号が「0」のとき、物理ノード番号の更新要求を受け付けていない場合では、図3(a)のノード番号変換テーブルを用いるため、プロセスを復元するノードの物理ノード番号は「2」となる。一方、物理ノード番号の更新要求を受け付けた場合では、図3(b)のノード番号変換テーブルを用いるため、プロセスを復元するノードの物理ノード番号は「1」となる。
Next, the
なお、上記ステップS200〜S202,ステップS205の各処理は、リスタートファイル復元手段によって処理され、ステップS203,S204の各処理は、更新手段14によって処理され、ステップS206の処理は、物理ノード番号決定手段15によって処理され、ステップS207の処理は、プロセス復元手段16によって処理され得る。
The processes in steps S200 to S202 and step S205 are processed by the restart file restoring unit, the processes in steps S203 and S204 are processed by the updating
以上のように、本実施形態のシステム1およびそのチェックポイント/リスタート方法によれば、プロセスの復元を任意の2つ以上のノードに対して行うことができる。その理由は、リスタート時にノード番号変換テーブルを必要に応じて更新することで、論理ノード番号に対応する物理ノード番号を変更することができるためである。
As described above, according to the
また、物理的なノード構成を意識することなくジョブを実行することができる。その理由は、ユーザは論理ノード番号を使って処理を行うため、リスタート時の物理ノードの構成変化に影響されないためである。 Also, the job can be executed without being aware of the physical node configuration. This is because the user performs processing using the logical node number and is not affected by the change in the configuration of the physical node at the time of restart.
さらに、リスタート時に、論理ノード番号と物理ノード番号の対応表であるノード番号変換テーブルをジョブごとに用いることで、任意の物理ノード群にプロセスを復元し、他のジョブからの影響を受けずに実行することができる。
<変形例>
In addition, at the time of restart, the node number conversion table, which is a correspondence table of logical node numbers and physical node numbers, is used for each job, so that the process can be restored to any physical node group and not affected by other jobs. Can be executed.
<Modification>
以上のように本発明の好適な実施形態について説明したが、本発明は、以上の実施形態に限定されるべきものではなく、特許請求の範囲に表現された思想および範囲を逸脱することなく、種々の変形、追加、および省略が当業者によって可能である。 The preferred embodiments of the present invention have been described above. However, the present invention should not be limited to the above embodiments, and does not depart from the spirit and scope expressed in the claims. Various modifications, additions, and omissions are possible by those skilled in the art.
たとえば、上記本実施形態のシステム1は、定期的にチェックポイントを採取して障害に備えているものとし、障害によってジョブの各プロセスの実行処理の続行が不能になった場合に、障害直前に採取したリスタートファイルを復元してジョブの復旧を実施するようにしてもよい。たとえば、図6(a)の右図に示すように、6つのノードを備えるNUMAシステムにおいて、各ノードに1つずつプロセスが実行されているとすると、この時のノード番号変換テーブルは、図6(a)の左図のようになる。ノード2が障害によってプロセスの実行処理の続行が不能になった場合、障害直前に採取したリスタートファイルを復元しジョブの復旧を行う。すなわち、ノード2は使用できないため、リスタート時に更新手段14によって物理ノード番号を更新する。障害前に論理ノード番号「0」に割り当てられていた物理ノード番号「2」を、物理ノード番号「5」に更新した場合のノード番号変換テーブルを図6(b)の左図に示す。ノード2(物理ノード番号「2」)で動いていたプロセス3の復元は、更新されたノード番号変換テーブルを用いるため、論理ノード番号「0」に対応する物理ノード番号「5」のノード5で実行される。
For example, it is assumed that the
また、上記実施形態では、システムを構成する1つのノードにおいて、チェックポイント/リスタート機能を有する各手段が備えられている構成を説明したが、本発明はこれに限られず、たとえば、各ノードに通信可能に接続される別途のノード管理装置を設けて、該ノード管理装置にチェックポイント/リスタート機能を実行させる構成とすることもできる。また、1つのノードに備えられている各手段は、そのいくつかを一纏めにして構成されていてもよいし、一つの手段をさらに複数の手段に分割して構成されていてもよい。 In the above embodiment, the configuration in which each means having the checkpoint / restart function is provided in one node constituting the system is described. However, the present invention is not limited to this, and for example, each node has A separate node management device connected so as to be communicable may be provided, and the node management device may be configured to execute a checkpoint / restart function. Further, each means provided in one node may be configured as a group, or may be configured by dividing one means into a plurality of means.
さらに、上記実施形態では、NUMAシステムを例にとって説明したが、少なくとも1以上のプロセッサ、および該少なくとも1以上のプロセッサが共有するメモリをそれぞれ有する複数のノードを含んで構成されるコンピュータシステムにおいて適用することができる。 Furthermore, in the above embodiment, the NUMA system has been described as an example. However, the present invention is applied to a computer system including at least one processor and a plurality of nodes each having a memory shared by the at least one processor. be able to.
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。 A part or all of the above-described embodiment can be described as in the following supplementary notes, but is not limited thereto.
(付記1)少なくとも1以上のプロセッサ、および該少なくとも1以上のプロセッサが共有するメモリをそれぞれ有する複数のノードを含んで構成されるコンピュータシステムであって、ジョブのプロセスごとに割り当て可能な論理ノード番号と、前記ジョブのプロセスを実行する前記ノードに固有の物理ノード番号との対応関係を示すノード番号変換テーブルの情報を含むジョブ管理情報を記憶するジョブ管理情報記憶手段と、前記ジョブのプロセスごとに割り当てられた前記論理ノード番号の情報を含むプロセス管理情報を記憶するプロセス管理情報記憶手段と、チェックポイント要求を受け付けると、実行中のジョブに関する前記ジョブ管理情報、および該ジョブの各プロセスに関する前記プロセス管理情報をそれぞれ前記ジョブ管理情報記憶手段および前記プロセス管理情報記憶手段から取得して、該取得した前記ジョブ管理情報および前記ジョブ管理情報から前記ジョブをリスタートするためのリスタートファイルを作成するリスタートファイル作成手段と、リスタート要求を受け付けると、前記リスタートファイルから前記ジョブ管理情報、および前記プロセス管理情報を復元する復元手段と、前記リスタート要求時において、前記物理ノード番号の更新要求を受け付けると、前記復元した前記ジョブ管理情報に含まれる前記ノード番号変換テーブルを更新する更新手段と、前記復元したプロセス管理情報に含まれる前記ジョブのプロセスごとに割り当てられた前記論理ノード番号に対応する前記物理ノード番号を、前記物理ノード番号の更新要求を受け付けた場合、前記更新手段により更新された前記ノード番号変換テーブルを参照して決定し、前記物理ノード番号の更新要求を受け付けていない場合、前記復元手段により復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを参照して決定する決定手段と、前記決定された前記物理ノード番号を有する前記ノード上で前記ジョブのプロセスを復元するプロセス復元手段と、を備えるコンピュータシステム。 (Supplementary note 1) A computer system comprising a plurality of nodes each having at least one or more processors and a memory shared by the at least one or more processors, and can be assigned a logical node number for each job process A job management information storage unit that stores job management information including information of a node number conversion table indicating a correspondence relationship with a physical node number unique to the node that executes the job process; and for each process of the job Process management information storage means for storing process management information including information on the assigned logical node number, and upon receipt of a checkpoint request, the job management information relating to a job being executed, and the process relating to each process of the job Management information for each job management A restart file creation means for creating a restart file for restarting the job from the obtained job management information and the job management information, acquired from the information storage means and the process management information storage means; When a start request is accepted, a restoration unit that restores the job management information and the process management information from the restart file; and when the physical node number update request is accepted at the time of the restart request, Update means for updating the node number conversion table included in job management information, and the physical node number corresponding to the logical node number assigned to each process of the job included in the restored process management information, When a physical node number update request is received, The node number conversion table determined by referring to the node number conversion table updated by the update unit and not receiving the physical node number update request, the node number conversion table included in the job management information restored by the restoration unit A computer system comprising: determining means for determining by reference; and process restoring means for restoring a process of the job on the node having the determined physical node number.
(付記2)前記リスタートファイル作成手段は、前記チェックポイント要求を所定のタイミングで受け付けるごとに、前記リスタートファイルを作成する付記1に記載のコンピュータシステム。
(Supplementary note 2) The computer system according to
(付記3)前記複数のノードのうち少なくとも1つのノードにおいて障害が発生した場合、前記復元手段は、前記リスタートファイル作成手段により作成された最新の前記リスタートファイルから前記ジョブ管理情報、および前記プロセス管理情報を復元し、前記更新手段は、前記復元したジョブ管理情報に含まれる前記ノード番号変換テーブルにおいて、前記障害が発生したノードの物理ノード番号を他の物理ノード番号に更新する、請求項2に記載のコンピュータシステム。 (Supplementary Note 3) When a failure occurs in at least one of the plurality of nodes, the restoration unit uses the latest restart file created by the restart file creation unit, the job management information, and the The process management information is restored, and the updating unit updates a physical node number of the node in which the failure has occurred to another physical node number in the node number conversion table included in the restored job management information. 3. The computer system according to 2.
(付記4)少なくとも1以上のプロセッサ、および該少なくとも1以上のプロセッサが共有するメモリをそれぞれ有する複数のノードを含んで構成されるコンピュータシステムにおけるチェックポイントリスタート方法であって、ジョブのプロセスごとに割り当て可能な論理ノード番号と、前記ジョブのプロセスを実行する前記ノードに固有の物理ノード番号との対応関係を示すノード番号変換テーブルの情報を含むジョブ管理情報を記憶する段階と、前記ジョブのプロセスごとに割り当てられた前記論理ノード番号の情報を含むプロセス管理情報を記憶する段階と、チェックポイント要求を受け付けると、実行中のジョブに関する前記ジョブ管理情報、および該ジョブの各プロセスに関する前記プロセス管理情報をそれぞれ前記ジョブ管理情報記憶手段および前記プロセス管理情報記憶手段から取得して、該取得した前記ジョブ管理情報および前記ジョブ管理情報から前記ジョブをリスタートするためのリスタートファイルを作成する段階と、リスタート要求を受け付けると、前記リスタートファイルから前記ジョブ管理情報、および前記プロセス管理情報を復元する段階と、前記リスタート要求時において、前記物理ノード番号の更新要求を受け付けると、前記復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを更新する段階と、前記復元したプロセス管理情報に含まれる前記ジョブのプロセスごとに割り当てられた前記論理ノード番号に対応する前記物理ノード番号を、前記物理ノード番号の更新要求を受け付けた場合、前記更新手段により更新された前記ノード番号変換テーブルを参照して決定し、前記物理ノード番号の更新要求を受け付けていない場合、前記復元手段により復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを参照して決定する段階と、前記決定された物理ノード番号を有する前記ノード上で前記ジョブのプロセスを復元する段階と、を備えるチェックポイントリスタート方法。 (Supplementary Note 4) A checkpoint restart method in a computer system including at least one processor and a plurality of nodes each having a memory shared by the at least one processor, for each job process Storing job management information including information of a node number conversion table indicating a correspondence relationship between an assignable logical node number and a physical node number unique to the node executing the job process; and the job process Storing process management information including information on the logical node number assigned to each job, and receiving a checkpoint request, the job management information relating to a job being executed, and the process management information relating to each process of the job Each said job management And a step of creating a restart file for restarting the job from the acquired job management information and the job management information, and receiving a restart request. And the step of restoring the job management information and the process management information from the restart file, and when the physical node number update request is received at the time of the restart request, the job management information is included in the restored job management information A step of updating the node number conversion table, the physical node number corresponding to the logical node number assigned to each process of the job included in the restored process management information, and an update request for the physical node number. If accepted, the node updated by the updating means Determining with reference to a node number conversion table, and when not receiving an update request for the physical node number, determining with reference to the node number conversion table included in the job management information restored by the restoration unit; Restoring the process of the job on the node having the determined physical node number.
1 NUMAシステム、
10 プロセス管理情報、
11 ジョブ管理情報、
12 リスタートファイル作成手段、
13 リスタートファイル復元手段、
14 更新手段、
15 物理ノード番号決定手段、
16 プロセス復元手段、
17 リスタートファイル入出力手段、
100 ノード
101 カーネル部、
102 ジョブ部、
200 二次記憶装置。
1 NUMA system,
10 Process management information,
11 Job management information,
12 Restart file creation means,
13 Restart file restoration means,
14 Update means,
15 Physical node number determination means,
16 process restoration means,
17 Restart file input / output means,
100
102 Job part,
200 Secondary storage device.
Claims (4)
前記ノードのいずれかが、又は、前記ノードに通信可能に接続されるノード管理装置を前記コンピュータシステムが含む場合において当該ノード管理装置が、
ジョブのプロセスごとに割り当て可能な論理ノード番号と、前記ジョブのプロセスを実行する前記ノードに固有の物理ノード番号との対応関係を示すノード番号変換テーブルの情報を含むジョブ管理情報を記憶するジョブ管理情報記憶手段と、
前記ジョブのプロセスごとに割り当てられた前記論理ノード番号の情報を含むプロセス管理情報を記憶するプロセス管理情報記憶手段と、
チェックポイント要求を受け付けると、実行中のジョブに関する前記ジョブ管理情報、および該ジョブの各プロセスに関する前記プロセス管理情報をそれぞれ前記ジョブ管理情報記憶手段および前記プロセス管理情報記憶手段から取得して、該取得した前記ジョブ管理情報および前記ジョブ管理情報から前記ジョブをリスタートするためのリスタートファイルを作成するリスタートファイル作成手段と、
リスタート要求を受け付けると、前記リスタートファイルから前記ジョブ管理情報、および前記プロセス管理情報を復元する復元手段と、
前記リスタート要求時において、前記物理ノード番号の更新要求を受け付けると、前記復元した前記ジョブ管理情報に含まれる前記ノード番号変換テーブルを更新する更新手段と、
前記復元したプロセス管理情報に含まれる前記ジョブのプロセスごとに割り当てられた前記論理ノード番号に対応する前記物理ノード番号を、前記物理ノード番号の更新要求を受け付けた場合、前記更新手段により更新された前記ノード番号変換テーブルを参照して決定し、前記物理ノード番号の更新要求を受け付けていない場合、前記復元手段により復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを参照して決定する決定手段と、
前記決定された前記物理ノード番号を有する前記ノード上で前記ジョブのプロセスを復元するプロセス復元手段と、
を備えるコンピュータシステム。 A computer system comprising a plurality of nodes each having at least one or more processors and a memory shared by the at least one or more processors,
When the computer system includes a node management device that is communicably connected to any of the nodes or the node, the node management device is
Job management storing job management information including information of a node number conversion table indicating a correspondence relationship between a logical node number that can be assigned for each job process and a physical node number unique to the node that executes the job process Information storage means;
Process management information storage means for storing process management information including information on the logical node number assigned to each process of the job;
Upon receipt of the checkpoint request, the job management information relating to the job being executed and the process management information relating to each process of the job are obtained from the job management information storage means and the process management information storage means, respectively. Restart file creation means for creating a restart file for restarting the job from the job management information and the job management information;
When a restart request is received, a restoration unit that restores the job management information and the process management information from the restart file;
An update unit that updates the node number conversion table included in the restored job management information when receiving an update request for the physical node number at the time of the restart request;
The physical node number corresponding to the logical node number assigned to each process of the job included in the restored process management information is updated by the updating unit when the physical node number update request is received Determining means for making a decision with reference to the node number conversion table and for making a decision with reference to the node number conversion table included in the job management information restored by the restoration means when the physical node number update request is not accepted When,
Process restoring means for restoring the process of the job on the node having the determined physical node number;
A computer system comprising:
前記復元手段は、前記リスタートファイル作成手段により作成された最新の前記リスタートファイルから前記ジョブ管理情報、および前記プロセス管理情報を復元し、
前記更新手段は、前記復元したジョブ管理情報に含まれる前記ノード番号変換テーブルにおいて、前記障害が発生したノードの物理ノード番号を他の物理ノード番号に更新する、請求項2に記載のコンピュータシステム。 When a failure occurs in at least one of the plurality of nodes,
The restoration means restores the job management information and the process management information from the latest restart file created by the restart file creation means,
The computer system according to claim 2, wherein the update unit updates a physical node number of the node in which the failure has occurred to another physical node number in the node number conversion table included in the restored job management information.
前記ノードのいずれかが、又は、前記ノードに通信可能に接続されるノード管理装置を前記コンピュータシステムが含む場合において当該ノード管理装置が、ジョブ管理情報記憶手段、プロセス管理情報記憶手段、リスタートファイル作成手段、復元手段、更新手段、決定手段、プロセス復元手段を備えており、
ジョブのプロセスごとに割り当て可能な論理ノード番号と、前記ジョブのプロセスを実行する前記ノードに固有の物理ノード番号との対応関係を示すノード番号変換テーブルの情報を含むジョブ管理情報前記をジョブ管理情報記憶手段に記憶する段階と、
前記ジョブのプロセスごとに割り当てられた前記論理ノード番号の情報を含むプロセス管理情報を前記プロセス管理情報記憶手段に記憶する段階と、
チェックポイント要求を受け付けると、実行中のジョブに関する前記ジョブ管理情報、および該ジョブの各プロセスに関する前記プロセス管理情報をそれぞれ前記ジョブ管理情報記憶手段および前記プロセス管理情報記憶手段から取得して、該取得した前記ジョブ管理情報および前記ジョブ管理情報から前記ジョブをリスタートするためのリスタートファイルを前記リスタートファイル作成手段により作成する段階と、
リスタート要求を受け付けると、前記リスタートファイルから前記ジョブ管理情報、および前記プロセス管理情報を前記復元手段により復元する段階と、
前記リスタート要求時において、前記物理ノード番号の更新要求を受け付けると、前記復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを前記更新手段により更新する段階と、
前記復元したプロセス管理情報に含まれる前記ジョブのプロセスごとに割り当てられた前記論理ノード番号に対応する前記物理ノード番号を、前記物理ノード番号の更新要求を受け付けた場合、前記更新手段により更新された前記ノード番号変換テーブルを参照して前記決定手段により決定し、前記物理ノード番号の更新要求を受け付けていない場合、前記復元手段により復元したジョブ管理情報に含まれる前記ノード番号変換テーブルを参照して前記決定手段により決定する段階と、
前記決定された物理ノード番号を有する前記ノード上で前記ジョブのプロセスを前記プロセス復元手段により復元する段階と、
を備えるチェックポイントリスタート方法。 A checkpoint restart method in a computer system comprising at least one or more processors and a plurality of nodes each having a memory shared by the at least one or more processors,
When any one of the nodes or a node management apparatus that is communicably connected to the node is included in the computer system, the node management apparatus includes a job management information storage unit, a process management information storage unit, and a restart file. A creation means, a restoration means, an update means, a determination means, and a process restoration means are provided,
Jobs and logical node numbers can be assigned to each process, job management information the job management information including information of the node number conversion table showing the correspondence between the unique physical node number to the node performing the process of the job Storing in the storage means;
And storing the process management information including information of the logical node number assigned to each process of the job to the process management information storage means,
Upon receipt of the checkpoint request, the job management information relating to the job being executed and the process management information relating to each process of the job are obtained from the job management information storage means and the process management information storage means, respectively. Creating a restart file for restarting the job from the job management information and the job management information by the restart file creating means ;
When receiving a restart request, the steps of restoring the said job management information from restart files, and the restoring means the process management information,
During the restart request, when receiving a request for updating the physical node number, the steps of updating the node number conversion table included in the restored job management information by the updating means,
The physical node number corresponding to the logical node number assigned to each process of the job included in the restored process management information is updated by the updating unit when the physical node number update request is received When the node number conversion table is determined by the determination unit and the update request for the physical node number is not accepted, the node number conversion table included in the job management information restored by the restoration unit is referred to. Determining by the determining means ;
Restoring the process of the job by the process restoration means on the node having the determined physical node number;
A checkpoint restart method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010049182A JP5672521B2 (en) | 2010-03-05 | 2010-03-05 | Computer system and checkpoint restart method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010049182A JP5672521B2 (en) | 2010-03-05 | 2010-03-05 | Computer system and checkpoint restart method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011186606A JP2011186606A (en) | 2011-09-22 |
JP5672521B2 true JP5672521B2 (en) | 2015-02-18 |
Family
ID=44792817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010049182A Expired - Fee Related JP5672521B2 (en) | 2010-03-05 | 2010-03-05 | Computer system and checkpoint restart method thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5672521B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016132432A1 (en) * | 2015-02-16 | 2016-08-25 | 三菱電機株式会社 | Processor and microcomputer |
JP6447329B2 (en) | 2015-04-09 | 2019-01-09 | 富士通株式会社 | Parallel computing controller, parallel computing system, and migration time estimation program |
JP6495779B2 (en) * | 2015-08-11 | 2019-04-03 | 日本電信電話株式会社 | Arithmetic processing management method and arithmetic unit |
JP7192388B2 (en) | 2018-10-22 | 2022-12-20 | 富士通株式会社 | Parallel processing device, parallel operation execution program and backup method |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2500735B2 (en) * | 1993-02-08 | 1996-05-29 | 日本電気株式会社 | Checkpoint / restart controller |
JPH07152697A (en) * | 1993-11-30 | 1995-06-16 | Hitachi Ltd | Roughly coupled computer system |
JP2002288149A (en) * | 2001-03-26 | 2002-10-04 | Hitachi Ltd | Method for converting node coordinate in checkpoint restart for parallel computer |
EP1690163A4 (en) * | 2003-11-17 | 2011-07-13 | Virginia Tech Intell Prop | Transparent checkpointing and process migration in a distributed system |
JP2008046889A (en) * | 2006-08-17 | 2008-02-28 | Hitachi Ltd | Process management method |
-
2010
- 2010-03-05 JP JP2010049182A patent/JP5672521B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011186606A (en) | 2011-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2851799B1 (en) | Fault tolerant batch processing | |
JP5191062B2 (en) | Storage control system, operation method related to storage control system, data carrier, and computer program | |
US9335998B2 (en) | Multi-core processor system, monitoring control method, and computer product | |
JP2014123365A (en) | DEVICE AND METHOD FOR OPTIMIZATION OF DATA PROCESSING IN MapReduce FRAMEWORK | |
US20110246823A1 (en) | Task-oriented node-centric checkpointing (toncc) | |
JP2007286860A (en) | Data transfer method and information processor | |
JP2010079622A (en) | Multi-core processor system and task control method thereof | |
CN106354563B (en) | Distributed computing system for 3D reconstruction and 3D reconstruction method | |
JP5672521B2 (en) | Computer system and checkpoint restart method thereof | |
JP2010231502A (en) | Job processing method, computer-readable recording medium having stored job processing program, and job processing system | |
JP5250955B2 (en) | Data processing system backup control apparatus and system | |
JP4259390B2 (en) | Parallel processing unit | |
WO2018188959A1 (en) | Method and apparatus for managing events in a network that adopts event-driven programming framework | |
WO2018188958A1 (en) | A method and a host for managing events in a network that adopts event-driven programming framework | |
JPWO2007108062A1 (en) | Server management method, program and apparatus | |
JP2010231295A (en) | Analysis system | |
JP6657725B2 (en) | Database system, replication control device, replication method, and program | |
JP3708891B2 (en) | Process pair execution control method, process pair execution control program, and fault tolerant system in fault tolerant system | |
JP5791524B2 (en) | OS operating device and OS operating program | |
JP7259380B2 (en) | Information processing execution control device, information processing execution control system, information processing execution control method, and information processing execution control program | |
KR20190066712A (en) | Method for Generating Checkpoint of High Performance Computing System Using GPU Usage | |
JP7026870B2 (en) | Task anomaly monitoring device, method and program | |
JP6495779B2 (en) | Arithmetic processing management method and arithmetic unit | |
JP4992745B2 (en) | Checkpoint / restart device and checkpoint / restart method | |
Hariyale et al. | Load Balancing in Cluster using BLCR Checkpoint/Restart |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140417 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140924 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141211 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5672521 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |