JP2006172065A - チェックポイント採取方法、システム及びプログラム - Google Patents

チェックポイント採取方法、システム及びプログラム Download PDF

Info

Publication number
JP2006172065A
JP2006172065A JP2004362606A JP2004362606A JP2006172065A JP 2006172065 A JP2006172065 A JP 2006172065A JP 2004362606 A JP2004362606 A JP 2004362606A JP 2004362606 A JP2004362606 A JP 2004362606A JP 2006172065 A JP2006172065 A JP 2006172065A
Authority
JP
Japan
Prior art keywords
job
checkpoint
condition
information
determining whether
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004362606A
Other languages
English (en)
Inventor
Yasuhiro Nakaoku
康広 中奥
Kenji Matsui
謙治 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2004362606A priority Critical patent/JP2006172065A/ja
Publication of JP2006172065A publication Critical patent/JP2006172065A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Retry When Errors Occur (AREA)

Abstract

【課題】 チェックポイントを採取するタイミングを決定する条件をシステム資源の利用状況で指定し、ジョブにチェックポイント採取命令を記述するというユーザの負担を軽減することが可能な技術を提供する。
【解決手段】 障害発生時のジョブのリスタートを行う為のチェックポイント情報をジョブ実行中に取得するチェックポイント採取方法において、ジョブ毎のシステム資源の利用状況を示す情報を取得して記憶装置に格納するステップと、ジョブ毎のシステム資源の利用状況に応じたチェックポイント採取の要否を判定する為の条件と前記格納したシステム資源の利用状況の情報とを記憶装置から読み出してチェックポイント採取の要否を判定するステップと、前記判定結果に基づいてチェックポイント情報を記憶装置に格納してチェックポイントの採取を行うステップとを有するものである。
【選択図】図1

Description

本発明は障害発生時のジョブのリスタートを行う為のチェックポイント情報をジョブ実行中に取得するチェックポイント採取技術に関するものである。
障害発生時のジョブのリスタートを行う為のチェックポイント情報をジョブ実行中に取得するチェックポイント採取方法において、ジョブのチェックポイントを採取する方法として、ある時間間隔で定期的に採取する方法がある(例えば非特許文献1参照)。また、ジョブ実行時間とチェックポイント採取時間に対する演算結果に従ってチェックポイントの採取の要否を決定し、取得する方法がある(例えば特許文献1参照)。
特開2004−94422号公報 E.N.Elnozahy, Lorenzo Alvisi, Yi-Min Wang, D.B.Johnson著「A Survey of Rollback-Recovery Protocols in Message-Passing Systems, Technical Report CMU-CS-96-181, Department of Computer Science, Carnegie Melon University, 1996)
前記いずれのチェックポイント採取方法もジョブ実行時間やチェックポイント採取時間に基づき、実時間をチェックポイント採取の条件としていたため、実際にジョブがどの程度処理されたかを評価できず、計算機システムの負荷状況によっては必ずしも適切なチェックポイント採取が行われなかった。また、ジョブプログラム内部にチェックポイントを採取する命令を記述する必要がありジョブプログラム作成時の負担であった。
本発明の目的は上記問題を解決し、チェックポイントを採取するタイミングを決定する条件をシステム資源の利用状況で指定し、ジョブにチェックポイント採取命令を記述するというユーザの負担を軽減することが可能な技術を提供することにある。
本発明の他の目的は実行中のジョブのシステム資源の利用状況に応じて、チェックポイント採取の条件を変更することが可能な技術を提供することにある。
本発明は、障害発生時のジョブのリスタートを行う為のチェックポイント情報をジョブ実行中に取得する計算機システムにおいて、システム資源の利用状況に応じてチェックポイントの採取を行うものである。
本発明では、まず、ジョブ毎のシステム資源の利用状況に応じたチェックポイント採取の要否を判定する為の条件の入力を受け付けて記憶装置に格納する。この際、前記条件として、例えばCPU利用累積時間や入出力データの累積量の閾値を示す条件式や、それらの複数の条件式を複合させた複合条件式の入力を受け付けて記憶装置に格納する。
次に、ジョブの実行時に、ジョブ毎のシステム資源の利用状況を示す情報を取得して記憶装置に格納する。その際には、前記格納した条件の要素であるCPU利用累積時間や入出力データ累積量について情報を取得して記憶装置に格納し、システム資源の利用状況を示す情報を更新する。
そして、前記の様にシステム資源の利用状況を示す情報を更新した後、前記格納した条件と前記更新したシステム資源の利用状況の情報とを記憶装置から読み出してチェックポイント採取の要否を判定し、その判定結果に基づいてチェックポイント情報を記憶装置に格納してチェックポイントの採取を行う。すなわち、前記更新されたCPU利用累積時間や入出力データ累積量を前記条件式に代入して論理計算を行って、そのCPU利用累積時間や入出力データ累積量がチェックポイントの採取を行う条件を満たしているかどうかを判定し、その条件を満たしている場合には、当該ジョブのチェックポイント情報を記憶装置に格納する。
本発明によれば、チェックポイントを採取するタイミングを決定する条件をシステム資源の利用状況で指定し、ジョブにチェックポイント採取命令を記述するというユーザの負担を軽減することが可能である。
(実施形態1)
以下に障害発生時のジョブのリスタートを行う為のチェックポイント情報をシステム資源の利用状況に応じて取得する実施形態1の計算機システムについて説明する。
図1は本実施形態の計算機システム1の概略構成を示す図である。図1に示す様に本実施形態の計算機システム1は、ジョブ実行管理部20と、チェックポイント採取実行部21と、スケジューラ22と、CPU監視部23と、I/O監視部24とを有している。
ジョブ実行管理部20は、チェックポイント採取実行部21、スケジューラ22、CPU監視部23及びI/O監視部24の動作を制御してジョブの実行を管理する処理部である。チェックポイント採取実行部21は、ジョブ毎のシステム資源の利用状況に応じたチェックポイント採取の要否を判定する為の条件を示す条件テーブル12及び複合条件式13と、システム資源の利用状況の情報を示す資源ステータステーブル14とをメモリから読み出してチェックポイント採取の要否を判定し、その判定結果に基づいてチェックポイント情報を磁気ディスク装置に格納してチェックポイントの採取を行う処理部である。
スケジューラ22は、実行可能状態ジョブキュー3から実行状態ジョブキュー4へのジョブの状態遷移を行う処理部である。CPU監視部23は、各ジョブに割当てられたCPU時間を監視・記録する処理部であり、ジョブ毎のシステム資源の利用状況を示す情報として、CPU利用累積時間等のCPUの利用状況情報を取得してメモリ中の資源ステータステーブル14に格納するリソース監視部である。
I/O監視部24は、各ジョブが行ったI/O処理のデータ量を監視・記録する処理部であり、ジョブ毎のシステム資源の利用状況を示す情報として、入出力データの累積量等のI/Oデバイスの利用状況情報を取得してメモリ中の資源ステータステーブル14に格納するリソース監視部である。
計算機システム1をジョブ実行管理部20、チェックポイント採取実行部21、スケジューラ22、CPU監視部23及びI/O監視部24として機能させる為のプログラムは、CD−ROM等の記録媒体に記録され磁気ディスク等に格納された後、メモリにロードされて実行されるものとする。なお前記プログラムを記録する記録媒体はCD−ROM以外の他の記録媒体でも良い。また前記プログラムを当該記録媒体から情報処理装置にインストールして使用しても良いし、ネットワークを通じて当該記録媒体にアクセスして前記プログラムを使用するものとしても良い。
図1に示す様に本実施形態の計算機システム1は、ジョブ実行管理部20と実行可能状態ジョブキュー3と実行状態ジョブキュー4とを有しており、ジョブ実行管理部20は機能別に、チェックポイント採取実行部21、スケジューラ22、CPU監視部23及びI/O監視部24から構成されている。
当該計算機システム1は資源を適切にジョブへ分配する為の資源管理の仕組みを備えており、本実施形態ではCPU監視部23とI/O監視部24がその仕組みに該当し、それぞれCPU監視部23は各ジョブに割当てられたCPU時間を監視・記録し、I/O監視部24は各ジョブが行ったI/O処理のデータ量を監視・記録するものである。
実行可能状態ジョブキュー3と実行状態ジョブキュー4では、それぞれジョブ情報10−1、10−2、・・・、10−Mを管理する。これらジョブ情報10のキュー間の遷移はスケジューラ22によって行われる。ジョブ情報10には、ジョブID11、条件テーブル12、複合条件式13及び資源ステータステーブル14が含まれる。
ユーザ5はジョブとそれに付随するチェックポイント採取条件をジョブ実行管理部20へ投入し、それを受けたジョブ実行管理部20は、実行可能状態ジョブキュー3へジョブ情報10を生成し、チェックポイント採取条件で以って条件テーブル12と複合条件式13の初期化を行う。
資源ステータステーブル14の情報は、ジョブ情報10が、実行可能状態ジョブキュー3から実行状態ジョブキュー4へ遷移された後、CPU監視部23及びI/O監視部24によって更新される。
図10は本実施形態の計算機システム1のハードウェア構成を示す図である。図10に示す様に本実施形態の計算機システム1は、ジョブ実行管理部20と実行可能状態ジョブキュー3と実行状態ジョブキュー4とをメモリ上に備えており、メモリや磁気ディスク装置等の記憶装置や通信装置等を使用して各種処理を行う。
次に、図2を参照して資源ステータステーブル14について説明する。
図2は本実施形態のジョブ情報10が保持する資源ステータステーブル14の一例を示す図である。資源ステータステーブル14はそれを保持するジョブにおける資源の利用状況を記録する目的がある。本実施形態においてそれぞれ記録される資源利用状況の項目は、CPU利用累積時間14−01、ジョブ実時間14−02、I/O書込み累積量14−03、I/O読込み累積量14−04の4種類であり、それぞれ「当該ジョブにCPUを割当てられた時間」「ジョブが投入されてから経過した実時間」「I/Oデバイスに対して書込みを行ったときの累積量」「I/Oデバイスに対して読み込みを行ったときの累積量」を意味している。
次に、図3と図4を参照して、条件テーブル12と複合条件式13の一例を説明する。
図3は本実施形態のジョブ情報10が保持する条件テーブル12の一例を示す図である。図3の条件テーブル12は、チェックポイントの採取の要否を判定する為の複数の条件式12−01、12−02、・・・、12−Nを保持している。
条件テーブル12の各条件式は、条件判定に用いられる要素として、図2で説明した4つの項目と、それぞれに対応する閾値とを格納しており、例えば、条件番号1の条件式12−01は、「CPU利用累積時間が1000[秒]を超えるときに真」となる条件を示している。なお条件テーブル12の条件式の数を4つに限らないものとする。またこれらの条件式を複合させる目的で複合条件式13があり、図4の様に表現する。
図4は、本実施形態のジョブ情報10が保持する複合条件式13の一例を示す図である。この図4では、複合条件式13中の数値は、条件テーブル12の条件番号で対応付けられる条件式12−01、12−02、・・・、12−Nを演算子で結合することを意味しており、複合条件式13は、演算子の論理和(+)及び論理積(×)と否定演算子( ̄)と括弧から構成されている。
一例として、データを多量に生成するジョブを実行する場合を考えると、当該ジョブにおいては、I/O書込み処理が支配的になるため、I/O書込み累積量に関連するよう複合条件式13−1を指定することで、ジョブ全体の進捗に合ったチェックポイント採取タイミングでチェックポイントが採取できる。
図3と図4から導かれる複合条件式13−1を解釈すると「CPU利用累積時間が1000[秒]を超えると共にCPU利用累積時間が10000[秒]を超えていないとき、もしくは、I/O書込み累積量が50000[Byte]を超えたときに真」という意味である。
また別の一例として、ネットワークを介して通信するジョブを実行する場合を考えると、当該ジョブにおいては、通信路の利用状況により遅延や待ち時間が発生するため、ジョブ実行時間に関連するよう複合条件式13−2を指定すると、CPU利用累積時間に合ったチェックポイント採取ポイントだけでなく、一定時間間隔のチェックポイント採取タイミングでもチェックポイントが採取できる。
図3と図4から導かれる複合条件式13−2を解釈すると「CPU利用累積時間が1000[秒]を超えると共にCPU利用累積時間が10000[秒]を超えていないとき、もしくは、ジョブ実時間が50000[秒]を超えたときに真」という意味である。
次に、図5を参照して、実行可能状態ジョブキュー3から実行状態ジョブキュー4へジョブが遷移する過程で、CPU監視部23とI/O監視部24とによりジョブ情報10を更新し、その後、チェックポイント採取実行部21において、チェックポイント採取の要否判定を得てチェックポイント採取の実施に至る流れを説明する。
図5は本実施形態のチェックポイント採取処理の処理手順を示すフローチャートである。図5の処理は、ジョブ実行管理部20のスケジューラ22が、実行可能状態ジョブキュー3から実行状態ジョブキュー4へと、ジョブを実行可能状態に遷移させた所から始まる(ステップ500)。
I/O監視部24は、実行可能状態に遷移したジョブのI/O処理を監視して当該ジョブの書込みデータ量と読込みデータ量の情報を取得し、それらのデータの累積量を算出して当該ジョブのジョブ情報10へアクセスし、その資源ステータステーブル14中のI/O書込み累積量14−03とI/O読込み累積量14−04を更新する(ステップ501)。I/O監視部24はジョブが行った全I/O処理データ量を記録しているため、当該ジョブID11を指標として、特定のジョブ情報10におけるI/O書込み累積量14−03とI/O読込み累積量14−04を更新できる。
次にCPU監視部23は、実行可能状態に遷移したジョブのCPU利用時間とジョブ実行時間の情報を取得し、それらのデータの累積量を算出して当該ジョブのジョブ情報10へアクセスし、その資源ステータステーブル14中のCPU利用累積時間14−01とジョブ実時間14−02を更新する(ステップ502)。CPU監視部23はジョブが利用した全CPU利用時間を記録しているため、当該ジョブ情報10のジョブID11を指標として、特定のジョブ情報10におけるCPU利用累積時間14−01とジョブ実時間14−02を更新できる。
次にチェックポイント採取実行部21は、条件テーブル12中の条件式及び複合条件式13と、資源ステータステーブル14中のシステム資源の利用状況の情報とをメモリから読み出してチェックポイント採取の要否を判定する(ステップ503)。
すなわちチェックポイント採取実行部21は、ジョブ情報10に保持される条件テーブル12と複合条件式13の解析を行い、複合条件式13中に用いられている条件番号の条件要素を条件テーブル12から読み出した後、その条件要素に対応する資源状態項目の現在値を資源ステータステーブル14から読み出す。そして、その現在値を条件テーブル12中の条件式で判定する為の論理式を生成して複合条件式13に代入し、その複合条件式13での判定結果に従いチェックポイントを採取する(ステップ504)。
そして、チェックポイント採取が行われた後、次回条件判定時にチェックポイント採取条件を不当に満たさない様に、資源ステータステーブル14を全て0に初期化する(ステップ505)。
また一般的に計算機システムでは、ジョブが実行状態に遷移するとき、ジョブ実行管理部20からCPU利用時間が割当てられ、ジョブはその時間単位で実行される。そのため、本実施形態において特定のジョブに対する資源ステータステーブル14が更新されぬまま所定時間以上ジョブが実行されることはなく、所定時間間隔で資源ステータステーブル14の更新が行われる事が保証される。
次に、本実施形態において、ジョブを投入する際にチェックポイント採取条件も同時に投入する方法の一例について説明する。
図6は本実施形態のジョブとチェックポイント採取条件を投入するコマンドの一例を示す図である。図6では、ユーザ5が入力装置からの条件式の集合608と複合条件式609の様な文字列表現のコマンド606の入力で条件を指定できることを表している。
図6のコマンドの第1引数は、条件テーブル12に格納されるべき条件式の集合608を表す。各条件式601〜604は「,」で区切られ、更に資源状態項目と閾値が「:」で区切られる。また、条件番号が条件式の文字列の左から順に1、2、・・・という様に付与される。更にコマンドの第2引数は複合条件式609を表す文字列であり、第3引数はジョブプログラム実行ファイル名610である。
このとき、条件テーブル12の条件要素の種類、複合条件式と条件式の記述方法、ジョブ投入コマンド607が予めマニュアル等の記述に公開されていることを前提とし、ユーザ5自身が作成したジョブプログラム実行ファイル名610をジョブ投入コマンドの引数として与えることによって前記指定を実現する。
以上説明した様に本実施形態の計算機システムによれば、システム資源の利用状況に応じてチェックポイントの採取を行うので、チェックポイントを採取するタイミングを決定する条件をシステム資源の利用状況で指定し、ジョブにチェックポイント採取命令を記述するというユーザの負担を軽減することが可能である。
(実施形態2)
以下にチェックポイント採取の要否を判定する為の条件の受け付け完了後に、指定されたジョブの前記条件を再度受け付けてその条件を更新する実施形態2の計算機システムについて説明する。
本実施形態は、既にチェックポイント採取の要否を判定する為の条件がジョブに与えられ、そのジョブが実行中であっても、ユーザ5が条件の再投入をできる様にするものである。
図7は本実施形態のジョブ情報一覧表示と表示コマンドの一例を示す図である。条件の再投入を行う場合、まずユーザ5はどのジョブに対して条件を更新するかを指定し得なくてはならない。そこで本実施形態では、計算機システム1中に現在存在するジョブ情報10とそれを一意に指定するジョブID11とそれに付随するチェックポイント採取条件を出力装置に示すことができるコマンド命令をユーザ5に提供する。
このコマンドが発行されると、図7のジョブ情報一覧表示例701に一例を示す様に、本実施形態のジョブ実行管理部20は、ジョブ情報10を特定するジョブID11と条件テーブル12の情報、複合条件式13をメモリから読み出して出力装置上に表示する。ジョブ情報例703の各行がそれぞれジョブ情報10に相当し、ジョブ情報表示項目702がジョブ情報10の表示項目の説明を表す。
ユーザ5はこの結果を受け、条件変更コマンド707に引数を与えてチェックポイント採取条件を変更する。引数は、それぞれ、条件式の集合708、上書きされる複合条件式709、対象とするジョブID711である。このとき、条件式の集合708は条件式704及び705から構成される。また、ジョブ情報例703の最終行の様に、チェックポイントの採取条件を省略してジョブを実行することも可能である。
前記の様にコマンド706を投入することで特定のジョブに対するチェックポイント採取の条件を変更することができる。
図8は本実施形態のジョブ情報一覧表示処理の処理手順を示すフローチャートである。図8の処理について、図6のコマンド606を受けた場合の動作を例として説明する。
まず、実行可能状態ジョブキュー3に格納されるジョブ情報10から、ジョブID11と条件テーブル12と複合条件式13と資源ステータステーブル14の情報を取得する(ステップ801)。
次に、実行状態ジョブキュー4に格納されるジョブ情報10から、ジョブID11と条件テーブル12と複合条件式13と資源ステータステーブル14の情報を取得する(ステップ802)。そして、ステップ802で取得したデータを出力装置に表示する(ステップ803)。
図9は本実施形態のジョブ情報10の条件テーブル12と複合条件式13を更新する処理の処理手順を示すフローチャートである。図9の処理について、図7のコマンド706を受けた場合の例として説明する。
まず、メモリ中のジョブ情報10を参照し、ユーザ5が指定したIDを持つジョブが存在するかどうかを判定し(ステップ901)、そのジョブが存在しないならば、その旨を表示し、その後は何もせず終了する(ステップ902)。
ユーザ5が指定したIDを持つジョブが存在する場合には、ユーザ5が指定した条件式の文字列を所定の文法規則と比較して当該条件式に不備がないかどうかを調べ(ステップ903)、条件式に不備があればその旨を表示して、その後は何もせず終了する(ステップ904)。
条件式に不備が無い場合には、指定されたジョブに対するメモリ中のジョブ情報10の条件テーブル12と複合条件式13に、前記指定された内容を格納して更新する(ステップ905)。そして、更新されたジョブに対するジョブ情報10を図7のジョブ情報一覧表示例701の様に表示する(ステップ906)。
以上説明した様に本実施形態の計算機システムによれば、チェックポイント採取の要否を判定する為の条件を再度受け付けてその条件を更新するので、実行中のジョブのシステム資源の利用状況に応じて、チェックポイント採取の条件を変更することが可能である。
実施形態1の計算機システムの概略構成を示す図である。 実施形態1のジョブ情報10が保持する資源ステータステーブル14の一例を示す図である。 実施形態1のジョブ情報10が保持する条件テーブル12の一例を示す図である。 実施形態1のジョブ情報10が保持する複合条件式13の一例を示す図である。 実施形態1のチェックポイント採取処理の処理手順を示すフローチャートである。 実施形態1のジョブとチェックポイント採取条件を投入するコマンドの一例を示す図である。 実施形態2のジョブ情報一覧表示と表示コマンドの一例を示す図である。 実施形態2のジョブ情報一覧表示処理の処理手順を示すフローチャートである。 実施形態2のジョブ情報10の条件テーブル12と複合条件式13を更新する処理の処理手順を示すフローチャートである。 実施形態1の計算機システム1のハードウェア構成を示す図である。
符号の説明
1…計算機システム、3…実行可能状態ジョブキュー、4…実行状態ジョブキュー、5…ユーザ、10…ジョブ情報、11…ジョブID、12…条件テーブル、13…複合条件式、14…資源ステータステーブル、20…ジョブ実行管理部、21…チェックポイント採取実行部、22…スケジューラ、23…CPU監視部、24…I/O監視部、14−01…CPU利用累積時間、14−02…ジョブ実時間、14−03…I/O書込み累積量、14−04…I/O読込み累積量、12−01〜12−N…条件式、601〜604…条件式、606…コマンド、607…ジョブ投入コマンド、608…条件式の集合、609…複合条件式、610…ジョブプログラム実行ファイル名、701…ジョブ情報一覧表示例、702…ジョブ情報表示項目、703…ジョブ情報例、704及び705…条件式、706…コマンド、707…条件変更コマンド、708…条件式の集合、709…複合条件式、711…ジョブID。

Claims (10)

  1. 障害発生時のジョブのリスタートを行う為のチェックポイント情報をジョブ実行中に取得するチェックポイント採取方法において、
    ジョブ毎のシステム資源の利用状況を示す情報を取得して記憶装置に格納するステップと、ジョブ毎のシステム資源の利用状況に応じたチェックポイント採取の要否を判定する為の条件と前記格納したシステム資源の利用状況の情報とを記憶装置から読み出してチェックポイント採取の要否を判定するステップと、前記判定結果に基づいてチェックポイント情報を記憶装置に格納してチェックポイントの採取を行うステップとを有することを特徴とするチェックポイント採取方法。
  2. 前記チェックポイント採取の要否を判定する為の条件として、チェックポイントの採取の要否を判定する為の複数の条件式を複合させた複合条件式を用いることを特徴とする請求項1に記載されたチェックポイント採取方法。
  3. ジョブの投入時に当該ジョブのチェックポイント採取の要否を判定する為の条件を受け付けることを特徴とする請求項1または請求項2のいずれかに記載されたチェックポイント採取方法。
  4. 前記チェックポイント採取の要否を判定する為の条件の受け付け完了後に、指定されたジョブの前記条件を再度受け付けてその条件を更新することを特徴とする請求項1乃至請求項3のいずれか1項に記載されたチェックポイント採取方法。
  5. 前記システム資源の利用状況を示す情報として、CPUの利用累積時間を取得することを特徴とする請求項1乃至請求項4のいずれか1項に記載されたチェックポイント採取方法。
  6. 前記システム資源の利用状況を示す情報として、アクセスした入出力データの累積量を取得することを特徴とする請求項1乃至請求項5のいずれか1項に記載されたチェックポイント採取方法。
  7. 障害発生時のジョブのリスタートを行う為のチェックポイント情報をジョブ実行中に取得する計算機システムにおいて、
    ジョブ毎のシステム資源の利用状況を示す情報を取得して記憶装置に格納するリソース監視部と、ジョブ毎のシステム資源の利用状況に応じたチェックポイント採取の要否を判定する為の条件と前記格納したシステム資源の利用状況の情報とを記憶装置から読み出してチェックポイント採取の要否を判定し、その判定結果に基づいてチェックポイント情報を記憶装置に格納してチェックポイントの採取を行うチェックポイント採取実行部とを備えることを特徴とする計算機システム。
  8. 前記チェックポイント採取の要否を判定する為の条件の受け付け完了後に、指定されたジョブの前記条件を再度受け付けてその条件を更新することを特徴とする請求項7に記載された計算機システム。
  9. 障害発生時のジョブのリスタートを行う為のチェックポイント情報をジョブ実行中に取得するチェックポイント採取方法をコンピュータに実行させる為のプログラムにおいて、
    ジョブ毎のシステム資源の利用状況を示す情報を取得して記憶装置に格納するステップと、ジョブ毎のシステム資源の利用状況に応じたチェックポイント採取の要否を判定する為の条件と前記格納したシステム資源の利用状況の情報とを記憶装置から読み出してチェックポイント採取の要否を判定するステップと、前記判定結果に基づいてチェックポイント情報を記憶装置に格納してチェックポイントの採取を行うステップとをコンピュータに実行させることを特徴とするプログラム。
  10. 前記チェックポイント採取の要否を判定する為の条件の受け付け完了後に、指定されたジョブの前記条件を再度受け付けてその条件を更新することを特徴とする請求項9に記載されたプログラム。
JP2004362606A 2004-12-15 2004-12-15 チェックポイント採取方法、システム及びプログラム Pending JP2006172065A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004362606A JP2006172065A (ja) 2004-12-15 2004-12-15 チェックポイント採取方法、システム及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004362606A JP2006172065A (ja) 2004-12-15 2004-12-15 チェックポイント採取方法、システム及びプログラム

Publications (1)

Publication Number Publication Date
JP2006172065A true JP2006172065A (ja) 2006-06-29

Family

ID=36672761

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004362606A Pending JP2006172065A (ja) 2004-12-15 2004-12-15 チェックポイント採取方法、システム及びプログラム

Country Status (1)

Country Link
JP (1) JP2006172065A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009276908A (ja) * 2008-05-13 2009-11-26 Toshiba Corp コンピュータシステム及びプログラム
JP2013156886A (ja) * 2012-01-31 2013-08-15 Nec Corp 計算装置、演算処理システム、チェックポイント設定方法及びプログラム
JP2014123409A (ja) * 2010-03-30 2014-07-03 Le Tech Co Ltd 主記憶装置における情報を復元するための装置及び方法
JP2017527893A (ja) * 2014-07-29 2017-09-21 サウジ アラビアン オイル カンパニー 分散コンピューティング用のプロアクティブ障害回復モデル

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009276908A (ja) * 2008-05-13 2009-11-26 Toshiba Corp コンピュータシステム及びプログラム
JP2014123409A (ja) * 2010-03-30 2014-07-03 Le Tech Co Ltd 主記憶装置における情報を復元するための装置及び方法
JP2013156886A (ja) * 2012-01-31 2013-08-15 Nec Corp 計算装置、演算処理システム、チェックポイント設定方法及びプログラム
JP2017527893A (ja) * 2014-07-29 2017-09-21 サウジ アラビアン オイル カンパニー 分散コンピューティング用のプロアクティブ障害回復モデル

Similar Documents

Publication Publication Date Title
US20200409768A1 (en) Autoscaling using file access or cache usage for cluster machines
US7827167B2 (en) Database management system and method including a query executor for generating multiple tasks
JP4681491B2 (ja) プロファイリングプログラムおよびプロファイリング方法
JP6342070B2 (ja) ジョブ管理装置及びジョブ管理方法及びジョブ管理プログラム
JP2007316905A (ja) アプリケーションプログラムを監視する計算機システム及びその方法
JP2009020823A (ja) 順序関係解析装置、方法及びプログラム
US9904470B2 (en) Tracking ownership of memory in a data processing system through use of a memory monitor
WO2009002723A1 (en) Concurrent exception handling
JP4992740B2 (ja) マルチプロセッサシステム、障害検出方法および障害検出プログラム
US20080320275A1 (en) Concurrent exception handling
JP2008084011A (ja) Cadデータのロード装置
JP2017045217A (ja) ログ管理装置、ログ管理方法、およびログ管理プログラム
JP2016130892A (ja) 監視装置、情報処理システム及び監視プログラム
JP2006172065A (ja) チェックポイント採取方法、システム及びプログラム
US8516466B2 (en) Optimization of automated system-managed storage operations
JP7145094B2 (ja) 制御装置、コンピュータプログラム及び情報処理方法
CN113986097A (zh) 一种任务调度的方法、装置及电子设备
JP4989496B2 (ja) コマンドネット実行装置、コマンドネット実行プログラム及びコマンドネット実行プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4997144B2 (ja) マルチタスク処理装置およびその方法
JP6111731B2 (ja) 並列デバッグシステム、並列デバッグ方法、及び、並列デバッグプログラム
JP2010033131A (ja) 管理装置及びプログラム
US8484646B1 (en) System and method for managing process flows within a computing device based on user behavior
JP2004164369A (ja) ファイル監視方法、ファイル監視プログラム及びコンピュータシステム
JP3931883B2 (ja) ジョブスケジューリング方法、計算機システムおよびジョブスケジューリングプログラム
JP2024047188A (ja) ジョブ管理装置、ジョブ管理方法、及び、ジョブ管理プログラム