JPH1185707A - 並列計算機におけるジョブ投入計算機の選択方法及び装置 - Google Patents

並列計算機におけるジョブ投入計算機の選択方法及び装置

Info

Publication number
JPH1185707A
JPH1185707A JP23917897A JP23917897A JPH1185707A JP H1185707 A JPH1185707 A JP H1185707A JP 23917897 A JP23917897 A JP 23917897A JP 23917897 A JP23917897 A JP 23917897A JP H1185707 A JPH1185707 A JP H1185707A
Authority
JP
Japan
Prior art keywords
job
rank
node
computer
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP23917897A
Other languages
English (en)
Inventor
Kazuhiko Watanabe
和彦 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP23917897A priority Critical patent/JPH1185707A/ja
Publication of JPH1185707A publication Critical patent/JPH1185707A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)

Abstract

(57)【要約】 【課題】 並列計算機を構成する複数のノード(計算
機)の中からジョブ投入の対象とするノードを選択する
とき、ノードの信頼度を考慮してジョブのスケジューリ
ングを行う。 【解決手段】 信頼度データ登録部15は各ノードの信
頼度データを収集し、ノードランク登録部11は信頼度
の程度に従って信頼度ランクに区分し、ノードランクテ
ーブル12に登録する。ジョブランク判定部10は、入
力されたジョブの優先度、ジョブランクテーブル16に
登録されたジョブのランク等からジョブのランクを決定
する。ノード選択部13は、ノードランクテーブル12
を参照してジョブの優先度ランクと同じ信頼度ランクを
もつノードをジョブ投入する計算機として選択する。ジ
ョブ投入部14は、選択されたノードにジョブを投入す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、並列計算機におい
てジョブの投入対象とする計算機を選択する方法に係わ
り、特に計算機の信頼度に基づいてジョブ投入計算機を
決定する方法に関する。
【0002】
【従来の技術】並列計算機を構成する複数の計算機の中
からジョブ投入の対象とする計算機を選択する従来のス
ケジューリング方法として、例えば特開平5−1202
43号公報のように計算機負荷の最も小さい計算機を選
択する方法が知られている。
【0003】
【発明が解決しようとする課題】並列計算機システム
は、複数のノードと呼ばれる計算機から構成され、各ノ
ードはプロセッサを有し、処理が並列に行われる。ノー
ド数を増やすことにより並列計算機の能力を向上させる
ことができ、またノードの追加は比較的容易に行えるた
め、処理能力のニーズに合わせてノードを増設すること
が行われる。その結果として、製造時期の古いノード
(特にプロセッサ)と新しいノードとが混在することが
ある。ノードの製造時期が異なるということは、ノード
の信頼度が異なるということである。従ってジョブ投入
のスケジューリングをするとき、ノードの信頼度を考慮
する必要がある。
【0004】本発明の目的は、ノードの信頼度を考慮す
るジョブのスケジューリング方法を提供することにあ
る。
【0005】
【課題を解決するための手段】本発明は、並列計算機を
構成する計算機の各々について信頼度データを収集して
信頼度の程度に従って複数の信頼度ランクのいずれかに
区分し、ジョブについての情報を入力しジョブの優先度
の程度に従って信頼度ランクと同じランク数をもつ優先
度ランクのいずれかに区分し、ジョブの優先度ランクと
同じ信頼度ランクをもつ計算機をジョブ投入する計算機
として選択するジョブ投入計算機の選択方法を特徴とす
る。
【0006】
【発明の実施の形態】以下、本発明の一実施形態につい
て図面を用いて説明する。
【0007】図1は、本実施形態の並列計算機システム
の構成図である。システムは、ジョブの投入を制御する
計算機であるノード1と、ノード1と伝送路20を介し
て接続され、ジョブを実行する複数の計算機であるノー
ド31,32,・・・33から構成される。ここでノー
ドとは、プロセッサとプロセッサに接続される入出力装
置、記憶装置、通信制御装置等を含む計算機である。ノ
ード31,32,・・・33の各々は、並列計算機を構
成する計算機である。ノード1は、この並列計算機を構
成する計算機の1つであってもよいし、別の独立した計
算機であってもよい。入力装置2は、ノード1に接続さ
れ、ジョブについての情報(JCL)を格納する外部記
憶装置などである。ノード1の記憶装置は、ノードラン
クテーブル12及びジョブランクテーブル16を格納す
る。ノードランクテーブル12は、ノード31,32,
・・・33の各ノードを信頼性の観点からランク付けす
るテーブルである。ジョブランクテーブル16は、ジョ
ブを優先度の観点からランク付けするテーブルである。
ノード1の主記憶装置にはノードランク登録部11、信
頼度データ登録部15、ジョブランク判定部10、ノー
ド選択部13及びジョブ投入部14の各プログラムが格
納され、実行される。これらのプログラムは、一般にオ
ペレーティングシステム(OS)の一部であるジョブ管
理プログラムの中に含まれる。信頼度データ登録部15
は、周期的にノード31,32,・・・33の各ノード
から信頼度データを収集し、信頼度データからノードの
MTBF(JIS規格X0014による平均故障間隔)
または故障率を計算してノードランクテーブル12に登
録する。ノードランク登録部11は、信頼度データ登録
部15によって起動され、ノードランクテーブル12か
ら各ノードのMTBF又は故障率を読み出してノードの
ランクを求め、ノードランクテーブル12に登録する。
ジョブランク判定部10は、入力装置2からジョブ情報
を入力し、指定された優先度からジョブのランクを判定
する。ジョブ情報に優先度の指定がなく、ジョブランク
テーブル16にジョブランクが登録されていれば、登録
されたランクを採用する。ノード選択部13は、ノード
ランクテーブル12を参照して決定したジョブの優先度
ランクに等しい信頼度ランクをもつノードを選択する。
ジョブ投入部14は、選択されたノードにジョブを投入
する。ノード31,32,・・・33の各ノードは、O
Sを有し、そのジョブ管理プログラムは投入されたジョ
ブのJCLを受け取ってジョブの実行を開始する。なお
以下の説明では、簡単のためにすべてのノード31,3
2,・・・33のプロセッサ性能が同じとする。また各
ノードは、ジョブを実行するために必要なプログラム、
記憶装置、入出力装置等の資源を備えているものとす
る。またノード1内の上記プログラムを記憶媒体に格納
し、ノード1に接続された駆動装置を介してノード1の
主記憶装置に読み込み、実行することができる。
【0008】図2は、ノードランクテーブル12及びジ
ョブランクテーブル16のデータ構成を示す図である。
ノードランクテーブル12は、各ノードごとにノードの
識別子、MTBF、信頼度のランク及び使用中フラグを
格納する。MTBFはそのノード(あるいはそのノード
を構成するプロセッサ)の最新のMTBF値である。ラ
ンクはMTBFから定まるノードのランクであり、A〜
Cのいずれかにランク付けされる。ノードが使用できな
いとき、ノードはDにランク付けされる。MTBFの代
わりにノードの故障率を信頼度の指標としてもよい。そ
のときにはランクは、故障率から定まる信頼度のランク
である。使用中フラグは、ノードが使用されているか否
かを示すフラグである。
【0009】ジョブランクテーブル16は、各ジョブに
ついてジョブ名と対応する優先度のランクを格納する。
ランクはA〜Cのいずれかにランク付けされる。なおジ
ョブのランクを登録する代わりにジョブ名、ユーザ名又
はプログラム名のみを登録してもよい。
【0010】図3は、信頼度データ登録部15及びノー
ドランク登録部11の処理の流れを示すフローチャート
である。信頼度データ登録部15及びノードランク登録
部11は、周期的に起動されて実行される。信頼度デー
タ登録部15は、ノード31,32,・・・33に問い
合わせて各ノードの動作時間データを収集する(ステッ
プ41)。動作時間はノードを構成するプロセッサが故
障なく連続して動作した時間であり、各ノードについて
故障回数だけの連続動作時間が存在する。信頼度データ
登録部15が動作時間を収集できないノードは、使用不
可能のノードとみなす。あるいはノードの使用可能性を
別途問い合わせてチェックしてもよい。次に各ノードに
ついて少なくとも1つの連続動作時間からMTBFを計
算し(ステップ42)、ノードランクテーブル12の当
該ノードの欄に格納する(ステップ43)。各ノードが
連続動作時間の代わりに稼動時間積算値と故障回数を記
録していれば、これらのデータを収集し、MTBFの代
わりに故障率(単位時間当りの故障確率)を計算してノ
ードランクテーブル12に格納する。故障回数が0のノ
ードについては、例えば平均のMTBF又は故障率を仮
定できる。
【0011】次にノードランク登録部11は、ノードラ
ンクテーブル12の終端に達していなければ(ステップ
44NO)、次のノードを選択し(ステップ45)、信
頼度データ登録部15からの報告によってノードが使用
可能か否かを判定する(ステップ46)。ノードが使用
可能であれば(ステップ46YES)、ノードのMTB
FからA〜Cのいずれかにランク付けする(ステップ4
7)。ランク付けの方法として、例えばノードのMTB
Fが正規分布に従って分布していると仮定したとき、M
TBFの平均±分散の範囲をランクBとし、この範囲以
上のMTBFをランクA、この範囲以下のMTBFをラ
ンクCとするなどの方法がある。故障率のランク付けに
ついても同様に故障率の逆数についてA〜Cのランク付
けをすることができる。次に決定したランクをノードラ
ンクテーブル12の当該ノードの欄に格納する(ステッ
プ48)。現在ノードが使用可能でなければ(ステップ
46NO)、ランクDとし、ノードランクテーブル12
の当該ノードの欄に格納する(ステップ48)。ある基
準より悪いMTBF又は故障率をもつノードをランクD
にランク付けしてもよい。ノードランクテーブル12の
終端に達し、すべてのノードの処理を終了したとき(ス
テップ44YES)、処理を終了する。
【0012】図4は、ジョブランク判定部10の処理の
流れを示すフローチャートである。ジョブランク判定部
10は、入力装置2から各ジョブ、すなわちジョブのJ
CL(ジョブ制御言語)を入力する。最初にジョブの優
先度のランクをCとする(ステップ51)。ジョブのJ
CLに優先度の指定があれば(ステップ52YES)、
指定された優先度によってランクを変更する(ステップ
54)。JCLに記述されたジョブの優先度のレベル分
けとランクA〜Cが一致していない場合には、ジョブの
優先度をランクA〜Cに変換する。ジョブランクテーブ
ル16に登録されたジョブであれば(ステップ53YE
S)、登録されたランクをジョブのランクとする(ステ
ップ54)。優先度の指定はないが、重要なユーザ又は
ジョブとしてユーザ名又はジョブ名が登録されていれば
(ステップ55YES)、ランクCを1つ上げてBにす
る(ステップ56)。またジョブ情報中に実行を指定さ
れているプログラム名が登録されているプログラムであ
れば(ステップ57YES)、ジョブのランクを1つ上
げる(ステップ58)。登録されているプログラムと
は、例えばプログラム実行途中で実行中断されたとき再
実行できないようなプログラムである。
【0013】図5は、ノード選択部13及びジョブ投入
部14の処理の流れを示すフローチャートである。ノー
ド選択部13は、ノードランクテーブル12を参照して
使用中フラグがオフであり、かつジョブのランクに等し
いランクをもつノードを検索する(ステップ61)。該
当するノードがあれば(ステップ62YES)、ステッ
プ64へ行く。該当ノードがなければ(ステップ62N
O)、上位ランクのノードを選択する(ステップ6
3)。次にノードランクテーブル12の選択したノード
の使用中フラグをオンにする(ステップ64)。ジョブ
投入部14は、選択したノードにジョブを投入する(ス
テップ65)。上位ランクの該当するノードがなければ
ジョブの投入を停止する。この後ジョブはノード31〜
33のうちの選択されたノードで実行される。ノードか
らジョブの終了が報告されたとき、ノード選択部13は
ノードランクテーブル12中の当該ノードの使用中フラ
グをオフにする。なお上記実施形態では使用されていな
いノードを選択したが、使用中フラグの代わりに使用ジ
ョブ数を計数し、ジョブのランクに等しいランクをもつ
ノードを選択するとき、使用ジョブ数が最小でありかつ
ジョブのランクに等しいランクをもつノードを選択する
ようにしてもよい。この場合には、使用ジョブ数が所定
数に達していて使用ジョブ数が最小のノードがないとき
に上位ランクのノードを選択する。
【0014】
【発明の効果】本発明によれば、各ノードの信頼度ラン
クとジョブの優先度ランクのマッチングによってジョブ
を投入するノードを決定するので、ジョブの優先度に応
じてジョブの実行環境の信頼性を確保することができ
る。
【図面の簡単な説明】
【図1】実施形態の並列計算機システムの構成図であ
る。
【図2】実施形態のノードランクテーブル12及びジョ
ブランクテーブル16のデータ構成を示す図である。
【図3】実施形態の信頼度データ登録部15及びノード
ランク登録部11の処理の流れを示すフローチャートで
ある。
【図4】実施形態のジョブランク判定部10の処理手順
を示すフローチャートである。
【図5】実施形態のノード選択部13及びジョブ投入部
14の処理の流れを示すフローチャートである。
【符号の説明】
1:ノード、10:ジョブランク判定部、11:ノード
ランク登録部、12:ノードランクテーブル、13:ノ
ード選択部、14:ジョブ投入部、15:信頼度データ
登録部、16:ジョブランクテーブル、31,32,3
3:ノード

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】並列計算機を構成する複数の計算機の中か
    らジョブ投入の対象とする計算機を選択する方法におい
    て、 並列計算機を構成する計算機の各々について信頼度デー
    タを収集して信頼度の程度に従って複数の信頼度ランク
    のいずれかに区分し、ジョブについての情報を入力しジ
    ョブの優先度の程度に従って該信頼度ランクと同じラン
    ク数をもつ優先度ランクのいずれかに区分し、ジョブの
    優先度ランクと同じ信頼度ランクをもつ計算機をジョブ
    投入する計算機として選択することを特徴とするジョブ
    投入計算機の選択方法。
  2. 【請求項2】各計算機の故障率に基づいて該信頼度ラン
    クを区分することを特徴とする請求項1記載のジョブ投
    入計算機の選択方法。
  3. 【請求項3】各計算機のMTBF(平均故障間隔)に基
    づいて該信頼度ランクを区分することを特徴とする請求
    項1記載のジョブ投入計算機の選択方法。
  4. 【請求項4】並列計算機を構成する複数の計算機の中か
    らジョブ投入の対象とする計算機を選択する計算機にお
    いて、 並列計算機を構成する計算機の各々について信頼度デー
    タを収集して信頼度の程度に従って複数の信頼度ランク
    のいずれかに区分する手段と、ジョブについての情報を
    入力しジョブの優先度の程度に従って該信頼度ランクと
    同じランク数をもつ優先度ランクのいずれかに区分する
    手段と、ジョブの優先度ランクと同じ信頼度ランクをも
    つ計算機をジョブ投入する計算機として選択する手段と
    を有することを特徴とするジョブ投入計算機の選択方
    法。
  5. 【請求項5】コンピュータ読み取り可能な記憶媒体上に
    実体化され、並列計算機を構成する複数の計算機の中か
    らジョブ投入の対象とする計算機を選択するコンピュー
    タプログラムであって、該プログラムは下記ステップを
    含む: (a)並列計算機を構成する計算機の各々について信頼
    度データを収集して信頼度の程度に従って複数の信頼度
    ランクのいずれかに区分し、 (b)ジョブについての情報を入力しジョブの優先度の
    程度に従って該信頼度ランクと同じランク数をもつ優先
    度ランクのいずれかに区分し、 (c)ジョブの優先度ランクと同じ信頼度ランクをもつ
    計算機をジョブ投入する計算機として選択する。
JP23917897A 1997-09-04 1997-09-04 並列計算機におけるジョブ投入計算機の選択方法及び装置 Pending JPH1185707A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23917897A JPH1185707A (ja) 1997-09-04 1997-09-04 並列計算機におけるジョブ投入計算機の選択方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23917897A JPH1185707A (ja) 1997-09-04 1997-09-04 並列計算機におけるジョブ投入計算機の選択方法及び装置

Publications (1)

Publication Number Publication Date
JPH1185707A true JPH1185707A (ja) 1999-03-30

Family

ID=17040891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23917897A Pending JPH1185707A (ja) 1997-09-04 1997-09-04 並列計算機におけるジョブ投入計算機の選択方法及び装置

Country Status (1)

Country Link
JP (1) JPH1185707A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003131905A (ja) * 2001-10-26 2003-05-09 Sitecare Kk 管理サーバシステム
JP2007241803A (ja) * 2006-03-10 2007-09-20 Fujitsu Ltd セキュリティ管理プログラム、セキュリティ管理装置、およびセキュリティ管理方法
JP2007305101A (ja) * 2006-04-10 2007-11-22 Fujitsu Ltd 資源ブローカリングプログラム、該プログラムを記録した記録媒体、資源ブローカリング装置、および資源ブローカリング方法
WO2008041302A1 (en) * 2006-09-29 2008-04-10 Fujitsu Limited Server disposing program and server disposing method
US7707580B2 (en) 2004-01-28 2010-04-27 Kabushiki Kaisha Toshiba Parallel computing method, parallel computing program and computer
JP2011013822A (ja) * 2009-06-30 2011-01-20 Nec Corp 情報システム、制御装置、そのデータ処理方法およびプログラム
WO2011121681A1 (ja) * 2010-03-31 2011-10-06 株式会社日立製作所 ジョブスケジュールシステム、ジョブスケジュール管理方法及び記録媒体
JP2012221037A (ja) * 2011-04-05 2012-11-12 Toshiba Corp 配置計画生成装置及びプログラム
WO2023240767A1 (zh) * 2022-06-16 2023-12-21 长鑫存储技术有限公司 存储器芯片的评测方法、访问方法、装置及存储介质

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003131905A (ja) * 2001-10-26 2003-05-09 Sitecare Kk 管理サーバシステム
US7707580B2 (en) 2004-01-28 2010-04-27 Kabushiki Kaisha Toshiba Parallel computing method, parallel computing program and computer
JP2007241803A (ja) * 2006-03-10 2007-09-20 Fujitsu Ltd セキュリティ管理プログラム、セキュリティ管理装置、およびセキュリティ管理方法
JP2007305101A (ja) * 2006-04-10 2007-11-22 Fujitsu Ltd 資源ブローカリングプログラム、該プログラムを記録した記録媒体、資源ブローカリング装置、および資源ブローカリング方法
JP4557949B2 (ja) * 2006-04-10 2010-10-06 富士通株式会社 資源ブローカリングプログラム、該プログラムを記録した記録媒体、資源ブローカリング装置、および資源ブローカリング方法
WO2008041302A1 (en) * 2006-09-29 2008-04-10 Fujitsu Limited Server disposing program and server disposing method
JPWO2008041302A1 (ja) * 2006-09-29 2010-01-28 富士通株式会社 サーバ配備プログラム及びサーバ配備方法
JP4992905B2 (ja) * 2006-09-29 2012-08-08 富士通株式会社 サーバ配備プログラム及びサーバ配備方法
US8661130B2 (en) 2006-09-29 2014-02-25 Fujitsu Limited Program, method, and apparatus for dynamically allocating servers to target system
JP2011013822A (ja) * 2009-06-30 2011-01-20 Nec Corp 情報システム、制御装置、そのデータ処理方法およびプログラム
WO2011121681A1 (ja) * 2010-03-31 2011-10-06 株式会社日立製作所 ジョブスケジュールシステム、ジョブスケジュール管理方法及び記録媒体
JP2011215661A (ja) * 2010-03-31 2011-10-27 Hitachi Ltd ジョブスケジュールシステム、ジョブスケジュール管理方法及びプログラム。
JP2012221037A (ja) * 2011-04-05 2012-11-12 Toshiba Corp 配置計画生成装置及びプログラム
WO2023240767A1 (zh) * 2022-06-16 2023-12-21 长鑫存储技术有限公司 存储器芯片的评测方法、访问方法、装置及存储介质

Similar Documents

Publication Publication Date Title
US7721290B2 (en) Job scheduling management method using system resources, and a system and recording medium for implementing the method
WO2006100752A1 (ja) 分散処理管理装置、分散処理管理方法、分散処理管理プログラム
JP4629587B2 (ja) 予約管理プログラム
JP3658420B2 (ja) 分散処理システム
US9307048B2 (en) System and method for proactive task scheduling of a copy of outlier task in a computing environment
JP4992408B2 (ja) ジョブ割当プログラム、方法及び装置
CN1954294A (zh) 网格计算***、信息处理装置、作业执行请求生成装置、控制方法、程序以及记录介质
JP2004302937A (ja) プログラム配置方法及びその実施システム並びにその処理プログラム
CN108616424B (zh) 一种资源调度方法、计算机设备和***
JP2017016541A (ja) 情報処理装置、並列計算機システム、ジョブスケジュール設定プログラムおよびジョブスケジュール設定方法
JPH1185707A (ja) 並列計算機におけるジョブ投入計算機の選択方法及び装置
US11212174B2 (en) Network management device and network management method
CN114995974A (zh) 任务调度方法、装置、存储介质及计算机设备
GB2463546A (en) Handling malfunction/trouble in an information system comprising prioritising, searching and recommending previously executed trouble handling methods
JP5515889B2 (ja) 仮想マシンシステム、自動マイグレーション方法および自動マイグレーションプログラム
US20210158248A1 (en) Computer system and resource management method
JP3429582B2 (ja) マルチプロセッサシステム
JPH0793262A (ja) アプリケーションツール実行管理システム
JP5056346B2 (ja) 情報処理装置、情報処理システム、仮想サーバの移動処理の制御方法、及び、プログラム
CN114780213A (zh) 高性能计算云平台资源调度方法、***及存储介质
JP7037059B2 (ja) リソース管理システム、および、リソース割当プログラム
JPH11203092A (ja) プリントシステム
JPH11120147A (ja) 負荷分散制御方法
JP4363914B2 (ja) クラスタシステム
JPH05313921A (ja) ジョブ実行制御方式