JPH09212467A - Load decentralization control system - Google Patents

Load decentralization control system

Info

Publication number
JPH09212467A
JPH09212467A JP8013522A JP1352296A JPH09212467A JP H09212467 A JPH09212467 A JP H09212467A JP 8013522 A JP8013522 A JP 8013522A JP 1352296 A JP1352296 A JP 1352296A JP H09212467 A JPH09212467 A JP H09212467A
Authority
JP
Japan
Prior art keywords
computer
job
cpu
load
load information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8013522A
Other languages
Japanese (ja)
Inventor
Masanori Ito
雅典 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP8013522A priority Critical patent/JPH09212467A/en
Publication of JPH09212467A publication Critical patent/JPH09212467A/en
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)

Abstract

PROBLEM TO BE SOLVED: To improve the throughput of a parallel computer system by making CPU capability and the number of CPUs different, computer by computer, automatically selecting a parallel computer including a virtual computer which executes a batch job and distributing jobs, and decentralizing loads. SOLUTION: A job distribution destination determination part 9 of an operating system 5 distributes a job to a distribution destination determined by a job distribution destination determination part 9, which determines the computer 2 having the highest redundant capability as the job distribution destination. A slave computer is so informed by a job distribution destination information part 13 as to distribute the job to the computer 2 at the determined distribution destination. Further, information on jobs fed to other slave computers is received by a job information reception part 16. Consequently, the throughput of the parallel computer system including the virtual computer can be improved.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、並列型計算機の各
計算機に負荷を分散する負荷分散制御システムに関する
ものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a load balancing control system for balancing loads among computers of a parallel type computer.

【0002】近年の計算機システムにおいて、業務処理
容量の増大、処理速度の高速化、連続運用の必要性、信
頼性の向上が要求されている。このため、仮想計算機を
混在でき、システムの運用中に動的に稼働計算機の数を
増減できる並列型計算機システムが提供されている。こ
の並列型計算機システムでは、CPU能力の異なる計算
機とCPU能力が可変の計算機が混在し、計算機によっ
てCPU負荷状態が異なり、かつ並列計算機システムで
稼働する計算機の数が動的に変動するため、並列型計算
機システム全体の処理容量と処理速度を高めるためには
各計算機のCPU負荷を平準化する必要がある。しか
し、ユーザが各計算機のCPU負荷を平準化するのは困
難であるために、システムが自動的にバッチジョブを実
行する計算機を決定することが望まれている。
In recent computer systems, there is a demand for increased business processing capacity, increased processing speed, necessity for continuous operation, and improved reliability. Therefore, there is provided a parallel computer system in which virtual computers can be mixed and the number of operating computers can be dynamically increased or decreased during system operation. In this parallel computer system, computers having different CPU capacities and computers having variable CPU capacities coexist, the CPU load states differ from computer to computer, and the number of computers operating in the parallel computer system dynamically fluctuates. In order to increase the processing capacity and processing speed of the entire computer system, it is necessary to equalize the CPU load of each computer. However, since it is difficult for the user to level the CPU load of each computer, it is desired that the system automatically determine the computer to execute the batch job.

【0003】[0003]

【従来の技術】従来の並列型計算機システムは、図9に
示すように、同じ能力のCPUを同じ台数備えた計算機
を並列に接続する。この並列型計算機システムにおける
負荷分散を行う手法は、OSが自計算機のCPU使用率
を求めて他の全ての計算機に送信して知らせる。そし
て、ジョブがある計算機に投入された場合、最もCPU
使用率の低い計算機が余剰CPU能力が大きいとみなし
てジョブを配送し、その計算機にジョブの実行をさせる
(自計算機の余剰CPU能力が大きいときは自計算機が
ジョブを実行する)。
2. Description of the Related Art In a conventional parallel computer system, as shown in FIG. 9, computers having the same number of CPUs having the same capacity are connected in parallel. In the method of load balancing in this parallel computer system, the OS obtains the CPU usage rate of its own computer and sends it to all other computers to notify it. When the job is submitted to a computer, the CPU
A computer having a low usage rate considers that the surplus CPU capacity is large, delivers the job, and causes the computer to execute the job (when the surplus CPU capacity of the self computer is large, the self computer executes the job).

【0004】[0004]

【発明が解決しようとする課題】上述した並列型計算機
システムでは、並列型計算機システムを構成する計算機
ごとに1台あたりのCPU能力が違う場合や、CPUご
との能力が同じでも台数が違う場合には、CPU使用率
が同じでもあっても余剰CPU能力が同じとは限らない
から、CPU使用率の最も低い計算機にジョブを配送し
ても、ジョブを最も高速に実行できるとはならない問題
が発生する。
In the above-mentioned parallel computer system, when the CPU capacity per computer is different for each computer constituting the parallel computer system, or when the CPU capacity is the same but the number is different. Has the same surplus CPU power even if the CPU usage rate is the same. Therefore, even if the job is delivered to the computer with the lowest CPU usage rate, the job cannot be executed at the highest speed. To do.

【0005】また、並列型計算機システムには仮想計算
機が混在できるが、仮想計算機には通常、次の3種類の
動作モードがある。 ・AUTOモード:同じ計算機上で走行する他の仮想計
算機が要求するCPU能力と競合しない限り必要なだけ
可変にCPU能力を使用できるモードである。
Although virtual computers can coexist in a parallel computer system, virtual computers usually have the following three types of operation modes. -AUTO mode: A mode in which the CPU power can be variably used as needed unless it competes with the CPU power required by another virtual computer running on the same computer.

【0006】・上限AUTOモード:AUTOモードの
仮想計算機と同じ計算機上で共存可能で、決められた比
率(CPU配分比)しかCPU能力を使用できないモー
ドである。
Upper limit AUTO mode: A mode in which the virtual machine in the AUTO mode can coexist on the same computer and the CPU capacity can be used only by a predetermined ratio (CPU distribution ratio).

【0007】・ロジカルモード:AUTOモードや上限
AUTOモードとは同じ計算機上で共存できないが、1
台の計算機のCPU能力を任意の固定比率(CPU配分
比)に分割して使用するモードである。
Logical mode: coexistence with AUTO mode and upper limit AUTO mode on the same computer, but 1
In this mode, the CPU power of each computer is divided into an arbitrary fixed ratio (CPU distribution ratio) for use.

【0008】これらの仮想計算機システムはそれぞれ独
立に、その上で走行するソフトウェアから認識できるC
PU(論理CPU)の数を定義することができる。この
ため、上限AUTOモードとロジカルモードの仮想計算
機は、実CPUの能力のうち配分比だけのCPU能力を
持つ計算機と見なせるから、上記した問題が発生する。
また、仮想計算機システムは、動的にCPU配分比を変
更でき、上限AUTOモードとロジカルモードの仮想計
算機において、異なる時刻に同じCPU使用率であって
も、余剰CPU能力が同じとは限らないという問題も発
生する。
Each of these virtual computer systems can be independently recognized by software running on it.
The number of PUs (logical CPUs) can be defined. For this reason, the virtual machines in the upper limit AUTO mode and the logical mode can be regarded as a computer having a CPU capacity corresponding to the distribution ratio among the capabilities of the real CPUs, so that the above-mentioned problem occurs.
In addition, the virtual computer system can dynamically change the CPU distribution ratio, and even in the virtual machines of the upper limit AUTO mode and the logical mode, even if the CPU usage rate is the same at different times, the surplus CPU power is not always the same. Problems also occur.

【0009】また、計算機の実記憶負荷が高く、仮想計
算機が過剰に動作し、外部ページと実ページで過剰に交
換が行われている場合には、ページングI/O待ちが頻
発してCPU使用率が低くなることがあり、この場合
に、新たにジョブを動作させると、実記憶負荷が更に高
くなり、ページングI/O待ちがより頻繁に発生し、C
PU使用率が更に低くなって仮想計算機の処理効率が低
下してしまう問題が発生する(この場合には、従来の負
荷分散の手法では、ジョブを配送するのは逆効果となっ
てしまう点で問題である)。
Further, when the real memory load of the computer is high, the virtual computer is excessively operated, and the external page and the real page are excessively exchanged, paging I / O waiting frequently occurs and the CPU is used. If the job is newly started in this case, the real storage load is further increased, the paging I / O wait occurs more frequently, and the C
There is a problem that the PU usage rate becomes even lower and the processing efficiency of the virtual machine decreases (in this case, the conventional load balancing method would have the disadvantage that delivering the job would have an adverse effect. Is a problem).

【0010】本発明は、これらの問題を解決するため、
計算機ごとにCPU能力および台数が異なりしかも仮想
計算機が混在する並列型計算機システムであってもバッ
チジョブを実行する計算機を自動的に選択してジョブを
配送し負荷分散を図り、並列型計算機システムの処理効
率を高めることを目的としている。
The present invention solves these problems.
Even in a parallel computer system in which the CPU capacity and the number of computers are different for each computer and virtual computers coexist, a computer that executes a batch job is automatically selected, the job is distributed, and the load is distributed. The purpose is to improve processing efficiency.

【0011】[0011]

【課題を解決するための手段】図1を参照して課題を解
決するための手段を説明する。図1において、並列型計
算機システム1は、複数の計算機2および仮想計算機2
を相互に接続して並列処理を行うためのものである。
Means for solving the problem will be described with reference to FIG. In FIG. 1, a parallel computer system 1 includes a plurality of computers 2 and a virtual computer 2.
Are connected to each other for parallel processing.

【0012】計算機2および仮想計算機2は、ジョブを
実行するものである。仮想計算機2は、計算機(実計算
機)2に任意の個数を動的に設けることができる。ここ
で、計算機(マスタ)2は、負荷情報収集手段21、余
剰能力評価手段22などから構成されるものである。
The computer 2 and the virtual computer 2 execute jobs. An arbitrary number of virtual computers 2 can be dynamically provided in the computer (real computer) 2. Here, the computer (master) 2 is composed of a load information collection means 21, a surplus capacity evaluation means 22, and the like.

【0013】負荷情報収集手段21は、計算機(スレー
ブ)2から負荷情報などを収集するものである。余剰能
力評価手段22は、各計算機から収集した負荷情報をも
とに当該計算機の余剰能力を評価して算出するものであ
る。
The load information collecting means 21 collects load information and the like from the computer (slave) 2. The surplus capacity evaluation unit 22 evaluates and calculates the surplus capacity of the computer based on the load information collected from each computer.

【0014】次に、動作を説明する。計算機(マスタ)
2の負荷情報収集手段21が各計算機から負荷情報を収
集し、余剰能力評価手段22がこの収集した負荷情報を
もとに余剰能力を評価して算出し、いずれかの計算機2
にジョブが投入されたときに当該ジョブ情報の通知を受
けた計算機(マスタ)2が評価した余剰能力が最も高い
計算機2を選択し、ジョブを受け付けた計算機2が最も
余剰能力が高いときはその計算機2にジョブを実行さ
せ、一方、ジョブを受け付けた計算機以外の他の計算機
2が最も余剰能力の高いときはそのジョブを受け付けた
計算機2にジョブを転送させ実行させるようにしてい
る。
Next, the operation will be described. Calculator (master)
The load information collecting unit 21 of No. 2 collects the load information from each computer, and the surplus capacity evaluating unit 22 evaluates and calculates the surplus capacity based on the collected load information.
When a job is submitted to a computer, the computer 2 having the highest surplus capacity evaluated by the computer (master) 2 notified of the job information is selected, and when the computer 2 receiving the job has the highest surplus capacity, The computer 2 is made to execute the job, and when the computer 2 other than the computer that has received the job has the highest surplus capacity, the computer 2 that has received the job is made to transfer and execute the job.

【0015】この際、実記憶に対する負荷が所定負荷よ
りも高くて過負荷と判明したときにその計算機2を除外
して他の計算機2について余剰能力を評価して算出し、
最も余剰能力の高い計算機にジョブを実行させるように
している。
At this time, when the load on the real memory is higher than the predetermined load and it is determined that the load is overloaded, the computer 2 is excluded, and the surplus capacity is evaluated and calculated for the other computers 2,
The computer with the highest surplus capacity is made to execute the job.

【0016】また、余剰能力として、各計算機2のCP
U処理時間+CPU待ち時間、あるいはCPU処理時間
+CPU待ち時間+I/O処理時間+I/O待ち時間と
して算出するようにしている。
As the surplus capacity, the CP of each computer 2
The calculation is performed as U processing time + CPU waiting time or CPU processing time + CPU waiting time + I / O processing time + I / O waiting time.

【0017】従って、計算機ごとにCPU能力および台
数が異なり、しかも仮想計算機が混在する並列型計算機
システムであってもバッチジョブを実行する計算機(仮
想計算機を含む)2を自動的に選択してジョブを配送し
負荷分散を図ることにより、並列型計算機システムの処
理効率を高めることが可能となる。
Therefore, even in a parallel computer system in which the CPU capacity and the number of computers are different for each computer and virtual computers coexist, a computer (including a virtual computer) 2 that executes a batch job is automatically selected and a job is executed. By distributing and distributing the load, the processing efficiency of the parallel computer system can be improved.

【0018】[0018]

【発明の実施の形態】次に、図1から図8を用いて本発
明の実施の形態および動作を順次詳細に説明する。
BEST MODE FOR CARRYING OUT THE INVENTION Next, an embodiment and an operation of the present invention will be sequentially described in detail with reference to FIGS.

【0019】図1は、本発明のシステム構成図を示す。
図1において、負荷情報制御テーブル23は、計算機2
から収集した負荷情報を記憶したり、これら記憶した負
荷情報からジョブを実行させる計算機2を選択する時点
で余剰能力としてエラップス期待値を計算して設定する
ものである(後述する図5参照)。ここで、エラップス
期待値の最も小さい計算機2にジョブを配送するように
する。
FIG. 1 shows a system configuration diagram of the present invention.
In FIG. 1, the load information control table 23 is the computer 2
The load information collected from the above is stored, or the expected Elaps value is calculated and set as the surplus capacity at the time of selecting the computer 2 that executes the job from the stored load information (see FIG. 5 described later). Here, the job is delivered to the computer 2 having the smallest Elaps expected value.

【0020】次に、図2を用いて計算機(マスタ)2お
よび図3を用いて計算機(スレーブ)2の構成を順次詳
細に説明する。図2は、本発明の計算機(マスタ)例を
示す。これは、図1の計算機(マスタ)2の詳細構成図
であって、図1の負荷情報収集手段21は図2のCPU
負荷情報収集部10に対応し、図1の余剰能力評価手段
22は図2のジョブ配送先決定部9の一部に含まれるも
のである。
Next, the configurations of the computer (master) 2 and the computer (slave) 2 will be sequentially described in detail with reference to FIG. 2 and FIG. FIG. 2 shows an example of a computer (master) of the present invention. This is a detailed configuration diagram of the computer (master) 2 of FIG. 1, and the load information collecting means 21 of FIG. 1 is the CPU of FIG.
Corresponding to the load information collection unit 10, the surplus capacity evaluation unit 22 of FIG. 1 is included in a part of the job delivery destination determination unit 9 of FIG.

【0021】図2において、OS5は、オペレーティン
グシステムであって、全体を統括制御するものであり、
ジョブ実行部7、ジョブ配送部8、ジョブ配送先決定部
9、CPU負荷情報収集部10、CPU負荷情報受信部
12、ジョブ配送先通知部13、ジョブ受付部14、ジ
ョブ情報受信部16などから構成されるものである。
In FIG. 2, an OS 5 is an operating system that controls the entire system,
From the job execution unit 7, the job delivery unit 8, the job delivery destination determination unit 9, the CPU load information collection unit 10, the CPU load information reception unit 12, the job delivery destination notification unit 13, the job reception unit 14, the job information reception unit 16, and the like. It is composed.

【0022】ジョブ配送部8は、ジョブ配送先決定部9
によって決定された配送先にジョブを配送するものであ
る。ジョブ配送先決定部9は、余剰能力の最も高い(エ
ラップス値の最も小さい)計算機をジョブ配送先と決定
するものである。
The job delivery section 8 includes a job delivery destination determining section 9
The job is delivered to the delivery destination determined by. The job delivery destination determination unit 9 determines the computer having the highest surplus capacity (the smallest Elaps value) as the job delivery destination.

【0023】CPU負荷情報収集部10は、計算機2の
負荷情報を収集するものである。CPU負荷情報受信部
12は、スレーブ計算機2よりCPU負荷情報を受信す
るものである。
The CPU load information collecting unit 10 collects load information of the computer 2. The CPU load information receiving unit 12 receives the CPU load information from the slave computer 2.

【0024】ジョブ配送先通知部13は、ジョブ配送先
決定部9によって決定された配送先の計算機2にジョブ
を配送するようにスレーブ計算機に通知するものであ
る。ジョブ受付部14は、投入されたジョブを受け付け
るものである。
The job delivery destination notification unit 13 notifies the slave computer to deliver the job to the delivery destination computer 2 determined by the job delivery destination determination unit 9. The job receiving unit 14 receives the input job.

【0025】ジョブ情報受信部16は、スレーブ計算機
に投入されたジョブの情報を受信するものである。図3
は、本発明の計算機(スレーブ)例を示す。これは、図
1の計算機(マスタ)2以外のスレーブの計算機2の詳
細構成図であある。
The job information receiving unit 16 receives information on jobs input to the slave computer. FIG.
Shows an example of a computer (slave) of the present invention. This is a detailed configuration diagram of a slave computer 2 other than the computer (master) 2 in FIG. 1.

【0026】図3において、OS5は、オペレーティン
グシステムであって、全体を統括制御するものであり、
ジョブ実行部7、ジョブ配送部8、CPU負荷情報収集
部10、ジョブ受付部14、ジョブ配送先受信部16、
ジョブ情報通知部17などから構成されるものである。
7、8、10、14は図2と同一であるので説明を省略
する。
In FIG. 3, OS 5 is an operating system, which controls the entire system,
A job execution unit 7, a job delivery unit 8, a CPU load information collection unit 10, a job reception unit 14, a job delivery destination reception unit 16,
The job information notification unit 17 and the like are provided.
Since 7, 8, 10, and 14 are the same as those in FIG. 2, description thereof will be omitted.

【0027】図3において、CPU負荷情報通知部11
は、CPU負荷情報などをマスタ計算機に通知するもの
である。ジョブ配送先受信部15は、ジョブの配送先を
マスタ計算機から受信するものである。
In FIG. 3, the CPU load information notifying unit 11
Is for notifying CPU load information and the like to the master computer. The job delivery destination receiving unit 15 receives the delivery destination of the job from the master computer.

【0028】ジョブ情報通知部17は、投入されたジョ
ブのジョブ情報をマスタ計算機へ通知するものである。
以下図4ないし図8を用いて図1ないし図3の構成の動
作を順次詳細に説明する。
The job information notifying section 17 notifies the master computer of the job information of the input job.
Hereinafter, the operation of the configuration of FIGS. 1 to 3 will be sequentially described in detail with reference to FIGS. 4 to 8.

【0029】図4は、本発明の動作説明図(その1)を
示す。図4の(a)は、負荷情報収集のフローチャート
を示す。図4の(a)において、ステージ1は、任意の
計算機で実行するものである。
FIG. 4 is a diagram (No. 1) for explaining the operation of the present invention. FIG. 4A shows a flowchart of load information collection. In FIG. 4A, stage 1 is executed by an arbitrary computer.

【0030】S1は、自計算機の負荷情報を収集する。
この負荷情報は、例えば図4の(b)に示すないし
の情報を収集する。S2は、マスタ計算機に通知する。
In step S1, the load information of the own computer is collected.
As the load information, for example, information shown in (b) of FIG. 4 is collected. S2 notifies the master computer.

【0031】図4の(a)において、ステージ2は、マ
スタ計算機で実行するものである。S3は、各計算機の
負荷情報を受信する。S4は、負荷情報制御テーブルに
格納する。
In FIG. 4A, stage 2 is executed by the master computer. In S3, the load information of each computer is received. S4 is stored in the load information control table.

【0032】以上のステージ1のS1、S2およびステ
ージ2のS3、S4によって、全ての計算機2の負荷情
報およびI/O負荷情報を計算機(マスタ)2が収集
し、後述する図5の負荷情報制御テーブル23のように
設定(I/O負荷情報は未設定)できたこととなる。
By the above-mentioned S1 and S2 of stage 1 and S3 and S4 of stage 2, the computer (master) 2 collects the load information and the I / O load information of all the computers 2, and the load information of FIG. This means that the setting (I / O load information has not been set) can be made as in the control table 23.

【0033】図4の(b)は、ステージ1において収集
・通知する負荷情報の例を示す。負荷情報は、図示の
ないしの下記のものである。 計算機識別子:並列型計算機システムを構成する各計
算機を識別するもの CPU能力 :実CPUの能力(実CPU一台当たり
のMIPS値) CPU台数(1〜N) 実CPU台数(1〜M) CPU使用率 実CPU使用率 CPU配分比:仮想計算機への実CPU能力の配分比
(動的変更可能) 計算機構成情報:実計算機、AUTOモード/上限A
UTOモード/ロジックモードの仮想計算機の区別を表
示 実記憶負荷情報:スラッシングを起こしているか否か
を表示 図4の(c)は、余剰能力の評価のフローチャートを示
す。
FIG. 4B shows an example of load information collected and notified in stage 1. The load information is as shown below or the following. Computer identifier: The one that identifies each computer that constitutes the parallel computer system CPU capacity: Real CPU capacity (MIPS value per real CPU) Number of CPUs (1 to N) Number of real CPUs (1 to M) CPU usage Percentage Real CPU usage CPU distribution ratio: Allocation ratio of real CPU capacity to virtual computers (dynamic change possible) Computer configuration information: Real computer, AUTO mode / upper limit A
Displaying the distinction between virtual machines in UTO mode / logic mode Real storage load information: Displaying whether thrashing is occurring FIG. 4 (c) shows a flowchart for evaluating surplus capacity.

【0034】図4の(c)において、ステージ1は、任
意の計算機で実行するものである。S11は、ユーザが
任意の計算機にジョブを投入する。S12は、ジョブが
投入された計算機がマスタ計算機か、スレーブ計算機か
判別する。マスタ計算機の場合には、ステージ2(図4
の(a)のステージ2)に進む。一方、スレーブ計算機
の場合には、S13でマスタ計算機に、投入されたジョ
ブの情報を通知する。
In FIG. 4C, the stage 1 is executed by an arbitrary computer. In S11, the user submits a job to any computer. In S12, it is determined whether the computer into which the job is submitted is a master computer or a slave computer. In the case of the master computer, the stage 2 (see FIG.
Go to stage 2) of (a). On the other hand, in the case of the slave computer, the information of the submitted job is notified to the master computer in S13.

【0035】以上のS11、S12によって、計算機に
投入されたジョブ情報が全てマスタ計算機に通知された
こととなる。図5は、本発明の負荷情報制御テーブル例
を示す。この負荷情報制御テーブル23は、既述した図
4のS4で、全ての計算機2から収集された負荷情報を
設定して記憶したものであって、既述した図4の(b)
のないしの情報を設定して記憶したものである。図
中の“エラップス期待値”は、ないしの情報をもと
に算出したものであって、計算機の余剰能力を表すもの
であり、小さいほど、計算機の余剰能力が高いものであ
る。このエラップス期待値は、例えば下記の式によって
計算する(尚、図5の負荷情報制御テーブル23は、C
PU処理時間+CPU待ち時間についてのものであ
る)。ジョブ投入からジョブ終了までに必要な時間(エ
ラップス期待値)は、 =CPU処理時間+CPU待ち時間 +I/O処理時間+I/O待ち時間 (式1) =CPU処理時間×(1+α(CPU数、CPU使用率)) +I/O処理時間×(1+β(チャネル数、チャネル使用率)) (式2) αとβは待ち行列理論の一般論から導かれるものであ
る。このαとβとの関係は、例えばCPUバウンドなジ
ョブであれば、必然的にCPU処理時間が大きくなり、
I/O処理時間が小さくなるので、αの大小関係に敏感
に、βの大小関係に鈍感になり、CPU負荷情報および
I/O負荷情報をまとめて計算機2の余剰能力を評価し
てエラップス値として算出することが可能となった。
By the above S11 and S12, all the job information input to the computer has been notified to the master computer. FIG. 5 shows an example of the load information control table of the present invention. The load information control table 23 is one in which the load information collected from all the computers 2 is set and stored in S4 of FIG. 4 described above, and the load information control table 23 of FIG.
This is the information that is set and stored. "Elaps expected value" in the figure is calculated on the basis of the following information, and represents the surplus capacity of the computer. The smaller the value, the higher the surplus capacity of the computer. The expected Elaps value is calculated, for example, by the following formula (note that the load information control table 23 in FIG.
PU processing time + CPU latency). The time required from job input to job end (expected Elaps value) is: CPU processing time + CPU waiting time + I / O processing time + I / O waiting time (Equation 1) = CPU processing time × (1 + α (number of CPUs, CPU Utilization rate)) + I / O processing time × (1 + β (number of channels, channel utilization rate)) (Equation 2) α and β are derived from the general theory of queuing theory. The relationship between α and β inevitably increases the CPU processing time for a CPU-bound job,
Since the I / O processing time becomes shorter, the magnitude relationship of α becomes more sensitive and the magnitude relationship of β becomes insensitive, and the CPU load information and the I / O load information are collected to evaluate the surplus capacity of the computer 2 and the Elaps value. It became possible to calculate as.

【0036】尚、I/O処理は、チャネルと呼ばれる入
出力機構を経由してディスク装置などと主記憶との間で
データの転送を行っている。1回のI/O処理にかかる
時間は、チャネル数やチャネルの使用率に影響されるの
で、上記(式2)に示すようにCPUの場合と同様に評
価するようにしている。
In the I / O processing, data is transferred between the disk device and the main memory via an input / output mechanism called a channel. Since the time required for one I / O processing is influenced by the number of channels and the usage rate of the channels, the time is evaluated in the same manner as in the case of the CPU as shown in (Equation 2).

【0037】図6は、本発明の動作説明図(その2)を
示す。図6において、ステージ2は、マスタ計算機で実
行するものである。S21は、任意の計算機より、投入
されたジョブの情報を受信する。これは、スレーブ計算
機に投入されたジョブの情報をマスタ計算機が受信、お
よびマスタ計算機に投入されたジョブの情報を受け付
け、既述した図5の負荷情報制御テーブル23に設定す
る。
FIG. 6 is a diagram for explaining the operation of the present invention (No. 2). In FIG. 6, stage 2 is executed by the master computer. In S21, the information of the input job is received from an arbitrary computer. For this, the master computer receives the information of the job input to the slave computer, receives the information of the job input to the master computer, and sets it in the load information control table 23 of FIG. 5 described above.

【0038】S22は、負荷情報制御テーブルを参照
し、各計算機の負荷情報を順々に取り出す。S23は、
実記憶負荷が過負荷か判別する。YESの場合には、S
24ないしS26をスキップしてS27に進む。一方、
NOの場合には、S24に進む。
In step S22, the load information control table is referred to, and the load information of each computer is sequentially extracted. S23 is
Determine if the real memory load is overloaded. If YES, S
Steps 24 to S26 are skipped and the process proceeds to S27. on the other hand,
In the case of NO, the process proceeds to S24.

【0039】S24は、計算機の種別を判別する。 ・実計算機またはAUTOモードの仮想計算機の場合に
は、S26に示す下記の式4によって当該計算機のエラ
ップス期待値を評価し、S27に進む。
In step S24, the type of computer is determined. In the case of a real computer or a virtual computer in the AUTO mode, the Elaps expected value of the computer is evaluated by the following equation 4 shown in S26, and the process proceeds to S27.

【0040】 (1+α(実CPU数、実CPU使用率))/CPU能力 (式4) ・上限AUTOモード仮想計算機またはロジカルモード
仮想計算機の場合には、S25に示す下記の式5によっ
て当該計算機のエラップス期待値を評価し、S27に進
む。
(1 + α (actual CPU number, actual CPU usage rate)) / CPU capacity (Equation 4) ・ In the case of an upper limit AUTO mode virtual computer or a logical mode virtual computer, Elaps expected value is evaluated, and the process proceeds to S27.

【0041】 (1+α(実CPU数、実CPU使用率))/(CPU能力×CPU配分比) (式5) S27は、負荷情報制御テーブルの最後まで評価を行っ
たか判別する。YESの場合には、S28に進む。NO
の場合には、S22に戻り、繰り返す。
(1 + α (actual CPU number, actual CPU usage rate)) / (CPU capacity × CPU distribution ratio) (Equation 5) S27 determines whether the evaluation has been performed up to the end of the load information control table. If YES, the process proceeds to S28. NO
In the case of, it returns to S22 and repeats.

【0042】S28は、エラップス期待値が最小かつ実
記憶過負荷でない計算機をジョブ配送先として選択す
る。S29は、ジョブを受け付けた計算機に、選択した
計算機をジョブ配送先として通知する。そして、図7の
ステージ3へ進む。
In step S28, a computer having the smallest Elaps expected value and not having an actual memory overload is selected as the job delivery destination. In S29, the computer that has accepted the job is notified of the selected computer as the job delivery destination. And it progresses to the stage 3 of FIG.

【0043】以上のS21からS29によって、全ての
計算機から受信した負荷情報を負荷情報制御テーブル2
3に設定した後、先頭から順番に取り出して実記憶負荷
が過負荷でない場合に計算機の種別によって分けてそれ
ぞれエラップス期待値を式4あるいは式5によって計算
し、エラップス期待値が最も小さい計算機にジョブを配
送させて転送するように通知することが可能となる。そ
して、後述する図7のステージ3によってジョブをエラ
ップス期待値の最も小さい(余剰能力の最も高い)計算
機に転送して実行させることが可能となる。
Through the above steps S21 to S29, the load information received from all the computers is stored in the load information control table 2.
After setting the value to 3, the Elaps expected value is calculated according to Formula 4 or Formula 5 according to the type of the computer when the actual memory load is not overloaded by sequentially extracting from the beginning, and the computer with the smallest Elaps expected value is the job. It will be possible to notify the customer to deliver and transfer. Then, by a stage 3 of FIG. 7 which will be described later, it becomes possible to transfer the job to the computer with the smallest expected Elaps value (the highest surplus capacity) and execute it.

【0044】図7は、本発明の動作説明図(その3)を
示す。図7において、ステージ3は、ジョブを受け付け
た計算機で実行するものである。
FIG. 7 is an operation explanatory diagram (3) of the present invention. In FIG. 7, stage 3 is executed by the computer that has accepted the job.

【0045】S31は、マスタ計算機よりジョブ配送先
を受信し、ジョブをマスタ計算機から指示された計算機
に配送する。ステージ4は、ジョブを配送された計算機
で実行するものである。
In S31, the job delivery destination is received from the master computer, and the job is delivered to the computer instructed by the master computer. In stage 4, the job is executed by the delivered computer.

【0046】S41は、ジョブを受け付けた計算機より
配送されたジョブを実行する。以上のS31、S41に
よって、エラップス期待値の最も小さい計算機にジョブ
を配送して実行させることが可能となる。
In step S41, the job delivered from the computer that received the job is executed. By the above S31 and S41, it becomes possible to deliver and execute the job to the computer with the smallest expected Elaps value.

【0047】図8は、本発明の余剰能力の評価例を示
す。これは、CPU負荷情報のみをもとに余剰能力を評
価して計算したものである。以下説明する。ここで、あ
るサービスを行う複数の窓口に対する客の到着頻度がラ
ンダム到着に従い、そのサービス量が指数分布に従うと
仮定すると、到着した客がサービスを受けるまでの待ち
時間は、処理時間×(窓口の数と窓口の平均稼働率の関
数)として図8の(式6)として書けることが、待ち行
列理論の一般論として知られている。今、窓口の稼働率
をCPU使用率に、窓口の数をCPU台数に対応させ、
あるジョブを実行完了するために必要な時間をCPU待
ち時間とCPU処理時間だけで評価すれば、CPU処理
時間は、(式7)のように評価でき、ジョブの処理に必
要なダイナミックステップ数はどの計算機で走行させて
も同じだから除外して考えると、ジョブを投入してから
終了するまでに要する時間に比例する量が得られる。こ
の値(エラップス期待値)が最も小さく、かつ実記憶負
荷が過負荷状態でない計算機に対してジョブを配送し、
実行させる。ここで、I/O処理時間およびI/O待ち
時間を既述した(式1)、(式2)のように含めるよう
にしてもよい。
FIG. 8 shows an example of evaluating the surplus capacity of the present invention. This is calculated by evaluating the surplus capacity based only on the CPU load information. This will be described below. Here, if it is assumed that the arrival frequency of customers to a plurality of counters performing a certain service follows random arrival and that the service amount follows an exponential distribution, the waiting time until the arriving customers receive the service is calculated as (processing time x (counter counter). It is known as a general theory of queuing theory that it can be written as (Equation 6) in FIG. 8 as a function of the number and the average operating rate of windows. Corresponding the operating rate of the counter to the CPU usage rate and the number of the counter to the number of CPUs,
If the time required to complete the execution of a job is evaluated only by the CPU wait time and the CPU processing time, the CPU processing time can be evaluated as in (Equation 7), and the number of dynamic steps required for processing the job is Since it is the same regardless of which computer is used for running, if it is excluded, it is possible to obtain an amount proportional to the time required from the submission of a job to its completion. The job is delivered to the computer where this value (Elaps expected value) is the smallest and the real memory load is not overloaded.
Let it run. Here, the I / O processing time and the I / O waiting time may be included as in (Expression 1) and (Expression 2) described above.

【0048】[0048]

【発明の効果】以上説明したように、本発明によれば、
計算機ごとにCPU能力および台数が異なり、しかも仮
想計算機が混在する並列型計算機システムであってもバ
ッチジョブを実行する計算機(仮想計算機を含む)2を
自動的に選択してジョブを配送し負荷分散を図る構成を
採用しているため、仮想計算機を含む並列型計算機シス
テムのバッチジョブを実行させる際に、最も余剰能力の
高い計算機を動的に選択してジョブを配送し実行させ、
処理効率を高めることができる。
As described above, according to the present invention,
Even in a parallel computer system in which the CPU capacity and the number of computers are different for each computer, and virtual computers coexist, the computers (including virtual computers) 2 that execute batch jobs are automatically selected and the jobs are distributed to distribute the load. Because of the adoption of the configuration, when executing a batch job of a parallel computer system including a virtual machine, the computer with the highest surplus capacity is dynamically selected and the job is delivered and executed.
The processing efficiency can be improved.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明のシステム構成図である。FIG. 1 is a system configuration diagram of the present invention.

【図2】本発明の計算機(マスタ)例である。FIG. 2 is an example of a computer (master) of the present invention.

【図3】本発明の計算機(スレーブ)例である。FIG. 3 is an example of a computer (slave) of the present invention.

【図4】本発明の動作説明図(その1)である。FIG. 4 is an operation explanatory diagram (1) of the present invention.

【図5】本発明の負荷制御情報テーブル例である。FIG. 5 is an example of a load control information table of the present invention.

【図6】本発明の動作説明図(その2)である。FIG. 6 is an operation explanatory diagram (2) of the present invention.

【図7】本発明の動作説明図(その3)である。FIG. 7 is an operation explanatory diagram (3) of the present invention.

【図8】本発明の余剰能力の評価例である。FIG. 8 is an example of evaluation of surplus capacity of the present invention.

【図9】従来技術の説明図である。FIG. 9 is an explanatory diagram of a conventional technique.

【符号の説明】[Explanation of symbols]

1:並列型計算機システム 2:計算機、仮想計算機 21:負荷情報収集手段 22:余剰能力評価手段 23:負荷情報制御テーブル 1: parallel computer system 2: computer, virtual computer 21: load information collecting means 22: surplus capacity evaluation means 23: load information control table

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】並列型計算機の各計算機に負荷を分散する
負荷分散制御システムにおいて、 各計算機(仮想計算機を含む、以下同様)の負荷情報の
通知を受けて余剰能力を評価して算出する余剰能力評価
手段と、 いずれかの計算機にジョブが投入されたときに当該ジョ
ブ情報の通知を受けて上記評価した余剰能力が最も高い
計算機を選択し、ジョブを受け付けた計算機が最も余剰
能力が高いときはその計算機にジョブを実行させ、一
方、ジョブを受け付けた計算機以外の他の計算機が最も
余剰能力が高いときはそのジョブを受け付けた計算機に
ジョブを転送させて実行させる手段とを並列型計算機の
うちのマスタ計算機に備えたことを特徴とする負荷分散
制御システム。
1. A surplus calculated in a load balancing control system in which a load is distributed to each computer of a parallel type computer, when surplus capacity is evaluated by receiving notification of load information of each computer (including a virtual computer, the same applies hereinafter). Capacity evaluation means and when a job is submitted to one of the computers, the computer with the highest surplus capacity evaluated above is selected in response to the notification of the job information, and when the computer that received the job has the highest surplus capacity Causes the computer to execute the job, and when a computer other than the computer that has accepted the job has the highest surplus capacity, it transfers the job to the computer that has accepted the job and executes it. A load balancing control system equipped with our master computer.
【請求項2】実記憶に対する負荷が所定負荷よりも高く
て過負荷と判明したときにその計算機を除外して他の計
算機について余剰能力を評価して算出することを特徴と
する請求項1記載の負荷分散制御システム。
2. The computer according to claim 1, wherein when the load on the real memory is higher than a predetermined load and it is determined that the load is overloaded, the computer is excluded and the surplus capacity is evaluated and calculated for another computer. Load balancing control system.
【請求項3】上記余剰能力として、各計算機のCPU処
理時間+CPU待ち時間、あるいはCPU処理時間+C
PU待ち時間+I/O処理時間+I/O待ち時間とした
ことを特徴とする請求項1あるいは請求項2記載の負荷
分散制御システム。
3. As the surplus capacity, CPU processing time + CPU waiting time of each computer or CPU processing time + C
3. The load balancing control system according to claim 1, wherein the PU waiting time + I / O processing time + I / O waiting time.
JP8013522A 1996-01-30 1996-01-30 Load decentralization control system Pending JPH09212467A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8013522A JPH09212467A (en) 1996-01-30 1996-01-30 Load decentralization control system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8013522A JPH09212467A (en) 1996-01-30 1996-01-30 Load decentralization control system

Publications (1)

Publication Number Publication Date
JPH09212467A true JPH09212467A (en) 1997-08-15

Family

ID=11835495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8013522A Pending JPH09212467A (en) 1996-01-30 1996-01-30 Load decentralization control system

Country Status (1)

Country Link
JP (1) JPH09212467A (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001155003A (en) * 1999-11-30 2001-06-08 Ntt Comware Corp Service recovery system and recording medium therefor
JP2004295738A (en) * 2003-03-28 2004-10-21 Nec Corp Fault-tolerant computer system, program parallelly executing method and program
WO2005076131A1 (en) * 2004-02-03 2005-08-18 Sony Corporation Information processing device, information processing method, information processing system, and information processing program
US6986139B1 (en) 1999-10-06 2006-01-10 Nec Corporation Load balancing method and system based on estimated elongation rates
US7290260B2 (en) 2003-02-20 2007-10-30 International Business Machines Corporation Dynamic processor redistribution between partitions in a computing system
JP2008293358A (en) * 2007-05-25 2008-12-04 Fujitsu Ltd Distributed processing program, distributed processing method, distributed processing apparatus, and distributed processing system
US7870439B2 (en) 2003-05-28 2011-01-11 Nec Corporation Fault tolerant multi-node computing system using periodically fetched configuration status data to detect an abnormal node
WO2011096249A1 (en) * 2010-02-05 2011-08-11 日本電気株式会社 Load control device
WO2012023190A1 (en) * 2010-08-18 2012-02-23 富士通株式会社 Communication terminal apparatus, receipt processing program, and receipt processing method
JP5206674B2 (en) * 2007-05-24 2013-06-12 日本電気株式会社 Virtual machine management apparatus, virtual machine management method, and virtual machine management program
US9384050B2 (en) 2011-03-08 2016-07-05 Fujitsu Limited Scheduling method and scheduling system for multi-core processor system

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60103458A (en) * 1983-11-09 1985-06-07 Fujitsu Ltd Automatic distribution method for allocation of application
JPS62214449A (en) * 1986-03-15 1987-09-21 Hitachi Ltd Monitoring system for virtual computer
JPH04332070A (en) * 1991-05-07 1992-11-19 Fujitsu Ltd Computer system
JPH05313924A (en) * 1992-05-13 1993-11-26 Hitachi Ltd Measuring mechanism for virtual computer
JPH05324361A (en) * 1992-05-15 1993-12-07 Fujitsu Ltd Cpu control system in virtual computer system
JPH0744405A (en) * 1993-07-30 1995-02-14 Hitachi Ltd Measuring control system for operating time of virtual computer in virtual computer system
JPH0793262A (en) * 1993-09-27 1995-04-07 Nec Corp Application tool execution managing system
JPH07234847A (en) * 1994-02-25 1995-09-05 Hitachi Ltd Scheduling method for job

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60103458A (en) * 1983-11-09 1985-06-07 Fujitsu Ltd Automatic distribution method for allocation of application
JPS62214449A (en) * 1986-03-15 1987-09-21 Hitachi Ltd Monitoring system for virtual computer
JPH04332070A (en) * 1991-05-07 1992-11-19 Fujitsu Ltd Computer system
JPH05313924A (en) * 1992-05-13 1993-11-26 Hitachi Ltd Measuring mechanism for virtual computer
JPH05324361A (en) * 1992-05-15 1993-12-07 Fujitsu Ltd Cpu control system in virtual computer system
JPH0744405A (en) * 1993-07-30 1995-02-14 Hitachi Ltd Measuring control system for operating time of virtual computer in virtual computer system
JPH0793262A (en) * 1993-09-27 1995-04-07 Nec Corp Application tool execution managing system
JPH07234847A (en) * 1994-02-25 1995-09-05 Hitachi Ltd Scheduling method for job

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6986139B1 (en) 1999-10-06 2006-01-10 Nec Corporation Load balancing method and system based on estimated elongation rates
JP2001155003A (en) * 1999-11-30 2001-06-08 Ntt Comware Corp Service recovery system and recording medium therefor
US7290260B2 (en) 2003-02-20 2007-10-30 International Business Machines Corporation Dynamic processor redistribution between partitions in a computing system
JP2004295738A (en) * 2003-03-28 2004-10-21 Nec Corp Fault-tolerant computer system, program parallelly executing method and program
US7870439B2 (en) 2003-05-28 2011-01-11 Nec Corporation Fault tolerant multi-node computing system using periodically fetched configuration status data to detect an abnormal node
US8103771B2 (en) 2004-02-03 2012-01-24 Sony Corporation Distributing processing apparatus, method, and system
WO2005076131A1 (en) * 2004-02-03 2005-08-18 Sony Corporation Information processing device, information processing method, information processing system, and information processing program
JP5206674B2 (en) * 2007-05-24 2013-06-12 日本電気株式会社 Virtual machine management apparatus, virtual machine management method, and virtual machine management program
JP2008293358A (en) * 2007-05-25 2008-12-04 Fujitsu Ltd Distributed processing program, distributed processing method, distributed processing apparatus, and distributed processing system
US8214686B2 (en) 2007-05-25 2012-07-03 Fujitsu Limited Distributed processing method
WO2011096249A1 (en) * 2010-02-05 2011-08-11 日本電気株式会社 Load control device
CN102782653A (en) * 2010-02-05 2012-11-14 日本电气株式会社 Load control device
US9086910B2 (en) 2010-02-05 2015-07-21 Nec Corporation Load control device
WO2012023190A1 (en) * 2010-08-18 2012-02-23 富士通株式会社 Communication terminal apparatus, receipt processing program, and receipt processing method
US8768330B2 (en) 2010-08-18 2014-07-01 Fujitsu Limited Communication terminal apparatus, computer product, and incoming call processing method
US9384050B2 (en) 2011-03-08 2016-07-05 Fujitsu Limited Scheduling method and scheduling system for multi-core processor system

Similar Documents

Publication Publication Date Title
JP4621087B2 (en) System and method for operating load balancer for multiple instance applications
US8161476B2 (en) Processor exclusivity in a partitioned system
JP4519098B2 (en) Computer management method, computer system, and management program
Hui et al. Improved strategies for dynamic load balancing
CN102103516B (en) Virtual-CPU based frequency and voltage scaling
JP3872343B2 (en) Workload management in a computer environment
JP5317010B2 (en) Virtual machine placement system, virtual machine placement method, program, virtual machine management device, and server device
JP2682770B2 (en) CPU control method for virtual computer system
US6587938B1 (en) Method, system and program products for managing central processing unit resources of a computing environment
JP3008896B2 (en) Interrupt Load Balancing System for Shared Bus Multiprocessor System
US8782657B2 (en) Dynamic creation and destruction of IO resources based on actual load and resource availability
US7461276B2 (en) CPU power adjustment method
EP1385091A2 (en) Dynamic management of virtual partition workload through service level optimization
EP1059582A2 (en) Virtual machine system
US7099814B2 (en) I/O velocity projection for bridge attached channel
KR20000036178A (en) Load sharing controller for optimizing monetary cost
JPH09212467A (en) Load decentralization control system
EP1393175A2 (en) A resource management method
JPH09218858A (en) Distributed type data base control system
CN115878260A (en) Low-carbon self-adaptive cloud host task scheduling system
JP6259388B2 (en) Power control device, server virtualization system, and power control method
WO2011118424A1 (en) Machine operation plan creation device, machine operation plan creation method, and machine operation plan creation program
JPH1027167A (en) Method for distributing load of parallel computer
JPH0991257A (en) Cpu management system
CN114896065A (en) Cloud host computing power providing method and system, server, equipment and storage medium

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040302