JPH0764811A - Computer backup system - Google Patents

Computer backup system

Info

Publication number
JPH0764811A
JPH0764811A JP5212892A JP21289293A JPH0764811A JP H0764811 A JPH0764811 A JP H0764811A JP 5212892 A JP5212892 A JP 5212892A JP 21289293 A JP21289293 A JP 21289293A JP H0764811 A JPH0764811 A JP H0764811A
Authority
JP
Japan
Prior art keywords
information
computer
load
shared memory
backup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5212892A
Other languages
Japanese (ja)
Other versions
JP3296378B2 (en
Inventor
Muneki Iguchi
宗樹 井口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP21289293A priority Critical patent/JP3296378B2/en
Publication of JPH0764811A publication Critical patent/JPH0764811A/en
Application granted granted Critical
Publication of JP3296378B2 publication Critical patent/JP3296378B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

PURPOSE:To improve the efficiency of a system by preventing the local degradation in performance of the system due to overload. CONSTITUTION:Plural computers 1 to 4, a shared memory 5 where down information and load information of these computers 1 to 4 are written, load recording means 1-2 to 4-2 which monitor the load states of their own computers and write the detected load information in the shared memory 5, and state monitor/backup means 1-1 to 1-4 each of which monitors the down of its own computer to write the down information in the shared memory 5 at the time of down detection and reads out down information in the shared memory 5 to monitor the down of the other computers and determines a backup computer based on load information in the shared memory 5 to execute the backup at the time of detecting the down of another computer are provided.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明は、複数の計算機から構
成されるシステムにおけるコンピュータバックアップシ
ステムに関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a computer backup system in a system composed of a plurality of computers.

【0002】[0002]

【従来の技術】従来は図9に示されるように、計算機#
0〜計算機#3から構成されるコンピュータシステム
が、共有メモリを介してダウン情報の送受を行い、1台
の計算機のダウン時には、他の計算機がダウンに係る計
算機の処理を代行する(切り換える)ように構成されて
いた。
2. Description of the Related Art Conventionally, as shown in FIG.
A computer system composed of 0 to computer # 3 sends and receives down information via a shared memory, and when one computer goes down, another computer acts (switches) on behalf of the computer involved in the down. Was configured into.

【0003】上記において、その切り換えの手法として
は、第1に、単純に計算機番号に従って、処理を代行す
るものが知られている。例えば、図9の如く計算機#0
がダウンした時には、次の計算機番号が割り当てられて
いる計算機#1が処理を代行するものが知られている。
また、他の切り換えの手法としては、ダウン時の代行先
の計算機を各計算機に対応させて定義しておくものが知
られている。
In the above, as a switching method, firstly, a method is known in which the processing is simply performed in accordance with the computer number. For example, as shown in FIG. 9, computer # 0
It is known that the computer # 1 to which the next computer number is assigned takes over the processing when is down.
Further, as another switching method, there is known a method in which a substitute computer at the time of down is defined in association with each computer.

【0004】[0004]

【発明が解決しようとする課題】しかしながら、上記の
手法のいずれにしても、代行する計算機の負荷が異常に
増加する虞があり、係る場合にはこの代行を行った計算
機の処理が遅くなり、システム上では局所的に性能が低
下するという問題点が生じていた。
However, in any of the above methods, there is a possibility that the load of the acting computer may increase abnormally, and in such a case, the processing of the acting computer becomes slow, On the system, there was a problem that the performance was locally reduced.

【0005】本発明は上記のような従来のコンピュータ
バックアップシステムにおける問題点を解決せんとして
なされたもので、その目的は、ダウンした計算機の処理
を代行する時には、負荷を考慮して代行した計算機が過
負荷状態となる可能性を少なくし、システム上では局所
的に性能が低下することをなくし、自動的にシステムの
効率的な運用が継続され得るように代行を実現するコン
ピュータバックアップシステムを提供することである。
また、本発明の他の目的は、所望により所定計算機の性
能を落としたくないような場合に、この要望を考慮しつ
つ、自動的にシステムの効率的な運用が継続され得るよ
うに代行を行うコンピュータバックアップシステムを提
供することである。
The present invention has been made in order to solve the problems in the conventional computer backup system as described above, and an object thereof is to take a load into consideration when a computer acting as a substitute computer takes over the load. To provide a computer backup system that reduces the possibility of overloading, eliminates local performance degradation on the system, and automatically implements a proxy so that efficient operation of the system can be continued. That is.
Further, another object of the present invention is to carry out the substitution so that the efficient operation of the system can be automatically continued while considering the demand when it is desired not to deteriorate the performance of the predetermined computer. The purpose is to provide a computer backup system.

【0006】[0006]

【課題を解決するための手段】そこで本発明では、複数
の計算機と、この複数の計算機のダウン情報及び負荷情
報が書き込まれる共有メモリと、各計算機毎に自機の負
荷状態を監視し、検出した負荷情報を前記共有メモリに
書き込む負荷記録手段と、各計算機毎に自機のダウンを
監視し、ダウンを検出した場合にはダウン情報を前記共
有メモリに書き込むと共に、前記共有メモリのダウン情
報を読み出し他機のダウンを監視し、他機のダウンを検
出した場合には、前記共有メモリの負荷情報に基づきバ
ックアップ計算機を決定してバックアップを実行する状
態監視/バックアップ手段とを具備させてコンピュータ
バックアップシステムを構成した。
Therefore, in the present invention, a plurality of computers, a shared memory in which down information and load information of the plurality of computers are written, and a load state of each computer are monitored and detected. Load recording means for writing the load information to the shared memory, monitoring the down of each computer for each computer, and when the down is detected, the down information is written to the shared memory and the down information of the shared memory is also written. Read-out monitors the down of another machine, and when it detects down of another machine, determines the backup computer based on the load information of the shared memory and executes a backup by providing a status monitoring / backup means for computer backup Configured the system.

【0007】更に本発明では、複数の計算機と、この複
数の計算機のダウン情報及び負荷情報が書き込まれると
共に、バックアップ時の制限に関する情報が書き込まれ
た切換制限情報テーブルを有する共有メモリと、各計算
機毎に負荷記録手段と、各計算機毎に自機のダウンを監
視し、ダウンを検出した場合にはダウン情報を前記共有
メモリに書き込むと共に、前記共有メモリのダウン情報
を読み出し他機のダウンを監視し、他機のダウンを検出
した場合には、前記共有メモリの負荷情報及び前記切換
制限情報テーブルの情報に基づきバックアップ計算機を
決定してバックアップを実行する状態監視/バックアッ
プ手段とを具備させてコンピュータバックアップシステ
ムを構成した。
Further, according to the present invention, a plurality of computers, a shared memory having a switching limit information table in which down information and load information of the plurality of computers are written, and information regarding limits at backup is written, and each computer. The load recording means and the down of each computer are monitored for each computer, and when the down is detected, the down information is written to the shared memory and the down information of the shared memory is read to monitor the down of other devices. If a down of another machine is detected, a computer is provided with state monitoring / backup means for determining the backup computer based on the load information of the shared memory and the information of the switching restriction information table and executing the backup. Configured a backup system.

【0008】上記において、状態監視/バックアップ手
段は、自機の負荷が他機の負荷に比べて軽い場合に、ダ
ウンに係る計算機の処理を受け継ぐことを特徴とする。
また、負荷記録手段は、計算機毎にサポートされている
資源の重要度情報が記憶されている重みテーブルを有
し、前記資源の稼働率と前記重みテーブルの重要度情報
とに基づき負荷情報を算出する。
In the above, the status monitoring / backup means is characterized by inheriting the processing of the computer related to the down when the load of the own machine is lighter than the load of the other machine.
Further, the load recording means has a weight table in which the importance information of the resources supported by each computer is stored, and the load information is calculated based on the utilization rate of the resources and the importance information of the weight table. To do.

【0009】[0009]

【作用】上記構成に係る第1の発明では、各計算機毎に
自機の負荷状態を監視し、検出した負荷情報を共有メモ
リに書き込む。各計算機では、自機のダウンを監視し、
ダウンを検出した場合にはダウン情報を共有メモリに書
き込む。また、各計算機では、共有メモリのダウン情報
を読み出し他機のダウンを監視し、他機のダウンを検出
した場合には、前記共有メモリの負荷情報に基づきバッ
クアップ計算機を決定してバックアップ(ダウンに係る
計算機の処理の代行)を実行する。斯して、各計算機の
負荷情報に基づきバックアップ計算機を決定することか
ら、過負荷によるシステムの局所的な性能低下を防止す
ることができる。
In the first aspect of the present invention having the above configuration, the load state of the computer is monitored for each computer and the detected load information is written in the shared memory. Each computer monitors its own down,
When the down is detected, the down information is written in the shared memory. In addition, each computer reads out the down information of the shared memory, monitors the down of another device, and when the down of another device is detected, the backup computer is determined based on the load information of the shared memory and the backup (down Substitute the processing of the computer). Thus, since the backup computer is determined based on the load information of each computer, it is possible to prevent local performance deterioration of the system due to overload.

【0010】また、上記の第2の発明では、上記第1の
発明に比して更に、共有メモリにバックアップ時の制限
に関する情報が書き込まれた切換制限情報テーブルが備
えられる。バックアップ計算機の決定は、共有メモリの
負荷情報及び前記切換制限情報テーブルの情報に基づき
なされる。つまり、所望により所定計算機の性能を落と
したくないような場合に、切換制限情報テーブルにこの
要望に係る情報を書き込んでおくことにより、性能を落
としたくない等の所定計算機を除外して、自動的にシス
テムの効率的な運用が継続され得るように代行が行なわ
れる。
Further, in the above-mentioned second invention, compared with the above-mentioned first invention, there is further provided a switching restriction information table in which information regarding restrictions at the time of backup is written in the shared memory. The backup computer is determined based on the load information of the shared memory and the information of the switching restriction information table. In other words, if you do not want to reduce the performance of a given computer if you wish, by writing the information related to this request in the switching restriction information table, you can exclude the given computer that you do not want to reduce the performance and automatically Will be performed on behalf of the system so that the efficient operation of the system can be continued.

【0011】上記第1、第2のいずれかの発明におい
て、状態監視/バックアップ手段が、自機の負荷が他機
の負荷に比べて軽い場合に、ダウンに係る計算機の処理
を受け継ぐように機能し、過負荷によるシステムの局所
的な性能低下を防止することができる。また、負荷記録
手段が、計算機毎にサポートされている資源の重要度情
報が記憶されている重みテーブルを有し、前記資源の稼
働率と前記重みテーブルの重要度情報とに基づき負荷情
報を算出することにより、負荷状態の評価を適切に行う
ことを保証し、過負荷によるシステムの局所的な性能低
下を防止することができる。
In any one of the first and second inventions, the status monitoring / backup means functions so as to inherit the processing of the computer related to the down when the load of the own machine is lighter than the load of the other machine. However, it is possible to prevent local performance deterioration of the system due to overload. Further, the load recording means has a weight table in which importance information of resources supported for each computer is stored, and the load information is calculated based on the utilization rate of the resources and the importance information of the weight table. By doing so, it is possible to guarantee that the load state is appropriately evaluated, and prevent local deterioration of the system performance due to overload.

【0012】[0012]

【実施例】以下、添付図面を参照して本発明の実施例に
係るコンピュータバックアップシステムを説明する。図
1には、本発明の実施例に係るコンピュータバックアッ
プシステムの構成図が示されている。このシステムにお
いては、計算機1〜計算機4が設けられており、この計
算機1〜計算機4は共有メモリ5を介して相互のダウン
に係る情報等を交換する。更に、計算機1〜計算機4は
夫々、ハードウエア資源及びソフトウエア資源を有して
おり、ここでは、磁気ディスク記憶装置6に制御回路7
を介して、オンライン回線9にオンライン切換回路8を
介して、夫々接続されている。また、各計算機1〜計算
機4には、計算機2に接続されている端末10の如き資
源が接続されるが、ここでは、説明の都合上図示されて
いない。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENT A computer backup system according to an embodiment of the present invention will be described below with reference to the accompanying drawings. FIG. 1 is a block diagram of a computer backup system according to an embodiment of the present invention. In this system, computers 1 to 4 are provided, and the computers 1 to 4 exchange information regarding mutual down via the shared memory 5. Further, each of the computers 1 to 4 has a hardware resource and a software resource, and here, the magnetic disk storage device 6 and the control circuit 7 are provided.
To the online line 9 via the online switching circuit 8. Further, resources such as the terminal 10 connected to the computer 2 are connected to each of the computers 1 to 4, but they are not shown here for convenience of explanation.

【0013】各計算機1〜計算機4には、状態監視/バ
ックアップ手段1−1〜4−1と、負荷記録手段1−2
〜4−2とが備えられている。また、共有メモリ5に
は、各計算機1〜4対応の負荷情報テーブル5−1〜5
−4と、切換制限情報テーブル55とが備えられてい
る。計算機1〜計算機4の負荷記録手段1−2〜4−2
は、自機の負荷状態を監視し、検出した負荷情報を共有
メモリ5の対応する負荷情報テーブル5−1〜5−4に
書き込む。また、計算機1〜計算機4の状態監視/バッ
クアップ手段1−1〜4−1は、自機のダウンを監視
し、ダウンを検出した場合にはダウン情報を共有メモリ
5の対応する負荷情報テーブル5−1〜5−4に書き込
むと共に、共有メモリ5の負荷情報テーブル5−1〜5
−4のダウン情報を読み出して他機のダウンを監視し、
他機のダウンを検出した場合には、共有メモリ5の負荷
情報テーブル5−1〜5−4の負荷情報及び切換制限情
報テーブル55の情報に基づきバックアップ計算機を決
定してバックアップを実行する。切換制限情報テーブル
55には、例えば、図3に示すように、バックアップ時
の制限に関する情報が書き込まれる。即ち、計算機2の
性能低下を防止するため、図の通りの時間帯には、計算
機2を代行用とすることを禁じた情報と、計算機2の代
行を行う計算機の優先順位に係る情報とが、図の通りに
設定されている。この切換制限情報テーブル55に設定
する情報は、例えば、端末10から情報と共に切換制限
情報テーブル55に設定することの命令を入力すると、
計算機2により共有メモリ5に設定される。
Each of the computers 1 to 4 has a state monitoring / backup means 1-1 to 4-1 and a load recording means 1-2.
~ 4-2 are provided. In addition, the shared memory 5 has load information tables 5-1 to 5-1 corresponding to the computers 1 to 4, respectively.
-4 and a switching restriction information table 55 are provided. Load recording means 1-2 of computer 1 to computer 4-2
Monitors the load state of its own device and writes the detected load information in the corresponding load information tables 5-1 to 5-4 of the shared memory 5. Also, the status monitoring / backup means 1-1 to 4-1 of the computers 1 to 4 monitor the down of their own devices, and when down is detected, the down information is stored in the corresponding load information table 5 of the shared memory 5. -1 to 5-4, and load information tables 5-1 to -5 in the shared memory 5
Read down information of -4 to monitor down of other machines,
When the down of another machine is detected, the backup computer is determined based on the load information of the load information tables 5-1 to 5-4 of the shared memory 5 and the information of the switching restriction information table 55, and the backup is executed. In the switching restriction information table 55, for example, as shown in FIG. 3, information on restrictions at the time of backup is written. That is, in order to prevent the performance of the computer 2 from deteriorating, in the time zone as shown in the figure, information that prohibits using the computer 2 as a substitute and information regarding the priority order of the computer that substitutes the computer 2 are provided. , Are set as shown. The information set in the switching restriction information table 55 is, for example, when an instruction to set the switching restriction information table 55 together with the information is input from the terminal 10.
It is set in the shared memory 5 by the computer 2.

【0014】計算機1〜4は、制御回路7を介して磁気
ディスク記憶装置6をアクセスすることができ、例え
ば、現在実行中のプログラム名及び実行中のアドレス、
更に収集し或いは演算した結果のデータ等を対応のエリ
アに書き込む。このようにして、代行時のために備えて
情報が書き込まれた磁気ディスク記憶装置6のメモリマ
ップが図2に示されている。この磁気ディスク記憶装置
6には、上記のように各計算機1〜4が用いる4分割さ
れた代行時のために備えて情報が書き込まれたエリア6
1の他に、各業務を実行するための複数のプログラムが
記憶されたエリア62が設けられている。
The computers 1 to 4 can access the magnetic disk storage device 6 via the control circuit 7. For example, the name of the program currently being executed and the address being executed,
Further, the data of the result of the collection or calculation is written in the corresponding area. FIG. 2 shows a memory map of the magnetic disk storage device 6 in which the information is written in this way in preparation for the proxy. In the magnetic disk storage device 6, as described above, the area 6 in which information is written in preparation for the time of acting as a four-division agent used by each of the computers 1 to 4 is described.
In addition to No. 1, an area 62 is provided in which a plurality of programs for executing each task are stored.

【0015】更に、各計算機1〜4は、オンライン切換
回路8を制御信号線8Cを介して制御し、必要な場合に
オンライン回線9に接続されるようにする。各計算機1
〜4は、これらの磁気ディスク記憶装置6、オンライン
回線9以外に、ハードウエア資源に接続されている。ま
た、各計算機1〜4には、図4に示されるような重みテ
ーブル41を有している。この重みテーブル41には、
計算機1〜4が実行している処理に対応した資源(対
象)毎に、重要度情報が記憶されている。各計算機1〜
4には、図4に示されるような、資源(対象)対応にそ
の稼働率を書き込むためのレジスタ51が備えられてい
る。図6には、上記重みテーブル41とレジスタ51と
を並べて、負荷情報を算出するためのテーブル60が備
えられている。
Further, each of the computers 1 to 4 controls the online switching circuit 8 via the control signal line 8C so that it is connected to the online line 9 when necessary. Each computer 1
4 to 4 are connected to hardware resources in addition to the magnetic disk storage device 6 and the online line 9. Further, each of the computers 1 to 4 has a weight table 41 as shown in FIG. In this weight table 41,
Importance information is stored for each resource (target) corresponding to the processing executed by the computers 1 to 4. Each computer 1
4 is provided with a register 51 for writing the operating rate for each resource (target) as shown in FIG. FIG. 6 is provided with a table 60 for calculating the load information by arranging the weight table 41 and the register 51.

【0016】上記構成を有する計算機1〜4には、図7
に示されているフローチャートのプログラムが備えられ
ており、負荷情報を算出するための用いる。以下に、こ
のフローチャートを参照して、負荷記録手段1−2〜4
−2が負荷情報を算出する動作を説明する。所定の時間
おきに、図7のフローチャートのプログラムがスタート
となり、負荷を計算する対象に係るCPU、ディスク、
I/O、オンライン等のハードウエア資源について、稼
働率の監視を開始する(71)。例えば、CPUが演算
等の処理を開始してから終了する間での時間を累積して
稼働時間とし、所定時間中にこの累積作業を継続する。
所定時間の経過を検出して(72)、当該所定時間が経
過すると、稼働率を上記所定時間内の稼動時間の割合と
して求め、レジスタに書き込む(73)。このようにし
て各対象について、稼働率を求め終わると、図6のテー
ブル60を用いて、各対象の負荷を重要度情報に稼働率
を乗じて求め、合計の負荷を算出する(74)。このよ
うにして、求めた負荷情報を共有メモリ5の対応する負
荷情報テーブルに書き込み(75)、終了する。この様
な処理が、所定時間間隔になされて、基本的には常に、
その時点の各計算機1〜4の付加情報が、共有メモリ5
の対応する負荷情報テーブル5−1〜5−4に書き込ま
れていることになる。
The computers 1 to 4 having the above-mentioned configuration are shown in FIG.
The program of the flowchart shown in is provided and used for calculating the load information. The load recording means 1-2 to 4 will be described below with reference to this flowchart.
-2 will explain the operation of calculating load information. At a predetermined time interval, the program of the flowchart of FIG. 7 starts, and the CPU, disk, and
For the hardware resources such as I / O and online, the operation rate monitoring is started (71). For example, the time from the start to the end of processing such as calculation by the CPU is accumulated as the operating time, and this cumulative work is continued during a predetermined time.
After the elapse of a predetermined time is detected (72), when the predetermined time elapses, the operating rate is obtained as a ratio of the operating time within the predetermined time and written in the register (73). In this way, when the operating rate has been obtained for each target, the load of each target is obtained by multiplying the importance level information by the operating rate using the table 60 of FIG. 6, and the total load is calculated (74). In this way, the obtained load information is written in the corresponding load information table of the shared memory 5 (75), and the process is ended. Such processing is performed at a predetermined time interval, and basically, always,
The additional information of each computer 1 to 4 at that time is stored in the shared memory 5
Are written in the corresponding load information tables 5-1 to 5-4.

【0017】また、計算機1〜4には、図8に示されて
いるフローチャートのプログラムが備えられており、状
態監視並びに代行処理が実現される。以下に、このフロ
ーチャートを参照して、状態監視/バックアップ手段1
−1〜4−1が状態監視並びに代行処理をするときの動
作を説明する。状態監視の動作では、自機が異常でダウ
ンとなるか否かを、例えば、ウオッチドッグタイマ等に
より検出し(90)、自機のダウンを検出すると、共有
メモリ5の対応負荷情報テーブル5−1〜5−4にダウ
ンの旨を書き込み(99)、オペレータの介入を待つ待
機状態に入る。一方、自機がダウンでないときには、共
有メモリ5の負荷情報テーブル5−1〜5−4から、他
機の状態情報を取り出し(91)、ダウンとなった計算
機があるかを検出する(92)。ここでダウンとなった
計算機が検出できなければ、メインの処理ルーチンへ戻
るが、ダウンとなった計算機があるときには、共有メモ
リの各計算機対応の負荷情報テーブル5−1〜5−4か
ら負荷情報を取り出し(93)、負荷が一番軽い計算機
が自機であるか否かを検出することにより、ダウンに係
る計算機の処理を自機へ切り換えることになるのか否か
を判定する(94)。ここで、ダウンに係る計算機の処
理を自機へ切り換えることにならぬと判定したときに
は、メインの処理ルーチンへ戻るが、ダウンに係る計算
機の処理を自機へ切り換えるべきであると判定したとき
には、共有メモリ5の切換制限情報テーブル55にセッ
トされているバックアップ時の制限に関する情報を読み
出し(95)、自機へ切り換えることが制限を受けるこ
とになるかを検出する。例えば、図3に示されるような
情報が切換制限情報テーブル55にセットされている場
合において、計算機2がダウンした計算機1の処理を代
行する時には、時刻が午前10時30分から午後3時3
0分であると、代行ができないことになる。
Further, the computers 1 to 4 are provided with the program of the flowchart shown in FIG. 8 to realize state monitoring and proxy processing. The state monitoring / backup means 1 will be described below with reference to this flowchart.
The operation when -1 to 4-1 perform state monitoring and proxy processing will be described. In the status monitoring operation, for example, a watchdog timer or the like is used to detect whether or not the own device is down due to an abnormality (90). When the own device is down, the corresponding load information table 5-of the shared memory 5 is detected. The fact of down is written in 1 to 5-4 (99), and a standby state waiting for operator intervention is entered. On the other hand, when the own machine is not down, the status information of other machines is taken out from the load information tables 5-1 to 5-4 of the shared memory 5 (91), and it is detected whether there is a down machine (92). . If a computer that has gone down cannot be detected, the process returns to the main processing routine. If there is a computer that goes down, however, the load information tables 5-1 to 5-4 corresponding to the computers in the shared memory load information. (93), it is determined whether or not the computer having the lightest load is its own machine to switch the processing of the computer related to the down to its own machine (94). Here, when it is determined that the processing of the computer related to the down is not to be switched to the own machine, the process returns to the main processing routine, but when it is determined that the processing of the computer related to the down should be switched to the own machine, The information regarding the limitation at the time of backup set in the switching limitation information table 55 of the shared memory 5 is read (95), and it is detected whether the switching to the own device is subject to the limitation. For example, when the information as shown in FIG. 3 is set in the switching restriction information table 55, when the computer 2 substitutes the processing of the computer 1 that has gone down, the time is from 10:30 am to 3:30 pm
If it is 0 minutes, it will not be possible to act on your behalf.

【0018】上記において、自機へ切り換えることが制
限を受けることになる場合には、メインの処理ルーチン
へ戻るが、自機へ切り換えることが制限を受けない場合
には、磁気ディスク記憶装置6のダウンに係る計算機の
使用エリアより、現在実行中のプログラム名及び実行中
のアドレス、更に収集し或いは演算した結果のデータ等
の情報を読み出し、必要な場合にはオンライン切換回路
8等の切り換え制御等を行って、必要な資源を受け継ぐ
べく動作を実行する(97)。ここにおいて各計算機1
〜4は、プログラム名の識別情報に対応して分類を行う
処理を備えており、ここで、プログラム名の識別情報に
応じて、当該プログラムをそのまま当該実行アドレスか
ら継続するか、当該プログラムの最初へ戻ってから実行
するか、或いは所定ステップ前から実行するか等を調べ
る。例えば、オンラインによりデータを収集するプログ
ラムが実行されているようなプログラムの場合には、当
該プログラムの最初から実行がなされ、単にデータ演算
を行っていた場合には、所定ステップ前からの処理実行
となる。いずれかの処理が決定されると、各種パラメー
タの設定等がなされ、実行の環境が整えられる。次に、
代行した計算機では、当該引継ぎに係る処理プログラム
が起動され、バックアップが完了し、自機が行っていた
原処理をも実行すると共に、受け継いだ処理に応じて、
図4に示した重要度情報を切り換えて処理を進める(9
8)。なお、処理を受け継いだ計算機は共有メモリ5の
対応する負荷情報テーブル5−1〜5−4へ、ダウンし
た計算機の処理を代行する旨を書き込み、他機へ通知す
る。
In the above, if the switching to the self-device is to be restricted, the process returns to the main processing routine, but if the switching to the self-device is not restricted, the magnetic disk storage device 6 is operated. Information such as the name of the program currently being executed, the address being executed, the data of the result of collection or calculation, etc. is read from the use area of the computer related to the down, and switching control of the online switching circuit 8 etc. is performed if necessary. And perform an operation to inherit the required resources (97). Here, each computer 1
4 to 4 are provided with a process for classifying corresponding to the identification information of the program name. Here, according to the identification information of the program name, the program is continued from the execution address as it is or Check whether it is executed after returning to step 1, or before the predetermined step. For example, in the case of a program in which a program that collects data online is executed, the program is executed from the beginning, and when data calculation is simply performed, the process execution from the predetermined step before is executed. Become. When any one of the processes is determined, various parameters are set and the execution environment is prepared. next,
In the acting computer, the processing program related to the takeover is started, the backup is completed, the original processing that was performed by itself is also executed, and according to the inherited processing,
The importance information shown in FIG. 4 is switched to proceed the processing (9
8). The computer that has inherited the process writes to the corresponding load information tables 5-1 to 5-4 of the shared memory 5 that the process of the computer that has gone down will be performed on its behalf, and notifies the other device.

【0019】以上の実施例では、決定された1つの計算
機が、ダウンした計算機の全ての処理を受け継ぐように
したが、他の実施例では、ダウンした計算機が複数の処
理を実行しているような場合には、処理毎に異なる計算
機に代行させるようにする。この場合には、負荷情報は
処理毎に作成され、共有メモリ5の各計算機の対応する
負荷情報テーブル5−1〜5−4へ書き込まれる。この
実施例によれば、よりきめ細かく負荷を分散させてシス
テムが局所的に機能低下することを防止できる。
In the above embodiments, one determined computer inherits all the processes of the down computer, but in other embodiments, the down computer seems to execute a plurality of processes. In such a case, a different computer is made to act for each process. In this case, the load information is created for each process and written in the corresponding load information tables 5-1 to 5-4 of each computer in the shared memory 5. According to this embodiment, it is possible to more finely distribute the load and prevent the system from locally degrading.

【0020】[0020]

【発明の効果】以上説明したように第1の本発明によれ
ば、共有メモリに各計算機が負荷情報を書き込みながら
動作すると共に、ある計算機がダウンした場合に、この
計算機のバックアップ処理を行う計算機を上記共有メモ
リの各計算機の負荷情報に基づき決定するように構成さ
れているため、過負荷によるシステムの局所的な性能低
下を防止することができ、システムの効率化を図ること
ができる。
As described above, according to the first aspect of the present invention, each computer operates while writing load information in the shared memory, and when a certain computer goes down, the computer performs backup processing of this computer. Is configured to be determined based on the load information of each computer in the shared memory, it is possible to prevent local performance deterioration of the system due to overload, and improve the efficiency of the system.

【0021】更に第2の発明によれば、共有メモリには
バックアップ時の制限に関する情報が書き込まれた切換
制限情報テーブルが備えられ、これにより、バックアッ
プ処理を行う計算機を決定するように構成されているた
め、所望により所定計算機の性能を落としたくないよう
な場合に、切換制限情報テーブルにこの要望に係る情報
を書き込んでおくことにより、性能を落としたくない等
の所定計算機を除外して、自動的にシステムの効率的な
運用が継続され得るように代行が行なわれる。即ち、ユ
ーザの要望を適切に取り入れ、しかも、自動的にシステ
ムの効率的な運用が継続される効果を奏する。
Further, according to the second aspect of the invention, the shared memory is provided with the switching restriction information table in which the information on the restriction at the time of backup is written, so that the computer for performing the backup processing is determined. Therefore, if you do not want to reduce the performance of a given computer if you want, by writing the information related to this request in the switching restriction information table, you can exclude the given computer that you do not want to reduce the performance, etc. The proxy is performed so that the efficient operation of the system can be continued. That is, there is an effect that the user's request is properly incorporated and the efficient operation of the system is automatically continued.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の実施例に係るコンピュータバックアッ
プシステムの構成図。
FIG. 1 is a configuration diagram of a computer backup system according to an embodiment of the present invention.

【図2】本発明の実施例に採用されている磁気ディスク
記憶装置のメモリマップを示す図。
FIG. 2 is a diagram showing a memory map of a magnetic disk storage device adopted in an embodiment of the present invention.

【図3】本発明の実施例に採用されている切換制限情報
テーブルのメモリマップを示す図。
FIG. 3 is a diagram showing a memory map of a switching restriction information table adopted in the embodiment of the present invention.

【図4】本発明の実施例に採用されている資源対応の重
要度情報の重みテーブルの内容の一例を示す図。
FIG. 4 is a diagram showing an example of contents of a weight table of resource-related importance information adopted in the embodiment of the present invention.

【図5】本発明の実施例に採用されている資源対応の稼
働率を書き込むレジスタを示す図。
FIG. 5 is a diagram showing a register for writing an operation rate corresponding to resources, which is adopted in the embodiment of the present invention.

【図6】本発明の実施例に採用されている負荷情報算出
のためのテーブルの内容の一例を示す図。
FIG. 6 is a diagram showing an example of the contents of a table for calculating load information, which is adopted in the embodiment of the present invention.

【図7】本発明の実施例に係るコンピュータバックアッ
プシステムの負荷情報書き込み動作を示すフローチャー
ト。
FIG. 7 is a flowchart showing a load information writing operation of the computer backup system according to the embodiment of the present invention.

【図8】本発明の実施例に係るコンピュータバックアッ
プシステムの状態監視並びに代行処理に係る動作を示す
フローチャート。
FIG. 8 is a flowchart showing an operation related to status monitoring and proxy processing of the computer backup system according to the embodiment of the present invention.

【図9】従来のコンピュータバックアップシステムの構
成図。
FIG. 9 is a block diagram of a conventional computer backup system.

【符号の説明】[Explanation of symbols]

1〜4 計算機 5 共有メモリ 6 磁気ディスク記憶装置 7 制御回路 8 オンライン切換回路 9 オンライン
回線 10 端末 1−1〜4−1 状態監視/バックアップ手段 1−2〜4−2 負荷記録手段 5−1〜5−4 負荷情報記憶テーブル 55 切換制御情報記憶テーブル
1 to 4 computer 5 shared memory 6 magnetic disk storage device 7 control circuit 8 online switching circuit 9 online line 10 terminal 1-1 to 4-1 status monitoring / backup means 1-2 to 4-2 load recording means 5-1 to 5-1 5-4 Load information storage table 55 Switching control information storage table

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 複数の計算機と、 この複数の計算機のダウン情報及び負荷情報が書き込ま
れる共有メモリと、 各計算機毎に自機の負荷状態を監視し、検出した負荷情
報を前記共有メモリに書き込む負荷記録手段と、 各計算機毎に自機のダウンを監視し、ダウンを検出した
場合にはダウン情報を前記共有メモリに書き込むと共
に、前記共有メモリのダウン情報を読み出し他機のダウ
ンを監視し、他機のダウンを検出した場合には、前記共
有メモリの負荷情報に基づきバックアップ計算機を決定
してバックアップを実行する状態監視/バックアップ手
段とを有することを特徴とするコンピュータバックアッ
プシステム。
1. A plurality of computers, a shared memory in which down information and load information of the plurality of computers are written, a load state of each computer is monitored, and the detected load information is written in the shared memory. The load recording means and the down of its own machine is monitored for each computer, and when the down is detected, the down information is written to the shared memory, the down information of the shared memory is read, and the down of other machines is monitored. A computer backup system comprising: a status monitoring / backup unit that determines a backup computer based on load information of the shared memory and executes a backup when a down of another device is detected.
【請求項2】 複数の計算機と、 この複数の計算機のダウン情報及び負荷情報が書き込ま
れると共に、バックアップ時の制限に関する情報が書き
込まれた切換制限情報テーブルを有する共有メモリと、 各計算機毎に自機の負荷状態を監視し、検出した負荷情
報を前記共有メモリに書き込む負荷記録手段と、 各計算機毎に自機のダウンを監視し、ダウンを検出した
場合にはダウン情報を前記共有メモリに書き込むと共
に、前記共有メモリのダウン情報を読み出し他機のダウ
ンを監視し、他機のダウンを検出した場合には、前記共
有メモリの負荷情報及び前記切換制限情報テーブルの情
報に基づきバックアップ計算機を決定してバックアップ
を実行する状態監視/バックアップ手段とを有すること
を特徴とするコンピュータバックアップシステム。
2. A plurality of computers, a shared memory having a switching limit information table in which down information and load information of the plurality of computers are written, and information regarding limits at the time of backup is written, and a self memory for each computer. A load recording unit that monitors the load status of the machine and writes the detected load information to the shared memory, and monitors the down of each machine for each computer, and writes down information to the shared memory when the down is detected. At the same time, the down information of the shared memory is read to monitor the down of another machine, and when the down of the other machine is detected, the backup computer is determined based on the load information of the shared memory and the information of the switching restriction information table. Computer backup system having state monitoring / backup means for executing backup .
【請求項3】 状態監視/バックアップ手段は、自機の
負荷が他機の負荷に比べて軽い場合に、ダウンに係る計
算機の処理を受け継ぐことを特徴とする請求項1または
請求項2に記載のコンピュータバックアップシステム。
3. The state monitoring / backup means inherits the processing of the computer related to the down when the load of the own machine is lighter than the loads of the other machines. Computer backup system.
【請求項4】 負荷記録手段は、計算機毎にサポートさ
れている資源の重要度情報が記憶されている重みテーブ
ルを有し、 前記資源の稼働率と前記重みテーブルの重要度情報とに
基づき負荷情報を算出することを特徴とする請求項1な
いし請求項3のいずれか1項に記載のコンピュータバッ
クアップシステム。
4. The load recording means has a weight table in which importance information of resources supported for each computer is stored, and the load is recorded based on the utilization rate of the resources and the importance information of the weight table. The computer backup system according to any one of claims 1 to 3, wherein information is calculated.
JP21289293A 1993-08-27 1993-08-27 Computer backup system Expired - Fee Related JP3296378B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21289293A JP3296378B2 (en) 1993-08-27 1993-08-27 Computer backup system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21289293A JP3296378B2 (en) 1993-08-27 1993-08-27 Computer backup system

Publications (2)

Publication Number Publication Date
JPH0764811A true JPH0764811A (en) 1995-03-10
JP3296378B2 JP3296378B2 (en) 2002-06-24

Family

ID=16629997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21289293A Expired - Fee Related JP3296378B2 (en) 1993-08-27 1993-08-27 Computer backup system

Country Status (1)

Country Link
JP (1) JP3296378B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091938A (en) * 2000-07-28 2002-03-29 Internatl Business Mach Corp <Ibm> System and method for processing fail-over
JP2009223519A (en) * 2008-03-14 2009-10-01 Toshiba Corp Cluster system and method for selecting master node in system
US10579489B2 (en) 2015-07-30 2020-03-03 Mitsubishi Electric Corporation Program execution device, program execution system, and program execution method

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008015704A (en) * 2006-07-04 2008-01-24 Fujitsu Ltd Multiprocessor system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091938A (en) * 2000-07-28 2002-03-29 Internatl Business Mach Corp <Ibm> System and method for processing fail-over
US6990606B2 (en) 2000-07-28 2006-01-24 International Business Machines Corporation Cascading failover of a data management application for shared disk file systems in loosely coupled node clusters
US7523345B2 (en) 2000-07-28 2009-04-21 International Business Machines Corporation Cascading failover of a data management application for shared disk file systems in loosely coupled node clusters
JP2009223519A (en) * 2008-03-14 2009-10-01 Toshiba Corp Cluster system and method for selecting master node in system
US10579489B2 (en) 2015-07-30 2020-03-03 Mitsubishi Electric Corporation Program execution device, program execution system, and program execution method

Also Published As

Publication number Publication date
JP3296378B2 (en) 2002-06-24

Similar Documents

Publication Publication Date Title
US6185639B1 (en) System and method to reduce a computer system&#39;s interrupt processing overhead
JP4054616B2 (en) Logical computer system, logical computer system configuration control method, and logical computer system configuration control program
JP2703479B2 (en) Data processing method and system having security function of time zero backup session
US7243266B2 (en) Computer system and detecting method for detecting a sign of failure of the computer system
JP4155399B2 (en) Computer processing method, its execution system, and its processing program
JP3481737B2 (en) Dump collection device and dump collection method
JPH02297228A (en) Fault information storing system
JPS6363933B2 (en)
JP4992740B2 (en) Multiprocessor system, failure detection method, and failure detection program
JP4322240B2 (en) Reboot method, system and program
JPH0764811A (en) Computer backup system
JP2000194650A (en) Data processing load distribution system
JP2932809B2 (en) Performance prediction / diagnosis system
JPH0744413A (en) Computer backup system
JPH11288406A (en) Multi-processor system with operation monitoring function
JP2666732B2 (en) Load control method for computer system
JPH0728544A (en) Computer system
JP3494788B2 (en) Program execution management system and program execution management method
JPH04324569A (en) Multiprocessor system
JP3464768B2 (en) Processor device with file load
CN115664945A (en) Parallel clearing method and equipment
JP2682746B2 (en) Virtual computer system
JPH03122734A (en) External storage control device
JPH05241861A (en) Free memory management system for operating system
JPH11296492A (en) Control method and device for multi computer system recovery and machine readable recording medium recording program

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020319

LAPS Cancellation because of no payment of annual fees