JP2001022709A - クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体 - Google Patents

クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体

Info

Publication number
JP2001022709A
JP2001022709A JP11198971A JP19897199A JP2001022709A JP 2001022709 A JP2001022709 A JP 2001022709A JP 11198971 A JP11198971 A JP 11198971A JP 19897199 A JP19897199 A JP 19897199A JP 2001022709 A JP2001022709 A JP 2001022709A
Authority
JP
Japan
Prior art keywords
program
computer
abnormality
detected
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11198971A
Other languages
English (en)
Inventor
Akifumi Murata
明文 村田
Makoto Koishi
誠 小石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP11198971A priority Critical patent/JP2001022709A/ja
Publication of JP2001022709A publication Critical patent/JP2001022709A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】クラスタシステムに容易に新規のプログラムを
導入可能とし、何らかの異常が発生しても継続してプロ
グラムを実行可能とする。 【解決手段】複数の計算機2a、2b上で動作するプロ
グラム6a〜6cの動作状況を監視するクラスタシステ
ム8であり、プログラム6a〜6cの識別情報を識別情
報取得手段11aによって取得し、取得された識別情報
の示すプログラム6a〜6cが正常か否かを監視手段1
2aが監視する。この監視によってプログラムが異常と
されると、再起動手段12bが異常プログラムを実行し
ていた計算機2a上でこの異常プログラムを再起動させ
る。再起動されたプログラムの異常が検出されると、プ
ログラム移転手段11bが当該異常プログラムを実行し
ていた計算機2a上のプログラム6a〜6cを、他の計
算機2b上で実行させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の計算機が結
合された環境における各計算機の動作を監視するクラス
タシステム及びプログラムを記憶したコンピュータ読み
取り可能な記憶媒体に関する。
【0002】
【従来の技術】クラスタシステムは、ネットワークを介
して接続された計算機(コンピュータ)にクラスタ・ソ
フトウェアを搭載して構築される。
【0003】図5は、従来のクラスタシステムの概略を
例示するブロック図である。このクラスタシステム1で
は、2台の計算機(コンピュータ)2a、2bが通信回
線3で接続されており、各計算機2a、2b上ではオペ
レーティング・システム(以下、「OS」という)4と
クラスタ・ソフトウェア5とが実行されている。
【0004】クラスタシステム1を構成する各計算機2
a、2bは、例えばデータベース管理プログラム、電子
メール管理プログラム、ディレクトリ・サービス提供用
プログラム、通信プログラムのようなアプリケーション
・プログラム(以下、「アプリケーション」という)を
実行可能である。図5では、計算機2a上でアプリケー
ション6a〜6cが実行されている場合を例として示し
ている。
【0005】このような各種アプリケーション6a〜6
cをクラスタシステム1に導入する際には、各アプリケ
ーション6a〜6c専用の監視プログラム(監視モジュ
ール)7a〜7cをクラスタ・ソフトウェア5に追加す
る必要がある。
【0006】このアプリケーション6a〜6c専用の監
視プログラム7a〜7cは、それぞれのアプリケーショ
ン6a〜6cが実行されている場合に、OS4のコマン
ドにより定期的に実行状態を調査する。
【0007】また、監視プログラム7a〜7cは、この
OS4のコマンドによる調査の結果、監視対象のアプリ
ケーション6a〜6cの動作異常や、監視対象のアプリ
ケーション6a〜6cを実行している計算機2aの異常
を検出すると、この監視対象のアプリケーション6a〜
6cの再起動を行う。
【0008】さらに、監視プログラム7a〜7cは、こ
の再起動が失敗した場合には、オペレータからの指示に
したがって、監視対象のアプリケーション6a〜6cを
他の計算機2b上で起動させる処理を実行する。
【0009】すなわち、クラスタ・ソフトウェア5は、
オペレータに指定されたアプリケーション6a〜6cを
立ち上げ、定期的に互いの計算機2a、2bが正常か否
かを監視し、また計算機2a、2b上で実行されている
アプリケーション6a〜6cが正常か否かを監視する。
さらに、監視の結果、障害発生を検出すると、この障害
に関係のあるアプリケーションの再起動を試み、再起動
後さらに障害が発生した場合には、その旨をオペレータ
に通知する。その後、クラスタ・ソフトウェア5は、オ
ペレータからの指示があれば、障害の発生した計算機2
a上のデータやプログラムを他の計算機2bに引き継が
せる。
【0010】上記のような従来のクラスタシステム1の
動作について説明する。従来のクラスタシステム1上で
動作している各種アプリケーション6a〜6cは、アプ
リケーション6a〜6c自体の問題、OS4やハードウ
ェアの問題、オペレータの操作誤りなどによって、正常
に動作しなくなったり、計算機2a上から消滅する場合
がある。
【0011】このような場合に備えて、計算機2aのオ
ペレータや監視プログラム7a〜7cは、OS4が提供
する監視用コマンドを実行したり、ログメッセージを参
照することで、各種アプリケーション6a〜6cあるい
は計算機2aの動作状況を監視している。
【0012】この動作状況監視の結果、何らかの問題が
検出された場合に、オペレータや監視プログラム7a〜
7cは、その問題の種類に対応して異常とされたアプリ
ケーションを再起動させたり、計算機2aを再立ち上げ
を行う。あるいは、複数台の計算機2a、2bが疎結合
されたクラスタシステム1においては、オペレータが指
示を発して、障害の発生した計算機2aと異なる他の計
算機2b上で障害の発生したアプリケーションが引き継
がれる。
【0013】
【発明が解決しようとする課題】上記のような図5に例
示される従来のクラスタシステム1においては、動作中
のアプリケーション6a〜6cのいずれかに異常が発生
した場合に、オペレータや監視プログラム7a〜7c
は、発生した異常の状況に応じて、計算機2a上で異常
の発生したアプリケーションの再起動を行う。そして、
それでも異常が発生する場合には、他系の計算機2bに
この異常の発生するアプリケーションの引き継ぎを行
う。
【0014】しかしながら、この異常の発生したアプリ
ケーションの他系の計算機2bへの引き継ぎはオペレー
タの判断で行われるので、オペレータがアプリケーショ
ン6a〜6cに関するエラーメッセージを見落とした
り、監視プログラム7a〜7cが発生させるエラーメッ
セージを見落とすことがある。
【0015】この場合、他系の計算機2bへの引き継ぎ
が遅れ、当該クラスタシステム1の運用に支障をきたす
場合がある。また、これにより、クラスタシステム1の
信頼性、可用性が低下する場合がある。
【0016】また、従来のクラスタシステム1において
は、導入するアプリケーション6a〜6c用の監視プロ
グラム7a〜7cをオペレータがクラスタ・ソフトウェ
ア5に組み込まなければならないため、アプリケーショ
ン導入時にオペレータに手間がかかるという問題があ
る。
【0017】本発明は、以上のような実情に鑑みてなさ
れたもので、クラスタシステムに容易に新規のプログラ
ムを導入可能であり、何らかの異常が発生しても継続し
てプログラムを実行可能なクラスタシステム及びプログ
ラムを記憶したコンピュータ読み取り可能な記憶媒体を
提供することを目的とする。
【0018】
【課題を解決するための手段】本発明の骨子は、クラス
タシステムを構成する計算機上で動作するプログラムを
プログラムの種別に依存することなくまとめて監視する
手段を備えた点にある。また、異常検出後に再起動した
プログラムの異常をさらに検出した場合に、この異常を
検出したプログラムを実行していた計算機上で動作して
いたプログラムのうち移動可能なプログラム全てを他の
計算機上で起動させる点にある。
【0019】以下、本発明を実現するにあたって講じた
具体的手段について説明する。
【0020】第1の発明は、複数の計算機が結合された
環境で動作するプログラムの動作状況を監視するクラス
タシステムに関する発明である。
【0021】この第1の発明のクラスタシステムは、こ
の環境で動作するプログラムの識別情報を取得する識別
情報取得手段と、当該識別情報取得手段によって取得さ
れた識別情報で示されるプログラムが正常か否かを監視
する監視手段と、当該監視手段による監視によってプロ
グラムの異常が検出された場合に、この異常の検出され
たプログラムを実行していた計算機上でこの異常の検出
されたプログラムを再起動させる再起動手段と、当該再
起動手段によって再起動されたプログラムの異常が検出
された場合に、当該異常の検出されたプログラムを実行
していた計算機上で動作していたプログラムを他の計算
機上で実行させるプログラム移転手段とを具備する。
【0022】すなわち、この第1の発明のクラスタシス
テムにおいては、動作状態にあるプログラムの識別情報
が収集され、動作中のプログラムが自動的にまとめて監
視される。
【0023】したがって、新規のプログラムを導入する
場合であっても、この新規のプログラム専用の監視プロ
グラムを導入する必要がない。
【0024】ゆえに、専用の監視プログラムを特別に用
意しなくても、新規のプログラムを容易に導入できる。
【0025】また、この第1の発明のクラスタシステム
においては、異常の生じたプログラムを再起動してもさ
らに異常が発生する場合には、この異常の発生する計算
機上で実行されていたプログラムが自動的に他の計算機
上で起動される。
【0026】したがって、オペレータが異常に気づかな
いために、プログラムの引き継ぎが遅れることを防止で
き、高い信頼性、可用性を確保することができる。
【0027】第2の発明は、複数の計算機が結合された
環境で動作しアプリケーション・インターフェースを持
つアプリケーション・プログラムの動作状況を監視する
クラスタシステムに関する発明である。
【0028】この第2の発明のクラスタシステムは、こ
の環境で動作するアプリケーション・プログラムの識別
情報を取得する識別情報取得手段と、当該識別情報取得
手段によって取得された識別情報で示されるアプリケー
ション・プログラムのアプリケーション・インターフェ
イスを呼び出して正常に実行されているか否かを監視す
る監視手段と、当該監視手段による監視によってアプリ
ケーション・プログラムの異常が検出された場合に、こ
の異常の検出されたアプリケーション・プログラムを実
行していた計算機上でこの異常の検出されたアプリケー
ション・プログラムを再起動させる再起動手段と、当該
再起動手段によって再起動されたアプリケーション・プ
ログラムの異常が検出された場合に、当該異常の検出さ
れたアプリケーション・プログラムを実行していた計算
機上で動作していたプログラムを他の計算機上で実行さ
せるプログラム移転手段とを具備する。
【0029】この第2の発明においては、動作中のアプ
リケーションの識別情報が管理され、この動作中のアプ
リケーションの含むアプリケーション・インターフェイ
スに対して適宜呼び出しが行われる。この呼び出しの結
果、例えばこの呼び出しに関する応答がない場合や、あ
るいは応答としてエラーを受けた場合には、このアプリ
ケーションが異常とされる。
【0030】したがって、各アプリケーション専用の監
視プログラムが必要ないため、上記第1の発明と同様の
作用効果を得ることができる。
【0031】また、この第2の発明のクラスタシステム
においては、異常の生じたアプリケーション・プログラ
ムを再起動してもさらに異常が発生する場合には、他の
計算機上で起動される。
【0032】したがって、上記第1の発明の場合と同様
に、オペレータが異常に気づかないために、プログラム
の引き継ぎが遅れることを防止でき、高い信頼性、可用
性を確保することができる。
【0033】第3の発明は、コンピュータに、複数の計
算機が結合された環境で動作するプログラムの識別情報
を取得させる識別情報取得機能と、当該識別情報取得機
能によって取得された識別情報で示されるプログラムが
正常か否かを監視させる監視機能と、当該監視機能によ
る監視によってプログラムの異常が検出された場合に、
この異常の検出されたプログラムを実行していた計算機
上でこの異常の検出されたプログラムを再起動させる再
起動機能と、当該再起動機能によって再起動されたプロ
グラムの異常が検出された場合に、当該異常の検出され
たプログラムを実行していた計算機上で動作していたプ
ログラムを他の計算機上で実行させるプログラム移転機
能とを実現させるプログラムを記憶したコンピュータ読
み取り可能な記憶媒体である。
【0034】また、第4の発明は、コンピュータに、複
数の計算機が結合された環境で動作しアプリケーション
・インターフェースを持つアプリケーション・プログラ
ムの識別情報を取得させる識別情報取得機能と、当該識
別情報取得機能によって取得された識別情報で示される
アプリケーション・プログラムのアプリケーション・イ
ンターフェイスを呼び出して正常に実行されているか否
かを監視させる監視機能と、当該監視機能による監視に
よってアプリケーション・プログラムの異常が検出され
た場合に、この異常の検出されたアプリケーション・プ
ログラムを実行していた計算機上でこの異常の検出され
たアプリケーション・プログラムを再起動させる再起動
機能と、当該再起動機能によって再起動されたアプリケ
ーション・プログラムの異常が検出された場合に、当該
異常の検出されたアプリケーション・プログラムを実行
していた計算機上で動作していたプログラムを他の計算
機上で実行させるプログラム移転機能とを実現させるプ
ログラムを記憶したコンピュータ読み取り可能な記憶媒
体である。
【0035】第3及び第4の発明は、それぞれ第1及び
第2の発明で説明したクラスタシステムの機能をコンピ
ュータにより実現するためのプログラムを記憶したコン
ピュータ読み取り可能な記憶媒体である。
【0036】このようなプログラムを記憶した記憶媒体
を用いることによって、上述した機能を有していない計
算機や計算機システムに対しても、簡単に上述した機能
を付加することができる。
【0037】
【発明の実施の形態】以下、図面を参照しながら本発明
の実施の形態について説明する。
【0038】(第1の実施の形態)本実施の形態におい
ては、動作中のプログラムをまとめて監視し、何らかの
異常が発生したらそのプログラムを再起動し、それでも
異常が発生するようであればプログラムを他系の計算機
に自動的に引き継がせるクラスタシステムについて説明
する。
【0039】図1は、本実施の形態に係るクラスタシス
テムの概略を例示するブロック図であり、図5と同一の
部分については同一の符号を付してその説明を省略する
かあるいは簡単に説明し、ここでは異なる部分について
のみ詳しく説明する。
【0040】クラスタシステム8を構成する一方の計算
機2aは、通常時にアプリケーションを動作させるコン
ピュータである。これに対し、他方の計算機2bは、待
機系として動作するコンピュータであり、一方の計算機
2aに異常が発生した場合にその業務を引き継ぐ。通信
回線3は、計算機2a、2b間を送受信可能に接続して
いる。
【0041】なお、計算機2a、2bにはそれぞれ記憶
領域9が設けられているが、図1では計算機2b側の記
憶領域の記載は省略している。
【0042】OS4は、各計算機2a、2bを制御する
ソフトウェアであり、アプリケーション6a〜6cは、
各種の業務を処理するためのプログラムである。ここで
は、この各アプリケーション6a〜6cは計算機に常駐
した形態で利用されるプログラムとする。また、このア
プリケーション6a〜6cは、動作する計算機を移動可
能なプログラムとする。
【0043】クラスタ・ソフトウェア10は、主に、ク
ラスタ・ソフトウェア本体11と監視プログラム12と
から構成されており、計算機2a、2b双方に備えられ
ている。以下においては、計算機2a側のクラスタソフ
トウェア10を例として説明するが、計算機2b側のク
ラスタソフトウェア10も同様の機能を持ち、同様の動
作を行う。
【0044】クラスタ・ソフトウェア本体11は、先に
おいて説明した従来のクラスタ・ソフトウェア5と同様
の機能を保持しており、その中には識別情報取得機能1
1a、プログラム移転機能11b、計算機停止機能11
cが含まれている。
【0045】識別情報取得機能11aは、この計算機2
a上で動作すべきアプリケーションのプロセスIDを記
憶領域9に保持する。これにより、計算機2a上で動作
しているはずのアプリケーションが特定される。
【0046】プログラム移転機能11bは、計算機2a
上で動作していたアプリケーションを他の計算機2b上
で動作させるための処理を行い、また計算機2b上で動
作していたアプリケーションを計算機2a上で動作させ
るための処理を行う。計算機停止機能11cは、計算機
2aを停止するための処理を行う。
【0047】監視プログラム12は、監視機能12a、
再起動機能12b、プログラム移転指示機能12cとを
含む。監視機能12aは、記憶領域9を参照し、この記
憶領域9にプロセスIDが登録されているアプリケーシ
ョン(計算機2a上に存在すべきアプリケーション)が
計算機2a上に存在するか否かを、OS4の提供するコ
マンドを呼び出すことで確認する。
【0048】再起動機能12bは、監視機能12aによ
って計算機2a上で動作していたアプリケーションの異
常終了が検出された場合に、この異常終了したアプリケ
ーションを当該計算機2a上で再起動させる。
【0049】プログラム移転指示機能12cは、再起動
機能12bによって再起動されたアプリケーションの異
常終了が再び監視機能12aによって検出された場合
に、計算機2a、2bのクラスタ・ソフトウェア本体1
1の持つプログラム移転機能11bに対し、この計算機
2a上で動作するアプリケーション6a〜6cの移転指
示(計算機b上でのアプリケーション6a〜6cの起動
・開始指示)を通知する。
【0050】同様に、プログラム移転指示機能12は、
再起動機能12bによって再起動されたアプリケーショ
ンの異常終了が再び監視機能12aによって検出された
場合に、計算機2aのクラスタソフトウェア本体11の
持つ計算機停止機能11cに計算機2aの停止指示を通
知する。
【0051】上記のような構成を持つクラスタシステム
8の動作について以下に説明する。図2は、本実施の形
態に係るクラスタシステム8の動作を示すフロー図であ
り、特に監視プログラム12によるアプリケーション6
a〜6cの存在確認と、アプリケーション6a〜6cの
消滅検出時の処理手順を示している。
【0052】クラスタシステム8においては、まず、監
視プログラム12の監視機能12aによってプロセスI
Dが登録されている記憶領域9が参照され、監視すべき
アプリケーション6a〜6cのプロセスIDが取り出さ
れる(s1)。
【0053】次に、監視プログラム12の監視機能12
aによってOS4の提供するコマンドが呼び出され、計
算機2a上で動作しているアプリケーションのプロセス
IDが取り出される(s2)。これにより、計算機2a
上で動作しているアプリケーションのプロセスIDの一
覧情報が得られる。
【0054】次に、記憶領域9から得られたプロセスI
D(処理s1で得られたプロセスID)と、OS4のコ
マンド呼び出しにより得られたプロセスID(処理s2
で得られたプロセスID)とが、監視プログラム12の
監視機能12aにより比較される。そして、計算機2a
で動作しているべき監視対象のアプリケーション6a〜
6cが消滅しているか否かが判定される(s3)。
【0055】この比較の結果、監視すべきアプリケーシ
ョン6a〜6cが消滅していない場合には、上記の監視
が繰り返される。
【0056】監視すべきアプリケーション6a〜6cの
いずれかが消滅している場合には、再起動機能12bに
より消滅したアプリケーションが先において一度再起動
されたものか否かが判定される(s4)。
【0057】判定の結果、未だ再起動されていない場合
には、消滅したアプリケーションが監視プログラム12
の再起動機能12bによって消滅前と同一の計算機2a
上で再起動される(s5)。
【0058】一方、消滅したアプリケーションが再起動
済みであった場合には、監視プログラム12のプログラ
ム移転指示機能12cにより、計算機2aのクラスタ・
ソフトウェア10の持つ計算機停止機能11cに計算機
2aの停止が指示される。また、再起動しても異常が発
生するのはアプリケーションよりむしろ他の異常(O
S、計算機の異常)である可能性が高いとして、計算機
2a上で動作していたアプリケーション6a〜6cの計
算機2b上での起動が、計算機2a、2bのクラスタ・
ソフトウェア10の持つプログラム移転機能11bに指
示される(s6)。
【0059】この指示により、計算機2aのクラスタ・
ソフトウェア10の持つ計算機停止機能11cが計算機
2aを停止させる。また、計算機2a、2bのクラスタ
ソフトウェア10の持つプログラム移転機能11bによ
りアプリケーション6a〜6cの動作が計算機2bに引
き継がれる。
【0060】以上説明したように、本実施の形態に係る
クラスタシステム8においては、アプリケーション6a
〜6cをまとめて監視する監視プログラム12をクラス
タ・ソフトウェア10に加えている。
【0061】したがって、新規のアプリケーションを導
入するたびに、このアプリケーション専用の監視プログ
ラムをオペレータが加える必要がなく、オペレータの作
業を軽減させることができる。
【0062】また、本実施の形態に係るクラスタシステ
ム8においては、アプリケーションに対する再起動後、
さらに再起動が失敗した場合には、この再起動が失敗し
た計算機上で動作していた移動可能なアプリケーション
の動作を全て待機系の他の計算機に引き継がせる。
【0063】したがって、アプリケーションの停止状態
が持続することを防止し、システムの信頼性、可用性が
向上される。
【0064】なお、本実施の形態においては、監視対象
のプログラムが常駐形式で動作するアプリケーション6
a〜6cの場合を例として説明しているが、これに限定
されるものではない。例えば、アプリケーションではな
いデーモンや、常駐形式ではないアプリケーションを監
視対象とする場合でも、同様の手法を適用することで同
様の効果を得ることができる。また、監視対象のプログ
ラムの数にも制限されることなく、いくつでもよい。
【0065】また、本実施の形態においては、2台の計
算機2a、2bによりクラスタシステム8が構成される
場合を例として説明しているが、これに限定されるもの
ではなく、3台以上の計算機によりクラスタシステムが
構成される場合にも同様に適用可能である。
【0066】また、本実施の形態に係るクラスタシステ
ム8は、同様の作用・機能を実現可能であれば各構成要
素の配置を変更させてもよく、また各構成要素を自由に
組み合わせてもよい。例えば、識別情報取得機能11a
は、クラスタ・ソフトウェア本体11に備えるのではな
く、監視プログラム12に備えてもよい。
【0067】(第2の実施の形態)本実施の形態におい
ては、アプリケーション・インターフェイス(以下、
「API」という)を持つアプリケーションを監視対象
とし、このアプリケーションを他系の計算機に自動的に
引き継がせるクラスタシステムについて説明する。
【0068】図3は、本実施の形態に係るクラスタシス
テムの概略を例示するブロック図であり、図1、5と同
一の部分については同一の符号を付してその説明を省略
するかあるいは簡単に説明し、ここでは異なる部分につ
いてのみ詳しく説明する。
【0069】本実施の形態に係るクラスタシステム13
の基礎的な構成は、先で述べたクラスタシステム8と同
様であるが、アプリケーションのAPIを利用して監視
を行う点が異なる。
【0070】すなわち、アプリケーション14a〜14
cは、それぞれに対するインターフェイスを扱うAPI
15a〜15cを備えている。API15a〜15c
は、外部のプログラムにアプリケーション14a〜14
cの機能を利用させるために動作する。例えば、アプリ
ケーション14aがデータベース管理プログラムである
場合には、API15aはSQL命令を受け付け、処理
後の結果を返す。
【0071】クラスタ・ソフトウェア16の監視プログ
ラム17は、監視対象のアプリケーション14a〜14
cの各API15a〜15cを呼び出す。その結果、何
らかのエラーがアプリケーション14a〜14cの持つ
API15a〜15cのいずれかから返却されたり、あ
るいはAPI15a〜15bのいずれかから制御がリタ
ーンしなくなった場合、監視プログラム17は、異常を
検出したAPIを持つアプリケーションを停止させ、再
起動させる。
【0072】また、この監視プログラム17は、再起動
後のAPI呼び出しでまだ異常を検出する場合には、計
算機2aのクラスタ・ソフトウェア本体11に対して、
計算機2aの停止を指示し、さらに計算機2a、2bの
クラスタ・ソフトウェア本体11に対して、計算機2b
上でのアプリケーション14a〜14cの起動・開始を
指示する。
【0073】上記のような構成を持つクラスタシステム
13の動作について以下に説明する。図4は、本実施の
形態に係るクラスタシステム13の動作を示すフロー図
であり、特に監視プログラム17によるアプリケーショ
ン14a〜14cの持つAPI15a〜15cの呼び出
しと、API15a〜15cの呼び出しにおいて異常を
検出した際の処理手順を示している。
【0074】このクラスタシステム13においては、ま
ず、監視プログラム17の監視機能によって記憶領域9
が参照され、この監視プログラム17によって監視すべ
きアプリケーション14a〜14bの持つAPI15a
〜15cが呼び出される(t1)。
【0075】ここで、このAPI15a〜15bの呼び
出しに対して、API15a〜15cのいずれかからエ
ラー返却を受けたか、あるいはリターンを返却しない
(制御を戻さない)かの判定が、監視プログラム17の
監視機能によって行われる(t2)。
【0076】正常にリターンを受けた場合には、上記の
処理が繰り返されるが、エラー返却を受けたりリターン
を返却しない場合には、そのAPIを持つアプリケーシ
ョンが再起動済みか否かが監視プログラム17の再起動
機能により判定される(t3)。
【0077】判定の結果、未だ再起動されていない場合
には、この正常なリターンを返さないAPIを持つアプ
リケーションが、監視プログラム17の再起動機能によ
って同一の計算機2a上で再起動される(t4)。
【0078】一方、既に再起動済みの場合には、監視プ
ログラム17のプログラム移転指示機能により、計算機
2aの停止が計算機2aのクラスタ・ソフトウェア本体
11に指示される。また、計算機2a上で動作していた
アプリケーション14a〜14cの計算機2b上での起
動が、計算機2a、2bのクラスタソフトウェア本体1
1に指示される(t5)。
【0079】この指示により、計算機2aのクラスタ・
ソフトウェア16の持つ計算機停止機能が計算機2aを
停止させる。また、計算機2a、2bのクラスタ・ソフ
トウェア16の持つプログラム移転機能によりアプリケ
ーション14a〜14cの動作が計算機2bに引き継が
れる。
【0080】以上説明したように、本実施の形態に係る
クラスタシステム13においては、監視プログラム17
がアプリケーション14a〜14cのAPI呼び出しに
より、まとめてアプリケーション14a〜14cの監視
を行う。
【0081】また、アプリケーション14a〜14cの
API呼び出しに対する異常動作、ストールを検出した
場合に当該異常の発生したアプリケーションの再起動が
実行され、さらに異常がある場合に待機系の計算機2b
へアプリケーション14a〜14cの業務が自動的に引
き継がれる。
【0082】これにより、先で述べた第1の実施の形態
と同様に、オペレータの作業を軽減させ、さらにシステ
ムの信頼性、可用性が向上される。
【0083】なお、本実施の形態においては、2台の計
算機2a、2bによりクラスタシステム13が構成され
る場合を例として説明しているが、これに限定されるも
のではなく、3台以上の計算機によりクラスタシステム
が構成される場合にも同様に適用可能である。同様に、
クラスタシステム上で動作するアプリケーションの数に
も、特に制限はなくいくつであってもよい。
【0084】また、本実施の形態に係るクラスタシステ
ム13は、同様の作用・機能を実現可能であれば各構成
要素の配置を変更させてもよく、また各構成要素を自由
に組み合わせてもよい。
【0085】また、上記第1及び第2の実施の形態に係
るクラスタシステム8、13におけるクラスタ・ソフト
ウェア10、16は、コンピュータに実行させることの
できるプログラムとして、例えば磁気ディスク(フロッ
ピー(登録商標)ディスク、ハードディスク等)、光デ
ィスク(CD−ROM、DVD等)、半導体メモリなど
の記憶媒体に書き込んで適用したり、通信媒体により伝
送して計算機あるいは計算機システムに適用することも
可能である。上記各機能を実現するコンピュータは、記
憶媒体に記憶されたプログラムを読み込み、プログラム
によって動作が制御されることにより、上述した処理を
実行する。
【0086】
【発明の効果】以上詳記したように本発明においては、
プログラムの種別に関係なく、計算機上で動作するプロ
グラムが正常か否かを監視する監視手段と、異常の発生
したプログラムの再起動に失敗した場合に、その計算機
上で動作する移動可能なプログラムを他の計算機に自動
的に移転するプログラム移転手段とを備えている。
【0087】このように、監視手段がプログラムの種別
に関係なく各プログラムの動作をまとめて監視すること
で、各プログラム専用の監視プログラムを導入する必要
がない。
【0088】したがって、新規のプログラム導入時のオ
ペレータの労力を低減させることができる。
【0089】また、自動的に再起動できなかったプログ
ラムを他の計算機に移転することで、プログラムの移転
が遅れることを防止することができ、これによりシステ
ムの信頼性、可用性を向上させることができる。
【0090】また、再起動しても異常が発生するのは、
プログラムの異常よりも計算機やOSの異常である可能
性が高いため、この計算機上の移動可能なプログラムを
全て移転することでさらに信頼性、可用性を向上させる
ことができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係るクラスタシス
テムの概略を例示するブロック図。
【図2】同実施の形態に係るクラスタシステムの動作を
示すフロー図。
【図3】本発明の第2の実施の形態に係るクラスタシス
テムの概略を例示するブロック図。
【図4】同実施の形態に係るクラスタシステムの動作を
示すフロー図。
【図5】従来のクラスタシステムの概略を例示するブロ
ック図。
【符号の説明】
1、8、13…クラスタシステム 2a、2b…計算機 3…通信回線 4…オペレーティング・システム 5、10、16…クラスタ・ソフトウェア 6a〜6c、14a〜14c…アプリケーション・プロ
グラム 15a〜15c…アプリケーション・インターフェイス 7a〜7c…アプリケーション専用監視プログラム 9…記憶領域 11…クラスタ・ソフトウェア本体 11a…識別情報取得機能 11b…プログラム移転機能 11c…計算機停止機能 12、17…監視プログラム 12a…監視機能 12b…再起動機能 12c…プログラム移転指示機能
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 15/177 678 G06F 15/177 678B 678A Fターム(参考) 5B034 BB02 CC01 DD02 5B042 GA11 JJ15 KK05 5B045 GG01 JJ02 JJ44 JJ45 5B098 AA10 GA02 GC01 JJ02 JJ08

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 複数の計算機が結合された環境で動作す
    るプログラムの動作状況を監視するクラスタシステムで
    あって、 前記環境で動作するプログラムの識別情報を取得する識
    別情報取得手段と、 当該識別情報取得手段によって取得された識別情報で示
    されるプログラムが正常か否かを監視する監視手段と、 当該監視手段による監視によって前記プログラムの異常
    が検出された場合に、この異常の検出されたプログラム
    を実行していた計算機上でこの異常の検出されたプログ
    ラムを再起動させる再起動手段と、 当該再起動手段によって再起動されたプログラムの異常
    が検出された場合に、当該異常の検出されたプログラム
    を実行していた計算機上で動作していたプログラムを、
    他の計算機上で実行させるプログラム移転手段とを具備
    したことを特徴とするクラスタシステム。
  2. 【請求項2】 複数の計算機が結合された環境で動作し
    アプリケーション・インターフェースを持つアプリケー
    ション・プログラムの動作状況を監視するクラスタシス
    テムであって、 前記環境で動作するアプリケーション・プログラムの識
    別情報を取得する識別情報取得手段と、 当該識別情報取得手段によって取得された識別情報で示
    されるアプリケーション・プログラムのアプリケーショ
    ン・インターフェイスを呼び出して正常に実行されてい
    るか否かを監視する監視手段と、 当該監視手段による監視によって前記アプリケーション
    ・プログラムの異常が検出された場合に、この異常の検
    出されたアプリケーション・プログラムを実行していた
    計算機上でこの異常の検出されたアプリケーション・プ
    ログラムを再起動させる再起動手段と、 当該再起動手段によって再起動されたアプリケーション
    ・プログラムの異常が検出された場合に、当該異常の検
    出されたアプリケーション・プログラムを実行していた
    計算機上で動作していたプログラムを、他の計算機上で
    実行させるプログラム移転手段とを具備したことを特徴
    とするクラスタシステム。
  3. 【請求項3】 コンピュータに、 複数の計算機が結合された環境で動作するプログラムの
    識別情報を取得させる識別情報取得機能と、 当該識別情報取得機能によって取得された識別情報で示
    されるプログラムが正常か否かを監視させる監視機能
    と、 当該監視機能による監視によって前記プログラムの異常
    が検出された場合に、この異常の検出されたプログラム
    を実行していた計算機上でこの異常の検出されたプログ
    ラムを再起動させる再起動機能と、 当該再起動機能によって再起動されたプログラムの異常
    が検出された場合に、当該異常の検出されたプログラム
    を実行していた計算機上で動作していたプログラムを、
    他の計算機上で実行させるプログラム移転機能とを実現
    させるためのプログラムを記憶したコンピュータ読み取
    り可能な記憶媒体。
  4. 【請求項4】 コンピュータに、 複数の計算機が結合された環境で動作しアプリケーショ
    ン・インターフェースを持つアプリケーション・プログ
    ラムの識別情報を取得させる識別情報取得機能と、 当該識別情報取得機能によって取得された識別情報で示
    されるアプリケーション・プログラムのアプリケーショ
    ン・インターフェイスを呼び出して正常に実行されてい
    るか否かを監視させる監視機能と、 当該監視機能による監視によって前記アプリケーション
    ・プログラムの異常が検出された場合に、この異常の検
    出されたアプリケーション・プログラムを実行していた
    計算機上でこの異常の検出されたアプリケーション・プ
    ログラムを再起動させる再起動機能と、 当該再起動機能によって再起動されたアプリケーション
    ・プログラムの異常が検出された場合に、当該異常の検
    出されたアプリケーション・プログラムを実行していた
    計算機上で動作していたプログラムを、他の計算機上で
    実行させるプログラム移転機能とを実現させるためのプ
    ログラムを記憶したコンピュータ読み取り可能な記憶媒
    体。
JP11198971A 1999-07-13 1999-07-13 クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体 Pending JP2001022709A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11198971A JP2001022709A (ja) 1999-07-13 1999-07-13 クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11198971A JP2001022709A (ja) 1999-07-13 1999-07-13 クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体

Publications (1)

Publication Number Publication Date
JP2001022709A true JP2001022709A (ja) 2001-01-26

Family

ID=16399983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11198971A Pending JP2001022709A (ja) 1999-07-13 1999-07-13 クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体

Country Status (1)

Country Link
JP (1) JP2001022709A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007072958A (ja) * 2005-09-09 2007-03-22 Hitachi Ltd イベント同期の遅延検出方法及び装置
JPWO2006043321A1 (ja) * 2004-10-20 2008-05-22 富士通株式会社 アプリケーション管理プログラム、アプリケーション管理方法、およびアプリケーション管理装置
US7546604B2 (en) 2003-11-26 2009-06-09 International Business Machines Corporation Program reactivation using triggering
JP2009282601A (ja) * 2008-05-20 2009-12-03 Nec System Technologies Ltd 動作監視プログラム、監視システム、および、監視方法
JP2010044781A (ja) * 2003-01-02 2010-02-25 Fisher Rosemount Syst Inc アプリケーションステーションで利用される冗長マネージャ
JP2010108445A (ja) * 2008-10-31 2010-05-13 Fujitsu Ltd 構成定義情報生成プログラム、構成定義情報生成装置、構成定義情報生成方法および監視プログラム
JP2010176422A (ja) * 2009-01-29 2010-08-12 Autonetworks Technologies Ltd 制御装置、制御システム及び制御方法
US7778991B2 (en) 2004-01-15 2010-08-17 Nec Corporation Service providing system, computer which executes program providing service and repository service control program
JP2013084121A (ja) * 2011-10-11 2013-05-09 Hitachi Ltd 多重系制御装置
JP2013156963A (ja) * 2012-01-31 2013-08-15 Fujitsu Ltd 制御プログラム、制御方法、情報処理装置、制御システム
JP2014522052A (ja) * 2011-08-01 2014-08-28 アルカテル−ルーセント ハードウェア故障の軽減

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010044781A (ja) * 2003-01-02 2010-02-25 Fisher Rosemount Syst Inc アプリケーションステーションで利用される冗長マネージャ
US7546604B2 (en) 2003-11-26 2009-06-09 International Business Machines Corporation Program reactivation using triggering
US7778991B2 (en) 2004-01-15 2010-08-17 Nec Corporation Service providing system, computer which executes program providing service and repository service control program
JPWO2006043321A1 (ja) * 2004-10-20 2008-05-22 富士通株式会社 アプリケーション管理プログラム、アプリケーション管理方法、およびアプリケーション管理装置
US7975038B2 (en) 2004-10-20 2011-07-05 Fujitsu Limited Application management program, application management method, and application management apparatus
JP4558740B2 (ja) * 2004-10-20 2010-10-06 富士通株式会社 アプリケーション管理プログラム、アプリケーション管理方法、およびアプリケーション管理装置
JP2007072958A (ja) * 2005-09-09 2007-03-22 Hitachi Ltd イベント同期の遅延検出方法及び装置
JP2009282601A (ja) * 2008-05-20 2009-12-03 Nec System Technologies Ltd 動作監視プログラム、監視システム、および、監視方法
JP2010108445A (ja) * 2008-10-31 2010-05-13 Fujitsu Ltd 構成定義情報生成プログラム、構成定義情報生成装置、構成定義情報生成方法および監視プログラム
JP2010176422A (ja) * 2009-01-29 2010-08-12 Autonetworks Technologies Ltd 制御装置、制御システム及び制御方法
JP2014522052A (ja) * 2011-08-01 2014-08-28 アルカテル−ルーセント ハードウェア故障の軽減
JP2013084121A (ja) * 2011-10-11 2013-05-09 Hitachi Ltd 多重系制御装置
JP2013156963A (ja) * 2012-01-31 2013-08-15 Fujitsu Ltd 制御プログラム、制御方法、情報処理装置、制御システム

Similar Documents

Publication Publication Date Title
US6952766B2 (en) Automated node restart in clustered computer system
KR100557399B1 (ko) 네트웍 매체 링크상태 기능을 이용한 컴퓨터 클러스터링시스템의 가용도 개선방법
US6859889B2 (en) Backup system and method for distributed systems
EP1099164B1 (en) Method and program for processing administrative requests of a distributed network application executing in a clustered computing environment
JP4529767B2 (ja) クラスタ構成コンピュータシステム及びその系リセット方法
US7856639B2 (en) Monitoring and controlling applications executing in a computing node
US20050289390A1 (en) Failover method for a cluster computer system
JP4572250B2 (ja) 計算機切り替え方法、計算機切り替えプログラム及び計算機システム
JPH0831047B2 (ja) 論理区画式データ処理装置における区画間制御のための装置及び方法
US20080288812A1 (en) Cluster system and an error recovery method thereof
JP2005242404A (ja) コンピュータシステムの系切替方法
JP2001022709A (ja) クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体
CN110109772B (zh) 一种cpu的重启方法、通信设备及可读存储介质
US8880552B2 (en) Database system and database control method
US8468386B2 (en) Detecting and recovering from process failures
JP5285045B2 (ja) 仮想環境における故障復旧方法及びサーバ及びプログラム
US8036105B2 (en) Monitoring a problem condition in a communications system
US11954509B2 (en) Service continuation system and service continuation method between active and standby virtual servers
JP2010146436A (ja) 監視システム、及びその制御方法、プログラム
US7873941B2 (en) Manager component that causes first software component to obtain information from second software component
US20130198377A1 (en) Control method, control system, information processing apparatus, and computer-readable non-transitory medium
KR101883251B1 (ko) 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법
JP3008887B2 (ja) アプリケーションプログラム単位の現用予備切り替え機能を有するコンピュータシステム及びプログラムを記録した機械読み取り可能な記録媒体
CN113515397B (zh) Ipmi命令处理方法、服务器和非暂时性计算机可读存储介质
JP2002014938A (ja) クラスタソフトウェア搭載システム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060926

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061127

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070703