JP2001022709A - クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体 - Google Patents
クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体Info
- Publication number
- JP2001022709A JP2001022709A JP11198971A JP19897199A JP2001022709A JP 2001022709 A JP2001022709 A JP 2001022709A JP 11198971 A JP11198971 A JP 11198971A JP 19897199 A JP19897199 A JP 19897199A JP 2001022709 A JP2001022709 A JP 2001022709A
- Authority
- JP
- Japan
- Prior art keywords
- program
- computer
- abnormality
- detected
- monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
Abstract
導入可能とし、何らかの異常が発生しても継続してプロ
グラムを実行可能とする。 【解決手段】複数の計算機2a、2b上で動作するプロ
グラム6a〜6cの動作状況を監視するクラスタシステ
ム8であり、プログラム6a〜6cの識別情報を識別情
報取得手段11aによって取得し、取得された識別情報
の示すプログラム6a〜6cが正常か否かを監視手段1
2aが監視する。この監視によってプログラムが異常と
されると、再起動手段12bが異常プログラムを実行し
ていた計算機2a上でこの異常プログラムを再起動させ
る。再起動されたプログラムの異常が検出されると、プ
ログラム移転手段11bが当該異常プログラムを実行し
ていた計算機2a上のプログラム6a〜6cを、他の計
算機2b上で実行させる。
Description
合された環境における各計算機の動作を監視するクラス
タシステム及びプログラムを記憶したコンピュータ読み
取り可能な記憶媒体に関する。
して接続された計算機(コンピュータ)にクラスタ・ソ
フトウェアを搭載して構築される。
例示するブロック図である。このクラスタシステム1で
は、2台の計算機(コンピュータ)2a、2bが通信回
線3で接続されており、各計算機2a、2b上ではオペ
レーティング・システム(以下、「OS」という)4と
クラスタ・ソフトウェア5とが実行されている。
a、2bは、例えばデータベース管理プログラム、電子
メール管理プログラム、ディレクトリ・サービス提供用
プログラム、通信プログラムのようなアプリケーション
・プログラム(以下、「アプリケーション」という)を
実行可能である。図5では、計算機2a上でアプリケー
ション6a〜6cが実行されている場合を例として示し
ている。
cをクラスタシステム1に導入する際には、各アプリケ
ーション6a〜6c専用の監視プログラム(監視モジュ
ール)7a〜7cをクラスタ・ソフトウェア5に追加す
る必要がある。
視プログラム7a〜7cは、それぞれのアプリケーショ
ン6a〜6cが実行されている場合に、OS4のコマン
ドにより定期的に実行状態を調査する。
OS4のコマンドによる調査の結果、監視対象のアプリ
ケーション6a〜6cの動作異常や、監視対象のアプリ
ケーション6a〜6cを実行している計算機2aの異常
を検出すると、この監視対象のアプリケーション6a〜
6cの再起動を行う。
の再起動が失敗した場合には、オペレータからの指示に
したがって、監視対象のアプリケーション6a〜6cを
他の計算機2b上で起動させる処理を実行する。
オペレータに指定されたアプリケーション6a〜6cを
立ち上げ、定期的に互いの計算機2a、2bが正常か否
かを監視し、また計算機2a、2b上で実行されている
アプリケーション6a〜6cが正常か否かを監視する。
さらに、監視の結果、障害発生を検出すると、この障害
に関係のあるアプリケーションの再起動を試み、再起動
後さらに障害が発生した場合には、その旨をオペレータ
に通知する。その後、クラスタ・ソフトウェア5は、オ
ペレータからの指示があれば、障害の発生した計算機2
a上のデータやプログラムを他の計算機2bに引き継が
せる。
動作について説明する。従来のクラスタシステム1上で
動作している各種アプリケーション6a〜6cは、アプ
リケーション6a〜6c自体の問題、OS4やハードウ
ェアの問題、オペレータの操作誤りなどによって、正常
に動作しなくなったり、計算機2a上から消滅する場合
がある。
ペレータや監視プログラム7a〜7cは、OS4が提供
する監視用コマンドを実行したり、ログメッセージを参
照することで、各種アプリケーション6a〜6cあるい
は計算機2aの動作状況を監視している。
検出された場合に、オペレータや監視プログラム7a〜
7cは、その問題の種類に対応して異常とされたアプリ
ケーションを再起動させたり、計算機2aを再立ち上げ
を行う。あるいは、複数台の計算機2a、2bが疎結合
されたクラスタシステム1においては、オペレータが指
示を発して、障害の発生した計算機2aと異なる他の計
算機2b上で障害の発生したアプリケーションが引き継
がれる。
示される従来のクラスタシステム1においては、動作中
のアプリケーション6a〜6cのいずれかに異常が発生
した場合に、オペレータや監視プログラム7a〜7c
は、発生した異常の状況に応じて、計算機2a上で異常
の発生したアプリケーションの再起動を行う。そして、
それでも異常が発生する場合には、他系の計算機2bに
この異常の発生するアプリケーションの引き継ぎを行
う。
ケーションの他系の計算機2bへの引き継ぎはオペレー
タの判断で行われるので、オペレータがアプリケーショ
ン6a〜6cに関するエラーメッセージを見落とした
り、監視プログラム7a〜7cが発生させるエラーメッ
セージを見落とすことがある。
が遅れ、当該クラスタシステム1の運用に支障をきたす
場合がある。また、これにより、クラスタシステム1の
信頼性、可用性が低下する場合がある。
は、導入するアプリケーション6a〜6c用の監視プロ
グラム7a〜7cをオペレータがクラスタ・ソフトウェ
ア5に組み込まなければならないため、アプリケーショ
ン導入時にオペレータに手間がかかるという問題があ
る。
れたもので、クラスタシステムに容易に新規のプログラ
ムを導入可能であり、何らかの異常が発生しても継続し
てプログラムを実行可能なクラスタシステム及びプログ
ラムを記憶したコンピュータ読み取り可能な記憶媒体を
提供することを目的とする。
タシステムを構成する計算機上で動作するプログラムを
プログラムの種別に依存することなくまとめて監視する
手段を備えた点にある。また、異常検出後に再起動した
プログラムの異常をさらに検出した場合に、この異常を
検出したプログラムを実行していた計算機上で動作して
いたプログラムのうち移動可能なプログラム全てを他の
計算機上で起動させる点にある。
具体的手段について説明する。
環境で動作するプログラムの動作状況を監視するクラス
タシステムに関する発明である。
の環境で動作するプログラムの識別情報を取得する識別
情報取得手段と、当該識別情報取得手段によって取得さ
れた識別情報で示されるプログラムが正常か否かを監視
する監視手段と、当該監視手段による監視によってプロ
グラムの異常が検出された場合に、この異常の検出され
たプログラムを実行していた計算機上でこの異常の検出
されたプログラムを再起動させる再起動手段と、当該再
起動手段によって再起動されたプログラムの異常が検出
された場合に、当該異常の検出されたプログラムを実行
していた計算機上で動作していたプログラムを他の計算
機上で実行させるプログラム移転手段とを具備する。
テムにおいては、動作状態にあるプログラムの識別情報
が収集され、動作中のプログラムが自動的にまとめて監
視される。
場合であっても、この新規のプログラム専用の監視プロ
グラムを導入する必要がない。
意しなくても、新規のプログラムを容易に導入できる。
においては、異常の生じたプログラムを再起動してもさ
らに異常が発生する場合には、この異常の発生する計算
機上で実行されていたプログラムが自動的に他の計算機
上で起動される。
いために、プログラムの引き継ぎが遅れることを防止で
き、高い信頼性、可用性を確保することができる。
環境で動作しアプリケーション・インターフェースを持
つアプリケーション・プログラムの動作状況を監視する
クラスタシステムに関する発明である。
の環境で動作するアプリケーション・プログラムの識別
情報を取得する識別情報取得手段と、当該識別情報取得
手段によって取得された識別情報で示されるアプリケー
ション・プログラムのアプリケーション・インターフェ
イスを呼び出して正常に実行されているか否かを監視す
る監視手段と、当該監視手段による監視によってアプリ
ケーション・プログラムの異常が検出された場合に、こ
の異常の検出されたアプリケーション・プログラムを実
行していた計算機上でこの異常の検出されたアプリケー
ション・プログラムを再起動させる再起動手段と、当該
再起動手段によって再起動されたアプリケーション・プ
ログラムの異常が検出された場合に、当該異常の検出さ
れたアプリケーション・プログラムを実行していた計算
機上で動作していたプログラムを他の計算機上で実行さ
せるプログラム移転手段とを具備する。
リケーションの識別情報が管理され、この動作中のアプ
リケーションの含むアプリケーション・インターフェイ
スに対して適宜呼び出しが行われる。この呼び出しの結
果、例えばこの呼び出しに関する応答がない場合や、あ
るいは応答としてエラーを受けた場合には、このアプリ
ケーションが異常とされる。
視プログラムが必要ないため、上記第1の発明と同様の
作用効果を得ることができる。
においては、異常の生じたアプリケーション・プログラ
ムを再起動してもさらに異常が発生する場合には、他の
計算機上で起動される。
に、オペレータが異常に気づかないために、プログラム
の引き継ぎが遅れることを防止でき、高い信頼性、可用
性を確保することができる。
算機が結合された環境で動作するプログラムの識別情報
を取得させる識別情報取得機能と、当該識別情報取得機
能によって取得された識別情報で示されるプログラムが
正常か否かを監視させる監視機能と、当該監視機能によ
る監視によってプログラムの異常が検出された場合に、
この異常の検出されたプログラムを実行していた計算機
上でこの異常の検出されたプログラムを再起動させる再
起動機能と、当該再起動機能によって再起動されたプロ
グラムの異常が検出された場合に、当該異常の検出され
たプログラムを実行していた計算機上で動作していたプ
ログラムを他の計算機上で実行させるプログラム移転機
能とを実現させるプログラムを記憶したコンピュータ読
み取り可能な記憶媒体である。
数の計算機が結合された環境で動作しアプリケーション
・インターフェースを持つアプリケーション・プログラ
ムの識別情報を取得させる識別情報取得機能と、当該識
別情報取得機能によって取得された識別情報で示される
アプリケーション・プログラムのアプリケーション・イ
ンターフェイスを呼び出して正常に実行されているか否
かを監視させる監視機能と、当該監視機能による監視に
よってアプリケーション・プログラムの異常が検出され
た場合に、この異常の検出されたアプリケーション・プ
ログラムを実行していた計算機上でこの異常の検出され
たアプリケーション・プログラムを再起動させる再起動
機能と、当該再起動機能によって再起動されたアプリケ
ーション・プログラムの異常が検出された場合に、当該
異常の検出されたアプリケーション・プログラムを実行
していた計算機上で動作していたプログラムを他の計算
機上で実行させるプログラム移転機能とを実現させるプ
ログラムを記憶したコンピュータ読み取り可能な記憶媒
体である。
第2の発明で説明したクラスタシステムの機能をコンピ
ュータにより実現するためのプログラムを記憶したコン
ピュータ読み取り可能な記憶媒体である。
を用いることによって、上述した機能を有していない計
算機や計算機システムに対しても、簡単に上述した機能
を付加することができる。
の実施の形態について説明する。
ては、動作中のプログラムをまとめて監視し、何らかの
異常が発生したらそのプログラムを再起動し、それでも
異常が発生するようであればプログラムを他系の計算機
に自動的に引き継がせるクラスタシステムについて説明
する。
テムの概略を例示するブロック図であり、図5と同一の
部分については同一の符号を付してその説明を省略する
かあるいは簡単に説明し、ここでは異なる部分について
のみ詳しく説明する。
機2aは、通常時にアプリケーションを動作させるコン
ピュータである。これに対し、他方の計算機2bは、待
機系として動作するコンピュータであり、一方の計算機
2aに異常が発生した場合にその業務を引き継ぐ。通信
回線3は、計算機2a、2b間を送受信可能に接続して
いる。
領域9が設けられているが、図1では計算機2b側の記
憶領域の記載は省略している。
ソフトウェアであり、アプリケーション6a〜6cは、
各種の業務を処理するためのプログラムである。ここで
は、この各アプリケーション6a〜6cは計算機に常駐
した形態で利用されるプログラムとする。また、このア
プリケーション6a〜6cは、動作する計算機を移動可
能なプログラムとする。
ラスタ・ソフトウェア本体11と監視プログラム12と
から構成されており、計算機2a、2b双方に備えられ
ている。以下においては、計算機2a側のクラスタソフ
トウェア10を例として説明するが、計算機2b側のク
ラスタソフトウェア10も同様の機能を持ち、同様の動
作を行う。
おいて説明した従来のクラスタ・ソフトウェア5と同様
の機能を保持しており、その中には識別情報取得機能1
1a、プログラム移転機能11b、計算機停止機能11
cが含まれている。
a上で動作すべきアプリケーションのプロセスIDを記
憶領域9に保持する。これにより、計算機2a上で動作
しているはずのアプリケーションが特定される。
上で動作していたアプリケーションを他の計算機2b上
で動作させるための処理を行い、また計算機2b上で動
作していたアプリケーションを計算機2a上で動作させ
るための処理を行う。計算機停止機能11cは、計算機
2aを停止するための処理を行う。
再起動機能12b、プログラム移転指示機能12cとを
含む。監視機能12aは、記憶領域9を参照し、この記
憶領域9にプロセスIDが登録されているアプリケーシ
ョン(計算機2a上に存在すべきアプリケーション)が
計算機2a上に存在するか否かを、OS4の提供するコ
マンドを呼び出すことで確認する。
って計算機2a上で動作していたアプリケーションの異
常終了が検出された場合に、この異常終了したアプリケ
ーションを当該計算機2a上で再起動させる。
機能12bによって再起動されたアプリケーションの異
常終了が再び監視機能12aによって検出された場合
に、計算機2a、2bのクラスタ・ソフトウェア本体1
1の持つプログラム移転機能11bに対し、この計算機
2a上で動作するアプリケーション6a〜6cの移転指
示(計算機b上でのアプリケーション6a〜6cの起動
・開始指示)を通知する。
再起動機能12bによって再起動されたアプリケーショ
ンの異常終了が再び監視機能12aによって検出された
場合に、計算機2aのクラスタソフトウェア本体11の
持つ計算機停止機能11cに計算機2aの停止指示を通
知する。
8の動作について以下に説明する。図2は、本実施の形
態に係るクラスタシステム8の動作を示すフロー図であ
り、特に監視プログラム12によるアプリケーション6
a〜6cの存在確認と、アプリケーション6a〜6cの
消滅検出時の処理手順を示している。
視プログラム12の監視機能12aによってプロセスI
Dが登録されている記憶領域9が参照され、監視すべき
アプリケーション6a〜6cのプロセスIDが取り出さ
れる(s1)。
aによってOS4の提供するコマンドが呼び出され、計
算機2a上で動作しているアプリケーションのプロセス
IDが取り出される(s2)。これにより、計算機2a
上で動作しているアプリケーションのプロセスIDの一
覧情報が得られる。
D(処理s1で得られたプロセスID)と、OS4のコ
マンド呼び出しにより得られたプロセスID(処理s2
で得られたプロセスID)とが、監視プログラム12の
監視機能12aにより比較される。そして、計算機2a
で動作しているべき監視対象のアプリケーション6a〜
6cが消滅しているか否かが判定される(s3)。
ョン6a〜6cが消滅していない場合には、上記の監視
が繰り返される。
いずれかが消滅している場合には、再起動機能12bに
より消滅したアプリケーションが先において一度再起動
されたものか否かが判定される(s4)。
には、消滅したアプリケーションが監視プログラム12
の再起動機能12bによって消滅前と同一の計算機2a
上で再起動される(s5)。
済みであった場合には、監視プログラム12のプログラ
ム移転指示機能12cにより、計算機2aのクラスタ・
ソフトウェア10の持つ計算機停止機能11cに計算機
2aの停止が指示される。また、再起動しても異常が発
生するのはアプリケーションよりむしろ他の異常(O
S、計算機の異常)である可能性が高いとして、計算機
2a上で動作していたアプリケーション6a〜6cの計
算機2b上での起動が、計算機2a、2bのクラスタ・
ソフトウェア10の持つプログラム移転機能11bに指
示される(s6)。
ソフトウェア10の持つ計算機停止機能11cが計算機
2aを停止させる。また、計算機2a、2bのクラスタ
ソフトウェア10の持つプログラム移転機能11bによ
りアプリケーション6a〜6cの動作が計算機2bに引
き継がれる。
クラスタシステム8においては、アプリケーション6a
〜6cをまとめて監視する監視プログラム12をクラス
タ・ソフトウェア10に加えている。
入するたびに、このアプリケーション専用の監視プログ
ラムをオペレータが加える必要がなく、オペレータの作
業を軽減させることができる。
ム8においては、アプリケーションに対する再起動後、
さらに再起動が失敗した場合には、この再起動が失敗し
た計算機上で動作していた移動可能なアプリケーション
の動作を全て待機系の他の計算機に引き継がせる。
が持続することを防止し、システムの信頼性、可用性が
向上される。
のプログラムが常駐形式で動作するアプリケーション6
a〜6cの場合を例として説明しているが、これに限定
されるものではない。例えば、アプリケーションではな
いデーモンや、常駐形式ではないアプリケーションを監
視対象とする場合でも、同様の手法を適用することで同
様の効果を得ることができる。また、監視対象のプログ
ラムの数にも制限されることなく、いくつでもよい。
算機2a、2bによりクラスタシステム8が構成される
場合を例として説明しているが、これに限定されるもの
ではなく、3台以上の計算機によりクラスタシステムが
構成される場合にも同様に適用可能である。
ム8は、同様の作用・機能を実現可能であれば各構成要
素の配置を変更させてもよく、また各構成要素を自由に
組み合わせてもよい。例えば、識別情報取得機能11a
は、クラスタ・ソフトウェア本体11に備えるのではな
く、監視プログラム12に備えてもよい。
ては、アプリケーション・インターフェイス(以下、
「API」という)を持つアプリケーションを監視対象
とし、このアプリケーションを他系の計算機に自動的に
引き継がせるクラスタシステムについて説明する。
テムの概略を例示するブロック図であり、図1、5と同
一の部分については同一の符号を付してその説明を省略
するかあるいは簡単に説明し、ここでは異なる部分につ
いてのみ詳しく説明する。
の基礎的な構成は、先で述べたクラスタシステム8と同
様であるが、アプリケーションのAPIを利用して監視
を行う点が異なる。
cは、それぞれに対するインターフェイスを扱うAPI
15a〜15cを備えている。API15a〜15c
は、外部のプログラムにアプリケーション14a〜14
cの機能を利用させるために動作する。例えば、アプリ
ケーション14aがデータベース管理プログラムである
場合には、API15aはSQL命令を受け付け、処理
後の結果を返す。
ラム17は、監視対象のアプリケーション14a〜14
cの各API15a〜15cを呼び出す。その結果、何
らかのエラーがアプリケーション14a〜14cの持つ
API15a〜15cのいずれかから返却されたり、あ
るいはAPI15a〜15bのいずれかから制御がリタ
ーンしなくなった場合、監視プログラム17は、異常を
検出したAPIを持つアプリケーションを停止させ、再
起動させる。
後のAPI呼び出しでまだ異常を検出する場合には、計
算機2aのクラスタ・ソフトウェア本体11に対して、
計算機2aの停止を指示し、さらに計算機2a、2bの
クラスタ・ソフトウェア本体11に対して、計算機2b
上でのアプリケーション14a〜14cの起動・開始を
指示する。
13の動作について以下に説明する。図4は、本実施の
形態に係るクラスタシステム13の動作を示すフロー図
であり、特に監視プログラム17によるアプリケーショ
ン14a〜14cの持つAPI15a〜15cの呼び出
しと、API15a〜15cの呼び出しにおいて異常を
検出した際の処理手順を示している。
ず、監視プログラム17の監視機能によって記憶領域9
が参照され、この監視プログラム17によって監視すべ
きアプリケーション14a〜14bの持つAPI15a
〜15cが呼び出される(t1)。
出しに対して、API15a〜15cのいずれかからエ
ラー返却を受けたか、あるいはリターンを返却しない
(制御を戻さない)かの判定が、監視プログラム17の
監視機能によって行われる(t2)。
処理が繰り返されるが、エラー返却を受けたりリターン
を返却しない場合には、そのAPIを持つアプリケーシ
ョンが再起動済みか否かが監視プログラム17の再起動
機能により判定される(t3)。
には、この正常なリターンを返さないAPIを持つアプ
リケーションが、監視プログラム17の再起動機能によ
って同一の計算機2a上で再起動される(t4)。
ログラム17のプログラム移転指示機能により、計算機
2aの停止が計算機2aのクラスタ・ソフトウェア本体
11に指示される。また、計算機2a上で動作していた
アプリケーション14a〜14cの計算機2b上での起
動が、計算機2a、2bのクラスタソフトウェア本体1
1に指示される(t5)。
ソフトウェア16の持つ計算機停止機能が計算機2aを
停止させる。また、計算機2a、2bのクラスタ・ソフ
トウェア16の持つプログラム移転機能によりアプリケ
ーション14a〜14cの動作が計算機2bに引き継が
れる。
クラスタシステム13においては、監視プログラム17
がアプリケーション14a〜14cのAPI呼び出しに
より、まとめてアプリケーション14a〜14cの監視
を行う。
API呼び出しに対する異常動作、ストールを検出した
場合に当該異常の発生したアプリケーションの再起動が
実行され、さらに異常がある場合に待機系の計算機2b
へアプリケーション14a〜14cの業務が自動的に引
き継がれる。
と同様に、オペレータの作業を軽減させ、さらにシステ
ムの信頼性、可用性が向上される。
算機2a、2bによりクラスタシステム13が構成され
る場合を例として説明しているが、これに限定されるも
のではなく、3台以上の計算機によりクラスタシステム
が構成される場合にも同様に適用可能である。同様に、
クラスタシステム上で動作するアプリケーションの数に
も、特に制限はなくいくつであってもよい。
ム13は、同様の作用・機能を実現可能であれば各構成
要素の配置を変更させてもよく、また各構成要素を自由
に組み合わせてもよい。
るクラスタシステム8、13におけるクラスタ・ソフト
ウェア10、16は、コンピュータに実行させることの
できるプログラムとして、例えば磁気ディスク(フロッ
ピー(登録商標)ディスク、ハードディスク等)、光デ
ィスク(CD−ROM、DVD等)、半導体メモリなど
の記憶媒体に書き込んで適用したり、通信媒体により伝
送して計算機あるいは計算機システムに適用することも
可能である。上記各機能を実現するコンピュータは、記
憶媒体に記憶されたプログラムを読み込み、プログラム
によって動作が制御されることにより、上述した処理を
実行する。
プログラムの種別に関係なく、計算機上で動作するプロ
グラムが正常か否かを監視する監視手段と、異常の発生
したプログラムの再起動に失敗した場合に、その計算機
上で動作する移動可能なプログラムを他の計算機に自動
的に移転するプログラム移転手段とを備えている。
に関係なく各プログラムの動作をまとめて監視すること
で、各プログラム専用の監視プログラムを導入する必要
がない。
ペレータの労力を低減させることができる。
ラムを他の計算機に移転することで、プログラムの移転
が遅れることを防止することができ、これによりシステ
ムの信頼性、可用性を向上させることができる。
プログラムの異常よりも計算機やOSの異常である可能
性が高いため、この計算機上の移動可能なプログラムを
全て移転することでさらに信頼性、可用性を向上させる
ことができる。
テムの概略を例示するブロック図。
示すフロー図。
テムの概略を例示するブロック図。
示すフロー図。
ック図。
グラム 15a〜15c…アプリケーション・インターフェイス 7a〜7c…アプリケーション専用監視プログラム 9…記憶領域 11…クラスタ・ソフトウェア本体 11a…識別情報取得機能 11b…プログラム移転機能 11c…計算機停止機能 12、17…監視プログラム 12a…監視機能 12b…再起動機能 12c…プログラム移転指示機能
Claims (4)
- 【請求項1】 複数の計算機が結合された環境で動作す
るプログラムの動作状況を監視するクラスタシステムで
あって、 前記環境で動作するプログラムの識別情報を取得する識
別情報取得手段と、 当該識別情報取得手段によって取得された識別情報で示
されるプログラムが正常か否かを監視する監視手段と、 当該監視手段による監視によって前記プログラムの異常
が検出された場合に、この異常の検出されたプログラム
を実行していた計算機上でこの異常の検出されたプログ
ラムを再起動させる再起動手段と、 当該再起動手段によって再起動されたプログラムの異常
が検出された場合に、当該異常の検出されたプログラム
を実行していた計算機上で動作していたプログラムを、
他の計算機上で実行させるプログラム移転手段とを具備
したことを特徴とするクラスタシステム。 - 【請求項2】 複数の計算機が結合された環境で動作し
アプリケーション・インターフェースを持つアプリケー
ション・プログラムの動作状況を監視するクラスタシス
テムであって、 前記環境で動作するアプリケーション・プログラムの識
別情報を取得する識別情報取得手段と、 当該識別情報取得手段によって取得された識別情報で示
されるアプリケーション・プログラムのアプリケーショ
ン・インターフェイスを呼び出して正常に実行されてい
るか否かを監視する監視手段と、 当該監視手段による監視によって前記アプリケーション
・プログラムの異常が検出された場合に、この異常の検
出されたアプリケーション・プログラムを実行していた
計算機上でこの異常の検出されたアプリケーション・プ
ログラムを再起動させる再起動手段と、 当該再起動手段によって再起動されたアプリケーション
・プログラムの異常が検出された場合に、当該異常の検
出されたアプリケーション・プログラムを実行していた
計算機上で動作していたプログラムを、他の計算機上で
実行させるプログラム移転手段とを具備したことを特徴
とするクラスタシステム。 - 【請求項3】 コンピュータに、 複数の計算機が結合された環境で動作するプログラムの
識別情報を取得させる識別情報取得機能と、 当該識別情報取得機能によって取得された識別情報で示
されるプログラムが正常か否かを監視させる監視機能
と、 当該監視機能による監視によって前記プログラムの異常
が検出された場合に、この異常の検出されたプログラム
を実行していた計算機上でこの異常の検出されたプログ
ラムを再起動させる再起動機能と、 当該再起動機能によって再起動されたプログラムの異常
が検出された場合に、当該異常の検出されたプログラム
を実行していた計算機上で動作していたプログラムを、
他の計算機上で実行させるプログラム移転機能とを実現
させるためのプログラムを記憶したコンピュータ読み取
り可能な記憶媒体。 - 【請求項4】 コンピュータに、 複数の計算機が結合された環境で動作しアプリケーショ
ン・インターフェースを持つアプリケーション・プログ
ラムの識別情報を取得させる識別情報取得機能と、 当該識別情報取得機能によって取得された識別情報で示
されるアプリケーション・プログラムのアプリケーショ
ン・インターフェイスを呼び出して正常に実行されてい
るか否かを監視させる監視機能と、 当該監視機能による監視によって前記アプリケーション
・プログラムの異常が検出された場合に、この異常の検
出されたアプリケーション・プログラムを実行していた
計算機上でこの異常の検出されたアプリケーション・プ
ログラムを再起動させる再起動機能と、 当該再起動機能によって再起動されたアプリケーション
・プログラムの異常が検出された場合に、当該異常の検
出されたアプリケーション・プログラムを実行していた
計算機上で動作していたプログラムを、他の計算機上で
実行させるプログラム移転機能とを実現させるためのプ
ログラムを記憶したコンピュータ読み取り可能な記憶媒
体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11198971A JP2001022709A (ja) | 1999-07-13 | 1999-07-13 | クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11198971A JP2001022709A (ja) | 1999-07-13 | 1999-07-13 | クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001022709A true JP2001022709A (ja) | 2001-01-26 |
Family
ID=16399983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11198971A Pending JP2001022709A (ja) | 1999-07-13 | 1999-07-13 | クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001022709A (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007072958A (ja) * | 2005-09-09 | 2007-03-22 | Hitachi Ltd | イベント同期の遅延検出方法及び装置 |
JPWO2006043321A1 (ja) * | 2004-10-20 | 2008-05-22 | 富士通株式会社 | アプリケーション管理プログラム、アプリケーション管理方法、およびアプリケーション管理装置 |
US7546604B2 (en) | 2003-11-26 | 2009-06-09 | International Business Machines Corporation | Program reactivation using triggering |
JP2009282601A (ja) * | 2008-05-20 | 2009-12-03 | Nec System Technologies Ltd | 動作監視プログラム、監視システム、および、監視方法 |
JP2010044781A (ja) * | 2003-01-02 | 2010-02-25 | Fisher Rosemount Syst Inc | アプリケーションステーションで利用される冗長マネージャ |
JP2010108445A (ja) * | 2008-10-31 | 2010-05-13 | Fujitsu Ltd | 構成定義情報生成プログラム、構成定義情報生成装置、構成定義情報生成方法および監視プログラム |
JP2010176422A (ja) * | 2009-01-29 | 2010-08-12 | Autonetworks Technologies Ltd | 制御装置、制御システム及び制御方法 |
US7778991B2 (en) | 2004-01-15 | 2010-08-17 | Nec Corporation | Service providing system, computer which executes program providing service and repository service control program |
JP2013084121A (ja) * | 2011-10-11 | 2013-05-09 | Hitachi Ltd | 多重系制御装置 |
JP2013156963A (ja) * | 2012-01-31 | 2013-08-15 | Fujitsu Ltd | 制御プログラム、制御方法、情報処理装置、制御システム |
JP2014522052A (ja) * | 2011-08-01 | 2014-08-28 | アルカテル−ルーセント | ハードウェア故障の軽減 |
-
1999
- 1999-07-13 JP JP11198971A patent/JP2001022709A/ja active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010044781A (ja) * | 2003-01-02 | 2010-02-25 | Fisher Rosemount Syst Inc | アプリケーションステーションで利用される冗長マネージャ |
US7546604B2 (en) | 2003-11-26 | 2009-06-09 | International Business Machines Corporation | Program reactivation using triggering |
US7778991B2 (en) | 2004-01-15 | 2010-08-17 | Nec Corporation | Service providing system, computer which executes program providing service and repository service control program |
JPWO2006043321A1 (ja) * | 2004-10-20 | 2008-05-22 | 富士通株式会社 | アプリケーション管理プログラム、アプリケーション管理方法、およびアプリケーション管理装置 |
US7975038B2 (en) | 2004-10-20 | 2011-07-05 | Fujitsu Limited | Application management program, application management method, and application management apparatus |
JP4558740B2 (ja) * | 2004-10-20 | 2010-10-06 | 富士通株式会社 | アプリケーション管理プログラム、アプリケーション管理方法、およびアプリケーション管理装置 |
JP2007072958A (ja) * | 2005-09-09 | 2007-03-22 | Hitachi Ltd | イベント同期の遅延検出方法及び装置 |
JP2009282601A (ja) * | 2008-05-20 | 2009-12-03 | Nec System Technologies Ltd | 動作監視プログラム、監視システム、および、監視方法 |
JP2010108445A (ja) * | 2008-10-31 | 2010-05-13 | Fujitsu Ltd | 構成定義情報生成プログラム、構成定義情報生成装置、構成定義情報生成方法および監視プログラム |
JP2010176422A (ja) * | 2009-01-29 | 2010-08-12 | Autonetworks Technologies Ltd | 制御装置、制御システム及び制御方法 |
JP2014522052A (ja) * | 2011-08-01 | 2014-08-28 | アルカテル−ルーセント | ハードウェア故障の軽減 |
JP2013084121A (ja) * | 2011-10-11 | 2013-05-09 | Hitachi Ltd | 多重系制御装置 |
JP2013156963A (ja) * | 2012-01-31 | 2013-08-15 | Fujitsu Ltd | 制御プログラム、制御方法、情報処理装置、制御システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6952766B2 (en) | Automated node restart in clustered computer system | |
KR100557399B1 (ko) | 네트웍 매체 링크상태 기능을 이용한 컴퓨터 클러스터링시스템의 가용도 개선방법 | |
US6859889B2 (en) | Backup system and method for distributed systems | |
EP1099164B1 (en) | Method and program for processing administrative requests of a distributed network application executing in a clustered computing environment | |
JP4529767B2 (ja) | クラスタ構成コンピュータシステム及びその系リセット方法 | |
US7856639B2 (en) | Monitoring and controlling applications executing in a computing node | |
US20050289390A1 (en) | Failover method for a cluster computer system | |
JP4572250B2 (ja) | 計算機切り替え方法、計算機切り替えプログラム及び計算機システム | |
JPH0831047B2 (ja) | 論理区画式データ処理装置における区画間制御のための装置及び方法 | |
US20080288812A1 (en) | Cluster system and an error recovery method thereof | |
JP2005242404A (ja) | コンピュータシステムの系切替方法 | |
JP2001022709A (ja) | クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体 | |
CN110109772B (zh) | 一种cpu的重启方法、通信设备及可读存储介质 | |
US8880552B2 (en) | Database system and database control method | |
US8468386B2 (en) | Detecting and recovering from process failures | |
JP5285045B2 (ja) | 仮想環境における故障復旧方法及びサーバ及びプログラム | |
US8036105B2 (en) | Monitoring a problem condition in a communications system | |
US11954509B2 (en) | Service continuation system and service continuation method between active and standby virtual servers | |
JP2010146436A (ja) | 監視システム、及びその制御方法、プログラム | |
US7873941B2 (en) | Manager component that causes first software component to obtain information from second software component | |
US20130198377A1 (en) | Control method, control system, information processing apparatus, and computer-readable non-transitory medium | |
KR101883251B1 (ko) | 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법 | |
JP3008887B2 (ja) | アプリケーションプログラム単位の現用予備切り替え機能を有するコンピュータシステム及びプログラムを記録した機械読み取り可能な記録媒体 | |
CN113515397B (zh) | Ipmi命令处理方法、服务器和非暂时性计算机可读存储介质 | |
JP2002014938A (ja) | クラスタソフトウェア搭載システム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040915 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060914 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060926 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061127 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070703 |