JP2003345620A - 多ノードクラスタシステムのプロセス監視方法 - Google Patents

多ノードクラスタシステムのプロセス監視方法

Info

Publication number
JP2003345620A
JP2003345620A JP2002150973A JP2002150973A JP2003345620A JP 2003345620 A JP2003345620 A JP 2003345620A JP 2002150973 A JP2002150973 A JP 2002150973A JP 2002150973 A JP2002150973 A JP 2002150973A JP 2003345620 A JP2003345620 A JP 2003345620A
Authority
JP
Japan
Prior art keywords
monitoring
server
monitored
cluster group
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002150973A
Other languages
English (en)
Inventor
Kazuya Kamimura
和也 上村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP2002150973A priority Critical patent/JP2003345620A/ja
Publication of JP2003345620A publication Critical patent/JP2003345620A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】 クラスタグループの動き(状態の遷移)を常
に把握し、これに合わせて監視設定を自動的に変更する
ことを可能とする。 【解決手段】 待機系サーバ4を含めて、監視対象サー
バ2〜4は、クラスタグループの異常を検出するための
監視プロセス6,7,14とクラスタグループの可動,
停止をチェックするための情報Bを取得するチェックプ
ロセス15,16,17とを備えている。監視サーバ1
の監視設定プロセス11は、各監視対象サーバ2,3,
4からのチェック情報Bの通知を受け、監視対象サーバ
2,3,4毎にこのチェック情報Bをメモリ12の監視
設定テーブル13と比較し、これらに不一致があると、
監視対象サーバ2,3と待機系サーバ4との間でクラス
タグループの切り替わりがあったとして、監視プロセス
5での監視対象サーバ監視のための監視設定を変更す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、多ノードクラスタ
システムにおけるサーバプロセスの監視方法に関する。
【0002】
【従来の技術】従来、サーバプロセスを監視する方法と
しては、特開2001−117789号公報に記載のも
のが知られている。これは、プログラム監視条件設定部
を備え、グラフィカルユーザインタフェースまたは定義
ファイルといった外部入力装置により、プログラムの監
視条件とし、第1に監視するプログラム名称を任意の文
字列で設定でき、第2にプログラムを構成する全てまた
は一部のプロセス名称を実行ファイル名またはコマンド
ライン名で設定でき、第3にこの第2の設定で指定した
プロセス名称単位に正常稼動と判断するプロセス数の下
限値および上限値などを閾値として設定できるものであ
り、プロセス数による幅広いプロセス監視を実現してい
る。
【0003】
【発明が解決しようとする課題】ところで、近年、信頼
性向上及び低コスト化の観点から、複数のシステムに共
通の待機系サーバを準備し、どのシステムでプロセスの
待機系への切り替えが発生しても、同じ待機系サーバへ
切り替わるという多ノードクラスタシステムが存在す
る。しかしながら、現状のプロセス監視方法では、多ノ
ードクラスタシステムにおける待機系サーバ上のプロセ
スを常に監視することは難しい。
【0004】以下、これを図7を用いて説明する。
【0005】同図において、ここで、1つの監視サーバ
1と、2つの監視対象サーバ2,3と、1つの待機系サ
ーバ4とからなる3ノードクラスタシステムを例にして
説明する。
【0006】監視サーバ1は常時起動した監視サーバ側
監視プロセス(以下、単に監視プロセスという)5を有
し、この監視プロセス5によって監視対象サーバ2,3
を監視する。また、監視対象サーバ2は、1以上のプロ
セス10から構成されてパッケージ(プログラム)をな
すクラスタグループ8を起動し、かかるプロセス10を
監視対象としてこのクラスタグループ8を監視する監視
対象側監視プロセス(以下、単に監視プロセスという)
6を備えている。この監視プロセス6の監視結果は、監
視対象プロセス情報Aとして、監視サーバ1の監視プロ
セス5に送られる。同様にして、監視対象サーバ3も、
1以上のプロセス10から構成されてパッケージ(プロ
グラム)をなすクラスタグループ9を起動し、かかるプ
ロセス10を監視対象としてこのクラスタグループ9を
監視する監視対象側監視プロセス(以下、単に監視プロ
セスという)7を備えている。この監視プロセス7の監
視結果は、監視対象プロセス情報Aとして、監視サーバ
1の監視プロセス5に送られる。
【0007】監視プロセス5では、これら監視対象サー
バ2,3のクラスタグループ8,9毎に、プロセスの監
視項目やクラスタグループが正常と判断するためのプロ
セス数の範囲などの監視設定がなされており、監視対象
サーバ2,3からの監視対象プロセス情報Aと該当する
監視設定とを対比することにより、クラスタグループ
8,9の状態を監視する。
【0008】ここで、起動しているクラスタグループ8
に異常をきたして監視対象サーバ2に障害が発生し、こ
の監視対象サーバ2でこのクラスタグループ8を実行で
きなくなると、このクラスタグループ8を待機系サーバ
4で実行させるようにする切り替え、即ち、待機系サー
バ切り替えが行なわれる。このようなとき、監視サーバ
1がこの待機系サーバ4を監視することが考えられる
が、このためには、この監視サーバ1の監視プロセス5
に待機系サーバ4でのクラスタグループ8に対して監視
設定がなされなければならない。
【0009】しかしながら、このようにするためには、
待機系サーバ4にも監視プロセスを設け、その監視結果
を監視サーバ1の監視プロセス5に通知するように構成
することが考えられるが、待機系サーバ4は、システム
が正常な状態では、起動中のクラスタグループが存在せ
ず、このような場合、待機系サーバの監視プロセスから
のかかる状態に対する監視対象プロセス情報とこの待機
系サーバに対する監視設定とから、監視サーバ1の監視
プロセス5は、待機系サーバ4に障害があると、判定す
ることになる。
【0010】そこで、かかる状態で監視対象サーバ2か
らクラスタグループ8の待機系サーバ切り替えがある
と、監視サーバ1での監視プロセス5では、待機系サー
バ4に対し、このクラスタグループ8に該当する監視設
定への変更(更新)が行なわれなければならないが、図
示する構成のシステムでは、待機系サーバ切り替えに対
し、該当する監視設定への正確な変更を自動的に行なう
ことができない。このため、現状では、待機系サーバ4
の監視は行なわれていない。
【0011】そこで、待機系サーバ切り替え後では、こ
の待機系サーバ4で起動しているクラスタグループ8の
状態を監視することができず、これに異常が発生して
も、それを知るすべがなかった。
【0012】本発明の目的は、かかる問題を解消し、ク
ラスタグループの動き(状態の遷移)を常に把握し、こ
れに合わせて監視設定を自動的に変更することを可能と
し、多ノードクラスタシステムにおける待機系切り替え
に対応できるようにしたプロセス監視方法を提供するこ
とにある。
【0013】
【課題を解決するための手段】上記目的を達成するため
に、本発明は、監視サーバと、監視サーバによってクラ
スタグループが監視される監視対象サーバと、監視対象
サーバに共通の待機系サーバとからなる多ノードクラス
タシステムのプロセス監視方法において、監視対象サー
バと待機系サーバとは夫々、常時起動しているチェック
プロセスによってオペレーティングシステムのプロセス
管理テーブルを一定時間間隔で確認して、クラスタグル
ープの起動,停止を示す確認結果を監視サーバ上の監視
設定変更プロセスに通知し、監視設定変更プロセスは、
通知されたこの確認結果を基に、監視対象サーバと待機
系サーバとの間でのクラスタグループの切り替わりを認
識し、監視設定変更プロセスでのこの認識を基に、クラ
スタグループが起動している監視対象サーバと待機系サ
ーバとのプロセス監視を行なうものである。
【0014】そして、監視サーバには、起動中のクラス
タグループと監視対象サーバ,待機系サーバとの対応関
係、及び起動中のクラスタグループに対応する監視設定
とを示す監視設定テーブルが設けられており、監視設定
変更プロセスにより、監視対象サーバと待機系サーバと
の夫々毎に、チェックプロセスから通知される確認結果
と監視設定テーブルとを比較して、監視対象サーバと待
機系サーバとの間のクラスタグループの切り替わりを認
識し、かつこの切り替わりの認識とともに、監視設定テ
ーブルを変更するものである。
【0015】また、監視設定変更プロセスによるクラス
タグループの切り替わりの認識に伴って、クラスタグル
ープが起動もしくは停止した監視対象サーバまたは待機
系サーバに対する監視設定の変更処理を行なうものであ
る。
【0016】また、この監視設定は、予め各クラスタグ
ループ毎に及びクラスタグループの組み合わせに応じ
て、監視サーバに設けられており、クラスタグループが
起動した監視対象サーバもしくは1以上のクラスタグル
ープが起動した待機系サーバを、該当する監視設定を選
択・設定することにより、監視するものである。
【0017】
【発明の実施の形態】以下、本発明を実施形態を図面を
参照して具体的に説明する。図1〜図4は本発明による
多ノードクラスタシステムのプロセス監視方法の一実施
形態を示すシステム図であって、11は監視設定変更プ
ロセス、12はメモリ、13は監視設定テーブル、14
は監視プロセス、15〜17はチェックプロセスであ
り、図7に対応する部分には同一符号をつけている。な
お、ここでは、図7の場合と同様に、3ノードクラスタ
システムの場合を例に挙げて説明することとする。
【0018】図1は通常時のプロセス監視形態を示すも
のである。
【0019】同図において、各監視対象サーバ2,3に
は、チェックプロセス15,16が設けられ、また、待
機系サーバ4においても、監視プロセス14とチェック
プロセス17とが設けられて監視対象サーバとしても機
能することにしている。また、監視サーバ1において
は、監視設定変更プロセス11とメモリ12とが設けら
れ、このメモリ12には、夫々の監視対象サーバ2,
3,4に対する監視設定テーブル13が書込み,読出し
可能に記憶されている。
【0020】クラスタグループ8,9が起動する監視対
象サーバ2,3での監視プロセス6,7は、該当するク
ラスタグループ8,9の監視対象プロセス情報Aを取得
し、これを監視サーバ1の監視プロセス5に通知する。
この監視プロセス5では、各クラスタグループ8,9の
監視設定(夫々を監視設定a,bとする)やこれらクラ
スタグループ8,9の組み合わせの監視設定(これを監
視設定cとする)が設けられており、監視対象サーバ2
に対しては、クラスタグループ8に対する監視設定a
が、監視対象サーバ3に対しては、クラスタグループ9
に対する監視設定bが夫々選択・設定され、監視対象サ
ーバ2,3毎に、通知された監視対象プロセス情報Aと
該当する監視設定とを対比することにより、クラスタグ
ループ8,9の起動状態を監視している。そして、監視
プロセス5は、例えば、監視対象サーバ2からの監視対
象プロセス情報Aと監視設定aとから、クラスタグルー
プ8のプロセス数が規定の範囲外となったり、プロセス
が異常終了したりしたことを認識すると、この監視対象
サーバ2が異常と判定し、設定された処理(例えば、パ
トランプを鳴動させたり、警告メッセージを管理者に通
知するなどの処理)を実行する。
【0021】以上の動作は従来のシステムとほとんど変
わりないが、この実施形態は、監視対象サーバ2,3,
4や監視サーバ1を図示する上記の構成とすることによ
り、本来の待機系サーバ4も監視対象サーバとして含め
て、クラスタグループ8,9の動き(状態の遷移)を常
時監視し、この動きとともに、該当する監視対象サーバ
2,3,4に対して、監視プロセス5で正しい監視設定
を自動的に行なうことができるようにしたものである。
これを可能とするために、監視対象サーバ2,3にチェ
ックプロセス15,16を追加し、待機系サーバ4に監
視プロセス14とチェックプロセス17とを設けて監視
対象サーバの構成とし、さらに、監視サーバ1では、監
視設定変更プロセス11と監視設定テーブル13を備え
たメモリ12とを追加したものである。
【0022】ここで、監視サーバ1の監視設定変更プロ
セス11と監視対象サーバ2,3,4のチェックプロセ
ス15,16,17とは常時起動しており、監視設定変
更プロセス11と監視対象サーバ2,3,4のチェック
プロセス15,16,17との間で、図5に示す処理動
作が行なわれる。
【0023】即ち、チェックプロセス15,16,17
は、一定時間間隔で監視対象サーバ2,3,4のオペレ
ーティングシステムのプロセス管理テーブルを確認し
(ステップ100)、その確認結果を、起動中クラスタ
グループ情報Bとして、監視サーバ1上の監視設定変更
プロセス11に通知する(ステップ101)。監視設定
変更プロセス11は、かかる起動中クラスタグループ情
報Bをメモリ12での監視設定テーブル13の内容と比
較し、クラスタグループ8,9に動きがないかどうか
(即ち、待機系サーバ切り替わりなどによって状態の変
化(遷移)がないかどうか)を検出する。
【0024】監視設定テーブル13では、各クラスタグ
ループ8,9がどの監視対象サーバで起動しているかを
示す情報とそのときの監視プロセス5で設定される監視
対象サーバに対する監視設定とが表わされている。この
監視設定テーブル13の図示の状態では、クラスタグル
ープ8が監視対象サーバ2で起動しており、監視プロセ
ス5において、監視対象サーバ2に対し、クラスタグル
ープ8の監視設定aが選択・設定されていることを示し
ており、また、クラスタグループ9が監視対象サーバ3
で起動しており、監視プロセス5において、この監視対
象サーバ3に対し、クラスタグループ9の監視設定bが
選択・設定されていることを示しており、さらに、監視
対象サーバ(待機系サーバ)4では、このとき待機系サ
ーバ切り替えがなされていないので、起動するクラスタ
グループが存在せず、従って、監視プロセス5では、こ
の監視対象サーバ4に対する監視設定の選択・設定がな
されていないことを示している。従って、監視プロセス
5は、待機系サーバ4を監視していない。
【0025】そして、夫々の監視対象サーバ2,3,4
のチェックプロセス15,16,17から起動中クラス
タグループ情報Bが通知されると、監視設定変更プロセ
ス11は、監視対象サーバ2,3,4毎に受信した起動
中クラスタグループ情報Bと監視設定テーブル13での
該当する監視対象サーバの情報とを比較する。この場
合、各監視対象サーバ2,3,4からの起動中クラスタ
グループ情報Bは監視設定テーブル13の内容と合致し
ており、これにより、図5に示す動作が行なわれる毎
に、図6におけるステップ200,201からなる処理
が行なわれることになる。
【0026】図1に示すかかる状態で、いま、監視対象
サーバ2に障害が発生したとすると、監視対象サーバ2
の待機系サーバ切り替えが発生し、クラスタグループ8
が待機系サーバである監視対象サーバ4に切り替わり、
この監視対象サーバ4で起動することになる。図2はシ
ステムのかかる状態を示すものであり、この場合の処理
動作を図6を用いて説明する。
【0027】図2及び図6において、先に説明したよう
に、監視サーバ1上の監視設定変更プロセス11は、各
監視対象サーバ2,3,4から起動中クラスタグループ
情報Bの通知を受けており(ステップ200)、待機系
サーバ切り替えが発生しなければ(ステップ201)、
一定時間間隔での図5に示す処理動作に伴い、ステップ
200,201の動作を繰り返すことになる。
【0028】しかし、上記のように、監視対象サーバ2
のみで待機系サーバ切り替えが発生すると、監視対象サ
ーバ4上のチェックプロセス17は、この監視対象サー
バ4のオペレーティングシステムのプロセス管理テーブ
ルで起動中クラスタグループ8を確認し(図5のステッ
プ100)、監視サーバ1上の監視設定変更プロセス1
1に起動中クラスタグループ情報Bを通知する(図5の
ステップ101)。このときには、監視サーバ1のメモ
リ12上に管理している監視設定テーブル13では、情
報が変更されずに図1に示した内容がそのまま保持され
ているが、監視設定変更プロセス11は、監視設定サー
バ4のチェックプロセス17からの起動中クラスタグル
ープ情報Bを受信すると(ステップ200)、これとメ
モリ12上に管理している図1に示す監視設定テーブル
13での監視対象サーバ4に対する情報とを比較する
(ステップ201)。このとき、このチェックプロセス
17からの起動中クラスタグループ情報Bは、監視対象
サーバ4でクラスタグループ8のみが起動したことを表
わしているので、監視設定変更プロセス11は、これを
監視設定テーブル13での監視対象サーバ4に対する情
報(即ち、起動中クラスタグループがないことを示す情
報)と比較することにより(ステップ201)、監視対
象サーバ4で起動中クラスタグループがない状態からク
ラスタグループ8のみが起動した状態に遷移したことを
認識し(ステップ202)、監視プロセス5で監視設定
の変更処理を実行する(ステップ205)。この変更処
理は、監視プロセス5で、監視対象サーバ4に対し、正
常時に監視対象サーバ2を監視するのに使用していた監
視設定aを選択設定するものである。これにより、監視
プロセス5が監視対象サーバ4の監視を開始する。
【0029】しかる後、監視設定変更プロセス11は、
メモリ12上の監視設定テーブル13の変更処理を実行
する(ステップ206)。この変更処理は、クラスタグ
ループ8のみが監視対象サーバ4で起動中であり、この
とき、監視プロセス5での監視対象サーバ4に対する監
視設定が監視設定aであるように、監視設定テーブル1
3の内容を変更するものである。
【0030】一方、監視対象サーバ2では、クラスタグ
ループ8の待機系サーバ切り替えがあると、この監視対
象サーバ2上のチェックプロセス15も、監視サーバ1
上の監視設定変更プロセス11へ起動中のクラスタグル
ープが存在しない状態になったことを示す起動中クラス
タグループ情報Bを通知する(図5のステップ10
1)。この通知を受信すると(ステップ200)、この
監視設定変更プロセス11は、この起動中クラスタグル
ープ情報Bとメモリ12上の監視設定テーブル13での
監視対象サーバ2の情報とを比較することにより(ステ
ップ201)、起動中のクラスタグループが存在しない
状態になったことを認識し(ステップ202)、監視プ
ロセス5での監視対象サーバ2での監視設定aを解除さ
せてこの監視サーバ2の監視を終了する(ステップ20
3)。これにより、監視対象サーバ2は監視設定の対象
外となる。
【0031】なお、監視設定変更プロセス11は、監視
対象サーバ2のチェックプロセス15からの起動中クラ
スタグループ情報Bと監視対象サーバ4のチェックプロ
セス17からの起動中クラスタグループ情報Bとによ
り、監視対象サーバ2のクラスタグループ8の待機系サ
ーバ切り替えを認識することができ、この認識のもとに
して、上記のように、監視プロセス5が監視対象サーバ
4に対して監視設定aを選択・設定することができる。
【0032】また、監視対象サーバ2の監視終了処理
(ステップ203)と監視対象サーバ4に対する監視設
定aの選択・設定(ステップ205)とともに、監視設
定変更プロセス11は、監視設定テーブル13の変更処
理を実行する(ステップ206)。これは、図1に示し
た監視設定テーブル13をシステムの新たな状態に合致
するように変更するものであり、クラスタグループ8が
監視対象サーバ4で起動中とし、このときの監視対象サ
ーバ4に対して監視プロセス5での監視設定を監視設定
aとし、図2に示すような内容とするものである。
【0033】以上の処理が終わると、監視サーバ1の監
視プロセス5は、上記と同様にして、監視対象サーバ
3,4を監視し、また、夫々の監視対象サーバ2,3,
4のチェックプロセス15,16,17が一定時間間隔
で図5に示す動作を繰り返す。
【0034】以上説明した図2に示す状態で、さらに、
他の監視対象サーバ、この場合、監視対象サーバ3にも
障害が発生して、監視対象サーバ3のクラスタグループ
9が待機系サーバである監視対象サーバ4に切り替わる
場合もある。図3はかかる状態を示すものであって、こ
のための処理動作を、以下、これを図3及び図6を用い
て説明する。
【0035】図3及び図6において、先に説明したよう
に、監視サーバ1上の監視設定変更プロセス11は、各
監視対象サーバ2,3,4から起動中クラスタグループ
情報Bの通知を受けており(ステップ200)、待機系
サーバ切り替えが発生しなければ(ステップ201)、
図2に示す状態で、一定時間間隔での図5に示す処理動
作に伴い、ステップ200,201の動作を繰り返すこ
とになる。
【0036】かかる状態で、上記のように、監視対象サ
ーバ3で待機系サーバ切り替えが発生すると、監視対象
サーバ4上のチェックプロセス17は、この監視対象サ
ーバ4のオペレーティングシステムのプロセス管理テー
ブルで起動中クラスタグループ8,9を確認し(図5の
ステップ100)、組み合わせチェック処理を実行する
とともに、監視サーバ1上の監視設定変更プロセス11
にこの組み合わせチェック処理を示す起動中クラスタグ
ループ情報Bを通知する(図5のステップ101)。
【0037】この組み合わせチェック処理は、起動して
いるクラスタグループが2個以上となった場合にコール
されるものであって、これら起動しているクラスタグル
ープを夫々チェックし、監視サーバ1で予め設定されて
いる監視設定の中からクラスタグループの組み合わせに
対応した監視設定(この場合、上記の監視設定c)を選
択させるための処理である。
【0038】そして、このときには、監視サーバ1のメ
モリ12上に管理している監視設定テーブル13では、
情報が変更されずに図2に示した内容がそのまま保持さ
れているが、監視設定変更プロセス11は、監視設定サ
ーバ4のチェックプロセス17からの起動中クラスタグ
ループ情報Bを受信すると(ステップ200)、これと
メモリ12上に管理している図2に示す監視設定テーブ
ル13での監視対象サーバ4に対する情報とを比較する
(ステップ201)。このとき、このチェックプロセス
17からの起動中クラスタグループ情報Bは、監視対象
サーバ4でクラスタグループ8,9が起動したことを表
わしているので、監視設定変更プロセス11は、これを
監視設定テーブル13での監視対象サーバ4に対する情
報(即ち、クラスタグループ8のみが起動しているを示
す情報)と比較することにより(ステップ201)、監
視対象サーバ4でクラスタグループ8のみが起動してい
る状態からクラスタグループ8,9が起動した状態に遷
移したことを認識し(ステップ202)、これに伴って
監視プロセス5が監視設定の変更処理を実行する。この
変更処理は、2以上のクラスタグループの組み合わせを
確認し(ステップ204:この場合には、2つのクラス
タグループ8,9の組み合わせであることを確認す
る)、監視プロセス5で、監視対象サーバ4に対し、か
かる組み合わせに対応した上記の監視設定cを選択・設
定するものである(ステップ205)。これにより、監
視プロセス5が監視対象サーバ4の監視を続行する。
【0039】しかる後、監視設定変更プロセス11は、
メモリ12上の監視設定テーブル13の変更処理を実行
する(ステップ203)。この変更処理は、クラスタグ
ループ8,9が監視対象サーバ4で起動中であり、この
とき、監視プロセス5での監視対象サーバ4に対する監
視設定が監視設定cであるように、監視設定テーブル1
3の内容を変更するものである。
【0040】一方、監視対象サーバ3では、クラスタグ
ループ9の待機系サーバ切り替えがあると、この監視対
象サーバ3上のチェックプロセス16も、監視サーバ1
上の監視設定変更プロセス11へ起動中のクラスタグル
ープ9が存在しない状態になったことを示す起動中クラ
スタグループ情報Bを通知する(図5のステップ10
1)。この通知を受信すると(ステップ200)、監視
サーバ1上の監視設定変更プロセス11は、この起動中
クラスタグループ情報Bとメモリ12上の監視設定テー
ブル13での監視対象サーバ3の情報とを比較すること
により(ステップ201)、起動中のクラスタグループ
が存在しない状態になったことを認識し(ステップ20
2)、監視プロセス5での監視対象サーバ3での監視設
定bを解除させてこの監視サーバ3の監視を終了する
(ステップ203)。これにより、監視対象サーバ3も
監視設定の対象外となる。
【0041】なお、この場合も、監視設定変更プロセス
11は、監視対象サーバ4のチェックプロセス17から
の起動中クラスタグループ情報Bと監視対象サーバ3の
チェックプロセス16からの起動中クラスタグループ情
報Bとにより、監視対象サーバ3のクラスタグループ9
の待機系サーバ切り替えを認識することができ、この認
識のもとにして、上記のように、監視プロセス5が監視
対象サーバ4に対して監視設定cを選択・設定するよう
にすることもできる。
【0042】また、監視対象サーバ3の監視終了処理
(ステップ203)と監視対象サーバ4に対する監視設
定cの選択・設定(ステップ205)とともに、監視設
定変更プロセス11は、監視設定テーブル13の変更処
理を実行する(ステップ206)。これは、図2に示し
た監視設定テーブル13をシステムの新たな状態に合致
するように変更するものであり、クラスタグループ9も
監視対象サーバ4で起動中とし、このときの監視対象サ
ーバ4に対して監視プロセス5での監視設定を監視設定
cとし、図3に示すような内容とするものである。
【0043】次に、障害が発生した監視対象サーバが回
復し、待機系サーバで起動していたクラスタグループが
元の監視対象サーバに復帰する(切り戻る)場合の動作
について説明する。
【0044】システムが図3に示す状態となり、その
後、待機系サーバである監視対象サーバ4で起動中のク
ラスタグループ8が元の監視対象サーバ2に戻るような
場合もある(これを、以下、待機系サーバ切り戻りとい
う)。図4はかかる状態を示すものであって、このため
の処理動作を、以下、これを図4及び図6を用いて説明
する。
【0045】図4及び図6において、先に説明したよう
に、監視サーバ1上の監視設定変更プロセス11は、各
監視対象サーバ2,3,4から起動中クラスタグループ
情報Bの通知を受けており(ステップ200)、クラス
タグループ8,9の状態の遷移が発生しなければ(ステ
ップ201)、図3に示す状態で、一定時間間隔での図
5に示す処理動作に伴い、ステップ200,201の動
作を繰り返すことになる。
【0046】かかる状態で、上記のように、監視対象サ
ーバ4でそこから監視対象サーバ2へクラスタグループ
8が切り替わる待機系サーバ切り戻りが発生すると、監
視対象サーバ4上のチェックプロセス17は、この監視
対象サーバ4のオペレーティングシステムのプロセス管
理テーブルで起動中クラスタグループ9のみを確認し
(図5のステップ100)、監視サーバ1上の監視設定
変更プロセス11にこの旨を示す起動中クラスタグルー
プ情報Bを通知する(図5のステップ101)。このと
きには、監視サーバ1のメモリ12上に管理している監
視設定テーブル13では、情報が変更されずに図3に示
した内容がそのまま保持されているが、監視設定変更プ
ロセス11は、監視設定サーバ4のチェックプロセス1
7からの起動中クラスタグループ情報Bを受信すると
(ステップ200)、これとメモリ12上に管理してい
る図3に示す監視設定テーブル13での監視対象サーバ
4に対する情報とを比較する(ステップ201)。この
とき、このチェックプロセス17からの起動中クラスタ
グループ情報Bは、監視対象サーバ4でクラスタグルー
プ9のみが起動したことを表わしているので、監視設定
変更プロセス11は、これを監視設定テーブル13での
監視対象サーバ4に対する情報(即ち、クラスタグルー
プ9のみが起動しているを示す情報)と比較することに
より(ステップ201)、監視対象サーバ4でクラスタ
グループ8,9が起動している状態からクラスタグルー
プ9のみが起動した状態に遷移したことを認識し(ステ
ップ202)、これに伴って監視プロセス5で監視設定
の変更処理を実行する。この変更処理は、監視プロセス
5で、監視対象サーバ4に対し、正常時に監視対象サー
バ3を監視するのに使用していた監視設定bを選択・設
定するものである。これにより、監視プロセス5が監視
設定bでもって監視対象サーバ4の監視を継続する(ス
テップ205)。
【0047】しかる後、監視設定変更プロセス11は、
メモリ12上の監視設定テーブル13の変更処理を実行
する(ステップ206)。この変更処理は、クラスタグ
ループ9のみが監視対象サーバ4で起動中であり、この
とき、監視プロセス5での監視対象サーバ4に対する監
視設定が監視設定bであるように、監視設定テーブル1
3の内容を変更するものである。
【0048】一方、監視対象サーバ2では、クラスタグ
ループ8の待機系サーバ切り戻りがあると、この監視対
象サーバ2上のチェックプロセス15も、監視サーバ1
上の監視設定変更プロセス11へ起動中クラスタグルー
プ8が存在する状態になったことを示す起動中クラスタ
グループ情報Bを通知する(図5のステップ101)。
この通知を受信すると(ステップ200)、監視サーバ
1上の監視設定変更プロセス11は、この起動中クラス
タグループ情報Bとメモリ12上の図3に示す監視設定
テーブル13での監視対象サーバ2の情報とを比較する
ことにより(ステップ201)、起動中クラスタグルー
プ8が存在する状態になったことを認識し(ステップ2
02)、監視プロセス5で監視設定の変更処理を実行す
る(ステップ205)。この変更処理は、監視プロセス
5で、正常時に監視対象サーバ2を監視するのに使用す
る監視設定aを選択・設定するものである。これによ
り、監視プロセス5が監視対象サーバ2の監視を開始す
る。
【0049】なお、この場合も、監視設定変更プロセス
11は、監視対象サーバ4のチェックプロセス17から
の起動中クラスタグループ情報Bと監視対象サーバ2の
チェックプロセス15からの起動中クラスタグループ情
報Bとにより、監視対象サーバ4から監視対象サーバ2
へのクラスタグループ8の待機系サーバ切り戻しを認識
することができ、この認識のもとにして、上記のよう
に、監視プロセス5が監視対象サーバ4に対して監視設
定bを、監視対象サーバ2に対して監視設定aを夫々選
択・設定することができる。
【0050】また、監視対象サーバ2の監視開始処理
(ステップ205)と監視対象サーバ4に対する監視設
定変更(ステップ205)とともに、監視設定変更プロ
セス11は、監視設定テーブル13の変更処理を実行す
る(ステップ206)。これは、図3に示した監視設定
テーブル13の内容をシステムの新たな状態に合致する
ように変更するものであり、クラスタグループ9が監視
対象サーバ4で、クラスタグループ8が監視対象サーバ
2で夫々起動中とし、このときの監視対象サーバ4に対
して監視プロセス5での監視設定を監視設定bとし、ま
た、監視対象サーバ2に対して監視プロセス5での監視
設定を監視設定aとする図4に示すような内容とするも
のである。
【0051】なお、図4に示す状態で、監視対象サーバ
4で起動中のクラスタグループ9が監視対象サーバ3に
待機系サーバ切り戻しがある場合も同様であるが、この
場合には、監視対象サーバ4がクラスタグループ9が起
動している状態から起動クラスタグループが存在しない
状態に切り替わるものであるから、この監視対象サーバ
4に対する監視プロセス5の監視が解除され、メモリ1
2上の監視設定テーブル13の内容は、図1に示す内容
となる。
【0052】以上のようにして、この実施形態では、監
視サーバ1側の監視設定変更プロセス11とメモリ12
上の監視設定テーブル13により、待機系サーバ4をも
監視対象サーバとして、これら監視対象サーバ間にわた
るクラスタグループの動き(遷移)を常時監視すること
ができ、しかも、この動きに応じて各監視対象サーバに
該当する監視設定を正確かつ自動的に選択・設定するこ
とができるものであり、待機系サーバ切り替えがあって
も、クラスタグループの正しい監視を行なうことができ
る。
【0053】なお、以上の実施形態では、監視対象サー
バを2個とし、待機系サーバを1個とし、また、監視サ
ーバを1個とするシステムについて説明したが、本発明
はこれのみに限るものではなく、これら各サーバが任意
の個数のシステムにも該当することはいうまでもない。
勿論、この場合には、各監視対象サーバでのクラスタグ
ループに対する監視設定ばかりでなく、これらクラスタ
グループの全てのもしくはその一部の実際に実現可能な
組み合わせに対する監視設定が予め作成されており、監
視サーバでの監視プロセスに選択可能に設定されている
ことになる。
【0054】また、上記実施形態では、監視サーバ1側
の監視プロセス5は、監視設定変更プロセス11での各
監視対象サーバ2,3,4からの起動クラスタグループ
情報Bによるクラスタグループの動きの認識(図6のス
テップ202)に基づいて、監視対象サーバの監視設定
の選択・設定(図6のステップ205)や監視終了処理
(図6のステップ203)を行なうようにしたが、監視
設定変更プロセス11は、各監視対象サーバ2,3,4
からの起動クラスタグループ情報Bによるクラスタグル
ープの動きを認識すると(図6のステップ202)、ま
ず、メモリ12上の監視設定テーブル13の変更処理を
行ない、しかる後、監視プロセス5が監視設定テーブル
13の確認を行なって、監視設定の選択・設定や監視終
了処理を行なうようにしてもよい。この場合、監視プロ
セス5は少なくとも監視対象サーバのいずれかからの監
視対象プロセス情報Aにより、クラスタグループの動き
(待機系サーバ切り替えや切り戻り)を認識することが
でき、これを認識してから監視設定変更プロセス11に
よって変更された監視設定テーブル13を確認すること
により、監視設定の選択・設定や監視終了処理を行なう
ことができる。
【0055】
【発明の効果】以上、説明したように、本発明によれ
ば、多ノードクラスタシステムにおいて、待機系サーバ
のプロセス監視をも可能となり、クラスタグループの動
きに合わせて待機系サーバを含めた監視対象サーバに対
する監視設定の変更を正しくかつ自動的に行なうことが
でき、常に適切なプロセス監視を実現できる。
【0056】また、待機系サーバで同時に起動する可能
性のある複数のクラスタグループの組み合わせに対する
監視設定を作成することにより、クラスタシステムを構
成するサーバの台数に関係なく、クラスタグループの組
み合わせに対しても、監視設定やその変更が可能とな
り、汎用性・利便性を高めることができる。
【図面の簡単な説明】
【図1】本発明による多ノードクラスタシステムのプロ
セス監視方法の一実施形態での通常状態時のプロセス監
視形態を示すシステム図である。
【図2】図1に示す状態で1つの監視対象サーバにのみ
障害が発生したことによる待機系サーバ切り替え後のプ
ロセス監視形態を示すシステム図である。
【図3】図2に示す状態でさらに他の監視対象サーバで
待機系サーバ切り替えが発生したことによる待機系サー
バ切り替え後のプロセス監視形態を示すシステム図であ
る。
【図4】図3に示す状態での待機系サーバのクラスタグ
ループが待機系サーバ切り戻りした場合のプロセス監視
形態を示すシステム図である。
【図5】図1〜図4での監視対象サーバでのチェックプ
ロセス7の処理動作の一具体例を示すフローチャートで
ある。
【図6】図1〜図4に示す実施形態の監視設定変更処理
動作の一具体例を示すフローチャートである。
【図7】従来の多ノードクラスタシステムのプロセス監
視方法の一例を示すシステム図である。
【符号の説明】
1 監視サーバ 2,3 監視対象サーバ 4 監視対象(待機系)サーバ 5 監視サーバ側の監視プロセス 6,7 監視対象サーバ側の監視プロセス 8,9 クラスタグループ 10 監視対象プロセス 11 監視設定変更プロセス 12 メモリ 13 監視設定テーブル 14 監視対象サーバ側の監視プロセス 15〜17 チェックプロセス

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 監視サーバと、該監視サーバによってク
    ラスタグループが監視される監視対象サーバと、該監視
    対象サーバに共通の待機系サーバとからなる多ノードク
    ラスタシステムのプロセス監視方法において、 該監視対象サーバと該待機系サーバとは夫々、常時起動
    しているチェックプロセスによってオペレーティングシ
    ステムのプロセス管理テーブルを一定時間間隔で確認し
    て、クラスタグループの起動,停止を示す確認結果を該
    監視サーバ上の監視設定変更プロセスに通知し、 該監視設定変更プロセスは、該確認結果の通知を受け
    て、該監視対象サーバと該待機系サーバとの間でのクラ
    スタグループの切り替わりを認識し、 該監視設定変更プロセスでの該認識を基に、クラスタグ
    ループが起動している該監視対象サーバと該待機系サー
    バとのプロセス監視を行なうことを特徴とする多ノード
    クラスタシステムプロセス監視方法。
  2. 【請求項2】 請求項1において、 前記監視サーバには、起動中のクラスタグループと前記
    監視対象サーバ,前記待機系サーバとの対応関係、及び
    該起動中のクラスタグループに対応する監視設定とを示
    す監視設定テーブルが設けられており、 前記監視設定変更プロセスにより、前記監視対象サーバ
    と前記待機系サーバとの夫々毎に、前記チェックプロセ
    スから通知される前記確認結果と該監視設定テーブルと
    を比較して、前記監視対象サーバと前記待機系サーバと
    の間のクラスタグループの切り替わりを認識し、かつ該
    切り替わりの認識に伴って、該監視設定テーブルを変更
    することを特徴とする多ノードクラスタシステムプロセ
    ス監視方法。
  3. 【請求項3】 請求項1または2において、 前記監視設定変更プロセスによる前記クラスタグループ
    の切り替わりの認識に伴って、クラスタグループが起動
    もしくは停止した前記監視対象サーバまたは前記待機系
    サーバに対する監視設定の変更処理を行なうことを特徴
    とする多ノードクラスタシステムプロセス監視方法。
  4. 【請求項4】 請求項3において、 前記監視設定は、予め各クラスタグループ毎に及びクラ
    スタグループの組み合わせに応じて、前記監視サーバに
    設けられており、 クラスタグループが起動した前記監視対象サーバもしく
    は1以上のクラスタグループが起動した前記待機系サー
    バを、該当する前記監視設定を選択・設定することによ
    り、監視することを特徴とする多ノードクラスタシステ
    ムプロセス監視方法。
  5. 【請求項5】 監視サーバと、該監視サーバによってク
    ラスタグループが監視される監視対象サーバと、該監視
    対象サーバに共通の待機系サーバとからなる多ノードク
    ラスタシステムにおいて、 請求項1〜4のいずれか1つに記載の多ノードクラスタ
    システムプロセス監視方法を実行することを特徴とする
    多ノードクラスタシステム。
JP2002150973A 2002-05-24 2002-05-24 多ノードクラスタシステムのプロセス監視方法 Pending JP2003345620A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002150973A JP2003345620A (ja) 2002-05-24 2002-05-24 多ノードクラスタシステムのプロセス監視方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002150973A JP2003345620A (ja) 2002-05-24 2002-05-24 多ノードクラスタシステムのプロセス監視方法

Publications (1)

Publication Number Publication Date
JP2003345620A true JP2003345620A (ja) 2003-12-05

Family

ID=29768688

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002150973A Pending JP2003345620A (ja) 2002-05-24 2002-05-24 多ノードクラスタシステムのプロセス監視方法

Country Status (1)

Country Link
JP (1) JP2003345620A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007531091A (ja) * 2004-03-25 2007-11-01 インターナショナル・ビジネス・マシーンズ・コーポレーション リソースを監視するための方法、装置及びコンピュータ・プログラム
JP2008146397A (ja) * 2006-12-11 2008-06-26 Hitachi Ltd プロセスの監視装置及び監視方法
GB2452715A (en) * 2007-09-11 2009-03-18 Loadbalancer Org Ltd Method and system for monitoring a cluster database
JP2010066967A (ja) * 2008-09-10 2010-03-25 Nec Corp サーバ監視システム及びその方法
JP2010108445A (ja) * 2008-10-31 2010-05-13 Fujitsu Ltd 構成定義情報生成プログラム、構成定義情報生成装置、構成定義情報生成方法および監視プログラム
CN102622290A (zh) * 2012-03-07 2012-08-01 苏州阔地网络科技有限公司 一种进程监控的方法及***
WO2012120634A1 (ja) * 2011-03-08 2012-09-13 株式会社日立製作所 管理計算機、ストレージシステム管理方法、及び、ストレージシステム
WO2013080977A1 (ja) * 2011-11-28 2013-06-06 日本電気株式会社 フォールトトレラントシステム、フォールトトレラント方法及びプログラム
JP2019212244A (ja) * 2018-06-08 2019-12-12 富士通株式会社 通知制御プログラム、通知制御方法および情報処理装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007531091A (ja) * 2004-03-25 2007-11-01 インターナショナル・ビジネス・マシーンズ・コーポレーション リソースを監視するための方法、装置及びコンピュータ・プログラム
JP2008146397A (ja) * 2006-12-11 2008-06-26 Hitachi Ltd プロセスの監視装置及び監視方法
GB2452715A (en) * 2007-09-11 2009-03-18 Loadbalancer Org Ltd Method and system for monitoring a cluster database
JP2010066967A (ja) * 2008-09-10 2010-03-25 Nec Corp サーバ監視システム及びその方法
JP2010108445A (ja) * 2008-10-31 2010-05-13 Fujitsu Ltd 構成定義情報生成プログラム、構成定義情報生成装置、構成定義情報生成方法および監視プログラム
WO2012120634A1 (ja) * 2011-03-08 2012-09-13 株式会社日立製作所 管理計算機、ストレージシステム管理方法、及び、ストレージシステム
US8656012B2 (en) 2011-03-08 2014-02-18 Hitachi, Ltd. Management computer, storage system management method, and storage system
WO2013080977A1 (ja) * 2011-11-28 2013-06-06 日本電気株式会社 フォールトトレラントシステム、フォールトトレラント方法及びプログラム
JP5664886B2 (ja) * 2011-11-28 2015-02-04 日本電気株式会社 フォールトトレラントシステム、フォールトトレラント方法及びプログラム
US9053023B2 (en) 2011-11-28 2015-06-09 Nec Corporation Fault-tolerant system, fault-tolerant method and program
CN102622290A (zh) * 2012-03-07 2012-08-01 苏州阔地网络科技有限公司 一种进程监控的方法及***
JP2019212244A (ja) * 2018-06-08 2019-12-12 富士通株式会社 通知制御プログラム、通知制御方法および情報処理装置

Similar Documents

Publication Publication Date Title
US6859889B2 (en) Backup system and method for distributed systems
WO2015169199A1 (zh) 分布式环境下虚拟机异常恢复方法
CN106330475B (zh) 一种通信***中管理主备节点的方法和装置及高可用集群
CN109462502B (zh) 配置信息保存指令的控制方法、装置及sdn控制器
CN108897658B (zh) 主数据库监控方法、装置、计算机设备和存储介质
CN112199240B (zh) 一种节点故障时进行节点切换的方法及相关设备
CN110072244B (zh) 一种无线链路失败定时器的控制方法及设备
CN111585797B (zh) 以太网链路切换方法、装置、设备及计算机可读存储介质
CN111585835B (zh) 一种带外管理***的控制方法、装置和存储介质
CN105577444A (zh) 一种无线控制器管理方法及无线控制器
JP2003345620A (ja) 多ノードクラスタシステムのプロセス監視方法
CN113645048B (zh) 网卡切换方法、装置以及现场可编程逻辑门阵列fpga
US11068348B2 (en) Method and enable apparatus for starting physical device
CN109189854B (zh) 提供持续业务的方法及节点设备
JP2006285443A (ja) オブジェクト救済システム及び方法
JP6421516B2 (ja) サーバ装置、冗長構成サーバシステム、情報引継プログラム及び情報引継方法
EP3933596B1 (en) A method for failure detection and role selection in a network of redundant processes
KR102131863B1 (ko) 라우팅 처리기의 동작 모드 천이 방법
CN113055203B (zh) Sdn控制平面的异常恢复方法及装置
CN105515838A (zh) 一种服务配置方法及ha集群***
CN117435405A (zh) 双机热备和故障切换***和方法
CN110661599B (zh) 一种主、备节点间的ha实现方法、装置及存储介质
CN114124803B (zh) 设备管理方法、装置、电子设备及存储介质
CN111078454A (zh) 一种云平台配置恢复方法及装置
CN113438105B (zh) 一种辅助mad检测多irf***方法、装置及设备