JP2007249343A - 障害監視装置、クラスタシステム及び障害監視方法 - Google Patents

障害監視装置、クラスタシステム及び障害監視方法 Download PDF

Info

Publication number
JP2007249343A
JP2007249343A JP2006068932A JP2006068932A JP2007249343A JP 2007249343 A JP2007249343 A JP 2007249343A JP 2006068932 A JP2006068932 A JP 2006068932A JP 2006068932 A JP2006068932 A JP 2006068932A JP 2007249343 A JP2007249343 A JP 2007249343A
Authority
JP
Japan
Prior art keywords
failure
monitoring
shared disk
issued
issue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006068932A
Other languages
English (en)
Inventor
Kazo Nishida
嘉造 西田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006068932A priority Critical patent/JP2007249343A/ja
Publication of JP2007249343A publication Critical patent/JP2007249343A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】パス二重化を行わない廉価なクラスタシステムであっても、システムダウンとなるような二重障害(運用系/待機系の両系故障)を未然に防ぐことができるようにする。
【解決手段】クラスタリングされたサーバシステムにおけるサーバ(待機系)20側で障害監視を行うに際し、共有ディスク40に対し監視I/O発行部34により監視用のI/Oを発行し、障害判断部35により規定時間内に共有ディスク40からの返却がないことでパスに障害があると判断すると、障害通知部36により該障害が上位OSに通知されるようにした。
【選択図】図1

Description

本発明は、クラスタリングされたサーバシステムでの、待機系サーバのパス状態を監視する障害監視装置、クラスタシステム及び障害監視方法に関する。
従来より、高可用性を考慮したクラスタシステムでは、サーバから共有ディスクへのI/Oパスが二重化されている。また、このような環境では、通常パス二重化ソフトを実装している。このパス二重化ソフトを使用した場合には、待機系で使用していないパスにもI/O発行によりパス確認ができる。
ところが、パス二重化を行っていない廉価なシングルパスのクラスタシステムでの待機系装置においては、通常時、パスを使用していない状態であるため、パス障害が発生した時点では見つけることができず、クラスタ切り替え時に発覚することがある。このようなパス障害が発生すると、運用停止に至るようなシステム障害を発生することがある。
このような障害を回避するようにしたものとして、特許文献1では、 複数のパスの動作状態及び試験コマンドの実行結果の情報を所定の周期毎に収集し、収集した情報を統計的に処理してパスに異常の有無を判定し、判定の結果、異常ありと判定したパスを代替パスから切り離すようにしたパス切り替え管理方法を提案している。
また、特許文献2では、定期診断タイマの割込みにより起動する診断タスクより制御装置のソフトウェア機能を実現する複数の処理タスクに対して診断イベント・メッセージを転送させ、各処理タスクが自己の動作状態を上記診断イベント・メッセージに書き込むことによって、上記診断イベント・メッセージの上記処理タスク間の一巡後に、診断タスクにおいて各処理タスクの動作状態を判定結果を保持して、管理装置からの診断指示に対して応答するようにした処理タスクの正常動作を診断する方法を提案している。
特開2001−154929号公報 特開平07−056773号公報
ところが、上述した特許文献1に示されたものでは、間欠的な障害が長時間発生する事象を自動的に検知して障害パスを自動的に代替パスから切り離すようにしているため、待機系サーバでの共有ディスクへのアクセス権限を有しないI/Oパスについての監視を行うことができず、待機系サーバでのパス障害の早期発見を行うことができないという問題があった。
また、上述した特許文献2に示されたものでは、制御装置のリアルタイムOS下のソフトウェア処理における処理タスクの正常動作を診断するようにしているため、上記同様に、待機系サーバでの共有ディスクへのアクセス権限を有しないI/Oパスについての監視を行うことができず、待機系サーバでのパス障害の早期発見を行うことができないという問題があった。
本発明は、このような状況に鑑みてなされたものであり、上記問題点を解決することができる携帯端末管理システム及び携帯電話管理方法を提供することを目的とする。
本発明の障害監視装置は、共有ディスクを有するクラスタリングされたサーバシステムにおける障害監視装置であって、前記共有ディスクに対し監視用のI/Oを発行する監視I/O発行手段と、規定時間内に前記共有ディスクからの返却がない場合にパスに障害があると判断する障害判断手段と、該障害判断手段により障害があると判断されると該障害を上位OSに通知する障害通知手段とを備え、前記サーバシステムにおける待機系サーバ側で障害監視を行うことを特徴とする。
また、前記共有ディスクに対するI/Oが発行されているかどうかをチェックするI/O発行チェック手段と、該I/O発行チェック手段によるチェック結果から前記I/Oを発行するかどうかを判断するI/O発行判断手段とを備えるようにすることができる。
また、ユーザが規定する待ち時間を設定するためのタイマ手段を備え、前記I/O発行判断手段は、前記I/O発行チェック手段によるチェック結果から前記I/Oが発行されている判断すると、前記タイマ手段によって与えられる規定の待ち時間だけ待機し、該時間経過後に前記I/O発行チェック手段に対して前記I/Oが発行されているかどうかの再チェックを指示するようにすることができる。
また、前記監視I/O発行手段は、前記共有ディスクのアクセス権限を有しない場合でも発行可能なI/Oを発行するものであるようにすることができる。
また、前記I/O発行チェック手段は、無駄な前記I/Oが発行されているか否かをチェックするものであるようにすることができる。
本発明のクラスタシステムは、請求項1〜5のいずれかに記載の障害監視装置を備えることを特徴とする。
本発明の障害監視方法は、共有ディスクを有するクラスタリングされたサーバシステムにおける障害監視方法であって、前記共有ディスクに対し監視用のI/Oを発行するステップと、規定時間内に前記共有ディスクからの返却がない場合にパスに障害があると判断するステップと、該障害があると判断されると該障害を上位OSに通知するステップとを有し、前記サーバシステムにおける待機系サーバ側で障害監視を行うことを特徴とする。
また、前記共有ディスクに対するI/Oが発行されているかどうかをチェックするステップと、該チェック結果から前記I/Oを発行するかどうかを判断するステップとを有するようにすることができる。
また、前記チェック結果から前記I/Oが発行されている判断すると、ユーザが規定する待ち時間だけ待機し、該時間経過後に前記I/Oが発行されているかどうかの再チェックを指示するステップを有するようにすることができる。
また、前記監視用のI/Oは、前記共有ディスクのアクセス権限を有しない場合でも発行可能とされているようにすることができる。
また、無駄な前記I/Oが発行されているか否かをチェックするようにすることができる。
本発明では、クラスタリングされたサーバシステムにおける待機系サーバ側で障害監視を行うに際し、共有ディスクに対し監視用のI/Oを発行し、規定時間内に共有ディスクからの返却がない場合にパスに障害があると判断すると、該障害が上位OSに通知される。
本発明によれば、クラスタリングされたサーバシステムにおける待機系サーバ側で障害監視を行うに際し、共有ディスクに対し監視用のI/Oを発行し、規定時間内に共有ディスクからの返却がないことでパスに障害があると判断すると、該障害が上位OSに通知されるようにしたので、待機系サーバでの共有ディスクへのアクセス権限を有しないI/Oパスについての監視を行うことができ、待機系サーバでのパス障害の早期発見を行うことができ、パス二重化を行わない廉価なクラスタシステムであっても、システムダウンとなるような二重障害(運用系/待機系の両系故障)を未然に防ぐことができる。
本実施形態では、クラスタリングされたサーバシステムにおける待機系サーバ側で障害監視を行うに際し、監視I/O発行手段により共有ディスクに対し監視用のI/Oを発行し、障害判断手段により規定時間内に共有ディスクからの返却がないことでパスに障害があると判断すると、障害通知手段により該障害が上位OSに通知されるようにし、待機系サーバでの共有ディスクへのアクセス権限を有しないI/Oパスについての監視により、待機系サーバでのパス障害の早期発見を行い、パス二重化を行わない廉価なクラスタシステムであっても、システムダウンとなるような二重障害(運用系/待機系の両系故障)を未然に防ぐようにした。
以下、本発明の実施例の詳細について説明する。
図1は、本発明の障害監視装置をクラスタリングされたサーバシステムに適用した場合の一実施例を示す図である。同図に示すように、サーバシステムは、サーバ(運用系)10が共有ディスク40内に装備されたアレイコントローラ41に接続され、サーバ(待機系)20は共有ディスク40内に装備されたアレイコントローラ42に接続された構成をとる。
サーバ(待機系)20には、本サーバを制御するオペレーションシステム(OS)21がインストールされており、サーバ(運用系)10及びサーバ(待機系)20をクラスタシステムとして制御するクラスタソフト22を実装している。また、サーバ(待機系)20は、障害監視装置としての監視モジュール30を実装している。なお、符号23は、ドライバ(Scsiport.sys)を示している。
障害監視装置としての監視モジュール30は、I/Oが発行されているかどうかをチェックするI/O発行チェック部31と、I/Oを発行するかどうかを判断するI/O発行判断部32と、ユーザにより規定されたI/O発行間隔を待ち合わせるために使用するタイマ33と、監視用のI/Oを発行する監視I/O発行部34と、障害発生を判断する障害判断部35と、障害を通知するために使用する障害通知部36とを備えている。
なお、監視I/O発行部34は、サーバ(待機系)20側にて共有ディスク40のアクセス権限を有しない場合でも発行可能なI/Oを発行するものである。また、I/O発行チェック部31は、無駄なI/Oの発行をなくすために、I/Oの発行状態をチェックするものである。
次に、障害監視方法について説明する。まず、図2に示すように、ステップS1でドライバ(Scsiport.sys)23のI/Oキューをチェックする。この場合、監視モジュール30のI/O発行チェック部31により、パス監視が必要な状態であるかどうかを、他のI/Oが発行されているかどうかでチェックし、ステップS2でI/O発行判断部32によりドライバ(Scsiport.sys)23の共有ディスクに対するI/Oキューがあるかどうかを判断する。
I/O発行判断部32による判断の結果、キューにI/Oがあった場合、通常のI/Oが発行されていると判断できるため、ステップS3に進み、監視I/Oを発行せずにタイマ33にてユーザが規定する待ち時間だけ待機し、規定時間経過後に再度ステップS1と同様のチェックを行う。
一方、I/O発行判断部32による判断の結果、キューにI/Oがなかった場合、ステップS4に進み、監視モジュール30の監視I/O発行部34から監視I/Oを共有ディスクへ発行する。
次いで、ステップS5で障害判断部35によりOSで規定されたI/Oタイムアウト時間の間に返却があったかを確認し、返却がなった場合、ステップS6に進み障害判断部35にて障害ありと判断し、障害通知部36よりオペレーションシステム(OS)21にエラーを通知する。
これに対し、ステップS5で規定時間内に返却があった場合、ステップS7に進み障害判断部35により返却された内容の確認を行う。ここで、内容にエラーがあった場合は、ステップS8に進み障害判断部35にてエラーがリトライをすべきエラーかどうかを判断する。リトライ対象のエラーであった場合には、ステップS4に戻り上記同様の手順を繰り返す。
一方、リトライ対象ではないエラーであった場合、ステップS6に進み障害通知部36より上位OSにエラーを通知する。また、ステップS7で返却内容が正常であった場合には、ステップS3に進みタイマ33にて規定された待ち時間の間だけ待機した後、ステップS1に戻り、監視を継続する。
このように、本実施例では、クラスタリングされたサーバシステムにおけるサーバ(待機系)20側で障害監視を行うに際し、共有ディスク40に対し監視I/O発行手段としての監視I/O発行部34により監視用のI/Oを発行し、障害判断手段としての障害判断部35により規定時間内に共有ディスク40からの返却がないことでパスに障害があると判断すると、障害通知手段としての障害通知部36により該障害が上位OSに通知されるようにしたので、サーバ(待機系)20側での共有ディスク40へのアクセス権限を有しないI/Oパスについての監視を行うことができ、サーバ(待機系)20でのパス障害の早期発見を行うことができ、パス二重化を行わない廉価なクラスタシステムであっても、システムダウンとなるような二重障害(運用系/待機系の両系故障)を未然に防ぐことができる。
クラスタリングされたシステム全般に適用可能である。
本発明の障害監視装置をクラスタリングされたサーバシステムに適用した場合の一実施例を示す図である。 図1の障害監視装置における障害監視方法を説明するためのフローチャートである。
符号の説明
10 サーバ(運用系)
20 サーバ(待機系)
21 OS
22 クラスタソフト
23 ドライバ(Scsiport.sys)
30 監視モジュール(障害監視装置)
31 I/O発行チェック部(I/O発行チェック手段)
32 I/O発行判断部(I/O発行判断手段)
33 タイマ(タイマ手段)
34 監視I/O発行部(監視I/O発行手段)
35 障害判断部(障害判断手段)
36 障害通知部(障害通知手段)
40 共有ディスク
41 アレイコントローラ
42 アレイコントローラ

Claims (11)

  1. 共有ディスクを有するクラスタリングされたサーバシステムにおける障害監視装置であって、
    前記共有ディスクに対し監視用のI/Oを発行する監視I/O発行手段と、
    規定時間内に前記共有ディスクからの返却がない場合にパスに障害があると判断する障害判断手段と、
    該障害判断手段により障害があると判断されると該障害を上位OSに通知する障害通知手段とを備え、
    前記サーバシステムにおける待機系サーバ側で障害監視を行う
    ことを特徴とする障害監視装置。
  2. 前記共有ディスクに対するI/Oが発行されているかどうかをチェックするI/O発行チェック手段と、
    該I/O発行チェック手段によるチェック結果から前記I/Oを発行するかどうかを判断するI/O発行判断手段とを備える
    ことを特徴とする請求項1に記載の障害監視装置。
  3. ユーザが規定する待ち時間を設定するためのタイマ手段を備え、
    前記I/O発行判断手段は、前記I/O発行チェック手段によるチェック結果から前記I/Oが発行されている判断すると、前記タイマ手段によって与えられる規定の待ち時間だけ待機し、該時間経過後に前記I/O発行チェック手段に対して前記I/Oが発行されているかどうかの再チェックを指示する
    ことを特徴とする請求項2に記載の障害監視装置。
  4. 前記監視I/O発行手段は、前記共有ディスクのアクセス権限を有しない場合でも発行可能なI/Oを発行するものであることを特徴とする請求項1〜3のいずれかに記載の障害監視装置。
  5. 前記I/O発行チェック手段は、無駄な前記I/Oが発行されているか否かをチェックするものであることを特徴とする請求項2〜4のいずれかに記載の障害監視装置。
  6. 請求項1〜5のいずれかに記載の障害監視装置を備えることを特徴とするクラスタシステム。
  7. 共有ディスクを有するクラスタリングされたサーバシステムにおける障害監視方法であって、
    前記共有ディスクに対し監視用のI/Oを発行するステップと、
    規定時間内に前記共有ディスクからの返却がない場合にパスに障害があると判断するステップと、
    該障害があると判断されると該障害を上位OSに通知するステップとを有し、
    前記サーバシステムにおける待機系サーバ側で障害監視を行う
    ことを特徴とする障害監視方法。
  8. 前記共有ディスクに対するI/Oが発行されているかどうかをチェックするステップと、
    該チェック結果から前記I/Oを発行するかどうかを判断するステップとを有する
    ことを特徴とする請求項7に記載の障害監視方法。
  9. 前記チェック結果から前記I/Oが発行されている判断すると、ユーザが規定する待ち時間だけ待機し、該時間経過後に前記I/Oが発行されているかどうかの再チェックを指示するステップを有する
    ことを特徴とする請求項8に記載の障害監視方法。
  10. 前記監視用のI/Oは、前記共有ディスクのアクセス権限を有しない場合でも発行可能とされていることを特徴とする請求項7〜9のいずれかに記載の障害監視方法。
  11. 無駄な前記I/Oが発行されているか否かをチェックすることを特徴とする請求項8〜10のいずれかに記載の障害監視方法。
JP2006068932A 2006-03-14 2006-03-14 障害監視装置、クラスタシステム及び障害監視方法 Pending JP2007249343A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006068932A JP2007249343A (ja) 2006-03-14 2006-03-14 障害監視装置、クラスタシステム及び障害監視方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006068932A JP2007249343A (ja) 2006-03-14 2006-03-14 障害監視装置、クラスタシステム及び障害監視方法

Publications (1)

Publication Number Publication Date
JP2007249343A true JP2007249343A (ja) 2007-09-27

Family

ID=38593607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006068932A Pending JP2007249343A (ja) 2006-03-14 2006-03-14 障害監視装置、クラスタシステム及び障害監視方法

Country Status (1)

Country Link
JP (1) JP2007249343A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542249B2 (en) 2012-11-02 2017-01-10 Hitachi, Ltd. System redundancy verification method and computer system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6488855A (en) * 1987-09-30 1989-04-03 Toshiba Corp Method for checking on-line ram
JPH04237352A (ja) * 1991-01-22 1992-08-25 Nec Corp メモリ装置の障害処理方式
JPH08320835A (ja) * 1995-05-24 1996-12-03 Nec Corp 外部バスの障害検出方法
JP2002108724A (ja) * 2000-10-03 2002-04-12 Auto Network Gijutsu Kenkyusho:Kk Romのデータチェック方法
JP2005301470A (ja) * 2004-04-08 2005-10-27 Nec Corp 障害監視方式
JP2005331999A (ja) * 2004-05-18 2005-12-02 Hitachi Ltd 外部記憶装置への入出力制御方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6488855A (en) * 1987-09-30 1989-04-03 Toshiba Corp Method for checking on-line ram
JPH04237352A (ja) * 1991-01-22 1992-08-25 Nec Corp メモリ装置の障害処理方式
JPH08320835A (ja) * 1995-05-24 1996-12-03 Nec Corp 外部バスの障害検出方法
JP2002108724A (ja) * 2000-10-03 2002-04-12 Auto Network Gijutsu Kenkyusho:Kk Romのデータチェック方法
JP2005301470A (ja) * 2004-04-08 2005-10-27 Nec Corp 障害監視方式
JP2005331999A (ja) * 2004-05-18 2005-12-02 Hitachi Ltd 外部記憶装置への入出力制御方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542249B2 (en) 2012-11-02 2017-01-10 Hitachi, Ltd. System redundancy verification method and computer system

Similar Documents

Publication Publication Date Title
JP5722426B2 (ja) 制御用コンピュータシステム、制御用コンピュータシステムを制御する方法、および制御用コンピュータシステムの使用
WO2015169199A1 (zh) 分布式环境下虚拟机异常恢复方法
JP2005302024A (ja) アービトレーション方法、システム、およびプログラム記憶装置(出力インターロック機能および自動切り替え機能による冗長コントローラのためのアービトレーション方法およびシステム)
JP4873073B2 (ja) 情報処理装置及び情報処理装置の障害復旧方法
JP6130520B2 (ja) 多重系システムおよび多重系システム管理方法
JP4655718B2 (ja) コンピュータシステム及びその制御方法
JP2007299213A (ja) Raid制御装置および障害監視方法
JP6504610B2 (ja) 処理装置、方法及びプログラム
JP2007249343A (ja) 障害監視装置、クラスタシステム及び障害監視方法
JP5332257B2 (ja) サーバシステム、サーバ管理方法、およびそのプログラム
JP2008015704A (ja) マルチプロセッサシステム
JP2007028118A (ja) ノード装置の故障判断方法
JP2009110218A (ja) 仮想化スイッチおよびそれを用いたコンピュータシステム
JP4495248B2 (ja) 情報処理装置、障害処理方法
JP2008003646A (ja) 不良モジュール検出方法および信号処理装置
JP2009075719A (ja) 冗長構成装置及びその自己診断方法
JP2008234117A (ja) マルチプロセッサシステムおよびマルチプロセッサシステムにおける復旧方法
JP5532687B2 (ja) 情報処理システム、情報処理システムの障害対応機構、及び情報処理システムの障害対応方法
JP3008851B2 (ja) マルチコンピュータシステムの系間監視方式
JP2006171995A (ja) 制御用計算機
JP4613019B2 (ja) コンピュータシステム
JP2007026038A (ja) パス監視システム,パス監視方法,およびパス監視プログラム
JP2685061B2 (ja) マイクロ初期診断方式
JP2010055509A (ja) 障害復旧システム、方法及びプログラム、並びにクラスタシステム
JP2008059531A (ja) コンピュータシステムの障害通報方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110719

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110915

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111018

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20111110