JP2007299213A

JP2007299213A - Ｒａｉｄ制御装置および障害監視方法

Info

Publication number: JP2007299213A
Application number: JP2006126806A
Authority: JP
Inventors: Shigehisa Takizawa; 恵寿滝沢
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-04-28
Filing date: 2006-04-28
Publication date: 2007-11-15
Also published as: US20080010494A1

Abstract

【課題】障害監視のためのパスを少数しか確保できない場合であっても障害の被疑箇所を十分詳細に特定すること。
【解決手段】ＲＡＩＤ制御装置２は、制御モジュール５０ａと、制御モジュール５０ｂと、これらの制御モジュールを接続するためのスイッチ６０とを有する。そして、各制御モジュールが備える障害監視部は、予め定められたパスを経由させて、他の制御モジュールに対して障害の発生の可能性を検知するためのチェックコマンドを発行し、チェックコマンドに対する応答の有無に加えて、応答が示す経路および経路上の部位の状況に基づいて障害の発生の可能性のある部位を特定する。
【選択図】図１

Description

この発明は、複数の制御モジュールを有するＲＡＩＤ制御装置およびそのＲＡＩＤ装置における障害監視方法に関し、特に、障害監視のためのパスを少数しか確保できない場合であっても障害の被疑箇所を十分詳細に特定することができるＲＡＩＤ制御装置および障害監視方法に関する。

従来より、高い信頼性が必要とされる情報処理システムにおいては、二次記憶装置としてＲＡＩＤ（Redundant Arrays of Inexpensive Disks）装置が利用されることが多い。ＲＡＩＤ装置は、ミラーリング等の冗長化手法を用いてデータを磁気ディスクへ記録し、一部の磁気ディスクが故障した場合であっても、データを失うことなく運用を継続することを可能にする装置である（例えば、特許文献１）。

特に高い信頼性が求められるＲＡＩＤ装置においては、データの冗長化の制御を行うためのコントローラ等を二重化もしくは多重化した冗長構成がとられる。このような冗長構成がとられたＲＡＩＤ装置は、故障が発生している可能性の高い箇所を各コントローラの自律的な協調動作によって特定し、特定された箇所を縮退処理することにより、高い信頼性を実現する。

故障箇所の特定は、例えば、特許文献２において開示されている技術を用いて実現することができる。すなわち、各コントローラが、装置内の各部位へのパスを定期的に検査し合い、異常の有無を統計処理することにより、故障箇所を特定することができる。例えば、検査によりＡというパスとＢというパスに異常が継続的に発見された場合、この２つのパスに共有されている箇所に故障が発生していると特定することができる。

特開平７−１２９３３１号公報特開２０００−１８１８８７号公報

ところで、近年、コストダウン等を目的として各種機能を一つの機能部へ集約することがしばしば行われている。このような集約化は、部品点数を削減させ、装置の信頼性の向上にも貢献するが、一方で、故障箇所の特定を困難にするという問題を有している。集約化は、検査対象となるパスを減少させるため、パスチェックの異常の有無を統計処理しても、パス上のどの部分が故障箇所であるかが十分詳細に判別できないためである。

この発明は、上述した従来技術による問題点を解消するためになされたものであり、障害監視のためのパスを少数しか確保できない場合であっても障害の被疑箇所を十分詳細に特定することができるＲＡＩＤ制御装置および障害監視方法を提供することを目的とする。

上述した課題を解決し、目的を達成するため、本発明の一つの態様では、複数の制御モジュールと、前記複数の制御モジュールを接続するためのスイッチとを有するＲＡＩＤ制御装置であって、前記制御モジュールは、予め定められたパスを経由させて、他の制御モジュールに対して障害の発生の可能性を検知するためのチェックコマンドを発行し、該チェックコマンドに対する応答の有無に加えて、該応答が示す経路および経路上の部位の状況に基づいて障害の発生の可能性のある部位を特定する障害監視手段を備えたことを特徴とする。

また、本発明の他の態様では、複数の制御モジュールと、前記複数の制御モジュールを接続するためのスイッチとを有する制御装置において障害の発生を監視するための障害監視方法であって、前記制御モジュールが、予め定められたパスを経由させて、他の制御モジュールに対して障害の発生の可能性を検知するためのチェックコマンドを発行するチェックコマンド発行工程と、前記チェックコマンド発行工程において発行されたチェックコマンドに対する応答の有無と、該応答が示す経路および経路上の部位の状況とに基づいて障害の発生の可能性のある部位を特定する被疑箇所特定工程とを含んだことを特徴とする。

また、本発明の他の態様では、上記の発明の態様において、前記障害監視手段は、資源不足のためにチェックコマンドを処理することができない旨の応答があった場合に、応答の送信元の部位を障害の発生の可能性のある部位として特定することを特徴とする。

これらの発明の態様によれば、各パスへ向けて送信したチェックコマンドに対する応答の有無に加えて、応答の内容を考慮して障害の発生の可能性のある部位を特定するように構成したので、チェックコマンドを送出するパスが少ない場合であっても、障害の被疑箇所を十分詳細に特定することができる。

また、本発明の他の態様では、上記の発明の態様において、前記障害監視手段は、同一の制御モジュールに対して異なるパスを経由させてチェックコマンドを発行した場合に、前記パスごとの応答の相違に基づいて障害の発生の可能性のある部位を特定することを特徴とする。

この発明の態様によれば、同一の対象に到達する複数のパスに送信したチェックコマンドの応答の相違に基づいて障害の発生の可能性のある部位を特定するように構成したので、チェックコマンドを送出するパスが少ない場合であっても、障害の被疑箇所が経路上にあるのかチェックコマンドの送信対象にあるのかを判別することができる。

また、本発明の他の態様では、上記の発明の態様において、前記障害監視手段は、障害の発生の可能性があると特定した部位と関連付けて、相互監視し合う制御モジュールが少ないほど値が大きくなるように設定された所定の点数を記録し、他の障害監視手段によって記録された前記点数を含めて部位ごとに集計し、集計された点数が閾値よりも大きい部位を縮退処理の対象として選定することを特徴とする。

この発明の態様によれば、障害の被疑箇所に対して、相互監視し合う制御モジュールの数に応じた加点をし、その集計結果に基づいて縮退させる対象を選定するように構成したので、相互監視し合う制御モジュールの数に関わりなく、縮退させる対象を選定するための感度を一定に保つことができる。

本発明の一つの態様によれば、各パスへ向けて送信したチェックコマンドに対する応答の有無に加えて、応答の内容を考慮して障害の発生の可能性のある部位を特定するように構成したので、チェックコマンドを送出するパスが少ない場合であっても、障害の被疑箇所を十分詳細に特定することができるという効果を奏する。

また、本発明の他の態様によれば、同一の対象に到達する複数のパスに送信したチェックコマンドの応答の相違に基づいて障害の発生の可能性のある部位を特定するように構成したので、チェックコマンドを送出するパスが少ない場合であっても、障害の被疑箇所が経路上にあるのかチェックコマンドの送信対象にあるのかを判別することができるという効果を奏する。

また、本発明の他の態様によれば、障害の被疑箇所に対して、相互監視し合う制御モジュールの数に応じた加点をし、その集計結果に基づいて縮退させる対象を選定するように構成したので、相互監視し合う制御モジュールの数に関わりなく、縮退させる対象を選定するための感度を一定に保つことができるという効果を奏する。

以下に添付図面を参照して、本発明に係るＲＡＩＤ制御装置および障害監視方法の好適な実施の形態を詳細に説明する。

まず、従来の障害監視方法の概要について説明する。図８は、従来の障害監視方法の概要を説明するための説明図である。同図に示したＲＡＩＤ制御装置１は、ＲＡＩＤ装置を全体制御するコントローラであり、ディスクアレイの各種制御を実現する制御モジュール２０ａおよび制御モジュール２０ｂをスイッチ３０で接続して構成されている。

制御モジュール２０ａには、ＲＡＩＤ制御装置１とホストコンピュータを接続するためのインターフェースであるホストアダプタ２２ａと、ＲＡＩＤ制御装置１とハードディスク装置を接続するためのインターフェースであるディスクアダプタ２３ａとが接続され、同様に、制御モジュール２０ｂには、ホストアダプタ２２ｂとディスクアダプタ２３ｂとが接続されている。これらのアダプタは、独自のプロセッサを有し、予め与えられた機能を単独で実現することができる。

制御モジュール２０ａおよび制御モジュール２０ｂは、同様の機能を有し、一方に障害が発生した可能性が高い場合には、他方が処理を肩代わりして処理を継続する冗長構成となっている。障害の発生を検出するため、制御モジュール２０ａおよび制御モジュール２０ｂは、それぞれ、障害監視部２１ａおよび障害監視部２１ｂを有し、他方のモジュールの監視を行う。

具体的には、障害監視部２１ａは、スイッチ３０を経由して障害監視部２１ｂに到るパス１１と、スイッチ３０および障害監視部２１ｂを経由してディスクアダプタ２３ｂに到るパス１２と、スイッチ３０および障害監視部２１ｂを経由してホストアダプタ２２ｂに到るパス１３とへ向けて定期的にチェックコマンドを発行し、それぞれの応答の有無を記録する。

同様に、障害監視部２１ｂも、障害監視部２１ａ、ホストアダプタ２２ａおよびディスクアダプタ２３ａに到る各パスへ向けて定期的にチェックコマンドを発行し、それぞれの応答の有無を記録する。そして、障害監視部２１ａと障害監視部２１ｂのいずれか一方が、マスタ障害監視部となって、それぞれの障害監視部が記録した情報を統計処理して障害の発生している可能性の高い箇所があれば、その箇所の縮退処理等を所定の機能部に実行させる。

図９は、統計処理の一例を示す図である。同図は、パス１１、パス１２およびパス１３へ向けて発行したパスチェックコマンドの応答が無かった場合の例を示している。この例では、応答が無かったパスの末端に相当する部位に２点を加点し、そのパスの経路上に位置する部位に１点を加点しており、スイッチ３０、制御モジュール２０ａ、ホストアダプタ２２ａおよびディスクアダプタ２３ａの加点値の合計値がそれぞれ３、４、２および２となっている。

マスタ障害監視部は、図９に示すように、各障害監視部がパスチェックコマンドの応答の有無を記録した情報を収集し、部位ごとに加点値の合計値を集計し、所定の時間内に合計値が所定の閾値を超過した部位があれば、そこに障害が発生している可能性が高いと判定する。このように、障害が発生している可能性が高い箇所を積極的に発見し、その箇所を縮退処理することにより、装置の安定した動作を実現することができる。

次に、本実施例に係る障害監視方法の概要について説明する。図１は、本実施例に係る障害監視方法の概要を説明するための説明図である。同図に示したＲＡＩＤ制御装置２は、ＲＡＩＤ装置を全体制御するコントローラであり、ディスクアレイの各種制御を実現する制御モジュール５０ａおよび制御モジュール５０ｂをスイッチ６０で接続して構成されている。

制御モジュール５０ａには、図８に示したホストアダプタ２２ａと同様の機能を有するホストアダプタ５２ａと、ディスクアダプタ２３ａと同様の機能を有するディスクアダプタ５３ａとが統合されている。同様に、制御モジュール５０ｂには、ホストアダプタ５２ｂとディスクアダプタ５３ｂとが統合されている。このような統合は、コストの削減や信頼性の向上等を目的として行われる。

制御モジュール５０ａおよび制御モジュール５０ｂは、同様の機能を有し、一方に障害が発生した可能性が高い場合には、他方が処理を肩代わりして処理を継続する冗長構成となっている。障害の発生を検出するため、制御モジュール５０ａおよび制御モジュール５０ｂは、それぞれ、障害監視部５１ａおよび障害監視部５１ｂを有し、他方のモジュールの監視を行う。

具体的には、障害監視部５１ａは、スイッチ６０を経由して障害監視部５１ｂに到るパス４１へ向けて定期的にチェックコマンドを発行し、応答の有無および内容を記録する。この例では、ホストアダプタ５２ｂとディスクアダプタ５３ｂが制御モジュール５０ｂに統合され、単独で処理を行うことができるものではなくなっているため、これらを末端とする検査用のパスはなくなっている。同様に、障害監視部５１ｂも、スイッチ６０を経由して障害監視部５１ａに到るパスへ向けて定期的にチェックコマンドを発行し、応答の有無および内容を記録する。

この例のように、パスが２本しかないのでは、チェックコマンドの応答の有無を統計処理するだけでは障害の被疑箇所を十分詳細に特定することはできない。そこで、本実施例に係る障害監視方法においては、チェックコマンドの応答の有無に加えて、チェックコマンドの応答の内容に基づいて障害の被疑箇所の特定を行う。

例えば、チェックコマンドの送信先の制御モジュールの負荷が上昇し、メモリ等の資源の割り当てができなくなっているときには、チェックコマンドの処理を行うことができない旨の応答が返されることがある。この場合、パスの経路上のスイッチに異常はないと判断できるが、正常である旨の確認がされていない制御モジュールには障害が発生している可能性があると考えることができる。

このように、チェックコマンドの応答の有無に加えて、チェックコマンドの応答の内容に基づいて、どの部位に障害が発生している可能性があるかを判断することにより、機能集約等によって障害監視用のパスを小数しか確保できない場合であっても、障害の被疑箇所を十分詳細に特定することができる。

なお、図１では、２つの制御モジュールを一つのスイッチで接続するという最小の冗長構成からなるＲＡＩＤ制御装置に本実施例に係る障害監視方法を適用した例を示しているが、本実施例に係る障害監視方法は、さらに複雑な構成のＲＡＩＤ制御装置に適用することも可能である。

また、図１では、２つの制御モジュールをスイッチを介して接続する構成の例を示したが、スイッチに代えてバスを介して制御モジュールを接続する構成であってもよい。また、本実施例に係る障害監視方法は、ＲＡＩＤ制御装置に限らず、複数の制御モジュールもしくは演算モジュールを接続してなる各種装置に適用することも可能である。

次に、他のＲＡＩＤ制御装置の構成を示し、本実施例に係る障害監視方法についてさらに詳細に説明する。図２は、他のＲＡＩＤ制御装置の構成を示すブロック図である。ここでは、障害監視に関連する構成のみを示し、ディスクアレイの制御のための機能部等の図示は省略している。

同図に示すように、ＲＡＩＤ制御装置１００は、制御モジュール１１０、制御モジュール１２０および制御モジュール１３０を含む。制御モジュール１１０は、独立して動作可能な制御部１１１ａと制御部１１１ｂを有し、同様に、制御モジュール１２０は、制御部１２１ａと制御部１２１ｂを有し、制御モジュール１３０は、制御部１３１ａと制御部１３１ｂを有する。

そして、制御部１１１ａ、制御部１２１ａおよび制御部１３１ａは、スイッチ１４０ａを介して接続され、制御部１１１ｂ、制御部１２１ｂおよび制御部１３１ｂは、スイッチ１４０ｂを介して接続される。

制御部１１１ａは、他の制御モジュールの障害発生を監視するための障害監視部１１２ａと、スイッチ１４０ａと接続するためのインターフェースであるポート１１３ａとを有する。同様に、制御部１１１ｂは、障害監視部１１２ｂとポート１１３ｂを有し、制御部１２１ａは、障害監視部１２２ａとポート１２３ａを有し、制御部１２１ｂは、障害監視部１２２ｂとポート１２３ｂを有し、制御部１３１ａは、障害監視部１３２ａとポート１３３ａを有し、制御部１３１ｂは、障害監視部１３２ａとポート１３３ｂを有する。

ＲＡＩＤ制御装置１００は、安全に運用を継続するために、障害が発生している可能性が高い箇所を、制御モジュール、ポートもしくはスイッチの単位で縮退処理する。そして、障害が発生している可能性が高い箇所を特定するため、各障害監視部は、所定のパスへ向けて定期的にチェックコマンドを発行する。

具体的には、障害監視部１１２ａは、ポート１１３ａ、スイッチ１４０ａ、ポート１２３ａおよび障害監視部１２２ａを経由して障害監視部１２２ｂへ到るパス２０１向けて定期的にチェックコマンドを発行することにより、制御モジュール１２０の障害発生を監視し、ポート１１３ａ、スイッチ１４０ａ、ポート１３３ａおよび障害監視部１３２ａを経由して障害監視部１３２ｂへ到るパス２０２とへ向けて定期的にチェックコマンドを発行することにより、制御モジュール１２０の障害発生を監視する。

また、障害監視部１１２ｂは、ポート１１３ｂ、スイッチ１４０ｂ、ポート１２３ｂおよび障害監視部１２２ｂを経由して障害監視部１２２ａへ到るパス２０３と、ポート１１３ｂ、スイッチ１４０ｂ、ポート１３３ｂおよび障害監視部１３２ｂを経由して障害監視部１３２ａへ到るパス２０４とへ向けて定期的にチェックコマンドを発行する。他の障害監視部も同様のパスへ向けて定期的にチェックコマンドを発行する。

例えば、障害監視部１１２ａが制御モジュール１２０の障害発生を監視する場合、ポート１１３ａ、スイッチ１４０ａおよびポート１２３ａを経由して障害監視部１２２ａへ到るパスと、障害監視部１１２ｂ、ポート１１３ｂ、スイッチ１４０ｂ、ポート１２３ｂおよび障害監視部１２２ｂを経由して障害監視部１２２ａへ到るパスという２つのパスへ向けてチェックコマンドを発行しても、制御モジュール１２０における監視が必要な全ての部位を検査することができる。

しかしながら、これでは、図２に示したパスを用いる場合と比べて、チェックコマンドを発行するパスが２倍となるため、負荷と効率の面で問題がある上に、異なる長さのパスが並存することになるため、パスごとにタイムアウト時間を管理しなければならず、処理が複雑化する。

一方、図２に示したパスを用いる場合は、チェックコマンドを発行するパスを必要最小限にすることができ、各パスの長さも統一される。また、チェックコマンドの応答が無かった場合は、同一の制御モジュールに含まれる他方の制御部の障害監視部のパスチェック結果と照合することにより、被疑箇所がスイッチであるのか制御モジュールであるのかを切り分けることもできる。

具体的には、ある制御モジュールへのパスからの応答が無かった場合、他方の制御部の障害監視部においてもその制御モジュールへのパスからの応答がなければ、その制御モジュールに障害が発生していると判定することができ、他方の制御部の障害監視部においてはその制御モジュールへのパスからの応答があるのであれば、スイッチに問題があると判定することができる。

次に、図２に示した各障害監視部の処理手順について説明する。各障害監視部の処理手順は、所定のパスへ向けてチェックコマンドを発行し、その応答の有無と内容に基づいて被疑箇所を特定してその箇所に加点するための処理手順と、加点値を収集して被疑箇所ごとに集計し、集計値に基づいて、いずれかの部位に障害が発生している可能性があるか否かを判定するための処理手順とに大きく分かれる。

なお、後者の処理手順は、正常に動作している障害監視部の一つ（以下、「マスタ障害監視部」という）のみによって実行される。

図３は、マスタ障害監視部の処理手順を示すフローチャートである。マスタ障害監視部は、所定の初期処理が完了した後、この処理を定期的に繰り返し実行する。同図に示すように、マスタ障害監視部は、各障害監視部が保持する加点値を収集し（ステップＳ１０１）、収集した加点値を被疑箇所ごとに集計する（ステップＳ１０２）。なお、各障害監視部が加点値を記録する処理手順については後述する。

そして、マスタ障害監視部は、加点値を集計した被疑箇所のうち未選択のものを一つ選択する（ステップＳ１０３）。ここで、全ての被疑箇所を選択済みであれば（ステップＳ１０４肯定）、ステップＳ１０７へ遷移する。

ステップＳ１０３において、未選択の被疑箇所を選択できた場合は（ステップＳ１０４否定）、その被疑箇所に対応する加点値の集計値が所定の閾値よりも大きいか否かを確認する。そして、集計値が所定の閾値よりも大きい場合は（ステップＳ１０５肯定）、その箇所に障害が発生している可能性が高いと判定し、その箇所の縮退処理を所定の機能部に実行させ（ステップＳ１０６）、その後、ステップＳ１０３から処理を再開する。

一方、集計値が所定の閾値よりも小さい場合は（ステップＳ１０５否定）、その箇所に対して特に処理を行うことなく、ステップＳ１０３から処理を再開する。

こうして、全ての被疑箇所に対応する集計値を確認した後、マスタ障害監視部は、処理開始時もしくは前回の加点値の初期化の実行時から所定の時間を経過していれば（ステップＳ１０７肯定）、各処理部が保持している加点値を初期化して０に戻す処理を実行する（ステップＳ１０８）。

図４は、障害監視部の処理手順を示すフローチャートである。マスタ障害監視部を含む各障害監視部は、所定の初期処理が完了した後、この処理を定期的に繰り返し実行する。なお、この処理手順は、図３に示した処理手順よりも短い周期で実行される。

同図に示すように、各障害監視部は、他の制御モジュールへ通じるパスに対してチェックコマンドを一斉に発行し（ステップＳ２０１）、応答を待ち受ける（ステップＳ２０２）。そして、応答が全て正常であれば（ステップＳ２０３肯定）、加点処理は行わない。

応答のいずれかが異常であった場合は（ステップＳ２０３否定）、後述する応答ステータスによる加点処理を実行する（ステップＳ２０４）。そして、応答ステータスによる加点処理を実行しても被疑箇所を特定することができないパスがあった場合は（ステップＳ２０５肯定）、後述する異常パスの組合せによる加点処理を実行する（ステップＳ２０６）。

図５は、応答ステータスによる加点処理における加点ロジックの一例を示す図である。同図に示すように、応答ステータスによる加点処理においては、チェックコマンドの送信に対する応答に含まれる応答ステータスの種別ごとに被疑箇所と加点値の大きさが予め定義され、この定義に従って加点処理が実行される。

応答ステータスが、チェックコマンドの送信先の制御モジュール（以下、「相手モジュール」という）の閉塞を示すものである場合、既に相手モジュールは縮退処理され、スイッチから切り離されているはずであるが、万一に備えて、相手モジュールに大きく加点しておく。

また、応答ステータスが、パスの閉塞を示すものである場合、既に経路上のいずれかの部位が縮退処理され、切り離されているはずであるが、万一に備えて、自身が含まれる制御部のポート（以下、「自ポート」という）、パスが経由するスイッチ、および、チェックコマンドの送信先の制御モジュールのポート（以下、「相手ポート」という）に小さく加点しておく。

なお、この場合、縮退処理されていない他の制御モジュールが相手モジュールのみであれば、パスが経由するスイッチのみに加点することとしてもよい。スイッチが縮退処理されれば、その制御モジュールも切り離されることとなり、また、他の制御モジュールの動作に影響を与えることもないためである。

また、応答ステータスが、自身が含まれる制御モジュール（以下、「自モジュール」という）に異常があることを示すものである場合、他の障害監視部により自ポートに対して加点されるはずであるが、万一に備えて、自ポートに小さく加点しておく。

また、応答ステータスが、相手モジュールがメモリ不足等の資源不足により適当な処理を行うことができなかった旨を示すものである場合、何らかの障害が発生している可能性もあるので、相手モジュールに小さく加点しておく。なお、この場合、パス上の各部位には問題がないはずなので、正常に応答があったものとして扱う。

また、応答ステータスが、自モジュールがメモリ不足等の資源不足により適当な処理を行うことができなかった旨を示すものである場合、何らかの障害が発生している可能性もあるので、自モジュールに小さく加点しておく。なお、この場合、チェックコマンドの送信が無かったものとして扱う。

また、応答ステータスが、パラメータエラーによりチェックコマンドの送受信を正常に行うことができなかったことを示す場合、原因はファームウェアのバグや不整合にあるので、いずれの部位にも加点は行わず、チェックコマンドの送信が無かったものとして扱う。

図６は、異常パスの組合せによる加点処理における加点ロジックの一例を示す図である。同図に示すように、異常パスの組合せによる加点処理においては、正常な応答が無かったパスの組合せパターンごとに被疑箇所と加点値の大きさが予め定義され、この定義に従って加点処理が実行される。なお、この処理は、応答ステータスが図５に示したいずれにも該当しないパスがあった場合に実行される。

自身がチェックコマンドを発行した全てのパスに異常があった場合、自ポートに異常があると考えられるので、自ポートに大きく加点する。

また、自モジュール上の他方の障害監視部と異常があったパスを照合し、同一の相手モジュールへのパスに異常があった場合は、その相手モジュールに異常があると考えられるので、相手モジュールに大きく加点する。

また、自モジュール上の他方の障害監視部と異常があったパスを照合し、他方の障害監視部においては、同一の相手モジュールへのパスに異常が無かったが、そのパスの応答に相手モジュールがＢｕｓｙ状態である旨を示す情報が含まれていた場合は、その相手モジュールに異常があると考えられるので、相手モジュールに大きく加点する。同一の制御モジュール上の制御部は、定期的に相互に生存確認を行うように構成されているが、この生存確認が正常に行われていない状態がＢｕｓｙ状態である。

そして、上記以外の場合は、異常があったパスの相手ポートに大きく加点し、パスが経由するスイッチに小さく加点する。なお、この場合、縮退処理されていない他の制御モジュールが相手モジュールのみであれば、パスが経由するスイッチのみに加点することとしてもよい。スイッチが縮退処理されれば、その制御モジュールも切り離されることとなり、また、他の制御モジュールの動作に影響を与えることもないためである。

ところで、上記の応答ステータスによる加点処理および異常パスの組合せによる加点処理による加点値の集計値は、相互監視し合う制御モジュールの数が多くなるほど大きくなる。例えば、図２に示したＲＡＩＤ制御装置１００が、制御モジュールを増設できる構成である場合、制御モジュールを３個増設して総数で６個にすれば、一回の応答ステータスによる加点処理および異常パスの組合せによる加点処理によって各部位に加点される加点値の集計値は約２倍となる。

また、障害の発生により、半数の制御モジュールが縮退処理された場合には、一回の応答ステータスによる加点処理および異常パスの組合せによる加点処理によって各部位に加点される加点値の集計値は約半分となる。このように、制御モジュールの数の増減にともなう集計値の変化によって、障害が発生している可能性がある箇所を特定する感度にばらつきが生じることを防止するために、加点値の大きさを制御モジュールの数に応じて変更することが有効である。

図７は、制御モジュール数ごとの加点値の設定の一例を示す図である。同図の例では、制御モジュール数が２個の場合は、大きく加点するときの加点値を６４とし、小さく加点するときの加点値を１６としている。そして、制御モジュール数が３〜４個の場合は、大きく加点するときの加点値と小さく加点するときの加点値を、それぞれ、３２と８としている。

さらに、制御モジュール数が５〜６個の場合は、大きく加点するときの加点値と小さく加点するときの加点値を、それぞれ、２４と６とし、制御モジュール数が７〜８個の場合は、大きく加点するときの加点値と小さく加点するときの加点値を、それぞれ、１６と４としている。

なお、制御モジュール数に応じて加点値の大きさを変化させる代わりに、障害が発生しる可能性が高いとみなすか否かを判定するための閾値を変化させることとしてもよい。

上述してきたように、本実施例では、各パスへ向けて送信したチェックコマンドに対する応答の有無に加えて、応答の内容を考慮して障害の発生の可能性のある部位を特定するように構成したので、チェックコマンドを送出するパスが少ない場合であっても、障害の被疑箇所を十分詳細に特定することができる。

（付記１）複数の制御モジュールと、前記複数の制御モジュールを接続するためのスイッチとを有するＲＡＩＤ制御装置であって、
前記制御モジュールは、予め定められたパスを経由させて、他の制御モジュールに対して障害の発生の可能性を検知するためのチェックコマンドを発行し、該チェックコマンドに対する応答の有無に加えて、該応答が示す経路および経路上の部位の状況に基づいて障害の発生の可能性のある部位を特定する障害監視手段を備えたことを特徴とするＲＡＩＤ制御装置。

（付記２）前記障害監視手段は、資源不足のためにチェックコマンドを処理することができない旨の応答があった場合に、応答の送信元の部位を障害の発生の可能性のある部位として特定することを特徴とする付記１に記載のＲＡＩＤ制御装置。

（付記３）前記障害監視手段は、同一の制御モジュールに対して異なるパスを経由させてチェックコマンドを発行した場合に、前記パスごとの応答の相違に基づいて障害の発生の可能性のある部位を特定することを特徴とする付記１または２に記載のＲＡＩＤ制御装置。

（付記４）前記障害監視手段は、障害の発生の可能性があると特定した部位と関連付けて、相互監視し合う制御モジュールが少ないほど値が大きくなるように設定された所定の点数を記録し、他の障害監視手段によって記録された前記点数を含めて部位ごとに集計し、集計された点数が閾値よりも大きい部位を縮退処理の対象として選定することを特徴とする付記１〜３のいずれか一つに記載のＲＡＩＤ制御装置。

（付記５）複数の制御モジュールと、前記複数の制御モジュールを接続するためのスイッチとを有する制御装置であって、
前記制御モジュールは、予め定められたパスを経由させて、他の制御モジュールに対して障害の発生の可能性を検知するためのチェックコマンドを発行し、該チェックコマンドに対する応答の有無に加えて、該応答が示す経路および経路上の部位の状況に基づいて障害の発生の可能性のある部位を特定する障害監視手段を備えたことを特徴とする制御装置。

（付記６）複数の制御モジュールと、前記複数の制御モジュールを接続するためのスイッチとを有する制御装置において障害の発生を監視するための障害監視方法であって、
前記制御モジュールが、予め定められたパスを経由させて、他の制御モジュールに対して障害の発生の可能性を検知するためのチェックコマンドを発行するチェックコマンド発行工程と、
前記チェックコマンド発行工程において発行されたチェックコマンドに対する応答の有無と、該応答が示す経路および経路上の部位の状況とに基づいて障害の発生の可能性のある部位を特定する被疑箇所特定工程と
を含んだことを特徴とする障害監視方法。

以上のように、本発明に係るＲＡＩＤ制御装置および障害監視方法は、障害の被疑箇所の特定に有用であり、特に、障害監視のためのパスを少数しか確保できない場合であっても障害の被疑箇所を十分詳細に特定することが必要な場合に適している。

本実施例に係る障害監視方法の概要を説明するための説明図である。他のＲＡＩＤ制御装置の構成を示すブロック図である。マスタ障害監視部の処理手順を示すフローチャートである。障害監視部の処理手順を示すフローチャートである。応答ステータスによる加点処理における加点ロジックの一例を示す図である。異常パスの組合せによる加点処理における加点ロジックの一例を示す図である。制御モジュール数ごとの加点値の設定の一例を示す図である。従来の障害監視方法の概要を説明するための説明図である。統計処理の一例を示す図である。

符号の説明

１、２ＲＡＩＤ制御装置
１１〜１３パス
２０ａ、２０ｂ制御モジュール
２１ａ、２１ｂ障害監視部
２２ａ、２２ｂホストアダプタ
２３ａ、２３ｂディスクアダプタ
３０スイッチ
４１パス
５０ａ、５０ｂ制御モジュール
５１ａ、５１ｂ障害監視部
５２ａ、５２ｂホストアダプタ
５３ａ、５３ｂディスクアダプタ
６０スイッチ
１００ＲＡＩＤ制御装置
１１０、１２０、１３０制御モジュール
１１１ａ、１１１ｂ、１２１ａ、１２１ｂ、１３１ａ、１３１ｂ制御部
１１２ａ、１１２ｂ、１２２ａ、１２２ｂ、１３２ａ、１３２ｂ障害監視部
１１３ａ、１１３ｂ、１２３ａ、１２３ｂ、１３３ａ、１３３ｂポート
１４０ａ、１４０ｂスイッチ
２０１〜２０４パス

Claims

複数の制御モジュールと、前記複数の制御モジュールを接続するためのスイッチとを有するＲＡＩＤ制御装置であって、
前記制御モジュールは、予め定められたパスを経由させて、他の制御モジュールに対して障害の発生の可能性を検知するためのチェックコマンドを発行し、該チェックコマンドに対する応答の有無に加えて、該応答が示す経路および経路上の部位の状況に基づいて障害の発生の可能性のある部位を特定する障害監視手段を備えたことを特徴とするＲＡＩＤ制御装置。
前記障害監視手段は、資源不足のためにチェックコマンドを処理することができない旨の応答があった場合に、応答の送信元の部位を障害の発生の可能性のある部位として特定することを特徴とする請求項１に記載のＲＡＩＤ制御装置。
前記障害監視手段は、同一の制御モジュールに対して異なるパスを経由させてチェックコマンドを発行した場合に、前記パスごとの応答の相違に基づいて障害の発生の可能性のある部位を特定することを特徴とする請求項１または２に記載のＲＡＩＤ制御装置。
前記障害監視手段は、障害の発生の可能性があると特定した部位と関連付けて、相互監視し合う制御モジュールが少ないほど値が大きくなるように設定された所定の点数を記録し、他の障害監視手段によって記録された前記点数を含めて部位ごとに集計し、集計された点数が閾値よりも大きい部位を縮退処理の対象として選定することを特徴とする請求項１〜３のいずれか一つに記載のＲＡＩＤ制御装置。
複数の制御モジュールと、前記複数の制御モジュールを接続するためのスイッチとを有する制御装置において障害の発生を監視するための障害監視方法であって、
前記制御モジュールが、予め定められたパスを経由させて、他の制御モジュールに対して障害の発生の可能性を検知するためのチェックコマンドを発行するチェックコマンド発行工程と、
前記チェックコマンド発行工程において発行されたチェックコマンドに対する応答の有無と、該応答が示す経路および経路上の部位の状況とに基づいて障害の発生の可能性のある部位を特定する被疑箇所特定工程と
を含んだことを特徴とする障害監視方法。