JP2007299213A - Raid制御装置および障害監視方法 - Google Patents

Raid制御装置および障害監視方法 Download PDF

Info

Publication number
JP2007299213A
JP2007299213A JP2006126806A JP2006126806A JP2007299213A JP 2007299213 A JP2007299213 A JP 2007299213A JP 2006126806 A JP2006126806 A JP 2006126806A JP 2006126806 A JP2006126806 A JP 2006126806A JP 2007299213 A JP2007299213 A JP 2007299213A
Authority
JP
Japan
Prior art keywords
failure
check command
response
failure monitoring
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006126806A
Other languages
English (en)
Inventor
Shigehisa Takizawa
恵寿 滝沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006126806A priority Critical patent/JP2007299213A/ja
Priority to US11/500,514 priority patent/US20080010494A1/en
Publication of JP2007299213A publication Critical patent/JP2007299213A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】障害監視のためのパスを少数しか確保できない場合であっても障害の被疑箇所を十分詳細に特定すること。
【解決手段】RAID制御装置2は、制御モジュール50aと、制御モジュール50bと、これらの制御モジュールを接続するためのスイッチ60とを有する。そして、各制御モジュールが備える障害監視部は、予め定められたパスを経由させて、他の制御モジュールに対して障害の発生の可能性を検知するためのチェックコマンドを発行し、チェックコマンドに対する応答の有無に加えて、応答が示す経路および経路上の部位の状況に基づいて障害の発生の可能性のある部位を特定する。
【選択図】 図1

Description

この発明は、複数の制御モジュールを有するRAID制御装置およびそのRAID装置における障害監視方法に関し、特に、障害監視のためのパスを少数しか確保できない場合であっても障害の被疑箇所を十分詳細に特定することができるRAID制御装置および障害監視方法に関する。
従来より、高い信頼性が必要とされる情報処理システムにおいては、二次記憶装置としてRAID(Redundant Arrays of Inexpensive Disks)装置が利用されることが多い。RAID装置は、ミラーリング等の冗長化手法を用いてデータを磁気ディスクへ記録し、一部の磁気ディスクが故障した場合であっても、データを失うことなく運用を継続することを可能にする装置である(例えば、特許文献1)。
特に高い信頼性が求められるRAID装置においては、データの冗長化の制御を行うためのコントローラ等を二重化もしくは多重化した冗長構成がとられる。このような冗長構成がとられたRAID装置は、故障が発生している可能性の高い箇所を各コントローラの自律的な協調動作によって特定し、特定された箇所を縮退処理することにより、高い信頼性を実現する。
故障箇所の特定は、例えば、特許文献2において開示されている技術を用いて実現することができる。すなわち、各コントローラが、装置内の各部位へのパスを定期的に検査し合い、異常の有無を統計処理することにより、故障箇所を特定することができる。例えば、検査によりAというパスとBというパスに異常が継続的に発見された場合、この2つのパスに共有されている箇所に故障が発生していると特定することができる。
特開平7−129331号公報 特開2000−181887号公報
ところで、近年、コストダウン等を目的として各種機能を一つの機能部へ集約することがしばしば行われている。このような集約化は、部品点数を削減させ、装置の信頼性の向上にも貢献するが、一方で、故障箇所の特定を困難にするという問題を有している。集約化は、検査対象となるパスを減少させるため、パスチェックの異常の有無を統計処理しても、パス上のどの部分が故障箇所であるかが十分詳細に判別できないためである。
この発明は、上述した従来技術による問題点を解消するためになされたものであり、障害監視のためのパスを少数しか確保できない場合であっても障害の被疑箇所を十分詳細に特定することができるRAID制御装置および障害監視方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、本発明の一つの態様では、複数の制御モジュールと、前記複数の制御モジュールを接続するためのスイッチとを有するRAID制御装置であって、前記制御モジュールは、予め定められたパスを経由させて、他の制御モジュールに対して障害の発生の可能性を検知するためのチェックコマンドを発行し、該チェックコマンドに対する応答の有無に加えて、該応答が示す経路および経路上の部位の状況に基づいて障害の発生の可能性のある部位を特定する障害監視手段を備えたことを特徴とする。
また、本発明の他の態様では、複数の制御モジュールと、前記複数の制御モジュールを接続するためのスイッチとを有する制御装置において障害の発生を監視するための障害監視方法であって、前記制御モジュールが、予め定められたパスを経由させて、他の制御モジュールに対して障害の発生の可能性を検知するためのチェックコマンドを発行するチェックコマンド発行工程と、前記チェックコマンド発行工程において発行されたチェックコマンドに対する応答の有無と、該応答が示す経路および経路上の部位の状況とに基づいて障害の発生の可能性のある部位を特定する被疑箇所特定工程とを含んだことを特徴とする。
また、本発明の他の態様では、上記の発明の態様において、前記障害監視手段は、資源不足のためにチェックコマンドを処理することができない旨の応答があった場合に、応答の送信元の部位を障害の発生の可能性のある部位として特定することを特徴とする。
これらの発明の態様によれば、各パスへ向けて送信したチェックコマンドに対する応答の有無に加えて、応答の内容を考慮して障害の発生の可能性のある部位を特定するように構成したので、チェックコマンドを送出するパスが少ない場合であっても、障害の被疑箇所を十分詳細に特定することができる。
また、本発明の他の態様では、上記の発明の態様において、前記障害監視手段は、同一の制御モジュールに対して異なるパスを経由させてチェックコマンドを発行した場合に、前記パスごとの応答の相違に基づいて障害の発生の可能性のある部位を特定することを特徴とする。
この発明の態様によれば、同一の対象に到達する複数のパスに送信したチェックコマンドの応答の相違に基づいて障害の発生の可能性のある部位を特定するように構成したので、チェックコマンドを送出するパスが少ない場合であっても、障害の被疑箇所が経路上にあるのかチェックコマンドの送信対象にあるのかを判別することができる。
また、本発明の他の態様では、上記の発明の態様において、前記障害監視手段は、障害の発生の可能性があると特定した部位と関連付けて、相互監視し合う制御モジュールが少ないほど値が大きくなるように設定された所定の点数を記録し、他の障害監視手段によって記録された前記点数を含めて部位ごとに集計し、集計された点数が閾値よりも大きい部位を縮退処理の対象として選定することを特徴とする。
この発明の態様によれば、障害の被疑箇所に対して、相互監視し合う制御モジュールの数に応じた加点をし、その集計結果に基づいて縮退させる対象を選定するように構成したので、相互監視し合う制御モジュールの数に関わりなく、縮退させる対象を選定するための感度を一定に保つことができる。
本発明の一つの態様によれば、各パスへ向けて送信したチェックコマンドに対する応答の有無に加えて、応答の内容を考慮して障害の発生の可能性のある部位を特定するように構成したので、チェックコマンドを送出するパスが少ない場合であっても、障害の被疑箇所を十分詳細に特定することができるという効果を奏する。
また、本発明の他の態様によれば、同一の対象に到達する複数のパスに送信したチェックコマンドの応答の相違に基づいて障害の発生の可能性のある部位を特定するように構成したので、チェックコマンドを送出するパスが少ない場合であっても、障害の被疑箇所が経路上にあるのかチェックコマンドの送信対象にあるのかを判別することができるという効果を奏する。
また、本発明の他の態様によれば、障害の被疑箇所に対して、相互監視し合う制御モジュールの数に応じた加点をし、その集計結果に基づいて縮退させる対象を選定するように構成したので、相互監視し合う制御モジュールの数に関わりなく、縮退させる対象を選定するための感度を一定に保つことができるという効果を奏する。
以下に添付図面を参照して、本発明に係るRAID制御装置および障害監視方法の好適な実施の形態を詳細に説明する。
まず、従来の障害監視方法の概要について説明する。図8は、従来の障害監視方法の概要を説明するための説明図である。同図に示したRAID制御装置1は、RAID装置を全体制御するコントローラであり、ディスクアレイの各種制御を実現する制御モジュール20aおよび制御モジュール20bをスイッチ30で接続して構成されている。
制御モジュール20aには、RAID制御装置1とホストコンピュータを接続するためのインターフェースであるホストアダプタ22aと、RAID制御装置1とハードディスク装置を接続するためのインターフェースであるディスクアダプタ23aとが接続され、同様に、制御モジュール20bには、ホストアダプタ22bとディスクアダプタ23bとが接続されている。これらのアダプタは、独自のプロセッサを有し、予め与えられた機能を単独で実現することができる。
制御モジュール20aおよび制御モジュール20bは、同様の機能を有し、一方に障害が発生した可能性が高い場合には、他方が処理を肩代わりして処理を継続する冗長構成となっている。障害の発生を検出するため、制御モジュール20aおよび制御モジュール20bは、それぞれ、障害監視部21aおよび障害監視部21bを有し、他方のモジュールの監視を行う。
具体的には、障害監視部21aは、スイッチ30を経由して障害監視部21bに到るパス11と、スイッチ30および障害監視部21bを経由してディスクアダプタ23bに到るパス12と、スイッチ30および障害監視部21bを経由してホストアダプタ22bに到るパス13とへ向けて定期的にチェックコマンドを発行し、それぞれの応答の有無を記録する。
同様に、障害監視部21bも、障害監視部21a、ホストアダプタ22aおよびディスクアダプタ23aに到る各パスへ向けて定期的にチェックコマンドを発行し、それぞれの応答の有無を記録する。そして、障害監視部21aと障害監視部21bのいずれか一方が、マスタ障害監視部となって、それぞれの障害監視部が記録した情報を統計処理して障害の発生している可能性の高い箇所があれば、その箇所の縮退処理等を所定の機能部に実行させる。
図9は、統計処理の一例を示す図である。同図は、パス11、パス12およびパス13へ向けて発行したパスチェックコマンドの応答が無かった場合の例を示している。この例では、応答が無かったパスの末端に相当する部位に2点を加点し、そのパスの経路上に位置する部位に1点を加点しており、スイッチ30、制御モジュール20a、ホストアダプタ22aおよびディスクアダプタ23aの加点値の合計値がそれぞれ3、4、2および2となっている。
マスタ障害監視部は、図9に示すように、各障害監視部がパスチェックコマンドの応答の有無を記録した情報を収集し、部位ごとに加点値の合計値を集計し、所定の時間内に合計値が所定の閾値を超過した部位があれば、そこに障害が発生している可能性が高いと判定する。このように、障害が発生している可能性が高い箇所を積極的に発見し、その箇所を縮退処理することにより、装置の安定した動作を実現することができる。
次に、本実施例に係る障害監視方法の概要について説明する。図1は、本実施例に係る障害監視方法の概要を説明するための説明図である。同図に示したRAID制御装置2は、RAID装置を全体制御するコントローラであり、ディスクアレイの各種制御を実現する制御モジュール50aおよび制御モジュール50bをスイッチ60で接続して構成されている。
制御モジュール50aには、図8に示したホストアダプタ22aと同様の機能を有するホストアダプタ52aと、ディスクアダプタ23aと同様の機能を有するディスクアダプタ53aとが統合されている。同様に、制御モジュール50bには、ホストアダプタ52bとディスクアダプタ53bとが統合されている。このような統合は、コストの削減や信頼性の向上等を目的として行われる。
制御モジュール50aおよび制御モジュール50bは、同様の機能を有し、一方に障害が発生した可能性が高い場合には、他方が処理を肩代わりして処理を継続する冗長構成となっている。障害の発生を検出するため、制御モジュール50aおよび制御モジュール50bは、それぞれ、障害監視部51aおよび障害監視部51bを有し、他方のモジュールの監視を行う。
具体的には、障害監視部51aは、スイッチ60を経由して障害監視部51bに到るパス41へ向けて定期的にチェックコマンドを発行し、応答の有無および内容を記録する。この例では、ホストアダプタ52bとディスクアダプタ53bが制御モジュール50bに統合され、単独で処理を行うことができるものではなくなっているため、これらを末端とする検査用のパスはなくなっている。同様に、障害監視部51bも、スイッチ60を経由して障害監視部51aに到るパスへ向けて定期的にチェックコマンドを発行し、応答の有無および内容を記録する。
この例のように、パスが2本しかないのでは、チェックコマンドの応答の有無を統計処理するだけでは障害の被疑箇所を十分詳細に特定することはできない。そこで、本実施例に係る障害監視方法においては、チェックコマンドの応答の有無に加えて、チェックコマンドの応答の内容に基づいて障害の被疑箇所の特定を行う。
例えば、チェックコマンドの送信先の制御モジュールの負荷が上昇し、メモリ等の資源の割り当てができなくなっているときには、チェックコマンドの処理を行うことができない旨の応答が返されることがある。この場合、パスの経路上のスイッチに異常はないと判断できるが、正常である旨の確認がされていない制御モジュールには障害が発生している可能性があると考えることができる。
このように、チェックコマンドの応答の有無に加えて、チェックコマンドの応答の内容に基づいて、どの部位に障害が発生している可能性があるかを判断することにより、機能集約等によって障害監視用のパスを小数しか確保できない場合であっても、障害の被疑箇所を十分詳細に特定することができる。
なお、図1では、2つの制御モジュールを一つのスイッチで接続するという最小の冗長構成からなるRAID制御装置に本実施例に係る障害監視方法を適用した例を示しているが、本実施例に係る障害監視方法は、さらに複雑な構成のRAID制御装置に適用することも可能である。
また、図1では、2つの制御モジュールをスイッチを介して接続する構成の例を示したが、スイッチに代えてバスを介して制御モジュールを接続する構成であってもよい。また、本実施例に係る障害監視方法は、RAID制御装置に限らず、複数の制御モジュールもしくは演算モジュールを接続してなる各種装置に適用することも可能である。
次に、他のRAID制御装置の構成を示し、本実施例に係る障害監視方法についてさらに詳細に説明する。図2は、他のRAID制御装置の構成を示すブロック図である。ここでは、障害監視に関連する構成のみを示し、ディスクアレイの制御のための機能部等の図示は省略している。
同図に示すように、RAID制御装置100は、制御モジュール110、制御モジュール120および制御モジュール130を含む。制御モジュール110は、独立して動作可能な制御部111aと制御部111bを有し、同様に、制御モジュール120は、制御部121aと制御部121bを有し、制御モジュール130は、制御部131aと制御部131bを有する。
そして、制御部111a、制御部121aおよび制御部131aは、スイッチ140aを介して接続され、制御部111b、制御部121bおよび制御部131bは、スイッチ140bを介して接続される。
制御部111aは、他の制御モジュールの障害発生を監視するための障害監視部112aと、スイッチ140aと接続するためのインターフェースであるポート113aとを有する。同様に、制御部111bは、障害監視部112bとポート113bを有し、制御部121aは、障害監視部122aとポート123aを有し、制御部121bは、障害監視部122bとポート123bを有し、制御部131aは、障害監視部132aとポート133aを有し、制御部131bは、障害監視部132aとポート133bを有する。
RAID制御装置100は、安全に運用を継続するために、障害が発生している可能性が高い箇所を、制御モジュール、ポートもしくはスイッチの単位で縮退処理する。そして、障害が発生している可能性が高い箇所を特定するため、各障害監視部は、所定のパスへ向けて定期的にチェックコマンドを発行する。
具体的には、障害監視部112aは、ポート113a、スイッチ140a、ポート123aおよび障害監視部122aを経由して障害監視部122bへ到るパス201向けて定期的にチェックコマンドを発行することにより、制御モジュール120の障害発生を監視し、ポート113a、スイッチ140a、ポート133aおよび障害監視部132aを経由して障害監視部132bへ到るパス202とへ向けて定期的にチェックコマンドを発行することにより、制御モジュール120の障害発生を監視する。
また、障害監視部112bは、ポート113b、スイッチ140b、ポート123bおよび障害監視部122bを経由して障害監視部122aへ到るパス203と、ポート113b、スイッチ140b、ポート133bおよび障害監視部132bを経由して障害監視部132aへ到るパス204とへ向けて定期的にチェックコマンドを発行する。他の障害監視部も同様のパスへ向けて定期的にチェックコマンドを発行する。
例えば、障害監視部112aが制御モジュール120の障害発生を監視する場合、ポート113a、スイッチ140aおよびポート123aを経由して障害監視部122aへ到るパスと、障害監視部112b、ポート113b、スイッチ140b、ポート123bおよび障害監視部122bを経由して障害監視部122aへ到るパスという2つのパスへ向けてチェックコマンドを発行しても、制御モジュール120における監視が必要な全ての部位を検査することができる。
しかしながら、これでは、図2に示したパスを用いる場合と比べて、チェックコマンドを発行するパスが2倍となるため、負荷と効率の面で問題がある上に、異なる長さのパスが並存することになるため、パスごとにタイムアウト時間を管理しなければならず、処理が複雑化する。
一方、図2に示したパスを用いる場合は、チェックコマンドを発行するパスを必要最小限にすることができ、各パスの長さも統一される。また、チェックコマンドの応答が無かった場合は、同一の制御モジュールに含まれる他方の制御部の障害監視部のパスチェック結果と照合することにより、被疑箇所がスイッチであるのか制御モジュールであるのかを切り分けることもできる。
具体的には、ある制御モジュールへのパスからの応答が無かった場合、他方の制御部の障害監視部においてもその制御モジュールへのパスからの応答がなければ、その制御モジュールに障害が発生していると判定することができ、他方の制御部の障害監視部においてはその制御モジュールへのパスからの応答があるのであれば、スイッチに問題があると判定することができる。
次に、図2に示した各障害監視部の処理手順について説明する。各障害監視部の処理手順は、所定のパスへ向けてチェックコマンドを発行し、その応答の有無と内容に基づいて被疑箇所を特定してその箇所に加点するための処理手順と、加点値を収集して被疑箇所ごとに集計し、集計値に基づいて、いずれかの部位に障害が発生している可能性があるか否かを判定するための処理手順とに大きく分かれる。
なお、後者の処理手順は、正常に動作している障害監視部の一つ(以下、「マスタ障害監視部」という)のみによって実行される。
図3は、マスタ障害監視部の処理手順を示すフローチャートである。マスタ障害監視部は、所定の初期処理が完了した後、この処理を定期的に繰り返し実行する。同図に示すように、マスタ障害監視部は、各障害監視部が保持する加点値を収集し(ステップS101)、収集した加点値を被疑箇所ごとに集計する(ステップS102)。なお、各障害監視部が加点値を記録する処理手順については後述する。
そして、マスタ障害監視部は、加点値を集計した被疑箇所のうち未選択のものを一つ選択する(ステップS103)。ここで、全ての被疑箇所を選択済みであれば(ステップS104肯定)、ステップS107へ遷移する。
ステップS103において、未選択の被疑箇所を選択できた場合は(ステップS104否定)、その被疑箇所に対応する加点値の集計値が所定の閾値よりも大きいか否かを確認する。そして、集計値が所定の閾値よりも大きい場合は(ステップS105肯定)、その箇所に障害が発生している可能性が高いと判定し、その箇所の縮退処理を所定の機能部に実行させ(ステップS106)、その後、ステップS103から処理を再開する。
一方、集計値が所定の閾値よりも小さい場合は(ステップS105否定)、その箇所に対して特に処理を行うことなく、ステップS103から処理を再開する。
こうして、全ての被疑箇所に対応する集計値を確認した後、マスタ障害監視部は、処理開始時もしくは前回の加点値の初期化の実行時から所定の時間を経過していれば(ステップS107肯定)、各処理部が保持している加点値を初期化して0に戻す処理を実行する(ステップS108)。
図4は、障害監視部の処理手順を示すフローチャートである。マスタ障害監視部を含む各障害監視部は、所定の初期処理が完了した後、この処理を定期的に繰り返し実行する。なお、この処理手順は、図3に示した処理手順よりも短い周期で実行される。
同図に示すように、各障害監視部は、他の制御モジュールへ通じるパスに対してチェックコマンドを一斉に発行し(ステップS201)、応答を待ち受ける(ステップS202)。そして、応答が全て正常であれば(ステップS203肯定)、加点処理は行わない。
応答のいずれかが異常であった場合は(ステップS203否定)、後述する応答ステータスによる加点処理を実行する(ステップS204)。そして、応答ステータスによる加点処理を実行しても被疑箇所を特定することができないパスがあった場合は(ステップS205肯定)、後述する異常パスの組合せによる加点処理を実行する(ステップS206)。
図5は、応答ステータスによる加点処理における加点ロジックの一例を示す図である。同図に示すように、応答ステータスによる加点処理においては、チェックコマンドの送信に対する応答に含まれる応答ステータスの種別ごとに被疑箇所と加点値の大きさが予め定義され、この定義に従って加点処理が実行される。
応答ステータスが、チェックコマンドの送信先の制御モジュール(以下、「相手モジュール」という)の閉塞を示すものである場合、既に相手モジュールは縮退処理され、スイッチから切り離されているはずであるが、万一に備えて、相手モジュールに大きく加点しておく。
また、応答ステータスが、パスの閉塞を示すものである場合、既に経路上のいずれかの部位が縮退処理され、切り離されているはずであるが、万一に備えて、自身が含まれる制御部のポート(以下、「自ポート」という)、パスが経由するスイッチ、および、チェックコマンドの送信先の制御モジュールのポート(以下、「相手ポート」という)に小さく加点しておく。
なお、この場合、縮退処理されていない他の制御モジュールが相手モジュールのみであれば、パスが経由するスイッチのみに加点することとしてもよい。スイッチが縮退処理されれば、その制御モジュールも切り離されることとなり、また、他の制御モジュールの動作に影響を与えることもないためである。
また、応答ステータスが、自身が含まれる制御モジュール(以下、「自モジュール」という)に異常があることを示すものである場合、他の障害監視部により自ポートに対して加点されるはずであるが、万一に備えて、自ポートに小さく加点しておく。
また、応答ステータスが、相手モジュールがメモリ不足等の資源不足により適当な処理を行うことができなかった旨を示すものである場合、何らかの障害が発生している可能性もあるので、相手モジュールに小さく加点しておく。なお、この場合、パス上の各部位には問題がないはずなので、正常に応答があったものとして扱う。
また、応答ステータスが、自モジュールがメモリ不足等の資源不足により適当な処理を行うことができなかった旨を示すものである場合、何らかの障害が発生している可能性もあるので、自モジュールに小さく加点しておく。なお、この場合、チェックコマンドの送信が無かったものとして扱う。
また、応答ステータスが、パラメータエラーによりチェックコマンドの送受信を正常に行うことができなかったことを示す場合、原因はファームウェアのバグや不整合にあるので、いずれの部位にも加点は行わず、チェックコマンドの送信が無かったものとして扱う。
図6は、異常パスの組合せによる加点処理における加点ロジックの一例を示す図である。同図に示すように、異常パスの組合せによる加点処理においては、正常な応答が無かったパスの組合せパターンごとに被疑箇所と加点値の大きさが予め定義され、この定義に従って加点処理が実行される。なお、この処理は、応答ステータスが図5に示したいずれにも該当しないパスがあった場合に実行される。
自身がチェックコマンドを発行した全てのパスに異常があった場合、自ポートに異常があると考えられるので、自ポートに大きく加点する。
また、自モジュール上の他方の障害監視部と異常があったパスを照合し、同一の相手モジュールへのパスに異常があった場合は、その相手モジュールに異常があると考えられるので、相手モジュールに大きく加点する。
また、自モジュール上の他方の障害監視部と異常があったパスを照合し、他方の障害監視部においては、同一の相手モジュールへのパスに異常が無かったが、そのパスの応答に相手モジュールがBusy状態である旨を示す情報が含まれていた場合は、その相手モジュールに異常があると考えられるので、相手モジュールに大きく加点する。同一の制御モジュール上の制御部は、定期的に相互に生存確認を行うように構成されているが、この生存確認が正常に行われていない状態がBusy状態である。
そして、上記以外の場合は、異常があったパスの相手ポートに大きく加点し、パスが経由するスイッチに小さく加点する。なお、この場合、縮退処理されていない他の制御モジュールが相手モジュールのみであれば、パスが経由するスイッチのみに加点することとしてもよい。スイッチが縮退処理されれば、その制御モジュールも切り離されることとなり、また、他の制御モジュールの動作に影響を与えることもないためである。
ところで、上記の応答ステータスによる加点処理および異常パスの組合せによる加点処理による加点値の集計値は、相互監視し合う制御モジュールの数が多くなるほど大きくなる。例えば、図2に示したRAID制御装置100が、制御モジュールを増設できる構成である場合、制御モジュールを3個増設して総数で6個にすれば、一回の応答ステータスによる加点処理および異常パスの組合せによる加点処理によって各部位に加点される加点値の集計値は約2倍となる。
また、障害の発生により、半数の制御モジュールが縮退処理された場合には、一回の応答ステータスによる加点処理および異常パスの組合せによる加点処理によって各部位に加点される加点値の集計値は約半分となる。このように、制御モジュールの数の増減にともなう集計値の変化によって、障害が発生している可能性がある箇所を特定する感度にばらつきが生じることを防止するために、加点値の大きさを制御モジュールの数に応じて変更することが有効である。
図7は、制御モジュール数ごとの加点値の設定の一例を示す図である。同図の例では、制御モジュール数が2個の場合は、大きく加点するときの加点値を64とし、小さく加点するときの加点値を16としている。そして、制御モジュール数が3〜4個の場合は、大きく加点するときの加点値と小さく加点するときの加点値を、それぞれ、32と8としている。
さらに、制御モジュール数が5〜6個の場合は、大きく加点するときの加点値と小さく加点するときの加点値を、それぞれ、24と6とし、制御モジュール数が7〜8個の場合は、大きく加点するときの加点値と小さく加点するときの加点値を、それぞれ、16と4としている。
なお、制御モジュール数に応じて加点値の大きさを変化させる代わりに、障害が発生しる可能性が高いとみなすか否かを判定するための閾値を変化させることとしてもよい。
上述してきたように、本実施例では、各パスへ向けて送信したチェックコマンドに対する応答の有無に加えて、応答の内容を考慮して障害の発生の可能性のある部位を特定するように構成したので、チェックコマンドを送出するパスが少ない場合であっても、障害の被疑箇所を十分詳細に特定することができる。
(付記1)複数の制御モジュールと、前記複数の制御モジュールを接続するためのスイッチとを有するRAID制御装置であって、
前記制御モジュールは、予め定められたパスを経由させて、他の制御モジュールに対して障害の発生の可能性を検知するためのチェックコマンドを発行し、該チェックコマンドに対する応答の有無に加えて、該応答が示す経路および経路上の部位の状況に基づいて障害の発生の可能性のある部位を特定する障害監視手段を備えたことを特徴とするRAID制御装置。
(付記2)前記障害監視手段は、資源不足のためにチェックコマンドを処理することができない旨の応答があった場合に、応答の送信元の部位を障害の発生の可能性のある部位として特定することを特徴とする付記1に記載のRAID制御装置。
(付記3)前記障害監視手段は、同一の制御モジュールに対して異なるパスを経由させてチェックコマンドを発行した場合に、前記パスごとの応答の相違に基づいて障害の発生の可能性のある部位を特定することを特徴とする付記1または2に記載のRAID制御装置。
(付記4)前記障害監視手段は、障害の発生の可能性があると特定した部位と関連付けて、相互監視し合う制御モジュールが少ないほど値が大きくなるように設定された所定の点数を記録し、他の障害監視手段によって記録された前記点数を含めて部位ごとに集計し、集計された点数が閾値よりも大きい部位を縮退処理の対象として選定することを特徴とする付記1〜3のいずれか一つに記載のRAID制御装置。
(付記5)複数の制御モジュールと、前記複数の制御モジュールを接続するためのスイッチとを有する制御装置であって、
前記制御モジュールは、予め定められたパスを経由させて、他の制御モジュールに対して障害の発生の可能性を検知するためのチェックコマンドを発行し、該チェックコマンドに対する応答の有無に加えて、該応答が示す経路および経路上の部位の状況に基づいて障害の発生の可能性のある部位を特定する障害監視手段を備えたことを特徴とする制御装置。
(付記6)複数の制御モジュールと、前記複数の制御モジュールを接続するためのスイッチとを有する制御装置において障害の発生を監視するための障害監視方法であって、
前記制御モジュールが、予め定められたパスを経由させて、他の制御モジュールに対して障害の発生の可能性を検知するためのチェックコマンドを発行するチェックコマンド発行工程と、
前記チェックコマンド発行工程において発行されたチェックコマンドに対する応答の有無と、該応答が示す経路および経路上の部位の状況とに基づいて障害の発生の可能性のある部位を特定する被疑箇所特定工程と
を含んだことを特徴とする障害監視方法。
以上のように、本発明に係るRAID制御装置および障害監視方法は、障害の被疑箇所の特定に有用であり、特に、障害監視のためのパスを少数しか確保できない場合であっても障害の被疑箇所を十分詳細に特定することが必要な場合に適している。
本実施例に係る障害監視方法の概要を説明するための説明図である。 他のRAID制御装置の構成を示すブロック図である。 マスタ障害監視部の処理手順を示すフローチャートである。 障害監視部の処理手順を示すフローチャートである。 応答ステータスによる加点処理における加点ロジックの一例を示す図である。 異常パスの組合せによる加点処理における加点ロジックの一例を示す図である。 制御モジュール数ごとの加点値の設定の一例を示す図である。 従来の障害監視方法の概要を説明するための説明図である。 統計処理の一例を示す図である。
符号の説明
1、2 RAID制御装置
11〜13 パス
20a、20b 制御モジュール
21a、21b 障害監視部
22a、22b ホストアダプタ
23a、23b ディスクアダプタ
30 スイッチ
41 パス
50a、50b 制御モジュール
51a、51b 障害監視部
52a、52b ホストアダプタ
53a、53b ディスクアダプタ
60 スイッチ
100 RAID制御装置
110、120、130 制御モジュール
111a、111b、121a、121b、131a、131b 制御部
112a、112b、122a、122b、132a、132b 障害監視部
113a、113b、123a、123b、133a、133b ポート
140a、140b スイッチ
201〜204 パス

Claims (5)

  1. 複数の制御モジュールと、前記複数の制御モジュールを接続するためのスイッチとを有するRAID制御装置であって、
    前記制御モジュールは、予め定められたパスを経由させて、他の制御モジュールに対して障害の発生の可能性を検知するためのチェックコマンドを発行し、該チェックコマンドに対する応答の有無に加えて、該応答が示す経路および経路上の部位の状況に基づいて障害の発生の可能性のある部位を特定する障害監視手段を備えたことを特徴とするRAID制御装置。
  2. 前記障害監視手段は、資源不足のためにチェックコマンドを処理することができない旨の応答があった場合に、応答の送信元の部位を障害の発生の可能性のある部位として特定することを特徴とする請求項1に記載のRAID制御装置。
  3. 前記障害監視手段は、同一の制御モジュールに対して異なるパスを経由させてチェックコマンドを発行した場合に、前記パスごとの応答の相違に基づいて障害の発生の可能性のある部位を特定することを特徴とする請求項1または2に記載のRAID制御装置。
  4. 前記障害監視手段は、障害の発生の可能性があると特定した部位と関連付けて、相互監視し合う制御モジュールが少ないほど値が大きくなるように設定された所定の点数を記録し、他の障害監視手段によって記録された前記点数を含めて部位ごとに集計し、集計された点数が閾値よりも大きい部位を縮退処理の対象として選定することを特徴とする請求項1〜3のいずれか一つに記載のRAID制御装置。
  5. 複数の制御モジュールと、前記複数の制御モジュールを接続するためのスイッチとを有する制御装置において障害の発生を監視するための障害監視方法であって、
    前記制御モジュールが、予め定められたパスを経由させて、他の制御モジュールに対して障害の発生の可能性を検知するためのチェックコマンドを発行するチェックコマンド発行工程と、
    前記チェックコマンド発行工程において発行されたチェックコマンドに対する応答の有無と、該応答が示す経路および経路上の部位の状況とに基づいて障害の発生の可能性のある部位を特定する被疑箇所特定工程と
    を含んだことを特徴とする障害監視方法。
JP2006126806A 2006-04-28 2006-04-28 Raid制御装置および障害監視方法 Pending JP2007299213A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006126806A JP2007299213A (ja) 2006-04-28 2006-04-28 Raid制御装置および障害監視方法
US11/500,514 US20080010494A1 (en) 2006-04-28 2006-08-08 Raid control device and failure monitoring method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006126806A JP2007299213A (ja) 2006-04-28 2006-04-28 Raid制御装置および障害監視方法

Publications (1)

Publication Number Publication Date
JP2007299213A true JP2007299213A (ja) 2007-11-15

Family

ID=38768657

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006126806A Pending JP2007299213A (ja) 2006-04-28 2006-04-28 Raid制御装置および障害監視方法

Country Status (2)

Country Link
US (1) US20080010494A1 (ja)
JP (1) JP2007299213A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012531656A (ja) * 2009-11-10 2012-12-10 株式会社日立製作所 複数のコントローラを備えたストレージシステム
JP2015184925A (ja) * 2014-03-24 2015-10-22 富士通株式会社 ストレージ制御装置、制御方法、及びプログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4877396B2 (ja) * 2010-01-20 2012-02-15 日本電気株式会社 メモリ障害処理システム、および、メモリ障害処理方法
JP6212947B2 (ja) * 2013-05-16 2017-10-18 富士通株式会社 情報処理装置、制御装置及び制御プログラム
US10346247B1 (en) * 2017-04-27 2019-07-09 EMC IP Holding Company LLC Adjustable error sensitivity for taking disks offline in a mapped RAID storage array
US10210045B1 (en) * 2017-04-27 2019-02-19 EMC IP Holding Company LLC Reducing concurrency bottlenecks while rebuilding a failed drive in a data storage system
CN115206406A (zh) 2021-04-12 2022-10-18 伊姆西Ip控股有限责任公司 管理独立磁盘冗余阵列的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002065309A1 (en) * 2001-02-13 2002-08-22 Candera, Inc. System and method for policy based storage provisioning and management
US7434097B2 (en) * 2003-06-05 2008-10-07 Copan System, Inc. Method and apparatus for efficient fault-tolerant disk drive replacement in raid storage systems
JP2005122453A (ja) * 2003-10-16 2005-05-12 Hitachi Ltd ストレージ装置のディスクコントローラ制御方式およびストレージ装置
JP4400913B2 (ja) * 2003-11-26 2010-01-20 株式会社日立製作所 ディスクアレイ装置
US7321982B2 (en) * 2004-01-26 2008-01-22 Network Appliance, Inc. System and method for takeover of partner resources in conjunction with coredump
JP2007233903A (ja) * 2006-03-03 2007-09-13 Hitachi Ltd 記憶制御装置及び記憶制御装置のデータ回復方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012531656A (ja) * 2009-11-10 2012-12-10 株式会社日立製作所 複数のコントローラを備えたストレージシステム
JP2015184925A (ja) * 2014-03-24 2015-10-22 富士通株式会社 ストレージ制御装置、制御方法、及びプログラム

Also Published As

Publication number Publication date
US20080010494A1 (en) 2008-01-10

Similar Documents

Publication Publication Date Title
US7412631B2 (en) Methods and structure for verifying domain functionality
JP2007299213A (ja) Raid制御装置および障害監視方法
WO2015033433A1 (ja) ストレージ装置及び障害部位特定方法
JP5058582B2 (ja) ストレージデバイスのマルチパスシステム、その障害箇所特定方法及びプログラム
JP5391994B2 (ja) ストレージシステム,制御装置および診断方法
US8732531B2 (en) Information processing apparatus, method of controlling information processing apparatus, and control program
US20160197994A1 (en) Storage array confirmation of use of a path
US20100085871A1 (en) Resource leak recovery in a multi-node computer system
US7996707B2 (en) Method to recover from ungrouped logical path failures
US8537662B2 (en) Global detection of resource leaks in a multi-node computer system
JP5849491B2 (ja) ディスク制御装置、ディスク装置異常検出方法、及びプログラム
JP4495248B2 (ja) 情報処理装置、障害処理方法
JP6996602B1 (ja) Bmc、サーバシステム、装置安定度判定方法及びプログラム
JP2007334668A (ja) メモリダンプ方法、クラスタシステム、それを構成するノードおよびプログラム
US7409605B2 (en) Storage system
JP2014078067A (ja) データベースシステム、データベース装置、データベースの障害回復方法およびプログラム
JP5696492B2 (ja) 故障検出装置、故障検出方法、及び、故障検出プログラム
JP2013196410A (ja) サーバ装置及び障害管理方法及び障害管理プログラム
JP7367495B2 (ja) 情報処理装置および通信ケーブルログ情報採取方法
JP5832408B2 (ja) 仮想計算機システム及びその制御方法
JP4985033B2 (ja) バックアッププログラム、バックアップ方法およびバックアップ装置
US20150205686A1 (en) Data processing device and method
CN117331729A (zh) 一种固态硬盘运行方法、装置以及电子设备
JP2007026038A (ja) パス監視システム,パス監視方法,およびパス監視プログラム
KR100604552B1 (ko) 클러스터 시스템에서 상태 정보 및 제어 명령의 공유를통한 시스템 장애 대응방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080430

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080630

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081118