JP2005284449A - 情報記録媒体アレイシステムおよびその復旧方法 - Google Patents

情報記録媒体アレイシステムおよびその復旧方法 Download PDF

Info

Publication number
JP2005284449A
JP2005284449A JP2004094307A JP2004094307A JP2005284449A JP 2005284449 A JP2005284449 A JP 2005284449A JP 2004094307 A JP2004094307 A JP 2004094307A JP 2004094307 A JP2004094307 A JP 2004094307A JP 2005284449 A JP2005284449 A JP 2005284449A
Authority
JP
Japan
Prior art keywords
information recording
inoperable
recording medium
array
medium
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004094307A
Other languages
English (en)
Inventor
Junta Tanaka
淳太 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004094307A priority Critical patent/JP2005284449A/ja
Publication of JP2005284449A publication Critical patent/JP2005284449A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

【課題】 ディスクアレイが動作不能状態になった場合に能率よく復旧させることのできるディスクアレイシステムを提供する。
【解決手段】
ディスクアレイ制御装置13には、ハードディスク装置が動作不能状態になった順番、ハードディスク装置の識別情報および障害原因を記録する動作不能ディスク記録テーブル1を備えられ、書き込み処理部2はディスクアレイが動作不能状態となった場合に動作不能ディスク記録テーブル1に動作不能状態になったハードディスク装置の識別情報、その順番および障害原因を記録する。判定処理部3が動作不能状態の原因除去後の再立ち上げ時に前記動作不能ディスク記録テーブル1を参照して最初に動作不能状態となったハードディスク装置以外のハードディスク装置を検査し、再構成処理部が検査手段により使用可能と判断できたハードディスク装置をディスクアレイとして再構成する。
【選択図】 図1

Description

本発明は、コンピュータ装置に接続される複数のハードディスク装置などの情報記録媒体から構成される媒体アレイと、該媒体アレイを制御する媒体アレイ制御装置とを有する情報記録媒体アレイシステムおよびその復旧方法に関するものであり、特に、2台以上の情報記録媒体に障害が発生して媒体アレイが動作不能状態になった場合にも復旧させることのできるように構成された情報記録媒体アレイシステムとその復旧方法に関するものである。
一般に、ディスクアレイは、複数台のハードディスク装置によって1つの記憶システムを構成している。そのうちの1台の装置に異常が発生しても、他のハードディスク装置の記憶内容を基に、異常が発生した装置の記憶内容を復元して動作を継続するように動作する。このようなディスクアレイシステムの典型な例としては、冗長性のあるRAID(redundant array of independent disks)構成されたディスクアレイシステムがある。冗長性のあるRAIDとしては、RAID−1、3、5などがよく用いられている。
たとえば、特許文献1に記載されている従来のディスクアレイシステムについて概要を説明すると、システムに電源が投入されると、ディスクアレイの接続状態をチェックし、補助記録装置の構成情報ファイルにそれらの情報を記録し、次に、ディスクアレイシステムの動作として複数のディスク装置を用いたデータの読出し書込みが行われる。その空き時間には、各ディスク装置に異常がないかどうかのチェックを行い、異常がなければ、処理を戻して、チェックを繰返す。
チェックの結果、異常が検出されれば、その異常ディスク装置以外の全てのディスク装置の空き容量と、異常が発生したディスク装置に格納されていたデータ容量との調査処理を行い、この調査の結果を判断し、その差が予め定められた容量に満たない場合は、ディスクアレイに異常が起こったものとしてその出力を行い、システムの停止処理を行う。
その容量の差が予め定められた範囲内である場合には、障害が発生したディスク装置に格納されていたデータを正常なディスク装置に格納されているデータを用いて復元し、そのデータを正常なディスク装置に分割して格納するデータ分配処理を行う。
また、データ復旧を適切に行うディスクアレイシステムについては、特許文献2に記載のものが公知である。この特許文献2に記載されたディスクアレイシステムによれば、ディスクアレイを構成する複数のディスク装置のうち2台において異常が発生した場合も、フラグを用いて異常発生を管理し、ディスク装置全てに対する読み出しを許可することにより、異常が発生していないディスク装置からは記憶内容を読み出せるものとなっている。
特開平08−190461号公報 特開平11−184642号公報
上記のような従来のディスクアレイシステムにおいて、第1の問題点としては、ディスクアレイ制御装置は複数台のハードディスク装置が同時に故障状態になると、冗長性を保つことが困難になることが挙げられる。すなわち、ディスクアレイ制御装置は、動作の正常性のチェックを、ディスクアレイ構成とされて分散して保存されている情報のパリティによりチェックを行い、冗長性を保っている。しかし、複数台のハードディスク装置が故障状態になるとパリティから正常な情報を算出することが困難になる。
第2の問題点としては、複数台のハードディスク装置が故障状態と認識されると復旧が不可能になることが挙げられる。これは、一台のハードディスク装置が動作不能状態となった場合は、その動作不能状態となったハードディスク装置をディスクアレイ構成(RAID構成)から切り離し、残りのハードディスク装置でディスクアレイ動作を継続するように制御されるが、その場合、切り離されたハードディスク装置と残りのハードディスク装置のデータは同期しなくなる。さらに、次の一台のハードディスク装置が動作不能状態となった場合は、そのハードディスク装置もディスクアレイ構成から切り離すため、複数台のハードディスク装置により1つのディスク装置として動作させる、いわゆるRAID動作が不能となる。
この発明は、上記のような問題点を解消するためになされたものであり、本発明の目的は、複数のハードディスク装置から構成されるディスクアレイを備えたディスクアレイシステムにおいて、複数のハードディスク装置が動作不能状態になった場合にも復旧させることのできるディスクアレイ制御装置を提供することにある。
上記の目的を達成するため、本発明によれば、複数の情報記録媒体から構成される媒体アレイと、該媒体アレイを制御する媒体アレイ制御装置とを有する情報記録媒体アレイシステムにおいて、前記媒体アレイ制御装置には、前記複数の情報記録媒体が動作不能状態になった順番および情報記録媒体の識別情報を記録するための各フィールドを有する動作不能媒体記録テーブルと、媒体アレイが動作不能状態となった場合に前記動作不能媒体記録テーブルに動作不能状態になった情報記録媒体の識別情報およびその順番を書き込む書き込み手段と、動作不能状態の原因除去後の再立ち上げ時に前記動作不能媒体記録テーブルを参照して最初に動作不能状態となった情報記録媒体以外の情報記録媒体を検査する検査手段と、前記検査手段により使用可能と判断できた情報記録媒体を媒体アレイとして再構成する復旧手段と、が備えられていることを特徴とする情報記録媒体アレイシステム、が提供される。
また、上記の目的を達成するため、本発明によれば、複数の情報記録媒体から構成される媒体アレイを有する情報記録媒体アレイシステムにおいて、複数の情報記録媒体が故障状態となったことにより情報記録媒体アレイシステムが動作不能に陥った場合の復旧方法であって、最初に故障状態となった情報記録媒体を除き、2番目以降に故障状態となった情報記録媒体を検査し、再使用が可能であるか否かを検証する過程と、2番目以降に故障状態となった情報記録媒体のいずれもが再使用可能であると判断された場合には、最初に故障状態となった情報記録媒体を除いて媒体アレイを構成し新たに構成された媒体アレイを強制的にオンライン状態で立ち上げる過程と、を含むことを特徴とする情報記録媒体アレイシステムの復旧方法、が提供される。
そして、好ましくは、前記媒体アレイが、情報記憶に冗長性を有している。また、好ましくは、前記情報記録媒体は、ハードディスク装置である。
本発明の媒体アレイシステムにおいては、媒体アレイ制御装置に、複数の情報記録媒体が動作不能状態になった順番、情報記録媒体の識別情報および障害原因を記録するための各フィールドを有する動作不能媒体記録テーブルと、該動作不能媒体記録テーブルに書き込みを行う書き込み手段と、動作不能状態になった情報記録媒体の検査を行う検査手段と、復旧手段とが備えられている。書き込み手段は、ディスクアレイが動作不能状態となった場合に動作不能媒体記録テーブルに動作不能状態になった情報記録媒体の識別情報およびその順番を書き込むので、検査手段が、動作不能状態の原因除去後の再立ち上げ時に前記動作不能ディスク記録テーブルを参照して最初に動作不能状態となった情報記録媒体以外の媒体を検査し、復旧手段が、検査手段により使用可能と判断できた情報記録媒体を媒体アレイとして再構成する。
これにより、媒体アレイが動作不能状態となった場合にあっても、動作不能状態に至った直接要因の発生元の最初に動作不能状態となった情報記録媒体を除いて、使用可能であると見込まれる情報記録媒体が検査されて、使用可能と判断できた残りの複数の情報記録媒体をオンライン状態で強制的に立ち上げることにより、使用可能な複数の情報記録媒体により媒体アレイを再構成でき、媒体アレイ動作を継続できる。
本発明の情報記録媒体アレイシステムとその復旧方法によれば、ディスクアレイシステムの冗長性をさらに高めることが可能になる。データ損失の大半が複数の情報記録媒体が同時に故障状態に陥るケースであるが、本発明によれば、複数の情報記録媒体が同時に動作不能状態となることを救済して、情報の堅牢性を高めることができる。このため、本発明の情報記録媒体アレイシステムの手法は、ハードディスクアレイシステムばかりでなく他の大容量記憶装置の復旧手段としても好適に利用できる。
次に、本発明の実施の形態について図面を参照して詳細に説明する。図1は、本発明によるディスクアレイシステム100の主要部のシステム構成を示すブロック図である。図1に示されるように、ディスクアレイシステム100は、ディスクアレイ5とこれを制御するディスクアレイ制御装置13とにより構成される。ディスクアレイ制御装置13において、1は動作不能ディスク記録テーブル、2は記録手段としてのフェール順序書き込み処理部、3は検査手段としての再使用判定処理部、4は復旧手段としてのRAID構成再構成処理部である。5はディスクアレイ、6はディスクアレイの状態情報を記録している構成情報テーブルである。
また、7はディスクアレイを構成している複数のハードディスク装置を識別するID情報が記録されるIDフィールド、8はディスクアレイを構成している複数のハードディスク装置の状態情報が記録されるステータスフィールド、9は動作不能状態(フェール状態)となったハードディスク装置の順番の情報が記録される順番フィールド、10は動作不能状態のハードディスク装置を識別するID情報が記録されるIDフィールド、11は動作不能状態のハードディスク装置の障害原因の情報が記録される障害原因フィールド、12はフェール情報操作部である。そして、ディスクアレイ5は複数のハードディスク装置14により構成されている。
図を参照すると、複数のハードディスク装置14から構成されるディスクアレイ5を制御するディスクアレイ制御装置13は、図示されていないコンピュータ装置に接続されており、該コンピュータ装置からのデータ処理の入出力要求に従って、データのハードディスク装置への書き込みおよび読み出しを行う。
その場合に、ディスクアレイ制御装置13は、構成情報テーブル6に記録されているステータス情報、ID情報に従って、RAID構成されているディスクアレイ5の複数のそれぞれのハードディスク装置14を管理して、ディスクアレイ5を制御して、RAID動作させる。ディスクアレイ5のRAID動作はいろいろな動作モードがあるが、公知であり、ここでの発明の内容とは直接関係しないので詳細な説明は省略するが、冗長性のあるRAID動作では、すべてのハードディスク装置14が正常に動作している場合には、構成情報テーブル6のステータスフィールド8にはすべてのハードディスク装置14がオンラインで動作していることが登録されている。ここで、1台のハードディスク装置14が動作不能に陥った場合には、RAID動作によりそのハードディスク装置はディスクアレイ5から切り離され、残りのハードディスク装置により動作が続けられる。そして、障害発生により切り離されたハードディスク装置の構成情報テーブル6におけるステータスは「OFFLINE」書き換えられる。
このようなディスクアレイ5を制御し、RAID動作させている場合に2台以上のハードディスク装置に障害が発生してシステムが動作不能状態(フェール状態)になった場合、フェール情報操作部12が起動して、フェール順序書き込み処理部2、再使用判定処理部3、RAID構成再構成処理部4が順次に処理を行い、ディスクアレイ5におけるRAID動作を復旧させる。この復旧動作のために、動作不能ディスク記録テーブル1が用いられる。動作不能ディスク記録テーブル1には、ディスクアレイ5を構成している複数のハードディスク装置14が動作不能状態になった順番、それぞれのハードディスク装置14の識別情報および障害原因を記録するための各フィールドが設けられている。これらの各フィールドに記録する情報により復旧動作を行う。
すなわち、フェール順序書き込み処理部2は、ディスクアレイ5がフェール状態となった場合に、動作不能ディスク記録テーブル1に対して、フェール状態になったハードディスク装置の識別情報、その順番および障害原因を記録する。次に、再使用判定処理部3が、フェール状態の原因を除去した後、例えばフリーズ状態を解消した後、動作不能ディスク記録テーブル1を参照して、最初にフェール状態となったハードディスク装置以外のハードディスク装置14について、これらのハードディスク装置14が再使用可能か否かを障害原因の情報に基づいて検査する。例えば、ハードディスク装置の障害原因をハードディスク装置自体の問題かどうかを判断し、使用可能な場合はハードディスク装置に対し動作確認を行う。つまり、これは、障害発生の直接的な原因が第1番目に動作不能状態となったハードディスク装置にあり、第2番目以降に障害を起こしたハードディスク装置は間接的に障害状態になっている場合が多いためである。RAID構成再構成処理部4は、再立ち上げ時に、検査により使用可能と判断できたハードディスク装置14をオンライン状態で強制的に立ち上げ、ディスクアレイ5として再構成する。すなわち、構成情報テーブル6を書き換える。これにより、RAID動作を継続させる。
このように、本実施の形態によるディスクアレイ制御装置においては、冗長性のあるRAID構成においてハードディスク装置の動作不能状態になった順番および原因を記録するための記録領域と動作不能状態情報をハンドルする処理手段を追加し、複数台の動作不能状態のハードディスク装置があった場合に、原因除去後の再立ち上げ時に最初に動作不能状態となったハードディスク装置以外のハードディスク装置を検査し、使用可能と判断できた場合に、例えば一過性の障害であった場合にオンライン状態で強制的に立ち上げる。
冗長性のあるRAID動作において、1台のハードディスク装置が動作不能状態となった場合であっても、その動作不能状態となったハードディスク装置をRAID構成から切り離して、残りのハードディスク装置でRAID動作を継続するようにできるが、そのままRAID動作を継続すると、その場合には、切り離されたハードディスク装置と残りのハードディスク装置のデータは同期しなくなる。さらにもう一台のハードディスク装置が動作不能状態となった場合、そのハードディスク装置もRAID構成から切り離すため、RAID動作が不能となる。
この場合、RAID動作へのアクセスが止まることで、後から動作不能状態となったハードディスク装置と残りのハードディスク装置のデータは同期が保たれているので、動作不能状態の原因が一過性の不良、ハードディスク装置以外の原因である場合、それらの原因を取り除けば、ハードディスク装置はそのまま使用可能であり、データの同期が保たれている2台目以降の動作不能状態したハードディスク装置をRAIDに再度組み込む(オンライン状態にする)ことにより、RAIDを再生することができる。
本発明のディスクアレイ制御装置によれば、従来のディスクアレイ装置の冗長性をさらに高めることが可能である。データ損失の大半が複数のハードディスク装置が同時に故障状態に陥るケースであるため、本発明を適用することにより、情報の堅牢性を高めることができる。ディスクアレイ制御装置の手法は、他の大容量記憶装置の復旧手段としても好適に利用される。
本発明によるディスクアレイシステムの主要部のシステム構成を示すブロック図。
符号の説明
1 動作不能ディスク記録テーブル
2 フェール順序書き込み処理部
3 再使用判定処理部
4 RAID構成再構成処理部
5 ディスクアレイ
6 構成情報テーブル
7 IDフィールド
8 ステータスフィールド
9 順番フィールド
10 IDフィールド
11 障害原因フィールド
12 フェール情報操作部
13 ディスクアレイ制御装置
14 ハードディスク装置
100 ディスクアレイシステム

Claims (6)

  1. 複数の情報記録媒体から構成される媒体アレイと、該媒体アレイを制御する媒体アレイ制御装置とを有する情報記録媒体アレイシステムにおいて、
    前記媒体アレイ制御装置には、
    前記複数の情報記録媒体が動作不能状態になった順番および情報記録媒体の識別情報を記録するための各フィールドを有する動作不能媒体記録テーブルと、
    媒体アレイが動作不能状態となった場合に前記動作不能媒体記録テーブルに動作不能状態になった情報記録媒体の識別情報およびその順番を書き込む書き込み手段と、
    動作不能状態の原因除去後の再立ち上げ時に前記動作不能媒体記録テーブルを参照して最初に動作不能状態となった情報記録媒体以外の情報記録媒体を検査する検査手段と、
    前記検査手段により使用可能と判断できた情報記録媒体を媒体アレイとして再構成する復旧手段と、
    が備えられていることを特徴とする情報記録媒体アレイシステム。
  2. 前記媒体アレイが、情報記憶に冗長性を有していることを特徴とする請求項1に記載の情報記録媒体アレイシステム。
  3. 前記動作不能媒体記録テーブルには、動作不能状態となった前記情報記録媒体の障害原因を記録するためのフィールドも設けられており、前記書き込み手段は動作不能状態となった前記情報記録媒体の障害原因を障害原因フィールドの該当欄に書き込むことを特徴とする請求項1または2に記載の情報記録媒体アレイシステム。
  4. 前記情報記録媒体が、ハードディスク装置であることを特徴とする請求項1から3のいずれかに記載の情報記録媒体アレイシステム。
  5. 複数の情報記録媒体から構成される媒体アレイを有する情報記録媒体アレイシステムにおいて、複数の情報記録媒体が故障状態となったことにより情報記録媒体アレイシステムが動作不能に陥った場合の復旧方法であって、
    最初に故障状態となった情報記録媒体を除き、2番目以降に故障状態となった情報記録媒体を検査し、再使用が可能であるか否かを検証する過程と、2番目以降に故障状態となった情報記録媒体のいずれもが再使用可能であると判断された場合には、最初に故障状態となった情報記録媒体を除いて媒体アレイを構成し新たに構成された媒体アレイを強制的にオンライン状態で立ち上げる過程と、を含むことを特徴とする情報記録媒体アレイシステムの復旧方法。
  6. 前記媒体アレイでは冗長性のあるRAID動作が行われることを特徴とする請求項5に記載の情報記録媒体アレイシステムの復旧方法。
JP2004094307A 2004-03-29 2004-03-29 情報記録媒体アレイシステムおよびその復旧方法 Pending JP2005284449A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004094307A JP2005284449A (ja) 2004-03-29 2004-03-29 情報記録媒体アレイシステムおよびその復旧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004094307A JP2005284449A (ja) 2004-03-29 2004-03-29 情報記録媒体アレイシステムおよびその復旧方法

Publications (1)

Publication Number Publication Date
JP2005284449A true JP2005284449A (ja) 2005-10-13

Family

ID=35182788

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004094307A Pending JP2005284449A (ja) 2004-03-29 2004-03-29 情報記録媒体アレイシステムおよびその復旧方法

Country Status (1)

Country Link
JP (1) JP2005284449A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007188624A (ja) * 2006-01-12 2007-07-26 Samsung Electronics Co Ltd ハイブリッドハードディスクドライブの制御方法、記録媒体、及びハイブリッドハードディスクドライブ
JP2014119831A (ja) * 2012-12-13 2014-06-30 Fujitsu Ltd ストレージ装置、制御方法及び制御プログラム
US9047219B2 (en) 2011-08-17 2015-06-02 Fujitsu Limited Storage system, storage control device, and storage control method
CN113590406A (zh) * 2021-08-16 2021-11-02 湖南博匠信息科技有限公司 一种基于电变量进行固态硬盘故障检测的方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007188624A (ja) * 2006-01-12 2007-07-26 Samsung Electronics Co Ltd ハイブリッドハードディスクドライブの制御方法、記録媒体、及びハイブリッドハードディスクドライブ
US9047219B2 (en) 2011-08-17 2015-06-02 Fujitsu Limited Storage system, storage control device, and storage control method
JP2014119831A (ja) * 2012-12-13 2014-06-30 Fujitsu Ltd ストレージ装置、制御方法及び制御プログラム
CN113590406A (zh) * 2021-08-16 2021-11-02 湖南博匠信息科技有限公司 一种基于电变量进行固态硬盘故障检测的方法及***

Similar Documents

Publication Publication Date Title
US9189311B2 (en) Rebuilding a storage array
TWI479309B (zh) 控制固態硬碟的裝置及方法
JP2002108573A (ja) ディスクアレイ装置、そのエラー制御方法、ならびにその制御プログラムを記録した記録媒体
KR100711165B1 (ko) 기억 제어 장치, 제어 방법 및 기록 매체
US7620786B2 (en) Storage recovery using a delta log
JP4852118B2 (ja) ストレージ装置及び論理ディスク管理方法
WO2017097233A1 (zh) 一种数据存储负载的容错方法及iptv***
US20070234107A1 (en) Dynamic storage data protection
US7600151B2 (en) RAID capacity expansion interruption recovery handling method and system
JP2006079219A (ja) ディスクアレイ制御装置およびディスクアレイ制御方法
JP2006268502A (ja) アレイコントローラ、メディアエラー修復方法及びプログラム
JP2005284449A (ja) 情報記録媒体アレイシステムおよびその復旧方法
JP2868001B1 (ja) ディスクアレイ装置制御方法およびディスクアレイ装置
JP2009245391A (ja) 情報処理装置、エラー処理方法及びプログラム
JP2006260376A (ja) ストレージ装置およびメディアエラー回復方法
JP5644795B2 (ja) ストレージ装置、データ復旧方法およびプログラム
KR20110039416A (ko) 인터럽트된 기록 복구를 위한 데이터 저장 방법, 장치 및 시스템
JP2007115162A (ja) データの二重保存方法
JP4947062B2 (ja) 記憶装置、記録復旧方法、記録復旧プログラム
JP2008084168A (ja) 情報処理装置及びデータ修復方法
JPH08190461A (ja) ディスクアレイシステム
JP2005149248A (ja) メタデータ修復方式,方法および記憶装置ならびにプログラム
JP2004126878A (ja) データ書込み、データ書込み読出し装置、データ書込み、データ書込み読出し方法
JP2003177876A (ja) ディスクアレイ装置
JP2000276308A (ja) ディスクサブシステム及びディスクサブシステムにおけるデータ復元方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080218

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080626