JP6191346B2 - ストレージ制御装置、ディスクアレイ装置の制御方法及びディスクアレイ装置の制御プログラム - Google Patents

ストレージ制御装置、ディスクアレイ装置の制御方法及びディスクアレイ装置の制御プログラム Download PDF

Info

Publication number
JP6191346B2
JP6191346B2 JP2013185965A JP2013185965A JP6191346B2 JP 6191346 B2 JP6191346 B2 JP 6191346B2 JP 2013185965 A JP2013185965 A JP 2013185965A JP 2013185965 A JP2013185965 A JP 2013185965A JP 6191346 B2 JP6191346 B2 JP 6191346B2
Authority
JP
Japan
Prior art keywords
unit
disk
redundant
storage device
replication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013185965A
Other languages
English (en)
Other versions
JP2015052960A (ja
Inventor
良太 塚原
良太 塚原
典秀 久保田
典秀 久保田
惇 猪頭
惇 猪頭
小林 賢次
賢次 小林
秀治郎 大黒谷
秀治郎 大黒谷
和彦 池内
和彦 池内
親志 前田
親志 前田
岳志 渡辺
岳志 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013185965A priority Critical patent/JP6191346B2/ja
Priority to US14/328,999 priority patent/US9395938B2/en
Publication of JP2015052960A publication Critical patent/JP2015052960A/ja
Application granted granted Critical
Publication of JP6191346B2 publication Critical patent/JP6191346B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • G06F11/1092Rebuilding, e.g. when physically replacing a failing disk
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/065Replication mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computer Security & Cryptography (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、ストレージ制御装置、ディスクアレイ装置の制御方法及びディスクアレイ装置の制御プログラムに関する。
情報通信技術(Information and Communication Technology;ICT)システムの普及に伴い、近年、Hard Disk Drive(HDD)に代表される記憶装置(以下、「ディスク」と総称する)を複数使用する使用するディスクアレイ装置が広く用いられるようになっている。このようなディスクアレイ装置では、一般に、Redundant Arrays of Inexpensive Disks(RAID)技術を用いて、データが2台以上のディスクに冗長化されて記録されることにより、データの安全性が担保されている。
ここで、RAIDとは、複数のディスクを組合せて、仮想的な1台のディスク(RAIDグループ)として管理する技術を指す。RAIDには、各ディスクへのデータ配置及び冗長性に応じて、RAID0〜RAID6のレベルが存在する。
データが冗長化されたディスクアレイ装置において、ディスクが故障すると、故障したディスクに記憶されていたデータが再構築されて、ホットスペア(Hot spare;HS)と呼ばれる予備ディスクなどの代替ディスクに格納される。このような処理は、一般にリビルド処理と呼ばれる。リビルド処理が実行されることで、データの冗長性が回復する。
或いは、RAIDグループをディスク故障前の状態に戻す処理もあり、この処理をコピーバックと呼ぶ。コピーバックにおいては、リビルド完了後、故障ディスクを保守ディスクへ交換した際、代替ディスクのデータを保守ディスクへコピーする。
或いは、ディスク故障の予兆を検知し、RAIDグループの冗長性が失われる前に、代替ディスクにデータをコピーする処理をリダンダントコピーと呼ぶ。リダンダントコピーは、リビルドよりもデータロストの可能性が低く、データの安全性が高い。
リビルド、コピーバック、リダンダントコピーにおいては、RAID装置内のディスク故障にそなえて予備的に設けられた代替ディスクとして、HSが用いられる。
又、ストレージ装置においては、Self-Monitoring, Analysis and Reporting Technology(SMART)という技術が広く採用されている。SMARTとは、ディスクが、ディスクの読み取りエラーの発生率や読み書き速度、モーターの起動・停止の通算回数、出荷以来の通算の通電時間等に基づいて自己診断を行ない、自身の故障を予兆するための技術である。現在ではほとんどのストレージ装置にこのSMART機能が具備されている。
以下、ディスクが、SMART機能により、故障の予兆を検知した状態を「SMART状態」と呼ぶ。つまり、SMART状態とは、ディスクが故障しかけている状態を指す。
このディスクがSMART状態にあるかどうかは、公知の診断手法に基づいて判定される。
特開2006−79418号公報 特開2009−211619号公報 特開平11−345095号公報
RAIDにおいては、1台のディスクが縮退している(すなわち、冗長性がない)状態で、更に他のディスクが縮退したり媒体エラーを検出したりすると、データの読み出しができなくなり、データロストが発生する。
例えば、リダンダントコピーが起動されたが、同じRAIDグループ内に、SMART状態に陥りかけているディスクが別に存在する場合、SMART状態に陥りかけているディスクの影響で、リダンダントコピーが失敗する確率が高い。リダンダントコピーが失敗すると、データロストが発生してしまう。
或いは、リダンダントコピーを起動したが、同じRAIDグループ内に、SMART状態に陥りかけているディスクが別に存在する場合、既にSMART状態になっているディスクを追い越して、そのディスクが先に縮退されることがある。この場合も、高い確率でリダンダントコピーが失敗し、データロストが発生する。
このように、SMART状態となったディスクの他に、同じRAIDグループ内に当該ディスクと同等かそれに近い異常状態のディスクがある場合、多重故障のリスクを解決できない。
ここで、多重故障とは、1つのRAIDグループ内で複数台のディスクが故障する場合を指す。
この対策として、例えば、RAIDを構成する全ディスクを一定時間毎にチェックし、最も故障する確率の高いディスクのデータを、HSに退避させることが考えられる。
しかし、この方法では、退避を一定時間毎に実施するため、例えば2台のディスクが立て続けに故障した場合には、データロストを回避することができない。
上記課題に鑑みて、1つの側面では、本発明は、ストレージ装置においてデータロストを回避することを目的とする。
なお、前記目的に限らず、後述する発明を実施するための形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本発明の他の目的の1つとして位置付けることができる。
このため、ストレージ制御装置は、冗長単位を構成する複数の記憶装置をそなえるディスクアレイ装置の制御装置であって、前記記憶装置の各々を監視し、該記憶装置で事象が発生したときに、その事象に対応する点数を加算する計算部と、前記計算部によって前記加点が行なわれた際に、前記事象が発生した記憶装置単体での点数と、前記複数の記憶装置のうち前記点数が上位2台の記憶装置の各点数と、前記上位2台の記憶装置の点数の合計と、前記冗長単位での点数とに基づいて、前記記憶装置の予兆を検知する判定部と、をそなえる。
又、ディスクアレイ装置の制御方法は、冗長単位を構成する複数の記憶装置をそなえるディスクアレイ装置の制御方法であって、前記記憶装置の各々を監視し、該記憶装置で事象が発生したときに、その事象に対応する点数を加算し、前記加点が行なわれた際に、前記事象が発生した記憶装置単体での点数と、前記複数の記憶装置のうち前記点数が上位2台の記憶装置の各点数と、前記上位2台の記憶装置の点数の合計と、前記冗長単位での点数とに基づいて、前記記憶装置の故障の有無を予測する。
さらに、ディスクアレイ装置の制御プログラムは、冗長単位を構成する複数の記憶装置をそなえるディスクアレイ装置の制御プログラムであって、前記記憶装置の各々を監視し、該記憶装置で事象が発生したときに、その事象に対応する点数を加算し、前記加点が行なわれた際に、前記事象が発生した記憶装置単体での点数と、前記複数の記憶装置のうち前記点数が上位2台の記憶装置の各点数と、前記上位2台の記憶装置の点数の合計と、前記冗長単位での点数とに基づいて、前記記憶装置の故障の有無を予測する、処理をコンピュータに実行させる。
本発明によれば、ストレージ装置においてデータロストを回避することができる。
第1実施形態の一例としてのディスクアレイ装置をそなえる情報処理システムのハードウェア構成を示す図である。 第1実施形態の一例としてのディスクアレイ装置の制御部の機能構成を示す図である。 第1実施形態の一例としての制御部による故障監視処理を示すフローチャートである。 第1実施形態の第1変形例としての制御部による故障監視処理を示すフローチャートである。 RAID1構成におけるディスクの統計加点例を示す図である。 RAID1構成におけるディスクの統計加点の別の例を示す図である。 第1実施形態の第2変形例としての制御部による故障監視処理を示すフローチャートである。 第1実施形態の第3変形例としての制御部による故障監視処理を示すフローチャートである。 RAID5構成におけるディスクの統計加点例を示す図である。 第2実施形態の一例としてのディスクアレイ装置の制御部の機能構成を示す図である。 第2実施形態の一例としての制御部による故障監視処理を示すフローチャートである。 第3実施形態の一例としてのディスクアレイ装置の制御部の機能構成を示す図である。 第3実施形態の一例としてのディスクアレイ装置のHS獲得動作を例示する図である。 第3実施形態の一例としての制御部の動作を示すフローチャートである。 第3実施形態の一例としてのHS獲得部によるHS獲得処理を示すフローチャートである。 第4実施形態の一例としてのディスクアレイ装置の制御部の機能構成を示す図である。 第4実施形態の一例としての統計加点部による統計加点のクリアタイミングを例示する図である。
以下、図面を参照して、本実施の形態の一例としてのストレージ制御装置、ディスクアレイ装置の制御方法及びディスクアレイ装置の制御プログラムについて説明する。
但し、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形(実施形態及び各変形例を組み合わせる等)して実行することができる。
(A)第1実施形態
(A−1)構成
最初に、第1実施形態の一例としてのディスクアレイ装置2の構成を説明する。
図1は、第1実施形態の一例としてのディスクアレイ装置2をそなえる情報処理システム1のハードウェア構成を示す図である。
情報処理システム1は、ホスト装置8と、ディスクアレイ装置2とそなえる。
情報処理システム1において、ホスト装置8と、ディスクアレイ装置2とは、例えば、Storage Area Network(SAN)によって相互接続されている。
ホスト装置8は、例えば、サーバ機能をそなえたコンピュータ(情報処理装置)であり、ディスクアレイ装置2との間において、Small Computer System Interface(SCSI)コマンドやレスポンス等の各種データを、ストレージ接続プロトコルを用いて送受信する。このホスト装置8は、ディスクアレイ装置2に対してリード/ライト等のディスクアクセスコマンド(I/Oコマンド)を送信することにより、ディスクアレイ装置2が提供する記憶領域にデータの書き込みや読み出しを行なう。
ディスクアレイ装置2は、ホスト装置8に対して記憶領域を提供するものであり、LANやSANを介してホスト装置8と相互に通信可能に接続されている。
ディスクアレイ装置2は、Control Module(CM)3−0,3−1と、ディスク(記憶装置)5−0,5−1,…,5−n(nは3以上の整数)とをそなえる。
CM3−0,3−1は、ディスクアレイ装置2内の動作を制御するコントローラであり、ホスト装置8からリード/ライト等のI/Oコマンドを受け取り、種々の制御を行なう。
CM3−0,3−1は二重化されており、通常は、CM3−0がプライマリCMとして、セカンダリCMのCM3−1を制御し、ディスクアレイ装置2全体の動作を管理している。しかしCM3−0の故障時には、CM3−1がプライマリCMとなり、CM3−0の動作を引き継ぐ。
CM3−0は、ホストインタフェース(Interface;I/F)6−0,6−1、ディスクI/F7−0,7−1、Central Processing Unit(CPU)4−0、及びメモリ9−0をそなえる。
ホストI/F6−0,6−1は、例えばSAN経由でホスト装置8とCM3−0とを接続するためのインタフェースである。ホストI/F6−0,6−1は、Fibra Channel(FC)、Internet SCSI(iSCSI)、Serial Attached SCSI(SAS)、Fibre Channel over Ethernet(FCoE)、Infinibandなど、様々な通信規格によりホスト装置8とCM3−0とを接続する。ホストI/F6−0,6−1は二重化されており、ホストI/F6−0,6−1の一方が故障した場合でも、他方が正常に動作している限り、CM3−0は正常に動作を継続することができる。
ディスクI/F7−0,7−1は、CM3と後述するディスク5−0,5−1,…,5−nとを、例えば、SASによって接続するExpanderやI/O Controller(IOC)などのインタフェースである。ディスクI/F7−0,7−1は、ディスク5−0,5−1,…,5−nとのデータのやり取りを制御する。ディスクI/F7−0,7−1は二重化されており、ディスクI/F7−0,7−1の一方が故障した場合でも、他方が正常に動作している限り、CM3−0は正常に動作を継続することができる。
CPU4−0は、種々の制御や演算を行なう処理装置であり、不図示のRead Only Memory(ROM)等に格納されたプログラムを実行することにより、種々の機能を実現する。又、CPU4−0は、プログラムを実行することにより、図2を用いて後述する制御部(ストレージ制御装置)11として機能する。
メモリ9−0は、CPU4−0が実行するプログラムや種々のデータ、CPU4−0の動作により得られたデータ等を格納する。又、メモリ9−0は、仮/実ボリューム変換テーブル21−0の格納部としても機能する。メモリ9−0としては、例えばRandom Access Memory(RAM)などを用いることができる。
仮/実ボリューム変換テーブル21−0は、ディスクアレイ装置2の仮想ボリュームのアドレスを、後述するディスク5−0,5−1,…,5−nの物理アドレス(実アドレス)にマッピングしているテーブルである。
なお、CM3−0内のホストI/F6−0,6−1、CPU4−0などの構成要素は、例えばPCI Express(PCIe)により相互に接続されている。
CM3−1は、ホストI/F6−2,6−3、ディスクI/F7−2,7−3、CPU4−1、及びメモリ9−1をそなえる。
ホストI/F6−2,6−3は、例えばSAN経由でホスト装置8とCM3−1とを接続するためのインタフェースである。ホストI/F6−2,6−3は、FC、iSCSI、SAS、FCoE、Infinibandなど、様々な通信規格によりホスト装置8とCM3−1とを接続する。ホストI/F6−2,6−3は二重化されており、ホストI/F6−2,6−3の一方が故障した場合でも、他方が正常に動作している限り、CM3−1は正常に動作を継続することができる。
ディスクI/F7−2,7−3は、CM3−0と後述するディスク5−0,5−1,…,5−nとを、例えば、SASによって接続するExpanderやIOCなどのインタフェースである。ディスクI/F7−2,7−3は、ディスク5−0,5−1,…,5−nとのデータのやり取りを制御する。ディスクI/F7−2,7−3は二重化されており、ディスクI/F7−2,7−3の一方が故障した場合でも、他方が正常に動作している限り、CM3−1は正常に動作を継続することができる。
CPU4−1は、種々の制御や演算を行なう処理装置であり、不図示のROM等に格納されたプログラムを実行することにより、種々の機能を実現する。又、CPU4−1は、プログラムを実行することにより、図2を用いて後述する制御部11として機能する。
メモリ9−1は、CPU4−1が実行するプログラムや種々のデータ、CPU4−1の動作により得られたデータ等を格納する。又、メモリ9−1は、仮/実ボリューム変換テーブル21−1の格納部としても機能する。メモリ9−1としては、例えばRAMなどを用いることができる。
仮/実ボリューム変換テーブル21−1は、ディスクアレイ装置2の仮想ボリュームのアドレスを、後述するディスク5−0,5−1,…,5−nの物理アドレス(実アドレス)にマッピングしているテーブルである。
なお、CM3−1内のホストI/F6−2,6−3、CPU4−1などの構成要素は、例えばPCIeにより相互に接続されている。
ディスク5−0,5−1,…,5−nは、記憶域を提供するディスクドライブである。ディスクアレイ装置2は、これらの複数のディスク5−0,5−1,…,5−nを組み合わせて、論理ボリュームとして機能する。
なお、以下、CMを示す符号としては、複数のCMのうち1つを特定する必要があるときには符号3−0,3−1を用いるが、任意のCMを指すときには符号3を用いる。
又、以下、CPUを示す符号としては、複数のCPUのうち1つを特定する必要があるときには符号4−0,4−1を用いるが、任意のCPUを指すときには符号4を用いる。
又、以下、ディスクを示す符号としては、複数のディスクのうち1つを特定する必要があるときには符号5−0,5−1,…,5−nを用いるが、任意のディスクを指すときには符号5を用いる。
又、以下、ホストI/Fを示す符号としては、複数のホストI/Fのうち1つを特定する必要があるときには符号6−0〜6−3を用いるが、任意のホストI/Fを指すときには符号6を用いる。
又、以下、ディスクI/Fを示す符号としては、複数のディスクI/Fのうち1つを特定する必要があるときには符号7−0〜7−3を用いるが、任意のディスクI/Fを指すときには符号7を用いる。
又、以下、RAMを示す符号としては、複数のRAMのうち1つを特定する必要があるときには符号9−0,9−1を用いるが、任意のRAMを指すときには符号9を用いる。
又、以下、仮/実ボリューム変換テーブルを示す符号としては、複数の仮/実ボリューム変換テーブルのうち1つを特定する必要があるときには符号21−0,21−1を用いるが、任意の仮/実ボリューム変換テーブル指すときには符号21を用いる。
次に、制御部11の各機能構成について説明する。
図2は、第1実施形態の一例としてのディスクアレイ装置2の制御部11の機能構成を示す図である。
制御部11は、各ディスク5の状態を監視してその統計加点を行ない、ディスク5単体の統計加点値及び冗長単位(又はRAIDグループ単位)での統計加点に基づいて、ディスク5のリダンダントコピーを実施する。
ここで、ディスク5で何らかの事象が発生した際に、その事象に対応する点数を加算することで、ディスク5毎に求めた点数を「統計加点」と呼ぶ。
又、「統計加点を行なう」とは、ディスク5で事象が発生した場合に、その事象に対応する点数を加算(積算)することを言う。例えば、ディスク5でリード又はライトのエラーが発生した場合、リード又はライトのエラーに対応する点数が、そのディスク5の点数に加算される。
ここで、「冗長単位(又はRAIDグループ単位)での統計加点」とは、冗長化されている複数のディスク5の全体としての統計加点を指す。冗長単位での統計加点値の算出方法については後述する。
制御部11は、統計加点部(計算部)12、故障判定部(判定部)13、リビルド実行部14、リダンダントコピー実行部(復旧部)15、統計加点表(統計値)22、第1の閾値(T1)23、及び第2の閾値(T2)24をそなえる。
統計加点部12は、ディスク5のいずれかにおいて統計加点に影響する事象が発生した場合に、その事象が、そのディスク5を即時に縮退すべき事象であるかどうかを判定する。ディスク5を即時に縮退すべき事象である場合には、統計加点部12は、リビルド実行部14に対し、そのディスク5を縮退させてリビルドを実行するように指示する。
一方、ディスク5を即時に縮退すべき事象ではない場合、統計加点部12は、その事象に応じた点数を、事象が発生したディスク5に加算して、後述する統計加点表22を更新する。
ディスク5の事象が、そのディスク5を即時に縮退すべき事象であるかどうかは、例えば、システム管理者等によって事前に不図示のテーブル等に記憶されている。
ここで、以下、ディスク5の統計加点に影響する事象を「統計加点対象事象」と呼ぶ。なお、統計加点対象事象及びディスク5の統計加点の算出方法については、公知であるためその説明を省略する。
故障判定部13は、ディスク5の統計加点が更新されると、当該ディスク5単体での統計加点値、及び当該ディスク5が属する冗長単位での統計加点値に基づいて、リダンダントコピー実行部15によるリダンダントコピーを起動させるか否かを判定する。
詳細には、故障判定部13は、ディスク5単体での統計加点値を第1の閾値(T1)23と比較し、ディスク5単体での統計加点値が第1の閾値23を超える場合には、当該ディスク5のリダンダントコピーを実行させる。
ディスク5単体での統計加点値が第1の閾値23を超えない場合、故障判定部13は、統計加点対象事象が発生したディスク5を含む冗長単位での統計加点値が、第2の閾値(T2)24を超えるかどうかを判定する。冗長単位での統計加点値が第2の閾値24を超える場合には、当該ディスク5のリダンダントコピーを実行させる。
図2に示すリビルド実行部14は、ディスク5のデータをホットスペア(HS)5に復元してリビルドを実行する。その際、リビルド実行部14は公知のリビルド手法を用いてリビルド処理を実行する。なお、リビルド手法については公知であるため、その説明を省略する。
リダンダントコピー実行部15は、ディスク5のリダンダントコピーを実行する。その際、リダンダントコピー実行部15は公知のリダンダントコピー手法を用いてリダンダントコピー処理を実行する。なお、リダンダントコピー手法については公知であるため、その説明を省略する。
なお、リダンダントコピー実行部15は、リダンダントコピー中に対象のディスク5以外が縮退された場合、リダンダントコピーを中止して、リビルドに切り替える。
リダンダントコピー実行部15によるリダンダントコピーが正常に完了しコピーバックまで終了すると、故障判定部13は、次回の統計加点を待たずに、統計加点値のチェックを再度行なう。ここで、後述するリダンダントコピー起動条件のいずれかが成立すれば、故障判定部13は、リダンダントコピーを起動する。
統計加点表22は、例えば、ディスクアレイ装置2内のディスク5毎の統計加点と、冗長単位毎の統計加点とを保持するテーブルである。統計加点表22は、例えば、RAM9に格納される。
第1の閾値(T1)23は、第1のリダンダントコピー起動条件を規定する数値である。故障判定部13は、ディスク5単体の統計加点値と第1の閾値23とを比較し、ディスク5単体の統計加点値が第1の閾値23を超える場合に、リダンダントコピー実行部15にディスク5のリダンダントコピーを実行させる。第1の閾値23は、例えば、情報処理システム1の管理者等によって任意の値に設定され、RAM9に格納される。
第2の閾値(T2)24は、第2のリダンダントコピー起動条件を規定する数値である。故障判定部13は、ディスク5が属する冗長単位の統計加点と第2の閾値24とを比較し、冗長単位の統計加点が第2の閾値24を超える場合に、リダンダントコピー実行部15に、例えば、統計加点値が最大のディスク5のリダンダントコピーを実行させる。複数のディスク5の統計加点値が等しい場合、故障判定部13は、ディスク5の稼働(組み込み)期間等に基づいて、リカバリ対象のディスク5を選択する。
ここで、第2の閾値24は、例えば、情報処理システム1の管理者等によって任意の値に設定され、RAM9に格納される。なお、ディスクアレイ装置2の構成等によっては、第2の閾値24が複数用いられることがある。第2の閾値24が複数用いられる例については、下記に第1実施形態の第1,第3変形例として説明する。
(A−2)動作
次に、第1実施形態の一例としてのディスクアレイ装置2の制御部11の動作について説明する。
図3は、第1実施形態の一例としての制御部11による故障監視処理を示すフローチャート(ステップS1〜S6)である。
この故障監視処理は、ディスクアレイ装置2内のディスク5のいずれかにおいて、統計加点対象事象が発生した場合に実行される。
ステップS1において、制御部11の統計加点部12は、ディスク5で発生した事象が、即時縮退対象の事象であるかどうかを判定する。
ここで、即時縮退対象の事象とは、ディスク5のエラーが復旧不可能であり、ディスク5を直ちに縮退させてリビルドする必要がある事象を指す。
ディスク5で発生した事象が即時縮退対象の事象である場合(ステップS1のYESルート参照)、ステップS2において、リビルド実行部14は、ディスク5のリビルド処理を実行して、本処理を終了する。
一方、ディスク5で発生した事象が即時縮退対象の事象ではない場合(ステップS1のNOルート参照)、ステップS3において、統計加点部12は、ディスク5で生じた事象に応じた統計加点を行ない、統計加点表22を更新する。
ステップS4において、故障判定部13は、統計加点対象事象が発生したディスク5単体の統計加点値が第1の閾値(T1)23を超えたかどうかを判定する。
ディスク5単体の統計加点値が第1の閾値23を超えた場合(ステップS4のYESルート参照)、処理が後述するステップS6に移行して、ディスク5のリダンダントコピーが実行される。
一方、ディスク5単体の統計加点値が第1の閾値23を超えていない場合(ステップS4のNOルート参照)、ステップS5において、故障判定部13は、ディスク5の属する冗長単位での加点値が第2の閾値(T2)24を超えたかどうかを判定する。
冗長単位での統計加点値が第2の閾値24を超えていない場合(ステップS5のNOルート参照)、故障監視処理を終了する。
一方、冗長単位での統計加点値が第2の閾値24を超えた場合(ステップS5のYESルート参照)、処理はステップS6に移行する。
ステップS6において、故障判定部13は、リダンダントコピー実行部15にディスク5のリダンダントコピーを実行させ、故障監視処理が終了する。
(A−3)効果
このように、第1実施形態の一例としての制御装置11の統計加点部12は、ディスク5のエラー発生時にそのディスク5に統計加点を行なう。そして、故障判定部13が、ディスク5単体の統計加点値に加えて、冗長単位での統計加点値を用いて、ディスク5の故障予兆を監視する。そして、故障判定部13は、故障の予兆が検出されると、リダンダントコピー実行部15に、故障の予兆が検出されたディスク5のリダンダントコピーを実行させる。これにより、データの冗長性を担保して、ディスクアレイ装置2の信頼性を向上させる。
このように、第1実施形態の一例としての制御装置11は、ディスク5単体では第1の閾値23を超えない場合であっても、冗長単位で故障予兆監視を行なうことにより、多重故障のリスクをより確実に回避することができる。
これに対して、従来のディスクアレイ装置においては、故障予兆をディスク単位で監視していたため、同じRAIDグループ内の他のディスク5の統計加点値については一切考慮していなかった。しかし、RAIDの特性上一番考慮されるべきは冗長性の確保であると考えられる。一方、第1実施形態の一例としての制御装置11によれば、冗長性が確保される。
なお、第1実施形態の一例としての故障判定部13は、上記判定を、エラー発生の都度行なうので、より最適なタイミングでリダンダントコピーを実行することができる。
又、故障判定部13が冗長単位での統計加点値を併用するので、ディスク5単位ではリダンダントコピー起動条件を満たさない場合でも、冗長単位での統計加点値が設定値を超えれば、リダンダントコピーを起動させることができる。
第1実施形態の一例としての制御装置11によれば、ディスクアレイ装置2において多重故障の発生を予期して、リダンダントコピーを実行することにより、データロストを回避することができる。
(A−4)第1実施形態の第1変形例
なお、第1実施形態の第1変形例として、前述の図3のステップS5における冗長単位での統計加点値の判定を、2ステップにまたがって行なってもよい。
図4は、第1実施形態の第1変形例としての制御部11による故障監視処理を示すフローチャート(ステップS1〜S6,S51,S52)である。
ここでは、ディスクアレイ装置2の構成がRAID1である場合を考える。RAID1は冗長度が2であるので、ディスク5のうちの1台が縮退している状態で、別の1台のディスク5が縮退すると二重故障となり、データロストが発生する可能性がある。
この例では、故障判定部13は、冗長単位での統計加点値に基づく第2の条件として、「冗長性を構成する2台のディスク5の各統計加点値がいずれも閾値T2Aを超えたか」と「冗長性を構成する2台のディスク5の統計加点値の合計が閾値T2Bを超えたか」とを用いる。すなわち、図1〜図3の第2の閾値24として、閾値T2Aと閾値T2Bとが用いられる。
図4の第1実施形態の第1変形例においては、図4に破線で囲んだフローのステップS51,S52が、図3のステップS5に対応している。なお、図4のステップS1〜S4,S6の処理は、図3の第1実施形態の一例の対応するステップでの処理と同様であるため、その説明を省略する。
ステップS51において、故障判定部13は、冗長性を構成する2台のディスク5の各統計加点値がいずれも閾値T2Aを超えたかどうかを判定する。
冗長性を構成する2台のディスク5の各統計加点値がいずれも閾値T2Aを超えた場合(ステップS51のYESルート参照)、この2台のディスク5のいずれも、ディスク5単体ではリダンダントコピー起動条件を満たしていない。しかし、2台のディスク5共に統計加点値が高く、双方のディスク5に立て続けにエラーが発生すると、二重故障に陥りデータロストが発生する可能性がある。そこで、処理はステップS6に移行し、対象ディスク5のリダンダントコピーを実行する。
例えば、閾値T2Aを、第1の閾値23の80%とする。このとき、第1の閾値23を255点とすると、閾値T2Aは204点となる。2台のディスク5とも統計加点値が204点を超えた場合、故障判定部13は、ディスク5単体の統計加点値が最大のディスク5に対するリダンダントコピーを、リダンダントコピー実行部15に実行させる。
なお、上述の閾値T2Aとしての「第1の閾値23の80%」という値は例に過ぎず、ステップS4で比較に用いた値よりも低い値であれば、どのような値であってもよく、ディスクアレイ装置2の運用に応じて増減可能である。
図5は、RAID1構成におけるディスク5の統計加点例を示す図である。
例えば、第1の閾値23を255点とすると、2台のディスク5の統計加点値がともに255点×0.8=204点を超える場合、故障判定部13はリダンダントコピーをリダンダントコピー実行部15に実行させる。図5の例では、ディスク#0の統計加点値が220点、ディスク#1が210点なので、2台のディスク5の統計加点値がともに204点を超える。
図5の例では、ディスク5はいずれも第1の閾値T1の255点に達していないのでステップS4のリダンダントコピー起動条件を満たさないが、冗長単位の統計加点値はステップS51のリダンダントコピー起動条件を満たすので、リダンダントコピーが起動される。
ステップS51で冗長性を構成する2台のディスク5の統計加点値が閾値T2Aを超えていない場合(ステップS51のNOルート参照)、ステップS52において、故障判定部13は、冗長性を構成する2台のディスク5の統計加点値の合計が閾値T2Bを超えたかどうかを判定する。
例えば、閾値T2Bを、第1の閾値23の2倍の70%とする。このとき、第1の閾値23を255点とすると、閾値T2Bは357点となる。2台のディスク5の統計加点値の合計が357点を超えた場合、故障判定部13は、ディスク5単体の統計加点値が最大のディスク5に対するリダンダントコピーを、リダンダントコピー実行部15に実行させる。
図6は、RAID1構成におけるディスク5の統計加点の別の例を示す図である。
図6の例では、ディスク#0の統計加点値が235点、ディスク#1の統計加点値が130点なので、上位2台のディスク5の統計加点値の合計は235点+130点=365点となり、閾値T2Bの357点を超える。
図6の例では、ディスク5はいずれも第1の閾値T1の255点に達していないのでステップS4のリダンダントコピー起動条件を満たさない。又、ディしく#1が閾値T2Aである204点に達していないのでステップS51のリダンダントコピー起動条件を満たさない。しかしながら、冗長単位の統計加点値(合計値)はリダンダントコピー起動条件を満たすので、リダンダントコピーが起動される。
なお、上述の閾値T2Bとしての「第1の閾値23の2倍の70%」という値は例に過ぎず、ステップS4,S51で比較に用いた値よりも低い値であれば、どのような値であってもよく、ディスクアレイ装置2の運用に応じて増減可能である。
ステップS52で冗長性を構成する2台のディスク5の統計加点値の合計が閾値T2Bを超えない場合(ステップS52のNOルート参照)、故障監視処理を終了する。
一方、冗長性を構成する2台のディスク5の統計加点値の合計が閾値T2Bを超えた場合(ステップS52のYESルート参照)、処理はステップS6に移行する。
なお、故障判定部13は、冗長単位での統計加点値の判定を、ステップS51,S52の順で行なう。これは、ステップS51の判定条件が成立する場合のほうが、ステップS52の判定条件が成立する場合よりも故障リスクが高いと考えられるからである。
このように、第1実施形態の第1変形例においては、冗長単位での統計加点値に基づく第2の条件として2つの条件を設定することにより、冗長単位での統計加点値に基づく条件判定を、より正確に行なうことができる。
(A−5)第1実施形態の第2変形例
或いは、第1実施形態の第2変形例として、図4のステップS51,S52の判定条件に代えて、冗長性を構成するディスク5の統計加点値の増加や増加傾向の有無を用いてもよい。
ここで、「統計加点値が増加する」とは、例えば、統計加点値が所定値を超えて増加している(統計加点値の増分値が所定値を超える)ことを指す。又、「統計加点値が増加傾向にある」とは、例えば、統計加点値の微分値が正の値であることを指す。
図7は、第1実施形態の第2変形例としての制御部11による故障監視処理を示すフローチャート(ステップS1〜S4,S6,S51′,S52′)である。
ここでも、ディスクアレイ装置2の構成がRAID1である場合を考える。
この例では、故障判定部13は、冗長単位での統計加点値に基づく第2の条件として、「冗長性を構成する2台のディスク5の統計加点値がいずれも増加したかどうか」と、「2台のディスク5のうちの一方の統計加点値が増加し、他方が増加傾向にあるかどうか」とを用いる。すなわち、図1〜図3の第2の閾値24として、ディスク5の統計加点値の差分値や微分値の閾値が用いられる。
図7のステップS1〜S4,S6の処理は、図3の第1実施形態の一例の対応するステップでの処理と同様であるため、その説明を省略する。
ステップS51′において、故障判定部13は、冗長性を構成する2台のディスク5の統計加点値がいずれも増加したかどうかを判定する。このとき、故障判定部13は、統計加点値が増加したかどうかを、冗長性を構成する2台のディスク5の統計加点値の増分値を所定値と比較することで判定する。
冗長性を構成する2台のディスク5の統計加点値がいずれも増加している場合(ステップS51′のYESルート参照)、処理はステップS6に移行し、対象ディスク5のリダンダントコピーを実行する。
ステップS51′で冗長性を構成する2台のディスク5の統計加点値がいずれも増加していない場合(ステップS51′のNOルート参照)、ステップS52′において、故障判定部13は、冗長性を構成する2台のディスク5のうちの一方の統計加点値が増加し、他方が増加傾向にあるかどうかを判定する。このとき、例えば、故障判定部13は、ディスク5の統計加点が増加傾向にあるかどうかを、統計加点値の微分値が正の値であるかにより判定する。
ステップS52′で冗長性を構成する2台のディスク5のうちの一方の統計加点値が増加し、他方が増加傾向にあるという条件を満たさない場合(ステップS52′のNOルート参照)、故障監視処理を終了する。
一方、ステップS52′で冗長性を構成する2台のディスク5のうちの一方の統計加点値が増加し、他方が増加傾向にある場合(ステップS52′のYESルート参照)、処理はステップS6に移行する。
このように、第1実施形態の第2変形例においては、冗長単位での統計加点値に基づく第2の条件として、統計加点値の差分値や微分値を用いることにより、冗長単位での統計加点値に基づく条件判定を、より正確に行なうことができる。
(A−6)第1実施形態の第3変形例
或いは、第1実施形態の第3変形例として、前述の図3のステップS5における冗長単位での統計加点値の判定を、3ステップにまたがって行なってもよい。
図8は、このときの制御部11による故障監視処理を示すフローチャート(ステップS1〜S4,S6,S51″,S52″,S53)である。
ここでは、ディスクアレイ装置2の構成がRAID5である場合を考える。
RAID5の場合は、2台のディスク5が縮退するとデータロストが発生するため、図4に示したRAID1と同様の冗長単位での統計加点値に基づく条件判定が使用できる。但し、RAID5は最小構成ディスク数が3台であるため、各ディスク5のうち統計加点値が上位2台のディスク5について判定を行なう。
そこで、この例では、故障判定部13は、冗長単位での統計加点値に基づく第2の条件として、「上位2台のディスク5の各統計加点値がいずれも閾値T2Aを超えたかどうか」、「上位2台のディスク5の統計加点値の合計が閾値T2Bを超えたかどうか」、「RAIDグループ全体の統計加点値が閾値T2Cを超えた」を用いる。すなわち、図1〜図3の第2の閾値24として、閾値T2A,T2B,T2Cが用いられる。
図9のステップS1〜S4,S6の処理は、図3の第1実施形態の一例の対応するステップでの処理と同様であるため、その説明を省略する。
ステップS51″において、故障判定部13は、上位2台のディスク5の各統計加点値がいずれも閾値T2Aを超えたかどうかを判定する。
上位2台のディスク5の各統計加点値がいずれも閾値T2Aを超えている場合(ステップS51″のYESルート参照)、処理はステップS6に移行し、対象ディスク5のリダンダントコピーを実行する。
ステップS51″で上位2台のディスク5の各統計加点値がいずれも閾値T2Aを超えていない場合(ステップS51″のNOルート参照)、ステップS52″において、故障判定部13は、上位2台のディスク5の統計加点値の合計が閾値T2Bを超えたかどうかを判定する。
ステップS52″で上位2台のディスク5の統計加点値の合計が閾値T2Bを超えた場合(ステップS52″のYESルート参照)、処理はステップS6に移行する。
一方、上位2台のディスク5の統計加点値の合計が閾値T2Bを超えない場合(ステップS52″のNOルート参照)、ステップS53において、故障判定部13は、RAIDグループ全体の統計加点値が閾値T2Cを超えたかどうかを判定する。
RAIDグループ全体の統計加点値が閾値T2Cを超えた場合、ステップS51″,S52″の条件が成立する場合に比べて二重故障になるリスクは低い。しかし、全体的にエラーが発生している傾向にあり、リダンダントコピーの実行が好ましいと考えられる。
その際、故障判定部13は、例えば、RAIDグループの全ディスク5の統計加点値の総計を、RAIDグループ全体の統計加点値とみなしてもよい。
但し、構成ディスク数を考慮せずに全ディスク5の統計加点値の総計を判定に使用すると、例えばディスク5が多数(例えば16台)存在する場合に、統計加点値の計算が煩雑となる。
そこで、本例では、故障判定部13は、RAID5の最小構成ディスク数である3台のディスク5の統計加点の合計を、RAIDグループの統計加点値として使用し、統計加点が上位3台のディスク5の統計加点合計値が閾値T2Cを超えたかどうかを判定する。
例えば、閾値T2Cを、第1の閾値23の3倍の60%とする。このとき、第1の閾値23を255点とすると、閾値T2Cは459点となる。3台のディスク5の統計加点値の合計が、459点に達した場合は、故障判定部13は、ディスク5単体の統計加点値が最大のディスク5に対するリダンダントコピーを、リダンダントコピー実行部15に実行させる。
なお、上述の閾値T2Cとしての「第1の閾値23の3倍の60%」という値は例に過ぎず、ステップS4,S51,S52で比較に用いた値よりも低い値であれば、どのような値であってもよく、ディスクアレイ装置2の運用に応じて増減可能である。
図9は、RAID5構成におけるディスク5の統計加点例を示す図である。
図9の例では、3台のディスク5の統計加点値の合計が255点×3ディスク×0.6=459点に達した場合、故障判定部13はリダンダントコピーをリダンダントコピー実行部15に実行させる。ディスク#0の統計加点値が180点、ディスク#1の統計加点値が130点、ディスク#2の統計加点値が165点、ディスク#3の統計加点値が145点なので、上位3台のディスク5の統計加点値の合計は490点となり、459点を超える。
図9の例では、ディスク5はいずれも第1の閾値T1の255点に達していないのでステップS4のリダンダントコピー起動条件を満たさない。又、上位2台のディスク5の統計加点値の合計が閾値T2Bである357点を超えないので、ステップS52″のリダンダントコピー起動条件も満たさない。しかしながら、RAIDグループ全体の統計加点値はリダンダントコピー起動条件を満たすので、リダンダントコピーが起動される。
ステップS53でRAIDグループ全体の統計加点値が閾値T2Cを超えていない場合(ステップS53のNOルート参照)、故障監視処理を終了する。
一方、ステップS53でRAIDグループ全体の統計加点値が閾値T2Cを超えた場合(ステップS53のYESルート参照)、処理はステップS6に移行する。
次に、ディスクアレイ装置2の構成がRAID6である場合を考える。
RAID6は、RAID1やRAID5とは異なり、ディスク5が三重化されている。
そのため、縮退ディスク5が存在しない場合と、1台のディスク5が縮退している場合とで、リダンダントコピー起動条件が変わってくる。
縮退ディスク5が存在しない場合、3台のディスク5が縮退するとデータロストが発生する。このため、故障判定部13は、図8のステップS53に示したRAID5と同様の判定を行なう。但し、故障判定部13は、図8のステップS53で上位3台のディスク5に関して行なっている判定を、統計加点値が上位4台のディスク5から判定する点が異なる。
例えば、図8のステップS53において、上位4台のディスク5の統計加点値の合計が所定値を超えている場合に、故障判定部13は、統計加点値が最大のディスク5に対するリダンダントコピーを、リダンダントコピー実行部15に実行させる。
一方、縮退ディスク5が1台存在し、縮退ディスク5がリビルド中である場合には、リビルド処理が起動するため、リダンダントコピーが起動されることは少ない。
但し、縮退ディスク5のリビルド中に別の1台がSMART状態になる場合も考えられる。
ディスク5が1台縮退している状態のRAIDグループ単位の統計加点の判定は、図8のステップS53と同様である。RAID6の最小構成ディスク数が4台であり、図8のステップS53の判定も、上位3台のディスク5の統計加点値の合計値に基づいて行なう。
このように、第1実施形態の第3変形例においては、冗長単位での統計加点値に基づく第2の条件として3つの条件を設定することにより、冗長単位での統計加点値に基づく条件判定を、より正確に行なうことができる。
(B)第2実施形態
次に、第2実施形態の一例としてのディスクアレイ装置2について説明する。
第2実施形態の一例としてのディスクアレイ装置2の制御部11′は、上記の第1実施形態の一例としてのディスクアレイ装置2の制御部11の機能に加え、冗長単位での統計加点値に応じて第1の閾値(T1)23を変更するという機能を有する。
図10は、第2実施形態の一例としてのディスクアレイ装置2の制御部11′の機能構成を示す図である。
制御部11′は、統計加点部12、故障判定部13、リビルド実行部14、リダンダントコピー実行部15、統計加点表22、第1の閾値(T1)23、第2の閾値(T2)24、及び閾値変更部(変更部)16をそなえる。
制御部11′の統計加点部12、故障判定部13、リビルド実行部14、リダンダントコピー実行部15、統計加点表22、第1の閾値23及び第2の閾値24の機能及び構成は、図2に示した制御部11の各機能部と同様であるため、その説明を省略する。
閾値変更部16は、冗長単位での統計加点値に応じて第1の閾値23を変更する。
詳細には、閾値変更部16は、故障判定部13が冗長単位での統計加点値を比較した際に、冗長単位での統計加点値が第2の閾値24を超えた場合、第1のリダンダントコピー起動条件としての第1の閾値23を引き下げ、リダンダントコピー起動条件を緩和する。
例えば、閾値変更部16は、冗長単位での統計加点値が第2の閾値24を超えた場合、第1の閾値23を20%程度減少させる。
閾値変更部16は、ディスク5の1台が縮退されると、第1の統計加点閾値の値を初期値に戻す。
図11は、第2実施形態の一例としての制御部11′による故障監視処理を示すフローチャート(ステップS1〜S6,S10)である。
ステップS1において、制御部11の統計加点部12は、ディスク5で発生した事象が、即時縮退対象の事象であるかどうかを判定する。
ディスク5で発生した事象が即時縮退対象の事象である場合(ステップS1のYESルート参照)、ステップS2において、リビルド実行部14は、ディスク5のリビルド処理を実行して、本処理を終了する。
一方、ディスク5で発生した事象が即時縮退対象の事象ではない場合(ステップS1のNOルート参照)、ステップS3において、統計加点部12は、ディスク5で生じた事象に応じた統計加点を行ない、統計加点表22を更新する。
ステップS4において、故障判定部13は、統計加点対象事象が発生したディスク5単体の統計加点値が第1の閾値(T1)23を超えたかどうかを判定する。
ディスク5単体の統計加点値が第1の閾値23を超えた場合(ステップS4のYESルート参照)、処理が後述するステップS6に移行して、ディスク5のリダンダントコピーが実行される。
一方、ディスク5単体の統計加点値が第1の閾値23を超えていない場合(ステップS4のNOルート参照)、ステップS5において、故障判定部13は、ディスク5の属する冗長単位での加点値が第2の閾値(T2)24を超えたかどうかを判定する。
冗長単位での統計加点値が第2の閾値24を超えていない場合(ステップS5のNOルート参照)、故障監視処理を終了する。
一方、冗長単位での統計加点値が第2の閾値24を超えた場合(ステップS5のYESルート参照)、ステップS10において、第1の閾値23を現在の値よりも例えば20%減少させる。その後、処理がステップS4に戻る。
ステップS6において、故障判定部13は、リダンダントコピー実行部15にディスク5のリダンダントコピーを実行させ、故障監視処理が終了する。
このように、第2実施形態の一例としての制御部11′の閾値変更部16は、冗長単位での統計加点値が第2の閾値24を超えた場合に、第1の閾値23を引き下げて、リダンダントコピー起動条件を緩和する。このため、第2実施形態の一例としての制御部11′は、第1実施形態の一例としての制御部11の作用効果に加えて、リダンダントコピーを起動しやすくすることで、早期リカバリを実現するという効果を奏する。
(C)第3実施形態
次に、第3実施形態の一例としてのディスクアレイ装置2について説明する。
上記第1実施形態の一例においては、ディスク5単体の統計加点値に加えて、冗長単位での統計加点値に基づいてリダンダントコピーを起動する。このとき、RAIDグループ間でリダンダントコピーの競合が発生することが考えられる。リダンダントコピーの競合が発生した場合、リダンダントコピーは先着順に実施されるので、緊急度の高いRAIDグループのリダンダントコピーが後回しにされる可能性がある。
そこで、第3実施形態の一例としてのディスクアレイ装置2の制御部11″は、ディスクアレイ装置2内のホットスペアディスク5の台数が、必要なリダンダントコピーの数よりも少ない場合に、RAIDグループ間でリカバリの優先度を比較する。そして、最もリカバリの緊急度の高いRAIDグループに対してホットスペアディスク5を割り当てる。
以下、ホットスペアディスク5をHS5と呼ぶ。
図12は、第3実施形態の一例としてのディスクアレイ装置2の制御部11″の機能構成を示す図である。
制御部11″は、統計加点部12、故障判定部13、リビルド実行部14、リダンダントコピー実行部15、統計加点表22、第1の閾値(T1)23、第2の閾値(T2)24、及びHS獲得部(優先度決定部)17をそなえる。
制御部11″の統計加点部12、故障判定部13、リビルド実行部14、リダンダントコピー実行部15、統計加点表22、第1の閾値23及び第2の閾値24の機能及び構成は、図2に示した制御部11の各機能部と同様であるため、その説明を省略する。
HS獲得部17は、ディスクアレイ装置2内のHS5の台数が、リダンダントコピー動作数よりも少ない場合、RAIDグループ間でリカバリ優先度を比較し、最も緊急度の高いRAIDグループから順にHS5を割り当てる。
図13は、第3実施形態の一例としてのディスクアレイ装置2のHS獲得動作を例示する図である。
図13の例では、RAIDグループA、RAIDグループB、RAIDグループCの3つのRAIDグループが存在する。
この例では、RAIDグループAのディスク#1がSMART状態となり、HS#0へのリダンダントコピーが実施されている。その後、RAIDグループBのディスク#3、RAIDグループCのディスク#1が共にSMART状態となり、いずれもリダンダントコピーが必要となる。しかし、HS5はHS#0の1台しか存在しないため、RAIDグループB,Cのリダンダントコピーが実行できない。
そこで、HS獲得部17は、RAIDグループA〜CのRAIDグループ全体の統計加点値を比較して、RAIDグループ全体の統計加点値が最大のRAIDグループに優先的にHS#0を割り当てようとする。例えば、RAIDグループ全体の統計加点値が、RAIDグループA<RAIDグループC<RAIDグループBである場合、HS獲得部17は、RAIDグループBに優先的にHS#0を割り当てようとする。
ただし、他のRAIDグループのリダンダントコピーの実行中の場合、HS獲得部17は、実行中のリダンダントコピーの進捗度に応じて、リダンダントコピーを中断させる。
例えば、HS獲得部17は、実行中のリダンダントコピーの進捗度が、50%以下であるかどうかを判定する。そして、RAIDグループAのリダンダントコピーの進捗度が50%以下の場合、RAIDグループAのリダンダントコピーを中断させて、RAIDグループBにHS#0を割り当てる。
ここで、優先度の高いRAIDグループにHS5を優先的に割り当てる処理を、「HS奪取」と呼ぶ。
なお、HS5を奪われた側のRAIDグループ(図の例ではRAID装置グループA)のリダンダントコピーは、ディスクアレイ装置2で再度リダンダントコピーを起動可能になった時点で起動される。
一方、RAIDグループAのリダンダントコピーの進捗度が50%を超えていた場合は、HS獲得部17はHS獲得処理を行なわない。RAIDグループBのリダンダントコピーは、保守ディスク5が新規追加されるか、先に実行されているRAIDグループのリダンダントコピーの終了後に起動される。
図14は、第3実施形態の一例としての制御部11″の動作を示すフローチャート(ステップS1〜S6,S11,S12)である。
ステップS1において、制御部11の統計加点部12は、ディスク5で発生した事象が、即時縮退対象の事象であるかどうかを判定する。
ディスク5で発生した事象が即時縮退対象の事象である場合(ステップS1のYESルート参照)、ステップS2において、リビルド実行部14は、ディスク5のリビルド処理を実行して、本処理を終了する。
一方、ディスク5で発生した事象が即時縮退対象の事象ではない場合(ステップS1のNOルート参照)、ステップS3において、統計加点部12は、ディスク5で生じた事象に応じた統計加点を行ない、統計加点表22を更新する。
ステップS4において、故障判定部13は、統計加点対象事象が発生したディスク5単体の統計加点値が第1の閾値(T1)23を超えたかどうかを判定する。
ディスク5単体の統計加点値が第1の閾値23を超えた場合(ステップS4のYESルート参照)、処理が後述するステップS11に移行する。
一方、ディスク5単体の統計加点値が第1の閾値23を超えていない場合(ステップS4のNOルート参照)、ステップS5において、故障判定部13は、ディスク5の属する冗長単位での加点値が第2の閾値(T2)24を超えたかどうかを判定する。
冗長単位での統計加点値が第2の閾値24を超えていない場合(ステップS5のNOルート参照)、故障監視処理を終了する。
一方、冗長単位での統計加点値が第2の閾値24を超えた場合(ステップS5のYESルート参照)、HS獲得部17は、ステップS11においてHS獲得処理を実行する。このHS獲得処理については図15を用いて後述する。
次に、ステップS12において、HS獲得部17は、ステップS11のHS獲得処理によってHS5を獲得できたかどうかを判定する。
ステップS11のHS獲得処理によってHS5を獲得できなかった場合(ステップS12のNOルート参照)、本処理が終了する。
一方、ステップS11のHS獲得処理によってHS5を獲得できた場合(ステップS12のYESルート参照)、処理はステップS6に移行する。
ステップS6において、故障判定部13は、リダンダントコピー実行部15にディスク5のリダンダントコピーを実行させ、故障監視処理が終了する。
図15は、第3実施形態の一例としてのHS獲得部17によるHS獲得処理を示すフローチャート(ステップS21〜S26)である。
ステップS21において、HS獲得部17は、ディスクアレイ装置2に空きHS5が存在するかどうかを判定する。
空きHS5が存在する場合(ステップS21のYESルート参照)、ステップS22において、HS獲得部17は空きHS5を獲得して本処理を終了する。
一方、空きHS5が存在しない場合(ステップS21のNOルート参照)、ステップS23において、HS獲得部17は、リダンダントコピーが実行されているHS5が存在するかどうかを判定する。
リダンダントコピーが実行されているHS5が存在しない場合(ステップS23のNOルート参照)、HS獲得部17はHS獲得処理を終了する。
一方、リダンダントコピーが実行されているHS5が存在する場合(ステップS23のYESルート参照)、ステップS24において、HS獲得部17は、リダンダントコピーが必要なRAIDグループ(自RAIDグループ)の統計加点値の合計が、リダンダントコピーが実行中のRAIDグループの統計加点値の合計を超えるかどうかを判定する。
自RAIDグループの統計加点値の合計が、リダンダントコピーが実行中のRAIDグループの統計加点値の合計を超えない場合(ステップS24のNOルート参照)、HS獲得部17はHS獲得処理を終了する。
一方、自RAIDグループの統計加点値の合計が、リダンダントコピーが実行中のRAIDグループの統計加点値を超える場合(ステップS24のYESルート参照)、ステップS25において、HS獲得部17は、実行中のリダンダントコピーの進捗度が50%以下であるかどうかを判定する。
実行中のリダンダントコピーの進捗度が50%を超える場合(ステップS25のNOルート参照)、HS獲得部17はHS獲得処理を終了する。
一方、実行中のリダンダントコピーの進捗度が50%以下の場合(ステップS25のYESルート参照)、ステップS26において、HS獲得部17は、実行中のリダンダントコピーのHS5を奪取して処理を終了する。
このように、第3実施形態の一例としての制御部11″のHS獲得部17は、HS5が不足している場合などに、RAIDグループの統計加点値に基づいて、リダンダントコピーに用いるHS5の割り当てを調整する。
このため、リダンダントコピーの先着順でHS5を割り当てるのではなく、故障の発生確率の高いRAIDグループに優先的にHS5を割り当てることにより、ディスクアレイ装置2の多重故障をより効果的に防ぎ、データロストを回避することができる。
又、第3実施形態の一例としてのディスクアレイ装置2は、少ない台数のHS5を用いてリダンダントコピー(リカバリ)処理を行なうことができるので、ディスクアレイ装置2のコストを低減することができる。
(D)第4実施形態
次に、第4実施形態の一例としてのディスクアレイ装置2について説明する。
図16は、第4実施形態の一例としてのディスクアレイ装置2の制御部111の機能構成を示す図である。
制御部111は、統計加点部12′、故障判定部13、リビルド実行部14、リダンダントコピー実行部15、統計加点表22′、複数の第1の閾値(T1)23、第2の閾値(T2)24、及びHS獲得部(優先度決定部)17をそなえる。
制御部111の統計加点部12、故障判定部13、リビルド実行部14、リダンダントコピー実行部15、第1の閾値23及び第2の閾値24の機能及び構成は、図2に示した制御部11の各機能部と同様であるため、その説明を省略する。
第4実施形態の一例としてのディスクアレイ装置2の統計加点部12′は、統計加点表22′に複数の統計加点値を保持する。
図17は、第4実施形態の一例としての統計加点部12′による統計加点のクリアタイミングを例示する図である。
図17に示すように、第4実施形態の一例としての統計加点部12′は、統計加点表22′に、各ディスク5の統計加点として、10分間隔でクリアする通常統計加点と、24時間間隔でクリアする長期統計加点との2つを保持している。
これらに加え、統計加点部12′は、統計加点表22′に冗長単位の統計加点値を保持し、冗長単位の統計加点値を、通常統計加点の10分間よりも長い60分間隔でクリアする。
このように、第4実施形態の一例としての統計加点部12′は、短期のディスク5単位の統計加点値、中期の冗長単位での統計加点値、及び長期のディスク5単位の統計加点値の3種類の統計加点値を保持する。これにより、統計加点部12′は、通常統計加点では縮退対象のエラーとはならないが、エラーが断続的に発生している場合などに、ディスク5を早期にリダンダントコピー(リカバリ)可能にし、ディスク5のI/O性能の低下を回避する。
なお、統計加点部12′は、ディスク5単位での統計加点の監視を、冗長単位での統計加点値の監視開始タイミングから5分程度ずらして開始する。ディスク5単位の加点と冗長単位での加点とを同時に開始すると、60分に1回、通常統計加点と冗長単位の統計加点との監視タイミングが重なってしまう。このため、統計加点部12′は、冗長単位での統計加点値間隔を、通常統計加点間隔よりも5分程度ずらして、監視精度を向上させる。
このように、第4実施形態の一例としての統計加点部12′は、統計加点表22′に短期及び長期のディスク5単体の統計加点値を複数保持すると共に、中期の冗長単位での統計加点値を保持する。このため、ディスク5の多重故障の予兆監視をタイムリーなタイミングで行なうことができる。
又、冗長単位での統計加点値間隔を、通常統計加点間隔よりも5分程度ずらすことにより、監視精度を向上させる。
(E)その他
なお、上述した実施形態に関わらず、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。
例えば、上記の第1実施形態の第1変形例においては、図4のフローでステップS51,S52の順に冗長単位での統計加点値を評価したが、評価は、ステップS51のみ、或いはステップS52のみを実施してもよい。
又、図8のフローではステップS51″,S52″,S53の順に冗長単位での統計加点値を評価したが、評価は、ステップS51″のみ、ステップS52″のみ、或いはステップS53のみ、あるいはステップS51″,S52″,S53のいずれか2つを実施してもよい。
或いは、上記の第1実施例の各種変形例や、第2〜第4実施形態の複数の構成要素を、適宜組み合わせてもよい。
なお、上記第1〜第4実施形態の一例においては、CM3のCPU4が、ストレージ制御プログラムを実行することにより、上述した制御部11,11′,11″,111、統計加点部12,12′、故障判定部13、リビルド実行部14、リダンダントコピー実行部15、閾値変更部16、及びHS獲得部17として機能するようになっている。
なお、上述した制御部11,11′,11″,111、統計加点部12,12′、故障判定部13、リビルド実行部14、リダンダントコピー実行部15、閾値変更部16、及びHS獲得部17としての機能を実現するためのプログラムは、例えばフレキシブルディスク,CD(CD−ROM,CD−R,CD−RW等),DVD(DVD−ROM,DVD−RAM,DVD−R,DVD+R,DVD−RW,DVD+RW,HD DVD等),ブルーレイディスク,磁気ディスク,光ディスク,光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。又、そのプログラムを、例えば磁気ディスク,光ディスク,光磁気ディスク等の記憶装置(記録媒体)に記録しておき、その記憶装置から通信経路を介してコンピュータに提供するようにしてもよい。
上述した制御部11,11′,11″,111、統計加点部12,12′、故障判定部13、リビルド実行部14、リダンダントコピー実行部15、閾値変更部16、及びHS獲得部17としての機能を実現する際には、内部記憶装置(本実施形態ではCM3のメモリ9や不図示のROM)に格納されたプログラムがコンピュータのマイクロプロセッサ(本実施形態ではCM3のCPU4)によって実行される。このとき、記録媒体に記録されたプログラムをコンピュータが読み取って実行するようにしてもよい。
(F)付記
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
冗長単位を構成する複数の記憶装置をそなえるディスクアレイ装置の制御装置であって、
前記記憶装置の各々を監視し、該記憶装置で事象が発生したときに、その事象に対応する点数を加算する計算部と、
前記計算部によって前記加点が行なわれた際に、前記事象が発生した記憶装置単体での点数と、前記冗長単位での点数とに基づいて、前記記憶装置の予兆を検知する判定部と、
をそなえることを特徴とするストレージ制御装置。
(付記2)
前記判定部によって、前記記憶装置の故障の予兆を検知した場合に該記憶装置の複製処理を実行する複製部をさらにそなえることを特徴とする付記1記載のストレージ制御装置。
(付記3)
前記判定部は、前記事象が発生した記憶装置単体での前記点数が第1の閾値を超えるか、或いは、前記冗長単位での前記点数が、第2の閾値を超える場合に、前記記憶装置の故障の予兆を検知することを特徴とする付記1又は2記載のストレージ制御装置。
(付記4)
前記冗長単位での前記点数が前記第2の閾値を超える場合に、前記第1の閾値の値を変更する変更部をさらに備えることを特徴とする付記1〜3のいずれか1項に記載のストレージ制御装置。
(付記5)
前記ディスクアレイ装置は複数の冗長単位と、前記記憶装置の複製処理に使用するための予備記憶装置とをそなえ、
記憶装置の複製処理が必要な冗長単位の数が利用可能な予備記憶装置の数を超える場合に、複製処理が必要な前記冗長単位間で複製の優先度を決定する優先度決定部をさらに備えることを特徴とする付記1〜4のいずれか1項に記載のストレージ制御装置。
(付記6)
前記優先度決定部は、複製の優先度の低い冗長単位で実行中の複製処理を中断させて、複製の優先度の高い冗長単位の複製処理を開始させることを特徴とする付記5記載のストレージ制御装置。
(付記7)
冗長単位を構成する複数の記憶装置をそなえるディスクアレイ装置の制御方法であって、
前記記憶装置の各々を監視し、該記憶装置で事象が発生したときに、その事象に対応する点数を加算し、
前記加点が行なわれた際に、前記事象が発生した記憶装置単体での点数と、前記冗長単位での点数とに基づいて、前記記憶装置の故障の有無を予測する、
ことを特徴とする制御方法。
(付記8)
前記記憶装置の故障の予兆を検知した場合に該記憶装置の複製処理を実行することを特徴とする付記7記載の制御方法。
(付記9)
前記事象が発生した記憶装置単体での前記点数が第1の閾値を超えるか、或いは、前記冗長単位での前記点数が、第2の閾値を超える場合に、前記記憶装置の故障の予兆を検知することを特徴とする付記7又は8記載の制御方法。
(付記10)
前記冗長単位での前記点数が前記第2の閾値を超える場合に、前記第1の閾値の値を変更することを特徴とする付記7〜9のいずれか1項に記載の制御方法。
(付記11)
前記ディスクアレイ装置は複数の冗長単位と、前記記憶装置の複製処理に使用するための予備記憶装置とをそなえ、
記憶装置の複製処理が必要な冗長単位の数が利用可能な予備記憶装置の数を超える場合に、複製処理が必要な前記冗長単位間で複製の優先度を決定することを特徴とする付記7〜10のいずれか1項に記載の制御方法。
(付記12)
複製の優先度の低い冗長単位で実行中の複製処理を中断させて、複製の優先度の高い冗長単位の複製処理を開始させることを特徴とする付記11記載の制御方法。
(付記13)
冗長単位を構成する複数の記憶装置をそなえるディスクアレイ装置の制御プログラムであって、
前記記憶装置の各々を監視し、該記憶装置で事象が発生したときに、その事象に対応する点数を加算し、
前記加点が行なわれた際に、前記事象が発生した記憶装置単体での点数と、前記冗長単位での点数とに基づいて、前記記憶装置の故障の有無を予測する、
処理をコンピュータに実行させることを特徴とする制御プログラム。
(付記14)
前記記憶装置の故障の予兆を検知した場合に該記憶装置の複製処理を実行することを特徴とする付記13記載の制御プログラム。
(付記15)
前記事象が発生した記憶装置単体での前記点数が第1の閾値を超えるか、或いは、前記冗長単位での前記点数が、第2の閾値を超える場合に、前記記憶装置の故障の予兆を検知する処理を前記コンピュータに実行させることを特徴とする付記13又は14記載の制御プログラム。
(付記16)
前記冗長単位での前記点数が前記第2の閾値を超える場合に、前記第1の閾値の値を変更する処理を前記コンピュータに実行させることを特徴とする付記13〜15のいずれか1項に記載の制御プログラム。
(付記17)
前記ディスクアレイ装置は複数の冗長単位と、前記記憶装置の複製処理に使用するための予備記憶装置とをそなえ、
記憶装置の複製処理が必要な冗長単位の数が利用可能な予備記憶装置の数を超える場合に、複製処理が必要な前記冗長単位間で複製の優先度を決定する処理を前記コンピュータに実行させることを特徴とする付記13〜16のいずれか1項に記載の制御プログラム。
(付記18)
複製の優先度の低い冗長単位で実行中の複製処理を中断させて、複製の優先度の高い冗長単位の複製処理を開始させる処理を前記コンピュータに実行させることを特徴とする付記17記載の制御プログラム。
(付記19)
冗長単位を構成する複数の記憶装置と、
前記記憶装置の各々を監視し、該記憶装置で事象が発生したときに、その事象に対応する点数を加算する計算部と、
前記計算部によって前記加点が行なわれた際に、前記事象が発生した記憶装置単体での点数と、前記冗長単位での点数とに基づいて、前記記憶装置の予兆を検知する判定部と、
をそなえることを特徴とするディスクアレイ装置。
1 情報処理システム
2 ディスクアレイ装置
3,3−0,3−1 CM
4,4−0,4−1 CPU
5,5−0,5−1 ディスク(記憶装置)
11〜111 制御部(ストレージ制御装置)
12,12′ 統計加点部(計算部)
13 故障判定部(判定部)
15 リダンダントコピー実行部(復旧部)
14 リビルド実行部
16 閾値変更部(変更部)
17 HS獲得部(優先度決定部)
22,22′ 統計加点表(統計値)
23 第1の閾値
24 第2の閾値

Claims (8)

  1. 冗長単位を構成する複数の記憶装置をそなえるディスクアレイ装置の制御装置であって、
    前記記憶装置の各々を監視し、該記憶装置で事象が発生したときに、その事象に対応する点数を加算する計算部と、
    前記計算部によって前記加点が行なわれた際に、前記事象が発生した記憶装置単体での点数と、前記複数の記憶装置のうち前記点数が上位2台の記憶装置の各点数と、前記上位2台の記憶装置の点数の合計と、前記冗長単位での点数とに基づいて、前記記憶装置の予兆を検知する判定部と、をそなえることを特徴とするストレージ制御装置
  2. 前記ディスクアレイ装置は複数の冗長単位と、前記記憶装置の複製処理に使用するための予備記憶装置とをそなえ、
    記憶装置の複製処理が必要な冗長単位の数が利用可能な予備記憶装置の数を超える場合に、複製処理が必要な前記冗長単位間で複製の優先度を決定する優先度決定部をさらに備えることを特徴とする請求項記載のストレージ制御装置。
  3. 前記優先度決定部は、複製の優先度の低い冗長単位で実行中の複製処理を中断させて、複製の優先度の高い冗長単位の複製処理を開始させることを特徴とする請求項記載のストレージ制御装置。
  4. 冗長単位を構成する複数の記憶装置をそなえるディスクアレイ装置の制御方法であって、
    前記記憶装置の各々を監視し、該記憶装置で事象が発生したときに、その事象に対応する点数を加算し、
    前記加点が行なわれた際に、前記事象が発生した記憶装置単体での点数と、前記複数の記憶装置のうち前記点数が上位2台の記憶装置の各点数と、前記上位2台の記憶装置の点数の合計と、前記冗長単位での点数とに基づいて、前記記憶装置の故障の有無を予測する、
    ことを特徴とするディスクアレイ装置の制御方法。
  5. 冗長単位を構成する複数の記憶装置をそなえるディスクアレイ装置の制御プログラムであって、
    前記記憶装置の各々を監視し、該記憶装置で事象が発生したときに、その事象に対応する点数を加算し、
    前記加点が行なわれた際に、前記事象が発生した記憶装置単体での点数と、前記複数の記憶装置のうち前記点数が上位2台の記憶装置の各点数と、前記上位2台の記憶装置の点数の合計と、前記冗長単位での点数とに基づいて、前記記憶装置の故障の有無を予測する、
    処理をコンピュータに実行させることを特徴とするディスクアレイ装置の制御プログラム。
  6. 使用されていない予備記憶装置が存在せず、且つ、複製処理が実行中の予備記憶装置が存在し、さらに、
    複製処理が必要な冗長単位での点数の合計が、複製処理が実行中の冗長単位での点数の合計を超え、且つ、実行中の複製処理の進捗度が所定値以下の場合、
    前記実行中の複製処理を中断させて、複製の優先度の高い冗長単位に、前記複製処理を中断させた前記予備記憶装置を優先的に割り当てることを特徴とする請求項2又は3記載のストレージ制御装置。
  7. 前記ディスクアレイ装置は複数の冗長単位と、前記記憶装置の複製処理に使用するための予備記憶装置とをそなえ、
    使用されていない予備記憶装置が存在せず、且つ、複製処理が実行中の予備記憶装置が存在し、さらに、
    複製処理が必要な冗長単位での点数の合計が、複製処理が実行中の冗長単位での点数の合計を超え、且つ、実行中の複製処理の進捗度が所定値以下の場合、
    前記実行中の複製処理を中断させて、複製の優先度の高い冗長単位に、前記複製処理を中断させた前記予備記憶装置を優先的に割り当てることを特徴とする請求項4記載のディスクアレイ装置の制御方法。
  8. 前記ディスクアレイ装置は複数の冗長単位と、前記記憶装置の複製処理に使用するための予備記憶装置とをそなえ、
    使用されていない予備記憶装置が存在せず、且つ、複製処理が実行中の予備記憶装置が存在し、さらに、
    複製処理が必要な冗長単位での点数の合計が、複製処理が実行中の冗長単位での点数の合計を超え、且つ、実行中の複製処理の進捗度が所定値以下の場合、
    前記実行中の複製処理を中断させて、複製の優先度の高い冗長単位に、前記複製処理を中断させた前記予備記憶装置を優先的に割り当てる処理をコンピュータに実行させることを特徴とする請求項5記載のディスクアレイ装置の制御プログラム。
JP2013185965A 2013-09-09 2013-09-09 ストレージ制御装置、ディスクアレイ装置の制御方法及びディスクアレイ装置の制御プログラム Expired - Fee Related JP6191346B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013185965A JP6191346B2 (ja) 2013-09-09 2013-09-09 ストレージ制御装置、ディスクアレイ装置の制御方法及びディスクアレイ装置の制御プログラム
US14/328,999 US9395938B2 (en) 2013-09-09 2014-07-11 Storage control device and method for controlling storage devices

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013185965A JP6191346B2 (ja) 2013-09-09 2013-09-09 ストレージ制御装置、ディスクアレイ装置の制御方法及びディスクアレイ装置の制御プログラム

Publications (2)

Publication Number Publication Date
JP2015052960A JP2015052960A (ja) 2015-03-19
JP6191346B2 true JP6191346B2 (ja) 2017-09-06

Family

ID=52626751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013185965A Expired - Fee Related JP6191346B2 (ja) 2013-09-09 2013-09-09 ストレージ制御装置、ディスクアレイ装置の制御方法及びディスクアレイ装置の制御プログラム

Country Status (2)

Country Link
US (1) US9395938B2 (ja)
JP (1) JP6191346B2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10223230B2 (en) 2013-09-11 2019-03-05 Dell Products, Lp Method and system for predicting storage device failures
US9720758B2 (en) 2013-09-11 2017-08-01 Dell Products, Lp Diagnostic analysis tool for disk storage engineering and technical support
US9454423B2 (en) 2013-09-11 2016-09-27 Dell Products, Lp SAN performance analysis tool
US9396200B2 (en) 2013-09-11 2016-07-19 Dell Products, Lp Auto-snapshot manager analysis tool
US9317349B2 (en) * 2013-09-11 2016-04-19 Dell Products, Lp SAN vulnerability assessment tool
US9436411B2 (en) 2014-03-28 2016-09-06 Dell Products, Lp SAN IP validation tool
CN105988918B (zh) 2015-02-26 2019-03-08 阿里巴巴集团控股有限公司 预测gpu故障的方法和装置
US10592268B2 (en) * 2015-04-06 2020-03-17 Hitachi, Ltd. Management computer and resource management method configured to combine server resources and storage resources and allocate the combined resources to virtual machines
JP6481490B2 (ja) * 2015-04-30 2019-03-13 富士通株式会社 ストレージシステム、制御装置および制御プログラム
JP6499038B2 (ja) * 2015-08-04 2019-04-10 株式会社東芝 ストレージ管理装置、方法、及びストレージシステム
JP6838299B2 (ja) * 2016-06-22 2021-03-03 富士通株式会社 ストレージ装置、ストレージ制御装置、及びストレージ制御プログラム
US10372524B2 (en) * 2016-07-28 2019-08-06 Western Digital Technologies, Inc. Storage anomaly detection
JP6607206B2 (ja) 2017-01-25 2019-11-20 日本電気株式会社 管理装置、管理方法、及び、プログラム
US10146624B1 (en) * 2017-04-24 2018-12-04 EMC IP Holding Company LLC Disk extent rebalancing in mapped RAID storage arrays
US10831382B2 (en) * 2017-11-29 2020-11-10 International Business Machines Corporation Prevent disk hardware failure for cloud applications
JP2019168928A (ja) * 2018-03-23 2019-10-03 株式会社富士通エフサス 緊急性判定装置、緊急性判定方法および緊急性判定プログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3078972B2 (ja) * 1993-11-05 2000-08-21 富士通株式会社 ディスクアレイ装置
JPH11345095A (ja) 1998-06-02 1999-12-14 Toshiba Corp ディスクアレイ装置およびその制御方法
US6516425B1 (en) * 1999-10-29 2003-02-04 Hewlett-Packard Co. Raid rebuild using most vulnerable data redundancy scheme first
US6996742B2 (en) * 2000-11-28 2006-02-07 Sedna Patent Services, Llc Method for regenerating and streaming content from a video server using RAID 5 data striping
US7434097B2 (en) * 2003-06-05 2008-10-07 Copan System, Inc. Method and apparatus for efficient fault-tolerant disk drive replacement in raid storage systems
US20060090098A1 (en) * 2003-09-11 2006-04-27 Copan Systems, Inc. Proactive data reliability in a power-managed storage system
US7373559B2 (en) * 2003-09-11 2008-05-13 Copan Systems, Inc. Method and system for proactive drive replacement for high availability storage systems
JP2005100259A (ja) * 2003-09-26 2005-04-14 Hitachi Ltd ドライブの2重障害を防止するアレイ型ディスク装置、プログラム、及び方法
US7313721B2 (en) * 2004-06-21 2007-12-25 Dot Hill Systems Corporation Apparatus and method for performing a preemptive reconstruct of a fault-tolerant RAID array
JP2006079418A (ja) 2004-09-10 2006-03-23 Fujitsu Ltd 記憶制御装置、制御方法及びプログラム
JP4324088B2 (ja) * 2004-12-17 2009-09-02 富士通株式会社 データ複製制御装置
US7574623B1 (en) * 2005-04-29 2009-08-11 Network Appliance, Inc. Method and system for rapidly recovering data from a “sick” disk in a RAID disk group
GB0612482D0 (en) * 2006-06-23 2006-08-02 Ibm Apparatus and method for controlling raid array rebuild
JP2009211619A (ja) 2008-03-06 2009-09-17 Nec Corp ディスクアレイ装置及びその復旧対策方法
US8185784B2 (en) * 2008-04-28 2012-05-22 Lsi Corporation Drive health monitoring with provisions for drive probation state and drive copy rebuild
JP4714776B2 (ja) * 2009-01-13 2011-06-29 富士通株式会社 プログラム、記憶制御方法及び記憶制御装置
JP5887757B2 (ja) * 2011-08-17 2016-03-16 富士通株式会社 ストレージシステム、ストレージ制御装置およびストレージ制御方法
US20140304548A1 (en) * 2013-04-03 2014-10-09 International Business Machines Corporation Intelligent and efficient raid rebuild technique
US20150046756A1 (en) * 2013-08-08 2015-02-12 Lsi Corporation Predictive failure analysis to trigger rebuild of a drive in a raid array

Also Published As

Publication number Publication date
US20150074452A1 (en) 2015-03-12
US9395938B2 (en) 2016-07-19
JP2015052960A (ja) 2015-03-19

Similar Documents

Publication Publication Date Title
JP6191346B2 (ja) ストレージ制御装置、ディスクアレイ装置の制御方法及びディスクアレイ装置の制御プログラム
US9697087B2 (en) Storage controller to perform rebuilding while copying, and storage system, and control method thereof
US9104790B2 (en) Arranging data handling in a computer-implemented system in accordance with reliability ratings based on reverse predictive failure analysis in response to changes
US7908445B2 (en) Redundant controller dynamic logical media unit reassignment
JP5887757B2 (ja) ストレージシステム、ストレージ制御装置およびストレージ制御方法
US7409582B2 (en) Low cost raid with seamless disk failure recovery
US8738854B2 (en) Storage apparatus and control method of storage apparatus
WO2013157032A1 (en) Storage subsystem and data management method of storage subsystem
JP2015099438A (ja) ストレージ制御装置、ストレージ制御方法及びストレージ制御プログラム
JP2017091456A (ja) 制御装置、制御プログラムおよび制御方法
WO2014098872A1 (en) Raid storage processing
JP4939205B2 (ja) データ記憶システムに配置された記憶アレイを再構成するための装置及び方法
JP6965626B2 (ja) ストレージ制御装置、および制御プログラム
WO2012049760A1 (ja) ストレージ制御装置における基準時間設定方法
JP6201674B2 (ja) ストレージ制御装置,プログラム及び制御方法
JP6187150B2 (ja) ストレージ制御装置、ストレージ装置、及びストレージ制御プログラム
JP2016057876A (ja) 情報処理装置、入出力制御プログラム、及び入出力制御方法
US10409663B2 (en) Storage system and control apparatus
JP6838299B2 (ja) ストレージ装置、ストレージ制御装置、及びストレージ制御プログラム
TWI672647B (zh) 管理方法及其相關儲存系統
JP5729043B2 (ja) ストレージ装置および制御装置
JP5273185B2 (ja) 記録媒体制御システム、記録媒体制御方法、記録媒体制御プログラム
US9760423B2 (en) Storage system and control apparatus
JP6036736B2 (ja) キャッシュ装置、ストレージ装置、キャッシュ制御方法、及びストレージ制御プログラム
JP2006285807A (ja) 記憶装置の試験方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170724

R150 Certificate of patent or registration of utility model

Ref document number: 6191346

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees