JP4830698B2 - 担当lun制御を用いたraid制御を行うディスクコントローラおよび診断制御方法 - Google Patents

担当lun制御を用いたraid制御を行うディスクコントローラおよび診断制御方法 Download PDF

Info

Publication number
JP4830698B2
JP4830698B2 JP2006211235A JP2006211235A JP4830698B2 JP 4830698 B2 JP4830698 B2 JP 4830698B2 JP 2006211235 A JP2006211235 A JP 2006211235A JP 2006211235 A JP2006211235 A JP 2006211235A JP 4830698 B2 JP4830698 B2 JP 4830698B2
Authority
JP
Japan
Prior art keywords
channel adapter
disk controller
disk
controller
restarting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006211235A
Other languages
English (en)
Other versions
JP2008040612A (ja
Inventor
和彦 池内
実希夫 伊藤
秀治郎 大黒谷
克彦 長嶋
明人 小林
秀憲 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006211235A priority Critical patent/JP4830698B2/ja
Publication of JP2008040612A publication Critical patent/JP2008040612A/ja
Application granted granted Critical
Publication of JP4830698B2 publication Critical patent/JP4830698B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ディスクアレイサブシステムにおけるRAID制御方式に関連するものであり、複数のディスクコントローラを有するストレージシステムにおいて、担当LUN制御を行うディスクコントローラに障害が発生したときの制御方法に関するものである。
注)LUN:Logical Unit Number
図1にストレージシステムの装置構成例を示す。
このシステムは、主要要素として複数のホスト装置(H0〜)10a,10bと、ハードディスクを制御する複数のディスクコントローラ(C0〜)2a,2bと、各ディスクコントローラ間を結合するコントローラルータ(CR)3と、複数のハードディスクで構成される複数のRAIDグループ(RG0〜)5a,5bとを有する。RAIDグループに分けられた複数のハードディスクは、デバイスルータ(DR0〜)4a,4bによりRAIDグループ単位でディスクコントローラ(C0〜)2a,2bに接続され制御される。なお、ホスト装置は汎用計算機やPCサーバなどである。
複数のディスクコントローラを用いて、複数のRAIDグループを制御する場合に、可用性を高めるため物理的には各要素の接続形態は自由に変更できるようになっている。図1には簡単のため構成要素を各2つしか記載してないが3つ以上であることもあり、また図では省略した接続ルートもありうる。
ホスト装置等の制御資源を有効に利用するために、通常動作時には、ホスト装置に対してRAIDグループ毎に担当のコントローラを1対1に配置する制御(担当LUN制御)が行われている。ディスクコントローラ(C)とホスト装置(H)との接続は1対1であり、RAIDグループ(RG)との結合も1対1である。各ディスクコントローラ間はコントローラルータ(CR)3により結合されている。図1ではホスト装置(H0)10a、ディスクコントローラ(C0)2a、デバイスルータ(DR0)4a、RAIDグループ(RG0)5aと、ホスト装置(H1)10b、ディスクコントローラ(C1)2b、デバイスルータ(DR1)4b、RAIDグループ(RG1)5bとに分けられている。
各ディスクコントローラは、ホスト装置(H)から自分の担当するRAIDグループ以外のRAIDグループを指定したコマンドを受けた場合には、コントローラルータ(CR)を介して他のディスクコントローラへ伝達して以後の制御をまかせる。
通常、起動時などにマスタとなるディスクコントローラが決められ、各ディスクコントローラの担当するRAIDグループが決められ、それに従ってデバイスルータDR0〜nも設定される。この決め方は所定のルールによって決められるが本発明との直接の関連はないため詳細は省略する。
ここで、あるディスクコントローラ(例としてC0とする)が異常動作を起こしたとする。ディスクコントローラ(C0)2aは診断処理部(DG)23を備えており、異常検出により、リトライ等の復旧処理、故障部分の特定、切り離し(縮退)処理等を行う。その結果や動作中の異常ステータスをホスト装置(H0)10aに伝えて終了する。ここで、障害の復旧処理ができない場合や故障の特定ができない場合など、そのまま動作を続けることができない場合はステータスをホスト装置(H0)10aに伝えたのち、一旦自己リセットを行って再起動する。あるいは電源断からの再立ち上げを行う。
ディスクアレイサブシステム20は機能が複雑になっているため、ファームウエアのバグや特定の動作の組み合わせなどにより、まれに原因不明な異常動作を起こす場合がある。復旧処理、縮退処理、故障部分の特定ができなくても、再起動等を行えば復旧する場合が多いが、再起動や、電源断からの再立ち上げ時には、初期設定や初期診断等の処理に時間をとられる。それほど長い時間ではないとはいえ、図2に示すように、その間ホスト装置(H0)10aからのパスが切れることになり、RAIDグループ(RG0)5aへのアクセスができなくなる。システムへのアクセスが集中する時間帯であれば、システムとしての処理能力に重大な影響を及ぼすことがあり得る。この他に、ディスクコントローラ(C)の機能改良などでファームウエアを入れ替える場合や、以前の障害による縮退運転をしていた故障部分の交換などの場合がある。このときもシステム全体は停止しないで行うが、ディスクコントローラ(C)は止めなければならないので、その間、その担当するRAIDグループ(RG)へのアクセスはできないので、同様にシステムとしての処理能力に影響を及ぼすことになる。
多重化、冗長構成は広く行われており、ディスクアレイの管理、リカバリ方式については例えば
特開2003-196036号公報のように多数の公知例がある。しかし、再起動や、電源断からの再立ち上げ時のパスが切れる期間を短縮するという観点の公知例は検出できなかった。
本発明は、ディスクアレイサブシステムにおいて、ディスクコントローラの故障やファームウエアの機能向上等に伴う一時的な動作停止や再立ち上げによりホスト装置からのパスが切れたり、RAIDグループヘのアクセスが出来なくなる事を防ぐ事を目的とするものである。
図2において、ディスクコントローラのインタフェース(Channel Adapter)部分を可能な限り生かす事で実現する。
ディスクコントローラ2aは、システム内の他のディスクコントローラ2bとコントローラルータ3で互いに結合され、配下のディスクデバイスはデバイスルータ4aによりRAIDグループ単位に結合され、担当LUN制御を行う。
また、ホスト装置10aおよびコントローラルータ3とのインタフェース制御を行うチャネルアダプタ部21と、ディスクコントローラの各機能部22のエラーを検出・診断し、切り分け、復旧処理、縮退処理および再起動や再立ち上げを行う診断処理部23とを備える。
診断制御部23は、再起動や再立ち上げを行う際に、チャネルアダプタ21の機能に問題ないとき、チャネルアダプタをRAIDグループを担当しない設定とし、かつ他の機能部と切り離して動作させるモードとする。
異常発生時、ディスクコントローラの診断処理部23はホスト装置10aおよび他のディスクコントローラ2bに通知する。診断処理部23は、診断処理の結果チャネルアダプタ21には異常がない場合、他の部分と切り離す。この状態で再起動や再立ち上げを行うと、チャネルアダプタ21はホスト装置10aからのコマンド等をスルーでコントローラルータ3に渡す動作となる。
このとき、他のディスクコントローラが事態を判断して、どれかがマスタとして動作し肩代わりする。そして異常ディスクコントローラの担当LUNを肩代わりする。この動作自体は従来技術と変わりはない。
異常が発生したディスクコントローラ2aは、障害の復旧処理ができない場合や故障の特定ができない場合などには、一旦再起動または再立ち上げ(電源断の後で電源再投入)を行うが、この間に、担当していたRAIDグループ5aにホスト装置10aがアクセスした場合、肩代わりした他のディスクコントローラ2bが引き継いで応答する。再立ち上げの場合でも電源が投入された時点でチャネルアダプタ21は正常動作するので、ホスト装置10aからのアクセスができない時間は短くできる。
(実施例1)
図3にディスクコントローラ(C)2に異常状態が発生した場合の診断処理部の動作フローチャートを示す。
(s1)エラー検出
(s2)診断制御部は、診断を行って故障部分の特定を行い、
(s3)復旧可能であればリトライ等の復旧処理(s31)、
(s4)縮退可能であれば、切り離し(縮退)処理(s41)等を行う。
(s51)動作継続可能な場合、その結果や動作中の異常ステータスをホスト装置に伝えて終了する。
障害の復旧処理、縮退処理ができない場合や故障の特定ができない場合など、そのまま動作を続けることができない場合は、
(s5)ステータスをホスト装置および他のディスクコントローラに通知する。
(s7)診断の結果、チャネルアダプタには異常がない場合、他の部分と切り離して動作させるモード(チャネルアダプタ分離モード)に設定する。チャネルアダプタはRAIDグループを担当しない設定となる。
(s8)自己リセットを行って再起動する。あるいは電源断からの再立ち上げを行う。
1)再起動
ディスクコントローラのメモリが故障した等、チャネルアダプタ部分は正常であるがディスクコントローラC自体はそのまま使えないケースでは、ディスクコントローラ自体は異常状態であるため、一旦リセット再起動処理を実施してから改めてチャネルアダプタのみを独立して動作させる。
2)電源断からの再立ち上げ
再起動では回復不可能と判断できる場合や再起動失敗の場合は、電源の再投入を行う。ディスクコントローラCの電源断後に電源が投入されたとき、ディスクコントローラCのチャネルアダプタは独立して動作する。
図4に再起動または電源再投入の場合の処理フローチャートを示す。
(p1)再起動または電源再投入で電源が入ったとき、通常モードかチャネルアダプタ分離モードかを判定する。チャネルアダプタ分離モードであれば、チャネルアダプタは独立して動作する。
その間に、診断処理部(DG)23は、
(p2)チャネルアダプタ21やディスク等が動作中でないことを確認して、
(p3)初期設定や機能チェックを行う。
(p4)その結果が正常であれば、
(p5)チャネルアダプタ21やディスク等が動作中でないことを確認して、
(p6)チャネルアダプタの組み込みを行い、チャネルコントローラとして復帰させる。
ディスクコントローラ自体(の主要部分)の起動処理とは無関係にチャネルアダプタが動作するので、一時的にホストからのアクセスができなくなるものの、ホスト装置とのパスが切れるには至らずシステムをそのまま使用できる。
ディスクコントローラC0が故障したとすると、チャネルアダプタCA0が立ち上がれば、チャネルアダプタCA0はホスト装置H0からのコマンドはスルーで他のディスクコントローラC1に渡すので、それまで担当していたRAIDグループDR0は他のディスクコントローラC1に引き継がれる。
これにより、一時的にホスト装置H0からアクセスが出来なくなるものの、ディスクコントローラC0の再起動、再立ち上げ時の初期設定やディスクパス確認等の処理にかかっていた時間の間も、ホスト装置H0からのパスが切れるには至らずシステムはそのまま処理を続行できる。
ハードウエア構成 ディスクコントローラC0が故障した場合 診断処理部の動作フローチャート 再起動または電源再投入処理
符号の説明
10 ホスト装置
20 ディスクサブシステム
2、2a、2b ディスクコントローラ
21 チャネルアダプタ
22 機能部
23 診断処理部
24 デバイスアダプタ
3 コントローラルータ
4、4a、4b デバイスルータ
5、5a、5b RAIDグループ

Claims (4)

  1. ディスクアレイサブシステム内の他のディスクコントローラとコントローラルータで互いに結合され、配下のディスクデバイスをデバイスルータによりRAIDグループ単位に結合し、ホスト装置に対して担当LUN制御を行うディスクコントローラであって、
    ホスト装置およびコントローラルータとのインタフェース制御を行うチャネルアダプタ部と、ディスクコントローラの各機能部のエラーを検出・診断し、切り分け、再起動、再立ち上げを行う診断制御部とを備え、
    診断制御部は、再起動または再立ち上げを行う際に、チャネルアダプタ部の機能に問題ないとき、チャネルアダプタと他の機能部とを切り離して動作させるモードに設定して、再起動または再立ち上げを行う
    ことを特徴とするディスクコントローラ。
  2. 請求項1に記載のディスクコントローラであって、
    チャネルアダプタと他の機能部とを切り離して動作させるモードでの再起動または再立ち上げのとき、
    チャネルアダプタ以外の機能テストが正常に終わると、チャネルアダプタが動作していないことを確認して組み込み、通常モードとする
    ことを特徴とするディスクコントローラ。
  3. ディスクアレイサブシステム内の他のディスクコントローラとコントローラルータで互いに結合され、配下のディスクデバイスをデバイスルータによりRAIDグループ単位に結合し、ホスト装置に対して担当LUN制御を行うディスクコントローラの診断制御方法であって、
    ディスクコントローラの各機能部のエラーを検出・診断し、
    ホスト装置およびコントローラルータとのインタフェース制御を行うチャネルアダプタ部の機能に問題ないと判断したとき、
    再起動又は再立ち上げを行うことが必要と判断したとき、
    チャネルアダプタと他の機能部とを切り離して動作させるモードに設定し、
    再起動又は再立ち上げを行う
    ことを特徴とする診断制御方法。
  4. 請求項3に記載のディスクコントローラの診断制御方法であって、
    チャネルアダプタと他の機能部とを切り離して動作させるモードで再起動または再立ち上げのとき、
    チャネルアダプタ以外の機能テストを行い、正常であればチャネルアダプタが動作していないことを確認して組み込み、通常モードとする
    ことを特徴とする診断制御方法。
JP2006211235A 2006-08-02 2006-08-02 担当lun制御を用いたraid制御を行うディスクコントローラおよび診断制御方法 Expired - Fee Related JP4830698B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006211235A JP4830698B2 (ja) 2006-08-02 2006-08-02 担当lun制御を用いたraid制御を行うディスクコントローラおよび診断制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006211235A JP4830698B2 (ja) 2006-08-02 2006-08-02 担当lun制御を用いたraid制御を行うディスクコントローラおよび診断制御方法

Publications (2)

Publication Number Publication Date
JP2008040612A JP2008040612A (ja) 2008-02-21
JP4830698B2 true JP4830698B2 (ja) 2011-12-07

Family

ID=39175566

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006211235A Expired - Fee Related JP4830698B2 (ja) 2006-08-02 2006-08-02 担当lun制御を用いたraid制御を行うディスクコントローラおよび診断制御方法

Country Status (1)

Country Link
JP (1) JP4830698B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5235154B2 (ja) * 2009-03-31 2013-07-10 富士通株式会社 管理装置および管理プログラム
JP5391993B2 (ja) 2009-10-19 2014-01-15 富士通株式会社 ディスクアレイ装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09115222A (ja) * 1995-10-18 1997-05-02 Sony Corp コンピュータ
JPH11161434A (ja) * 1997-11-26 1999-06-18 Fujitsu Ltd ライブラリ装置
JP2004206239A (ja) * 2002-12-24 2004-07-22 Pfu Ltd Raid装置
JP2005122453A (ja) * 2003-10-16 2005-05-12 Hitachi Ltd ストレージ装置のディスクコントローラ制御方式およびストレージ装置

Also Published As

Publication number Publication date
JP2008040612A (ja) 2008-02-21

Similar Documents

Publication Publication Date Title
EP1980943B1 (en) System monitor device control method, program, and computer system
CN100517250C (zh) 控制raid阵列重建的装置和方法
JP5509730B2 (ja) フォールトトレラントコンピュータ及び電源制御方法
US9195553B2 (en) Redundant system control method
US8583863B2 (en) Storage system
JP2009140194A (ja) 障害回復環境の設定方法
WO2015104841A1 (ja) 多重系システムおよび多重系システム管理方法
US7000142B2 (en) Mirrored extensions to a multiple disk storage system
US10824517B2 (en) Backup and recovery of configuration files in management device
TWI779682B (zh) 電腦系統、電腦伺服器及其啟動方法
JP4830698B2 (ja) 担当lun制御を用いたraid制御を行うディスクコントローラおよび診断制御方法
WO2015135100A1 (zh) 一种实现处理器切换的方法、计算机和切换装置
JP2016212506A (ja) 情報処理システム、制御装置および制御プログラム
JP5534021B2 (ja) ストレージ装置、制御部およびストレージ装置制御方法
US20190121561A1 (en) Redundant storage system and failure recovery method in redundant storage system
US8738829B2 (en) Information system for replacing failed I/O board with standby I/O board
CN112394656B (zh) 检查微控制器的程序执行的方法、外部设备、***
JP2007233667A (ja) 障害検出方式
JP6911591B2 (ja) 情報処理装置、制御装置および情報処理装置の制御方法
US8307244B2 (en) Storage system and storage control apparatus
JP2007334770A (ja) Raid装置、そのモジュール、ディスク組込み可否判定方法、及びプログラム
JP7056057B2 (ja) 情報処理装置、情報処理方法、情報処理システム、及び、コンピュータ・プログラム
JP2019164578A (ja) 制御システム、情報処理装置、制御方法、raidコントローラの復旧方法及びプログラム。
TWI685748B (zh) 硬碟控制系統
JP2834083B2 (ja) データディスクアレイ装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110823

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110905

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4830698

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140930

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees