JP2019079263A - 冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法 - Google Patents
冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法 Download PDFInfo
- Publication number
- JP2019079263A JP2019079263A JP2017205507A JP2017205507A JP2019079263A JP 2019079263 A JP2019079263 A JP 2019079263A JP 2017205507 A JP2017205507 A JP 2017205507A JP 2017205507 A JP2017205507 A JP 2017205507A JP 2019079263 A JP2019079263 A JP 2019079263A
- Authority
- JP
- Japan
- Prior art keywords
- controller
- controllers
- information
- failure
- storage system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2089—Redundant storage control functionality
- G06F11/2092—Techniques of failing over between control units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0629—Configuration or reconfiguration of storage systems
- G06F3/0635—Configuration or reconfiguration of storage systems by changing the path, e.g. traffic rerouting, path reconfiguration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2002—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
- G06F11/2005—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication controllers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0614—Improving the reliability of storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0653—Monitoring storage devices or systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0683—Plurality of storage devices
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- Debugging And Monitoring (AREA)
- Hardware Redundancy (AREA)
Abstract
Description
(1−1)第1の実施の形態による冗長系ストレージシステムの構成
図1は、第1の実施の形態による冗長系ストレージシステムの概略構成を示す。
第1の実施の形態による冗長系ストレージシステムは、第1のコントローラ100及び図示しない第1のストレージ装置、第2のコントローラ200及び図示しない第2のストレージ装置、並びにPC300を備える。第1のコントローラ100とPC300とはネットワーク400AによってLANカード130を介して接続されている一方、第2のコントローラ200とPC300とはネットワーク400BによってLANカード230を介して接続されている。
(1−2−1)障害回復方法の概要
図4は、障害回復方法の一例を示す。なお、第1の実施の形態では、図面においてコントローラを「CTL」と省略して表し、例えば、第1のコントローラ100を「CTL1」とも図示する一方、第2のコントローラ200を「CTL2」とも図示する。
図5(A)〜図5(H)は、それぞれ、閉塞すべきコントローラを誤って特定した場合における救済処理の一例を示すシーケンスチャートである。なお、以下の説明では、第1のコントローラ100のドライバー回路140に障害が発生したものと仮定する。
図6は、装置稼働中における縮退リンクアップ処理の一例を示すシーケンスチャートである。なお、図示の符号において図4などに示す符号と同一である場合には、同様の処理であることを表している。
図7は、装置稼働中における縮退リンクアップ処理の一例を示すシーケンスチャートである。なお、図示の符号において図4などに示す符号と同一である場合には、同様の処理であることを表している。
第2の実施の形態による冗長系ストレージシステムは、第1の実施の形態による冗長系ストレージシステムとほぼ同様の構成であり同様の動作を実行するため、以下では、両者の異なる点を中心として説明する。
第2の実施の形態による冗長系ストレージシステムでは、第1のコントローラ100及び第2のコントローラ200がそれぞれ不良コントローラ特定処理を実行する点が第1の実施の形態とは異なっている。以下具体的に説明する。
図8は、障害情報を用いた不良コントローラ特定処理の一例を示すシーケンスチャートである。なお、図示の符号において図4などに示す符号と同一である場合には、同様の処理であることを表している。
上記実施形態は、本発明を説明するための例示であり、本発明をこれらの実施形態にのみ限定する趣旨ではない。本発明は、その趣旨を逸脱しない限り、様々な形態で実施することができる。例えば、上記実施形態では、各種プログラムの処理をシーケンシャルに説明したが、特にこれにこだわるものではない。従って、処理結果に矛盾が生じない限り、処理の順序を入れ替え又は並行動作するように構成しても良い。また、上記実施形態における各処理ブロックを含むプログラムは、例えばコンピュータが読み取り可能な非一時的記憶媒体に格納されている形態であっても良い。
Claims (10)
- 複数のストレージ装置を各々制御する複数のコントローラを備え、前記複数のコントローラがコントローラ間通信パスを介して接続されている冗長系ストレージシステムにおいて、
前記複数のコントローラは、それぞれ、
前記複数のコントローラまたは前記複数のコントローラ間のいずれかの部位で発生した障害に関する障害情報を収集する障害情報収集部と、
前記障害情報収集部によって収集される障害情報及び前記複数のコントローラの制御に関するシステム制御情報を前記複数のコントローラ間で同期して共有させる情報同期部と、
前記情報同期部によって最後に同期された障害情報に基づいて前記複数のコントローラまたは前記複数のコントローラ間のいずれかの部位で障害が発生していることが検出された場合、前記複数のコントローラのうちのどのコントローラを閉塞すべきかについて閉塞判定を実施する閉塞判定部と、
前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、前記コントローラ間通信パスの一部を用いて前記複数のコントローラ間における通信を縮退して実施する縮退制御部と、
前記閉塞判定の結果、前記一方のコントローラを閉鎖すべきであるものと判定されたものの前記閉塞判定が誤っていた場合、代わりに新たなコントローラが装着されたことを契機として、前記情報同期部に、前記最後に同期された最も直前のシステム制御情報を用いて、再度装着された前記一方のコントローラと前記新たなコントローラとを同期させる再同期指示部と、
を備えることを特徴とする冗長系ストレージシステム。 - 前記複数のコントローラは、それぞれ、
前記障害情報収集部によって収集される自らの障害情報及び相手の障害情報と、及び、前記システム制御情報とを格納可能なメモリを備え、
前記縮退制御部は、
前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、前記前記複数のレーンのうち通信可能な少なくとも一部のレーンを用いて前記複数のコントローラ間における通信を縮退して実施可能とし、前記情報同期部による前記自らの障害情報及び前記相手の障害情報の同期制御を許容する
ことを特徴とする請求項1に記載の冗長系ストレージシステム。 - 前記コントローラ間通信パスは、複数のレーンにより構成されており、
前記縮退制御部は、
前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、前記複数のレーンのうち通信可能な少なくとも一部のレーンを用いて前記複数のコントローラ間における通信を縮退して実施する
を備えることを特徴とする請求項1に記載の冗長系ストレージシステム。 - 前記複数のコントローラには、
前記障害が発生しうる部位として、前記複数のコントローラ間における通信を実施するドライバー回路が設けられていることを特徴とする請求項1に記載の冗長系ストレージシステム。 - 前記再同期指示部は、
前記縮退制御部による縮退制御中に前記通信可能な少なくとも一部のレーンを用いて前記最後に同期された最も直前のシステム制御情報を用いて、前記情報同期部に、再度装着された前記一方のコントローラと前記新たなコントローラとの間で同期させる
ことを特徴とする請求項4に記載の冗長系ストレージシステム。 - 複数のストレージ装置を各々制御する複数のコントローラを備え、前記複数のコントローラがコントローラ間通信パスを介して接続されている冗長系ストレージシステムにおける障害復旧方法において、
前記複数のコントローラが、前記複数のコントローラまたは前記複数のコントローラ間のいずれかの部位で発生した障害に関する障害情報を収集する障害情報収集ステップと、
前記複数のコントローラが、前記障害情報収集ステップにおいて収集される障害情報及び前記複数のコントローラの制御に関するシステム制御情報を前記複数のコントローラ間で同期して共有する情報同期ステップと、
前記情報同期ステップにおいて最後に同期された障害情報に基づいて前記複数のコントローラまたは前記複数のコントローラ間のいずれかの部位で障害が発生していることが検出された場合、前記複数のコントローラのうちの一方のコントローラが、前記複数のコントローラのうちのどのコントローラを閉塞すべきかについて閉塞判定を実施する閉塞判定ステップと、
前記複数のコントローラが、前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、前記コントローラ間通信パスの一部を用いて前記複数のコントローラ間における通信を縮退して実施する縮退制御ステップと、
前記閉塞判定の結果、前記一方のコントローラを閉鎖すべきであるものと判定されたものの前記閉塞判定が誤っていた場合、代わりに新たなコントローラが装着されたことを契機として、前記複数のコントローラのうちの一方のコントローラが、前記情報同期ステップにおいて、前記最後に同期された最も直前のシステム制御情報を用いて、再度装着された前記一方のコントローラと前記新たなコントローラとを同期させる再同期指示ステップと、
を有することを特徴とする冗長系ストレージシステムにおける障害復旧方法。 - 前記複数のコントローラは、それぞれ、
前記障害情報収集ステップにおいて収集される自らの障害情報及び相手の障害情報と、及び、前記システム制御情報とを格納可能なメモリを備え、
前記縮退制御ステップでは、
前記複数のコントローラは、前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、前記前記複数のレーンのうち通信可能な少なくとも一部のレーンを用いて前記複数のコントローラ間における通信を縮退して実施可能とし、前記情報同期ステップにおける前記自らの障害情報及び前記相手の障害情報の同期制御が許容される
ことを特徴とする請求項6に記載の冗長系ストレージシステムにおける障害復旧方法。 - 前記コントローラ間通信パスは、複数のレーンにより構成されており、
前記縮退制御ステップでは、
前記複数のコントローラが、前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、前記複数のレーンのうち通信可能な少なくとも一部のレーンを用いて前記複数のコントローラ間における通信を縮退して実施する
を備えることを特徴とする請求項6に記載の冗長系ストレージシステムにおける障害復旧方法。 - 前記複数のコントローラには、
前記障害が発生しうる部位として、前記複数のコントローラ間における通信を実施するドライバー回路が設けられていることを特徴とする請求項6に記載の冗長系ストレージシステムにおける障害復旧方法。 - 前記再同期指示ステップでは、
前記複数のコントローラのうちの一方のコントローラが、前記縮退制御ステップにおける縮退制御中に前記通信可能な少なくとも一部のレーンを用いて前記最後に同期された最も直前のシステム制御情報を用いて、再度装着された前記一方のコントローラと前記新たなコントローラとの間で同期する
ことを特徴とする請求項9に記載の冗長系ストレージシステムにおける障害復旧方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017205507A JP6620136B2 (ja) | 2017-10-24 | 2017-10-24 | 冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法 |
US16/123,587 US20190121561A1 (en) | 2017-10-24 | 2018-09-06 | Redundant storage system and failure recovery method in redundant storage system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017205507A JP6620136B2 (ja) | 2017-10-24 | 2017-10-24 | 冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019079263A true JP2019079263A (ja) | 2019-05-23 |
JP6620136B2 JP6620136B2 (ja) | 2019-12-11 |
Family
ID=66169305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017205507A Active JP6620136B2 (ja) | 2017-10-24 | 2017-10-24 | 冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20190121561A1 (ja) |
JP (1) | JP6620136B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021087151A (ja) * | 2019-11-29 | 2021-06-03 | 富士通株式会社 | 情報処理装置および通信ケーブルログ情報採取方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019142095A (ja) * | 2018-02-20 | 2019-08-29 | 京セラドキュメントソリューションズ株式会社 | 画像形成装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5790775A (en) * | 1995-10-23 | 1998-08-04 | Digital Equipment Corporation | Host transparent storage controller failover/failback of SCSI targets and associated units |
JP2014119819A (ja) * | 2012-12-13 | 2014-06-30 | Fujitsu Ltd | ストレージ装置、エラー処理方法及びエラー処理プログラム |
JP2014191401A (ja) * | 2013-03-26 | 2014-10-06 | Fujitsu Ltd | 処理装置、制御プログラム、及び制御法 |
JP2015084144A (ja) * | 2013-10-25 | 2015-04-30 | 富士通株式会社 | ストレージ制御装置、ストレージ装置、及びストレージ制御プログラム |
JP2015099487A (ja) * | 2013-11-19 | 2015-05-28 | 富士通株式会社 | 情報処理装置,制御装置及び制御プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9575855B2 (en) * | 2013-09-06 | 2017-02-21 | Hitachi, Ltd. | Storage apparatus and failure location identifying method |
-
2017
- 2017-10-24 JP JP2017205507A patent/JP6620136B2/ja active Active
-
2018
- 2018-09-06 US US16/123,587 patent/US20190121561A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5790775A (en) * | 1995-10-23 | 1998-08-04 | Digital Equipment Corporation | Host transparent storage controller failover/failback of SCSI targets and associated units |
JP2014119819A (ja) * | 2012-12-13 | 2014-06-30 | Fujitsu Ltd | ストレージ装置、エラー処理方法及びエラー処理プログラム |
JP2014191401A (ja) * | 2013-03-26 | 2014-10-06 | Fujitsu Ltd | 処理装置、制御プログラム、及び制御法 |
JP2015084144A (ja) * | 2013-10-25 | 2015-04-30 | 富士通株式会社 | ストレージ制御装置、ストレージ装置、及びストレージ制御プログラム |
JP2015099487A (ja) * | 2013-11-19 | 2015-05-28 | 富士通株式会社 | 情報処理装置,制御装置及び制御プログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021087151A (ja) * | 2019-11-29 | 2021-06-03 | 富士通株式会社 | 情報処理装置および通信ケーブルログ情報採取方法 |
JP7367495B2 (ja) | 2019-11-29 | 2023-10-24 | 富士通株式会社 | 情報処理装置および通信ケーブルログ情報採取方法 |
Also Published As
Publication number | Publication date |
---|---|
US20190121561A1 (en) | 2019-04-25 |
JP6620136B2 (ja) | 2019-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4415610B2 (ja) | 系切替方法、レプリカ作成方法、及びディスク装置 | |
CN100543690C (zh) | 用于管理故障的方法和*** | |
EP3361383B1 (en) | Modifying membership of replication groups via journal operations | |
JP2009510624A (ja) | 複製データの可用性及び最新性を検証するための方法及びシステム。 | |
JP2008071209A (ja) | ストレージ管理プログラム、ストレージ管理装置、およびストレージ管理方法 | |
US8903766B2 (en) | Data mirroring using a virtual connection | |
JP6620136B2 (ja) | 冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法 | |
US20050055602A1 (en) | Autonomic recovery of PPRC errors detected by PPRC peer | |
CN108243031B (zh) | 一种双机热备的实现方法及装置 | |
JP5366184B2 (ja) | データ記憶システム、データ記憶方法 | |
US20150195167A1 (en) | Availability device, storage area network system with availability device and methods for operation thereof | |
EP2372554B1 (en) | Information processing device and error processing method | |
JP2017146833A (ja) | 監視装置、フォールトトレラントシステムおよび方法 | |
EP4141587A1 (en) | Method and apparatus for the enhanced diagnostic coverage of a secondary device of a redundant controller pair | |
JP2008146239A (ja) | 二重化制御装置、及びそのメモリ部の複数ビットエラーの自動修復方法 | |
JP5278530B2 (ja) | 情報処理装置、情報処理装置の制御方法、及び情報処理装置の制御プログラム | |
US9838285B2 (en) | Connection monitoring device and connection monitoring method | |
US20150370664A1 (en) | Redundant system and redundancy method | |
CN111258823A (zh) | 一种主从服务器的切换方法及*** | |
JP6852910B2 (ja) | フォールトトレラント装置、障害復帰方法、およびプログラム | |
JP7371547B2 (ja) | ノード、ミラーリング型クラスタシステム、リストア検出方法、及び、プログラム | |
JPH0468449A (ja) | システム監視装置 | |
US8713359B1 (en) | Autonomous primary-mirror synchronized reset | |
CN112667167B (zh) | 配置文件更新方法及装置 | |
CN117785568A (zh) | 一种双主双机热备方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190903 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191018 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191118 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6620136 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |