JP2008016028A - 広域複製を持つ分散記憶システム - Google Patents

広域複製を持つ分散記憶システム Download PDF

Info

Publication number
JP2008016028A
JP2008016028A JP2007173265A JP2007173265A JP2008016028A JP 2008016028 A JP2008016028 A JP 2008016028A JP 2007173265 A JP2007173265 A JP 2007173265A JP 2007173265 A JP2007173265 A JP 2007173265A JP 2008016028 A JP2008016028 A JP 2008016028A
Authority
JP
Japan
Prior art keywords
ise
data
storage system
data storage
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007173265A
Other languages
English (en)
Inventor
Stephen J Sicola
ジェイ.シコラ スティーブン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seagate Technology LLC
Original Assignee
Seagate Technology LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/479,432 external-priority patent/US7644228B2/en
Application filed by Seagate Technology LLC filed Critical Seagate Technology LLC
Publication of JP2008016028A publication Critical patent/JP2008016028A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】記憶の広域配置能力を持つ分散記憶システムにおいて、I/Oコマンドの処理の負荷を記憶アレイ全体で均一に分担するような装置および方法を提供する。
【解決手段】アクセス・コマンドを遠隔装置と記憶空間との間で渡すための、ネットワークにより遠隔装置に接続可能な仮想エンジンを備える装置および方法を提供する。複数のインテリジェント記憶要素(ISE)は、アクセス・コマンドが同時に仮想エンジンと第1のISEとの間で渡されていることとは独立に、未処理のアクセス・コマンドを処理するのに十分なだけのブロック・サイズのデータを第1のISEから第2のISEに複製する。
【選択図】図12

Description

本発明は一般に分散データ記憶システムの分野に関するものであって、より詳しくは分散記憶システム内に読取り専用データを広域に複製するための機器および方法に関するが、これに限定するものではない。
産業標準構造のデータ転送速度がインテル(登録商標)社製の80386プロセッサのデータ・アクセス速度に追いつかなくなると、コンピュータ・ネットワーク化が急速に広まった。ネットワーク内のデータ記憶容量を強化することにより、ローカル・エリア・ネットワーク(LAN)は記憶エリア・ネットワーク(SAN)に発展した。SAN内の設備と、この設備が処理する関連するデータとを強化することにより、例えば直接付属する記憶装置より一回り大きな記憶を妥当なコストで処理することができるなどの非常に大きな利益をユーザは実現した。
最近の動向は、データ記憶サブシステムを制御するというネットワーク中心方式に移ってきた。すなわち、記憶を強化したのと同じようにして、記憶の機能を制御するシステムもサーバからネットワーク自身に移されている。例えば、ホスト・ベースのソフトウエアは、保全および管理の仕事をインテリジェント・スイッチにまたは専用のネットワーク記憶サービス・プラットフォームに任せる。機器ベースの方式を用いるのでホスト内で走るソフトウエアは必要でなくなり、またこの方式は企業内のノードとして設けられたコンピュータ内で動作する。いずれにしても、インテリジェント・ネットワーク方式は、記憶割当てルーチン、バックアップ・ルーチン、および耐故障性設計などの仕事をホストから独立して集中化することができる。
知能をホストからネットワークに移すことにより問題の一部は解決されるが、ホストへの仮想記憶の提示を変更することが一般に困難であるという固有の問題は解決されない。例えば、1台のコントローラの指示の下に記憶されたデータが別のコントローラの記憶空間内で一層効率的にアクセスできることがある。この場合は、ホストまたはネットワークはまずそのデータをコピーして別のコントローラが利用できるようにしなければならない。必要なのは、それぞれのデータ記憶容量を自発的に決定して割当て、管理し、保護して、その容量を仮想記憶空間としてネットワークに提示してシステム全体でI/O性能を最適にするインテリジェント・データ記憶サブシステムである。この仮想記憶空間は多重記憶ボリュームとして配置することができる。分散計算環境では、かかるインテリジェント記憶要素を用いてI/Oコマンドの処理の負荷を記憶アレイ全体でできるだけ均一に分担する。本発明の実施の形態はこの方式に関するものである。
本発明の実施の形態は、一般に広域複製能力を持つ分散記憶システムに関するものである。
或る実施の形態では、アクセス・コマンドを遠隔装置と記憶空間との間で渡すための、ネットワークにより遠隔装置に接続可能な仮想エンジンを備えるデータ記憶システムを提供する。複数のインテリジェント記憶要素(ISE)は、アクセス・コマンドが同時に仮想エンジンと第1のISEとの間で渡されていることとは独立に、データを第1のISEから第2のISEに複製する。
或る実施の形態では、仮想エンジンとISEとの間のアクセス・コマンドを処理し、同時にデータをISEから別の記憶空間に複製する方法を提供する。
或る実施の形態では、仮想エンジンが個別にアドレス指定できる複数のISEと、インテリジェント記憶要素の間でデータを複製する手段とを備えるデータ記憶装置を提供する。
本発明の特徴を示すこれらの機能や利点は以下の詳細な説明を読みまた関連する図面を参照すれば明らかになる。
図1は本発明の実施の形態が有用である例示のコンピュータ・システム100である。1台以上のホスト102が、ローカル・エリア・ネットワーク(LAN)および/またはワイド・エリア・ネットワーク(WAN)106を介して1台以上のネットワーク付属のサーバ(NAS)104にネットワーク接続されている。好ましくは、LAN/WAN106は、ワールド・ワイド・ウェブにより通信するためにインターネット・プロトコル(IP)ネットワーキング・インフラストラクチャを用いる。ホスト102は、サーバ104内に常駐して多数のインテリジェント記憶要素(ISE)108の1台以上に記憶されたデータを日常的に必要とするアプリケーションにアクセスする。このため、記憶されたデータにアクセスできるようにSAN110はサーバ104をISE108に接続する。ISE108は直列ATAやファイバ・チャネルなどの種々の選択された通信プロトコルによりデータを記憶するデータ記憶容量109のブロックを備え、その中に企業クラスまたはデスクトップ・クラスの記憶媒体を含む。
図2は、図1のコンピュータ・システム100の簡単な線図である。ホスト102は、ネットワークまたは構造110を介して相互におよび1対のISE108(それぞれAおよびBで示す)と情報を交換する。各ISE108は二重冗長コントローラ112(A1,A2およびB1,B2で示す)を含む。好ましくはコントローラ112は、独立ドライブの冗長アレイ(RAID)として特徴づけられる一組のデータ記憶装置であるデータ記憶容量109に作用する。コントローラ112およびデータ記憶容量109は好ましくは耐故障性配置を用いるので、種々のコントローラ112は並列の冗長なリンクを用い、システム100内に記憶されるユーザ・データの少なくとも一部はデータ記憶容量109の少なくとも一組内に冗長形式で記憶される。
更に、Aホスト・コンピュータ102およびA−ISE108は物理的に第1のサイトにあり、Bホスト・コンピュータ102およびB−ISE108は物理的に第2のサイトにあり、Cホスト・コンピュータ102は更に第3のサイトにあってよい。ただしこれは単なる例であって、限定するものではない。分散コンピュータ・システム上の全てのエンティティは或るタイプのコンピュータ・ネットワークにより接続される。
図3は本発明の実施の形態に従って構築されたISE108を示す。棚114は、コントローラ112を受けて係合して中央板116と電気的に接続するための空洞を定義する。棚114はキャビネット(図示しない)内に支持される。棚114は1対の多重ディスク組立体(MDA)118を中央板116の同じ側に受けて係合する。中央板116の反対側には、緊急電源である二重電池122、二重交流電源124、および二重インターフェース・モジュール126が接続する。好ましくは、二重構成要素ではMDA118の一方または両方が同時に動作するので、1つの構成要素が故障した場合はバックアップ保護を行うことができる。
図4は本発明の或る実施の形態に従って構築されたMDA118の拡大部分組立分解等角図である。MDA118は上部130と下部132とを有し、それぞれは5個のデータ記憶装置128を支持する。区画130,132は、中央板116(図3)と係合するコネクタ136を有する共通回路板134と接続できるようにデータ記憶装置128を揃える。カバー138は電磁妨害を遮蔽する。MDA118のこの例示の実施の形態は、特許出願10/884,605、「多重ディスク・アレイの搬送装置および方法(Carrier Device and Method for a Multiple Disc Array)」の主題である。これは本発明の被譲渡人に譲渡されたものであって、ここに援用する。MDAの別の例示の実施の形態は同じタイトルの特許出願10/817,378の主題である。これも本発明の被譲渡人に譲渡されたものであって、ここに援用する。後で説明するが、別の同等の実施の形態では、密閉された容器内にMDA118を収めてよい。
図5は、本発明の実施の形態で用いるのに適した、回転する媒体ディスク・ドライブの形の例示のデータ記憶装置128の等角図である。以下の説明のために、動くデータ記憶媒体と共に回転するスピンドルを用いるが、別の同等の実施の形態では、固体メモリ装置などの非回転媒体装置を用いる。データ記憶ディスク140はモータ142により回転して、ディスク140のデータ記憶位置を読取り/書込みヘッド(単に「ヘッド」と呼ぶ)143に提示する。ヘッド143は、ディスク140の内側と外側のトラックの間にヘッド143を半径方向に動かす回転アクチュエータ144の先端に支持される。ヘッド143は可撓回路146により回路板145に電気的に接続する。回路板145はデータ記憶装置128の機能を制御する制御信号を受けたり送ったりする。コネクタ148は回路板145に電気的に接続し、データ記憶装置128とMDA118の回路板134(図4)とを接続する。
図6は本発明の実施の形態に従って構築されたISE108の線図である。コントローラ112はインテリジェント記憶プロセッサ(ISP)150と共に動作してデータの完全性の信頼性を管理する。ISP150は、コントローラ112内、MDA118内、またはISE108内のどこか別のところに常駐してよい。
管理された信頼性の態様はRAID方式などの信頼できるデータ記憶フォーマットを作ることを含む。例えば、複数の異なるRAIDフォーマットの選択された1つを選択的に用いるシステムを形成することによりデータ記憶のための比較的強いシステムを作り、またMDA118を管理するのに用いるソフトウエアの複雑さを軽減すると共に記憶の故障状態から比較的速く回復できるようにファームウエア・アルゴリズムを最適にすることができる。この多重RAIDフォーマット・システムのこれらの態様は、特許出願10/817,264、「記憶媒体データ構造および方法(Storage Media Data Structure and Method)」に記述されている。これは本発明の被譲渡人に譲渡されたものであって、ここに援用する。
管理された信頼性は、システムを監視して使用することに基づく診断および訂正ルーチンのスケジューリングも含んでよい。データ回復の方法はデータをコピーしまた再構築することで行う。ISP150は、データを失わずにデータ記憶容量全体を「自己治癒」しやすくするようにしてMDA118と共に組み込む。ここで考えた管理された信頼性のこれらの態様は、特許出願10/817,617、「管理された信頼性の記憶システムおよび方法(Managed Reliability Storage System and Method)」に開示されている。これは本発明の被譲渡人に譲渡されたものであって、ここに援用する。管理された信頼性の他の態様は、予め決められた規則に関する予測的故障表示への応答の速さを含む。これは例えば、特許出願11/040,410、「分散記憶システムにおける予測された故障からの決定論的な予防的回復(Deterministic Preventive Recovery From a Predicted Failure in a Distributed Storage System)」に開示されている。これは本発明の被譲渡人に譲渡されたものであって、ここに援用する。
図7は1対の冗長なISP150が常駐するISP回路板152を示す線図である。ISP150は、データ記憶容量109とSAN構造110とをインターフェースする。各ISP150は、経路選択、ボリューム管理、およびデータ移動および複製などの種々の記憶サービスを管理してよい。ISP150はISP回路板152を、バス158により結合される2つのISPサブシステム154,156に分割する。ISPサブシステム154は「B」で示すISP150を含む。これはリンク160によりSAN構造110に、またリンク162によりデータ記憶容量109に接続する。ISPサブシステム154は実時間オペレーティング・システムを実行するポリシー・プロセッサ164も含む。ISP150とポリシー・プロセッサ164とはバス166により通信し、また両者はメモリ168と通信する。
図8は、本発明の実施の形態に従って構築された例示のISPサブシステム154の線図である。ISP150は、クロス・ポイント・スイッチ(CPS)186メッセージ・クロスバーを介してリスト・マネージャ182,184と通信する多数の機能コントローラ(170−180)を含む。このように、機能コントローラ(170−180)は所定の条件に応じてそれぞれCPSメッセージを生成し、CPS186を通してこのメッセージをリスト・マネージャ182,184に送り、メモリ・モジュールにアクセスしたりISP150の活動を起こしたりしてよい。同様に、リスト・マネージャ182,184からの応答はCPS186を介して機能コントローラ(170−180)のどれかに送ってよい。図8の配置および関連する説明は例であって、本発明の考えられる実施の形態を制限するものでなない。
ポリシー・プロセッサ164は、ISP150を介して望ましい動作を実効するようプログラムすることができる。例えば、ポリシー・プロセッサ164はCPS186を介してリスト・マネージャ182,184と通信して(すなわち、メッセージを送りまた受けて)よい。ポリシー・プロセッサ164への応答は、メモリ168レジスタの読取りを知らせる割込みとして働いてよい。
図9は、インテリジェント・コントローラ112により、予め選択された複数の通信プロトコル(FC、iSCSI、またはSASなど)のどれかでホスト102と通信するISE108の優れた柔軟性を示す線図である。ISE108は、ホスト・コマンドの取出しレベルを確認し、これに従ってコマンドに関連する物理的記憶109に仮想記憶ボリュームをマップするようプログラムしてよい。
本発明の目的では、「仮想記憶ボリューム」という用語は、物理的記憶の論理的取出しに一般に対応する論理エンティティを意味する。「仮想記憶ボリューム」は、例えば、固定のブロック構造内の連続的にアドレス指定されたアドレス・ブロックまたはカウント・キー・データ(count-key−data)構造内の記録であるかのように(論理的に)扱われるエンティティを含んでよい。仮想記憶ボリュームは物理的に2つ以上の記憶要素上にあってよい。
図10は、任意のホスト102と独立にISE108が行ってよいデータ管理サービスのタイプを示す線図である。例えば、耐故障性のデータ完全性のためにRAID管理を局所で制御して、データのストライピングは望ましい数のデータ記憶装置1281,1282,1283,...,128n内で行ってよい。仮想化サービスを局所で制御して、メモリ容量を論理エンティティに割り当てたり割り当てを外したりしてよい。上に説明した管理された信頼性方式や同じISE108内の論理ボリュームの間のデータの複製などのアプリケーション・ルーチンも同様に局所で制御してよい。この記述およびクレームの目的では、「移動する」または「移動」という用語はデータを原始から宛先に移すことにより、移動完了の一部として原始のデータをなくすことを指す。これはデータを「複製する」または「複製」とは逆で、複製の場合はデータを原始から宛先に複写する。ただし、宛先で別の名前になる。本発明では、データの完全性を保つ場所以外でデータの読取り専用コピーを効率的に作るために複製を行う。
図11は、アクセス・コマンド(I/Oコマンド)をホスト装置102と複数のISE108の選択された1台との間で渡すために仮想エンジン200がSAN106により遠隔ホスト装置102と通信する、というデータ記憶システム100の実施の形態を示す。各ISE108は、アクセス・コマンドを渡すために仮想エンジン200がユニークにアドレス指定できる2つのポート202,204および206,208を有する。データ転送ボトルネックを作らずにデータ複製を促進するため、以下にこの実施の形態が、ホスト・アクセス・コマンドの処理とは独立にまた同時に、ISE108の間でデータを複製する方法を説明する。また、データを複製するときのデータ転送速度を変えることにより、システム100のアプリケーション性能への影響を最適にすることができる。
ISE108−1では、ISP150はデータ記憶装置128の物理的データ・パック212に関する論理ボリューム210を作成する。説明のために、データ・パック212の記憶容量の40%を論理ボリューム210内の論理ディスク214に割り当てたと仮定する。やはり説明のために、データ・パック212および以下の全ての他のデータ・パックは、データ記憶のための8個のデータ記憶装置128と2個の予備データ記憶装置128とを含むと仮定する。更に図11から認識されるように、ISE108−1では他方のデータ・パック216は93%を論理ディスク218に割り当て、ISE108−2ではデータ・パック220,222は論理ディスク224,226にそれぞれ30%および40%を割り当てたと仮定する。
仮想エンジン200は論理ディスク214から論理ボリューム224を作成し、またホストからの記憶空間の要求に応じて論理ディスク226を作成してこれをホスト102にマップした。
或る予め定義された条件では、特定のLUN(論理ユニット番号)ではユニット・マスタ・コントローラ以外のコントローラでアクセス・コマンドを処理する方がよい。冗長のために予め決められたアレイ内の全てのデータをコピーするミラリングとは異なり、この実施の形態は、比較的高い性能でアクセス・コマンドを処理できそうな条件下で、狭い、データの読取り専用コピーをターゲット記憶空間に向ける。
説明のための例として、LUN内のデータのアクセス・コマンドを受けたが、ISE108−1内のコントローラAは現在順次のデータ・アクセス・コマンドをストリーミング中であるとする。この並列のコマンドを処理するために、コマンドのストリーミングを中断したりストリーミングが終わるまで待ったりするのではなく、コントローラAはLUNの全てまたは一部の読取り専用コピーを、図12に示すISE108−2などの異なる記憶空間に複製してよい。
一般に、ユニット・マスタ・コントローラは未処理のアクセス・コマンドを処理するために、システムを見渡して比較的高い処理能力を有する別の記憶空間を識別することができる。この別の記憶空間は内部にそのユニット・マスタ・コントローラ内にあっても、外部に同じISE108内の別のコントローラ内にあっても、または広域に別のISE108内にあってもよい。いずれの場合も、比較的な処理能力は任意の多数の望ましいパラメータに関して決めてよい。例えば、アクセス・コマンドを処理するための資源の利用可能度を比較してよい。別の例では、I/Oコマンド・キュー深さの質または量の比較を用いてもよいし、管理された信頼性要因の比較を用いてもよい。
認識されるように、この実施の形態は、特定のアクセス・コマンドを処理するためにデータのスナップショット・コピーだけを別の記憶空間に複製することを考える。データの完全性は原始LUN内で保たれる。
また認識されるように、図12の例示の実施の形態は全LUNを別の記憶空間内に複製することを示す。または、未処理のアクセス・コマンドを処理するのにLUNの一部だけが必要な場合は、その部分だけを複製してよい。同様に、それぞれ割り当てられたサブLUNと共にLUNの全てまたは一部だけを、またはサブLUNの全てまたは一部だけをコピーしてもよい。一般に、複製されたデータは未処理のアクセス・コマンドを処理するのに必要なものだけにすべきである。
図13は、本発明の実施の形態に係る広域複製の方法250を実行するステップの例の流れ図である。この方法はブロック252で、システムの通常のI/O処理モードで実行する。ブロック254で、最後のI/Oコマンドの処理が終わったかどうか判定する。イエスの場合はこの方法は終了する。
ブロック256で広域複製を考える方がよい条件が存在するかどうか判定する。例えば、現在複数のISEの間で負荷が比較的均一に分担されていて、ユニット・コントローラ自身の記憶空間を使うのがよいという結果になりそうな場合は、アクセス・コマンドを記憶するときにいつも最適な記憶空間を探すことに決めない方が、貴重な資源を保存できるであろう。しかし当業者が認識するように、広域複製モードを実行する方がよい条件が他に存在することがある。例えば、管理された信頼性が特定のISE108に関する場合や、コントローラが順次データの処理にかかっている場合や、特定のISE108は現在遊休状態なので利用可能な比較的大きな資源ベースを有する場合などであるが、これらに限定されるわけではない。
ブロック256の判定がイエスの場合は、ブロック258で、広域複製の候補のアクセス・コマンドが存在するかどうか判定する。この場合も、各アクセス・コマンドを調べるのではなくシステム性能を低下させそうなものを調べるためのしきい値を決定するとよい。例えば、ユニット・マスタ・コントローラが順次データの処理にかかっているという上に述べた状況は、未処理の並列のアクセス・コマンドを処理する候補になりそうである。別の例は、ユニット・マスタ・コントローラがショート・ストローキング・ルーチンにかかっているので、未処理のアクセス・コマンドをルーチンから外す必要がある場合である。
ブロック258の判定がイエスの場合は、ブロック260で、未処理のアクセス・コマンドを処理するのに最適な記憶空間を決定する。上に述べたように、この決定は一般に、未処理のアクセス・コマンドを処理するのにどの記憶空間が比較的高い処理能力を持っているかについて行う。「比較的高い処理能力」は、資源の利用可能性、未処理のI/Oコマンド・キュー深さ、および管理された信頼性に関して決定してよいが、これらに限定されるわけではない。ターゲットの記憶空間はユニット・マスタ・コントローラに関して内部に、外部に、または広域にあってよい。
最後に、ブロック262で、ユニット・マスタ・コントローラはブロック260で決定した記憶空間に読取り専用コピーを複製する。上に説明したように、複製されたデータ・ブロックのサイズは好ましくは未処理のアクセス・コマンドを処理するのに必要なだけのサイズでよい。例えば、複製されたデータはLUNの全てまたは一部だけ、LUNおよびその各サブLUNの全てまたは一部だけ、またはサブLUNの全てまたは一部だけを含んでよい。
当業者が認識するように、この方法は、データをどこに記憶するかを予め決めて原始データの完全コピーを記憶するデータ・ミラリングとは異なる。この実施の形態はデータを第2のISE108内に複製して第1のアクセス・コマンドを処理し、次に同じデータを別の第3のISE108内に複製して第2のアクセス・コマンドを処理してよい。
最後に、図14は図4と同様の図であるが、複数のデータ記憶装置128および回路板134は、ベース190とこれに付属する密閉カバー192とで形成される密閉容器内に収められる。MDA118Aを形成するデータ記憶装置128を密閉して係合すると、データ記憶装置128の配置が予め選択された最適配置から変わることがないなどの種々の利点がある。またデータ記憶装置128の数、サイズ、タイプを明確に定義できる場合は、かかる配置によりMDA118Aの製作者は最適性能になるようにシステムを調整することができる。
またMDA118Aを密閉すると、製作者は内部の記憶媒体のグループの信頼性および耐故障性を最大にすることができると同時に、MDA118Aの寿命がある限りほとんどサービスをしなくてよい。これは、多スピンドル配置のドライブを最適化することにより行う。設計の最適化により、コストが下がり、性能が向上し、信頼性が向上し、MDA118A内のデータの寿命が一般に延びる。更に、MDA118A自体の設計により回転振動がほとんどなくなり、冷却効率の高い環境が得られる。これは出願中の米国特許出願11/145,404、「強化されたRVIを持つ記憶アレイ(Storage Array with Enhanced RVI)」の主題である。これは本出願の被譲渡人に譲渡されている。これにより、MDA118の信頼性、性能、または容量を落とさずに内部の記憶媒体を低コストで製作することができる。このようにMDA118Aを密閉すると、単点故障がなくなり、回転振動の除去と冷却効率がほとんど完全になる。これにより、ディスク媒体特性が最適になるようにMDA118Aを設計し、コストを下げ、同時に信頼性および性能を高めることができる。
要約すると、複数の回転可能なスピンドルを含む分散記憶システム用の内蔵のISEを提供する。各スピンドルはそれぞれ独立に動くアクチュエータに近接して記憶媒体を支持し、アクチュエータは記憶媒体との間でデータを記憶しまた検索する。ISEは更に、分散記憶システムの遠隔装置が用いるように仮想記憶ボリュームを複数の媒体にマップするISPを含む。
或る実施の形態では、ISEは共通の密閉されたハウジング内に収められた複数のスピンドルおよび媒体を有する。好ましくは、ISPはRAID方式などの故障に耐える方法でデータを記憶するために仮想記憶ボリューム内にメモリを割り当てる。更にISPはデータ記憶プロセス中に、予測される記憶の故障を検出すると決定論的な予防的回復ステップを自発的に開始するなどの管理された信頼性方式を実行することができる。好ましくは、ISEは、それぞれが2個以上のディスクのデータ記憶媒体から形成されディスク・スタックを有する複数のデータ記憶装置で形成する。
別の実施の形態では、ISEは、内蔵の複数の離散的データ記憶装置と、データ記憶装置と通信して遠隔装置から受信したコマンドを取り出してこれに関係するメモリを関連付けるISPとを備える分散記憶システムに用いる。好ましくは、分散記憶システムの1つ以上の遠隔装置が用いるために、ISPは仮想記憶ボリュームを複数のデータ記憶装置にマップする。前と同様に、複数のデータ記憶装置および媒体は共通の密閉されたハウジング内に収めてよい。好ましくは、RAID方式などの故障に耐える方法でデータを記憶するために、ISPは仮想記憶ボリューム内にメモリを割り当てる。更にISPは、予測される記憶の故障を検出するとデータ記憶装置内で決定論的な予防的回復ステップを自発的に開始する。
別の実施の形態では、ホストと、ネットワークによりホストと通信する後部記憶サブシステムと、ホストに無関係に内蔵の記憶容量を仮想化する手段とを備える分散記憶システムを提供する。
仮想化する手段は、複数の離散的で個別にアクセス可能なデータ記憶ユニットを特徴としてよい。仮想化する手段は、複数のデータ記憶ユニットに関連する記憶容量の仮想ブロックをマップすることを特徴としてよい。仮想化する手段は、複数のデータ記憶ユニットおよび関連する制御を密閉して収めることを特徴としてよい。仮想化する手段は、限定されないがRAID方式などの故障に耐える方法でデータを記憶することを特徴としてよい。仮想化する手段は、予測される記憶の故障を検出すると決定論的な予防的回復ステップを自発的に開始することを特徴としてよい。仮想化する手段は、多重スピンドル・データ記憶アレイを特徴としてよい。
ここの目的では、「仮想化する手段」という用語は、それぞれのデータ記憶サブシステム以外のどこかにデータ記憶空間をマップするためのシステム知能を含む前に試みた解決策を明白には考えない。例えば、「仮想化する手段」は記憶マネージャを用いてデータ記憶サブシステムの機能を制御することは考えないし、またSAN構造内またはホスト内にマネージャまたはスイッチを置くことも考えない。
またはこの実施の形態は、アクセス・コマンドを遠隔装置と記憶空間との間で渡すための、ネットワークにより遠隔装置に接続する仮想エンジンを備えるデータ記憶システムを特徴とする。データ記憶システムは更に、アクセス・コマンドを渡すために仮想エンジンがユニークにアドレス指定できる複数のインテリジェント記憶要素(ISE)を有する。仮想エンジンと第1のISEとの間でアクセス・コマンドを渡すのとは無関係に、同時にISEは第1のISEから第2のISEにデータを移す。
或る実施の形態では、各ISEは複数の回転可能なスピンドルを有し、各スピンドルはそれぞれ独立に動くアクチュエータに近接して記憶媒体を支持し、アクチュエータは記憶媒体との間でデータを記憶しまた検索する。複数のスピンドルおよび媒体は共通の密閉されたハウジング内に収めてよい。
各ISEは仮想記憶ボリュームを複数の媒体にマップして管理するためのプロセッサを有する。各ISEプロセッサは、好ましくは複数の異なる独立ドライブの冗長アレイ(RAID)方式の選択された1つなどの故障に耐える方法でデータを記憶するために仮想記憶容量内にメモリを割り当てる。
各ISEプロセッサは記憶の故障を検出すると決定論的な予防的回復ステップを自発的に行ってよい。これを行うとき、各ISEプロセッサは記憶の故障を検出すると第2の仮想記憶容量を割り当ててよい。或る実施の形態では、各ISEプロセッサは異なるISE内に第2の仮想記憶容量を割り当てる。
この実施の形態は更に、仮想エンジンとインテリジェント記憶要素との間のアクセス・コマンドを処理し、同時にインテリジェント記憶要素から別の記憶空間にデータを移すための方法として特徴づけられる。
処理するステップは、インテリジェント記憶要素が仮想記憶ボリュームを内蔵の物理的記憶にマップして管理することを特徴としてよい。好ましくは移すステップは、記憶の故障を検出するとインテリジェント記憶要素が決定論的な予防的回復ステップを自発的に開始することを特徴とする。
移すステップは、記憶の故障を検出するとインテリジェント記憶要素が第2の仮想記憶ボリュームを割り当てることを特徴としてよい。或る実施の形態では、移すステップは、処理するステップで仮想エンジンが異なるアドレスを指定した物理的記憶に関して第2の仮想記憶ボリュームを割り当てることを特徴とする。例えば、移すステップは、第2の仮想記憶ボリュームをインテリジェント記憶要素の内部で割り当てることを特徴としてよい。または、移すステップは、第2の仮想記憶ボリュームをインテリジェント記憶要素の外部で割り当てることを特徴としてよい。すなわち、移すステップは、第2のインテリジェント記憶要素内に第2の仮想記憶ボリュームを割り当てることを特徴とする。
処理するステップは、メモリを割り当てて故障に耐える方法でデータを記憶することを特徴としてよい。また処理するステップは、共通の密閉されたハウジング内でデータを転送しながらデータ転送要素および記憶媒体を互いに動かすことを特徴としてよい。
またはこの実施の形態は、仮想エンジンが個別にアドレス指定できる複数のインテリジェント記憶要素と、データをインテリジェント記憶要素の間で移す手段とを持つデータ記憶システムを特徴とする。この記述およびクレームの目的では、ここに説明した構造およびその同等物に関して「移す手段」という用語は、ホストのアクセス・コマンドに関連する通常のI/Oコマンド処理を中断せずにデータを或る論理ユニットから別の論理ユニットに複製することを意味する。
またはこの実施の形態は、アクセス・コマンドを遠隔装置と記憶空間との間で渡すための、ネットワークにより遠隔装置に接続可能な仮想エンジンを備えるデータ記憶システムを特徴とする。複数のISEは、アクセス・コマンドが同時に仮想エンジンと第1のISEとの間で渡されていることとは独立に、データを第1のISEから第2のISEに複製する。各ISEは複数の回転可能なスピンドルを有し、各スピンドルはそれぞれ独立に動くアクチュエータに近接して記憶媒体を支持し、アクチュエータは記憶媒体との間でデータを記憶しまた検索する。
複製されたデータは、一般に未処理のアクセス・コマンドを処理するのに十分なだけのブロック・サイズの読取り専用コピーを生成する。すなわち、ISEはLUNの全てまたは一部だけ、LUNおよびその各サブLUNの全てまたは一部だけ、またはサブLUNの全てまたは一部だけを複製してよい。
第1のISE(ユニット・マスタ)は、複製されたデータに関連するアクセス・コマンドを処理するのに比較的高い処理能力を有するものとして複数のISEの中から第2のISEを識別する。処理能力の決定は、資源の利用可能性、未処理のI/Oコマンド・キュー深さ、および管理された信頼性に関して行ってよい。
または、この実施の形態は仮想エンジンとISEとの間のアクセス・コマンドを処理し、同時にデータをISEから別の記憶空間に複製する方法を特徴とする。一般に、この方法は未処理のアクセス・コマンドを処理するのに必要なデータだけを複製することを考える。或る実施の形態では、複製するステップは第1のISE内のLUNの一部だけを第2のISE内の読取り専用コピーに複製することを特徴とする。または、複製するステップは第1のISE内の全LUNを第2のISE内の読取り専用コピーに複製することを特徴とする。または、複製するステップは第1のISE内のLUNおよびそのそれぞれのサブLUNを第2のISE内の読取り専用コピーに複製することを特徴とする。または、複製するステップは第1のISE内のサブLUNだけを第2のISE内の読取り専用コピーに複製することを特徴とする。
処理するステップは、複製されたデータに関連するアクセス・コマンドを処理するのに比較的高い処理能力を有するものとして、複数のISEの第1のISEが複数のISEの中から第2のISEを識別することを特徴とする。処理能力の決定は、資源の利用可能性、未処理のI/Oコマンド・キュー深さ、および管理された信頼性に関して行ってよい。処理能力を決定すると、第1のISEに関して内部に、外部に、または広域に複製を行う。
この方法は更に、ターゲット記憶空間の望ましい性能に関してデータを移す速度を選択することを特徴とする。一般に、複製は読取り専用コピーを複数のターゲット記憶空間のどれかに向けて行う。例えば、この方法はデータを第1のISEから第2のISEに複製して第1の未処理のアクセス・コマンドを処理し、次に同じデータについてデータを第2のISEに複製して次のアクセス・コマンドを処理する。
またはこの実施の形態は、仮想エンジンが個別にアドレス指定できる複数のISEと、インテリジェント記憶要素の間でデータを複製する手段とを持つデータ記憶システムを特徴とする。この説明の目的およびクレームの意味では、「複製する手段」という用語は、ユニット・マスタ・コントローラがシステム全体の性能パラメータを評価し、これに従って未処理のアクセス・コマンドを処理するためにデータの複製を指示することのできる、ここに開示した構造を必要とする。
理解されるように、これまでの記述で本発明の種々の実施の形態の多くの特徴および利点を、本発明の種々の実施の形態の構造および機能の詳細と共に述べたが、この詳細な記述は単なる例示であって、詳細に関しては、特に本発明の原理内の部分の構造および配置に関してクレームを表現する用語の広い一般的な意味で示す範囲で、変更を行ってよい。例えば、本発明の精神と範囲から逸れない限り特定の要素を特定の処理環境に従って変えてよい。
更に、ここに述べた実施の形態はデータ記憶アレイに関するものであるが、当業者が認識するように、クレームされた主題はこれに限定されるものではなく、本発明の精神および範囲から逸れない限り種々の他の処理システムを用いてよい。
本出願は2005年6月3日に出願されて本出願の被譲渡人に譲渡された米国出願番号11/145,403の一部継続出願である。
図1は、本発明の実施の形態が有用であるコンピュータ・システムの線図である。 図2は、図1のコンピュータ・システムの簡単な線図である。 図3は、本発明の実施の形態に従って構築されたインテリジェント記憶要素の組立分解等角図である。 図4は、図3のインテリジェント記憶要素の多重ディスク・アレイの部分的組立分解等角図である。 図5は、図4の多重ディスク・アレイに用いられる例示のデータ記憶装置である。 図6は、図3のインテリジェント記憶要素の機能的ブロック図である。 図7は、図3のインテリジェント記憶要素のインテリジェント記憶プロセッサ回路板の機能的ブロック図である。 図8は、図3のインテリジェント記憶要素のインテリジェント記憶プロセッサの機能的ブロック図である。 図9は、図3のインテリジェント記憶要素が行うコマンド取出しおよび関連するメモリ・マッピング・サービスの機能的ブロック図表現である。 図10は、図3のインテリジェント記憶要素が行う別の例示のデータ・サービスの機能的ブロック図である。 図11は、本発明の実施の形態に係る広域複製の方法を示す線図である。 図12は、本発明の実施の形態に係る広域複製の方法を示す線図である。 図13は、本発明の実施の形態に係る広域複製の方法を実行するステップの流れ図である。 図14は、図3と同様であるが、密閉された容器の中にデータ記憶装置および回路板を収めるものを示す図である。
符号の説明
102 遠隔装置(ホスト)
108 インテリジェント記憶要素(ISE)
109 記憶空間
200 仮想エンジン

Claims (21)

  1. データ記憶システムであって、
    アクセス・コマンドを遠隔装置と記憶空間との間で渡すための、ネットワークにより前記遠隔装置に接続可能な仮想エンジンと、
    複数のインテリジェント記憶要素(ISE)であって、前記アクセス・コマンドが同時に前記仮想エンジンと第1のISEとの間で渡されていることとは独立に、データを前記第1のISEから第2のISEに複製する、前記ISEと、
    を備える前記データ記憶システム。
  2. 各ISEは複数の回転可能なスピンドルを備え、各スピンドルはそれぞれ独立に動くアクチュエータに近接して記憶媒体を支持し、前記アクチュエータは記憶媒体との間でデータを記憶しまた検索する、請求項1記載のデータ記憶システム。
  3. 前記ISEは前記第1のISE内の論理ユニット番号(LUN)の一部だけを前記第2のISE内の読取り専用コピーにコピーする、請求項2記載のデータ記憶システム。
  4. 前記ISEは前記第1のISE内の全LUNを前記第2のISE内の読取り専用コピーにコピーする、請求項2記載のデータ記憶システム。
  5. 前記ISEは前記第1のISE内のLUNとその対応するサブLUNとを前記第2のISE内の読取り専用コピーにコピーする、請求項2記載のデータ記憶システム。
  6. 前記ISEは前記第1のISE内のサブLUNだけを前記第2のISE内の読取り専用コピーにコピーする、請求項2記載のデータ記憶システム。
  7. 前記第1のISEは、前記複製されたデータに関連するアクセス・コマンドを処理するのに比較的高い処理能力を有するものとして、前期複数のISEから前記第2のISEを識別する、請求項1記載のデータ記憶システム。
  8. 前記処理する能力は、資源の利用可能性、未処理のI/Oコマンド・キュー深さ、および管理された信頼性から成る一組のパラメータの中の或るパラメータに関して決定する、請求項7記載のデータ記憶システム。
  9. 仮想エンジンとISEとの間のアクセス・コマンドを処理し、同時にデータを前記ISEから別の記憶空間に複製することを含む方法。
  10. 前記複製するステップは第1のISE内のLUNの一部だけを第2のISE内の読取り専用コピーに複製することを特徴とする、請求項9記載の方法。
  11. 前記複製するステップは第1のISE内の全LUNを第2のISE内の読取り専用コピーに複製することを特徴とする、請求項9記載の方法。
  12. 前記複製するステップは第1のISE内のLUNおよびそのそれぞれのサブLUNを第2のISE内の読取り専用コピーに複製することを特徴とする、請求項9記載の方法。
  13. 前記複製するステップは第1のISE内のサブLUNだけを第2のISE内の読取り専用コピーに複製することを特徴とする、請求項9記載の方法。
  14. 前記処理するステップは、前記複製されたデータに関連するアクセス・コマンドを処理するのに比較的高い処理能力を有するものとして、複数のISEから前記第2のISEを識別する、複数のISEの第1のISEを特徴とする、請求項9記載の方法。
  15. 前記処理する能力は、資源の利用可能性、未処理のI/Oコマンド・キュー深さ、および管理された信頼性から成る一組のパラメータからの或るパラメータに関して決定する、請求項14記載の方法。
  16. 前記処理するステップは、データを前記ISEの内部に複製することを特徴とする、請求項9記載の方法。
  17. 前記処理するステップは、データを前記ISEの外部に複製することを特徴とする、請求項9記載の方法。
  18. 前記処理するステップはデータを第2のISE内に複製することを特徴とする、請求項9記載の方法。
  19. 前記処理するステップはターゲット記憶空間の望ましい性能に関してデータを移す速度を選択することを特徴とする、請求項9記載の方法。
  20. 前記処理するステップは前記第2のISEとは異なる第3のISE内にデータを複製することを特徴とする、請求項18記載の方法。
  21. データ記憶システムであって、
    仮想エンジンが個別にアドレス指定できる複数のISEと、
    インテリジェント記憶要素の間でデータを複製する手段と、
    を備えるデータ記憶システム。
JP2007173265A 2006-06-30 2007-06-29 広域複製を持つ分散記憶システム Pending JP2008016028A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/479,432 US7644228B2 (en) 2005-06-03 2006-06-30 Distributed storage system with global replication

Publications (1)

Publication Number Publication Date
JP2008016028A true JP2008016028A (ja) 2008-01-24

Family

ID=39072928

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007173265A Pending JP2008016028A (ja) 2006-06-30 2007-06-29 広域複製を持つ分散記憶システム

Country Status (1)

Country Link
JP (1) JP2008016028A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002333956A (ja) * 2001-05-09 2002-11-22 Hitachi Ltd ディスク制御装置を用いた計算機システムおよびその運用サービス
WO2004066277A2 (en) * 2003-01-20 2004-08-05 Equallogic, Inc. System and method for distributed block level storage
JP2005353035A (ja) * 2004-05-10 2005-12-22 Hitachi Ltd ストレージシステムにおけるデータ移行
JP2006053601A (ja) * 2004-08-09 2006-02-23 Hitachi Ltd ストレージ装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002333956A (ja) * 2001-05-09 2002-11-22 Hitachi Ltd ディスク制御装置を用いた計算機システムおよびその運用サービス
WO2004066277A2 (en) * 2003-01-20 2004-08-05 Equallogic, Inc. System and method for distributed block level storage
JP2007524877A (ja) * 2003-01-20 2007-08-30 イコールロジック, インク. データ記憶システム
JP2005353035A (ja) * 2004-05-10 2005-12-22 Hitachi Ltd ストレージシステムにおけるデータ移行
JP2006053601A (ja) * 2004-08-09 2006-02-23 Hitachi Ltd ストレージ装置

Similar Documents

Publication Publication Date Title
US7966449B2 (en) Distributed storage system with global replication
US7984258B2 (en) Distributed storage system with global sparing
JP4986045B2 (ja) 二重アクティブ・コントローラ内のライト・キャッシュ・データのフェイルオーバーおよびフェイルバック
US6598174B1 (en) Method and apparatus for storage unit replacement in non-redundant array
US6571354B1 (en) Method and apparatus for storage unit replacement according to array priority
US7181578B1 (en) Method and apparatus for efficient scalable storage management
US7337351B2 (en) Disk mirror architecture for database appliance with locally balanced regeneration
US6457139B1 (en) Method and apparatus for providing a host computer with information relating to the mapping of logical volumes within an intelligent storage system
US6691209B1 (en) Topological data categorization and formatting for a mass storage system
US7707456B2 (en) Storage system
JP5523468B2 (ja) 直接接続ストレージ・システムのためのアクティブ−アクティブ・フェイルオーバー
US7913038B2 (en) Distributed storage system with accelerated striping
EP4139802B1 (en) Methods for managing input-ouput operations in zone translation layer architecture and devices thereof
US20060224854A1 (en) Storage system
US8745326B2 (en) Request priority seek manager
JP2007200299A (ja) データ記憶システムに配置された記憶アレイを再構成するための装置及び方法
US10572188B2 (en) Server-embedded distributed storage system
US20100050012A1 (en) Computer system, storage system and configuration management method
US10915405B2 (en) Methods for handling storage element failures to reduce storage device failure rates and devices thereof
JP5594942B2 (ja) 好適なゾーン・スケジューリング
US6341317B1 (en) Method and apparatus for managing a log of information in a computer system including an intelligent storage system
JP5150947B2 (ja) 広域予備化した分散記憶システム
JP2008016028A (ja) 広域複製を持つ分散記憶システム
JP2006344218A (ja) ストレージ中心のコンピュータ・システム
JPWO2008126169A1 (ja) ストレージ管理プログラム、ストレージ管理方法およびストレージ管理装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100524

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100528

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100827

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100901

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100928

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101027

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110322