JP7312251B2

JP7312251B2 - 様々なデータ冗長性スキームを備えた、システムにおける利用可能なストレージ空間を改善すること

Info

Publication number: JP7312251B2
Application number: JP2021520585A
Authority: JP
Inventors: クラークコーリー，クリストファー; デヴィッドマッカーシー，ダニエル; クマルミシュラ，スニヒート; ニコラスロンゴ，オースティノ
Original assignee: ネットアップ，インコーポレイテッド
Priority date: 2018-10-15
Filing date: 2019-10-15
Publication date: 2023-07-20
Anticipated expiration: 2039-10-15
Also published as: WO2020081512A1; EP3867759A1; US11461015B2; US20200117372A1; US20230013281A1; CN112889033A; JP2022512064A

Description

本開示は、クラスタのストレージノードが提供するデータの保護に関し、より具体的には、クラスタのストレージノードがサービスするデータのストレージ空間効率を改善しつつ、データの保護に関する。

クラスタとして組織化された複数のストレージノードは、クラスタの１つ以上のクライアントが発行するストレージ要求にサービスするように構成されている分散ストレージアーキテクチャを提供することができる。ストレージ要求は、クラスタのストレージノードの１つ以上に結合されたストレージデバイスに記憶されたデータに向けられる。ストレージノードが提供するデータは、ハードディスクドライブ、ソリッドステートドライブ、フラッシュメモリシステム、または他のストレージデバイスなどの永続的ストレージデバイスとして具現化された複数のストレージユニットに分散され得る。ストレージノードは、論理ユニット（ＬＵＮ）としてアクセス可能な論理ボリューム（ｖｏｌｕｍｅ）として、デバイスに記憶されたデータを論理的に組織化することができる。各ボリュームは、ボリュームのためのデータを記憶するデータブロック、およびボリュームのデータを説明するメタデータブロックなどのデータ構造のセットとして実装され得る。例えば、メタデータは、データのためのデバイス上のストレージ場所を識別するなどして説明することができる。

具体的には、ＬＵＮなどのボリュームをデータブロックに分割することができる。データの耐久性の向上をサポートするために、データブロックを複数のストレージノード間で複製することができる。すなわち、ノードが故障した場合にデータの完全性（可用性）を保証するために、重複ブロックのような冗長性スキームがクラスタ内で採用することができる。ストレージ効率を改善するために、消去コーディングのような重複以外のデータ冗長性方法を使用することができる。データが符号化されず、データブロックの１つ以上のコピーが故障していないノードから得られるデータ重複とは異なり、データの一部は消去コーディングで符号化され、ノード故障の場合に再構成のために使用される。しかし、複製冗長性と消去コーディング冗長性の両方について、クラスタ内で同じレベルのデータ完全性をサポートすることは、ストレージ空間にとって非効率的であることがある。このような非効率性は、データ冗長性のレベルが冗長性スキーム間で異なる場合に悪化することがある。

本明細書における実施形態の上記およびさらなる利点は、以下の説明を添付の図面に関連付けて参照することにより、よりよく理解され得る。図面において、同様の参照番号は、同一のまたは機能的に類似の要素を示す。

ストレージクラスタとして相互接続された複数のストレージノードのブロック図である。ストレージノードのブロック図である。ストレージノードのストレージサービスのブロック図である。ストレージサービスの例示的な実施形態のブロック図である。ストレージノードの書き込み経路を示す。ブロック識別子の詳細を示すブロック図である。利用可能なストレージ空間を最大化しながら、複数のデータ保護スキームを提供するように構成された技術のための例示のワークフローを示す。利用可能なストレージ空間を最大化しながら、消去コーディングを含む複数のデータ保護スキームを提供するように構成された技術のための例示のワークフローを示す。複数のデータ保護スキームに対応したデータブロックのガーベッジコレクションのための方法の動作を示すフローチャートである。

概要

本明細書で説明される実施形態は、データブロックの重複排除を行うように構成されているクラスタのストレージノードによってサービスされる論理ボリューム（「ｖｏｌｕｍｅｓ」）のデータブロックの複製および消去コーディングのような、様々なデータ保護スキームのためのストレージ利用を改善するように構成されている技術に関する。追加的に、この技術は、ストレージノードのストレージ空間を減少させながら、各重複排除されたデータブロックがデータ保護スキームのデータ完全性保証に適合することを保証するように構成されている。すなわち、データブロックに適用される複数のデータ保護スキームに対しては、同じデータ完全性保証を維持しながら、データ完全性保証を提供するために必要な冗長情報のストレージを低減してもよい。

各ボリュームは、ボリュームのためのデータを記憶するデータブロックや、ボリュームのデータを説明するメタデータブロックのような、データ構造のセットとして実装されてもよい。ボリュームは、データブロックに分割されてもよい。各ノードに実装されるストレージサービスは、メタデータを処理し記憶するように構成されている１つ以上のメタデータ（スライス）サービスを有するメタデータ層と、ノードのストレージデバイスでデータを処理（重複排除）し、これを記憶するように構成されている１つ以上のブロックサービスを有するブロックサーバ層と、を含む。特に、ブロックサービスは、様々なデータ保護スキームによって提供される最大限の程度のデータ保護を提供するように構成され、ボリューム間の様々なデータ保護スキームにもかかわらず、依然としてボリューム全体にわたってデータブロックを重複排除する。

複製（冗長性）形式のデータ保護を提供するときに、ストレージノードのスライスサービスは、クラスタ上にストレージするためのデータブロックの１つ以上のコピーを最初に生成する。この技術によれば、ボリュームはデータ保護スキームに応じてスライスサービスに割り当てられる。例えば、データの三重複製保護を提供するときに、スライスサービスは、クラスタ内のストレージノードの追加スライスサービスの持続的なストレージのために、データブロックを同期的にコピー（複製）することによって、データブロックの３つのコピー（すなわち、オリジナルコピー０、コピー１およびコピー２）を生成する。次に、データブロックのコピーは、データブロックのコピーをそれぞれのブロックサービスに非同期的にフラッシュすることによって、クラスタのレプリカ（すなわち、オリジナルのレプリカ０、レプリカ１およびレプリカ２）として本質的に表わされる。したがって、ボリュームのブロックは、オリジナルのレプリカ０（Ｒ０）ブロックサービス、ならびにプライマリレプリカ１（Ｒ１）ブロックサービスおよびセカンダリレプリカ２（Ｒ２）ブロックサービスに割り当てられ得る。各複製されたデータブロックは、ストレージデバイス上の記憶のために各ノードのブロックサービスによって維持される割り当てられたビン内に例示的に整理される。各ビンは、最大複製スキームに基づいて１つ以上のブロックサービスに割り当てられ、例示的には、三重複製データ保護スキームの場合、３つのブロックサービスが各ビンに割り当てられる。スライスサービスは、ビン番号を計算し、データブロックが書き込まれる対応するブロックサービスを有するストレージノードを識別するために、ビン割り当てテーブルを参照する。

この技術によれば、データブロックはまた、対応する保護スキームの表示に関連付けられる（タグ付けされる）。例えば、二重複製データ保護を有するボリュームのデータブロック（すなわち、各々が１レプリカを有するデータブロック）は、Ｒ０データブロックがＲ０ブロックサービスに割り当てられ、Ｒ１データブロックが同じビンであるが異なるブロックサービス、すなわち、プライマリＲ１ブロックサービスに割り当てられるため、２つのブロックサービスに割り当てられるデータブロックを有することがある。例示的に、データブロックは、二重複製データ保護を備えた第１のボリュームに属し、三重複製データ保護を備えた異なる第２のボリュームに属することがある。この技術は、より高い（最も高い）データ完全性保証（すなわち、最も高いデータ保護スキーム）でボリュームを満足させるために、データブロックの十分な複製があることを保証する。例示的に、ノードのスライスサービスは、次に、データブロックのコピー（例えば、二重複製の場合は、Ｒ０、Ｒ１、または三重複製の場合は、Ｒ０～Ｒ２）を、識別されたストレージノードに関連付けられたブロックサービスに非同期的にフラッシュするために、複製スキームに基づき記憶リクエストを発行してもよい。

ブロックサービスは、消去コーディングの形態でデータ保護を提供するときに、消去コーディングされるデータブロックを選択することがある。次に、データブロックのセットをグループ化して、消去コーディングのための書き込みグループを形成してもよい。例示的に、書き込みグループメンバシップは、データが失敗に対して弾力性があるように、ビングループを変化させることによって、例えば、ビン識別子におけるビットのサブセットを変化させることに基づく割り当てによって導かれる。スライスサービスは、異なるビンおよびレプリカのデータブロックを関連付けられたブロックサービスにルーティングする。実施態様は、展開に対して選択されたＥＣスキーム（例えば、４つのデータブロックと、訂正のための２つの符号化ブロック、４＋２ＥＣと呼ばれる）で変動する。ブロックサービスは、暗号ハッシュに従ってデータブロックをビンに割り当て、展開されたＥＣスキームに基づいて多数の異なるビンを一緒にグループ化する。例えば、４つのビンを４＋２ＥＣスキーム（すなわち、４つの符号化されていないデータブロック＋訂正情報を備えた２つの符号化されたブロック）にまとめてグループ化することができ、８つのビンを８＋１ＥＣスキームにまとめてグループ化することができる。異なるビンからのブロックの書き込みグループは、ビンに従って一時的にスプールされたデータブロックから選択することができる。すなわち、書き込みグループの異なるビンのデータブロックは、ビンが一時的にスプールするブロックのプールからビンに従って選択され（すなわち、ピックされ）、データ損失に対して弾力性のある異なる故障ドメインを有するビンの幅広い選択を表すようにする。データブロック（すなわち、符号化されていないブロック）だけがビンに割り当てられる必要があり、符号化されたブロックは、書き込みグループのデータブロックを参照することによって、単に書き込みグループに関連付けられてもよいことに留意されたい。

一例では、ブロックが二重複製を使用する第１のデータ保護スキームと、４＋１消去コーディングを使用する第２のデータ保護スキームを有することを考慮して、各スキームが、任意の１つのブロックの利用不可能性に対して単一の冗長性を有するようにする。ブロックは、４のセットにグループ化することができ、消去コーディングスキームは、符号化されたブロック（例えば、パリティブロック）を形成するために適用することができ、複製スキームに対して４ブロックおよび４重複（すなわち、合計８ブロック）の代わりに、４ブロックのセットごとに５ブロックを生成する。特に、この技術は、ポリシーに従ってブロックに対して同じレベルの冗長性を満足する可能な保護スキームのセットに基づいて、ブロックごとのベースで保護スキーム（例えば、４＋１ＥＣまたは二重複製）を選択することを可能にする。例えば、性能指向ポリシーは、パリティ計算の必要なしに、ブロックの符号化されていないコピーが常に利用可能である二重複製スキームを選択してもよい。一方、ストレージ空間指向ポリシーは、ストレージをより効率的に使用するために、レプリカを除去するＥＣスキームを選択することができる。例示的に、上記の二重複製スキームからの４つの複製および４＋１ＥＣスキームからの５つのブロック（合計９ブロック）は、４つのデータブロックを記憶するために消費することができる。したがって、単一の故障冗長性を維持するために、重複ブロックのうちの４つを除去し、それにより、単一の故障に対して同じデータ完全性保証を維持しながら、ストレージノードのストレージ空間を低減することができる。

利用可能なストレージ空間を改善しながら、データ完全性保証を満たすために、ストレージノードは、現在適用可能なデータ保護スキームに従ってストレージを最適化するために、データブロックのための定期的なガーベッジコレクションを実行することがある。ストレージノードのスライスサービスは、スライスファイル内の各ボリュームに対するメタデータを管理し、ガーベッジコレクション時に、各データ保護スキームに対するリストまたはブルームフィルタを生成する。ブルームフィルタは、現在データ保護スキームに関連付けられているデータブロックを識別し、ブロックサービスは、ブルームフィルタを使用して、それらが管理するデータブロックのデータ保護スキームが変更されているかどうかを決定する。データブロックに対する適用可能なデータ保護スキーム（すなわち、可能な保護スキームのセット）が変更された場合、ブロックサービスは、変更された（すなわち、現在の）ブロックに関連付けられたデータ完全性のレベルを維持するために、ポリシー（例えば、より良い性能、より良いストレージ空間効率）および現在適用可能なスキームに従って、データブロックのストレージ消費を改善（例えば、冗長情報を低減）し得る。すなわち、現在のブロックに関連付けられたデータの同じレベルの冗長性は、冗長性スキームが変更される際に維持され得る。

例えば、データブロックは、二重複製スキームおよび三重複製スキームでタグ付けされ得る。したがって、データブロック（すなわち、レプリカ０、レプリカ１、およびレプリカ２）のオリジナルおよび２つのコピーは、二重および三重保護スキームの両方に適合するように記憶される。三重複製スキームがもはやデータブロックに適用可能ではない場合（例えば、三重複製タグが除去される場合）、データブロックの第３のコピー（すなわち、レプリカ２）は除去されてもよく、データブロックに関連付けられた残りの二重複製スキームに適合するように記憶されたレプリカ０および１のみを残す。データブロックに関連付けられたデータ保護スキームがさらに消去コーディングスキームに変更され、ストレージ空間効率のポリシーが選択される場合、データブロックは単一パリティ保護で書き込みグループに含まれ、データブロックの第２のコピー（すなわち、レプリカ１）は、データブロックが二重複製スキームと同じレベルの冗長性を有するように除去され得る。ただし、パフォーマンスポリシーが選択される場合、レプリカ１を削除できないことがある。特に、データ保護スキームの変更は、ブロックに対して利用可能な保護スキームのセットから選択される。

ストレージ空間効率のポリシーを適用するときに、重複に対する冗長性のレベルより、消去コードの冗長性のレベルが大きいときに、他の冗長情報の節約が生じることがある。例えば、単一のランダム故障から保護するために、二重複製（４つの冗長ブロックを有する合計８ブロック）を使用した上記の４ブロックのセットを考える。同じ４つのブロックは、任意の２つのランダム故障から保護するために、４＋２ＥＣスキーム（２つのパリティブロックを備えた合計６ブロック）を採用することができる。データ完全性保証は向上する可能性がある（すなわち、２つのブロックが故障してもよい）が、２つのより少ないブロックが必要となることがある。例示的には、１０ブロックが最初に記憶される。すなわち、４つのオリジナルデータブロック、複製スキームによる４つのレプリカ、およびＥＣスキームによる２つのパリティブロックである。その後、４つのレプリカは、複製スキーム単独によって使用されるものよりも高いレベルでＥＣスキームによって使用される６つのブロック（すなわち、４つのデータブロックおよび２つのパリティブロック）を残して、除去することができる。Ｒｅｅｄ－Ｓｏｌｏｍｏｎ符号に基づく８＋３ＥＣのようなより大きな消去コーディングスキームに対して、節約がさらに顕著になることがある。すなわち、二重複製スキームは、１６ブロック（８データブロック＋８冗長ブロック）を必要とする一方、８＋３ＥＣ（８データブロック＋３パリティブロック）スキームは、１１ブロックしか採用しない。したがって、以前は１つのランダム故障しか可能でなかったが、３つのランダム故障をサポートするためには、７つのより少ないブロックが必要である。

詳細な説明

ストレージクラスタ

図１は、ストレージクラスタ１００として相互接続され、クラスタのストレージデバイス上に組織化および記憶された情報、すなわちデータおよびメタデータに対するストレージサービスを提供するように構成されている複数のストレージノード２００のブロック図である。ストレージノード２００は、クラスタスイッチ１１０によって相互接続され、クラスタ１００の分散スケールアウトストレージアーキテクチャを提供するために協働する機能コンポーネントを含んでもよい。各ストレージノード２００の構成要素は、ハードウェアおよびソフトウェアの機能を含み、これにより、ノードは、コンピュータネットワーク１３０を介して１つ以上のクライアント１２０に接続し、これらにサービスすると共に、ストレージデバイスのストレージアレイ１５０に接続して、それにより、分散ストレージアーキテクチャに従ってストレージサービスを与えることが可能となる。

各クライアント１２０は、情報配信のクライアント／サーバモデルに従って、ストレージノード２００と対話するように構成されている汎用コンピュータとして具体化され得る。すなわち、クライアント１２０は、ネットワーク１３０を介してパケットを交換することによって、ノード２００のサービスを要求することができ、そしてノードは、クライアントが要求するサービスの結果を返することができる。クライアントは、ファイルおよびディレクトリのようなストレージオブジェクトの形態でストレージノード上の情報にアクセスするときに、ＴＣＰ／ＩＰ（ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ／ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）を介して、ＮＦＳ（ＮｅｔｗｏｒｋＦｉｌｅＳｙｓｔｅｍ）およびＣＩＦＳ（ＣｏｍｍｏｎＩｎｔｅｒｎｅｔＦｉｌｅＳｙｓｔｅｍ）のようなファイルベースのアクセスプロトコルを含むパケットを発行することができる。しかし、一実施形態では、クライアント１２０は、論理ユニット（ＬＵＮ）などのストレージオブジェクトの形態で情報にアクセスするときに、ＴＣＰを介してカプセル化されたＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍｓＩｎｔｅｒｆａｃｅ）（ｉＳＣＳＩ）やＦＣＰを介してカプセル化されたＳＣＳＩ（ＦＣＰ）などのブロックベースのアクセスプロトコルを含むパケットを例示的に発行する。

図２は、システムバス２８０によって相互接続された、１つ以上の処理ユニット（プロセッサ）２１０と、メインメモリ２２０と、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）２３０と、ネットワークインターフェース２４０と、１つ以上のストレージコントローラ２５０と、クラスタインターフェース２６０とを有するコンピュータシステムとして例示的に具体化されたストレージノード２００のブロック図である。ネットワークインターフェース２４０は、コンピュータネットワーク１３０を介してストレージノード２００をクライアント１２０に結合するように構成されている１つ以上のポートを含むことができ、このネットワーク１３０は、ポイントツーポイントリンク、ワイドエリアネットワーク、公衆ネットワーク（インターネット）または共有ローカルエリアネットワークを介して実装された仮想プライベートネットワークを含むことができる。したがって、ネットワークインターフェース２４０は、ストレージノードをネットワーク１３０に接続するために必要な機械的、電気的、および信号回路を含み、このネットワーク１３０は、イーサネット（登録商標）またはＦＣ（ＦｉｂｅｒＣｈａｎｎｅｌ）ネットワークを具現化することができる。

メインメモリ２２０は、本明細書で説明される実施形態に関連付けられたソフトウェアプログラムおよびデータ構造を記憶するために、プロセッサ２１０によってアドレス指定可能なメモリ位置を含んでもよい。次に、プロセッサ２１０は、ストレージサービス３００の１つ以上のメタデータサービス３２０ａ～３２０ｎおよびブロックサービス６１０～６６０などのソフトウェアプログラムを実行し、データ構造を操作するように構成されている処理要素および／または論理回路を含んでもよい。オペレーティングシステム２２５は、その一部が典型的にはメモリ２２０（インコア）に常駐し、処理要素（例えば、プロセッサ２１０）によって実行され、特に、ノードによって実行されるストレージサービス３００をサポートする呼び出し動作によってストレージノードを機能的に組織化する。適切なオペレーティングシステム２２５は、ＵＮＩＸ（登録商標）シリーズまたはＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）シリーズのオペレーティングシステムのような汎用オペレーティングシステム、またはマイクロカーネルおよび埋め込みカーネルのような設定可能な機能を有するオペレーティングシステムを含んでもよい。しかし、本明細書で説明される実施形態では、オペレーティングシステムは、例示的には、Ｌｉｎｕｘ（登録商標）オペレーティングシステムである。様々なコンピュータ可読媒体を含む他の処理およびメモリ手段が、本明細書における実施形態に関連するプログラム命令を記憶および実行するために使用されてもよいと、当業者には明らかであろう。

ストレージコントローラ２５０は、ストレージノード２００上に実装されたストレージサービス３００と協働して、クライアント１２０が要求する情報にアクセスする。情報は、好ましくは、例示的にフラッシュストレージデバイスとして具現化された内部ソリッドステートドライブ（ＳＳＳＤ）２７０、ならびに外部ストレージアレイ１５０（すなわち、ノードに取り付けられた追加のストレージアレイ）のＳＳＤなどのストレージデバイス上に記憶される。一実施形態では、フラッシュストレージデバイスは、ＮＡＮＤフラッシュ構成要素、例えば、単層セル（ＳＬＣ）フラッシュ、多層セル（ＭＬＣ）フラッシュまたは三層セル（ＴＬＣ）フラッシュに基づくブロック指向デバイス（すなわち、ブロックとしてアクセスされるドライブ）とすることができるが、他のブロック指向不揮発性ソリッドステート電子デバイス（例えば、ストレージクラスのメモリ構成要素に基づくドライブ）が、本明細書で説明される実施形態と共に有利に使用され得ると当業者には理解されるであろう。ストレージコントローラ２５０は、従来のシリアル接続ＳＣＳＩ（ＳＡＳ）トポロジーおよびシリアルＡＴＡトポロジーなどの、Ｉ／Ｏ相互接続構成を介してＳＳＤ２７０に結合するＩ／Ｏインターフェース回路を有する１つ以上のポートを含んでもよい。

クラスタインターフェース２６０は、ストレージノード２００をクラスタ１００の他のノードに結合するように適合されている１つ以上のポートを含んでもよい。一実施形態では、デュアル１０Ｇｂｐｓイーサネットポートが、ノード間通信に使用されてもよいが、本明細書で説明される実施形態内では、他のタイプのプロトコルおよび相互接続が利用されることがあると当業者には明らかであろう。ＮＶＲＡＭ２３０は、ストレージノードおよびクラスタ環境の障害に照らしてデータを維持することができるバックアップバッテリまたは他の組み込み最終状態保持能力（例えば、ストレージクラスメモリなどの不揮発性半導体メモリ）を含んでもよい。

ストレージサービス

図３Ａは、ストレージクラスタ１００の各ストレージノード２００によって実装されるストレージサービス３００のブロック図である。ストレージサービス３００は、例示的に、クラスタ１００の分散ストレージアーキテクチャを提供するために、ノード２００の他の機能的構成要素と協働する１つ以上のソフトウェアモジュールまたは層として組織化されている。一実施形態では、分散ストレージアーキテクチャは、構成要素（例えば、ネットワーク、メモリ、および計算リソース）を集約および仮想化して、大きなストレージのプール、すなわち、クラスタ１００全体に対するノード２００の内部ＳＳＤ２７０および外部ストレージアレイ１５０を含む、全てのストレージを有する単一ストレージシステムの抽象化を提示する。換言すれば、アーキテクチャは、クラスタ全体のストレージを統合して、ＬＵＮのストレージを可能にし、ＬＵＮの各々は、４０９６バイト（４ＫＢ）または５１２バイトのいずれかの論理ブロックサイズを有する１つ以上の論理ボリューム（「ボリューム」）に割り当てられてもよい。各ボリュームには、さらに、サイズ（ストレージ容量）およびパフォーマンス設定（サービスの品質）などのプロパティ、ならびにアクセス制御が設定されており、その後、好ましくはｉＳＣＳＩおよび／またはＦＣＰを介して、クライアントに対してブロックストレージプールとしてアクセス可能（すなわち、エクスポートされる）とすることができる。次いで、ノード２００のネットワーク、メモリ、およびコンピュータリソースをクラスタ１００に対して成長させる（追加する）ことによって、ストレージ容量およびパフォーマンスの両方をその後「スケールアウト」することができる。

各クライアント１２０は、ストレージノード２００がサービスするボリュームのデータにアクセスするために、入出力（Ｉ／Ｏ）要求、すなわちストレージ要求としてパケットを発行することができ、ストレージ要求は、ボリューム上に記憶するためのデータ（すなわち、書き込み要求）またはボリュームから取得するためのデータ（すなわち、読み出し要求）、ならびに、ボリュームの論理ブロックのサイズおよび長さに基づいて、ボリューム内に論理ブロックアドレスまたはインデックスの形態のクライアントアドレッシングを含むことができる。クライアントアドレッシングは、メタデータとして具現化されてもよく、このメタデータは、分散ストレージアーキテクチャ内のデータから分離され、クラスタ内の各ノードは、メタデータおよびデータを、ノードに結合されたストレージデバイスの異なるストレージデバイス（例えば、ＳＳＤ２７０ａ～２７０ｎ上にデータ、ＳＳＤ２７０ｘ上にメタデータ）上に記憶することができる。そのために、各ノード２００に実装されるストレージサービス３００は、メタデータを処理し、例えばＳＳＤ２７０ｘ上に記憶するように構成されている１つ以上のメタデータサービス３２０ａ～３２０ｎを有するメタデータ層３１０と、データを処理し、例えばＳＳＤ２７０ａ～ｎ上に記憶するように構成されている１つ以上のブロックサービス６１０～６６０を有するブロックサーバ層３３０と、を含む。例えば、メタデータサービス３２０ａ～ｎは、クライアントがボリューム上のデータにアクセスするために使用するクライアントアドレッシング（例えば、ＬＢＡインデックス）と、ブロックサービス６１０～６６０が、例えばＳＳＤのボリューム上のデータを記憶および／取得するために使用するブロックアドレッシング（例えば、ブロック識別子）との間でマップされる。

図３Ｂは、ストレージサービス３００の代替の実施形態のブロック図である。ストレージノードに対してストレージ要求を発行するときに、クライアント１２０は、典型的には、（例えば、インデックスまたはＬＢＡを介して）ノードがエクスポートするボリュームに接続する。効率的な実装を提供するために、メタデータ層３１０は、代替的に、１つ以上のボリュームサービス３５０ａ～３５０ｎとして組織化されてもよく、各ボリュームサービス３５０は、メタデータサービス３２０の機能を、ボリュームの粒度で実行することができ、すなわち、ボリュームに対するメタデータを処理し、記憶することができる。しかし、ボリュームに対するメタデータは、単一のボリュームサービス３５０が処理し、記憶するには大きすぎることがあり、従って、複数のスライスサービス３６０ａ～３６０ｎが各ボリュームサービス３５０に関連付けられてもよい。したがって、ボリュームのメタデータは、スライスに分割されてもよく、メタデータのスライスは、各スライスサービス３６０上に記憶され、処理され得る。ボリュームに対するストレージ要求に応答して、ボリュームサービス３５０は、どのスライスサービス３６０ａ～ｎがそのボリュームに対するメタデータを含むかを決定し、要求を適切なサービス３６０に転送する。

図４は、ストレージアレイ１５０のボリューム上にデータを記憶するためのストレージノード２００の書き込み経路４００を示す。一実施形態では、クライアント１２０が発行し、クラスタ１００のストレージノード２００（例えば、プライマリノード２００ａ）で受信される例示的な書き込み要求は、以下の形態を有することができる：
ｗｒｉｔｅ（ｖｏｌｕｍｅ，ＬＢＡ，ｄａｔａ）
ここで、ｖｏｌｕｍｅは書き込む論理ボリュームを指定し、ＬＢＡは書き込む論理ブロックアドレスであり、ｄａｔａは書き込むデータの論理ブロックサイズである。例示的には、ストレージノード２００ａのスライスサービス３６０ａが受信するデータは、４ＫＢのブロックサイズに分割される。ボックス４０２において、各４ＫＢデータブロックは、１２８ビット（１６Ｂ）ハッシュ値（データブロックのブロック識別子（ＩＤ）として記録される）を生成するために、従来の暗号ハッシュ関数を使用してハッシュされ、具体的には、ブロックＩＤは、内部ＳＳＤ２７０および外部ストレージアレイ１５０上のデータをアドレス指定する（位置を突き止める）ために使用される。したがって、ブロックＩＤは、データブロックの内容に基づいて生成されるデータブロックの識別子である。従来の暗号ハッシュ関数、例えば、Ｓｋｅｉｎアルゴリズムは、この技術が採用する１６Ｂハッシュ値／ブロックＩＤ内のビットの満足できるランダム分布を提供する。ボックス４０４では、データブロックは、従来の、例えばＬＺＷ（Ｌｅｍｐｅｌ－Ｚｉｆ－Ｗｅｌｃｈ）圧縮アルゴリズムを用いて圧縮され、ボックス４０６ａでは、圧縮されたデータブロックはＮＶＲＡＭ２３０に記憶される。実施形態において、ＮＶＲＡＭ２３０は、書き込みキャッシュとして具現化されることに留意されたい。次に、各圧縮されたデータブロックは、データ保護のためにクラスタ１００の１つ以上の追加ストレージノード（例えば、セカンダリストレージノード２００ｂ）のＮＶＲＡＭ２３０に同期的に複製される（ボックス４０６ｂ）。データブロックがクラスタ１００の複数ストレージノード２００ａ，ｂのＮＶＲＡＭ２３０ａ，ｂに安全かつ永続的に記憶されたときに、確認応答がクライアントに返される。

図５は、ブロック識別子の詳細を示すブロック図である。一実施形態では、データブロックに対するコンテンツ５０２は、ストレージサービス３００によって受信される。上述のように、受信されたデータは、ブロック識別子５０６を決定するためにハッシュ関数５０４を用いて処理され得る内容５０２を有するデータブロックに分割される。すなわち、データは４ＫＢのデータブロックに分割され、各データブロックは、データブロックのブロックＩＤ５０６として記録された１６Ｂのハッシュ値を生成するためにハッシュされ、例示的には、ブロックＩＤ５０６は、ストレージアレイ１５０の１つ以上のストレージデバイス２７０上のデータの位置を突き止めるために使用される。データは、ストレージデバイス上のストレージのためにブロックサービス６１０～６６０によって維持されるビン内に例示的に組織化される。ビンは、ブロックＩＤ５０６から予め定義されたビット数を抽出することによって、対応するデータブロックのストレージのためのブロックＩＤから導出されてもよい。

一実施形態では、ブロックＩＤから抽出された所定のビット数を拡張することによって、ビンをバケットまたは「サブリスト」に分割することができる。例えば、ブロックＩＤのビンフィールド５０８は、ビンを識別する０～６５，５３５の間のビン番号（識別子）（使用される１６ビットの数に依存する）を生成するために使用されるブロックＩＤ５０６の最初の２（例えば、最上位）バイト（２Ｂ）を含んでもよい。ビン識別子はまた、特定のブロックサービス６１０～６６０および関連するＳＳＤ２７０を識別するために使用されてもよい。次に、サブリストフィールド５１０は、ビンを有するサブリストを識別する０～２５５の間のサブリスト識別子（使用される８ビットの数に依存する）を生成するために使用されるブロックＩＤの次のバイト（１Ｂ）を含んでもよい。ビンをサブリストに分割することは、特に、ストレージノードの障害またはクラッシュの場合に、ブロックサービス間のデータのネットワーク転送（または同期）を容易にする。サブリスト識別子に使用されるビット数は、初期値に設定されてもよく、その後、必要に応じて後で調整されてもよい。各ブロックサービス６１０～６６０は、ブロックＩＤと、その関連するストレージデバイス／ＳＳＤ、すなわちブロックサービスドライブ（ＢＳＤ）上のデータブロックの位置との間のマッピングを維持する。

例示的には、ブロックＩＤ（ハッシュ値）を使用して、ＳＳＤの容量に応じて均等にバランスされた（分散された）配置でビン間にデータブロックを分配することができ、バランス配置は、ＳＳＤ間の「結合」に基づいており、すなわち、各ノード／ＳＳＤは、クラスタの同一の故障ドメイン、すなわち保護ドメインにない任意の他のノード／ＳＳＤとほぼ同じ数のビンを共有する。これは、クラスタのストレージノードの全てのＳＳＤ間で作業を均等に分配することによって、高速かつ効率的な再構築を可能にするために、全てのＳＳＤがほぼ同じ量の作業（例えば、データの読み出し／書き込み）を実行するように、障害のときにデータを再構築（すなわち、リビルド）ことに利点がある。一実施形態では、各ブロックサービスは、ノードに結合されたストレージデバイス（例えば、内部ＳＳＤ２７０および外部ストレージアレイ１５０）上のデータブロック位置へのブロックＩＤのマッピングを維持する。

例示的に、ビン割り当ては、クラスタ全体にわたる分散キー値ストアに記憶されてもよい。再び図４を参照すると、分散キー値ストレージは、例えば、クラスタのビン割り当て（例えば、ビン割り当てテーブル）および全てのノードにわたって一貫している設定情報を記憶するために使用される、分散共有無し（すなわち、単一競合点および障害点がない）データベースを提供するように構成されている「ズーキーパ」データベース４５０として具現化されてもよい。一実施形態では、１つ以上のノード２００ｃは、データ構造、例えばビン割り当てテーブル４７０に関連してビン割り当て（すなわち、マッピング）を維持するように構成されているズーキーパデータベース４５０に関連付けられたサービス／プロセスを有する。例示的には、分散ズーキーパは、例えば、クラスタ内の５つの選択されたノードに常駐し、他の全てのノードは、ビン割り当て情報を得るために、選択されたノードの１つに接続する。したがって、これらの選択された「ズーキーパ」ノードは、クラスタ内のノードの異なる故障ドメインに分散されたズーキーパデータベースイメージを複製しており、ズーキーパデータベースの単一の故障点は存在しない。換言すれば、他のノードは、現在のビン割り当てを得るために、最も近いズーキーパデータベースイメージ（ズーキーパノード）にズーキーパ要求を発行し、これは、アクセス時間を改善するためにノードでキャッシュされ得る。

ＮＶＲＡＭ２３０ａ，ｂに受信および記憶された各データブロックについて、スライスサービス３６０ａ，ｂは対応するビン番号を計算し、ビン割り当てテーブル４７０を参照して、データブロックが書き込まれるＳＳＤ２７０ａ，ｂを識別する。次いで、ボックス４０８ａ、ｂにおいて、ストレージノード２００ａ、ｂのスライスサービス３６０ａ、ｂは、識別されたＳＳＤに関連付けられたブロックサービス（例示的に６１０、６２０とラベル付けされた）に、圧縮されたデータブロックのコピーを非同期にフラッシュするストア要求を発行する。各スライスサービス３６０ａ、ｂが発行し、各ブロックサービス６１０、６２０で受信される例示的なストア要求は、以下の形態を有することができる：
ｓｔｏｒｅ（ｂｌｏｃｋＩＤ，圧縮されたデータ）

各ＳＳＤ２７０ａ、ｂ（または外部ストレージアレイ１５０のストレージデバイス）に対するブロックサービス６１０、６２０は、それがデータブロックのコピーを予め記憶しているかどうかを決定する。もしそうでなければ、ブロックサービス６１０、６２０は、ブロックＩＤに関連付けられた圧縮データブロックをＳＳＤ２７０ａ，ｂ上に記憶する。集約されたＳＳＤのブロックストレージプールは、（いつデータが書き込まれたか、またはそれがどこを起源とするかではなく）ブロックＩＤの内容によって組織化され、それにより、クラスタの「コンテンツアドレス指定可能」な分散ストレージアーキテクチャを提供することに留意する。このようなコンテンツアドレス指定可能なアーキテクチャは、クラスタの少なくとも２つのＳＳＤに記憶された各データブロックの少なくとも２つのコピーを除いて、ＳＳＤレベルで「自動的に」（すなわち、「自由に」）データの重複排除を促進する。換言すれば、分散ストレージアーキテクチャは、データのさらなるコピーのインライン重複排除を伴うデータの単一の複製を利用する。すなわち、ハードウェア故障の場合に冗長性の目的のためにデータの少なくとも２つのコピーが存在する。

様々な保護スキームのための利用可能なストレージ空間の改善

本明細書で説明される実施形態は、データブロックの重複排除を実行するように構成されているクラスタのストレージノードがサービスする論理ボリュームのデータブロックのための、複製および消去コーディングなどの様々なデータ保護スキームのためのストレージ利用を改善するための技術に関する。追加的に、この技術は、ストレージノードのストレージ空間を改善しながら、各重複排除されたデータブロックがデータ保護スキームのデータ完全性保証に準拠することを保証するように構成されている。すなわち、データブロックに適用される複数のデータ保護スキームに対しては、同じデータ完全性保証を維持しながら、データ完全性保証を提供するために必要な冗長情報のストレージを低減することができる。

上述のように、各ノードに実装されるストレージサービスは、メタデータを処理および記憶するように構成されている１つ以上のメタデータ（スライス）サービスを有するメタデータ層と、データを処理し（複製し）、ノードのストレージデバイスでデータを処理（重複排除）し、これを記憶するように構成された１つ以上のブロックサービスを有するブロックサーバ層と、を含む。特に、ブロックサービスは、種々のデータ保護スキームによって提供される最大限の程度のデータ保護を提供するように構成されており、ボリューム間でデータ保護スキームが変動するにもかかわらず、依然として、ボリューム全体にわたってデータブロックを重複排除する。

複製（冗長性）の形態でデータ保護を提供するときに、ストレージノードのスライスサービスは、クラスタ上のストレージのためにデータブロックの１つ以上のコピーを生成する。例示的に、スライスサービスは、データブロックの暗号ハッシュに基づいて、データブロックの対応するビン番号を計算し、データブロックが記憶される（すなわち、書き込まれる）ストレージノードを識別するためにビン割り当てテーブルを参照する（すなわち、検索する）。このようにして、ビン割り当てテーブルは、クラスタ内のデータブロックのコピーを追跡する。次いで、追加ノードのスライスサービスは、識別されたストレージノードに関連付けられたブロックサービスに、データブロックのコピーを非同期にフラッシュする記憶リクエストを発行する。

この技術によれば、ボリュームはデータ保護スキームに応じてスライスサービスに割り当てられる。例えば、データの三重複製保護を提供する場合、スライスサービスは、クラスタ内のストレージノードの追加スライスサービスの永続的記憶（例えば、ＮＶＲＡＭ）にデータブロックを同期的にコピー（複製）することによって、データブロックの３つのコピー（すなわち、オリジナルコピー０、コピー１およびコピー２）を最初に生成する。次いで、データブロックのコピーは、データブロックのコピーを各ブロックサービスに非同期的にフラッシュすることによって、クラスタのレプリカ（すなわち、オリジナルのレプリカ０、レプリカ１およびレプリカ２）として本質的に表わされる。したがって、ボリュームのブロックは、オリジナルのレプリカ０（Ｒ０）ブロックサービス、ならびにプライマリレプリカ１（Ｒ１）ブロックサービスおよびセカンダリレプリカ２（Ｒ２）ブロックサービスに割り当てられ得る。各複製されたデータブロックは、ストレージデバイス上のストレージのための各ノードのブロックサービスが維持する割り当てられたビン内に例示的に組織化される。各ビンは、最大複製スキームに基づいて１つ以上のブロックサービスに割り当てられます。具体的には、三重複製データ保護スキームの場合、３つのブロックサービスが各ビンに割り当てられる。例示的に、各スライスサービスは、データブロックに対する対応するビン番号を計算し、ビン割り当てテーブル４７０を参照して（インデックスとしてのビン番号を使用して検索して）、データブロックが書き込まれるストレージノードを識別する。

この技術によれば、データブロックはまた、対応する保護スキームの表示に関連付けられる（タグ付けされる）。例えば、二重複製データ保護を有するボリュームのデータブロック（すなわち、各々が１レプリカを有するデータブロック）は、Ｒ０データブロックがＲ０ブロックサービスに割り当てられ、Ｒ１データブロックが同じビンであるが異なるブロックサービス、すなわち、プライマリＲ１ブロックサービスに割り当てられるため、２つのブロックサービスに割り当てられるデータブロックを有することがある。例示的に、データブロックは、二重複製データ保護を備えた第１のボリュームに属し、三重複製データ保護を備えた異なる第２のボリュームに属してもよい。この技術は、より高いデータ完全性保証（すなわち、最も高いデータ保護スキーム）でボリュームを満足させるために、データブロックの十分なレプリカがあることを保証する。例示的には、ノードのスライスサービスは、次いで、識別されたストレージノードに関連付けられたブロックサービスに、データブロックのコピー（例えば、二重複製の場合はコピーＲ０、Ｒ１、三重複製の場合はコピーＲ０～Ｒ２）を非同期的にフラッシュするための保護スキームに基づくストア要求を発行することができる。

ブロックサービスは、消去コーディングの形態でデータ保護を提供するときに、消去コーディングされるデータブロックを選択することができる。消去コーディングを使用するときに、ストレージノードは、データブロックに加えて、符号化されたブロックをアルゴリズム的に生成するために、消去コードを使用する。一般に、ＲｅｅｄＳｏｌｏｍｏｎなどの消去コードアルゴリズムは、ｎブロックのデータを使用して、追加のｋブロック生成し（ｎ＋ｋ）、ｋは、複製の符号化されたブロックまたはデータ保護のために使用される「パリティ」の数である。消去コーディングされたデータにより、ｎ＋ｋブロックの任意のｎブロックから欠落ブロックを再構成することができる。例えば、８＋３消去コーディングスキーム、すなわち、ｎ＝８およびｋ＝３は、８ブロックのデータを１１ブロックのデータ／パリティに変換する。読み出し要求に応答して、データは、次いで、１１のブロックのうちの任意の８つから（必要ならば）再構成され得る。特に、好ましくは、８つの符号化されていないデータブロックから実行され、符号化されていないデータブロックの１つ以上が利用可能でないときに、再構成が使用される。

次いで、データブロックのセットをまとめてグループ化して消去コーディングのための書き込みグループを形成することができる。例示的に、書き込みグループメンバシップは、データが故障に対して弾力性があるように、ビングループを変動させることによって、例えば、ビン識別子内のビットのサブセットを変動させることに基づく割り当てによって導かれる。スライスサービスは、（例えば、異なるビングループを有する）異なるビンのデータブロックおよび複製を、それらの関連付けられたブロックサービスにルーティングする。実装は、展開のために選択されたＥＣスキーム（例えば、４つのデータブロックと訂正のための２つの符号化されたブロックでは、４＋２ＥＣ）によって変動する。ブロックサービスは、データブロックを暗号ハッシュに従ってビンに割り当て、展開されたＥＣスキームに基づいてある数の異なるビンをまとめてグループ化する。例えば、４つのビンを４＋２ＥＣスキームにまとめてグループ化することができ、８つのビンを８＋１ＥＣスキームにまとめてグループ化することができる。異なるビンからのブロックの書き込みグループは、ビンに従って一時的にスプールされたデータブロックから選択することができる。すなわち、書き込みグループの異なるビンのデータブロックは、ビンが一時的スプールするブロックのプールから選択され、データ損失に対して弾力性のある異なる故障ドメインを有するビンの幅広い選択を表す。データブロック（すなわち、符号化されていないブロック）だけがビンに割り当てられる必要があり、符号化されたブロックは、書き込みグループのデータブロックを参照することによって、単に書き込みグループに関連付けられてもよいことに留意されたい。

一例では、ブロックが二重複製を使用する第１のデータ保護スキームと、４＋１消去コーディングを使用する第２のデータ保護スキームを有することを考慮して、各スキームが、任意の１つのブロックの利用不可能性に対して単一の冗長性するようにする。ブロックは、４のセットにグループ化することができ、消去コーディングスキームは、符号化されたブロック（例えば、パリティブロック）を形成するために適用され、複製スキームに対して４ブロックおよび４重複（すなわち、合計８ブロック）の代わりに、４ブロックのセットごとに５ブロックを生成する。特に、この技術は、ポリシーに従ってブロックに対して同じレベルの冗長性を満足する可能な保護スキームのセットに基づいて、ブロックごとのベースで保護スキーム（例えば、４＋１ＥＣまたは二重複製）を選択することを可能にする。例えば、性能指向ポリシーは、パリティ計算の必要なしに、ブロックの符号化されていないコピーが常に利用可能である二重複製スキームを選択してもよい。一方、ストレージ空間指向ポリシーは、ストレージをより効率的に使用するために、レプリカを除去するＥＣスキームを選択することができる。例示的に、上記の二重複製スキームからの４つの複製および４＋１ＥＣスキームからの５つのブロック（合計９ブロック）は、４つのデータブロックを記憶するために消費することができる。したがって、単一の故障冗長性を維持するために、重複ブロックのうちの４つを除去し、それにより、単一の故障に対して同じデータ完全性保証を維持しながら、ストレージノードのストレージ空間を低減することができる。一実施形態では、ポリシーは、ボリュームの作成時に管理者によって選択されてもよい。

ストレージ空間効率のポリシーを適用するときに、重複に対する冗長性のレベルより、消去コードの冗長性のレベルが大きいときに、他の冗長情報の節約が生じることがある例えば、単一のランダム故障から保護するために、二重複製（４つの冗長ブロックを有する合計８ブロック）を使用した上記の４ブロックのセットを考える。同じ４つのブロックは、任意の２つのランダム故障から保護するために、４＋２ＥＣスキーム（２つのパリティブロックを備えた合計６ブロック）を採用することができる。データ完全性保証は向上する可能性がある（すなわち、２つのブロックが故障してもよい）が、２つのより少ないブロックが必要となることがある。例示的には、１０ブロックが最初に記憶される。すなわち、４つのオリジナルデータブロック、複製スキームによる４つのレプリカ、およびＥＣスキームによる２つのパリティブロックである。その後、４つのレプリカは、複製スキーム単独によって使用されるものよりも高いレベルでＥＣスキームによって使用される６つのブロック（すなわち、４つのデータブロックおよび２つのパリティブロック）を残して、除去することができる。Ｒｅｅｄ－Ｓｏｌｏｍｏｎ符号に基づく８＋３ＥＣのようなより大きな消去コーディングスキームに対して、節約がさらに顕著になることがある。すなわち、二重複製スキームは、１６ブロック（８データブロック＋８冗長ブロック）を必要とする一方、８＋３ＥＣ（８データブロック＋３パリティブロック）スキームは、１１ブロックしか採用しない。したがって、以前は１つのランダム故障しか可能でなかったが、３つのランダム故障をサポートするためには、７つのより少ないブロックが必要である。

例示的には、ビンは、消去コーディングプロセスを最適化する方式でビングループに割り当てられる。例えば、三重複製データ保護スキームの場合、各ビンの３つのレプリカバージョン（オリジナルレプリカ０、プライマリレプリカ１、およびセカンダリレプリカ２）が生成され、ビングループ内のビンは、複数の異なるブロックサービスにわたってビンのオリジナルレプリカ０のバージョンが割り当てられるように割り当てられ、ビンのプライマリレプリカ１のバージョンは異なるブロックサービスに割り当てられ、セカンダリレプリカ２のバージョンはさらに別の異なるブロックサービスに割り当てられる。データブロックは、選択された消去コーディング展開に対して十分な数のブロックが利用可能になるまで、複製ベースのデータ保護スキームに従ってビンに記憶され得る。マスターレプリカとして機能する異なるブロックサービス（マスターレプリカブロックサービス）の１つは、消去コーディングプロセスを調整し、各ビンから消去コーディングの候補となるデータブロックを選択する。マスターレプリカブロックサービスは、符号化されていないままのデータブロックと書き込みグループを形成し、１つ以上の符号化されたパリティブロック、例えば、一次および二次符号化されたパリティブロックを生成する。当業者には既知のように、Ｒｅｄｄ－Ｓｏｌｏｍｏｎなどの様々な消去コーディングアルゴリズムを採用することができる。符号化されたパリティブロックは、符号化されたブロックを生成するために使用されるデータブロックの各々に対するブロック識別子と共に記憶することができる。各レプリカブロックサービスは、ストレージデバイス上の符号化されたデータブロック（例えば、一次および二次符号化されたパリティブロック）の位置を指し示す（すなわち、参照する）ために、データブロックの符号化されていないコピーのメタデータマッピングを更新して、データブロックに対する任意の読み出し要求が符号化されたブロックを返すことができるようにする。特に、符号化されたブロックは、非対称消去コーディングスキームをサポートするために列挙され得る（すなわち、一次、二次など）。符号化されたブロックのマッピングを記憶および更新した後、マスターレプリカブロックサービスは、レプリカ０を維持しつつ、書き込みグループ内のデータブロックの符号化されていない追加のレプリカによって占有されるストレージ空間を解放することができる。

利用可能なストレージ空間を増加させながら（すなわち、重複データブロックの不必要なストレージを低減する）データ完全性保証を満たすために、ストレージノードは、現在適用可能なデータ保護スキームに従ってストレージを増加させるために、データブロックのための定期的なガーベッジコレクションを実行する。ストレージノードのスライスサービスは、スライスファイル内の各ボリュームに対するメタデータを管理し、ガーベッジコレクション時に、各データ保護スキームに対するリストまたはブルームフィルタを生成する。ブルームフィルタは、現在データ保護スキームに関連付けられているデータブロックを識別し、ブロックサービスは、ブルームフィルタを使用して、データ保護スキームが管理する任意のデータブロックのためのデータ保護スキームが変更されているかどうかを決定する。

データブロックのための適用可能なデータ保護スキームが変更された場合、ブロックサービスは、変更されたブロックに以前に関連付けられたデータ完全性のレベルを維持するために、現在適用可能なスキームに従ってデータブロックのストレージを最適化する（例えば、冗長情報を低減する）。すなわち、変更されたブロックに関連付けられたデータの同じレベルの冗長性が、冗長性スキームが変更されたときに維持される。例えば、データブロックは、二重複製スキームおよび三重複製スキームの両方に前もって関連付けられていてもよい。三重複製スキームに準拠するために、データブロックのオリジナルと２つのコピー（すなわち、レプリカ０、レプリカ１、およびレプリカ２）が保存されている。三重複製スキームがもはやデータブロックに適用されない場合、データブロックの第３のコピーは除去されてもよく、残りの二重複製スキームのデータ完全性保証に準拠するために記憶されたレプリカ０および１のみを残す。

図６および図７は、クラスタのための利用可能なストレージ空間を改善しながら、複数のデータ保護スキームを提供するための例示的なワークフローを示す。ワークフローには、動作のステージを表す一連の文字ＡからＧで注釈付けされていることに留意されたい。ワークフローについて順序付けられているが、ステージは、開示の理解を助けるための一例を示すものであり、請求項を限定するために使用すべきではない。特許請求の範囲内に含まれる主題は、順序及び動作の一部に関して変動する可能性がある。特に、ストレージノードがクラスタに追加されると（すなわち、クラスタがスケールアウトされると）、データブロックおよび冗長情報（例えば、パリティブロックおよびレプリカ）は、スケールアウトされたクラスタ内でビンが再割り当てされるにつれて、クラスタ内でリバランスされ得る。

図６の例示的なワークフロー６００を参照すると、各ストレージノード２００ａ～２００ｃは、それぞれスライスサービス３６０ａ～ｃおよびブロックサービス６１０～６３０を含む。各ブロックサービス６１０～６３０は、それぞれ、ビン１－０、ビン１－１、およびビン１－２をホストし、各ビンは、その対応するブロックサービスに割り当てられ、管理される。ステージＡの前に、データブロックＡおよびＢは、ストレージノード２００ａ～２００ｃでのストレージのために、クライアント１２０のうちの１つ以上から受信される。クライアントからの書き込み要求は、データブロックを含み、データが記憶されるボリュームを識別する。ストレージノード２００ａのスライスサービス３６０ａは、管理（オリジナル）スライスサービスとして機能し、クライアントからの要求（すなわち、クライアント対向スライスサービス）を処理する。スライスサービス３６０ａは、ストレージノード２００ｂ、ｃにわたってスライスサービス３６０ｂおよび３６０ｃに複製されるスライスファイル６０７ａおよびスライスファイル６０７ｂ（総称して、スライスファイル６０７と称する）内のメタデータを管理する。例示的に、スライスファイルは、ボリュームと１対１の関係（すなわち、関連付け）を有し、スライスファイル６０７ａは、ボリューム１に対するメタデータを記憶し、スライスファイル６０７ｂは、ボリューム２に対するメタデータを記憶する。特定のボリュームに対する要求が受信されると、スライスサービス３６０ａは、それに応じて対応するスライスファイルを更新する。例えば、ブロックＢは、ボリューム２に向けられた書き込み要求と共に受信されるので、スライスサービス３６０ａは、それに応じて、ブロックＢがボリューム２に関連付けられることを示すことによって、スライスファイル６０７ｂを更新する。また、スライスサービス３６０ａは、スライスファイルへの更新をスライスサービス３６０ｂおよび３６０ｃに通知し、更新のためのメタデータを提供する。

ブロックＢに対する書き込み要求に応答して、スライスサービス３６０ａは、対応するブロックサービス６１０によるストレージのためにブロックＢを準備する。先に示したように、データブロックは、ビン割り当てテーブル４７０に従って各ブロックサービスに割り当てられたビンによって記憶される。上記のように、データブロックは、データブロックに対するブロックＩＤ５０６の先頭ビット（すなわち、ビンフィールド５０８のビット）に基づいてビンに割り当てられてもよい。また、前述のように、ブロックＩＤは、データブロックの暗号ハッシュに基づいて生成されてもよく、データブロックは、次いで、ビンフィールド５０８のビン識別子に対応するビンに記憶される。例えば、ブロックＢは、ビンフィールド５０８内に先頭ビット「１」を有するブロックＩＤを有し、したがって、ｂｉｎ１－０に割り当てられ、ｂｉｎ１－０は、次にブロックサービス６１０に割り当てられると仮定する。重複排除の結果として、単一のデータブロックが複数のボリュームに関連付けられる可能性があることに留意する。例示的には、ブロックＡは、スライスファイル６０７に示されているように、ボリューム１およびボリューム２の両方に関連付けられているが、ストレージ空間を保存するために、ビン１－０内に１回だけ記憶される。一実施形態では、ブロックはブロックＩＤ５０６と共に記憶されるので、ブロックサービスは、同じハッシュ識別子を有するブロックがすでに記憶されていることを決定することによって、ブロックの重複コピーを記憶することを回避する。

この技術によれば、データブロックは、複数の適用可能なデータ保護スキームを有してもよい。データ保護スキームは、図６に示すように、二重複製（複製）および三重複製、ならびに図７に示すように、データ耐久性のための消去コーディングまたは他の技術を含んでもよい。スライスファイル６０７に示されるように、データ保護スキームは、ボリューム毎に構成することができ、例えば、ボリューム１には、三重複製データ保護スキームが設定されており、ボリューム２には、二重複製データ保護スキームが設定されている。ブロックＡのような複数のボリュームに属する単一のデータブロックは、様々なデータ保護スキームを有し、従って、様々なデータ保護要件を有することができる。本明細書で説明される技術は、各データブロックが、データブロックを使用するボリュームのいずれか１つによって設定される最高レベルの保護スキーム（すなわち、最大のデータ完全性保証が最も高い故障許容度を有する）で保護されることを保証する。例えば、二重複製スキームで設定されたボリューム２および三重複製スキームで設定されたボリューム１に属するデータブロックは、三重複製スキームが、単一故障のみではなく、２つの故障を許容することができるため、より大きな保護を提供する三重複製スキームによって保護される。結果として、ブロックＡを含むボリューム２は、また二重複製のみを必要とするが、ボリューム１の三重複製スキームによって要求されるように、ブロックＡは合計３回記憶される。しかし、例示的には、ブロックＢは、ボリューム２の二重保護スキームに従って、２回だけ記憶される。

データ保護スキームをサポートするために、ビンのレプリカが生成され、クラスタのブロックサービス全体に割り当てられる。一実施形態では、ビンは、ある数のボリュームからのデータブロックを含んでもよく、各ビンは、たとえ最高保護スキームが現在ビン内にある任意のデータブロックによって利用されなくても、利用可能な最高レベルのデータ保護スキームをサポートするように構成されている。つまり、ボリュームまたはデータが現在最高レベルのデータ保護を使用していない場合でも、ビンはデータ保護機能に基づいてグローバル（すなわち、クラスタ全体）にブロックサービスに割り当てられる。例えば、図６では、最高レベルの保護スキームは三重複製であるため、各ビンの２つのレプリカが作成され、データブロックのレプリカ０をホストするビンに加えて、それらがブロックサービスに割り当てられる。ブロックサービス６１０によって例示的に維持されるビン１－０は、ブロックＡおよびブロックＢの符号化されていないバージョン／レプリカ０のコピーをホストする。ブロックサービス６２０によって例示的に維持されるビン１－１は、「ホストレプリカ」の「－１」、表記「ビン１－１」によって示されるように、データブロックのレプリカ１（Ｒ１）コピーをホストする。同様に、ブロックサービス６３０によって例示的に維持されるビン１－２は、ホストレプリカの「－２」、表記「ビン１－２」の「－２」によって示されるように、データブロックのレプリカ２（Ｒ２）コピーをホストする。具体的には、ビン１－１は、ブロックＡおよびブロックＢのＲ１コピーをホストし、ビン１－２は、ブロックＡのＲ２コピーをホストする。特に、ビンが、異なるＳＳＤ、異なるストレージノードおよび／またはノードの異なるシャーシなどの異なる故障ドメインにわたって位置付けられるような方式で、ビン割り当てサービス（図示せず）はビンを割り当てて（すなわち、ビン割り当てテーブル４７０を作成し、修正して）もよい。

例示的には、ステージＡにおいて、スライスサービス３６０ａは、ブロックＡがボリューム１から削除されるべきであることを示すコマンド６０９を受信する。スライスサービス３６０ａは、従って、図６のＸによって示されるように、ボリューム１とブロックＡとの間のマッピングを除去することによって、スライスファイル６０７ａを適宜更新する。更新されたスライスファイル６０７ａ（すなわち、メタデータ更新）は、適切なスライスサービスにわたって複製される。スライスサービスは、ブロックＡのオリジナルまたは任意のコピーを削除するために、ブロックサービスへのコマンドの送信を遅延させて、小さなランダム削除動作のパフォーマンス影響を回避することができる。代わりに、ブロックサービスの入出力性能（Ｉ／Ｏ）（例えば、ＳＳＤ２７０のＩ／Ｏ性能）は、計画されたガーベッジコレクション期間のために削除を節約することによって改善することができ、ＳＳＤへの書き込みをまとめることができるようする。

例示的には、ステージＢにおいて、スライスサービスは、未使用のデータブロックを除去するためにガーベッジコレクションの実行を開始する。ガーベッジコレクションは、１時間に１回、または１日に１回など、定期的に実行することができる。ガーベッジコレクションプロセスの開始前に、スライスサービスは、ガーベッジコレクションを実行すべきであるというコンセンサスプロトコルを使用して通信することができる。一実施形態では、スライスサービスは、現在のＩ／Ｏ要求負荷が負荷閾値を超えるか、または依然として利用可能な量のストレージ空間のスペース閾値を超えるとき（すなわち、ガーベッジコレクションの必要性が少ないとき）、ガーベッジコレクションを開始することに異議を唱えることができる。反対に、スライスサービスは、利用可能なストレージ空間の量が最小スペースしきい値を下回ったときに、スケジュールされた定期的なガーベッジコレクションの時間外でガーベッジコレクションが発生するように要求することができる。一実施形態では、ガーベッジコレクションプロセスの一部として、スライスサービスは、スライスファイル６０７を検査（すなわち、歩行（ｗａｌｋｏｒｓｔｒｉｄｅ））して、現在クラスタのボリュームが使用するデータブロックを識別し、ブロックリスト６０８を生成する。例示的に、ブロックリスト６０８は、採用されている各データ保護スキームに対するブロックのリスト、例えば、二重複製ブロックのためのリスト及び三重複製ブロックのためのリストを含む。代替的には、ブロックリスト６０８は、どのブロックが使用中であるかを示すために、ブルームフィルタまたはブロックＩＤの範囲のような他のデータ構造を具現化して、使用されないブロックをガーベッジコレクションによって除去して、ストレージ効率を改善することができるようにする。ブロックリスト６０８はまた、関連するデータ保護スキームに関係なく、使用中のブロックのマスターリストを含んでもよい。

例示的には、ステージＡにおいて、ブロックＡは、ブロックＡのために三重複製を必要とする唯一のボリュームであるボリューム１からアンマッピングされる。スライスサービスは、ステージＢの間にスライスファイル６０７を歩行するため、ブロックＡは、したがって、三重複ブロックのリストに含まれず、二重複製ブロックのリストにのみ含まれる。ブロックリスト６０８を生成した後、スライスサービスは、ブロックリスト６０８をブロックサービスに公開してもよい。一実施形態では、スライスサービスによる公開は、ブロックリスト６０８のためのメモリ位置をブロックサービスに送信することによって、または他の方法でブロックサービスに、ガーベッジコレクションを実行するためのブロックリスト６０８を通知および提供することによって、影響されてもよい。

ステージＣでは、ブロックサービスはガーベッジコレクションプロセスを継続する。ブロックリスト６０８を使用して、各ブロックサービスは、それらの割り当てられたビンに記憶されたデータブロックのブロックＩＤをブロックリスト６０８と比較して、データブロックが依然として使用中であるかどうか、したがって、削除の対象であるかどうかを決定する。ブロックサービスは、現在分析中のビンに関連付けられたデータ保護スキームに基づいて、リストをチェックする。例えば、ブロックサービス６３０は、ビン１－２がビン１のレプリカ２であり、したがって、三重複ブロックのみを含むため、ビン１－２に記憶されたデータブロックのブロックＩＤと、三重複ブロックのブロックリスト６０８のブロックＩＤとを比較する。ブロックサービス６２０は、ビン１－１が両方のデータ保護スキームに対してブロックをホストすることができるため、ブロックが依然として使用中であるかどうかを決定するために、ビン１－１に対するブロックＩＤをブロックリスト６０８内の二重複製リストおよび三重複製リストの両方と比較する。

代替的には、いくつかの実装形態では、スライスサービスはブロックリスト６０８を生成してもよく、三重複製ブロックもまた本質的に二重複製されるため、全ての三重複ブロックも二重複製ブロックのリストにリスト化されるようにする。このような実装では、ブロックサービス６２０は、二重複製ブロックに対してのみリストをチェックすることができる。同様に、ブロックサービス６１０は、データブロックのマスター（オリジナル）コピーをホストし、ブロックリスト６０８内の両方のリスト（すなわち、二重及び三重複製ブロックリスト）をチェックしてもよいし、ブロックのマスターリスト（図示せず）をチェックしてもよい。記憶されたデータブロックに対するブロックＩＤがブロックリスト６０８のうちの適切なリストに見つからない場合、ブロックサービスは、もはや使用中ではないデータブロックのストレージ空間を削除または解放することができる。

例示的には、ステージＣにおけるガーベッジコレクションプロセスの一部として、ブロックサービス６３０は、ブロックＡがもはや三重複製される必要がないので、レプリカ２のビン１－２からブロックＡを削除する。利用可能なストレージ空間を増加させるために、この技術は、適用可能なデータ保護スキームを依然として満足する効率的な方式でデータブロックを記憶するように構成されている。ステージＡにおけるコマンド６０９の結果として、ブロックＡは、二重複製保護スキームを必要とするボリューム１から除去されるが、三重複製スキームで設定されているボリューム２に含まれたままである。ブロックＡのレプリカ２コピーは、二重複製スキームに準拠するためには必要ないため、ブロックＡは、第３のレプリカを提供するビン１－２から除去される。特に、ブロックＡのレプリカ０およびレプリカ１コピーは、その二重複製スキームによって必要とされるように、ボリューム２によって使用するために記憶されたままである。ブロックＡが後にボリューム２からのクライアント要求によって削除されると、ブロックＡはもはやいずれのボリュームによって使用されなくなり、したがって、後のガーベッジコレクションにおいてブロックサービス６１０および６２０によってクラスタからの除去対象である。

上記のように、いくつかの実装形態では、データブロックは、それらの適用可能なデータ保護スキームでタグ付けされ得る。一実施形態では、各データブロックは、データ保護ビットマスクに関連付けられてもよく、アサートされていないセンチネル（ｓｅｎｔｉｎｅｌ）値、例えば、「０」は、対応するデータ保護スキームが適用されないことを示し、アサートされたセンチネル値、例えば、「１」は、対応するデータ保護スキームが適用されることを示す。例示的に、ビットマスクの第１のビットは、二重複製に対応し、第２のビットは三重複製に対応し、第３のビットは４＋１消去コーディングスキームに対応し、第４のビットは４＋２消去コーディングスキームに対応することができる。したがって、二重複製および三重複製に関連付けられたデータブロックは、例えば、「１１００」のマスクを有するだろう。このようなデータ保護ビットマスクは、割り当てられたビンに記憶された各データブロックに対してブロックサービスによって維持することができる。例えば、ステージＣにおいて、ブロックＡがもはや三重複製される必要がないことを決定した後、ブロックサービス６１０は、ブロックＡに関連付けられたビットマスクを更新して、保護スキームの変更を反映させることができる。同様に、ブロックサービス６２０は、ブロックＡのレプリカ１コピーに関連付けられたビットマスクを更新することができる。

一実施形態では、スライスサービスは、ストレージノードにわたってスライスファイル６０７を複製して、各スライスサービスが、記憶された全てのブロックおよび関連付けられたボリューム／データ保護スキームのマッピングについての情報を有するようにしてもよい。代替的には、スライスサービスは、スライスファイル６０７を複製しなくてもよいし、または対応するボリュームのデータ保護スキームに基づいて、１つ以上のスライスファイル内の内容／情報のみを複製することができる。例えば、ボリューム２に関連付けられたスライスファイル６０７ｂ内の情報は、ボリューム２が二重に複製されるだけであるため、スライスサービス３６０ｃに複製されないことがある。追加の例として、スライスサービスの各々は、割り当てられたボリュームに対するスライスファイル情報のみを記憶し、管理することができ、例えば、ボリューム１はスライスサービス３６０ａに割り当て、ボリューム２はスライスサービス３６０ｂに割り当てることができる。ここで、各スライスサービスは、それに利用可能なスライスファイル情報に基づいて、それ自身のブロックリスト６０８を個別に生成し、クラスタのストレージノードにわたってその固有のブロックリストを全てのブロックサービスに通信することができる。したがって、各ブロックサービスは、二重複製ブロックリスト及び三重複ブロックリストの３つのバージョンを受信することができる。

図７の例示的なワークフロー７００を参照すると、ブロックサービス６１０～６４０はビン０～３をホストする、すなわち、ビンは、それらの対応するブロックサービスに割り当てられ、それらのブロックサービスによって管理される。本明細書で使用する場合、ビングループは、データブロックが消去コーディングのために選択されるビン（ビンＩＤ）を識別する。ビングループ内のビンの数は、消去コーディングスキームのための入力データブロックの数に対応し、例えば、（ワークフロー７００で説明されているように）４＋２ＥＣスキームは、４つのビンを使用する。したがって、ビングループ割り当て７０５は、４つのビンＩＤ、すなわち、ビン０、ビン１、ビン２、およびビン３を指定する。例示的に、ビングループ割り当て７０５はまた、プライマリ（マスター）レプリカブロックサービス６５０およびセカンダリレプリカブロックサービス６６０が各ビンに対するレプリカを記憶することを指定する。割り当て表記「６５０：１」および「６６０：２」によって示されるように、マスターレプリカブロックサービス６５０は、ビングループ内の各ビンに対してレプリカ１を記憶（ホスト）し、セカンダリレプリカブロックサービス６６０は、ビングループ内の各ビンに対してレプリカ２をホストする。ビングループ割り当て７０５は、クラスタ１００のマスター／マネージャ（「クラスタマスター／マネージャ」）またはビン割り当てを処理する他のサービス（例えば、ビン割り当てサービス、図示せず）によって生成され、ズーキーパデータベース４５０内のビングループ割り当てテーブル（図示せず）において維持される。特に、ビン割り当てサービスは、（ｉ）ビングループに対して選択されたビンの各オリジナルのレプリカ０のバージョンが異なるブロックサービスに割り当てられること（例えば、ビン０～３がブロックサービス６１０～６４０にわたって割り当てられる）、（ｉｉ）ビンのプライマリレプリカ１のバージョンが同じブロックサービスに割り当てられること（例えば、全てのレプリカ１がマスターレプリカブロックサービス６５０に割り当てられる）、および（ｉｉｉ）ビンのセカンダリレプリカ２のバージョンが同じブロックサービスに割り当てられること（例えば、全てのレプリカ２がセカンダリレプリカブロックサービス６６０に割り当てられる）を保証する。

例示的に、ビン割り当てサービスは、ビンが異なる故障ドメインにわたって位置付けられるような方式で、ビンを割り当ててもよい。例えば、各ビンは、異なるソリッドステートドライブ、異なるストレージノード、および／またはストレージノードの異なるシャーシに割り当てられるか、またはそれらから選択されてもよい。さらに、ビン割り当てサービスは、ブロックサービスが同じビンに対して複数のレプリカをホストしないことを保証することができる。ビン割り当てサービスは、ビングループ割り当て７０５を、プライマリおよびセカンダリレプリカブロックサービス６５０および６６０をそれぞれ含む全てのブロックサービスに利用可能にする。上述のように、ブロックサービス６５０は、プライマリ符号化レプリカをホストし、従って、消去コーディングプロセスを調整するためにビングループ割り当て６０５を使用するマスターレプリカブロックサービス６５０として機能するが、ブロックサービス６６０は、セカンダリ符号化レプリカをホストし、セカンダリレプリカブロックサービス６６０として機能する。

スライスファイル６０７は、ボリューム１および２に設定された消去コーディングデータ保護スキームに割り当てられたデータブロックＡ～Ｄについてのボリュームおよびデータ保護スキーム情報を反映する。しかしながら、ブロックＡはまた、ボリューム３に対して示されるように、三重複製スキームによって保護されるように構成されている。本明細書で説明される技術は、消去コーディングスキームよりも複製ベースのデータ保護スキームを優先するといったように、ポリシーに従った保護スキームの優先順位付けを可能にする。換言すれば、データブロックが適用可能な複製ベースの保護スキームを有する場合、データブロックは、消去コーディングされないことがある。消去コーディングは、故障の場合に情報を再構築するときに、より遅く劣化した読み出し、すなわち、データブロックのレプリカ０コピーがもはや利用可能ではない読み出しをもたらすことがある。このような場合、消去コーディングは、単に欠落データブロックの符号化されていないコピーを読み出すよりも、より時間がかかる欠落データブロックを再構築することを必要とする（再構築を実行するためにパリティと同様に他のデータブロックを読み出すことを必要とする）。したがって、複製ベースの冗長性スキームの使用は、再構築の結果生じるＥＣスキームのより遅い劣化した読み出しが、そのボリューム上に記憶されたデータに対する許容できない性能影響となると想定する。結果として、ブロックＡは複製スキームと関連付けられているため、ブロックＡは消去コーディングに使用されないことがあり、ステージＡの前に、４＋２消去コーディングスキームを満足するためには不十分な数のブロックが存在する。

ステージＡにおいて、ブロックＡがボリューム３から削除されるべきであることを示すコマンド７０９を受信することに応答して、スライスサービス３６０は、データブロックＡがもはやボリューム３に関連付けられていないことを示すために、スライスファイル６０７のスライスファイル３を更新する。したがって、ブロックＡはボリューム３から除去され、結果として、そのデータブロックは消去コーディングに利用可能となる。一実施形態では、消去コーディングは、その後ガーベッジコレクションまたはリサイクリング期間中に実行されてもよい。消去コーディングプロセスを調整するマスターレプリカブロックサービス６５０は、そのブロック識別子を、スライスサービスが生成するデータ保護スキームベースのブロックリストと比較する。ブロックＡを更新して、その唯一の適用可能なデータ保護スキームが消去コーディングであることを示した後、ブロックサービス６５０は、消去コーディングに対してビングループ内の各ビンからの利用可能なデータブロックが存在すると決定し、ステージＢ、Ｃ、およびＤにおいて消去コーディングプロセスを実行する。可能なときに、消去コーディングを実行することにより、ブロックＡ～Ｄに対して符号化されていないコピーを除去することができるため、利用可能なストレージ空間を増加させる。特に、２つ以上の複製スキームがブロックに関連付けられたままであるが、そのブロックのリカバリは、どのリカバリスキーム、例えば、消去コードリカバリおよびレプリカリカバリが使用されるべきかに関して、ポリシー基づいて決定され得る。

ステージＢにおいて、マスターレプリカブロックサービス６５０は、データブロックＡ～Ｄを消去コーディングに利用可能であると識別し、ブロックＡ～Ｄで書き込みグループを形成する。ブロックサービス６５０は、適用可能なデータ保護スキームを識別する各ブロックに関連付けられたデータ保護ビットマスクを分析して、ブロックが消去コーディングされ得ることを決定することができる。ステージＣにおいて、ブロックサービス６５０は、それ自身のストレージデバイス内で符号化ブロックＰを生成および書き込み、符号化ブロックＱを生成し、セカンダリレプリカブロックサービス６６０に書き込む。マスターレプリカブロックサービス６５０は、データブロックＡ～Ｄのその符号化されていないコピーを読み出し、消去コーディングアルゴリズムを使用してそれらを処理し、符号化されたパリティブロックＰおよびＱを生成する。マスターレプリカブロックサービス６５０は、データブロックに対する既存の位置マッピングに加えて、ブロックサービス６５０のＢＳＤ上の符号化されたパリティブロックＰを指すマッピングで、データブロックＡ、Ｂ、Ｃ、およびＤに対する、例えば、それぞれのマッププラグメントのメタデータエントリを更新する。セカンダリレプリカブロックサービス６６０は、同様に、データブロックに対するそのマッピングを、ブロックサービス６６０のＢＳＤ上の符号化されたパリティブロックＱの位置を含むように更新する。また、符号化されたパリティブロックは、書き込みグループ内のデータブロック、すなわち、符号化されたパリティブロックを生成するために使用されたデータブロックＡ～ＤのブロックＩＤと共に記憶される。ステージＤにおいて、マスターレプリカブロックサービス６５０は、データブロックＡ、Ｂ、Ｃ、およびＤの符号化されていないコピーをブロックサービス６５０から削除し、セカンダリレプリカブロックサービス６６０は、データブロックＡ、Ｂ、Ｃ、およびＤの符号化されていないコピーをブロックサービス６６０から削除する。符号化されたブロックＰ、Ｑが作成されたため、データブロックＡ、Ｂ、Ｃ、Ｄは、いまや４＋２の消去コーディングスキームによって保護され、２つの故障後でも読み出し（リカバリ）が依然として可能となる。結果として、データブロックの符号化されていないコピーを削除してストレージ空間を解放することができる。

図８は、ストレージサービス３００における複数のデータ保護スキームに準拠した、データブロックのガーベッジコレクション（ブロック８００）のための方法の動作を示すフローチャートである。一実施形態では、動作は、ブロックサービス６１０～６６０によって実行することができる。大まかに言うと、ブロックサービスは、１つ以上の割り当てられたビンに記憶された各データブロックに対して現在適用可能なデータ保護スキームを識別してもよい。データブロックに対する適用可能なデータ保護スキームが変更されたと決定された場合、ブロックサービスは、データブロックの符号化されていないコピーによって以前に占有されていたストレージ空間を解放（すなわち増加）することを可能にするために、不必要なコピーを削除するか、または他のデータブロックと共に消去コーディングすることによって、データブロックのストレージオーバーヘッドを低減することができる。

ブロック８０２では、ブロックサービスは、ブルームフィルタのようなデータ構造を受信し、適用可能なデータ保護スキーム毎に依然として使用中のデータブロックを識別し、選択されたデータブロック毎（ブロック８０４）に、選択されたブロックに現在割り当てられているデータ保護スキームを決定する（ブロック８０６）。ブロック８０８において、ブロックサービスは、選択されたデータブロックの識別子（ブロックＩＤ）を使用して、データ保護スキームについて対応するデータ構造を検索する。決定ブロック８１０において、データ保護スキームのいずれかが選択されたデータブロックにもはや適用されないかどうかの決定が行われる。そうでない場合、方法はブロック８０４に戻り、さもなければ、ブロック８１２において、変更されたデータ保護要件に従って、選択されたデータブロックのストレージが最適化（例えば、低減）される。決定ブロック８１４では、選択する追加のデータブロックが存在するかどうかについての決定が行われ、そうである場合、方法はブロック８０４に戻る。さもなければ、方法はブロック８１６において終了する。

図６～８に上述された実施形態は、１つ以上の適用可能なデータ保護スキーム（「ＤＰＳ」）に違反することなく、利用可能なストレージ空間の最大化を保証することができるいくつかの動作を説明する。上記では考えられなかった他のシナリオ、例えば、消去コーディングされたデータブロックが複製ベースのＤＰＳに関連付けられるシナリオは、全ての適用可能なＤＰＳの満足を保証する１つ以上の動作規則に従って処理することができる。

一般に、ガーベッジコレクションは、いかなるＤＰＳのデータ完全性保証にも違反しない方法で採用することができる。たとえば、同じブロックが二重複製および三重複製ボリュームで記憶される場合、そのブロックの少なくとも３つのコピーが存在することが必要となる。すなわち、データ完全性は、ＤＰＳに対する故障の冗長性のレベル（例えば、ｋ個の故障の場合のデータ損失なし）を保証する。スライスサービスは、全ての読み出しおよび書き込み動作に対するデータのＤＰＳを指定することができる。ＤＰＳの仕様は、ブロックサービスが追加のエラーチェックを実行することを可能にすることができる。本明細書で説明される技術は、例示的に、ブロックの符号化されたパリティコピーを記憶するよりも、データブロックの符号化されていないコピーを記憶することを優先し、そのような優先順位付けは、複製ベースのＤＰＳでボリュームに記憶されたデータに対して、劣化した読み出し性能の改善を顧客に提供する。一実施形態では、書き込みグループは、１つのＤＰＳのために作成され、これは、符号化されたブロックと共に記憶するために必要とされるＤＰＳ情報を低減しつつ、符号化、ガーベッジコレクションおよびビン同期を簡単にする。また、ストレージ空間を最大化するか、または異なる数の符号化されたコピーを有する書き込みグループ間の重複排除を実行することは、ガーベッジコレクション中の書き込み増幅を増加させる。

書き込み要求を実行するとき、データブロックの符号化されていないコピーをホストするブロックサービスは、ブロックの既存の符号化されていないコピーがなければ、符号化されていないコピーを書き込んでもよい。ブロックの符号化されたコピーをホストするブロックサービスは、書き込み要求に対して指定されたＤＰＳに一致するブロックの既存の符号化されたコピーがなく、ブロックの既存の符号化されていないコピーがない場合、符号化されていないコピーを書き込んでもよい。データブロックの符号化されていないコピーをホストするブロックサービスは、符号化されていないブロックのビットマスクが適切なビットセットを有さない場合、符号化されていないブロックの（ＤＰＳ）ビットマスクのＤＰＳビットを設定してもよい。同様に、ブロックの符号化されたパリティコピーをホストするブロックサービスはもし符号化されていないブロックのＤＰＳビットマスクが適切なビットセットを有さず、符号化されたブロックが存在しない場合、符号化されていないブロックのＤＰＳビットを設定してもよい。

一実施形態では、消去コーディング動作を実行するときに、ＤＰＳに従ったブロックのレプリカ数が、ブロックの全ての複製ベースのスキームの最大レプリカ数よりも大きい場合、マスターレプリカブロックサービスは、符号化されていないデータブロックを符号化してもよい。すなわち、ボリュームに関連付けられた故障冗長性のレベルに対して過剰な数のレプリカが存在する場合、余分な数の符号化されていないデータブロックが、最終的なガーベッジコレクションに使用されていないものに印を付ける代わりに、符号化された（パリティ）ブロックとして再展開されてもよい。

例示的には、ガーベッジコレクションプロセスの開始に種々の規則が適用されてもよい。ブロックサービスは、全てのＤＰＳに対する全てのスライスサービスからＤＰＳに関連付けられた最終Ｂｌｏｏｍフィルタを受信したときに、ガーベッジコレクションを開始してもよい。スライスサービスは、ボリュームに対するＤＰＳの変更がデータブロックの全ての符号化されたコピーに対して完了した場合、消去コーディングベースのＤＰＳに関連するブロックの符号化されていないコピーに対して、最終Ｂｌｏｏｍフィルタをブロックサービスに送信してもよい。データブロックを削除または再利用できるかどうかを決定するときに、他の規則が適用されてもよい。ブロックサービスは、ブロックが書き込みグループのＤＰＳに対して使用されていない場合、書き込みグループからブロックを破棄してもよい。ブロックがいかなるＤＰＳによっても使用されていない場合、またはブロックの全てのＤＰＳに対して符号化された／符号化されていない最大レプリカ数が現在のレプリカ数よりも少ない場合、ブロックサービスは、符号化されていないパリティブロックを破棄してもよい。

追加的に、ブロックサービスは、読み出し動作中に特定の規則に従ってもよい。例示的に、データブロックのコピーをホストするブロックサービスは、符号化されていないコピーが存在する場合、符号化化されていないコピーを返してもよい。ブロックの符号化されたコピーを保存するブロックサービスは、ブロックの符号化されていないコピーが存在しない場合、符号化されたコピーを返してもよい。しかし、符号化されたコピーのＤＰＳが読み出し要求で示されたＤＰＳと互換性がない場合、符号化されたコピーは返されないことがある。例えば、４＋２ＤＰＳスキームが読み出し要求で指定された場合、４＋１符号化されたコピーは返されないことがある。符号化されたコピーのＤＰＳが、読み出し要求で指定された適用可能なＤＰＳ以上の符号化された複製数（例えば、５＋３スキームの３のような消去コーディングスキームのｋ値）を有する場合、符号化されたコピーを返すことができる。

前述の説明は、特定の実施形態に向けられている。しかしながら、他のバリエーションおよび修正が、それらの利点の一部または全ての達成を伴って、説明された実施形態になされ得ることは明らかであろう。例えば、本明細書で説明される構成要素および／または要素は、コンピュータ、ハードウェア、ファームウェア、またはそれらの組み合わせ上で実行されるプログラム命令を有する有形の（非一時的な）コンピュータ可読媒体（例えば、ディスク、電子メモリ、および／またはＣＤ）上に符号化されたソフトウェアとして実装され得ることを明確に企図している。したがって、この説明は、例としてのみ採用され、他の方法で、本明細書における実施形態の範囲を制限するものではない。したがって、添付の特許請求の範囲の目的は、本明細書における実施形態の真の精神および範囲内にある全てのそのようなバリエーションおよび修正をカバーすることである。

Claims

データブロックのガーベッジコレクションのための方法であって、
ストレージノードのクラスタを有する分散ストレージシステムによってサポートされる複数のデータ保護スキームの各々に対して前記データブロックを関連付けるデータ構造を生成することであって、前記データ保護スキームの各々は、任意の１つのブロックの利用不可能性に対する特定のレベルの冗長性を示すデータ完全性保証を有する、ことと、
前記データ構造を使用して、第１のデータ保護スキームが第１のデータブロックに採用されていることを決定することとであって、前記第１のデータ保護スキームは、第１のデータ完全性保証を有する、ことと、
前記データ構造を使用して、第２のデータ保護スキームが、前記第１のデータ保護スキームに加えて、前記第１のデータブロックに関連付けられていることを決定することであって、前記第２のデータ保護スキームは、前記第１のデータ完全性保証を有する、ことと、
ポリシーに基づいて、（１）前記第２のデータ保護スキームに従って、前記第１のデータブロックのための前記クラスタの前記ストレージノードにおける冗長情報のストレージを低減すること、および（２）性能を改善するために、前記第１のデータブロックの冗長情報のストレージを維持すること、のうちの１つを適用することであって、前記第１のデータ保護スキームは複製であり、前記第２のデータ保護スキームは第１の消去コーディングである、ことと、を含む、方法。
前記第２のデータ保護スキームに従って、前記第１のデータブロックに対する冗長情報のストレージを低減することは、前記第１のデータブロックの１つ以上のコピーを削除することをさらに含む、請求項１に記載の方法。
性能を改善するために冗長情報のストレージを維持することは、前記第１の消去コーディングのパリティ計算を回避する、請求項２に記載の方法。
前記分散ストレージシステムによってサポートされる複数のデータ保護スキームの各々に対してデータブロックを関連付ける前記データ構造を生成することは、前記関連付けられたデータ保護スキームが適用されるデータブロックのためのブルームフィルタを生成することをさらに含む、請求項１に記載の方法。
前記データ保護スキームは、ボリューム毎に設定され、前記複数のデータ保護スキームの各々に対してデータブロックを識別する前記データ構造を生成することは、どのボリュームが前記第１のデータブロックを利用するかを決定することをさらに含む、請求項１に記載の方法。
前記第１のデータブロックに関連付けられたデータ保護ビットマスクを更新して、前記第１のデータ保護スキームおよび前記第２のデータ保護スキームのうちの１つが前記第１のデータブロックとの関連付けから除去されることを示すことをさらに含む、請求項１に記載の方法。
第３のデータ保護スキームが、前記データ構造を使用して前記第１のデータブロックに関連付けられることを決定することであって、前記第３のデータ保護スキームは、前記第１のデータ完全性保証よりも大きい第２のデータ完全性保証を有し、前記第３のデータ保護スキームは、第２の消去コーディングである、ことと、
前記ポリシーに基づいて、前記第３のデータ保護スキームに従って、前記第１のデータブロックのための冗長情報のストレージを低減することと、を含む、請求項１に記載の方法。
ハッシュに従って、前記クラスタのノード間で前記第１および第２のデータ保護スキームからの冗長情報を配布することをさらに含む、請求項１に記載の方法。
前記第１のデータブロックが、前記第１のデータ保護スキームに関連付けられた第１のボリュームに含まれ、かつ前記第２のデータ保護スキームに関連付けられた第２のボリュームに含まれる、請求項１に記載の方法。
ストレージノードを追加することによって前記クラスタをスケールアウトすることと、
スケールアウトされた前記クラスタ内の前記第１のデータブロックおよび前記第１のデータブロックについての前記冗長情報をリバランスすることと、をさらに含む、請求項１に記載の方法。
データブロックのガーベッジコレクションのためのシステムであって、
ストレージノードのクラスタであって、各それぞれのストレージノードは、プロセッサに結合されたストレージデバイスを含み、前記プロセッサによる前記ストレージデバイスに含まれた命令の実行は、前記クラスタに、
前記ストレージノードによってサポートされる複数のデータ保護スキームの各々に対して前記データブロックを関連付けるデータ構造を生成することであって、前記データ保護スキームの各々は、任意の１つのブロックの利用不可能性に対する特定のレベルの冗長性を示すデータ完全性保証を有する、ことと、
前記データ構造を使用して、第１および第２のデータ保護スキームが、第１のデータブロックに採用されていることを決定することであって、第１のデータ保護スキームは、前記第２のデータ保護スキームと同じデータ完全性保証を有し、前記第１のデータ保護スキームは複製であり、前記第２のデータ保護スキームは、消去コーディングである、ことと、
ポリシーに基づいて、
性能を改善するために前記第１のデータブロックの符号化されていないレプリカのストレージを維持し、前記データ完全性保証を維持することを実行することと、行わせる、システム。
ストレージシステムによってサポートされる複数のデータ保護スキームの各々に対して前記データブロックを関連付ける前記データ構造を生成することは、前記関連付けられたデータ保護スキームが適用されるデータブロックのためのブルームフィルタを生成することをさらに含む、請求項１１に記載のシステム。
前記データ保護スキームは、ボリューム毎に設定され、前記複数のデータ保護スキームの各々に対してデータブロックを関連付ける前記データ構造を生成することは、どのボリュームが前記第１のデータブロックを利用するかを決定することをさらに含む、請求項１１に記載のシステム。
前記命令は、前記クラスタに、前記第１のデータブロックに関連付けられたデータ保護ビットマスクを更新して、前記第１のデータ保護スキームが前記第１のデータブロックとの関連付けから除去されることを示すことをさらに行わせる、請求項１１に記載のシステム。
前記第１のデータブロックが、前記第１のデータ保護スキームに関連付けられた第１のボリュームに含まれ、かつ前記第２のデータ保護スキームに関連付けられた第２のボリュームに含まれる、請求項１１に記載のシステム。
前記クラスタをスケールアウトするために追加される追加のストレージノードであって、前記命令は、スケールアウトされた前記クラスタ内の前記第１のデータブロックと符号化された前記ブロックとをリバランスするようにさらに構成されている、追加のストレージノードをさらに含む、請求項１１に記載のシステム。
前記命令は、前記クラスタに、
前記第１のデータブロックを前記クラスタの第１のストレージノードに記憶することであって、前記第１のストレージノードは、前記第１のデータブロックに適用されるハッシュ関数に従って選択される、ことをさらに行わせる、請求項１１に記載のシステム。
データブロックのガベージコレクションのための実行可能なプログラム命令を含み、前記プログラム命令は、分散ストレージシステムのクラスタ内のストレージノードのプロセッサによって実行されるときに、前記ストレージノードに、
前記分散ストレージシステムによってサポートされる複数のデータ保護スキームの各々に対して前記データブロックを関連付けるデータ構造を生成することであって、前記データ保護スキームの各々は、任意の１つのブロックの利用不可能性に対する特定のレベルの冗長性を示すデータ完全性保証を有する、ことと、
前記データ構造を使用して、第１のデータ保護スキームが第１のデータブロックに採用されていることを決定することであって、前記第１のデータ保護スキームは、第１のデータ完全性保証を有する、ことと、
前記データ構造を使用して、第２のデータ保護スキームが、第１のデータ保護スキームに加えて、前記第１のデータブロックに関連付けられていることを決定することであって、前記第２のデータ保護スキームは、前記第１のデータ完全性保証を有する、ことと、
ポリシーに基づいて、（１）前記第２のデータ保護スキームに従って、前記第１のデータブロックのための前記クラスタの前記ストレージノードにおける冗長情報のストレージを低減すること、および（２）性能を改善するために、前記第１のデータブロックの冗長情報のストレージを維持すること、のうちの１つを適用することであって、前記第１のデータ保護スキームは複製であり、前記第２のデータ保護スキームは第１の消去コーディングである、ことと、を行わせる、非一時的なコンピュータ可読媒体。