JP5969315B2 - データ移行処理システムおよびデータ移行処理方法 - Google Patents

データ移行処理システムおよびデータ移行処理方法 Download PDF

Info

Publication number
JP5969315B2
JP5969315B2 JP2012184486A JP2012184486A JP5969315B2 JP 5969315 B2 JP5969315 B2 JP 5969315B2 JP 2012184486 A JP2012184486 A JP 2012184486A JP 2012184486 A JP2012184486 A JP 2012184486A JP 5969315 B2 JP5969315 B2 JP 5969315B2
Authority
JP
Japan
Prior art keywords
data
node
data migration
processing
owner
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012184486A
Other languages
English (en)
Other versions
JP2014041550A (ja
Inventor
絵里子 岩佐
絵里子 岩佐
道生 入江
道生 入江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012184486A priority Critical patent/JP5969315B2/ja
Publication of JP2014041550A publication Critical patent/JP2014041550A/ja
Application granted granted Critical
Publication of JP5969315B2 publication Critical patent/JP5969315B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Description

本発明は、ネットワーク上に分散配置されるサーバをクラスタ化してデータを格納する分散処理システムにおいて、分散処理システムを構成するサーバに障害等が発生しクラスタから離脱した際、または、分散処理システムを構成するサーバを追加した際に、データの移行処理(再冗長化処理または再配置処理)を行うデータ移行処理システムおよびデータ移行処理方法に関する。
近年、クラウドコンピューティングの隆盛に伴い、多量のデータの処理や保持を効率的に行うことが求められている。そこで、複数のサーバを協調動作させることにより効率的な処理を実現する分散処理技術が発展している。
分散処理を行う際には、処理対象のデータを、クラスタを構成する各サーバ(以下、「クラスタメンバ」または「ノード」と称する。)に振り分ける必要がある。このとき、クラスタ全体での処理能力を高めるためには、各ノードが担当するデータ数(データ量)は平均化されていることが望ましい。
代表的なデータの管理(振り分け)手法として、各データのkeyをハッシュ関数にかけた値(以下、「hash(key)」と称する。)をノード数Nで割った余り、すなわち「hash(key) mod N」を番号として持つノードにデータを振り分ける方法がある。この場合、各ノードに事前に「0」から「N−1」までの番号を割り当てていることが前提となる。このような管理(振り分け)方法を用いた場合、ノードを追加すると、Nの値が変化して、多くのデータについて、そのデータの保存を担当するノードが変更になるため、担当するデータを再配置することが必要になる。
そこで、クラスタメンバの追加に伴い担当するノードが変更になるデータ数を約1/Nに抑える方法として、コンシステントハッシュ(Consistent Hashing)法(非特許文献1参照)を用いた管理(振り分け)手法がある。このコンシステントハッシュ法は、Amazon Dynamo(非特許文献2参照)等で用いられる。
このコンシステントハッシュ法を用いたデータ管理(振り分け)手法では、ノードとデータの双方にID(IDentifier)を割り当てる。そして、データのIDから閉じたID空間を時計回りに辿った場合に最初に出合ったノードをそのデータの担当とする。ノードに対するIDの与え方の例としては、IPアドレスをハッシュ関数にかけた値(hash(IPアドレス))が挙げられる。
クラスタ構成の分散処理システムでは、各ノードの処理性能が等しい場合には、各ノードが担当するデータ量を等しくする、すなわち、コンシステントハッシュ法のID空間における、ノード間の距離(以下、「ノードの担当領域」と称する。)を等しくすることが望ましい。この点を解決するため、各ノードに仮想的に複数のIDを持たせる手法が用いられている(非特許文献1参照)。各ノードが複数のIDを持つことで、仮想ID毎の担当領域は異なっていても、大数の法則に従いノードの担当領域は平均化される。
多数のデータ管理をクラスタ構成の分散処理システムで実行する場合、あるノードに障害が発生した場合でも他のノードで処理が継続できるように、データの複製を保持することでデータの冗長化を実現している。コンシステントハッシュ法によるデータ管理手法を用いた分散処理システムにおいても、データの冗長化が必要であり、図10に示すような複製データの配置手法をとるものがある。
図10に示すように、コンシステントハッシュ法では、ノード(ノード「1」〜「4」)とデータ(データA〜D。黒丸(●)で表示)の双方にIDを割り当て、データのIDからID空間を時計回りに辿り最初に出合ったノードをそのデータの担当として決定する。そして、担当するノードのさらに右隣(時計回りに次)のノードに複製データを担当させる。
例えば、図10において、データAについては、ID空間上を時計回りに辿り最初に出合ったノード「1」が担当となり、その複製データについては、ID空間上でノード「1」の右隣にあたるノード「2」に担当させることとなる。このように原本データ・複製データを担当するノードを決定することで、ノードが離脱した場合でも複製データを所持しているノードが新しくデータを担当するノードとなることにより処理を継続できるという利点がある。なお、複製データを複数個とる場合には、複製データを担当するノードのさらに右隣のノードに複製データを担当させるようにする。
David karger et al.,"Consistent Hashing and Random Trees:Distributed Caching Protocols for Relieving Hot Spots on the World Wide Web",[online],1997,ACM,[平成24年8月8日検索],インターネット<URL:http://www.akamai.com/dl/technical_publications/ConsistenHashingandRandomTreesDistributedCachingprotocolsforrelievingHotSpotsontheworldwideweb.pdf> Giuseppe DeCandia,et al.,"Dynamo: Amazon’s Highly Available Key-value Store," SOSP’07, October 14-17, 2007, Stevenson, Washington, USA,[online]、[平成24年8月8日検索]、インターネット<URL:http://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf>
コンシステントハッシュ法によるデータ管理手法を用い、図10に示すような複製データの配置手法をとる分散処理システムにおいて、ノードに障害等が発生し、そのノードがクラスタを離脱するケースを考える。このとき、離脱したノードが保持していたデータは失われるため、一部のデータに関して冗長度が減少することとなる。図11に示す例では、ノード「2」がクラスタから離脱したため、ノード「2」が保持していたデータAとデータBについて冗長度が減少する。
冗長度が減少した状態で、さらにノードの離脱が重なって起こると、クラスタからデータAやデータBが完全に失われる可能性があるため、データの冗長度の回復は早急に行われることが望ましい。一方で、各ノードは実際には多数のデータを保持しているため、ノードが離脱した直後にすべてのデータを再冗長化すると負荷が高くなり、クラスタが実行している通常の処理に影響を及ぼす可能性がある。
また、コンシステントハッシュ法によるデータ管理手法を用い、図10に示すような複製データの配置手法をとる分散処理システムにおいて、クラスタの性能不足等により、ノードをクラスタに追加する場合を考える。追加されたノードは、コンシステントハッシュ法のID空間情報に従い、既存ノードが担当していたデータの一部を引き継ぐことになる。このとき、データの引き継ぎが完了するまでは、ノードを新たに追加したにも関わらず、各ノードにおいて保持しているデータ量が不均一な状態になる。これに対し、各ノードは多数のデータを保持しているため、ノードを追加した直後にすべてのデータを再配置すると負荷が高くなり、クラスタが実行している通常の処理に影響を及ぼす可能性がある。
このような背景に鑑みて本発明がなされたのであり、本発明は、クラスタを構成するノードの離脱または追加があった場合に、ノードの処理負荷を抑えながらデータを移行させることができる、データ移行処理システムおよびデータ移行処理方法を提供することを課題とする。
前記した課題を解決するため、請求項1に記載の発明は、クラスタを構成する複数のノードのいずれかが、クライアントにサービスを提供するためのデータを原本データとして記憶する所有者ノード、または、前記データの複製データを記憶する1つ以上の複製ノードとして割り当てられて記憶するデータ移行処理システムであって、前記データ移行処理システムを構成する前記複数のノードそれぞれが、固有な識別子であるノード識別子が付された前記複数のノードそれぞれについて、前記データと前記所有者ノードおよび前記複製ノードとが対応付けられたノード識別子管理情報が記憶される記憶部と、前記原本データを記憶する前記所有者ノードのノード識別子および前記複製データを記憶する前記複製ノードのノード識別子を、前記原本データおよび前記複製データそれぞれに、ノード情報として付与するノード情報付与部と、前記ノードの離脱または追加を検知して、前記ノード識別子管理情報を、前記ノードの離脱または追加に応じた、前記データと前記所有者ノードおよび前記複製ノードとの新たな対応付けに変更して格納させるノード識別子管理部と、前記ノードの離脱が検知された場合に、変更された前記ノード識別子管理情報に基づいて、自身が記憶している前記原本データ、および、自身が記憶している複製データであって、その原本データが消失しているときには、当該複製データを、前記所有者ノードまたは前記複製ノードを変更するために行うデータ移行が必要か否かの判定対象となるデータを示す判定対象データとして抽出し、前記ノードの追加が検知された場合に、変更された前記ノード識別子管理情報に基づいて、自身が記憶している前記原本データを、前記判定対象データとして抽出するデータ抽出部と、前記データ移行による前記ノード自身の処理負荷を抑制するように設定されたパラメータに基づく所定のタイミングのときに、前記抽出した判定対象データについて、前記変更されたノード識別子管理情報に対応した所有者ノードおよび複製ノードを特定し、前記特定した所有者ノードおよび複製ノードそれぞれのノード識別子が、前記ノード情報と比較して一致しない場合に、当該抽出した判定対象データを、前記データ移行が必要なデータを示すデータ移行対象データとして検出し、前記検出したデータ移行対象データを、前記特定した所有者ノードおよび複製ノードに移行するデータ移行処理部と、を備え、前記パラメータが、前記データ移行を並列で実行できる最大スレッド数を示すデータ移行処理スレッド数、前記データ移行を実行した後の待機時間を示すデータ移行処理実行間隔、前記変更されたノード識別子管理情報に対応した所有者ノードおよび複製ノードを特定する処理であるシミュレーションを含む、前記データ移行対象データの検出処理を連続で実行する回数を示すシミュレーション最大回数、の少なくとも1つであることを特徴とするデータ移行処理システムとした。
また、請求項4に記載の発明は、クラスタを構成する複数のノードのいずれかが、クライアントにサービスを提供するためのデータを原本データとして記憶する所有者ノード、または、前記データの複製データを記憶する1つ以上の複製ノードとして割り当てられて記憶するデータ移行処理システムのデータ移行処理方法であって、前記データ移行処理システムを構成する前記複数のノードそれぞれが、固有な識別子であるノード識別子が付された前記複数のノードそれぞれについて、前記データと前記所有者ノードおよび前記複製ノードとが対応付けられたノード識別子管理情報が記憶される記憶部を備えており、前記原本データを記憶する前記所有者ノードのノード識別子および前記複製データを記憶する前記複製ノードのノード識別子を、前記原本データおよび前記複製データそれぞれに、ノード情報として付与するステップと、前記ノードの離脱または追加を検知して、前記ノード識別子管理情報を、前記ノードの離脱または追加に応じた、前記データと前記所有者ノードおよび前記複製ノードとの新たな対応付けに変更して格納させるステップと、前記ノードの離脱が検知された場合に、変更された前記ノード識別子管理情報に基づいて、自身が記憶している前記原本データ、および、自身が記憶している複製データであって、その原本データが消失しているときには、当該複製データを、前記所有者ノードまたは前記複製ノードを変更するために行うデータ移行が必要か否かの判定対象となるデータを示す判定対象データとして抽出し、前記ノードの追加が検知された場合に、変更された前記ノード識別子管理情報に基づいて、自身が記憶している前記原本データを、前記判定対象データとして抽出するステップと、前記データ移行による前記ノード自身の処理負荷を抑制するように設定されたパラメータに基づく所定のタイミングのときに、前記抽出した判定対象データについて、前記変更されたノード識別子管理情報に対応した所有者ノードおよび複製ノードを特定し、前記特定した所有者ノードおよび複製ノードそれぞれのノード識別子が、前記ノード情報と比較して一致しない場合に、当該抽出した判定対象データを、前記データ移行が必要なデータを示すデータ移行対象データとして検出し、前記検出したデータ移行対象データを、前記特定した所有者ノードおよび複製ノードに移行するステップと、を実行し、前記パラメータが、前記データ移行を並列で実行できる最大スレッド数を示すデータ移行処理スレッド数、前記データ移行を実行した後の待機時間を示すデータ移行処理実行間隔、前記変更されたノード識別子管理情報に対応した所有者ノードおよび複製ノードを特定する処理であるシミュレーションを含む、前記データ移行対象データの検出処理を連続で実行する回数を示すシミュレーション最大回数、の少なくとも1つであることを特徴とするデータ移行処理方法とした。
このようにすることで、クラスタを構成するノードが離脱または追加した直後に、データ移行処理(再冗長化処理または再配置処理)を実行するのではなく、所定のタイミングでデータ移行処理の対象となるデータ(データ移行対象データ)を検出するための処理を実行し、そこで検出されたデータについて、データ移行処理を実行する。よって、ノードの負荷を抑えながらデータを移行(再冗長化・再配置)させることができる。
また、データ移行処理スレッド数、データ移行処理実行間隔、シミュレーション最大回数の少なくとも1つをパラメータとして設定し、データ移行を徐々に実行させることができる。
請求項に記載の発明は、前記複数のノードそれぞれが、前記ノード自身の処理負荷を監視し、前記処理負荷が所定値を超えた場合に、前記データ移行処理部に処理中断情報を出力するノード負荷監視部を、さらに備え、前記データ移行処理部は、前記処理中断情報を受け取ると、前記データ移行を中断することを特徴とする請求項1に記載のデータ移行処理システムとした。
また、請求項5に記載の発明は、前記複数のノードそれぞれが、前記ノード自身の処理負荷を監視し、前記処理負荷が所定値を超えた場合に、前記データ移行を中断させるステップを、さらに実行することを特徴とする請求項4に記載のデータ移行処理方法とした。
このように、各ノードは、自身の処理負荷を監視することにより、処理負荷が所定値を超えた場合に、データ移行を中断することができる。よって、パラメータの設定による所定のタイミングでのデータ移行処理に加えて、ノードの処理負荷が所定値を超えた場合のタイミングでも、データ移行を中断することができるため、確実にノードの負荷を抑制しながらデータ移行させることができる。
請求項に記載の発明は、前記複数のノードそれぞれが、前記クライアントから前記データによる前記サービスの提供を要求するメッセージを受信した場合に、前記メッセージの処理を実行すると共に、前記サービスの対象となるデータが前記データ移行対象データである場合に、前記サービスの対象となるデータを、前記変更されたノード識別子管理情報に対応した所有者ノードおよび複製ノードに移行するメッセージ処理部を、さらに備えることを特徴とする請求項1または請求項に記載のデータ移行処理システムとした。
このようにすることで、各ノードは、メッセージを受信したことにより、それ以降も利用可能性が高いと予測されるデータについては、そのデータに関するメッセージ処理を実行すると共に、データ移行処理(再冗長化処理または再配置処理)を実行し、冗長度の減少の回復や、データの適正な配置を迅速に達成することができる。
本発明によれば、クラスタを構成するノードの離脱または追加があった場合に、ノードの処理負荷を抑えながらデータを移行させる、データ移行処理システムおよびデータ移行処理方法を提供することができる。
本実施形態に係るデータ移行処理システムを含む分散処理システムの全体構成を示す図である。 本実施形態に係るデータ移行処理システムを構成する各ノードによる、データの再冗長化処理の概要を説明するための図である。 本実施形態に係るノードの構成例を示す機能ブロック図である。 本実施形態に係るノード識別子管理テーブルのデータ構成例を示す図である。 本実施形態に係るデータ移行処理システムにおいて、各サーバが実行するデータ移行処理の全体の流れを示すフローチャートである。 本実施形態に係るノードのデータ移行処理部が行うデータ移行対象データの検出処理の流れを示すフローチャートである。 本実施形態に係るノードのデータ移行パラメータ管理部により設定されるデータ移行処理の所定のタイミングを説明するための図である。 本実施形態の変形例1に係るノードの構成例を示す機能ブロック図である。 本実施形態の変形例2に係るノードの構成例を示す機能ブロック図である。 コンシステントハッシュ法によるデータ管理手法を説明するための図である。 コンシステントハッシュ法によるデータ管理手法において、ノードが離脱した例を示す図である。
次に、本発明を実施するための形態(以下、「本実施形態」という)におけるデータ移行処理システム等について説明する。
<分散処理システムの全体構成>
まず、本実施形態に係るデータ移行処理システム100を含む分散処理システム1000の全体構成について説明する。
図1は、本実施形態に係るデータ移行処理システム100を含む分散処理システム1000の全体構成を示す図である。
この分散処理システム1000は、各クライアント2からのメッセージを受け付けるロードバランサ3と、振り分け装置4と、クラスタを構成する複数のノード1とを含んで構成される。ロードバランサ3は、クライアント2からのメッセージを単純なラウンドロビン等により各振り分け装置4に振り分ける。振り分け装置4は、受信したメッセージを、例えば、コンシステントハッシュ法等に基づき、各ノード1に振り分ける。各ノード1では、メッセージ処理を行い、クライアント2にサービスを提供する。また、本実施形態において、クラスタを構成する複数のノード1をデータ移行処理システム100として説明する。
なお、図1においては、振り分け装置4とノード1とを別装置として記載したが、同一サーバ上で別々の機能として動作させることも可能である。また、振り分け装置4も、図1に示すように、クラスタ構成をとることができる。さらに、ロードバランサ3が存在せず、クライアント2から任意の振り分け装置4にメッセージを送信することも可能である。
本実施形態では、分散処理システム1000のデータ管理手法として、ノード1の離脱時および追加時の影響が少ない、コンシステントハッシュ法によるデータ管理手法を例として説明する。ただし、コンシステントハッシュ法に限定されるものではない。また、図10に示した複製データの配置手法により、コンシステントハッシュ法のID空間上で右隣(時計回りに次)のノード1に複製データを担当させることとする。
また、本実施形態に係るデータ移行処理システム100では、ノード1の離脱時と追加時において共に同様の仕組みでデータの再冗長化処理、再配置処理を実行するため、ノード離脱後にデータの再冗長化処理を実行する例を主として説明する。
<処理概要>
次に、本実施形態に係るデータ移行処理システム100の処理概要について説明する。
図2は、本実施形態に係るデータ移行処理システム100を構成する各ノード1による、データの再冗長化処理(複製数:1)の概要を説明するための図である。図2(a)は、再冗長化処理前の初期状態を示し、図2(b)は、ノード1(ここでは、ノード「4」)の減設(離脱)後の状態を示し、図2(c)は、データの再冗長化処理を実行した状態を示す。
まず、図2(a)に示すように、初期状態において、データX(データXのID(データ識別子))については、ID空間を時計回りに辿り最初に出合ったノード「1」が担当ノードとなる。つまり、データXの原本データがノード「1」に格納される。なお、原本データを格納し管理するノード1を、以下、「所有者ノード」と称することがある。そして所有者ノードであるノード「1」のさらに右隣のノード「4」がデータXの複製データを格納する。なお、複製データを格納し管理するノード1(複製ノード)を、以下、「バディ」と称することがある。
このとき、各ノード1は、自身に格納する各データに、所有者ノードの識別子とバディの識別子とを付与する(ステップS1)。なお、この所有者ノードの識別子とバディ(複製ノード)の識別子とを併せてノード情報と称する。
次に、図2(b)に示すように、クラスタを構成するノード1のうちの1つ、ここでは、ノード「4」が障害等により離脱したとする。各ノード1は、クラスタを構成するノード1(ノード「4」)の離脱を検知すると、(1)自身が原本として管理しているデータ(原本データ)、および、(2)自身が複製として管理しているデータ(複製データ)のうち、その複製データの原本データを管理している所有者ノードが離脱したノード1と一致するデータ、つまり、原本データが消失した複製データ、を減設後に再冗長化処理が必要か否かの判定対象となるデータ(以下、「判定対象データ」と称する。)として抽出する(ステップS2)。
続いて、各ノード1は、所定のタイミングで、抽出した判定対象データについて、減設後に担当すべきノード(所有者ノードおよびバディ)をシミュレーションし、そのシミュレーション結果と、判定対象データのノード情報とを比較する。そして、各ノード1は、その比較の結果、所有者ノードの識別子またはバディの識別子が一致しない判定対象データを、データ移行対象データとして検出し、データ移行処理(ここでは、再冗長化処理)を実行する(ステップS3)。
各ノード1が、シミュレーションを実施する所定のタイミングは、複数のパラメータを設定することにより決定される。このパラメータには、例えば、データ移行処理スレッド数(データ移行処理(再冗長化処理または再配置処理)を並列で実行できる最大スレッド数)、データ移行処理実行間隔(データ移行処理を実行した直後の待機時間)、シミュレーション最大回数(各スレッドがシミュレーションを連続で実行する最大回数)等により決定される。なお、これらのパラメータの詳細は後記する。
このように、本実施形態に係るデータ移行処理システム100等においては、クラスタを構成するノード1が離脱または追加した直後に、データ移行処理(再冗長化処理または再配置処理)を実行するのではなく、所定のタイミングでデータ移行処理の対象となるデータ(データ移行対象データ)を検出するための処理を実行し、そこで検出されたデータについて、データ移行処理を実行する。よって、ノード1の負荷を抑えながらデータを移行(再冗長化または再配置)させることができる。
<ノードの構成>
以下、本実施形態に係るデータ移行処理システム100を構成するノード1の構成例について、具体的に説明する。
図3は、本実施形態に係るノード1の構成例を示す機能ブロック図である。
ノード1は、図1に示したように、振り分け装置4と通信可能に接続されると共に、クラスタを構成する自身以外の他のノード1とも通信可能に接続される。そして、クライアント2からのメッセージを受信し、サービスを提供する。また、このノード1は、クラスタを構成するノード1に離脱または追加があった場合に、移行が必要なデータについて、再冗長化処理または再配置処理を実行する。
このノード1は、図3に示すように、制御部10と、入出力部11と、メモリ部12と、記憶部13とを含んで構成される。
入出力部11(入力部)は、振り分け装置4や、自身以外の他のノード1との間の情報の入出力を行う。また、この入出力部11は、通信回線を介して情報の送受信を行う通信インタフェースと、不図示のキーボード等の入力手段やモニタ等の出力手段等との間で入出力を行う入出力インタフェースとから構成される。
制御部10は、ノード1全体の制御を司り、ノード識別子管理部101、メッセージ処理部102、死活監視部103、ノード情報付与部104、データ抽出部105、データ移行処理部106およびデータ移行パラメータ管理部107を含んで構成される。なお、この制御部10は、例えば、記憶部13に格納されたプログラムをCPU(Central Processing Unit)がメモリ部12であるRAM(Random Access Memory)に展開し実行することで実現される。
ノード識別子管理部101は、クラスタを構成する各ノード1に関する識別情報をノード識別子管理テーブル400(ノード識別子管理情報)として管理する。
図4は、本実施形態に係るノード識別子管理テーブル400(ノード識別子管理情報)のデータ構成例を示す図である。図4に示すように、ノード識別子管理テーブル400は、クラスタを構成する各ノード1のノード識別子401とアドレス402とを含んで構成される。
このノード識別子401は、コンシステントハッシュ法のID空間上でのノードIDに対応する。また、コンシステントハッシュ法において仮想IDを用いる場合には、ノード識別子401は、仮想ID毎に割り当てられ、ノード識別子管理テーブル400に登録される。そして、このノード識別子管理テーブル400では、例えば、ノード識別子401を昇順に並べることにより、コンシステントハッシュ法のID空間におけるID(または仮想ID)を昇順に並べて管理することができる。つまり、ノード識別子管理テーブル400において、ノード識別子を昇順に並べたときの次のノード1が、ID空間上での右隣(時計回りに次)のノード1となる。
例えば、図4においては、コンシステントハッシュ法のID空間に基づくデータ識別子が「0」から「56」であるデータについては、同図の第1行目が指すノード(ノード識別子「56」、アドレス「192.168.0.24」であるノード)が「所有者ノード」として担当し、次の第2行目が指すノード(ノード識別子「172」、アドレス「192.168.1.25」)がバディとして担当することを示す。同様に、データ識別子が「56」に1を加えた「57」から「172」であるデータについては、第2行目が指すノードが「所有者ノード」として担当し、次の第3行目が指すノードがバディとして担当することを示す。
このようにして、このノード識別子管理テーブル400に基づき、データとその所有者ノードとバディとが対応付けられる。
なお、このノード識別子401は、ノード識別子管理部101が各ノード1に対して付与することもできるし、他のノード1や外部装置(例えば、振り分け装置4等)が生成したノード識別子管理テーブル400を受信して格納することも可能である。
ノード識別子管理部101は、クラスタを構成する複数のノード1において、あるノード1が離脱した際には、そのノード1のノード識別子401とアドレス402とを含むレコードを削除する。また、ノード識別子管理部101は、クラスタを構成する複数のノード1において、ノード1が追加された場合には、そのノード1のノード識別子401とアドレス402とを含むレコードを新規に登録する。
図3に戻り、メッセージ処理部102は、振り分け装置4から振り分けられたメッセージを受信し、そのメッセージの処理を実行し、処理結果をクライアント2に返信することにより、サービスを提供する。このメッセージによりメッセージ処理部102が実行する処理は、例えば、データの登録、更新、検索、削除等である。また、メッセージ処理部102は、データの登録や更新等のメッセージを受信した場合に、自身以外の他のノード(ここでは、ノード識別子を昇順に並べた場合の次のノード、つまり、コンシステントハッシュ法のID空間での右隣のノード)にデータの複製を行うことでデータの冗長化を実現する。また、メッセージ処理部102は、メッセージの処理に必要なデータをそのノード1自身が保持していなかった場合には、他のノード1に要求すること等により、そのデータを取得することが可能である。
なお、メッセージ処理部102は、クラスタを構成するノード1に離脱や追加があった場合において、データの再冗長化や再配置が実行される以前に、データ移行の対象となるデータに関するメッセージを受信したときには、そのメッセージの処理を実行すると共に、そのデータのデータ移行処理(再冗長化処理または再配置処理)を実行する。
死活監視部103は、自身以外の他のノード1との間で、所定の時間間隔で死活監視信号の送受信を実行することにより、クラスタを構成するノード1の離脱や追加を監視する。死活監視部103が、ノード1の離脱や追加を検出した場合には、自ノード1若しくは他ノード1のノード識別子管理部101、または、ノード識別子を設定する外部装置に通知を行い、ノード識別子管理テーブル400に反映させる。つまり、クラスタを構成する複数のノード1は、常に、同一内容のノード識別子管理テーブル400を備えるようにする。
ノード情報付与部104は、各データに、各データのデータ識別子に対応づけてノード情報を付与する。なお、ノード情報とは、前記したように、原本データを保持しているノード(所有者ノード)のノード識別子と複製データを保持しているノード(バディ:複製ノード)のノード識別子の情報である。ノード情報付与部104は、データ移行処理部106が、ノード1の離脱や追加によりデータの再冗長化処理または再配置処理を実行した場合に、新たなノード情報をそのデータに付与する。
よって、ノード情報付与部104は、新規にデータを登録する際と、ノード1の離脱や追加等によりデータの再冗長化処理または再配置処理を実行する際に、対象となるデータに対し、ノード情報を付与する。
データ抽出部105は、ノード識別子管理部101により、ノード識別子管理テーブル400(図4参照)が変更されたことを契機として、(1)自身が原本として管理しているデータ(原本データ)、および、(2)自身が複製として管理しているデータ(複製データ)のうち、その複製データの原本データを管理しているノード1(所有者ノード)が離脱したノード1と一致するデータ、つまり、原本データが消失した複製データ、をデータ移行処理(再冗長化処理または再配置処理)が必要か否かの判定対象となるデータ(判定対象データ)として抽出し、その抽出したデータのデータ識別子を、抽出データ管理テーブル200に格納する。
本処理の契機は、上述のように、ノード識別子管理テーブル400(図4参照)の変更であるが、別の実施形態では、一部のノード1または外部装置(例えば、システム管理装置)が他の各ノード1に対して再冗長化処理または再配置処理の開始要求メッセージを送信することとして、当該他の各ノード1はそのメッセージを受信することを本処理の契機にするようにしてもよい。
なお、ノード1が追加された場合には、(2)の原本データが消失した複製データは、存在しないため、そのノード1が原本として管理しているデータ(原本データ)のみが抽出される。
データ移行処理部106は、データ移行パラメータ管理部107により設定されるパラメータに基づく所定のタイミングで、データ抽出部105により抽出され抽出データ管理テーブル200に格納された判定対象データについて、変更されたノード識別子管理テーブル400に基づき、コンシステントハッシュ法等の予め定められたデータ管理手法に従った場合の所有者ノードとバディとを特定し(以下、この処理を「シミュレーション」と称す。)、各データ(判定対象データ)に付与されているノード情報と比較する。そして、データ移行処理部106は、この比較の結果、所有者ノードの識別子およびバディの識別子が一致(完全一致)しないデータを、データ移行対象データとして検出し、データ移行処理(再冗長化処理または再配置処理)を実行する。
なお、冗長数が3以上(複製データが2以上)の場合、複製データを管理する複数のノード1(ID空間上で原本データを管理する所有者ノードに近いノードから、バディ「1」,バディ「2」,・・・と呼ぶ。)が同一データに対してデータ移行処理を実行する虞がある。そこで、複数のバディが存在する場合には、番号の若いバディがデータ移行処理を担当することとする。このデータ移行対象データの検出処理の詳細については、図6を参照して後記する。
データ移行パラメータ管理部107は、データ移行処理部106がデータ移行処理を実行する所定のタイミングを、1つ以上のパラメータを用いて設定する。このデータ移行パラメータ管理部107により、データ移行処理の実行タイミングが調整されることで、データ移行処理の負荷が一度に集中して通常の処理を妨げサービス品質の低下を招かないように負荷を調整しながら、データ移行処理を実行できる。
このデータ移行パラメータ管理部107に設定されるパラメータは、例えば、データ移行処理スレッド数、データ移行処理実行間隔、シミュレーション最大回数である。
データ移行処理スレッド数とは、再冗長化処理や再配置処理を並列で実行できる最大スレッド数である。このデータ移行処理スレッド数に大きな値を設定すると、データ移行処理にかかる時間を短縮することができるが、ノード1の処理負荷は大きくなる。これに対し、データ移行処理スレッド数に小さな値を設定すると、データ移行処理にかかる時間は増加するが、ノード1の処理負荷は小さくなる。
データ移行処理実行間隔とは、各スレッドで、データ移行処理部106がデータ移行対象データの検出処理(図6)を実行した結果、データ移行対象データが検出され、データ移行処理部106が、そのデータ移行処理(再冗長化処理または再配置処理)を実行した後に待機する時間を指す。
シミュレーション最大回数とは、各スレッドが前記したシミュレーション(変更後のノード識別子管理テーブル400(図4参照)に基づく、所有者ノードとバディの特定)を含むデータ移行対象データの検出処理を連続で実行する回数を指す。データ移行処理部106は、データ移行対象データの検出処理を連続で実行した後に、所定の時間待機し、その後、再びシミュレーションを含むデータ移行対象データの検出処理を開始する。
このシミュレーション最大回数を少なく設定する、または、データ移行処理実行間隔を長く設定することで、ノード1は、処理負荷を抑えながら徐々にデータ移行処理を実行することが可能となる。
なお、このデータ移行処理スレッド数、データ移行処理実行間隔、シミュレーション最大回数の各パラメータは、データ移行パラメータ管理部107により、すべて設定されてもよいし、いずれか1つでもよいし、各パラメータを任意に組み合わせて設定されてもよい。
また、このデータ移行パラメータ管理部107により設定されたパラメータにより調整される所定のタイミングでのデータ移行処理の詳細については、図7を参照して後記する。
メモリ部12は、RAM等の一次記憶装置からなり、制御部10によるデータ処理に必要な情報を一時的に記憶している。なお、このメモリ部12には、データ抽出部105が抽出した判定対象データのデータ識別子を格納する前記した抽出データ管理テーブル200が記憶される。
記憶部13は、ハードディスクやフラッシュメモリ等の記憶装置からなり、サービスの対象となる原本データや複製データを含むデータ300や、前記したノード識別子管理テーブル400(図4参照)等が記憶される。また、この記憶部13には、データ移行パラメータ管理部107により設定される各パラメータ値(不図示)等が記憶される。
なお、データ300の各データには、そのデータのデータ識別子、所有者ノードのノード識別子および、バディのノード識別子が含まれる。
<データ移行処理システムの処理流れ>
次に、本実施形態に係るデータ移行処理システム100において、データ移行処理を実行する場合の処理の流れについて説明する。
(データ移行処理の全体の流れ)
図5は、本実施形態に係るデータ移行処理システム100において、各ノード1が実行するデータ移行処理の全体の流れを示すフローチャートである。
まず、ノード1の死活監視部103は、自身以外の他のノード1との間で、所定の時間間隔で死活監視信号を送受信することにより、クラスタを構成するノード1の離脱や追加が発生したか否かを判定する(ステップS10)。そして、死活監視部103は、ノード1の離脱や追加が発生したと判定した場合に(ステップS10→Yes)、その離脱または追加の情報をノード識別子管理部101に出力する。一方、死活監視部103は、ノード1の離脱や追加が発生していないと判定した場合には(ステップS10→No)、ステップS10の判定処理を繰り返す。
なお、死活監視部103は、他のノード1との間での死活監視信号の送受信ではなく、外部装置(例えば、振り分け装置4)や他のノード1が検知したノード1の離脱や追加の発生情報を受信することにより、ノード1の離脱や追加の情報を取得するようにしてもよい。
次に、ノード識別子管理部101は、死活監視部103から受け取った、ノード1の離脱や追加の情報に基づき、ノード識別子管理テーブル400(図4参照)を変更する(ステップS11)。
具体的には、ノード識別子管理部101は、クラスタを構成する複数のノード1において、あるノード1が離脱した場合には、そのノード1のノード識別子401とアドレス402とを含むレコードを削除する。また、ノード識別子管理部101は、クラスタを構成する複数のノード1において、新たなノード1が追加された場合には、そのノード1のノード識別子401とアドレス402とを含むレコードを新規に登録する。
続いて、データ抽出部105は、ノード識別子管理部101によりノード識別子管理テーブル400(図4参照)が変更されたことを契機として、判定対象データを抽出し、その判定対象データのデータ識別子を抽出データ管理テーブル200に格納する(ステップS12)。
具体的には、データ抽出部105は、(1)自身が原本として管理しているデータ(原本データ)、および、(2)自身が複製として管理しているデータ(複製データ)のうち原本データが消失した複製データを、データ移行処理(再冗長化処理または再配置処理)が必要か否かの判定対象となるデータ(判定対象データ)として抽出し、その抽出したデータのデータ識別子を、抽出データ管理テーブル200に格納する。
そして、データ移行処理部106は、データ移行パラメータ管理部107により設定された、所定のタイミングであるか否かを判定する(ステップS13)。データ移行処理部106は、所定のタイミングであれば(ステップS13→Yes)、次のステップS14に進み、所定のタイミングでなければ(ステップS13→No)、所定のタイミングになるまで待機する。
なお、データ移行パラメータ管理部107により設定される所定のタイミングについては、図7において説明する。
ステップS14において、データ移行処理部106は、抽出データ管理テーブル200を参照し、判定対象データ(具体的には判定対象データのデータ識別子)を1つ抽出する(ステップS14)。
次に、データ移行処理部106は、ステップS14で抽出した判定対象データが、データ移行処理(再冗長化処理または再配置処理)の対象となるデータ(データ移行対象データ)か否かを検出する処理(データ移行対象データの検出処理)を実行する(ステップS15)。なお、このデータ移行対象データの検出処理の詳細は、図6において説明する。
続いて、データ移行処理部106は、ステップS15により、データ移行対象データが検出されたか否かを判定する(ステップS16)。ここで、データ移行処理部106は、データ移行対象データが検出された場合には(ステップS16→Yes)、ステップS17に進み、検出されなかった場合には(ステップS16→No)、ステップS18に進む。
ステップS17において、データ移行処理部106は、データ移行処理(再冗長化処理または再配置処理)を実行する。なお、このデータ移行処理部106によるデータ移行処理は、ノード情報付与部104が、移行するデータに付与されたノード情報を、ステップS15のデータ移行対象データの検出処理でシミュレーション(変更後のノード識別子管理テーブル400(図4参照)に基づく、所有者ノードとバディの特定)した所有者ノードの識別子とバディの識別子とに変更してから実行される。
次に、ステップS18において、データ移行処理部106は、抽出データ管理テーブル200に格納されたすべての判定対象データ(データ識別子)を処理したか否かを判定する。ここで、データ移行処理部106は、抽出データ管理テーブル200に、まだ処理していない判定対象データ(データ識別子)が格納されている場合には(ステップS18→No)、ステップS13に戻り処理を続ける。一方、データ移行処理部106は、抽出データ管理テーブル200に格納されたすべての判定対象データ(データ識別子)の処理を終えている場合には(ステップS18→Yes)、データ移行処理を終了する。
なお、ノード1のデータ移行処理部106が、この図5のステップS13〜S18によるデータ移行処理を徐々に実行している間においても、そのノード1はクライアント2からメッセージを受信し、メッセージ処理部102がそのメッセージに対する処理を実行している。メッセージ処理部102は、受信したメッセージについての処理を実行すると共に、そのメッセージの対象となるデータが、データ移行対象データか否かを、そのデータに付されたノード情報を参照して判定する。具体的には、そのノード情報中の所有者ノードとバディのいずれかが、各々自ノード、ID空間上の右隣ノードと異なれば、データ移行対象データと判定する。そして、メッセージ処理部102は、当該データがデータ移行対象データである場合には、そのデータのデータ移行処理(再冗長化処理または再配置処理)を実行する。なお、自ノードが受信したメッセージにかかるデータを保持していない場合(ID空間上の右隣にノードが追加された場合に発生しうる)には、メッセージ処理部102は、他ノードからのデータの取得を含む再配置処理を伴ってメッセージの処理を実行する。データの取得先は、ノード識別子管理テーブル400を参照して特定する。
このようにすることで、ノード1は、メッセージを受信したことにより、それ以降も利用可能性が高いと予測されるデータについては、そのデータに関するメッセージ処理を実行すると共に、データ移行処理(再冗長化処理または再配置処理)を行い、冗長度の減少の回復や、データの適正な配置を迅速に達成することができる。
(データ移行対象データの検出処理)
次に、図5のステップS15において、ノード1のデータ移行処理部106が実行するデータ移行対象データの検出処理について詳細に説明する。
図6は、本実施形態に係るノード1のデータ移行処理部106が行うデータ移行対象データの検出処理の流れを示すフローチャートである。
まず、ノード1のデータ移行処理部106は、抽出データ管理テーブル200から抽出した判定対象データについて、シミュレーション(図6において、「A処理」と記載)を実行する(ステップS20)。具体的には、データ移行処理部106は、抽出した判定対象データについて、変更されたノード識別子管理テーブル400に基づき、コンシステントハッシュ法等の予め定められたデータ管理手法に従った場合の所有者ノードとバディとを特定する。
次に、データ移行処理部106は、抽出データ管理テーブル200から抽出した判定対象データに付されたノード情報(所有者ノードの識別子とバディの識別子)を抽出(図6において、「B処理」と記載)する(ステップS21)。
続いて、シミュレーション(A処理)の結果、自ノードが所有者ノードか否かを判定する(ステップS22)。ここで、シミュレーション(A処理)の結果、自ノードが所有者ノードである場合には(ステップS22→Yes)、次のステップS23に進み、一方、自ノードが所有者ノードでない場合には(ステップS22→No)、ステップS25に進む。
ステップS23において、データ移行処理部106は、ノード情報抽出(B処理)の結果、自ノードが所有者ノードか否かを判定する。ここで、ノード情報抽出(B処理)の結果、自ノードが所有者ノードでない場合は(ステップS23→No)、そのデータ(判定対象データ)を、データ移行処理の対象となるデータ(データ移行対象データ)として決定する。つまり、同じデータに関して、所有者ノードがA処理とB処理とで一致しないため、データ移行が必要なデータ(図6において、「データ移行対象」と記載)となる。一方、ノード情報抽出(B処理)の結果、自ノードが所有者ノードである場合は(ステップS23→Yes)、次のステップS24に進む。
ステップS24において、データ移行処理部106は、シミュレーション(A処理)の結果とノード情報抽出(B処理)の結果とでバディが一致するか否かを判定する。ここで、バディが一致する場合には(ステップS24→Yes)、そのデータ(判定対象データ)は、データ移行の必要のないデータ(図6において、「データ移行対象外」と記載)となる。一方、バディが一致しない場合には(ステップS24→No)、そのデータ(判定対象データ)を、データ移行処理の対象となるデータ(データ移行対象データ)として決定する。つまり、所有者ノードが一致していても、バディが一致していないため、データ移行対象データとなる。
次に、ステップS22において、シミュレーション(A処理)の結果、自ノードが所有者ノードでない場合には(ステップS22→No)、データ移行処理部106は、ノード情報抽出(B処理)の結果、自ノードが所有者ノードか否かを判定する(ステップS25)。ここで、ノード情報抽出(B処理)の結果、自ノードが所有者ノードある場合には(ステップS25→Yes)、そのデータ(判定対象データ)を、データ移行処理の対象となるデータ(データ移行対象データ)として決定する。つまり、所有者ノードがA処理とB処理で一致しないため、データ移行対象となる。一方、ノード情報抽出(B処理)の結果、自ノードが所有者ノードでない場合は(ステップS25→No)、次のステップS26に進む。
ステップS26において、データ移行処理部106は、ノード情報抽出(B処理)の結果、所有者ノードが変更後のノード識別子管理テーブル400(図4参照)に存在するか否かを判定する。ここで、存在する場合には(ステップS26→Yes)、そのデータ(判定対象データ)は、データ移行対象外となる。一方、存在しない場合には(ステップS26→No)、次のステップS27に進む。
ステップS27において、データ移行処理部106は、ノード情報抽出(B処理)の結果、自身より若いバディ(ノード識別子を昇順に並べた場合に、番号が若いバディ)が存在し、変更後のノード識別子管理テーブル400(図4参照)にも、その自身より若いバディが存在するか否かを判定する。つまり、複数のバディが存在する場合に、自身が番号の最も若いバディであるか否かを判定する。ここで、自身より若いバディが存在する場合には(ステップS27→Yes)、同一データに対し重複してデータ移行処理を実行するのを避けるため、そのデータ(判定対象データ)を、データ移行対象外とする。一方、自身より若いバディが存在しない場合には(ステップS27→No)、そのデータ(判定対象データ)を、データ移行処理の対象となるデータ(データ移行対象データ)として決定する。
このようにすることで、データ移行処理部106は、抽出データ管理テーブル200に抽出された判定対象データそれぞれについて、データ移行処理を実行すべきか否かを判定し、データ移行対象データを検出することができる。また、複数のバディが存在する場合であっても、離脱や追加されたノード1の両隣にある、所有者ノードと番号が最も若いバディとがトリガとなりデータ移行処理が実行されるので、同一データについて、重複してデータ移行処理を実行することを避けることができる。
(所定のタイミングでのデータ移行処理)
次に、図7を参照して、データ移行パラメータ管理部107により設定されるパラメータに基づく、データ移行処理の所定のタイミングについて説明する。
図7においては、データ移行パラメータ管理部107に設定されるパラメータの例として、データ移行処理スレッド数、データ移行処理実行間隔、および、シミュレーション最大回数が設定されている例を示す。
図7は、データ移行処理スレッド数(符号P1)が「3」に設定されている例を示している。
また、各スレッドにおいて、データ移行処理部106が、抽出データ管理テーブル200から判定対象データを取得すると(ステップS30)、データ移行対象データの検出処理を実行し(ステップS31)、データ移行対象データが検出された場合には、そのままデータ移行処理(再冗長化処理または再配置処理)を実行する(ステップS32)。
ここで、データ移行対象データについて、ステップS32において、データ移行処理を実行した後、データ移行処理部106は、データ移行処理実行間隔(符号P2)が設定されているため、所定の時間、次の判定対象データの取得処理(ステップS30)を行わずに待機する。
また、図7のスレッド「1」に示すように、シミュレーション最大回数(符号P3)のパラメータが「5」に設定されている場合には、データ移行処理部106は、抽出データ管理テーブル200から判定対象データを取得し、データ移行対象データの検出処理を5回連続して実行する。そして、データ移行処理部106は、シミュレーション最大回数(ここでは「5」回)のデータ移行対象データの検出処理を行っても、データ移行対象データが検出されなかったときには、所定の時間待機する。
このようにすることで、各パラメータにより設定された所定のタイミングでデータ移行対象データの検出処理を実行し、データ移行対象データが検出された場合に、データ移行処理を実行することができる。よって、クラスタを構成するノード1が離脱したり追加されたりした直後において、他の既存のノード1は、データ移行処理を一時に実行しないため、ノード1が処理負荷を抑えながら徐々にデータ移行処理(再冗長化処理または再配置処理)を実行することができる。
以上説明したように、本実施形態に係る、データ移行処理システム100およびデータ移行処理方法によれば、クラスタを構成するノード1の離脱または追加があった場合に、ノード1の処理負荷を抑えながらデータを移行させることができる。
<変形例1>
次に、本実施形態に係るデータ移行処理システム100の変形例1について説明する。
図8は、本実施形態の変形例1に係るノード1aの構成例を示す機能ブロック図である。
図3に示した本実施形態に係るノード1との違いは、制御部10に、ノード負荷監視部108を追加して備えていることである。
ノード負荷監視部108は、ノード1a自身の処理負荷(例えば、CPU使用率、メモリ使用率等)を監視し、その処理負荷に対し予め設定された所定値を超えた場合に、データ移行処理部106に処理中断情報を出力することにより、データ移行処理部106によるデータ移行処理を中断させる。具体的には、例えば、データ移行処理部106が、図7のステップS30で示した、抽出データ管理テーブル200からの判定対象データの取得を中止することにより、データ移行処理を中断する。
そして、ノード負荷監視部108は、ノード1a自身の処理負荷が所定値以下になった場合に、データ移行処理部106に処理開始情報を出力することにより、データ移行処理部106によるデータ移行処理を再開させる。例えば、データ移行処理部106が、図7のステップS30で示した判定対象データの取得処理を再開することにより、データ移行処理を実行する。
このようにすることで、データ移行パラメータ管理部107で設定されたパラメータに基づき、所定のタイミングでデータ移行処理部106がデータ移行処理を実行している場合であっても、何らかの理由(例えば、クライアント2から大量のメッセージを受信した場合等)で、ノード1aの処理負荷が所定を超えた場合に、データ移行処理(再冗長化処理または再配置処理)を中断することができる。よって、ノード1aの処理負荷を抑制することが可能となる。
<変形例2>
次に、本実施形態に係るデータ移行処理システム100の変形例2について説明する。
図9は、本実施形態の変形例2に係るノード1bの構成例を示す機能ブロック図である。
図8に示した本実施形態の変形例1に係るノード1aとの違いは、制御部10にデータ移行パラメータ管理部107を備えていないことである。
この場合、ノード1bは、データ移行パラメータ管理部107を備えていないため、図5のステップS13およびS14で示した、抽出データ管理テーブル200から判定対象データを、設定したパラメータに基づく所定のタイミングで取得するような処理を、データ移行処理部106は実行していない。データ移行処理部106は、ステップS13を実行することなく、直ちにステップS14にて抽出データ管理テーブル200から判定対象データを取得し、データ移行対象データの検出処理を実行し、データ移行対象データが検出された場合には、そのデータのデータ移行処理を実行する。なお、この場合、図5のフローにおいて、ステップS18→Noのとき、ステップS14に戻る。
そして、ノード負荷監視部108は、ノード1b自身の処理負荷(例えば、CPU使用率、メモリ使用率等)を監視し、その処理負荷に対し予め設定された所定値を超えた場合に、データ移行処理部106に処理中断情報を出力することにより、データ移行処理部106によるデータ移行処理を中断させる。また、ノード負荷監視部108は、ノード1b自身の処理負荷が所定値以下になった場合に、データ移行処理部106に処理開始情報を出力することにより、データ移行処理部106によるデータ移行処理を再開させる。
このようにすることで、ノード1bは、自身の処理負荷が所定値を超えた場合に、データ移行処理を中断し、処理負荷が所定値以下になった場合に、データ移行処理を再開することができる。よって、ノード1bは、自身の処理負荷を直接的に監視し、処理負荷が所定値以上にならないように抑制した上で、データ移行処理を実行することが可能となる。
1,1a,1b ノード
2 クライアント
3 ロードバランサ
4 振り分け装置
10 制御部
11 入出力部(入力部)
12 メモリ部
13 記憶部
100 データ移行処理システム
101 ノード識別子管理部
102 メッセージ処理部
103 死活監視部
104 ノード情報付与部
105 データ抽出部
106 データ移行処理部
107 データ移行パラメータ管理部
108 ノード負荷監視部
200 抽出データ管理テーブル
300 データ(サービス対象データ)
400 ノード識別子管理テーブル(ノード識別子管理情報)
1000 分散処理システム

Claims (5)

  1. クラスタを構成する複数のノードのいずれかが、クライアントにサービスを提供するためのデータを原本データとして記憶する所有者ノード、または、前記データの複製データを記憶する1つ以上の複製ノードとして割り当てられて記憶するデータ移行処理システムであって、
    前記データ移行処理システムを構成する前記複数のノードそれぞれは、
    固有な識別子であるノード識別子が付された前記複数のノードそれぞれについて、前記データと前記所有者ノードおよび前記複製ノードとが対応付けられたノード識別子管理情報が記憶される記憶部と、
    前記原本データを記憶する前記所有者ノードのノード識別子および前記複製データを記憶する前記複製ノードのノード識別子を、前記原本データおよび前記複製データそれぞれに、ノード情報として付与するノード情報付与部と、
    前記ノードの離脱または追加を検知して、前記ノード識別子管理情報を、前記ノードの離脱または追加に応じた、前記データと前記所有者ノードおよび前記複製ノードとの新たな対応付けに変更して格納させるノード識別子管理部と、
    前記ノードの離脱が検知された場合に、変更された前記ノード識別子管理情報に基づいて、自身が記憶している前記原本データ、および、自身が記憶している複製データであって、その原本データが消失しているときには、当該複製データを、前記所有者ノードまたは前記複製ノードを変更するために行うデータ移行が必要か否かの判定対象となるデータを示す判定対象データとして抽出し、
    前記ノードの追加が検知された場合に、変更された前記ノード識別子管理情報に基づいて、自身が記憶している前記原本データを、前記判定対象データとして抽出するデータ抽出部と、
    前記データ移行による前記ノード自身の処理負荷を抑制するように設定されたパラメータに基づく所定のタイミングのときに、前記抽出した判定対象データについて、前記変更されたノード識別子管理情報に対応した所有者ノードおよび複製ノードを特定し、前記特定した所有者ノードおよび複製ノードそれぞれのノード識別子が、前記ノード情報と比較して一致しない場合に、当該抽出した判定対象データを、前記データ移行が必要なデータを示すデータ移行対象データとして検出し、前記検出したデータ移行対象データを、前記特定した所有者ノードおよび複製ノードに移行するデータ移行処理部と、を備え、
    前記パラメータは、
    前記データ移行を並列で実行できる最大スレッド数を示すデータ移行処理スレッド数、前記データ移行を実行した後の待機時間を示すデータ移行処理実行間隔、前記変更されたノード識別子管理情報に対応した所有者ノードおよび複製ノードを特定する処理であるシミュレーションを含む、前記データ移行対象データの検出処理を連続で実行する回数を示すシミュレーション最大回数、の少なくとも1つであること
    を特徴とするデータ移行処理システム。
  2. 前記複数のノードそれぞれは、
    前記ノード自身の処理負荷を監視し、前記処理負荷が所定値を超えた場合に、前記データ移行処理部に処理中断情報を出力するノード負荷監視部を、さらに備え、
    前記データ移行処理部は、前記処理中断情報を受け取ると、前記データ移行を中断すること
    を特徴とする請求項1に記載のデータ移行処理システム。
  3. 前記複数のノードそれぞれは、
    前記クライアントから前記データによる前記サービスの提供を要求するメッセージを受信した場合に、前記メッセージの処理を実行すると共に、前記サービスの対象となるデータが前記データ移行対象データである場合に、前記サービスの対象となるデータを、前記変更されたノード識別子管理情報に対応した所有者ノードおよび複製ノードに移行するメッセージ処理部を、さらに備えること
    を特徴とする請求項1または請求項2に記載のデータ移行処理システム。
  4. クラスタを構成する複数のノードのいずれかが、クライアントにサービスを提供するためのデータを原本データとして記憶する所有者ノード、または、前記データの複製データを記憶する1つ以上の複製ノードとして割り当てられて記憶するデータ移行処理システムのデータ移行処理方法であって、
    前記データ移行処理システムを構成する前記複数のノードそれぞれは、
    固有な識別子であるノード識別子が付された前記複数のノードそれぞれについて、前記データと前記所有者ノードおよび前記複製ノードとが対応付けられたノード識別子管理情報が記憶される記憶部を備えており、
    前記原本データを記憶する前記所有者ノードのノード識別子および前記複製データを記憶する前記複製ノードのノード識別子を、前記原本データおよび前記複製データそれぞれに、ノード情報として付与するステップと、
    前記ノードの離脱または追加を検知して、前記ノード識別子管理情報を、前記ノードの離脱または追加に応じた、前記データと前記所有者ノードおよび前記複製ノードとの新たな対応付けに変更して格納させるステップと、
    前記ノードの離脱が検知された場合に、変更された前記ノード識別子管理情報に基づいて、自身が記憶している前記原本データ、および、自身が記憶している複製データであって、その原本データが消失しているときには、当該複製データを、前記所有者ノードまたは前記複製ノードを変更するために行うデータ移行が必要か否かの判定対象となるデータを示す判定対象データとして抽出し、
    前記ノードの追加が検知された場合に、変更された前記ノード識別子管理情報に基づいて、自身が記憶している前記原本データを、前記判定対象データとして抽出するステップと、
    前記データ移行による前記ノード自身の処理負荷を抑制するように設定されたパラメータに基づく所定のタイミングのときに、前記抽出した判定対象データについて、前記変更されたノード識別子管理情報に対応した所有者ノードおよび複製ノードを特定し、前記特定した所有者ノードおよび複製ノードそれぞれのノード識別子が、前記ノード情報と比較して一致しない場合に、当該抽出した判定対象データを、前記データ移行が必要なデータを示すデータ移行対象データとして検出し、前記検出したデータ移行対象データを、前記特定した所有者ノードおよび複製ノードに移行するステップと、を実行し、
    前記パラメータは、
    前記データ移行を並列で実行できる最大スレッド数を示すデータ移行処理スレッド数、前記データ移行を実行した後の待機時間を示すデータ移行処理実行間隔、前記変更されたノード識別子管理情報に対応した所有者ノードおよび複製ノードを特定する処理であるシミュレーションを含む、前記データ移行対象データの検出処理を連続で実行する回数を示すシミュレーション最大回数、の少なくとも1つであること
    を特徴とするデータ移行処理方法。
  5. 前記複数のノードそれぞれは、
    前記ノード自身の処理負荷を監視し、前記処理負荷が所定値を超えた場合に、前記データ移行を中断させるステップを、さらに実行すること
    を特徴とする請求項4に記載のデータ移行処理方法。
JP2012184486A 2012-08-23 2012-08-23 データ移行処理システムおよびデータ移行処理方法 Expired - Fee Related JP5969315B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012184486A JP5969315B2 (ja) 2012-08-23 2012-08-23 データ移行処理システムおよびデータ移行処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012184486A JP5969315B2 (ja) 2012-08-23 2012-08-23 データ移行処理システムおよびデータ移行処理方法

Publications (2)

Publication Number Publication Date
JP2014041550A JP2014041550A (ja) 2014-03-06
JP5969315B2 true JP5969315B2 (ja) 2016-08-17

Family

ID=50393745

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012184486A Expired - Fee Related JP5969315B2 (ja) 2012-08-23 2012-08-23 データ移行処理システムおよびデータ移行処理方法

Country Status (1)

Country Link
JP (1) JP5969315B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5918802B2 (ja) * 2014-04-08 2016-05-18 日本電信電話株式会社 ノードおよびプログラム
JPWO2016088372A1 (ja) * 2014-12-05 2017-09-14 日本電気株式会社 アクセス装置、マイグレーション装置、分散ストレージシステム、アクセス方法及びプログラム
JP6251203B2 (ja) * 2015-02-02 2017-12-20 日本電信電話株式会社 ストリーミングデータ配信システム、及び、ストリーミングデータ配信方法
JP6326011B2 (ja) * 2015-07-06 2018-05-16 日本電信電話株式会社 ノード、リバランシングキャンセル方法、および、プログラム
JP6433926B2 (ja) * 2016-01-12 2018-12-05 日本電信電話株式会社 リバランス装置、リバランス方法、及びプログラム
CN112380185B (zh) * 2020-10-30 2024-05-28 中国人寿保险股份有限公司 一种数据转储方法、设备、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7925624B2 (en) * 2006-03-31 2011-04-12 Amazon Technologies, Inc. System and method for providing high availability data
JP2008009797A (ja) * 2006-06-30 2008-01-17 Fujitsu Ltd 無中断メモリレプリケーション方法
JP2011095976A (ja) * 2009-10-29 2011-05-12 Nippon Telegr & Teleph Corp <Ntt> 分散データ管理装置及び方法及びプログラム
JP5355725B2 (ja) * 2010-02-10 2013-11-27 三菱電機株式会社 必須データ管理システム及び計算機及び必須データ管理プログラム及び記録媒体及び通信方法

Also Published As

Publication number Publication date
JP2014041550A (ja) 2014-03-06

Similar Documents

Publication Publication Date Title
JP5969315B2 (ja) データ移行処理システムおよびデータ移行処理方法
JP5998206B2 (ja) クラスタデータグリッドにおける拡張可能な中央集中型動的リソース分散
JP5952960B2 (ja) 計算機システム、計算機システム管理方法及びプログラム
CN107005596A (zh) 用于在集群重新配置后的工作负载平衡的复制型数据库分配
KR20120072908A (ko) 복수 개의 프락시 서버를 포함하는 분산 저장 시스템 및 그 오브젝트 관리 방법 및 컴퓨터에 의하여 독출가능한 저장 매체
US20140059315A1 (en) Computer system, data management method and data management program
KR20120072907A (ko) 오브젝트를 복수 개의 데이터 노드들의 위치에 기반하여 분산 저장하는 분산 저장 시스템 및 그 위치 기반 분산 저장 방법 및 컴퓨터에 의하여 독출 가능한 저장 매체
US20170048352A1 (en) Computer-readable recording medium, distributed processing method, and distributed processing device
Honnutagi The Hadoop distributed file system
JP6059558B2 (ja) 負荷分散判定システム
US20150365474A1 (en) Computer-readable recording medium, task assignment method, and task assignment apparatus
JP5711771B2 (ja) ノード離脱処理システム
JP5918802B2 (ja) ノードおよびプログラム
US20240176762A1 (en) Geographically dispersed hybrid cloud cluster
JP5690296B2 (ja) 負荷分散プログラムおよび負荷分散装置
JP5723330B2 (ja) 分散処理システムおよび分散処理方法
JP6506156B2 (ja) ノードおよびグラビテーション抑止方法
JP6714547B2 (ja) 負荷分散装置、負荷分散方法、および、負荷分散プログラム
JP6093320B2 (ja) 分散処理システム
JP5845298B2 (ja) ノードおよびプログラム
JP6127005B2 (ja) クラスタシステムのサーバ装置およびプログラム
JP2014032575A (ja) 分散ストレージシステム、分散ストレージデータ移動制御方法及び分散ストレージデータ移動制御用プログラム
JP5711772B2 (ja) クラスタシステム
JP6473425B2 (ja) ノードおよびデータ配置方法
JP6093319B2 (ja) クラスタシステム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140502

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140528

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141022

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160707

R150 Certificate of patent or registration of utility model

Ref document number: 5969315

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees