JP2018195265A - 情報処理装置、情報処理装置の制御方法およびプログラム - Google Patents

情報処理装置、情報処理装置の制御方法およびプログラム Download PDF

Info

Publication number
JP2018195265A
JP2018195265A JP2017101098A JP2017101098A JP2018195265A JP 2018195265 A JP2018195265 A JP 2018195265A JP 2017101098 A JP2017101098 A JP 2017101098A JP 2017101098 A JP2017101098 A JP 2017101098A JP 2018195265 A JP2018195265 A JP 2018195265A
Authority
JP
Japan
Prior art keywords
information processing
processing system
site
information
recovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017101098A
Other languages
English (en)
Inventor
裕太郎 岩切
Yutaro Iwakiri
裕太郎 岩切
洋志 片山
Hiroshi Katayama
洋志 片山
大輔 佛田
Daisuke Butta
大輔 佛田
哲夫 辻井
Tetsuo Tsujii
哲夫 辻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017101098A priority Critical patent/JP2018195265A/ja
Priority to US15/983,139 priority patent/US20180336110A1/en
Publication of JP2018195265A publication Critical patent/JP2018195265A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Computer And Data Communications (AREA)

Abstract

【課題】災害復旧において復旧対象の情報処理システムが復旧先でも機能が使用できるように情報処理システムの復旧先を決定することができる情報処理装置を提供する。【解決手段】情報処理システムを稼働する複数のサイトから情報処理システムの復旧先となるサイトを決定する情報処理装置であって、各情報処理システムが使用する機能に関する第1の情報と各サイトにおいて情報処理システムが使用可能な機能に関する第2の情報を取得する取得部と、複数のサイトの第1のサイトにおいて情報処理システムに障害が発生した場合に、取得した第1の情報と第2の情報とに基づいて、障害が発生した情報処理システムが使用する機能を使用可能なサイトを、障害が発生した情報処理システムの復旧先として決定する決定部とを有する情報処理装置を提供する。【選択図】図1

Description

本発明は、情報処理装置、情報処理装置の制御方法およびプログラムに関する。
サーバなどの情報処理装置を含む情報処理システムを用いて提供されるサービスにおいて、ディザスタリカバリ(災害復旧;Disaster Recovery(DR))と呼ばれる対策が採
られることがある。DRでは、地震などの災害に備えて、サービスで実際に運用しているサイトと同等のサイトが、バックアップサイトとして地理的に離れた場所に用意されている。災害発生時にサービスの運用に使用されているサイトに障害が発生した場合に、バックアップサイトとして用意されたサイトが代わりに使用される。これにより、災害発生時の迅速なサービスの復旧が図られている。
また、バックアップサイトを複数用意しておき、障害が発生したサイトで動作している複数の情報処理システムを複数のバックアップサイトを用いて分散して復旧する技術も提案されている。また、各情報処理システムに復旧の優先順位を設定しておき、優先順位の高いものから復旧する技術も提案されている(特許文献1〜3)。
特表2010−530108号公報 特表2015−510201号公報 特開2010−102468号公報
しかし、サイトで固有の機能が使用されてサービスが提供される場合もある。ここで固有の機能の一例としていわゆるパブリッククラウドによって提供される機能が挙げられる。パブリッククラウドが使用される場合、あるパブリッククラウドの提供地域が限定されていたり、パブリッククラウドと接続する専用線を使用するなどの仕様が決められていたりすることがある。このため、上記の技術では、情報処理システムがパブリッククラウドの提供地域外にあるサイトや専用線を使用できないなど上記仕様を満たさないサイトに復旧される可能性がある。この結果、復旧先のサイトでは情報処理システムがパブリッククラウドによって提供されるサービスを使用できない可能性がある。なお、このような問題は、パブリッククラウドによって提供されるサービスに限定されるものではない。すなわち、復旧されるサイトとバックアップサイトで提供される機能が異なる場合にも、同様の問題が生じうる。
上記の事情に鑑みて、1つの側面では、災害復旧において復旧対象の情報処理システムが復旧先でも機能が使用できるように情報処理システムの復旧先を決定することができる情報処理装置を提供することを目的とする。
本件開示の技術の一側面によれば、情報処理システムを稼働する複数のサイトから情報処理システムの復旧先となるサイトを決定する情報処理装置であって、各情報処理システムが使用する機能に関する第1の情報と各サイトにおいて情報処理システムが使用可能な機能に関する第2の情報を取得する取得部と、複数のサイトの第1のサイトにおいて情報処理システムに障害が発生した場合に、取得した第1の情報と第2の情報とに基づいて、
障害が発生した情報処理システムが使用する機能を使用可能なサイトを、障害が発生した情報処理システムの復旧先として決定する決定部とを有する。
本件開示の技術によれば、災害復旧において復旧対象の情報処理システムが復旧先でも機能が使用できるように情報処理システムの復旧先を決定することができる情報処理装置を提供することができる。
図1は、一実施形態に係るサイトおよび使用サービスの関係の一例を示す模式図である。 図2は、一実施形態に係る管理サーバの構成の一例を示す図である。 図3は、一実施形態に係る管理サーバが実行する処理のフローチャートである。 図4は、一実施形態に係る管理サーバが実行するサブルーチンの処理のフローチャートである。 図5は、一実施形態に係るサイト管理表の一例を示す図である。 図6は、一実施形態に係る情報処理システム管理表の一例を示す図である。 図7は、一実施形態に係る情報処理システムの障害発生時におけるサイト管理表の一例を示す図である。 図8は、一実施形態に係る復旧処理表の一例を示す図である。 図9は、一実施形態に係る復旧先および復旧処理の内容が決定された後の復旧処理表の一例を示す図である。
以下、本件開示の技術に係る実施形態について図面を参照しながら説明する。なお、以下の詳細な説明は例示的なものであり、実施形態の構成を限定するものではない。
図1に示すように、本実施形態では、サイトA1、サイトB2、サイトC3は、地理的に離れた場所にそれぞれ構築されている。なお、サイトA1、サイトB2、サイトC3は、地理的に同じ場所に構築されていてもよい。また、構築されるサイトの数は、図1に示す数に限られない。一例として、各サイトはデータセンタとして機能し、各サイトには複数の情報処理システムが配備されている。サイトに配備される情報処理システムでは、仮想マシンやストレージ、ネットワークなどが組み合わされている。
サイトA1は、情報処理システムA4、情報処理システムB5および管理サーバ10を有する。また、サイトB2は、情報処理システムC6および管理サーバ11を有する。また、サイトC3は、情報処理システムD7、情報処理システムE8および管理サーバ12を有する。なお、サイトB2には、情報処理システムを配備できる空きリソース9が1つ残っている。ここで、管理サーバ10が、情報処理システムを稼働する複数のサイトから情報処理システムの復旧先となるサイトを決定する情報処理装置の一例である。
サイトA1、サイトB2、サイトC3は、それぞれ管理ネットワーク15に接続されている。これにより、管理サーバ10〜12は、管理ネットワーク15を経由して相互に通信を行う。また、サイトA1、B2は、サービスAを提供するパブリッククラウド13に接続されている。また、サイトB2、C3は、サービスBを提供するパブリッククラウド14に接続されている。これにより、サイトA1内の情報処理システムA4、情報処理システムB5は、パブリッククラウド13が提供するサービスAを使用することができる。また、サイトB2内の情報処理システムC6は、パブリッククラウド13が提供するサービスAおよびパブリッククラウド14が提供するサービスBを使用することができる。ま
た、サイトC3内の情報処理システムD7、情報処理システムE8は、パブリッククラウド14が提供するサービスBを使用することができる。さらに、本実施形態では、サイトA1では、パブリッククラウド14が提供するサービスBを使用できず、サイトC3では、パブリッククラウド13が提供するサービスAを使用できないと想定する。
図2に、一実施形態における管理サーバ10の構成の一例を示す。なお、管理サーバ11、12も管理サーバ10と同様の構成を有する。管理サーバ10は、Central Processing Unit(CPU)101、Random Access Memory(RAM)102、Hard Disk Drive(HDD)103、Graphics Processing Unit(GPU)104、入力インタフェース105、通信インタフェース106を有する。また、GPU104、入力インタフェース105、通信インタフェース106は、モニタ20、入力装置30、管理ネットワーク15にそれぞれ接続されている。CPU101、RAM102、HDD103、GPU104、入力インタフェース105、通信インタフェース106は、バス107を介して互いに接続されている。
管理サーバ10のユーザは、入力装置30を用いて管理サーバ10に種々の指示を行い、管理サーバ10の処理結果をモニタ20で確認する。本実施形態において、CPU101は、HDD103に記憶されている各種プログラムをRAM102に展開して実行することで、以下に説明する種々の処理を実行する。
また、本実施形態においては、管理サーバ10のHDD103には、各サイトにおいて使用可能なサービスの種類、各サイトにおいて情報処理システムを配備できる数(キャパシティ)に関する情報があらかじめ格納されている。なお、キャパシティが、各サイトにおいて配備可能な情報処理システムのリソース量の一例である。さらに、HDD103には、各情報処理システムが使用するサービス、情報処理システムを復旧する際の優先順位に関する情報もあらかじめ格納されている。なお、以下の説明において、各サイトにおいて情報処理システムが使用可能なサービスの種類およびキャパシティに関する情報をテーブルとしてまとめたデータをサイト管理表と称する。また、以下の説明において、各情報処理システムが使用するサービスおよび情報処理システムを復旧する際の優先順位に関する情報をテーブルとしてまとめたデータを情報処理システム管理表と称する。
図5、6に、HDD103に格納されるサイト管理表と情報処理システム管理表の一例をそれぞれ示す。図5に示すように、サイト管理表では、一例として、「サイト」欄に各サイトの名称が、「使用可能サービス」欄に各サイトで使用できるサービスが、「キャパシティ」欄に各サイトのキャパシティを示す値がそれぞれ格納される。なお、「使用可能サービス」欄に格納されるサービスが、各サイトにおいて情報処理システムが使用可能な機能に関する第2の情報の一例である。また、「キャパシティ」欄に格納されるキャパシティを示す値が、各サイトにおいて配備可能な情報処理システムのリソース量の合計量に関する第3の情報の一例である。サイト管理表により、各サイトで使用できるサービスおよび各サイトで配備できる情報処理システムの数が特定される。
また、図6に示すように、情報処理システム管理表では、一例として、「情報処理システム」欄に各情報処理システムの名称が、「使用サービス」欄に各情報処理システムが使用するサービスがそれぞれ格納される。なお、「使用サービス」欄に格納されるサービスが、各情報処理システムが使用する機能に関する第1の情報の一例である。さらに、情報処理システム管理表では、一例として、「復旧優先度」欄に情報処理システムの復旧時における優先順位を示す値がそれぞれ格納される。「復旧優先度」欄の値は自然数であり小さい値ほど優先的に復旧される。なお、「復旧優先度」欄に格納される値が、各情報処理システムの復旧の優先順位に関する第4の情報の一例である。情報処理システム管理表により、情報処理システムの復旧時に、各情報処理システムの復旧先および各情報処理シス
テムの復旧の優先順位が特定される。また、第1の情報によって示される障害が発生した情報処理システムが使用する機能が第2の情報によって示される使用可能な機能に含まれるサイトが特定され、特定されたサイトが復旧先の候補となる。
本実施形態では、一例として、サイトA1、サイトB2、サイトC3の管理サーバ10〜12が、管理ネットワーク15を経由して通信することで、上記のサイト管理表および情報処理システム管理表の情報の同期化が行われている。このため、例えば災害が発生して情報処理システムに障害が発生してサイトのキャパシティが減少した場合に、管理サーバ10〜12は、サイト管理表の「キャパシティ」欄の値を変更する。これにより、管理サーバ10〜12は、情報処理システムに障害が発生した際に、サイト管理表によって各サイトのキャパシティを特定することができる。なお、本実施形態では、管理サーバ10〜12は、各サイトに配備されている各情報処理システムで使用されるリソースなどの情報を共有していると想定する。管理サーバ10〜12による各情報処理システムの情報の共有は周知の技術によって実現できるため、ここでは詳細な説明は省略する。
以下に、本実施形態における管理サーバ10が実行する処理についてフローチャートを参照しながら説明する。なお、以下の処理は、管理サーバ10の代わりに、管理サーバ10〜12が代表サーバを決定し、決定された代表サーバが実行してもよい。代表サーバの決定については周知の技術を用いて実現できるため、ここでは詳細な説明は省略する。図3、4に、管理サーバ10のCPU101が実行する処理のフローチャートの一例を示す。管理サーバ10のCPU101は、一例として、管理サーバ10の電源が投入されたときに、図3に示すフローチャートの処理を開始する。
OP101において、CPU101は、サイトA1、サイトB2、サイトC3に配備された情報処理システムA4〜E8の少なくとも1つに障害が発生したか否かを判定する。具体的には、管理サーバ10〜12が、自サイト(管理サーバ10はサイトA1、管理サーバ11はサイトB2、管理サーバ12はサイトC3)に配備された各情報処理システムの障害発生状況を監視している。そして、管理サーバ10〜12は自サイト内の少なくとも1つの情報処理システムに障害が発生したことを検出すると、残りのサイトの管理サーバにその旨を通知する。これにより、管理サーバ10〜12は、情報処理システムA4〜E8の障害発生状況に関する情報を共有する。したがって、OP101において、CPU101は、情報処理システムA4〜E8に障害が発生したか否かを判定することができる。
また、本実施形態では、情報処理システムA4〜E8のいずれかに障害が発生した場合に、サイト管理表のキャパシティに関する情報が更新され、管理サーバ10〜12によって更新されたサイト管理表が共有される。一例として、サイトA1において災害が発生し、情報処理システムA4、B5に障害が発生したと想定する。このとき、管理サーバ10は、HDD103に格納されているサイト管理表の「キャパシティ」欄の値を図5に示す状態から図7に示す状態に更新する。そして、管理サーバ10は、更新したサイト管理表を管理ネットワーク15を経由して管理サーバ11、12に送信する。これにより、図7に示すサイト管理表が管理サーバ10〜12によって共有される。
OP101において、CPU101は、情報処理システムA4〜E8の少なくとも1つに障害が発生したと判定した場合は(OP101:Yes)、処理をOP102に進める。一方、CPU101は、情報処理システムA4〜E8に障害が発生していないと判定した場合は(OP101:No)、OP101の処理を繰り返し実行する。
OP102において、CPU102は、取得部として機能し、HDD103からサイト管理表および情報処理システム管理表をそれぞれ取得する。次いで、CPU102は、O
P103において、取得したサイト管理表および情報処理システム管理表を用いて情報処理システムA4〜E8の復旧先を決定する。
例えば、サイトA1において災害が発生し、情報処理システムA4、B5に障害が発生した場合、OP102において、CPU102は、図7に示すサイト管理表と図6に示す情報処理システム管理表をHDD103から取得する。そして、OP103において、CPU102は、取得したサイト管理表と情報処理システム管理表から図8に例示する復旧処理表を作成する。ここで、復旧処理表とは、各サイトに配備された情報処理システムの復旧先の候補を定義する表である。図8に示すように、復旧処理表において、「情報処理システム」欄には各サイトに配備されている情報処理システムの名称が、「現在のサイト」欄には情報処理システムが現在配備されているサイトの名称がそれぞれ格納される。さらに復旧処理表において、「復旧先の候補」欄には情報処理システムの復旧先の候補となるサイトの名称が、「復旧処理」欄には情報処理システムの復旧処理の内容がそれぞれ格納される。
ここで復旧処理の内容の一例として、復旧、移動、維持、停止が挙げられる。「復旧」は、障害が発生した情報処理システムを復旧することを意味する。「移動」は、障害が発生していない情報処理システムを別のサイトに移動することを意味する。「維持」は、障害が発生していない情報処理システムを現在配備されているサイトに継続して配備することを意味する。「停止」は、サイトに空きリソースが存在しないため情報処理システムを配備しないことを意味する。停止処理は、サイトでの使用可能なサービスやキャパシティ、情報処理システムが使用するサービス、情報処理システムの復旧の優先順位などから、情報処理システムの復旧先が存在しない場合に実行される処理である。また、停止処理は、いわゆる縮退処理、すなわち情報処理システムのリソースの一部を停止させる処理や情報処理システムの性能を低下させる処理で代用することもできる。
図7に示すように、サイトA1のキャパシティは0、サイトB2、C3のキャパシティはそれぞれ2である。すなわち、サイトA1には情報処理システムを復旧できる空きリソースが存在せず、サイトB2、C3の各サイトには、情報処理システムを復旧できる空きリソースが存在する。また、サイトB2ではサービスAおよびサービスBを使用することができ、サイトC3ではサービスBのみを使用することができる。さらに、図6に示すように、情報処理システムA4、B5がサービスAを使用し、情報処理システムC6、D7、E8がサービスBを使用する。
上記のサイト管理表と情報処理システム管理表によれば、情報処理システムA4はサイトB2またはサイトC3に復旧することができる。ただし、情報処理システムA4は、サービスAを使用するため、サイトB2に復旧されるとサービスAを使用できるがサイトC3に復旧されるとサービスAを使用できなくなる。したがって、CPU102は、情報処理システムA4の復旧先の候補はサイトB2であると決定する。同様に、CPU102は、情報処理システムB5の復旧先の候補はサイトB2であると決定し、情報処理システムC6〜E8の復旧先の候補はサイトB2またはサイトC3であると決定する。そして、CPU102は、判定結果に基づいて図8に示すように復旧処理表の「復旧先の候補」欄に各情報処理システムの復旧先の候補を格納する。CPU102は、情報処理システムの復旧先の候補を決定すると、処理をOP104に進める。
OP104では、CPU102は、復旧の優先順位の高い順に、各情報処理システムの復旧先を決定する。具体的には、CPU102は、OP103において作成した復旧処理表の各情報処理システムの復旧先の候補と、情報処理システム管理表の復旧の優先順位と、サイト管理表の各サイトのキャパシティとから、情報処理システムの復旧先を決定する。
OP104において実行されるサブルーチンの詳細処理の一例を図4に示す。OP201において、CPU102は、各サイトに配備されている情報処理システムのうち復旧先を決定していない情報処理システムが存在するか否かを判定する。例えば、CPU102は、以下に説明するOP202において、各情報処理システムに対して復旧先の決定処理を実行したか否かを示すフラグをオンにする。そして、OP201において当該フラグを参照することで、復旧先の決定処理を実行していない情報処理システムが存在するか否かを判定する。復旧先の決定処理を実行していない情報処理システムが存在する場合は(OP201:Yes)、CPU102は、処理をOP202に進める。一方、復旧先の決定処理を実行していない情報処理システムが存在しない場合は(OP201:No)、CPU102は、本サブルーチン処理をOP202に進める。OP202において、CPU102は、決定部として機能し、復旧先の決定処理を実行していない情報処理システムの復旧先を決定する。
以下に、OP201、OP202の処理の具体例について説明する。図6の情報処理システム管理表と、図7のサイト管理表と、図8の復旧処理表とが使用される場合、情報処理システム管理表の「復旧優先度」欄の値が示すように、復旧の優先順位は、高い順に並べると情報処理システムA4、B5、C6、D7、E8の順となる。したがって、OP202では、CPU102は、情報処理システムA4の復旧先を他の情報処理システムよりも優先して決定する。ここで、復旧処理表の「復旧先の候補」欄が示すように、情報処理システムA4の復旧先の候補はサイトB2である。サイト管理表の「キャパシティ」欄が示すように、サイトB2のキャパシティは2である。したがって、CPU102は、情報処理システムA4の復旧先をサイトB2に決定する。
このように、本実施形態では、各情報処理システムの復旧の優先順位に従って各情報処理システムの復旧先が決定される。これにより、災害の発生時に各サイトにおいて情報処理システムを配備できるリソース量が減少しても、復旧の優先順位の高い順に情報処理システムのリソースを割り当てることができる。
また、本実施形態では、各サイトに配備される情報処理システムに割り当てられるリソース量が各サイトのキャパシティを超えないように各情報処理システムの復旧先が決定される。これにより、復旧先でもサービスが使用できるように情報処理システムの復旧先が決定されたときに、サイトのキャパシティが不足して情報処理システムを配備できない現象の発生を抑えることができる。CPU102は、情報処理システムA4に対して復旧先の決定処理を実行したか否かを示すフラグをオンにして処理をOP201に戻す。
情報処理システムB5〜E8の復旧先の決定処理はまだ実行されていない。したがって、CPU102は、処理をOP201からOP202に進める。そして、OP202において、CPU102は、情報処理システムA4の場合と同様に、情報処理システムB5の復旧先をサイトB2に決定する。さらに、CPU102は、情報処理システムB5に対して復旧先の決定処理を実行したか否かを示すフラグをオンにして処理をOP201に戻す。
情報処理システムC6〜E8の復旧先の決定処理はまだ実行されていない。したがって、CPU102は、処理をOP201からOP202に進める。そして、OP202において、CPU102は、情報処理システムC6の復旧先を決定する。ここで、復旧処理表の「復旧先の候補」欄が示すように、情報処理システムC6の復旧先の候補はサイトB2、サイトC3である。すなわち、情報処理システムC6は、サイトB2またはサイトC3に復旧することができる。サイトB2のキャパシティは2であり、既に情報処理システムA4、B5の復旧先がサイトB2に決定されている。したがって、情報処理システムC6
を復旧するための空きリソースはサイトB2には存在しない。そこで、CPU102は、情報処理システムC6の復旧先をサイトC3に決定する。CPU102は、情報処理システムC6に対して復旧先の決定処理を実行したか否かを示すフラグをオンにして処理をOP201に戻す。
情報処理システムD7、E8の復旧先の決定処理はまだ実行されていない。したがって、CPU102は、処理をOP201からOP202に進める。そして、OP202において、CPU102は、情報処理システムC6の場合と同様に、情報処理システムD7の復旧先をサイトC3に決定する。さらに、CPU102は、情報処理システムD7に対する復旧先の決定処理を実行したか否かを示すフラグをオンにして処理をOP201に戻す。
情報処理システムE8の復旧先の決定処理はまだ実行されていない。したがって、CPU102は、処理をOP201からOP202に進める。そして、OP202において、CPU102は、情報処理システムE8の復旧先を決定する。ここで、情報処理システムE8の復旧先の候補はサイトB2、サイトC3である。情報処理システムC6、D7の場合と同様、情報処理システムE8を復旧するための空きリソースはサイトB2には存在しない。さらに、サイトC3のキャパシティは2であり、既に情報処理システムC6、D7の復旧先がサイトC3に決定されている。したがって、情報処理システムE8を復旧するための空きリソースはサイトC3にも存在しない。そこで、CPU102は、情報処理システムE8をサイトA1、サイトB2、サイトC3のいずれのサイトにも復旧できないため、情報処理システムE8の復旧先はないと決定する。
そして、CPU102は、情報処理システムE8に対して復旧先の決定処理を実行したか否かを示すフラグをオンにして処理をOP201に戻す。ここで、復旧先の決定処理が実行されていない情報処理システムは存在しない。したがって、CPU102は、本サブルーチンの処理を終了して、処理をOP105に進める。
OP202の処理によって、各情報処理システムが復旧先でもサービスを使用できる、すなわちサービスが使用できなくなるサイトには情報処理システムが復旧されないように各情報処理システムの復旧先を決定することができる。
OP105では、CPU102は、OP104で復旧先を決定した各情報処理システムA4〜E8の復旧処理の内容を決定し、決定した復旧処理の内容を復旧処理表の「復旧処理」欄に格納する。図8の復旧処理表が使用される場合、情報処理システムA4、B5は障害が発生している情報処理システムであり、復旧先のサイト(サイトB2)も決定されている。したがって、CPU102は、情報処理システムA4、B5の復旧処理の内容は「復旧」であると決定する。また、情報処理システムC6は障害が発生していない情報処理システムであり、現在配備されているサイトB2とは異なるサイトC3に復旧される。したがって、CPU102は、情報処理システムC6の復旧処理の内容は「移動」であると決定する。
本実施形態では、復旧の優先順位の低い情報処理システム(上記の例では、情報処理システムC6)がサイトB2に配備されると、復旧の優先順位がより高い情報処理システム(上記の例では、情報処理システムA4、B5)をサイトB2に復旧できない。そこで、復旧の優先順位の低い情報処理システムが、現在配備されているサイト(上記の例では、サイトB2)から復旧の優先順位の低い情報処理システムが使用する機能を使用可能なサイト(上記の例では、サイトC3)に移動されるように復旧先が決定される。これによって、復旧の優先順位のより高い情報処理システムが復旧先でもサービスを使用でき、復旧の優先順位の低い情報処理システムも復旧先でサービスを使用できるように、各情報処理
システムの復旧先が決定される。
また、情報処理システムD7は障害が発生していない情報処理システムであり、現在配備されているサイトC3に継続して配備される。したがって、CPU102は、情報処理システムD7の復旧処理の内容は「維持」であると決定する。また、情報処理システムE8は、復旧先が存在しない情報処理システムである。したがって、CPU102は、情報処理システムE8の復旧処理の内容は「停止」であると決定する。このようにOP105においてCPU102によって各情報処理システムの復旧処理の内容が決定された後の復旧処理表の一例を図9に示す。
CPU102は、各情報処理システムの復旧処理の内容を決定し、決定した復旧処理の内容を復旧処理表の「復旧処理」欄に格納すると、復旧処理表を管理ネットワーク15を経由して他の管理サーバ11、12に送信する。これにより、復旧処理表が管理サーバ10〜12によって共有される。そして、CPU102は、処理をOP106に進める。なお、以下のOP106、OP107では、処理の主体が各管理サーバ10〜12の各CPUとなる。管理サーバ10〜12が管理ネットワーク15を経由して互いに通信することにより、各サイトに配備された情報処理システムが上記で決定された復旧先に復旧される。
OP106において、管理サーバ10〜12のCPUは、復旧処理表および情報処理システム管理表に従って情報処理システムA4〜E8の復旧処理を実行する。具体的には、管理サーバ10〜12のCPUは、最初に復旧処理表において復旧処理の内容が「停止」である情報処理システムに対して、停止処理を実行する。次に、管理サーバ10〜12のCPUは、復旧処理表において復旧処理の内容が「移動」である情報処理システムに対して、移動処理を実行する。次に、管理サーバ10〜12のCPUは、復旧処理表において復旧処理の内容が「復旧」である情報処理システムに対して、復旧処理を実行する。
一例として、図9に示す復旧処理表と図6に示す情報処理システム管理表が使用される場合について説明する。復旧処理表では、復旧処理の内容が「停止」である情報処理システムは、情報処理システムE8である。したがって、情報処理システムE8が配備されているサイトC3の管理サーバ12のCPUが、情報処理システムE8の停止処理を実行する。この結果、情報処理システムE8が配備されていたリソースが空きリソースとなる。
次に、復旧処理の内容が「移動」である情報処理システムは、情報処理システムC6であり、情報処理システムC6の移動先は、復旧処理表の「復旧先の候補」欄が示すようにサイトC3である。したがって、情報処理システムC6が配備されているサイトB2の管理サーバ11のCPUが、情報処理システムC6が配備されているリソースを空きリソースとする。さらに、本実施形態では、管理サーバ10〜12は各情報処理システムの情報を共有している。このため、サイトC3の管理サーバ12のCPUが、情報処理システムC6の情報に従って、情報処理システムE8の停止処理によって空きとなったリソースに情報処理システムC6を配備する。この結果、サイトB2に配備されていた情報処理システムC6がサイトC3に移動される。
次に、復旧処理の内容が「復旧」である情報処理システムは、情報処理システムA4、B5である。また、情報処理システムA4、B5の復旧先はサイトB2である。管理サーバ10〜12のCPUは、情報処理システム管理表に格納されている復旧の優先順位の高い順に情報処理システムの復旧処理を実行する。したがって、まず、サイトB2の管理サーバ11のCPUが、空きリソースに情報処理システムA4を配備する。次に、サイトB2の管理サーバ11のCPUが、空きリソースに情報処理システムB5を配備する。この結果、サービスAを使用している情報処理システムA4、B5は、サービスAを使用でき
ないサイトC3に復旧されることなく、サービスAを使用できるサイトB2に復旧される。
OP106において各情報処理システムの復旧処理が完了すると、管理サーバ10〜12のCPUは処理をOP107に進める。OP107において、管理サーバ10〜12のCPUは、上記の各情報処理システムの復旧処理の結果をモニタ(管理サーバ10の場合はモニタ20)に表示する。復旧処理の結果には、各情報処理システムの復旧処理の内容、復旧処理によって各情報処理システムが配備されているサイト、復旧処理の成功または失敗を示す情報などが含まれる。管理サーバ10〜12のユーザは、モニタに表示される復旧処理の結果から、各情報処理システムがサービスを継続して使用できるサイトにそれぞれ復旧されていることを確認することができる。
以上が本実施形態に関する説明であるが、上記のサーバなどの構成や処理は、上記の実施形態に限定されるものではなく、本発明の技術的思想と同一性を失わない範囲内において種々の変更が可能である。例えば、上記の実施形態では、各サイトがパブリッククラウドのサービスを使用する場合を想定しているが、上記の各表と同様に、ハードウェアおよびソフトウェアを問わず各サイトに固有で使用できる機能に関する情報を各管理サーバが共有してもよい。これにより、各情報処理システムが使用する機能が復旧先でも使用できるように、情報処理システムの復旧先を決定することができる。
また、上記の実施形態では、復旧処理が停止である場合は、情報処理システムの全体のリソースが空きリソースとされる。ただし、停止の代わりに、例えば、一部のリソースを停止する縮退を復旧処理として採用してもよい。この場合、縮退によって停止された一部のリソースが情報処理システムを復旧させるためのリソースとして使用される。
また、上記の実施形態において、上記の少なくとも一部の処理は、CPU以外のプロセッサ、例えば、Digital Signal Processor(DSP)、Graphics Processing Unit(GPU)、数値演算プロセッサ、ベクトルプロセッサ、画像処理プロセッサ等の専用プロセッサで行われてもよい。また、上記の少なくとも一部の処理は、集積回路(IC)、その他のディジタル回路であってもよい。また、上記各部の少なくとも一部にアナログ回路が含まれてもよい。集積回路は、Large-scale Integration(LSI)、Application Specific Integrated Circuit(ASIC)、プログラマブルロジックデバイス(PLD)を含む。PLDは、例えば、Field-Programmable Gate Array(FPGA)を含む。上記各部は、
プロセッサと集積回路との組み合わせであってもよい。組み合わせは、例えば、マイクロコントローラ(MCU)、System-on-a-Chip(SoC)、システムLSI、チップセットなどと呼ばれる。
<コンピュータが読み取り可能な記録媒体>
コンピュータその他の機械、装置(以下、コンピュータ等)に上記サーバの設定を行うための管理ツール、OSその他を実現させるプログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。
ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、CD−ROM、CD−R/W、DVD、ブルーレイディスク、DAT、8mmテープ、フラッシュメモリ等のメモリカード等がある。また、コンピュータ等に固定された記録媒体としてハードディスクやROM等がある。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
情報処理システムを稼働する複数のサイトから情報処理システムの復旧先となるサイトを決定する情報処理装置であって、
各情報処理システムが使用する機能に関する第1の情報と各サイトにおいて情報処理システムが使用可能な機能に関する第2の情報を取得する取得部と、
前記複数のサイトの第1のサイトにおいて情報処理システムに障害が発生した場合に、前記取得された前記第1の情報と前記第2の情報とに基づいて、前記障害が発生した情報処理システムが使用する機能を使用可能なサイトを、前記障害が発生した情報処理システムの復旧先として決定する決定部と
を有することを特徴とする情報処理装置。
(付記2)
前記決定部は、前記取得した前記第1の情報によって示される前記障害が発生した情報処理システムが使用する機能が前記取得した前記第2の情報によって示される前記使用可能な機能に含まれるサイトを特定し、前記特定したサイトを前記障害が発生した情報処理システムの復旧先として決定する、ことを特徴とする付記1に記載の情報処理装置。
(付記3)
前記取得部は、各サイトにおいて配備可能な情報処理システムのリソース量の合計量に関する第3の情報を取得し、
前記決定部は、各サイトにおいて配備される情報処理システムに割り当てられるリソース量が前記取得された前記第3の情報が示すリソース量の合計量を超えないように、前記障害が発生した情報処理システムの復旧先を決定する
ことを特徴とする付記1または2に記載の情報処理装置。
(付記4)
前記取得部は、各情報処理システムの復旧の優先順位に関する第4の情報を取得し、
前記決定部は、前記取得した前記第4の情報に基づいて、前記優先順位の高い情報処理システムを前記優先順位の低い情報処理システムよりも優先して、前記障害が発生した情報処理システムの復旧先を決定する
ことを特徴とする付記1から3のいずれかに記載の情報処理装置。
(付記5)
前記決定部は、前記優先順位の高い情報処理システムの復旧先のサイトに前記優先順位の低い情報処理システムが配備されている場合に、前記優先順位の低い情報処理システムを、現在配備されているサイトから前記優先順位の低い情報処理システムが使用する機能を使用可能なサイトに移動するよう決定することで、前記優先順位の高い情報処理システムの復旧先を前記優先順位の低い情報処理システムが現在配備されているサイトに決定する、ことを特徴とする付記4に記載の情報処理装置。
(付記6)
情報処理システムを稼働する複数のサイトから情報処理システムの復旧先となるサイトを決定する情報処理装置に、
各情報処理システムが使用する機能に関する第1の情報と各サイトにおいて情報処理システムが使用可能な機能に関する第2の情報を取得させ、
前記複数のサイトの第1のサイトにおいて情報処理システムに障害が発生した場合に、前記取得された前記第1の情報と前記第2の情報とに基づいて、前記障害が発生した情報
処理システムが使用する機能を使用可能なサイトを、前記障害が発生した情報処理システムの復旧先として決定させる
ことを特徴とする情報処理装置の制御方法。
(付記7)
前記情報処理装置にさらに、
前記取得した前記第1の情報によって示される前記障害が発生した情報処理システムが使用する機能が前記取得した前記第2の情報によって示される前記使用可能な機能に含まれるサイトを特定させ、前記特定したサイトを前記障害が発生した情報処理システムの復旧先として決定させる
ことを特徴とする付記6に記載の情報処理装置の制御方法。
(付記8)
前記情報処理装置にさらに、
各サイトにおいて配備可能な情報処理システムのリソース量の合計量に関する第3の情報を取得させ、
各サイトにおいて配備される情報処理システムに割り当てられるリソース量が前記取得された前記第3の情報が示すリソース量の合計量を超えないように、前記障害が発生した情報処理システムの復旧先を決定させる
ことを特徴とする付記6または7に記載の情報処理装置の制御方法。
(付記9)
前記情報処理装置にさらに、
各情報処理システムの復旧の優先順位に関する第4の情報を取得させ、
前記取得された前記第4の情報に基づいて、前記優先順位の高い情報処理システムを前記優先順位の低い情報処理システムよりも優先して、前記障害が発生した情報処理システムの復旧先を決定させる
ことを特徴とする付記6から8のいずれかに記載の情報処理装置の制御方法。
(付記10)
前記情報処理装置にさらに、前記優先順位の高い情報処理システムの復旧先のサイトに前記優先順位の低い情報処理システムが配備されている場合に、前記優先順位の低い情報処理システムを、現在配備されているサイトから前記優先順位の低い情報処理システムが使用する機能を使用可能なサイトに移動するよう決定することで、前記優先順位の高い情報処理システムの復旧先を前記優先順位の低い情報処理システムが現在配備されているサイトに決定させる、ことを特徴とする付記9に記載の情報処理装置の制御方法。
(付記11)
情報処理システムを稼働する複数のサイトから情報処理システムの復旧先となるサイトを決定する情報処理装置に
各情報処理システムが使用する機能に関する第1の情報と各サイトにおいて情報処理システムが使用可能な機能に関する第2の情報を取得させ(図3:OP102、図5)、
前記複数のサイトの第1のサイトにおいて情報処理システムに障害が発生した場合に、前記取得された前記第1の情報と前記第2の情報とに基づいて、前記障害が発生した情報処理システムが使用する機能を使用可能なサイトを、前記障害が発生した情報処理システムの復旧先として決定させる
ためのプログラム。
(付記12)
前記情報処理装置にさらに、
前記取得した前記第1の情報によって示される前記障害が発生した情報処理システムが使用する機能が前記取得した前記第2の情報によって示される前記使用可能な機能に含まれるサイトを特定させ、前記特定したサイトを前記障害が発生した情報処理システムの復旧先として決定させる
ための付記11に記載のプログラム
(付記13)
前記情報処理装置にさらに、
各サイトにおいて配備可能な情報処理システムのリソース量の合計量に関する第3の情報を取得させ、
各サイトにおいて配備される情報処理システムに割り当てられるリソース量が前記取得された前記第3の情報が示すリソース量の合計量を超えないように、前記障害が発生した情報処理システムの復旧先を決定させる
ための付記11または12に記載のプログラム。
(付記14)
前記情報処理装置にさらに、
各情報処理システムの復旧の優先順位に関する第4の情報を取得させ、
前記取得された前記第4の情報に基づいて、前記優先順位の高い情報処理システムを前記優先順位の低い情報処理システムよりも優先して、前記障害が発生した情報処理システムの復旧先を決定させる
ための付記11から13に記載のプログラム。
(付記15)
前記情報処理装置にさらに、前記優先順位の高い情報処理システムの復旧先のサイトに前記優先順位の低い情報処理システムが配備されている場合に、前記優先順位の低い情報処理システムを、現在配備されているサイトから前記優先順位の低い情報処理システムが使用する機能を使用可能なサイトに移動するよう決定することで、前記優先順位の高い情報処理システムの復旧先を前記優先順位の低い情報処理システムが現在配備されているサイトに決定させる、ための付記14に記載のプログラム。
1、2、3 サイト
4、5、6、7、8 情報処理システム
10、11、12 管理サーバ
13、14 パブリッククラウド
101 CPU
102 RAM
103 HDD

Claims (7)

  1. 情報処理システムを稼働する複数のサイトから情報処理システムの復旧先となるサイトを決定する情報処理装置であって、
    各情報処理システムが使用する機能に関する第1の情報と各サイトにおいて情報処理システムが使用可能な機能に関する第2の情報を取得する取得部と、
    前記複数のサイトの第1のサイトにおいて情報処理システムに障害が発生した場合に、前記取得した前記第1の情報と前記第2の情報とに基づいて、前記障害が発生した情報処理システムが使用する機能を使用可能なサイトを、前記障害が発生した情報処理システムの復旧先として決定する決定部と
    を有することを特徴とする情報処理装置。
  2. 前記決定部は、前記取得した前記第1の情報によって示される前記障害が発生した情報処理システムが使用する機能が前記取得した前記第2の情報によって示される前記使用可能な機能に含まれるサイトを特定し、前記特定したサイトを前記障害が発生した情報処理システムの復旧先として決定する、ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記取得部は、各サイトにおいて配備可能な情報処理システムのリソース量の合計量に関する第3の情報を取得し、
    前記決定部は、各サイトにおいて配備される情報処理システムに割り当てられるリソース量が、前記取得した前記第3の情報が示すリソース量の合計量を超えないように、前記障害が発生した情報処理システムの復旧先を決定する
    ことを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記取得部は、各情報処理システムの復旧の優先順位に関する第4の情報を取得し、
    前記決定部は、前記第4の情報に基づいて、前記優先順位の高い情報処理システムを前記優先順位の低い情報処理システムよりも優先して、前記障害が発生した情報処理システムの復旧先を決定する
    ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。
  5. 前記決定部は、前記優先順位の高い情報処理システムの復旧先のサイトに前記優先順位の低い情報処理システムが配備されている場合に、前記優先順位の低い情報処理システムを、現在配備されているサイトから前記優先順位の低い情報処理システムが使用する機能を使用可能なサイトに移動するよう決定することで、前記優先順位の高い情報処理システムの復旧先を前記優先順位の低い情報処理システムが現在配備されているサイトに決定する、ことを特徴とする請求項4に記載の情報処理装置。
  6. 情報処理システムを稼働する複数のサイトから情報処理システムの復旧先となるサイトを決定する情報処理装置に、
    各情報処理システムが使用する機能に関する第1の情報と各サイトにおいて情報処理システムが使用可能な機能に関する第2の情報を取得させ、
    前記複数のサイトの第1のサイトにおいて情報処理システムに障害が発生した場合に、前記取得された前記第1の情報および前記第2の情報に基づいて、前記障害が発生した情報処理システムが使用する機能を使用可能なサイトを、前記障害が発生した情報処理システムの復旧先として決定させる
    ことを特徴とする情報処理装置の制御方法。
  7. 情報処理システムを稼働する複数のサイトから情報処理システムの復旧先となるサイトを決定する情報処理装置に
    各情報処理システムが使用する機能に関する第1の情報と各サイトにおいて情報処理シ
    ステムが使用可能な機能に関する第2の情報を取得させ、
    前記複数のサイトの第1のサイトにおいて情報処理システムに障害が発生した場合に、前記取得された前記第1の情報および前記第2の情報に基づいて、前記障害が発生した情報処理システムが使用する機能を使用可能なサイトを、前記障害が発生した情報処理システムの復旧先として決定させる
    ためのプログラム。
JP2017101098A 2017-05-22 2017-05-22 情報処理装置、情報処理装置の制御方法およびプログラム Pending JP2018195265A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017101098A JP2018195265A (ja) 2017-05-22 2017-05-22 情報処理装置、情報処理装置の制御方法およびプログラム
US15/983,139 US20180336110A1 (en) 2017-05-22 2018-05-18 Information processing device and method for controlling information processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017101098A JP2018195265A (ja) 2017-05-22 2017-05-22 情報処理装置、情報処理装置の制御方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2018195265A true JP2018195265A (ja) 2018-12-06

Family

ID=64272333

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017101098A Pending JP2018195265A (ja) 2017-05-22 2017-05-22 情報処理装置、情報処理装置の制御方法およびプログラム

Country Status (2)

Country Link
US (1) US20180336110A1 (ja)
JP (1) JP2018195265A (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4990089B2 (ja) * 2007-10-12 2012-08-01 株式会社日立製作所 格納データ暗号化機能内蔵ストレージ装置の暗号鍵をバックアップ及びリストアする計算機システム
JP4393563B1 (ja) * 2008-07-02 2010-01-06 株式会社東芝 情報処理装置、情報処理装置のデータ復元方法、及び情報処理装置のデータ復元プログラム
US9047247B2 (en) * 2012-10-30 2015-06-02 Hitachi, Ltd. Storage system and data processing method
US9201740B2 (en) * 2012-11-22 2015-12-01 Hitachi, Ltd. Computer system, cluster management method, and management computer
US10102079B2 (en) * 2013-06-13 2018-10-16 Hytrust, Inc. Triggering discovery points based on change
US9836363B2 (en) * 2014-09-30 2017-12-05 Microsoft Technology Licensing, Llc Semi-automatic failover

Also Published As

Publication number Publication date
US20180336110A1 (en) 2018-11-22

Similar Documents

Publication Publication Date Title
RU2702268C2 (ru) Масштабируемые пулы хранения данных
CN106528327B (zh) 一种数据处理方法以及备份服务器
JP4611922B2 (ja) 制御プログラム、制御方法および制御装置
CN114450927B (zh) 工作流处理方法、工作流管理器、设备以及计算机存储介质
US10601680B2 (en) Application resiliency using APIs
US9916215B2 (en) System and method for selectively utilizing memory available in a redundant host in a cluster for virtual machines
US20160261459A1 (en) Package dependency maps for distributed computing
US20160044096A1 (en) Scaling Up and Scaling Out of a Server Architecture for Large Scale Real-Time Applications
CN109656646B (zh) 一种远程桌面控制方法、装置、设备及虚拟化芯片
CN112269694B (zh) 一种管理节点确定方法、装置、电子设备及可读存储介质
KR20160066228A (ko) 분산 렌더링 시스템
JP6520512B2 (ja) 情報処理装置、優先度算出プログラムおよびデータセンタシステム
US9921878B1 (en) Singleton coordination in an actor-based system
JP6418255B2 (ja) 障害監視装置、仮想ネットワークシステム、障害監視方法およびプログラム
US20220171685A1 (en) Identifying fault domains for delta components of a distributed data object
US10169440B2 (en) Synchronous data replication in a content management system
CN111488247B (zh) 一种管控节点多次容错的高可用方法及设备
JP2009223519A (ja) クラスタシステム及び同システムにおいてマスタノードを選択する方法
JP2018195265A (ja) 情報処理装置、情報処理装置の制御方法およびプログラム
CN109324867A (zh) 一种虚拟机暂存方法、恢复方法及装置
CN111866210A (zh) 一种虚拟ip均衡分配方法、***、终端及存储介质
CN111338902A (zh) 数据处理方法、装置及***
US9348672B1 (en) Singleton coordination in an actor-based system
US20220150298A1 (en) Operating cloud-managed remote edge sites at reduced disk capacity
JP2018133005A (ja) 制御装置及び制御方法