JP5068056B2

JP5068056B2 - 障害回復方法、計算機システム及び管理サーバ

Info

Publication number: JP5068056B2
Application number: JP2006277738A
Authority: JP
Inventors: 恵介畑▲崎▼; 正芳北村; 良史高本
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2006-10-11
Filing date: 2006-10-11
Publication date: 2012-11-07
Anticipated expiration: 2026-10-11
Also published as: US20100180148A1; JP2008097276A; US20080091746A1; US20120011392A1; US8296601B2; US8041986B2; US7711983B2

Description

本発明は、計算機システムのサーバで障害が発生した際にサーバを交替し障害を回復する方法に関する。

複数のサーバを備える計算機システムにおいて、業務を稼動中のサーバ（現用サーバ）で障害が発生した場合、現用サーバで稼動中の業務が停止するため、別のサーバに交替し、業務を引き継ぐことによって、業務の停止時間を削減し、計算機システムの可用性を向上する方法がある。

例えば、現用サーバで障害が発生すると、障害が発生した現用サーバが利用していたブートディスク（論理ユニット）を、業務を稼動中でない予備サーバが引き継いで起動することによって、障害が発生したサーバの業務を別のサーバへと引き継ぐ障害回復方法がある。この方法では、計算機システムに複数の現用サーバが存在する場合に、どの現用サーバで障害が発生しても、障害が発生した現用サーバのブートディスクを予備サーバが引き継ぐことによって障害の回復が可能であり、多数の現用サーバに対して少数の予備サーバを準備することによって、高い信頼性を得ることができる。また、予備サーバに予めＯＳ等のソフトウェアを構築しておく必要はない。すなわち、ホットスタンバイ等の障害回復方法に比べて、予備サーバを構築する必要がない。
特開２００６−１６３９６３号公報

前述した従来のサーバの引継方法では、現用サーバのブートディスクを、予備サーバがそのまま引き継ぐため、現用サーバで稼動していたＯＳやソフトウェアの設定は、予備サーバにもそのまま引き継がれることとなる。このため、現用サーバと予備サーバとでハードウェアの構成やネットワークの接続先が異なる場合、ＯＳやソフトウェアのハードウェアやネットワークに依存する設定が、現用サーバと予備サーバとでは一致しない。このような場合に、予備サーバでＯＳやソフトウェアが正常に動作せずに、現用サーバで稼動していた業務を回復できない問題がある。

本発明は、現用サーバと予備サーバとでハードウェアの構成やネットワークの接続先が異なる場合であっても、現用サーバの利用していたブートディスクをそのまま予備サーバに引き継ぎブートすることで、現用サーバで稼動していた業務を回復することができる計算機システムを提供することを目的とする。

本発明の代表的な一例を示せば以下の通りである。すなわち、業務が稼動する１台以上の現用サーバ、１台以上の予備サーバ、及び管理サーバを備える計算機システムにおいて実行され、前記現用サーバでの障害発生時に、前記予備サーバへ業務を引き継ぐために、前記管理サーバで実行される障害回復方法であって、前記予備サーバ上には、一つ以上の論理区画が構築され、前記予備サーバは、前記構築された各論理区画においてオペレーティングシステム上で実行され、当該予備サーバに備わるハードウェア構成要素を各論理区画にマッピングするリソースマッピングプログラムを含み、前記方法は、前記現用サーバ及び前記予備サーバに備わるハードウェアの構成要素を示すハードウェア構成情報を取得する構成情報取得ステップと、前記現用サーバに備わるハードウェアの構成要素と前記予備サーバに備わるハードウェアの構成要素との対応関係及び前記ハードウェアの構成要素の状態を示すハードウェア対応情報を取得する対応関係取得ステップと、前記現用サーバで障害が発生した場合に、前記現用サーバ及び前記予備サーバのハードウェア構成情報及び前記ハードウェア対応情報に基づいて、前記現用サーバの全てのハードウェアの構成要素に対応するハードウェアの構成要素を備え、その対応するハードウェアの構成要素の全てが利用可能な状態である予備サーバを、前記障害が発生した現用サーバで稼動していた業務を引き継ぐ予備サーバに決定する予備サーバ決定ステップと、前記障害が発生した現用サーバのハードウェアの構成要素と前記予備サーバのハードウェアの構成要素とが同一でない場合に、前記ハードウェア対応情報に示される前記決定された予備サーバのハードウェアの構成要素の全てを、前記予備サーバに構築する論理区画に割り当てたリソースマッピング情報を作成し、前記論理区画と、前記論理区画に割り当てられた前記予備サーバのハードウェアの構成要素及びその識別子と、前記現用サーバのハードウェアの構成要素の識別子であり前記論理区画で実行されるソフトウェアから認識される前記論理区画上のハードウェアの構成要素の識別子と、の対応を含む識別子変換情報を作成し、前記予備サーバに構築する論理区画の構成を決定する論理区画構成決定ステップと、前記リソースマッピング情報及び前記識別子変換情報に基づいて、前記決定された予備サーバに論理区画を構築する論理区画構築ステップと、前記現用サーバで稼動していた業務を、前記決定された予備サーバに構築された前記論理区画に引き継ぐ引き継ぎステップと、を備える。

本発明の障害回復方法によると、業務が稼動している現用サーバで障害が発生した場合に、現用サーバが利用していたブートディスクを、業務が稼動していない予備サーバが引き継いでブートすることで業務を回復することができる。特に、現用サーバと予備サーバとでハードウェアの構成やネットワークの接続先が異なる場合であっても、ユーザがブートディスクの内容を変更することなく、業務が稼動するサーバを引き継ぐことができる。

また、本発明の障害回復方法によると、異なるハードウェア構成のサーバ間で、稼動している業務を移動できることから、サーバのハードウェアの保守を容易にできる。

以下、本発明の実施の形態を図面を参照して説明する。

＜第１実施形態＞
図１は、本発明の第１の実施の形態の計算機システムの全体の構成を示すブロック図である。

第１の実施の形態の計算機システムは、管理サーバ１０１、複数のサーバ１０２Ａ〜Ｃ、外部ディスク装置１０３、スイッチ１０４及び管理ネットワークスイッチ１０５を備える。

管理サーバ１０１は、障害回復プログラム１１０を実行することによってサーバ１０２Ａ〜Ｃに生じた障害を回復する。障害回復プログラム１１０は、サーバ１０２Ａ〜Ｃで障害が発生した場合に、障害が発生したサーバを別のサーバへ切り替え、障害発生サーバの業務を回復する。

サーバ１０２Ａ〜Ｃは、プログラムを実行することによって、所定の業務を提供する。各サーバ１０２Ａ〜Ｃは、それぞれハードウェア構成が異なっていてもよい。

外部ディスク装置１０３は、サーバ１０２Ａ〜Ｃによって使用されるデータを格納する。外部ディスク装置１０３は、たとえば複数のディスクを備えるディスクアレイ装置であっても、ファイルサーバであってもよい。外部ディスク装置１０３は、サーバ１０２Ａ〜Ｃに論理ユニット１３１を提供する。論理ユニット１３１には、サーバ１０２Ａ〜ＣがＯＳやアプリケーションを起動するために必要なプログラムやパラメータを保持するブートイメージ、及び、起動されたアプリケーションによって使用されるデータが格納される。外部ディスク装置１０３やスイッチ１０４のセキュリティ設定によって、各サーバ１０２Ａ〜Ｃから、論理ユニット１３１へのアクセスを制限してもよい。論理ユニット１３１は、複数存在してもよい。

スイッチ１０４は、サーバ１０２Ａ〜Ｃと外部ディスク装置１０３とを接続して、ネットワークを構成する。スイッチ１０４は、例えば、ファイバチャネルプロトコルを扱うＳＡＮスイッチの他、イーサネットプロトコル（Ｉ−ＳＣＳＩ、ＮＦＳ等のプロトコル）を扱うスイッチを使用することができる。これによって、各サーバ１０２Ａ〜Ｃは、外部ディスク装置１０３の論理ユニット１３１にアクセスできる。但し、サーバ１０２Ａ〜Ｃが、スイッチ１０４を介さず、外部ディスク装置１０３に直接接続されていてもよい。

管理ネットワークスイッチ１０５は、管理サーバ１０１とサーバ１０２Ａ〜Ｃとを接続して、管理用ネットワークを構成する。管理用ネットワークは、例えば、イーサネット（登録商標、以下同じ）を使用することができる。

図２は、本発明の第１の実施の形態のサーバ１０２Ａの詳細な構成を示すブロック図である。なお、サーバ１０２Ａについて説明するが、他のサーバ１０２Ｂ〜Ｃも同様の構成を備える。

サーバ１０２Ａは、プログラムやデータを格納するメモリ２０１、メモリ２０１に格納されたプログラムを実行する一つ以上のＣＰＵ２０２、各種デバイスとの間のバスを制御するチップセット２０３、ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）２０５及びＨＢＡ（ＨｏｓｔＢｕｓＡｄａｐｔｏｒ）２０６等のＩ／Ｏデバイス、補助記憶装置２０８、補助記憶装置２０８のコントローラ２０７、ＢＭＣ（ＢａｓｅｂｏａｒｄＭａｎａｇｅｍｅｎｔＣｏｎｔｒｏｌｌｅｒ）２０９等を備える。なお、サーバ１０２Ａは図中に含まれる全ての構成要素を必ずしも含む必要はない。

ＣＰＵ２０２は、一つ以上のコアを備え、ソケットに実装される。なお、ＣＰＵ２０２のコア毎にスレッドが存在してもよい。ＨＢＡ２０６は、ファイバチャネル、ＳＣＳＩ、又はｉＳＣＳＩ等のプロトコルを用いて、外部ディスク装置と通信する。ＢＭＣ２０９は、主にサーバ１０２Ａのハードウェアの稼動状態を監視し、ハードウェアの動作を制御する。例えば、ＢＭＣ２０９は、外部から、サーバ１０２Ａの電源ＯＮ又はＯＦＦを制御したり、サーバ１０２Ａの障害を検出し、検出された障害を外部に通知する。

サーバ１０２Ａの構成要素には、各構成要素を一意に識別する識別子が付されている。具体的には、図中の例では、ＣＰＵ及びコアを識別するための識別子として、ソケット番号及びコア番号（２１１）、メモリを識別するための識別子として、アドレス及びモジュール番号（２１２）、デバイス（例えば、ＰＣＩデバイス）を識別するための識別子として、バス番号、デバイス番号及び機能番号（２１３）が付されている。

図３は、本発明の第１の実施の形態の管理サーバ１０１の詳細な構成を示すブロック図である。

管理サーバ１０１は、障害回復プログラム１１０を格納するメモリ３０１、メモリ３０１に格納されたプログラムを実行する一つ以上のＣＰＵ３０２、管理ＮＷ−ＳＷ１０５と接続するＮＩＣ３０３及び管理サーバ１０１に情報を入出力する入出力装置３０４を備える。

入出力装置３０４は、マウスやキーボード等の入力装置３０５及びディスプレイ等の表示装置３０６が接続される。さらに、入出力装置３０４は、ＵＳＢメディア等の記憶装置や、外部記憶装置等を接続してもよい。そして、管理サーバ１０１が、入出力装置３０４を介して記憶装置に保存されたデータを読み書きしてもよい。

なお、管理サーバ１０１は、ハードディスク等の補助記憶装置を備えてもよい。

図４は、本発明の第１の実施の形態の障害回復プログラム１１０の詳細な構成を示す図である。

障害回復プログラム１１０は、構成取得サブプログラム４０１、契機検知サブプログラム４０２、リマッピングサブプログラム４０３、論理区画構築サブプログラム４０４、ブートイメージ引継サブプログラム４０５、ハードウェア構成テーブル４１０及びリマッピングテーブル４１１を含む。なお、ハードウェア構成テーブル４１０及びリマッピングテーブル４１１は、障害回復プログラム１１０と別に構成されてもよい。各サブプログラム及びテーブルの詳細は後述する。

図５は、本発明の第１の実施の形態のハードウェア構成テーブル４１０の詳細な構成を示す図である。

ハードウェア構成テーブル４１０は、サーバ識別子フィールド（カラム５０１）、用途フィールド（カラム５０２）、ＣＰＵ構成フィールド（カラム５０３）、メモリ構成（カラム５０４）及びデバイス構成（カラム５０５）を含み、各サーバ１０２のハードウェアの構成を示す。

サーバ識別子フィールド５０１には、サーバを一意に識別する識別子が格納される。

用途フィールド５０２には、カラム５０１によって特定されるサーバの用途が格納される。具体的には、用途フィールド５０２には、サーバが業務を稼動中の現用サーバである場合は「現用」が記録される。また、現用サーバで障害が発生した場合に、現用サーバで稼動中であった業務を回復するために、交替先となる予備サーバは「予備」が記録される。これら以外にも、既に交替済みの予備サーバであったり、何らかの理由で利用不可能である場合等、サーバの様々な状態を記録することもできる。

ＣＰＵ構成フィールド５０３には、カラム５０１によって特定されるサーバに備わるＣＰＵの構成及び当該ＣＰＵの識別子が格納される。例えば、ＣＰＵ構成フィールド５０３は、「＜ソケット番号＞：＜ＣＰＵ名称＞＜コア番号＞」の形式で記録される。具体的には、ソケット番号が０、ＣＰＵ名称が「ＩＸ３０６」、コア番号が０であれば、「０：ＩＸ３０６０」が記録される。

メモリ構成５０４は、カラム５０１によって特定されるサーバに備わるメモリの構成及び当該メモリの識別子が格納される。例えば、メモリ構成５０４は、「＜モジュール番号＞：アドレス範囲」の形式で記録される。

デバイス構成５０５は、カラム５０１によって特定されるサーバに備わるデバイスの構成及び当該デバイスの識別子が格納される。例えば、デバイス構成５０５は、「＜バス番号＞：＜デバイス番号＞：＜デバイス名称＞＜機能番号＞（＜固有ＩＤ＞）」の形式で記録される。また、バス番号、デバイス番号及びデバイス名称が同一で、機能番号が異なるデバイスが複数存在する場合には、「／」により区分して追記されている。具体的には、バス番号が０、デバイス番号が０、デバイス名称が「ＮＩＣ」、機能番号が０、固有ＩＤが「ＭＡＣ１」であれば、「０：０：ＮＩＣ０（ＭＡＣ１）」が記録される。

なお、本テーブルに記録されるハードウェア構成は、必要に応じて、追加しても、削除してもよい。

図６は、本発明の第１の実施の形態のリマッピングテーブル４１１の詳細な構成を示す図である。図６は、図５に示したサーバ識別子「Ｓ１」の現用サーバのリマッピングテーブルを例示す。

リマッピングテーブル４１１は、ハードウェアフィールド（カラム６０１）、現用サーバフィールド（カラム６０２）及び予備サーバフィールド（カラム６０３及びカラム６０４）を含み、計算機システムの現用サーバのハードウェア構成要素と、予備サーバのハードウェア構成要素との対応関係を示す。なお、本テーブルは計算機システムの現用サーバ台数分作成される。

ハードウェアフィールド６０１は、サーバのハードウェアの種類を示し、例えば、サーバに搭載されるＣＰＵ、メモリ及びデバイス（ＮＩＣ、ＨＢＡ等）を示す。

現用サーバフィールド６０２、予備サーバフィールド６０３及び予備サーバフィールド６０４は、それぞれ、サーバ識別子「Ｓ１」、「Ｓ５」、「Ｓ６」によって特定されるサーバに搭載されたハードウェア構成要素を示す。

ハードウェア構成要素は、ハードウェア構成テーブル４１０（図５参照）と同じ識別子を用いて、リマッピングテーブル４１１に保持される。リマッピングテーブル４１１の同一の行（レコード）に記録されるハードウェア構成要素は、それぞれ対応関係にあり、サーバ交替時に利用される。本図に示す例では、サーバ識別子「Ｓ１」のデバイス「1:0:HBA 0」は、サーバ識別子「Ｓ５」のデバイスの「2:0:HBA 0」、及びサーバ識別子「Ｓ６」のデバイスの「1:0:HBA 1」に対応することを示す。また、カラム６０２、６０３及び６０４に定められた各ハードウェア構成要素は、カラム６０１のハードウェアの種類ごとに分類されているが、特に分類が必要なければカラム６０１を設けなくてもよい。

同一のハードウェア構成要素が共有ハードウェアとなる場合には、共有ハードウェアであることを示す情報が追加的にテーブルに保持される。図に示す例では、共有ハードウェアには「（ｓｈａｒｅ）」が追加的に保持される。なお、予備サーバが、対応するハードウェア構成要素が備えない場合は、対応するハードウェア構成要素が存在しないことを示す情報（「Ｎｏｔｅｘｉｓｔ」等）がテーブルに追加的に保持される。

さらに、予備サーバ上のハードウェア構成要素がすでに利用されている状態（例えば、論理区画に利用されている状態等）では、当該ハードウェア構成要素が利用中であることを示す情報（「（Ｉｎｕｓｅ）」等）がテーブルに追加的に保持される。

また、予備サーバ上にハードウェア構成要素のエミュレーション機能を備える場合には、該当ハードウェア構成要素の項目にエミュレーション可能であることを示す情報、例えば「（ｅｍｕ）」を追加する。ここで、エミュレーション機能とは、例えばＣＰＵのアーキテクチャが現用サーバと予備サーバとで異なる場合に、予備サーバで現用サーバのＣＰＵ命令を変換する機能である。

なお、リマッピングテーブル４１１は、サーバに搭載された全てのハードウェア構成要素の対応関係を保持する必要は必ずしもない。

図７は、本発明の第１の実施の形態のリソースマッピングプログラム７０１が、サーバ１０２Ａで実行されている状態を示すブロック図である。なお、図２と同様に、サーバ１０２Ａについて説明するが、他のサーバ１０２Ｂ〜Ｃも同じである。

リソースマッピングプログラム７０１はメモリ２０１に保持され、ＣＰＵ２０２によって実行される。

リソースマッピングプログラム７０１は、サーバ１０２Ａに備わるＣＰＵ２０２、メモリ２０１、ＮＩＣ２０５、ＨＢＡ２０６等のハードウェア構成要素の一部又は全部を、論理区画にマッピングする機能を備える。この機能によって、サーバ１０２Ａに仮想的なサーバを構築することができる。

また、１又は複数の論理区画を構築することができる。さらに、一つのハードウェア構成要素を複数の論理区画で共有することができる。例えば、一つのＣＰＵコアを複数の論理区画で時分割で共有してもよい。また、一つのハードウェア構成要素を各論理区画に占有させることもできる。このようにして、一つのサーバ上に一つ以上の論理区画を構築し、論理区画毎に独立してＯＳを実行することができる。

また、リソースマッピングプログラム７０１は、各ハードウェア構成要素の識別子を変換することもできる。これにより、論理区画上で実行されるＯＳ等のソフトウェアに認識されるハードウェア構成要素の識別子を、任意の識別子に変換することができる。

なお、リソースマッピングプログラム７０１はハードウェアによって実装し、すなわち、サーバ１０２Ａのハードウェア構成要素として追加してもよい。例えば、リソースマッピングプログラム７０１を、チップセット２０３の一つの機能として、チップセット２０３に実装する等である。

また、リソースマッピングプログラム７０１は、サーバ上で実行されるのではなく、スイッチのコントローラ上で実行されてもよい。例えば、Ｉｎｆｉｎｉｂａｎｄスイッチ等を用いると、リソースマッピングプログラム７０１をスイッチで実行することができる。

図８は、本発明の第１の実施の形態のリソースマッピングプログラム７０１によるハードウェア構成要素の論理区画への割り当ての概念を示す図である。

論理区画１（８１０）は、グループ８０１に含まれるハードウェアである、ＣＰＵコア１（８１１）、メモリ１（８２１）、ＮＩＣ１（８３１）及びＨＢＡ１（８４１）が割り当てられている。同様に、グループ８０２及びグループ８０３は、それぞれ、論理区画８２０及び８３０へのハードウェア構成要素の割り当てを示す。

ここで、グループ８０２及びグループ８０３は共にＮＩＣ３（８３３）を含んでいる。これは、論理区画８２０と論理区画８３０とがＮＩＣ３（８３３）を共有していることを示す。

また、単一のグループにのみ属するハードウェア構成要素は、その論理区画に占有されていることを示す。

図９は、本発明の第１の実施の形態のリソースマッピングプログラム７０１の構成を示す図である。

リソースマッピングプログラム７０１は、リソースマッピングサブプログラム９０１、識別子変換サブプログラム９０２、リソースマッピングテーブル９１０及び識別子変換テーブル９１１を含む。なお、リソースマッピングテーブル９１０及び識別子変換テーブル９１１は、リソースマッピングプログラム７０１と別に構成されてもよい。各サブプログラム及びテーブルの詳細は後述する。

図１０は、本発明の第１の実施の形態のリソースマッピングテーブル９１０の構成を示す図である。

リソースマッピングテーブル９１０は、論理区画識別子フィールド（カラム１００１）、ハードウェアフィールド（カラム１００２）及びマッピングフィールド（カラム１００３）を含み、各論理区画に割り当てられるハードウェア構成要素の識別子を示す。

論理区画識別子フィールド１００１には、論理区画の識別子が保持される。ハードウェアフィールド１００２には、ハードウェアの種類が保持される。マッピングフィールド１００３には、カラム１００１によって特定される論理区画に割り当てられるハードウェア構成要素の識別子が保持される。

ハードウェア構成要素は、ハードウェア構成テーブル４１０（図５参照）と同じ識別子を用いて、リソースマッピングテーブル９１０に保持される。また、マッピングフィールド１００３は、ハードウェアフィールド１００２によって定められるハードウェアの種類毎に分類されるが、特に分類が必要なければカラム１００２を設けなくてもよい。

論理区画に割り当てられるハードウェア構成要素が複数の論理区画で共有されるハードウェアである場合には、共有ハードウェアであることを示す情報（例えば、「（ｓｈａｒｅ）」等）がテーブルに追加的に保持される。

なお、本テーブルは論理区画に割り当てられる全てのハードウェア構成要素について保持する必要は必ずしもない。

図１１は、本発明の第１の実施の形態の識別子変換テーブル９１１の構成を示す。

識別子変換テーブル９１１は、論理区画識別子フィールド（カラム１１０１）、ハードウェアフィールド（カラム１１０２）、識別子フィールド（カラム１１０３）及び変換後の識別子フィールド（カラム１１０４）を含む。

論理区画識別子フィールド１１０１には、論理区画の識別子が保持される。ハードウェアフィールド１１０２には、ハードウェアの種類が保持される。

識別子フィールド１１０３には、リソースマッピングテーブル９１０（図１０参照）と同じ識別子を用いて、カラム１１０１によって特定される論理区画に割り当てられるハードウェア構成要素の識別子が保持される。識別子フィールド１１０３に保持される識別子は、リソースマッピングプログラム７０１から認識できるサーバに搭載する物理的なハードウェア（実ハードウェア）構成要素の識別子である。

変換後の識別子フィールド１１０４には、識別子フィールド１１０３によって特定されるハードウェア構成要素の識別子の変換後の識別子が保持される。変換後の識別子フィールド１１０４に保持される識別子は、論理区画で実行されるＯＳ等のソフトウェアから認識される論理区画上のハードウェア構成要素の識別子である。

また、カラム１１０３及びカラム１１０４に保持される識別子は、カラム１１０２に対応してハードウェアの種類毎に分類されるが、特に分類が必要なければカラム１１０２を設けず、ハードウェアの種類毎に分類されなくてもよい。

本図に示す例では、論理区画「Ｌ１」に割り当てられる実ハードウェアの識別子「2:0:HBA 0」は、論理区画上の識別子として「1:0:HBA 0」に変換されることを示す。

また、ハードウェア構成要素に固有ＩＤが存在する場合には、論理区画で実行されるＯＳ等のソフトウェアから見える論理区画上のハードウェア構成要素に固有のＩＤを変換することができる。このため、ハードウェア構成要素に固有のＩＤが存在する場合には、カラム１１０３及びカラム１１０４の該当する項目にハードウェアに固有のＩＤが追加される。例えば、本図に示す例では、識別子の下に記載された「MAC7」がハードウェアに固有のＩＤであり、論理区画上の固有ＩＤとしては「MAC1」に変換されることを示す。ただし、固有ＩＤの変換が不要な場合には、固有ＩＤの情報を項目に追加しなくてよい。

なお、本テーブルは論理区画に割り当てられる全てのハードウェア構成要素についての対応関係を必ずしも保持する必要はない。

図１２は、本発明の第１の実施の形態のサーバの引き継ぎ動作の全体を示すシーケンスである。図示されるシーケンスは、現用サーバ１２０１、予備サーバ１２０２及び障害回復プログラム１２０３（管理サーバ１０１）によって実行される処理である。

ステップ１２１１では、障害回復プログラム１２０３が、計算機システムのハードウェア構成情報を取得し、ステップ１２１２で、リマッピングテーブルを作成する。

次に、ステップ１２１３で、現用サーバ１２０１で障害が発生すると、ステップ１２１４で、障害回復プログラムが現用サーバ１２０１の障害発生を検知し、ステップ１２１５以降の障害回復シーケンスを開始する。なお、障害回復シーケンスは、現用サーバ１２０１で障害が発生した契機以外に、例えばオペレータの指示によって実行してもよい。ステップ１２１５では、現用サーバ１２０１に電源ＯＦＦを要求する。

ステップ１２１６では、現用サーバ１２０１が、障害回復プログラム１２０３からの電源ＯＦＦ要求を受けると、電源遮断する。ただし、電源遮断でなく、シャットダウン処理、スタンバイモードへの移行又はハイバネーションモードへの移行であってもよい。

現用サーバ１２０１の電源遮断（ステップ１２１６）が完了すると、次に、ステップ１２１７では、障害回復プログラム１２０３は、交替先の予備サーバ１２０２を決定する。なお、現用サーバ１２０１の電源遮断完了後に、交替先の予備サーバ１２０２を決定するものとしたが、現用サーバ１２０１の電源遮断より前に、交替先の予備サーバ１２０２を決定してもよい。この場合、論理区画の起動（ステップ１２２４）までに現用サーバ１２０１の電源遮断が完了すればよい。このため、論理区画を起動（ステップ１２２４）する前に現用サーバ１２０１の電源が遮断されているか否かを確認する。

その後、ステップ１２１８では、現用サーバ１２０１と予備サーバ１２０２のハードウェアのリマッピングを実施し、予備サーバ１２０２に構築される論理区画の構成を決定する。その後、ステップ１２１９では、予備サーバ１２０２に対してリソースマッピングプログラム７０１の起動を要求する。

ステップ１２２０では、予備サーバ１２０２の電源を投入し、予備サーバ１２０２上でリソースマッピングプログラム７０１を起動する。ただし、予備サーバ１２０２が既に動作しており、かつ、リソースマッピングプログラム７０１が実行されている場合には、ステップ１２２０はスキップしてよい。

リソースマッピングプログラム７０１の起動（ステップ１２２０）が完了すると、ステップ１２２１で、障害回復プログラム１２０３は、リソースマッピングプログラム７０１に対して、ステップ１２１８で決定した論理区画の構成に基づいて、予備サーバ１２０２上での論理区画の構築を要求する。

ステップ１２２２では、予備サーバ１２０２のリソースマッピングプログラム７０１は論理区画の構築要求を受け、論理区画を構築する。

論理区画の構築（ステップ１２２２）が完了すると、ステップ１２２３では、障害回復プログラム１２０３は、現用サーバ１２０１が利用していた論理ユニット１３１を予備サーバ１２０２上の論理区画に引き継ぎ、予備サーバ１２０２のリソースマッピングプログラムに対して論理区画のブートを要求する。ただし、ここで論理区画のブートを要求せず、後で手動等の方法によってブートしてもよい。

ステップ１２２４では、予備サーバ１２０２は、リソースマッピングプログラムは論理区画のブート要求を受け、論理区画が引き継いだ論理ユニット１３１に含まれるブートイメージを用いて、論理区画を起動（ブート）する。その結果、ステップ１２２５では、予備サーバ１２０２の論理区画は現用サーバ１２０１の業務を引き継ぐ。

さらに、図１２に示したシーケンスをより詳細に説明する。

図１３は、本発明の第１の実施の形態の障害回復プログラム１１０の構成取得サブプログラム４０１による処理のフローチャートを示し、図１２のステップ１２１１からステップ１２１２に対応する。

ステップ１３０１では、計算機システムの各サーバのハードウェア構成情報を取得し、取得した情報に基づいてハードウェア構成テーブル４１０を作成する。各サーバのハードウェア構成情報は、ネットワーク経由で取得しても、ディスク等からファイルとして取得しても、各サーバでハードウェア構成情報取得プログラムを実行させて、ハードウェア構成情報を取得しても、障害回復プログラム１１０のＧＵＩ等を利用しユーザの操作によって取得してもよい。取得されるハードウェア構成情報は、例えば、ハードウェア構成テーブル４１０（図５参照）に含まれる情報である。

次に、ステップ１３０２では、リマッピングテーブル４１１を作成する。リマッピングテーブル４１１は、ネットワーク経由で取得しても、ディスク等からファイルとして取得しても、各サーバでハードウェア構成情報取得プログラムを稼動させて、ハードウェア構成情報を取得しても、障害回復プログラム１１０のＧＵＩ等を利用しユーザの操作によって取得してもよい。

ただし、ハードウェア構成テーブル４１０等を参照することによって、現用サーバと予備サーバとのハードウェア構成要素の対応関係が一意な場合には、リマッピングテーブル４１１の一部又は全部を自動的に作成することもできる。これは、例えば、現用サーバと予備サーバが同一のハードウェア構成であったり、各サーバの型番やシリアル番号等からサーバのハードウェア構成を特定でき、あらかじめ各サーバのハードウェア構成要素の対応関係が決まっている場合等である。

ここで、取得及び入力するハードウェア構成情報は、例えばハードウェア構成テーブル４１０（図５参照）に含まれる情報である。なお、障害回復プログラム１１０には、各サーバ間のハードウェア構成要素の対応関係をルールとして定義するリマッピングルールテーブルを作成することもできる。リマッピングルールテーブルでは、例えば、「現用サーバより予備サーバのＣＰＵ数少ない場合には、予備サーバのＣＰＵの一部を共有ＣＰＵとする」ルールや、「現用サーバのバス番号０のデバイスは、予備サーバのバス番号１のデバイスに対応する」ルール等、任意のルールを登録できる。

そして、ステップ１３０２においてリマッピングテーブル４１１を作成する際には、このリマッピングルールテーブルに基づいて、自動的に各サーバ間のハードウェア構成要素の対応関係を決定し、リマッピングテーブル４１１の一部又は全部を自動作成することができる。ここで、リマッピングルールテーブルに登録されるルールは、例えば、ネットワーク経由で取得しても、ディスク等からファイルとして取得しても、障害回復プログラム１１０のＧＵＩ等を利用しユーザの操作によって取得してもよい。

図１４は、本発明の第１の実施の形態の障害回復プログラム１１０の契機検知サブプログラム４０２による処理のフローチャートを示し、図１２のステップ１２１４からステップ１２１５に対応する。

ステップ１４０１では、サーバの障害発生を検知する。サーバの障害は、例えばサーバに備わるＢＭＣ等からの通知、及び／又は、サーバ上で実行される障害検知プログラムからの通知によって検知する。また、サーバだけでなく、計算機システムを構成する機器のうち、何れかで障害が発生した場合にも障害回復処理を実行してもよい。さらに、障害が発生した契機だけでなく、例えば、障害回復プログラム１１０のＧＵＩ等から、ユーザが現用サーバから予備サーバへの交替を指示する要求を操作をした契機であってもよい。

ステップ１４０２では、障害回復処理を実行するか否かを判定する。ここで障害回復処理とは、図１２のステップ１２１４以降に示した、現用サーバから予備サーバへのサーバ交替処理である。ステップ１４０２の判定では、障害の影響によって、現用サーバで実行中のＯＳやアプリケーション等が続行不可能な場合には、障害回復処理を実行すると判定し、ステップ１４０３に移る。一方、障害回復処理を実行すると判定されない場合は、契機検知処理を終了する。障害回復処理を実行しない場合とは、障害回復処理を実行しても障害が回復しないと推定される場合、及び、一時的な障害であって何もせずに復旧が見込まれる場合である。

なお、ユーザが現用サーバを予備サーバに交替する要求を障害回復プログラム１１０に入力した場合は、無条件にステップ１４０３に移る。また、前述した条件に限らず、ユーザが判定条件を任意に設定してもよい。

ステップ１４０３では、障害発生した現用サーバの電源ＯＦＦを現用サーバに要求し、電源遮断の完了後にステップ１４０４に移る。ここで、現用サーバの電源遮断は、ＮＩＣのＷａｋｅＯｎＬａｎ機能を利用したり、サーバ外部からのサーバの電源制御が可能なコントローラ（例えば、ＢＭＣ等）に対して要求してもよい。また、現用サーバ上で実行される電源制御プログラムに対して電源遮断を要求してもよい。また、電源遮断だけでなく、サーバのシャットダウン、ハイバネーション又はスタンバイ等を要求することもできる。

なお、現用サーバ上で複数の論理区画が稼動する場合には、まず現用サーバ上で実行されれリソースマッピングプログラム７０１に対して全ての論理区画の停止を要求し、全ての論理区画の停止完了後に、現用サーバの電源を遮断する。なお、論理区画の停止だけでなく、シャットダウン、ハイバネーション又はスタンバイ等を要求することもできる。

ステップ１４０４では、リマッピングサブプログラム４０３による処理へ移る。リマッピングサブプログラム４０３による処理への移行は、現用サーバ１２０１の電源遮断完了後であっても、現用サーバ１２０１の電源遮断より前でもよい。現用サーバ１２０１の電源遮断より前にリマッピングサブプログラム４０３による処理へ移行した場合、論理区画の起動要求（ステップ１７０２）までに現用サーバ１２０１の電源遮断が完了すればよい。

図１５は、本発明の第１の実施の形態の障害回復プログラム１１０のリマッピングサブプログラム４０３による処理のフローチャートを示し、図１２のステップ１２１７からステップ１２１８に対応する。

ステップ１５０１では、ハードウェア構成テーブル４１０を参照して、現用サーバのハードウェア構成を取得する。なお、現用サーバで複数の論理区画が稼動している場合には、現用サーバのリソースマッピングプログラム７０１が全ての論理区画のリソースマッピングテーブル９１０を取得する。

ステップ１５０２では、現用サーバのリマッピングテーブル４１１を取得する。

ステップ１５０３では、交替する予備サーバを決定する。具体的には、ステップ１５０２で取得したリマッピングテーブル４１１を参照し、交替が可能な予備サーバを検索する。

交替が可能な予備サーバとは、リマッピングテーブル４１１において、現用サーバの全てのハードウェア構成要素に対応するハードウェア構成要素を備え、かつその全てのハードウェア構成要素が利用可能な状態である予備サーバである。例えば、図６に示すリマッピングテーブル４１１の予備サーバのカラムのうち、全ての項目において存在しない「Ｎｏｔｅｘｉｓｔ」、又は、利用中「（Ｉｎｕｓｅ）」を示す情報が存在しないカラムに対応する予備サーバを示す。

交替が可能な予備サーバが複数存在する場合には、現用サーバと予備サーバとでハードウェア構成要素の識別子が最も多く一致する予備サーバを優先的に選択する。次に、その予備サーバに交替した場合に、共有されるハードウェア構成要素が少ない予備サーバを優先的に選択する。例えば、リマッピングテーブル４１１の当該予備サーバのカラムのうち、項目に共有を示す情報「（ｓｈａｒｅ）」が少ない予備サーバを選択する。また、現用サーバと予備サーバとで、対応関係にあるハードウェア構成要素に互換性がない場合には、その予備サーバは交替の対象としない。しかし、現用サーバのハードウェア構成要素が、予備サーバでエミュレーション可能である場合には、その予備サーバを交替の対象とすることができる。

さらに、現用サーバのハードウェア構成要素に対応するハードウェア構成要素の一部を備えていない予備サーバであっても、交替が可能である。例えば、現用サーバが２つのＮＩＣを備え、それらをチーミング等の機能を用いて冗長化して利用しており、交替先となる予備サーバが一つのＮＩＣを備える場合等である。すなわち、冗長的なハードウェア構成要素以外のハードウェア構成要素を備える予備サーバが選択される。

なお、予備サーバの決定条件は、前述した条件以外に、ユーザが設定した任意の条件で決定してもよい。

ステップ１５０４では、ステップ１５０３で決定した予備サーバに構築される論理区画の構成を決定する。ただし、現用サーバと予備サーバのハードウェア構成が一致している等、予備サーバに論理区画を構築する必要がない場合には、ステップ１５０４はスキップできる。ここで、論理区画の構築とは、リソースマッピングテーブル９１０及び識別子変換テーブル９１１に、予備サーバの論理区画の情報を作成することである。

これらの情報を作成するため、ステップ１５０１及びステップ１５０２で取得した現用サーバに関するハードウェア構成テーブル４１０及びリマッピングテーブル４１１の情報が利用される。まず、リソースマッピングテーブル９１０を作成するため、リマッピングテーブル４１１の当該予備サーバのカラムの全ての項目を抽出し、当該論理区画に割り当てるハードウェア構成要素とする。

例えば、図６に示したリマッピングテーブル４１１において、サーバ識別子「Ｓ１」の現用サーバから「Ｓ５」の予備サーバに交替する場合には、「Ｓ５」に対応するカラム６０３を抽出し、それらの情報を論理区画「Ｌ１」に割り当てるハードウェア構成要素とすることによって、図１０に示したリソースマッピングテーブル９１０の論理区画「Ｌ１」に対応するテーブルを作成することができる。

なお、現用サーバに論理区画が存在する場合には、現用サーバに存在する全ての論理区画に対応する予備サーバのリソースマッピングテーブル９１０を作成する。

次に、識別子変換テーブル９１１を作成するため、リマッピングテーブル４１１の予備サーバのカラムを識別子変換テーブル９１１の「識別子」のカラムとし、リマッピングテーブル４１１の現用サーバのカラムを識別子変換テーブル９１１の「変換」のカラムとする。例えば、図６に示したリマッピングテーブル４１１において、サーバ識別子「Ｓ１」の現用サーバから「Ｓ５」の予備サーバに交替する場合には、「Ｓ５」に対応するカラム６０３及び「Ｓ１」に対応するカラム６０２を抽出し、それぞれを識別子変換テーブル９１１の「識別子」及び「変換」カラムとすることによって、図１１に示す識別子変換テーブル９１１を作成することができる。

さらに、ハードウェア構成要素の固有ＩＤ、例えば、ＭＡＣアドレス、ＷＷＮ（ＷｏｒｌｄＷｉｄｅＮａｍｅ）及びＵＵＩＤ等を現用サーバから予備サーバへ引き継ぐ場合には、ハードウェア構成テーブル４１０を利用して、作成した識別子変換テーブル９１１の該当するハードウェア構成要素に固有ＩＤの情報を追加する。例えば、図５に示すハードウェア構成テーブル４１０の現用サーバ「Ｓ１」のＮＩＣのＭＡＣアドレスが「MAC1」であり、対応する予備サーバ「Ｓ５」のＮＩＣのＭＡＣアドレスが「MAC7」であるので、図１１の識別子変換テーブル９１１において、カラム１１０３の該当項目に「(MAC7)」、カラム１１０４の該当項目に「(MAC1)」を追加する。これによって、予備サーバの該等ＮＩＣの固有ＩＤは「MAC7」から「MAC1」に変換される。

なお、固有ＩＤの変換が不要な場合には固有ＩＤの情報を追加しなくてもよい。予備サーバで構築される論理区画のリソースマッピングテーブル９１０及び識別子変換テーブル９１１の作成が完了すると、ステップ１５０５に移る。

ステップ１５０５では、論理区画構築サブプログラム４０４による処理へ移る。

図１６は、本発明の第１の実施の形態の障害回復プログラム１１０の論理区画構築サブプログラム４０４による処理のフローチャートを示し、図１２のステップ１２１９からステップ１２２２に対応する。

ステップ１６０１では、リマッピングサブプログラム４０３による処理で作成した予備サーバで構築される論理区画のリソースマッピングテーブル９１０及び識別子変換テーブル９１１の情報を取得する。

ステップ１６０２では、予備サーバの電源を投入し、予備サーバを起動する。ここで、予備サーバの電源ＯＮは、ＮＩＣのＷａｋｅＯｎＬａｎ機能に利用したり、サーバ外部からのサーバの電源制御が可能なコントローラ（例えば、ＢＭＣ等）に対して要求してもよい。なお、予備サーバが既に電源が投入されている場合には、ステップ１６０２はスキップする。予備サーバの電源ＯＮが完了すると、次のステップへと移行する。

ステップ１６０３では、予備サーバでリソースマッピングプログラム７０１を起動する。例えば、ＮＩＣのＰＸＥブート機能を利用し、障害回復プログラム１１０がリソースマッピングプログラム７０１をネットワークを介して配布して、リソースマッピングプログラム７０１を起動してもよい。また、予備サーバが備える補助記憶装置に格納された情報から起動してもよい。また、リソースマッピングプログラム７０１が予め予備サーバに組み込まれており、予備サーバの電源ＯＮに伴い自動的にリソースマッピングプログラム７０１を起動できる場合には、ステップ１６０３をスキップしてもよい。予備サーバでリソースマッピングプログラム７０１が起動すると、次のステップへと移行する。

ステップ１６０４では、予備サーバ上に論理区画を構築する。ここで、予備サーバに構築される論理区画は、ステップ１６０３で起動したリソースマッピングプログラム７０１に、ステップ１６０１で得たリソースマッピングテーブル９１０及び識別子変換テーブル９１１の情報を受け渡し、論理区画の構築を要求する。

論理区画の構築が完了すると、リマッピングテーブル４１１の情報のうち、構築した論理区画に割り当てたハードウェア構成要素の項目に対して利用中である旨を示す「（Ｉｎｕｓｅ）」の情報を追加し、次のステップへと移る。なお、ハードウェア構成要素が複数の論理区画で共有される場合には、利用中である旨の情報の追加は不要である。

ステップ１６０５では、ブートイメージ引継サブプログラム４０５による処理へ移る。なお、現用サーバと予備サーバのハードウェア構成が同一の場合など、予備サーバに論理区画を構築する必要がない場合には、ステップ１６０１からステップ１６０４はスキップする。

図１７は、本発明の第１の実施の形態の障害回復プログラム１１０のブートイメージ引継サブプログラム４０５による処理のフローチャートを示し、図１２のステップ１２２３からステップ１２２４に対応する。

ステップ１７０１では、論理区画構築サブプログラム４０４によって構築された予備サーバの論理区画に対して現用サーバの論理ユニット（ブートディスク）を引き継ぐ。論理ユニットを引き継ぐ方法は、例えば、現用サーバの利用していた外部ディスク装置のセキュリティ設定を変更し、ブートディスクを予備サーバの該当論理区画からアクセス可能とする方法や、予備サーバの論理区画からアクセス可能な外部ディスク装置のディスクや予備サーバの補助記憶装置に対して現用サーバのブートイメージをコピーする方法がある。

なお、現用サーバで一つ以上の論理区画が稼動している場合等、複数の論理ユニットが存在する場合には、全ての論理ユニットを、予備サーバの対応する論理区画に引き継ぐ。

また、ハードウェア構成要素の固有ＩＤを引き継ぐことによって論理ユニットの引き継ぎが可能な場合には、ステップ１７０１はスキップしてもよい。これは、例えば、ＨＢＡのＷＷＮを現用サーバから予備サーバへ引き継ぐことによって、ＷＷＮに基づくセキュリティ設定を変更しなくても良い場合等である。

また、論理区画構築サブプログラム４０４によって予備サーバに論理区画が構築されなかった場合には、同じ方法によって予備サーバに対して論理ユニットを引き継ぐ。さらに、必要であれば、現用サーバ側のＥＦＩやＢＩＯＳ等の設定情報も、予備サーバの論理区画上のＥＦＩやＢＩＯＳに引き継ぐ。論理ユニットの引き継ぎが完了すると、次のステップへと移る。

ステップ１７０２では、予備サーバの該当する論理区画の起動要求をリソースマッピングプログラム７０１に要求する。ただし、論理区画構築サブプログラム４０４によって予備サーバに論理区画が構築されなかった場合には、本ステップで予備サーバの電源投入を要求し、予備サーバの電源投入が完了すると終了する。

図１８は、本発明の第１の実施の形態のリソースマッピングプログラム７０１による論理区画ブート処理のフローチャートを示し、図１２のステップ１２２５に対応する。

まず、ステップ１８０１で、論理区画１８００のブート要求を受け付ける。

ステップ１８０２では、リソースマッピングサブプログラム９０１（図９参照）が、リソースマッピングテーブル９１０に従って、ブートする論理区画１８００に対してハードウェア構成要素を割り当てる。

リソースマッピングサブプログラム９０１は、リソースマッピングテーブル９１０に基づいて、論理区画１８００で実行されるソフトウェアに対して、予備サーバのハードウェア構成要素のうち論理区画１８００に割り当てられたハードウェア構成要素のみを取り扱うことができるように制御する。また、リソースマッピングサブプログラム９０１は、ハードウェア構成要素を複数の論理区画で共有する場合には、各論理区画に対して時分割でハードウェア構成要素を割り当てたり、仮想的なハードウェアを論理区画上のソフトウェアに認識させたりすることによって、あたかも各論理区画にハードウェアが存在するように認識させることができる。

ステップ１８０３では、識別子変換サブプログラム９０２（図９参照）が、識別子変換テーブル９１１に基づいて、実ハードウェアの識別子を変換して、論理区画上のソフトウェアに対して変換後の識別子のハードウェア構成要素として認識させる。

ステップ１８０４では、論理区画１８００を起動する。ステップ１８０５では、論理区画１８００でＯＳが起動を開始する。

次に、ステップ１８０６で、論理区画１８００上のＯＳ等のソフトウェアがハードウェアに処理要求を出す。ここで、処理要求に利用されるハードウェアの識別子はステップ１８０３で変換された論理区画１８００上の識別子である。

ステップ１８０７では、リソースマッピングプログラム７０１が、識別子変換テーブル９１１に基づいて、要求を受けたハードウェア構成要素の論理区画１８００上の識別子から、実ハードウェアの識別子に変換する。ステップ１８０８では、ステップ１８０７で変換された識別子を用いて、実ハードウェアに対して処理要求を出す。

ステップ１８０９では、処理要求（ステップ１８０８）の結果を取得する。ステップ１８１０では、識別子変換テーブル９１１に基づいて、ステップ１８０９で結果を出力した実ハードウェアの識別子を論理区画１８００上のハードウェアの識別子に変換し、論理区画１８００に報告する。例えば、該当ハードウェアからの割り込みによって報告される。なお、この割り込みの際に論理区画１８００に通知されるハードウェアの識別子もまた、変換後の識別子である。

ステップ１８１１では、論理区画１８００で実行されるＯＳやソフトウェアは論理区画１８００上のハードウェアから処理要求（ステップ１８０６）の結果を取得する。

このステップ１８０６からステップ１８１１までの処理は、論理区画１８００の動作中に繰り返し実行される。なお、実ハードウェアからの割り込みの際に論理区画１８００に通知されるハードウェアの識別子は、変換後の識別子である。

なお、一旦、現用サーバと予備サーバとを交替した後に、さらに別の現用サーバから同一の予備サーバに交替することができる。例えば、現用サーバ「Ｓ１」を予備サーバ「Ｓ５」の論理区画「Ｌ１」に交替後、別の現用サーバ「Ｓ２」を同一の予備サーバ「Ｓ５」の論理区画「Ｌ２」に交替することができる。このように、複数の現用サーバと１台の予備サーバとを交替することによって、予備サーバの台数を削減することができる。

＜第２実施形態＞
本発明の第２の実施の形態では、前述した第１の実施の形態の障害回復プログラム１１０において、リマッピングテーブル４１１の一部又は全部を自動的に作成する。なお、第２の実施の形態と第１の実施の形態との組み合わせも、また、本発明の実施形態の範疇に含まれる。

図１９は、本発明の第２の実施の形態の障害回復プログラム１１０の構成を示す図である。

障害回復プログラム１１０は、構成取得サブプログラム４０１、契機検知サブプログラム４０２、リマッピングサブプログラム４０３、論理区画構築サブプログラム４０４、ブートイメージ引継サブプログラム４０５、ハードウェア構成テーブル４１０、リマッピングテーブル４１１及びネットワーク構成テーブル４１２を含む。

図２０は、本発明の第２の実施の形態のネットワーク構成テーブル４１２の構成を示す図である。

ネットワーク構成テーブル４１２は、サーバ識別子フィールド（カラム２００１）、ネットワーク関連ハードウェアフィールド（カラム２００２）及び接続先フィールド（カラム２００３）を含み、計算機システムにおいて、サーバがネットワークを介して接続されている機器を示す。

サーバ識別子フィールド２００１には、サーバの識別子が格納される。

ネットワーク関連ハードウェアフィールド２００２には、カラム２００１によって特定されるサーバに備わる、ネットワークに関連するハードウェア構成要素の識別子が格納される。この識別子は、第１の実施の形態において、図５で示したハードウェア構成テーブル４１０に格納されるハードウェア構成要素の識別子と同じである。ネットワークに関連するハードウェアとは、例えば、ＮＩＣやＨＢＡ等のネットワークに接続されるハードウェアである。

接続先フィールド２００３には、カラム２００２によって特定されるハードウェアが接続されている接続先機器を示す。例えば、サーバ「Ｓ１」のＮＩＣ「0:0:NIC 0(MAC1)」は、ネットワークスイッチのポート「ＮＷ−ＳＷ０」に接続されている。接続先フィールド２００３に格納される接続先機器は、ネットワーク関連ハードウェアフィールド２００２に格納されるハードウェアとネットワークケーブルを介して直接接続されている機器でもよいし、途中にいくつかのネットワーク機器を経由して接続されている機器でもよい。例えば、ネットワークスイッチを経由して外部ディスク装置に接続されている場合には、その外部ディスク装置を接続先機器としてもよい。

図２１は、本発明の第２の実施の形態の構成取得サブプログラム４０１による処理のフローチャートを示す。前述した第１の実施の形態と異なるのは、ステップ２１０１及びステップ２１０２が追加され、ステップ１３０２が削除されている点である。

ステップ２１０１では、計算機システムの各サーバのネットワーク構成を取得し、ネットワーク構成テーブル４１２を作成する。各サーバのネットワーク構成情報は、ネットワーク経由で取得しても、ディスク等からファイルとして取得しても、各サーバでネットワーク構成取得プログラムを実行させて取得しても、ネットワークスイッチから取得しても、障害回復プログラム１１０のＧＵＩ等を利用しユーザの操作によって取得してもよい。取得されるネットワーク構成情報は、例えば、ネットワーク構成テーブル４１２（図２０参照）に含まれる情報である。

次に、ステップ２１０２では、ステップ２１０１で作成したネットワーク構成テーブル４１２に基づいて、リマッピングテーブル４１１を作成する。ネットワーク構成テーブル４１２に登録された現用サーバ及び予備サーバのハードウェア構成要素のうち、同一の機器に接続されているハードウェア構成要素を、それぞれ対応関係があるハードウェア構成要素とする。

例えば、図２０に示したネットワーク構成テーブル４１２では、サーバ「Ｓ３」のネットワーク関連ハードウェア「1:0:HBA 0(WWN5)」は、サーバ「Ｓ５」のネットワーク関連ハードウェア「2:0:HBA1 (WWN10)」と同一の機器「ＦＣ−ＳＷ１」に接続される。また、サーバ「Ｓ３」のネットワーク関連ハードウェア「1:0:HBA 1(WWN6)」は、サーバ「Ｓ５」のネットワーク関連ハードウェア「2:0:HBA 0(WWN9)」と同一の機器「ＦＣ−ＳＷ０」に接続される。よって、Ｓ３のリマッピングテーブル４１１（図２２）の、現用サーバフィールド６０２及び予備サーバフィールド６０３に示すとおり、「1:0:HBA 0」と「2:0:HBA 1」とが対応し、「1:0:HBA 1」と「2:0:HBA 0」とが対応する。

これによって、ネットワーク構成から自動的にリマッピングテーブル４１１を構築することができ、ユーザの入力操作等のユーザの手間を軽減できる。

なお、ステップ２１０２の処理のみではリマッピングテーブル４１１の全ての項目を作成できない場合には、ステップ２１０２の処理に加えて、前述した第１の実施の形態の図１３で示したステップ１３０２の処理を続けて実行してもよい。

第１の実施の形態の計算機システムの全体の構成を示すブロック図である。第１の実施の形態のサーバの構成を示すブロック図である。第１の実施の形態の管理サーバの構成を示すブロック図である。第１の実施の形態の障害回復プログラムの構成を示す図である。第１の実施の形態のハードウェア構成テーブルの構成を示す図である。第１の実施の形態のリマッピングテーブルの構成を示す図である。第１の実施の形態のリソースマッピングプログラムが、サーバで実行されている状態を示すブロック図である。第１の実施の形態のリソースマッピングプログラムによるハードウェア構成要素の論理区画への割り当ての概念を示す図である。第１の実施の形態のリソースマッピングプログラムの構成を示す図である。第１の実施の形態のリソースマッピングテーブルの構成を示す図である。第１の実施の形態の識別子変換テーブルの構成を示す。第１の実施の形態のサーバの引き継ぎ動作の全体を示すシーケンスである。第１の実施の形態の構成取得サブプログラムによる処理のフローチャートを示す。第１の実施の形態の契機検知サブプログラムによる処理のフローチャートを示す。第１の実施の形態のリマッピングサブプログラムによる処理のフローチャートを示す。第１の実施の形態の論理区画構築サブプログラムによる処理のフローチャートを示す。第１の実施の形態のブートイメージ引継サブプログラムによる処理のフローチャートを示す。第１の実施の形態のリソースマッピングプログラムによる論理区画ブート処理のフローチャートを示す。第２の実施の形態の障害回復プログラムの構成を示す図である。第２の実施の形態のネットワーク構成テーブルの構成を示す図である。第２の実施の形態の構成取得サブプログラムによる処理のフローチャートを示す。第２の実施の形態のリマッピングテーブルの構成を示す図である。

符号の説明

１０１管理サーバ
１０２Ａ、１０２Ｂ、１０２Ｃサーバ
１０３外部ディスク装置
１０４スイッチ（ＳＷ）
１０５管理ネットワークスイッチ（管理ＮＷ−ＳＷ）
１１０障害回復プログラム
１３１論理ユニット

Claims

業務が稼動する１台以上の現用サーバ、１台以上の予備サーバ、及び管理サーバを備える計算機システムにおいて実行され、前記現用サーバでの障害発生時に、前記予備サーバへ業務を引き継ぐために、前記管理サーバで実行される障害回復方法であって、
前記予備サーバ上には、一つ以上の論理区画が構築され、
前記予備サーバは、前記構築された各論理区画においてオペレーティングシステム上で実行され、当該予備サーバに備わるハードウェア構成要素を各論理区画にマッピングするリソースマッピングプログラムを含み、
前記方法は、
前記現用サーバ及び前記予備サーバに備わるハードウェアの構成要素を示すハードウェア構成情報を取得する構成情報取得ステップと、
前記現用サーバに備わるハードウェアの構成要素と前記予備サーバに備わるハードウェアの構成要素との対応関係及び前記ハードウェアの構成要素の状態を示すハードウェア対応情報を取得する対応関係取得ステップと、
前記現用サーバで障害が発生した場合に、前記現用サーバ及び前記予備サーバのハードウェア構成情報及び前記ハードウェア対応情報に基づいて、前記現用サーバの全てのハードウェアの構成要素に対応するハードウェアの構成要素を備え、その対応するハードウェアの構成要素の全てが利用可能な状態である予備サーバを、前記障害が発生した現用サーバで稼動していた業務を引き継ぐ予備サーバに決定する予備サーバ決定ステップと、
前記障害が発生した現用サーバのハードウェアの構成要素と前記予備サーバのハードウェアの構成要素とが同一でない場合に、前記ハードウェア対応情報に示される前記決定された予備サーバのハードウェアの構成要素の全てを、前記予備サーバに構築する論理区画に割り当てたリソースマッピング情報を作成し、前記論理区画と、前記論理区画に割り当てられた前記予備サーバのハードウェアの構成要素及びその識別子と、前記現用サーバのハードウェアの構成要素の識別子であり前記論理区画で実行されるソフトウェアから認識される前記論理区画上のハードウェアの構成要素の識別子と、の対応を含む識別子変換情報を作成し、前記予備サーバに構築する論理区画の構成を決定する論理区画構成決定ステップと、
前記リソースマッピング情報及び前記識別子変換情報に基づいて、前記決定された予備サーバに論理区画を構築する論理区画構築ステップと、
前記現用サーバで稼動していた業務を、前記決定された予備サーバに構築された前記論理区画に引き継ぐ引き継ぎステップと、を備えることを特徴とする障害回復方法。
前記論理区画構築ステップでは、前記現用サーバ及び前記予備サーバのハードウェア構成情報及び前記ハードウェア対応情報に基づいて、前記構築される論理区画に割り当てられるハードウェアを前記予備サーバの他の前記論理区画と共有することを、前記リソースマッピングプログラムに指示することを特徴とする請求項１に記載の障害回復方法。
前記予備サーバ決定ステップでは、前記論理区画が複数存在する場合に、前記現用サーバ及び前記予備サーバのハードウェア構成情報及び前記ハードウェア対応情報に基づいて、前記複数の論理区画で共有されるハードウェアが最も少ない予備サーバを優先的に選択することを特徴とする請求項２に記載の障害回復方法。
前記論理区画構築ステップでは、前記現用サーバ及び前記予備サーバのハードウェア構成情報及び前記ハードウェア対応情報に基づいて、前記構築される論理区画に割り当てられるハードウェアのエミュレーションを、前記リソースマッピングプログラムに指示することを特徴とする請求項１に記載の障害回復方法。
前記予備サーバ決定ステップでは、前記現用サーバ及び前記予備サーバのハードウェア構成情報及び前記ハードウェア対応情報に基づいて、前記現用サーバに冗長的に備わるハードウェア以外のハードウェアを備える予備サーバを優先的に選択することを特徴とする請求項１に記載の障害回復方法。
前記管理サーバは、前記現用サーバ及び前記予備サーバが備えるハードウェア構成要素が接続されるネットワーク機器の情報を保持するネットワーク構成テーブルを備え、
前記対応関係取得ステップでは、前記ネットワーク構成テーブルに基づいて、前記ハードウェア対応情報を取得することを特徴とする請求項１に記載の障害回復方法。
業務が稼動する１台以上の現用サーバ、前記現用サーバに障害が発生した場合に前記現用サーバで稼動していた業務を引き継ぐ１台以上の予備サーバ、及び管理サーバを備える計算機システムであって、
前記各サーバに備わるハードウェアは、前記各サーバで実行されるソフトウェアによって識別されるための識別子を有し、
前記管理サーバは、
前記現用サーバ及び前記予備サーバに備わるハードウェアの構成要素を示すハードウェア構成情報を取得し、
前記現用サーバに備わるハードウェアの構成要素と前記予備サーバに備わるハードウェアの構成要素との対応関係及び前記ハードウェアの構成要素の状態を示すハードウェア対応情報を取得し、
前記現用サーバで障害が発生した場合に、前記現用サーバ及び前記予備サーバのハードウェア構成情報及び前記ハードウェア対応情報に基づいて、前記現用サーバの全てのハードウェアの構成要素に対応するハードウェアの構成要素を備え、その対応するハードウェアの構成要素の全てが利用可能な状態である予備サーバを、前記障害が発生した現用サーバで稼動していた業務を引き継ぐ予備サーバに決定し、
前記障害が発生した現用サーバのハードウェアの構成要素と前記予備サーバのハードウェアの構成要素とが同一でない場合に、前記ハードウェア対応情報に示される前記決定された予備サーバのハードウェアの構成要素の全てを、前記予備サーバに構築する論理区画に割り当てたリソースマッピング情報を作成し、前記論理区画と、前記論理区画に割り当てられた前記予備サーバのハードウェアの構成要素及びその識別子と、前記現用サーバのハードウェアの構成要素の識別子であり前記論理区画で実行されるソフトウェアから認識される前記論理区画上のハードウェアの構成要素の識別子と、の対応を含む識別子変換情報を作成し、前記予備サーバに構築する論理区画の構成を決定し、
前記障害が発生した現用サーバで稼動していた業務の引き継ぎを、前記決定された予備サーバに指示し、
前記リソースマッピング情報及び前記識別子変換情報に基づいて、前記決定された予備サーバに備わるハードウェアの識別子の変換を前記予備サーバに指示し、
前記予備サーバは、前記業務引継指示及び前記識別子変換指示に基づいて、前記予備サーバに備わるハードウェアの識別子と論理区画におけるハードウェアの識別子とを変換し、前記現用サーバで稼動していた業務を引き継ぐことを特徴とする計算機システム。
業務が稼動する１台以上の現用サーバ、１台以上の予備サーバ、及び管理サーバを備える計算機システムに実装され、前記現用サーバに障害が発生した場合に、前記予備サーバへ業務を引き継ぐため制御をする管理サーバであって、
前記各サーバに備わるハードウェアは、前記各サーバで実行されるソフトウェアによって識別されるための識別子を有し、
前記管理サーバは、
前記現用サーバ及び前記予備サーバに備わるハードウェアの構成要素を示すハードウェア構成情報を取得し、
前記現用サーバに備わるハードウェアの構成要素と前記予備サーバに備わるハードウェアの構成要素との対応関係及び前記ハードウェアの構成要素の状態を示すハードウェア対応情報を取得し、
前記現用サーバで障害が発生した場合に、前記現用サーバ及び前記予備サーバのハードウェアの構成情報及び前記ハードウェア対応情報に基づいて、前記現用サーバの全てのハードウェアの構成要素に対応するハードウェアの構成要素を備え、その対応するハードウェア構成要素の全てが利用可能な状態である予備サーバを、前記障害が発生した現用サーバで稼動していた業務を引き継ぐ予備サーバに決定し、
前記障害が発生した現用サーバのハードウェアの構成要素と前記予備サーバのハードウェアの構成要素とが同一でない場合に、前記ハードウェア対応情報に示される前記決定された予備サーバのハードウェアの構成要素の全てを、前記予備サーバに構築する論理区画に割り当てたリソースマッピング情報を作成し、前記論理区画と、前記論理区画に割り当てられた前記予備サーバのハードウェアの構成要素及びその識別子と、前記現用サーバのハードウェアの構成要素の識別子であり前記論理区画で実行されるソフトウェアから認識される前記論理区画上のハードウェアの構成要素の識別子と、の対応を含む識別子変換情報を作成し、前記予備サーバに構築する論理区画の構成を決定する論理区画構成決定ステップと、
前記障害が発生した現用サーバで稼動していた業務の引き継ぎを、前記決定された予備サーバに指示し、
前記リソースマッピング情報及び前記識別子変換情報に基づいて、前記決定された予備サーバに備わるハードウェアの識別子の変換を前記予備サーバに指示することを特徴とする管理サーバ。
前記予備サーバは、前記識別子変換指示に基づいて、前記予備サーバに備わるハードウ
ェアの識別子と、前記論理区画におけるハードウェアの識別子とを変換することを特徴と
する請求項８に記載の管理サーバ。
前記予備サーバは、
前記予備サーバで実行されるソフトウェアからのハードウェアへの処理要求を取得し、
取得した処理要求の要求先である前記ハードウェアの識別子を前記予備サーバに備わる
実ハードウェアの識別子に変換し、
前記実ハードウェアに対して前記変換された識別子を含む処理要求を渡し、
前記実ハードウェアからの処理結果を取得し、
前記処理結果を前記予備サーバで実行されるソフトウェアにおけるハードウェアの識別
子と共に、前記ソフトウェアに渡すことを特徴とする請求項９記載の管理サーバ。